Apache Airflow는 무엇인가?
•
데이터 파이프라인 관리, 스케줄링, 모니터링 및 워크플로우 자동화 위한 오픈 소스 플랫폼
◦
데이터 파이프라인이란?
▪
ETL(Extract, Transform, Load) 파이프라인을 포함한 다양한 데이터의 흐름의 과정
▪
데이터 수집, 데이터 처리, 데이터 저장, 모니터링 및 유지보수, 데이터 분석
◦
스케줄링이란?
▪
특정 작업을 실행하는 시기, 주기를 설정
◦
모니터링이란?
▪
Airflow web UI로 현재 실행 중인 작업 및 이력을 시각적으로 모니터링 → 작업의 상태, 실행 시간, 성공 또는 실패 여부 등을 실시간으로 추적
More
Apache Airflow는 왜 많이 사용하는가?
•
유연한 작업 스케줄링
◦
Airflow는 크론 표현식과 사용자 정의 스케줄링 옵션을 사용하여 작업의 실행 시간을 정의
◦
작업 간의 의존성을 고려하여 실행 순서를 정확하게 관리
•
강력한 모니터링 및 알림 기능
◦
작업 실행 이력을 기록하고 모니터링 대시보드를 제공하여 작업 상태를 실시간으로 확인
◦
이메일, Slack 등의 방법을 통해 작업 실행 결과에 대한 알림을 받을 수 있습니다.
Apache Airflow는 어떤 서비스에서 쓰이는가?
LINE Financial Data Platform - Kubernetes를 이용한 효율적인 데이터 엔지니어링
•
2021-01-06
•
LINE Financial의 다양한 서비스 데이터를 하나의 금융 데이터 플랫폼으로 모으고, 이렇게 수집한 데이터를 처리하고 가공해 다양한 플랫폼의 사용자에게 유의미한 데이터를 제공하는 역할로 사용합니다.
버킷플레이스 Airflow 도입기
•
2021년 4월 14일
•
젠킨스의 한계 → 모니터링 기능, 확장성, 정교한 파이프라인의 구축이 가능한 Airflow로 전환
LINE의 엔드 투 엔드 MLOps 플랫폼, MLU
•
2023-03-31
•
LINE의 MLOps 플랫폼인 MLU의 모든 워크플로우를 Apache Airflow를 이용해 자동화 및 스케줄링했습니다.
Astronomer - Building and Deploying LLM Applications with Apache Airflow
•
2023. 10. 2.
•
텍스트 전처리, 텍스트 벡터화와 같은 데이터 처리 자동화를 Airflow를 통해서 수행합니다.
•
ChatGPT 답변에 대한 유저 피드백 수집, 좋은 ChatGPT 답변 저장, 좋은 프롬프트 저장
그 외에 국내 Airflow 사용 기업
우리는 Apache Airflow를 어떻게 활용하면 좋을까?
•
Advance Session을 위해 프로젝트에서 활용할 수 있는 부분
•
데이터 수집 및 전처리
•
데이터베이스 간 ETL
•
최신 머신러닝 모델 훈련 및 배포