🥞 BE
home

Airflow란?

Date
2024/03/08
Category
Data Engineering
Tag
Apache Airflow
Detail

Apache Airflow는 무엇인가?

데이터 파이프라인 관리, 스케줄링, 모니터링 및 워크플로우 자동화 위한 오픈 소스 플랫폼
데이터 파이프라인이란?
ETL(Extract, Transform, Load) 파이프라인을 포함한 다양한 데이터의 흐름의 과정
데이터 수집, 데이터 처리, 데이터 저장, 모니터링 및 유지보수, 데이터 분석
스케줄링이란?
특정 작업을 실행하는 시기, 주기를 설정
모니터링이란?
Airflow web UI로 현재 실행 중인 작업 및 이력을 시각적으로 모니터링 → 작업의 상태, 실행 시간, 성공 또는 실패 여부 등을 실시간으로 추적
More

Apache Airflow는 왜 많이 사용하는가?

유연한 작업 스케줄링
Airflow는 크론 표현식과 사용자 정의 스케줄링 옵션을 사용하여 작업의 실행 시간을 정의
작업 간의 의존성을 고려하여 실행 순서를 정확하게 관리
강력한 모니터링 및 알림 기능
작업 실행 이력을 기록하고 모니터링 대시보드를 제공하여 작업 상태를 실시간으로 확인
이메일, Slack 등의 방법을 통해 작업 실행 결과에 대한 알림을 받을 수 있습니다.

Apache Airflow는 어떤 서비스에서 쓰이는가?

LINE Financial Data Platform - Kubernetes를 이용한 효율적인 데이터 엔지니어링
2021-01-06
LINE Financial의 다양한 서비스 데이터를 하나의 금융 데이터 플랫폼으로 모으고, 이렇게 수집한 데이터를 처리하고 가공해 다양한 플랫폼의 사용자에게 유의미한 데이터를 제공하는 역할로 사용합니다.
버킷플레이스 Airflow 도입기
2021년 4월 14일
젠킨스의 한계 → 모니터링 기능, 확장성, 정교한 파이프라인의 구축이 가능한 Airflow로 전환
LINE의 엔드 투 엔드 MLOps 플랫폼, MLU
2023-03-31
LINE의 MLOps 플랫폼인 MLU의 모든 워크플로우를 Apache Airflow를 이용해 자동화 및 스케줄링했습니다.
Astronomer - Building and Deploying LLM Applications with Apache Airflow
2023. 10. 2.
텍스트 전처리, 텍스트 벡터화와 같은 데이터 처리 자동화를 Airflow를 통해서 수행합니다.
ChatGPT 답변에 대한 유저 피드백 수집, 좋은 ChatGPT 답변 저장, 좋은 프롬프트 저장
그 외에 국내 Airflow 사용 기업

우리는 Apache Airflow를 어떻게 활용하면 좋을까?

Advance Session을 위해 프로젝트에서 활용할 수 있는 부분
데이터 수집 및 전처리
데이터베이스 간 ETL
최신 머신러닝 모델 훈련 및 배포

Reference