현 회사에서는 데이터 ETL을 자사 솔루션을 통해 하기에 다른 곳에서는 어떤 방식으로 하는 지 궁금하기에 조사를 해봤다.
그 와중에 Apache Airflow / Apache NiFi 를 많이 듣게 됬고, Airflow 에 대해서 조사를 해봤다.
Airflow는 프로그래밍 방식으로 워크플로우를 작성,스케줄링 및 모니터링하는 오픈 소스 플랫폼이고 에어비앤비에서 만들어졌다.
Airflow 특징으로는
Scheduler
실행 주기가 되면 작업 생성
의존 작업이 모두 성공되면 Broker에게 넘김
Worker
실행 주기가 되면 작업을 생성
Broker
실행가능한 작업들이 들어가는 공간
Meta DB
DAG, Task 등이 정의되어있음
DAG run, Task Instance 관리