# Apache Airflow

[플레이데이터] Apache 에어플로우(Airflow)
airflow란 AirBnB에서 만든 workflow management tool여기서 workflow는 일련의 작업의 흐름을 의미함예를 들어 ETL 같은 경우, 데이터를 Extractaction(추출) -> Transformation(변환) -> Loading(로드)

[AWS] Managed Workflows for Apache Airflow (MWAA) 알아보기 - 1
📝서론 3월이 되면서 담당하는 서비스를 대폭(?) 늘리게 되었는데, Managed Workflows for Apahce Airflow도 그 대상 중 하나였습니다. 다른 서비스들에 비해 AWS에서 출시된지 그리 오래되지 않았음에도 불구하고 최근 들어 꽤나 많이 쓰이는

Airflow설치하기
사전에 airflow라는 계정을 만들어 root 권한을 부여하였고 root 그룹에 추가한 계정으로 진행하였다.Untitledmysqlclient 설치안되는 문제 : https://bobbyhadz.com/blog/python-failed-building-whe

Airflow란?
Apache Airflow는 배치 지향 워크플로우를 개발, 예약 및 모니터링 하기 위한 오픈 소스 플랫폼이다. 복잡한 과정을 python framework를 통해 workflow를 코드로 정의하고 제어할 수 있다는 장점이 있다.Airflow의 가장 큰 특징은 워크플로를

Apache Airflow의 동시성 설정 이해하기 - 이론편
최근 필자의 팀에서 운영하던 Airflow가 갑작스럽게 병렬 처리되는 Task가 급격하게 증가하며 오랜 시간 대기 상태에 빠져 기존에 수행되던 파이프라인에 장애가 발생하기 시작했다. 그렇다면 동시성에 영향을 주는 요소는 무엇이 있을까?

배치 & 스케쥴러 [ batch & scheduler ]
배치는 대용량 처리를 하기 위한 시스템 및 프로그램을 의미한다스케쥴러는 정해진 시간에 정해진 작업을 수행하는 프로그램을 의미한다API Call 혹은 주기적인 Scraping 등 무언가 대용량 처리가 아니라도, 스케쥴러를 사용해도 문제가 없다.모든 것을 스케쥴러를 사용해