# data pipelines

2개의 포스트
post-thumbnail

[Airflow] 에어플로우란? 기초 개념 및 장단점

* 참고 : Apache Airflow 기반의 데이터 파이프라인 도서, Airflow documentation 1. Airflow란? --- Apache Airflow는 초기 에어비엔비(Airfbnb) 엔지니어링 팀에서 개발한 워크플로우 오픈 소스 플랫폼 _ ** 워크플로우란? : 의존성으로 연결된 작업(Task)들의 집합_ (ex) ETL의 경우 Extractaction > Transformation > Loading 의 작업의 흐름 프로그래밍 방식으로 워크플로우를 작성, 예약 및 모니터링 2. Airflow 기본 구성 및 작동 원리 (1) Airflow Key Concept a. DAG (Dir

2022년 11월 28일
·
0개의 댓글
·

[Data Pipelines] Airflow 콘텍스트를 사용하여 태스크 템플릿 작업하기

Airflow로 처리할 데이터 검사하기 증분 데이터를 적재하는 방법 결정하기 어떤 종류의 데이터로 작업을 하든지 zip파일 다운로드, 압축풀기, 데이터 추출 이 과정은 필수적인 사항이다. 크고 작은 모든 데이터는 구조가 복잡할 수 있으며 파이프라인을 구축하기 전에 접근 방식에 대한 기술적 계획을 세우는 것이 중요하다. 데이터 파이프라인을 개발하기 위해서는 데이터를 증분 방식으로 적재하는 방법과 데이터를 다루는 방법을 이해해야 한다.         태스크 콘텍스트와 Jinja 템플릿 작업 위키피디아 페이지 뷰 수를 가져오는 DAG의 첫 번째 버전을 만들어 보자. 데이터를 다운로드하고, 추출하고, 읽는 것으로 먼저 시작한다. 첫 번째 단계는 주기마다 압축 파일을 다운로드하는 것이다. URL은 다양한 날짜 및 시간 구성 요소로 구성된다. http://dumps.wikimedia.org/other/pageviews/{year}/{y

2022년 8월 24일
·
0개의 댓글
·