# data engineering
Airflow DAG 작성하기
DAG 작성 DAG는 크게 DAG인스턴스를 생성하는 부분, Operator(task)를 생성하는 부분, task간 의존성을 설정하는 부분으로 나뉜다. DAG 인스턴스 생성 DAG 클래스의 인스턴스를 생성해준다. Operator들은 이렇게 생성한 dag 인스턴스를 참조

Airflow 란?
데이터 엔지니어링 직무를 알아보면서 가장 많이 접했던 용어는 '데이터 파이프라인'이었다. 그리고 이 데이터 파이프라인을 설계 하는데 가장 큰 파이를 차지하고 있는 Airflow를 심도있게 학습해야겠다고 생각했다.Apache Airflow 기반의 데이터 파이프라인 (원제
20230523 TIL - Redshift (2)
오늘의 학습 : AWS Redshift - 권한과 보안, 백업과 데이터 복구, Redshift Spectrum, Redshift ML

Airflow 소개
Airbnb에서 만든 워크플로우 관리 툴Python framework를 이용하여 배치 지향 워크플로우(batch-oriented workflow)를 프로그래밍 방식으로 작성하고 스케쥴링 및 모니터링하는 플랫폼워크플로우를 Task의 비순환 그래프(directed acy
Plotly 공부
histogramgo를 사용하면 오른쪽에 그래프를 끌 수 있는 버튼이 생기는데 px는 없다.why?) modBar 속성이 go에만 존재하는데 -> 기존에는 disabled 처리 되어있다가 그 속성이 subplot으로 inherited되면서 enable처리 됨(추측)

Apache Airflow의 동시성 설정 이해하기 - 이론편
최근 필자의 팀에서 운영하던 Airflow가 갑작스럽게 병렬 처리되는 Task가 급격하게 증가하며 오랜 시간 대기 상태에 빠져 기존에 수행되던 파이프라인에 장애가 발생하기 시작했다. 그렇다면 동시성에 영향을 주는 요소는 무엇이 있을까?
Parquet이란?
회사 코드를 보니 data lake로 사용되는 s3에 데이터를 올릴 때 pandas의 to_parquet 메서드를 활용해 parquet 형태로 변환 해서 저장하는 것을 보았다.새로 보는 형식이어서 저장하려고 한다.Parquet는 나무조각을 붙여 만든 마루바닥이라는 뜻으
Hadoop 생태계 이해하기
Hadoop 플랫폼의 주요 벤더인 Hortonworks는 하둡을 이렇게 정의.범용 하드웨어로 구축된 컴퓨터 클러스터의 아주 방대한 데이터 세트틀 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼오픈 소스 한대의 PC가 아닌 컴퓨터 클러스터에서 작동하는 소프트웨어 묶

[Airflow] 에어플로우란? 기초 개념 및 장단점
* 참고 : Apache Airflow 기반의 데이터 파이프라인 도서, Airflow documentation 1. Airflow란? --- Apache Airflow는 초기 에어비엔비(Airfbnb) 엔지니어링 팀에서 개발한 워크플로우 오픈 소스 플랫폼 _ **