[week3] airflow 스터디: ETL/Airflow 소개

eve·2023년 1월 29일
0

airflow

목록 보기
4/4

비구조화된 데이터 처리하기

시나리오 1

Log - amazon s3 (storage) - Spark/amazon athena (ml용 sql) - amazon redshift

시나리오 2 (병렬처리)

머신러닝 모델의 입력으로 들어가는 feature을 배치로 미리 계산하는 경우
amazon s3/amazon redshift - Spark (배치로 서빙) - NoSQL (Key:Value Storage - Reco API/ML model

ETL이란?

Extract, Transform and Load

  • ETL: 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스

  • ELT: 데이터 웨어하우스 내부 데이터를 조작해서 (추상화되고 요약된) 새로운 데이터를 생성하는 프로세스

    * 이 경우 데이터 레이크를 사용하기도 함

    DBT가 가장 유명한 기술 (Analytics Engineering)

profile
유저가 왜 그랬을까

0개의 댓글