Udemy에서 Marc Lamberti의 'Apache Airflow: The Hands-On Guide'라는 강의를 들으며 데이터 파이프라인 구축에 대한 학습을 시작했다. airflow에 대한 소개는 생략하고 기초 개념들에 대해서만 서술하겠다.해당 강좌에서는 marc
기본 폼dag라는 객체는 데이터 파이프라인 그 자체이다. 'DAG()' 안의 파라미터 값들을 조정해서 dag를 생성한다.첫번째 파라미터 : 'dag id'dag id는 각각의 dag가 가진 유일한 id값을 의미한다.모든 dag id 중 겹치는 id값이 전혀 없어야 한다
데이터를 다루는 검증된 언어장점구조화된 데이터를 다루기 쉽다맵리듀스는 하이브단점비구조화된 데이터 다루기 어려움Spark, Hadoop 등으로 대체데이터를 다루는 자세깨끗한 데이터란 존재하지 않음믿을만 한지 항상 의심할 것실제 레코드를 살펴보는 것이 최고 (노가다)항상
Log - amazon s3 (storage) - Spark/amazon athena (ml용 sql) - amazon redshift머신러닝 모델의 입력으로 들어가는 feature을 배치로 미리 계산하는 경우amazon s3/amazon redshift - Spark