Log - amazon s3 (storage) - Spark/amazon athena (ml용 sql) - amazon redshift
머신러닝 모델의 입력으로 들어가는 feature을 배치로 미리 계산하는 경우
amazon s3/amazon redshift - Spark (배치로 서빙) - NoSQL (Key:Value Storage - Reco API/ML model
Extract, Transform and Load
ETL: 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스
ELT: 데이터 웨어하우스 내부 데이터를 조작해서 (추상화되고 요약된) 새로운 데이터를 생성하는 프로세스
* 이 경우 데이터 레이크를 사용하기도 함
DBT가 가장 유명한 기술 (Analytics Engineering)