profile
데이터 엔지니어로 전향중인 백엔드 개발자입니다
post-thumbnail

Apache-Airflow(2) : 스케줄링

Download Data(API로 호출) -> Process Data(Spark로 처리) -> Store Data(Insert/Update)

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

Apache-Airflow(1) : 개요

진행중인 프로젝트에서 배치성으로 분석해야 하는 데이터들이 생겼다. 주기적으로 데이터를 받아 분석해야 했기에, 해당 작업 내용을 듣자마자 Airflow가 생각이 났다.데이터를 받고해당 데이터를 원하는 형태로 전처리 한 다음해당 데이터를 저장한다새로이 저장한 데이터를 분석

2022년 9월 12일
·
0개의 댓글
·
post-thumbnail

AWS - Glue(2) : 사용

데이터 엔지니어링에 관한 이론적인 공부만 하다가, AWS Glue를 사용할 일이 생겼다.S3에 csv 파일로 저장되어 있는 데이터를 AWS Glue를 사용하여 parquet로 변환한 후, Athena를 이용하여 데이터를 분석할 예정이다AWS Glue의 크롤러에 들어간다

2022년 8월 15일
·
0개의 댓글
·
post-thumbnail

AWS - Glue(1) : 개념과 특징

AWS Glue란?완전 관리형 데이터 추출, 변환 및 로드(ETL) 서비스Data Store : S3, RDS, Redshift, Kinesis, Apache kafka 등 데이터 저장 서비스 혹은 데이터 스트림 서비스Crawler(크롤러) : Classifier의 우

2022년 8월 14일
·
0개의 댓글
·