[TIL 31일차] 데브코스 데이터엔지니어링

heering·2023년 5월 22일
0

Tip

회사 면접 시에 질문하면 좋은 것: 사용하고 계신 데이터 웨어하우스 기술이 무엇인가요.

MLOps

Data drift 현상 해결하기 위해 나온 것이 MLOps

데이터 디스커버리

데이터가 커지면 테이블과 대시보드의 수가 증가 → 데이터 분석 시에 어느 테이블이나 대시보드를 봐야하는지 혼란 생김 → 그러면 또 새로운 테이블이나 대시보드를 또 만들어냄 (😕..) → 정보 과잉 문제가 더 심해짐

  • 데이터 팀이 커지면 필요한 서비스
  • 종류: 리프트의 아문센, 링크드인의 데이터허브, 셀렉트스타

데이터 웨어하우스

기본적으로 클라우드가 대세.

  • 고정비용: AWS의 Redshift
  • 가변비용: Google Cloud의 BigQuery, Snowflake

데이터 레이크

  • 구조화 데이터 + 비구조화 데이터(로그 파일)
  • 보존 기한이 없는 모든 데이터를 원형 보존하는 스토리지에 가까움.
  • 보통 데이터 웨어하우스보다 몇 배 더 규모가 크고, 더 경제적임.
  • 데이터 레이크가 있는 환경에서 ETL & ELT
ETLELT
데이터 레이크 & 데이터 웨어하우스 바깥 → 안으로 데이터를 가져옴데이터 레이크와 데이터 웨어하우스 에 있는 데이터를 처리함

0개의 댓글