[TIL 21일차] 데브코스 데이터엔지니어링

heering·2023년 5월 8일
0

SQL

  • DDL:Data Definition Language, 테이블의 구조를 정의하는 언어
  • DML:Data Manipulation Language, 테이블에서 원하는 레코드들을 읽어오는 질의 언어, 테이블에 레코드를 추가/삭제/갱신해주는데 사용하는 언어
  • 모든 대용량 데이터 웨어하우스는 SQL 기반
  • 단점: 비정형 데이터 처리 못함 → Spark, Hadoop과 같은 분산 컴퓨팅 환경 필요

대표적 관계형 DB

  • 프로덕션 데이터베이스 (MySQL, PostgreSQL, Oracle, ...)
  • 데이터 웨어하우스 (AWS Redshift, Snowflake, BigQuery, Hive, ... )

데이터 웨어하우스

  • 고객이 아닌 내부 직원(데이터 팀원)을 위한 데이터베이스(처리속도보다 데이터 크기가 더 중요)
  • 데이터 파이프라인: 외부에 존재하는 데이터를 읽어다가 데이터웨어하우스로 저장해주는 코드들이 필요해지는데 이걸 ETL(=Extract transform load) 내지 데이터 파이프라인이라 함
  • 데이터 웨어하우스에는 Denormalized Schema가 Star Schema 방식보다 상대적으로 더 적합함

0개의 댓글