SQL
- DDL:Data Definition Language, 테이블의 구조를 정의하는 언어
- DML:Data Manipulation Language, 테이블에서 원하는 레코드들을 읽어오는 질의 언어, 테이블에 레코드를 추가/삭제/갱신해주는데 사용하는 언어
- 모든 대용량 데이터 웨어하우스는 SQL 기반
- 단점: 비정형 데이터 처리 못함 → Spark, Hadoop과 같은 분산 컴퓨팅 환경 필요
대표적 관계형 DB
- 프로덕션 데이터베이스 (MySQL, PostgreSQL, Oracle, ...)
- 데이터 웨어하우스 (AWS Redshift, Snowflake, BigQuery, Hive, ... )
데이터 웨어하우스
- 고객이 아닌 내부 직원(데이터 팀원)을 위한 데이터베이스(처리속도보다 데이터 크기가 더 중요)
- 데이터 파이프라인: 외부에 존재하는 데이터를 읽어다가 데이터웨어하우스로 저장해주는 코드들이 필요해지는데 이걸 ETL(=Extract transform load) 내지 데이터 파이프라인이라 함
- 데이터 웨어하우스에는 Denormalized Schema가 Star Schema 방식보다 상대적으로 더 적합함