이론 꾸준하기 공부하기! 학부때 공부했던 내용 복습하기!
잊어버리지 말기!!!

1. 데이터레이크
- 모든 종류의 데이터(구조화, 반구조화, 비구조화) 즉, 원시 데이터를 있는 그대로 저장
- 데이터 그대로 저장
- 빅데이터 분석, 머신러닝, 데이터 아카이빙에 사용
- 필요할 때 처리 및 분석할 수 있음.
2. 데이터웨어하우스
- 구조화(정형화)된 데이터만 저장
- 데이터는 ETL(Extract 추출, Transform 변환, Load 적재) 과정을 거쳐 정리되고 구조화된 상태로 저장됨.
- 비즈니스 인텔리전스나 의사결정지원시스템에서 사용
- 정형화된 데이터란 표 형태로 구조화된 데이터를 말함.
3. 데이터케이스
- 데이터 레이크의 유연성 + 데이터웨어하우스의 구조화된 데이터 제공을 모두 갖춤.
4. 데이터마트
- 구조화된 데이터 (데이터웨어하우스를 사용하기 때문에)
- 데이터웨어하우스의 작은 부분 집합
- 특정 부서나 사용자 그룹의 요구를 충족시키기 위해 설계된 데이터 저장소
AWS, Oracle, HDFS는
- 데이터레이크, 데이터웨어하우스, 데이터마트를 구축하는 가상물리공간.
스파크란?
빅데이터 처리를 위한 고속 분산처리 엔젠 시스템
장점: 파이썬으로 스파크 환경을 접근해서 파이썬 언어로 스파크를 사용할 수 있다는 장점이 있음. -> 이것을 파이스파크라고 함.
시간 절약, 데이터를 스카를 사용하면 굳이 테이블을 나눠서 작업할 필요가 없음! 효율적인 측면에서 월등히 뛰어남.