데이터 레이크(Data Lake), 데이터 웨어하우스(Data Warehouse), 데이터 마트(Data Mart)

민정·2023년 11월 11일
0

DE

목록 보기
1/2

🟡 데이터 레이크, 데이터 웨어하우스, 데이터 마트

⚪️ 데이터 레이크

원시 데이터 세트: 어떠한 형태의 데이터든 형태에 관여받지 않고 그대로 저장하는 데이터 저장소
=> 가공되지 않은 모든 데이터를 저장 !
데이터 탐색, 데이터 분석 및 기계학습에 사용

일단 저장하고, 사용할 때 스키마를 읽는 방식

🟧 데이터 레이크의 흐름

  1. 데이터 획득 : 데이터는 다양한 곳으로부터, 다양한 형태로 존재. 따라서 이것을 획득하기 위한 다양한 메커니즘이 필요로 한다. Raw 데이터는 그대로 유지한다.
  2. 데이터 처리 : 획득한 데이터는 머신 러닝을 이용한 추천 및 비즈니스 통찰력 같은 의미 있는 정보를 도출하기 위해 처리 된다.
  3. 데이터 분석: 쉽게 접근할 수 있게 데이터를 분석 요구사항에 맞게 필요한 형태로 분석한다.
  4. 데이터 저장: 분석된 데이터를 적합한 데이터 저장소 시스템에 저장한다.

⚪️ 데이터 웨어하우스

의사결정 지원 시스템- 조직 전체의 여러 소스들로부터 데이터를 저장하고 처리하여 분석을 활성화 및 지원하기 위해 설계된 데이터 관리 시스템

🟧 데이터 웨어하우스 특성

  • 주제 지향적 : 접근 가능한 주제 중심으로 데이터 구성
  • 통합적 : 데이터의 정합성과 물리적 일관성을 갖는 구조
  • 비휘발성 : 데이터 갱신이 발생하지 않는 조회 전용 데이터
  • 시계열적 : 시간에 따른 변경을 항상 반영하고 있어야 함

데이터 마트에 공급하게 될 다양한 원천에서 수집하여 주제별로 저장하는 데이터 도매점과 같은 공간이라고 생각하면 된다.


⚪️ 데이터 마트

  • 단일 주제 또는 LOB(Line Of Business)에 초점을 맞춘 단순한 형태의 데이터 웨어하우스
  • 기업 내 특정 팀 또는 LOB가 요청한 데이터에 대한 손쉬운 엑세스를 제공
  • 데이터 마트를 사용해 데이터에 빠르게 액세스하고, 인사이트를 신속하게 얻을 수 있음
  • 필요한 데이터가 보고서, 대시보드 및 시각화 자료로 생성되기 전에 수집 및 정리되는 중앙화된 공간으로 이용된다.

🟧 데이터 마트의 장점

  • SSOT(Single Source Of Truth, 단일 지식 공급원)

    • 데이터를 기반으로 한 예측을 신뢰할 수 있고, 이해 관계자들은 데이터 자체에 대한 논쟁을 벌이는 대신 의사결정 도출과 조치 실행에 집중 가능
    • 데이터 마트의 중앙화된 특성은 부서 또는 기업의 모든 구성원이 동일한 데이터를 기반으로 의사결정을 내릴 수 있게 해줌
  • 데이터 액세스 가속화

    • 원하는 데이터 소스에 대한 연결이 설정되면, 주기적인 데이터 추출을 위해 데이터 마트로부터 라이브 데이터를 얻을 수 있음
    • 특정 비즈니스 팀과 사용자들은 기업의 데이터 웨어하우스 내 필요한 데이터와 하위 집합에 신속하게 액세스 가능하며 이를 다양한 소스로부터 수집한 데이터와 결합 가능
  • 빠른 의사결정을 가능하게 하는 빠른 인사이트

    • 분석가들은 재무, HR 등의 영역이 직면한 특정 도전과 기회에 집중해 데이터 인사이트를 보다 신속하게 도출 가능
    • 데이터 웨어하우스가 엔터프라이즈급 의사결정을 가능하게 한다면, 데이터 마트는 부서 수준의 데이터 분석을 가능하게 함
  • 보다 단순하고 신속한 구현

    • 기업 전체의 요구사항을 충족시킬 데이터 웨어하우스 구축은 상당한 시간이 필요한 반면에 데이터 마트는 특정 비즈니스 팀의 요구사항에 중점을 둘 수 있음
  • 민첩하고 확장 가능한 데이터 관리 구현

    • 팀은 신규 분석 프로젝트 및 진행중인 분석 프로젝트를 기반으로 데이터 마트를 업데이트 및 변경 가능
    • 비즈니스 요구 사항에 맞는 민첩한 데이터 관리 시스템 제공

참고

데이터 웨어하우스/데이터마트/데이터 레이크란?
[개념정리]-Data Mart, Data Warehouse, Data Lake

profile
공부 기록장

0개의 댓글