Data Warehouse

Sieun·2023년 2월 4일
1

Data Engineering

목록 보기
2/4
post-thumbnail

데이터 웨어하우스란

  • 데이터 웨어하우스(DW): 다양한 소스에서 얻은 대량의 데이터를 연결, 통합하는 디지털 스토리지 시스템

  • 데이터 웨어하우스의 목적: 비즈니스 인텔리전스(BI), 리포팅, 분석을 제공하고 규제 요구사항을 지원해 기업이 데이터를 인사이트로 전환하고 데이터 기반의 스마트한 의사결정을 지원한다. 데이터 웨어하우스는 현재와 과거의 데이터를 한 곳에 저장하며 조직의 단일 데이터 소스의 역할을 한다.


데이터 웨어하우스 vs 데이터레이크

데이터 웨어하우스와 데이터 레이크는 빅데이터를 저장하는 데 사용되지만, 매우 다른 특성을 지닌 스토리지 시스템이다.

데이터 웨어하우스

  • 어느 정도 가치가 있고, 구조화된 데이터들이 모여있는 곳이다.
  • 공간 제약이 있어 필요한 모든 데이터를 저장하지 않고 최근 데이터만 저장한다.
  • BI툴과 연결해 시각화하여 지표계산을 하는게 일반적이다.

데이터 레이크

  • 데이터 레이크는 처리되지 않은 원시 상태, 즉, 아직 정의되지 않은 데이터를 저장한다.
  • DW보다 용량이 크고 비용이 저렴하여 전체 기간 동안 수집된 모든 데이터를 저장한다.
    +) AWS의 S3의 경우, key를 기준으로 파티셔닝하여 데이터를 관리한다.


데이터 웨어하우스 vs 데이터베이스

데이터베이스와 데이터 웨어하우스는 모두 데이터 스토리지 시스템이지만 각각 다른 목적을 수행한다.

데이터베이스

  • 비즈니스 전체에 해당하는 현재 및 이력 데이터를 저장하며 BI와 분석을 제공한다.

데이터 웨어하우스

  • 특정 비즈니스 영역에 해당하는 데이터를 저장한다.
  • 데이터베이스 서버를 사용해 기업 데이터베이스에서 데이터를 가져오고 데이터 모델링, 데이터 수명주기 관리, 데이터 소스 통합 등을 위한 추가적인 기능을 갖추고 있다.

데이터 웨어하우스 vs 데이터 마트

데이터 마트는 데이터 웨어하우스의 하위 섹션으로, 영업, 마케팅 또는 재무와 같은 부서 또는 사업부를 위해 분할되어 있다.
데이터 마트는 오직 운영 목적으로만 생성되기도 한다.

데이터 웨어하우스

  • 기업 전반의 중앙 데이터 스토리지 역할을 한다.

데이터 마트

  • 일부 선택된 사용자 그룹에게 관련 데이터를 제공한다.
    → 데이터 액세스를 간소화하고, 분석 속도를 높이며, 자체 데이터에 대한 통제력을 부여한다.
  • 여러 개의 데이터 마트가 데이터 웨어하우스 내에 배포되기도 한다.


데이터 웨어하우스의 구성요소

1. 중앙 데이터베이스
데이터베이스는 데이터 웨어하우스의 기반이 된다. 전통적으로 이러한 표준 관계형 데이터베이스는 온프레미스나 클라우드에서 운영되었다. 하지만 빅데이터, 진정한 실시간 성능에 대한 필요성, RAM 비용의 급격한 하락으로 인해 인메모리 데이터베이스가 빠르게 인기를 얻고 있다.

2. 데이터 통합
데이터는 소스 시스템에서 추출되어 ETL(추출, 변환, 로드) 및 ELT를 비롯해 실시간 데이터 복제, 벌크 로드 처리, 데이터 변환, 데이터 품질 및 강화 서비스와 같은 데이터 통합 접근 방법을 활용하는 빠른 분석 이용에 잘 맞게 정보를 사용하도록 수정된다.

3. 메타데이터
메타데이터는 회사의 데이터에 관한 데이터를 말한다. 즉 데이터 웨어하우스의 데이터 세트의 소스, 사용, 값 및 기타 기능을 지정한다. 데이터에 컨텍스트를 추가하는 비즈니스 메타데이터와 보관 위치 및 구성 방법을 포함하여 데이터에 액세스하는 방법을 설명하는 기술 메타데이터가 있다.

4. 데이터 웨어하우스 액세스 툴
액세스 툴은 사용자가 데이터 웨어하우스의 데이터와 상호작용할 수 있도록 지원한다. 액세스 툴로는 쿼리 및 리포팅 툴, 애플리케이션 개발 툴, 데이터 마이닝 툴, OLAP 툴이 있습니다.


데이터 웨어하우스 아키텍처

1. 데이터 계층(Data Layer)
데이터는 소스에서 추출해 ETL 툴을 사용해 하위 계층으로 변환 및 로드된다. 하위 계층은 데이터베이스 서버, 데이터 마트, 데이터 레이크로 구성되어 있다. 메타데이터는 이 하위 계층에서 생성되며, 데이터 가상화와 같은 데이터 통합 툴은 데이터를 원활하게 결합하고 집계하는 데 사용된다.
⬇️
2. 의미 계층(Sementics layer)
중간 계층에는 온라인 분석 처리(OLAP)와 온라인 트랜잭션 처리(OLTP) 서버가 데이터를 재구성해 빠르고 복잡한 쿼리와 분석을 시행한다.
⬇️
3. 분석 계층(Analytics Layer)
상위 계층은 Front-end 클라이언트 계층이다. 여기에서는 사용자가 데이터와 상호작용하고 대시보드와 리포트를 생성하며 KPI 모니터링, 데이터 분석, 앱 구축 등 데이터 웨어하우스 액세스 툴을 보유하고 있다. 이 계층에는 데이터 탐색과 신규 데이터 모델 개발을 위한 워크벤치나 샌드박스 영역이 포함 경우도 있다.


참고문헌
https://www.sap.com/korea/insights/what-is-a-data-warehouse.html
https://pearlluck.tistory.com/650

profile
AI/ML 공부중👩🏻‍💻

0개의 댓글