데이터 레이크와 데이터 웨어하우스

Jayce_97·2023년 7월 13일
0

Computer Science

목록 보기
4/7
post-thumbnail

이번 시간에는 데이터 관리 및 분석을 위한 주요 아키텍처에 대해 배워보도록하겠습니다.

아키텍처란?
아키텍처(Architecture)는 시스템이나 소프트웨어의 구조와 구성 요소, 상호 작용 방식, 설계 원칙 등을 설계하고 정의하는 개념입니다. 시스템 또는 소프트웨어의 기능, 성능, 확장성, 보안 등을 결정하는 중요한 역할을 합니다.


Data Lake(데이터 레이크)

원천 데이터가 수집되는 장소이며, 빅데이터 시대에 다양한 형태의 데이터가 생겨나며 이것을 한 곳에 저장하기위해 등자하였습니다.

특징

  • 대량의 다양한 원시 데이터를 수집하고 저장하는 저장소입니다.
  • 구조화되지 않은(raw) 데이터, 반정형 데이터, 비정형 데이터 등을 수용합니다.
  • 데이터의 원본 형태를 보존하므로 데이터를 저장하기 전에 변환 또는 스키마를 정의하는 과정이 필요하지 않습니다.
  • 데이터 과학자, 분석가 및 비즈니스 사용자가 필요한 데이터를 추출, 변환 및 로드(ETL)하여 분석하고 가치를 추출하는 데 사용됩니다.

스키마란?

  • 데이터베이스의 구조와 제약 조건에 대해 전반적인 명세를 기술한 메타데이터의 집합
  • 데이터베이스를 구성하는 데이터 개체(Entity), 속성(Attribute), 관계(Realationship) 및 데이터 조작 시 데이터 값들이 가지는 제약 조건등에 관한 전반적인 정의
    즉, 스키마란 한마디로 정의하면 ‘데이터의 구조’ 또는 ‘데이터베이스의 설계’ 를 의미합니다.
    ETL이란?
  • 추출(Extract), 변환(Transform), 로드(Load)를 나타내며 조직에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 허용되는 방법
  • 스키마의 구조

    그림 출처: https://coding-factory.tistory.com/216

Data Warehouse(데이터 웨어하우스)

여러 데이터를 보기 좋게 변형하고, 특정 기준에 맞게 잘 정렬해 놓은 데이터 베이스입니다.

특징

  • 비즈니스 분석을 위해 구축된 통합된 데이터 저장소입니다.
  • 데이터를 구조화하고, 정제하며, 통합하여 데이터를 제공합니다.
  • 주로 업무 응용 프로그램에서 사용되는 표준화된 데이터를 저장합니다.
  • 데이터의 통합, 품질 관리, 요약, 집계, 시각화 등의 기능을 제공하여 사용자가 비즈니스 인텔리전스, 리포팅, 분석, 예측 등을 수행할 수 있도록 합니다.

차이점

  • 데이터 형태
    • 데이터 레이크는 구조화되지 않은 원시 데이터를 저장합니다.
    • 데이터 웨어하우스는 구조화된 데이터를 저장합니다.
  • 데이터 통합
    • 데이터 레이크는 데이터를 그대로 보존하므로 통합 단계가 필요하지 않습니다.
    • 데이터 웨어하우스는 데이터를 통합하여 일관된 스키마를 가지는 구조로 변환하는 과정을 거칩니다.
  • 데이터 가공
    • 데이터 레이크는 유연하게 데이터를 저장하기 때문에 데이터 가공이 상대적으로 적습니다.
    • 데이터 웨어하우스는 데이터를 사전에 정제하고 품질 관리를 수행하여 데이터 일관성을 유지합니다.
  • 사용자 프로파일
    • 데이터 레이크는 데이터 과학자, 분석가 등의 전문가가 주로 사용됩니다.
    • 데이터 웨어하우스는 비즈니스 사용자 및 응용 프로그램에서 자주 사용됩니다.

      데이터 레이크하우스란?
      데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID 트랜잭션을 통합한 새로운 형태의 오픈 데이터 관리 아키텍처로, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신 러닝(ML)을 지원합니다.

결론

데이터 레이크와 데이터 웨어하우스는 서로 보완적인 개념으로, 조직의 데이터 관리 및 분석 요구에 따라 선택하면 됩니다. 데이터 레이크는 다양한 원시 데이터를 저장하고 유연한 분석을 지원하는 데 유용하며, 데이터 웨어하우스는 통합된 데이터를 활용하여 비즈니스 분석에 활용됩니다.


이번시간에는 데이터를 어떤식으로 구분하고 관리 및 분석하는 지에 대해 배워보았습니다.

😁 power through to the end 😁

profile
Dreamer

0개의 댓글