[기초 CS 개념] 데이터 레이크 vs. 데이터 웨어하우스

감자둘둘·2023년 5월 26일
0

기초 CS 개념

목록 보기
1/5
post-thumbnail

✅ 포스팅 요약

제곧내.

이번 포스팅도 내가 보려고 만든 데이터 레이크와 데이터 웨어하우스의 공통점 및 차이점에 관한 포스팅이다.

모두 알겠지만 데이터 레이크와 데이터 웨어하우스는 데이터 관리와 분석에 중요한 개념이다.

하지만 나는 데이터 분석과 관련된 글을 읽을 때마다 등장하는 데이터 레이크와 데이터 웨어하우스를 그냥 데이터를 저장하는 공간 정도로 이해하고 넘어갔다.

이참에 데이터 레이크와 데이터 웨어하우스를 공통점과 차이점을 기반하여 더 자세히 알아보자.

☝ 공통점

데이터 저장소

데이터 레이크와 데이터 웨어하우스는 모두 대량의 데이터를 저장하기 위한 저장소로 사용된다.

데이터 분석

데이터 레이크와 데이터 웨어하우스는 모두 데이터를 분석하고 인사이트를 도출하기 위해 사용될 수 있다.

데이터 통합

데이터 레이크와 데이터 웨어하우스는 다양한 소스로부터 데이터를 통합하고 표준화하는 기능을 제공한다.

☝ 차이점

목적

  • 데이터 레이크
    • 다양한 종류와 형식의 원시 데이터를 수집하고 저장하는 것에 중점을 둔다.
  • 데이터 웨어하우스
    • 조직의 의사결정을 지원하기 위해 구조화된 데이터를 저장하고 분석하는데 초점을 둔다.

데이터 구조

  • 데이터 레이크
    • 데이터를 원시 형태로 저장하므로 스키마나 데이터 형식에 대한 엄격한 제약이 없다.
  • 데이터 웨어하우스
    • 데이터 웨어하우스는 미리 정의된 스키마와 구조에 따라 데이터를 저장한다.
    • 스타 스키마(Star Schema)
      • 데이터 웨어하우스에서 사용되는 데이터 모델링 방법 중 하나로, 중심 테이블을 기준으로 별모양의 형태를 가진 모델이다.
      • 이 모델은 특히 비즈니스 분석을 위한 데이터베이스 디자인에 많이 사용된다.
      • 구성
        • 중심 테이블(fact tables)은 주요 비즈니스 데이터를 담고 있다.
        • 차원 테이블(dimension tables)들은 중심 테이블과 관련된 추가 정보를 제공한다.
        • 중심 테이블과 차원 테이블들 사이의 관계는 일 대 다 관계로 구성되어 있으며, 각 차원 테이블(dimension tables)은 별도의 속성들을 가지고 있다.
      • 장점
        • Star schema의 장점은 데이터 분석과 쿼리 성능이 우수하다는 점이다.
        • 중심 테이블이 모든 관련 정보를 담고 있기 때문에 데이터베이스에 대한 복잡한 조인이 필요하지 않다.

데이터 처리

  • 데이터 레이크
    • 데이터를 수집한 후 필요에 따라 변환 및 가공을 수행한다.
  • 데이터 웨어하우스
    • 이미 가공된 데이터를 저장하므로 데이터 로딩 후에는 주로 쿼리와 분석 작업에 집중한다.

비용

  • 데이터 레이크
    • 상대적으로 저렴한 스토리지 비용과 확장성을 제공한다.
  • 데이터 웨어하우스
    • 데이터 웨어하우스는 대용량 데이터 분석을 위한 별도의 하드웨어 및 소프트웨어 인프라를 필요로 하므로 비용이 더 많이 발생할 수 있다.
profile
한 줄 소개.

0개의 댓글