이번 시간에는 데이터 관리 및 분석을 위한 주요 아키텍처에 대해 배워보도록하겠습니다.
아키텍처란?
아키텍처(Architecture)는 시스템이나 소프트웨어의 구조와 구성 요소, 상호 작용 방식, 설계 원칙 등을 설계하고 정의하는 개념입니다. 시스템 또는 소프트웨어의 기능, 성능, 확장성, 보안 등을 결정하는 중요한 역할을 합니다.
원천 데이터가 수집되는 장소이며, 빅데이터 시대에 다양한 형태의 데이터가 생겨나며 이것을 한 곳에 저장하기위해 등자하였습니다.
스키마란?
- 데이터베이스의 구조와 제약 조건에 대해 전반적인 명세를 기술한 메타데이터의 집합
- 데이터베이스를 구성하는 데이터 개체(Entity), 속성(Attribute), 관계(Realationship) 및 데이터 조작 시 데이터 값들이 가지는 제약 조건등에 관한 전반적인 정의
즉, 스키마란 한마디로 정의하면 ‘데이터의 구조’ 또는 ‘데이터베이스의 설계’ 를 의미합니다.
ETL이란?- 추출(Extract), 변환(Transform), 로드(Load)를 나타내며 조직에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 허용되는 방법
- 스키마의 구조
그림 출처: https://coding-factory.tistory.com/216
여러 데이터를 보기 좋게 변형하고, 특정 기준에 맞게 잘 정렬해 놓은 데이터 베이스입니다.
데이터 레이크하우스란?
데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID 트랜잭션을 통합한 새로운 형태의 오픈 데이터 관리 아키텍처로, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신 러닝(ML)을 지원합니다.
데이터 레이크와 데이터 웨어하우스는 서로 보완적인 개념으로, 조직의 데이터 관리 및 분석 요구에 따라 선택하면 됩니다. 데이터 레이크는 다양한 원시 데이터를 저장하고 유연한 분석을 지원하는 데 유용하며, 데이터 웨어하우스는 통합된 데이터를 활용하여 비즈니스 분석에 활용됩니다.
이번시간에는 데이터를 어떤식으로 구분하고 관리 및 분석하는 지에 대해 배워보았습니다.