데이터 인프라 용어 (1)

Bloooooooooooooog..·2023년 5월 27일
0

Data Warehouse

ERP, CRM, DB에서 얻어진 각각의 데이터를 통합 분석된 보고서 작성을 위해 다양한 소스로부터 데이터를 저장하는 것

Dimensional Schema

다양하게 분리된 작은 데이터 테이블들을 더 적고 단순한 데이터 테이블로 만든 구조

* ETL

추출(Extract) 변환(Transform) 적재(Load)의 약자로 생산 시스템에서 데이터를 추출하고 이를 dimesional schema로 변환하여 Data Warehouse에 적재하는 것. 이 추출과 변환은 자동화할 수 없고 회사마다 다른 문제가 있다.

* ELT

추출 적재를 먼저 한 후에 자동화시킨 뒤 이 이후 변환을 하는 과정. 요즘은 ETL에서 ELT로 변환하고 있다.

Data Engineer, Data Analyst, Data Scientist의 차이

Data Engineer

빅데이터를 처리할 수 있는 인프라 아키텍처를 만드는 사람. Python과 SQL, shell등을 사용하여 실제 ELT 및 ETL을 진행하는 사람

Data Analyst

데이터분석가는 데이터 인프라 위에서 데이터를 해석해서 비지니스 의사결정을 돕는 정보로 만드는 사람. 통계학과 수학, 스프레드 시트를 이용해 시각화

Data Scientist

수학 + 과학 + 도메인 전문가. 큰 데이터를 다루고 복잡한 문제를 해결하는 사람이다. 수학, 통계, 딥러닝, 분산 컴퓨팅, 모델링 등의 다양한 기술을 요구한다.

데이터 인프라 과정

Source

데이터의 소스 수집 추출

Ingestion and Transformation

데이터 소스 가공 및 변환

Storage

변환된 데이터 저장

Historical

예전의 데이터 정보를 분석 이해

Predictive

미래의 데이터를 예측

Output

모든 결과치를 보여줌

profile
공부와 일상

0개의 댓글