ERP, CRM, DB에서 얻어진 각각의 데이터를 통합 분석된 보고서 작성을 위해 다양한 소스로부터 데이터를 저장하는 것
다양하게 분리된 작은 데이터 테이블들을 더 적고 단순한 데이터 테이블로 만든 구조
추출(Extract) 변환(Transform) 적재(Load)의 약자로 생산 시스템에서 데이터를 추출하고 이를 dimesional schema로 변환하여 Data Warehouse에 적재하는 것. 이 추출과 변환은 자동화할 수 없고 회사마다 다른 문제가 있다.
추출 적재를 먼저 한 후에 자동화시킨 뒤 이 이후 변환을 하는 과정. 요즘은 ETL에서 ELT로 변환하고 있다.
빅데이터를 처리할 수 있는 인프라 아키텍처를 만드는 사람. Python과 SQL, shell등을 사용하여 실제 ELT 및 ETL을 진행하는 사람
데이터분석가는 데이터 인프라 위에서 데이터를 해석해서 비지니스 의사결정을 돕는 정보로 만드는 사람. 통계학과 수학, 스프레드 시트를 이용해 시각화
수학 + 과학 + 도메인 전문가. 큰 데이터를 다루고 복잡한 문제를 해결하는 사람이다. 수학, 통계, 딥러닝, 분산 컴퓨팅, 모델링 등의 다양한 기술을 요구한다.
데이터의 소스 수집 추출
데이터 소스 가공 및 변환
변환된 데이터 저장
예전의 데이터 정보를 분석 이해
미래의 데이터를 예측
모든 결과치를 보여줌