핵심 데이터 개념
데이터란?
- 정보를 기록하는데 사용되는 값 - 종종 하나 이상의 속성을 가진 엔터티
정형 데이터(구조적 데이터)
비정형 데이터(비구조적 데이터)
- 정해진 틀이 없이 다양한 형태로 존재(사진, 오디오...)
반구조적 데이터
- 형식이 갖춰져있지만 완전히 정형화 되어있지 않음(JSON,...)
데이터가 어떻게 저장되는가?
1. file
JSON
{"cutomer":
[
{"first":name
}
XML :
<Customer firstName="Joe" />
BLOB : ex) 1010101111
2. Database
관계형 DB
- table 로 구성되어있고 table의 관계를 저장함
- data record를 저장하는 중간 system
ex) oracle, mySQL ...
정규화: 엔터티를 나누고 관계를 맺어줌(중복을 제거하기 위해)
비관계형 DB
document
열 패밀리
그래프 DB
트랜잭션 데이터 워크로드
- 데이터는 애플리케이션을 지원하는 OLTP(online transactional processing)
- 작업에 최적화된 데이터베이스에 저장됨
- 데이터는 트랜잭션을 사용하여 저장됨
트랜잭션(transaction)
최소 작업단위
트랜잭션 (ACID)
- 원자성(Atomicity) : 완전히 성공하거나 완전히 실패하는 단일 작업단위로 처리
- 일관성(Consistency) : 어떤 상황에도 같은 상태로 받야아함
- 격리(Isolation) : 동시 트랜잭션은 서로 간섭할 수 없음
- 내구성(Durability) : 트랜잭션이 성공하면 데이터 변경사항이 DB에 유지됨
분석 데이터 워크로드

- 데이터 파일을 분석을 위해 중앙 데이터 레이크에 저장 할 수 있음
- ETL(추출, 변환, 로드) 프로세스가 파일 및 OLTP 데이터베이스에서 읽기 작업에 최적화된 데이터 웨어하우스로 데이터를 복사함
- 데이터 웨어하우스의 데이터는 집계하여 OLAP(온라인 분석 처리) 모델에 로드할 수 있음
- 데이터 레이크, 데이터 웨어하우스 및 분석 모델의 데이터를 쿼리하여 보고서 및 대시보드를 생성할 수 있음
데이터 레이크
데이터 웨어하우스
데이터 역할 및 서비스
데이터 전문가 역할
데이터베이스 관리자
-
데이터베이스 프로비저닝, 구성, 관리
-
데이터베이스 보안 및 사용자 액세스
-
데이터베이스 백업 및 복원력
-
데이터베이스 성능 모니터링 및 최적화
데이터 엔지니어
-
데이터 통합 파이프라인 및 ETL 프로세스
-
데이터 정리 및 변환
-
분석 데이터 저장소 스키마 및 데이터 로드
데이터 분석가
-
분석 모델링
-
데이터 보고 및 요약
-
데이터 시각화
데이터용 Microsoft 클라우드 서비스
데이터 저장소
Azure SQL
- on premise에 있는 인프라를 그대로 불러들어옴
- DBMS를 활용
- DB를 활용
오픈소스를 위한 Azure Database
- Maria DB
- MYSQL
- PostgreSQL
Azure Cosmos DB
Azure Storage
- 파일, Blob, 테이블 스토리지
- 데이터 레이크 스토리지를 위한 계층 구조 네임스페이스
데이터 엔지니어링 및 분석
Azure Data Factory
Azure Synapse Analytics
Azure Databricks
위 서비스에 대한 실습은 https://learn.microsoft.com/ko-kr/training/