데이터 시대의 새로운 개념들
데이터 경제
데이터에 접근하고 활용할 수 있도록 협업하는 과정에서 데이터 생산, 인프라제공, 연구조사, 데이터 소비 등 서로 다른 역할을 담덩하는 구성원으로 이루어진 생태계
데이터 호수
- 정형, 반정형, 비정형, raw데이터 처리
- 다양한 종류의 데이터를 결합
- 저장 후에 정의되는 스키마
- 저비용 스토리지 사용
- 아주 민접하게 재구성 가능
데이터 민주주의
- 개인정보 보호
기업 소유의 개인데이터에 대한 기업의 권한과 책임
- 마이 데이터(자기결정권)
기업 소유의 개인데이터에 대한 개인의 권한과 책임
데이터 과학
-
데이터 과학이란 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야
-
데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의
-
데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 두는 학문
-
사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계, 계산기과학, 정보과학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련
http://datamixi.com/datascience
데이터 과학의 프로세스
1. 문제정의 및 목표설정
문제정의
- 요구사항분석
- 자료 수집 및 분석
- 산출 문서 : 문제 정의서, 요구사항 분석서
목표설정
2. 데이터 획득 및 수집
- 데이터 선정 ➡️ 데이터 위치파악 ➡️ 데이터 유형 파악
➡️ 수집 기술 및 보안사항 점검
- 산출문서 : 수집 계획서
3. 데이터 준비
- 1) 데이터 정제
누락 데이터나 잡음, 모순된 데이터 등을 정합성이 맞도록 교정
- 2) 데이터 통합
여러 개의 데이터베이스, 데이터집합 또는 파일을 통합
- 3) 데이터 축소
샘플링, 차원축소, 특징 선택 및 추출을 통해 데이터 크기 축소
- 4) 데이터 변환
데이터를 정규화, 이산화 또는 집계를 통해 변환
4. 데이터 탐색 및 분석
5. 데이터 표현 및 시각화
6. 모델 개발 및 학습
1) 데이터 준비
- 특징 추출(Feature Extraction)
- 데이터 분리(Train/Test/Validation)
- 데이터 검증(Data Verification)
2) 모델 생성
- 모델 설계(Moder Design)
- 특징 엔지니어링(Feature Engineering)
- 모델 구조 정의
- 목표변수(목적 함수) 정의
3) 모델 학습
- 학습 알고리즘(Learning Algorithm)
- 하이퍼파라미터(Hperparameter)
- 학습 반복(Learning Iteration)
- 최적화(Optimization)
4) 모델 평가
- 평가 지표(Evaluation Metrics)
- 성능 평가(Performance Evaluation)
- 비교 분석(Comparative Analysis)
7. 모델 구축 및 자동화
참조