데이터 시대와 데이터 과학

YunGyu Choi·2023년 1월 23일
0

Data Science

목록 보기
4/10
post-thumbnail

데이터 시대의 새로운 개념들

데이터 경제

데이터에 접근하고 활용할 수 있도록 협업하는 과정에서 데이터 생산, 인프라제공, 연구조사, 데이터 소비 등 서로 다른 역할을 담덩하는 구성원으로 이루어진 생태계

데이터 호수

  • 정형, 반정형, 비정형, raw데이터 처리
  • 다양한 종류의 데이터를 결합
  • 저장 후에 정의되는 스키마
  • 저비용 스토리지 사용
  • 아주 민접하게 재구성 가능

데이터 민주주의

  • 개인정보 보호
    기업 소유의 개인데이터에 대한 기업의 권한과 책임
  • 마이 데이터(자기결정권)
    기업 소유의 개인데이터에 대한 개인의 권한과 책임

데이터 과학

  • 데이터 과학이란 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야

  • 데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의

  • 데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 두는 학문

  • 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계, 계산기과학, 정보과학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련

http://datamixi.com/datascience

데이터 과학의 프로세스

1. 문제정의 및 목표설정

문제정의

  • 요구사항분석
  • 자료 수집 및 분석
  • 산출 문서 : 문제 정의서, 요구사항 분석서

목표설정

  • 계획 수립
  • 산출 문서 : 작업 기술서

2. 데이터 획득 및 수집

  • 데이터 선정 ➡️ 데이터 위치파악 ➡️ 데이터 유형 파악
    ➡️ 수집 기술 및 보안사항 점검
  • 산출문서 : 수집 계획서

3. 데이터 준비

  • 1) 데이터 정제
    누락 데이터나 잡음, 모순된 데이터 등을 정합성이 맞도록 교정
  • 2) 데이터 통합
    여러 개의 데이터베이스, 데이터집합 또는 파일을 통합
  • 3) 데이터 축소
    샘플링, 차원축소, 특징 선택 및 추출을 통해 데이터 크기 축소
  • 4) 데이터 변환
    데이터를 정규화, 이산화 또는 집계를 통해 변환

4. 데이터 탐색 및 분석

  • 산출문서 : 데이터 분석 리포트

5. 데이터 표현 및 시각화

6. 모델 개발 및 학습

1) 데이터 준비

  • 특징 추출(Feature Extraction)
  • 데이터 분리(Train/Test/Validation)
  • 데이터 검증(Data Verification)

2) 모델 생성

  • 모델 설계(Moder Design)
  • 특징 엔지니어링(Feature Engineering)
  • 모델 구조 정의
  • 목표변수(목적 함수) 정의

3) 모델 학습

  • 학습 알고리즘(Learning Algorithm)
  • 하이퍼파라미터(Hperparameter)
  • 학습 반복(Learning Iteration)
  • 최적화(Optimization)

4) 모델 평가

  • 평가 지표(Evaluation Metrics)
  • 성능 평가(Performance Evaluation)
  • 비교 분석(Comparative Analysis)

7. 모델 구축 및 자동화





참조

profile
velog에는 이론을 주로 정리하고, 코드와 관련된 것은 Git-hub로 관리하고 있어요. 포트폴리오는 링크된 Yun Lab 홈페이지를 참고해주시면 감사하겠습니다!

0개의 댓글