[ADsP 정리] 2. 데이터 분석 기획 -1

김성욱·2023년 5월 2일
0

ADsP

목록 보기
2/6

2과목은 공부하는 재미가 별로 없다. 하지만 실제 업무 프로세스에 적용할 수 있을 법한 내용이 주를 이룬다.

1장 데이터 분석 기획의 이해

1.1 분석기획 방향성 도출

분석기획

분석 수행 과제를 정의하고 관리하는 방법을 사전에 계획하는 작업

분석유형

OI
SD

optimization insight

solution discovery

optimization이 대상을 잘 알고 방법을 잘 아는 경우
solution은 대상을 잘 알고 방법을 모르는 경우

목표 시점별 분석 기획

당면한 분석 주제 해결
( 과제 단위)
지속적 분석 문화 내재화
( 마스터 플랜 )
Speed&Test1차 목표Accuracy&Deploy
Quick&Win과제 유형Long Term View
Problem Solving접근 방식Problem Definition

고려 사항

  1. 가용 데이터에 대한 고려
    • 유형별 솔루션과 분석 방법이 다를 수 있음
  2. 적절한 활용방안과 유즈케이스
    • 유사 분석 시나리오 및 솔루션의 활용
  3. 장애요소들에 대한 사전계획

1.2 분석 방법론

방법론의 구성

절차 / 방법 / 도구와 기법 / 템플릿과 산출물

합리적 의사결정을 막는 장애요소

고정관념 / 편향 / 프레이밍 효과

방법론 생성과정

형식지 -> 형식화 -> 암묵지
형식지 -> 체계화 -> 방법론
방법론 -> 내면화 -> 암묵지

특성에 따른 모델

폭포수 모델 - 단계를 순차적으로 진행하는 방법
프로토타입 모델 -일부분을 우선 개발하여 제공
나선형 모델 - 반복을 통해 점증적으로 개발 / 처음 시도하는 프로젝트에 적합 / 관리 체계가 없다면 복잡도 상승

방법론 구성

단계 - 최상위계층/기준선으로 설정되어 관리
=> 단계별 완료 보고서

태스크 - 단계를 구성하는 단위 활동 / 품질 검토의 항목
=> 보고서

스탭 - 입력자료/처리 및 도구/ 출력자료로 구성된 단위 프로세스
=> 보고서 구성요소

KDD 분석 절차

  1. 데이터셋 선택
    • 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 선행
    • 목표데이터 구성
  2. 데이터 전처리
    • 잡음 / 이상치 / 결측치 제거
    • 추가데이터가 필요하면 1 재실행
  3. 데이터 변환
    • 데이터의 차원 축소
    • 학습/검증용 데이터 분리
  4. 데이터 마이닝
    • 적절한 알고리즘을 통해 분석
    • 필요에 따라 2~3 추가 실행
  5. 데이터 마이닝 결과 평가
    • 결과 해석 및 평가 / 목적과의 일치성 확인
    • 발견한 지식을 업무에 활용하기 위한 방안 마련
    • 필요에 따라 1~4 반복

CRISP-DM 방법론

Phases
Generic Tasks
Specialized Tasks
Process Instances -데이터 마이닝을 위한 실행 포함

CRISP-DM 프로세스

  1. 업무 이해
    • 목적과 요구사항 이해
    • 데이터 분석을 위한 문제 정의
  2. 데이터 이해
    • 데이터 수집 / 속성 이해
    • 인사이트 발견
  3. 데이터 준비
    • 분석 기법에 적합한 데이터를 편성
  4. 모델링
    • 모델링 기법과 알고리즘을 선택하고 최적화
    • 과적합 확인
    • 모델 평가 포함
  5. 평가
    • 모델링 결과가 프로젝트 목적에 부합하는지 평가
    • 분석결과/모델링 과정/모델 적용성 평가
  6. 전개
    • 모델을 실 업무에 적용하기 위한 계획 수립
    • 유지보수 계획 마련

KDD / CRISP-DM

KDDCRISP-DM
분석대상 비즈니스 이해업무 이해
데이터셋 선택데이터 이해
데이터 전처리데이터 이해
데이터 변환데이터 준비
데이터 마이닝모델링
데이터 마이닝 결과 평가평가
데이터 마이닝 활용전개

빅데이터 분석의 계층적 프로세스

Phase->Task->Step

빅데이터 분석 방법론 - 5단계

  1. 분석기획
  2. 데이터 준비
  3. 데이터 분석
  4. 시스템 구현
  5. 평가 및 전개

단계별 세부단계 - 분석 기획

단계내용출력자료
비즈니스 이해비즈니스 자료조사/방향 설정비즈니스 이해 / 도메인 문제점
프로젝트
범위설정
프로젝트 범위 정의서(SOW)
작성
프로젝트 범위 정의서(SOW)
데이터 분석
프로젝트 정의
목표/KPI/수준 고려하여
프로젝트 정의서 작성 및
평가 기준 설정
프로젝트 정의서
모델 운영 이미지 설계서
모델 평가 기준
프로젝트 수행
계획 수립
프로젝트 관리방안 작성
프로젝트 범위 명확하게 정의
프로젝트 수행 계획서
WBS
데이터 분석
위험 식별
발생 가능한 위험 식별식별된 위험 목록
위험 대응
계획 수립
회피/전이/완화/수용 구분위험관리 계획서

단계별 세부단계 - 데이터 준비

단계내용출력자료
데이터 정의분석에 필요한 데이터 정의데이터 정의서
데이터
획득방안 수립
법적인 문제점 고려데이터 획득 계획서
정형 데이터
스토어 설계
일반적으로 관계형 데이터베이스
RDBMS 사용
논리적-물리적 설계 구분
정형 데이터 스토어
설계서 / 데이터 매핑
정의서
비정형 데이터
스토어 설계
논리적,물리적 데이터 스토어 설계비정형 데이터 스토어
설계서 / 데이터 매핑
정의서
데이터 수집 및 저장데이터 수집 및 저장수집된 분석용
데이터
데이터 정합성 점검정합성 확보/품질개선 요구 부분 보완정합성 점검 보고서

단계별 세부단계 - 데이터 분석

단계내용출력자료
비즈니스 룰 확인분석에 필요한 범위 확인분석에 필요한
데이터 범위
분석용 데이터셋
준비
데이터 스토어로부터 데이터 추출분석용 데이터셋
텍스트 데이터
확인 및 추출
필요한 텍스트 테이터 추출분석용 텍스트셋
텍스트 데이터
분석
모델 구축 / 시각화 도구 활용텍스트 분석 보고서
탐색적 데이터
분석
기초 통계량 산출
통계적 특성 이해 및 모델링을 위한
기초자료로 활용
데이터 탐색 보고서
데이터 시각화탐색적 데이터 분석을 위한 도구데이터 시각화 보고서
데이터 분할분석용 데이터 생성
분할/검증 방법 선정
TRAIN/VALID set
데이터 모델링분류/예측/군집 적용모델링 결과 보고서
모델 적용 및
운영 방안
알고리즘 설명서 작성알고리즘 설명서
모니터링 방안
모델 평가모델 평가모델 평가 보고서
모델 검증모델 검증모델 검증 보고서

단계별 세부단계 - 시스템 구현

단계내용출력자료
시스템 분석/설계응용시스템 구축 설계 프로세스시스템 분석 및 설계서
시스템 구현모델 구현구현 시스템
시스템 테스트단위/통합/시스템 테스트시스템 테스트
결과 보고서
시스템 운영 계획교육 실시 / 운영 계획 수립운영자 매뉴얼
사용자 매뉴얼
시스템 운영 계획서

단계별 세부단계 - 평가 및 전개

단계내용출력자료
모델 발전 계획모델 발전 계획 수립모델 발전 계획서
프로젝트 성과 평가성과 평가서 작성프로젝트 성과 평가서
프로젝트 종료지식 자산화프로젝트 최종 보고서
profile
someone

0개의 댓글