[ADsP 합격 노트] 2-1. 데이터 분석 기획의 이해

wandajeong·2022년 12월 7일
0

ADsP

목록 보기
4/11

분석기획 방향성 도출

  • 분석기획이란? 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 기획하는 일련의 작업
  • 분석 대상과 방법
  • 목표 시점 별 분석 기획 방안

    구분당면한 분석 주제의 해결(과제 단위)지속적 분석 문화 내재화(마스터 플랜 단위)
    1차 목표Speed & TestAccuracy & Deploy
    과제의 유형Quick & WinLong Term View
    접근 방식Problem SolvingProblem Definition
  • 분석 기획시 고려 사항

    💡 Avaliable Data → Proper business Use Case → Low Barrier of Execution

    • 가용 데이터 고려
      • 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법 다름

        데이터 유형적용 가능한 솔루션 및 분석 방법
        정형 데이터- ERP, CRM, SCM등 정보시스템 / Demand Forcast
        반정형 데이터- 로그데이터, 센싱데이터, 모바일데이터 / Competitor Pricing
        비정형 데이터- 영상, 음성 ,문자 등 / Email Records
      • 적절한 활용 방안과 유즈케이스 탐색

      • 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립

분석 방법론

  • 분석 방법론 개요

    • 방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야한다.
    • 기업의 합리적 의사결정을 가로막는 장애 요소
      • 고정관념, 편향된 생각
      • 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사전이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
    • 방법론 적용 업무의 특성에 따른 모델
      • 폭포수 모델
      • 프로토타입 모델 : 고객의 요구 일부분을 우선개발, 그 결과를 통한 개선작업
      • 나선형 모델 : 반복을 통한 점증적 개발, 관리 체계를 효과적으로 갖추지 못한 경우 복잡도 상승
    • 방법론의 구성
      • 단계 : 최상위 계층 → 단계별 완료 보고서
      • 태스크 : 단계를 구성하는 단위 활동
      • 스텝 : WBS의 워크패키지
  • KDD & CRISP-DM 분석 방법론

    • KDD (Knowledge Discovery Database)

    • CRISP-DM(Cross Industry Standard Process for Data Mining)

      • 계층적 프로세스 모델, 4레벨로 구성
      KDDCRISP-DMnote
      분석 대상 비즈니스 이해업무 이해
      데이터셋 선택데이터의 이해
      데이터 전처리
      데이터 변환데이터 준비
      데이터 마이닝모델링모델 테스트 계획 설게, 모델 평가
      데이터 마이닝 결과 평가평가(Evaluation)분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
      데이터 마이닝 활용전개(Deployment)
  • 빅데이터 분석 방법론(5단계)

    💡 분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

    1. 분석 기획
    • 비즈니스 이해 및 범위 설정
      • SOW(State of Work): 프로젝트에 참여하는 관계자들이 이해를 일치시키기 위해 작성하는 것
    • 프로젝트 정의 및 계획 수립
    • 프로젝트 위험 계획 수립 : 데이터 분석 위험 식별, 위험 대응 계획 수립
      • 회피, 전이, 완화, 수용
    1. 데이터 준비
    • 필요 데이터 정의
    • 데이터 스토어 설계
    • 데이터 수집 및 정합성 점검
    1. 데이터 분석
    • 분석용 데이터 준비
    • 텍스트 분석, 탐색적 분석
    • 모델링 : 데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안
      • 알고리즘 설명서 작성 : 필요시 의사 코드 수준의 상세한 작성 필요
      • 모델의 안정적 운영을 위한 모니터링 방안 수립
    • 모델 평가 및 검증
    1. 시스템 구현
    • 설계 및 구현
    • 시스템 테스트 및 운영 : 단위 테스트, 통합 테스트, 시스템 테스트(품질 관리 차원)
    1. 평가 및 전개
    • 모델 발전 계획 수립
    • 프로젝트 평가 및 보고 : 모든 산출물 및 프로세스를 지식 자산화
  • Self Service Analytics

    • 포함되어야 하는 주요 기능 : BI도구, Ad hoc Report, OLAP, Visual Discovery, Machine Learing 등
    • Reference Method의 작성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구 사용에 대한 지속적인 교육 필요
    • R, Python 등의 데이터 분석 언어와 많은 통계적 지식을 필요로 함
    • 분산처리는 지원 X

분석 과제 발굴

  • 분석과제 발굴 방법론

    • 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출
    • 디자인 사고 : 상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수렴단계를 반복적으로 수행하는 상호 보완적인 동적 환경을 통해 분석의 가치를 높일 수 있는 최적의 의사결정 방식
  • 하향식 접근 방법

    💡 문제 탐색(Discovery) → 문제 정의(Difinition) → 해결방안 탐색(Solution Search) → 타당성 검토(Feasibility Study)

    1. 문제 탐색

      문제를 해결함으로써 발생하는 가치에 중점

      1. 비즈니스 모델 기반 문제 탐색

      2. 분석기회 발굴의 범위 확장

        ① 거시적 관점의 메가트렌드 : STEEP(사회, 기술, 경제, 환경, 정치)

        ② 경쟁자 확대 관점 : 대체제, 경쟁자, 신규 진입자

        ③ 시장의 니즈 확대 관점 : 고객, 채널, 영향자(주주, 투자자, 이해관계자)

        ④ 역량의 재해석 관점 : 내부 역량, 파트너와 네트워크

      3. 외부 참조 모델 기반 문제 탐색 (벤치마킹)

      4. 분석 유즈 케이스

    2. 문제 정의

      • 식별된 비즈니스 문제를 데이터 분석의 문제로의 변환
      • 해당 문제가 해결 되었을 때 효용을 얻을 수 있는 최종 사용자(end-user) 관점
    3. 해결 방안 탐색

    4. 타당성 검토

      • 경제적 타당성 : 비용 대비 편익
      • 데이터 및 기술적 타당성
        • 데이터 타당성 확보를 위하여 문제발생 포인트에 대한 데이터 확보가 중요하다 (X)
  • 상향식 접근 방법

    • 관점 : Why → What
    • 감정이입 중요
    • 일반적으로 비지도 학습
    • 시행착오를 통한 문제 해결 : 프로토타이핑 접근법

분석 프로젝트 관리 방안

  • 분석과제 관리를 위한 5가지 주요 영역
    • Data Size
    • Data Complexity
    • Speed : 분석 모델의 성능 및 속도를 고려한 개발
    • Analytic Complexity : 해석이 가능하면서도 정확도를 올릴 수 있는 최적의 모델
    • Accuracy & Precision
  • 분석 범위 빈번하게 변경될 수 있으므로, Time Boxing 기법의 일정관리 필요
profile
ML/DL swimmer

0개의 댓글