CRISP - DM

CYSSSSSSSSS·2023년 8월 11일
0

데이터분석

목록 보기
8/19

business understanding -> data understanding -> data preparation -> modeling -> evaluation -> deployment

1단계 문제를 정의

  • 비즈니스 문제를 해결해야 한다.

  • 문제를 정의하고 가설을 수립한다.

  • 영향을 주는 x -> 영향을 받는 y 이다.

    단계
    1.해결해야 할 문제가 무엇인가 (목표,관심사,y)
    2.Y를 설명하기 위한 요인을 찾아라. (x)
    3.가설의 구조를 정의해라 (x->y)

    귀무가설 / 대립가설
    귀무가설 -> 기존의 연구로 내려운 정설
    대립가설 -> 새로운 연구 가설 , y에 영향을 주는 가설

  • 있는 데이터 / 없는데이터 -> 가용 데이터

  • 취득 가능 -> 취득 비용 산정 과정 수행

  • 취득 불가능한 데이터 -> 정보분할 , 최대한 가용한 데이터 영역 만들기

2단계 데이터 이해

  • 데이터가 어디에 있는지 , 정의한 문제가 진짜 있는지
  • EDA ,CDA
  • 탐색적 데이터 분석, 가설이 맞는지 파악 -> EDA 라고 부른다
  • 탐색을 파악하기 애매한 정보는 분석도구를 사용하여 검정에 사용하는것을 -> CDA

3단계 데이터 준비

  • 모델링을 할수위한 데이터 구조 준비
  • 모든 셀에 값이 있어야 한다.
  • 모든 값은 숫자 여야 한다
  • 값의 범위를 일치 시켜야 한다.

데이터를 준비하는 과정

  • 결측지 조치
  • 가변수화
  • 스케일링
  • 데이터 분할

4단계 모델링

  • 학습

  • 검증

  • 중요 변수를 선택하고 적절한 알고리즘을 적용하여 예측 모델을 생성

  • 생성된 모델을 검증하기 위해 평가를 해야한다.

5단계 평가

  • 만들어진 모델이 비즈니스 문제를 잘 해결하는가

  • 만약 평가가 좋지 않다면 비즈니스 문제를 다시 점검해서 새로운 모델을 만든다.

  • 모델을 사용시 수익성을 돈으로 평가한다.

  • 평가는 Test_set 을 사용한다.

  • 비즈니스 기대가치 평가

6단계 배포

  • 완성된 모델을 배포 한다.
  • 결과물 최종 확정

시스템 유효성 검사
프로젝트 이전

profile
개발자 되고 싶어요

0개의 댓글