business understanding -> data understanding -> data preparation -> modeling -> evaluation -> deployment
1단계 문제를 정의
비즈니스 문제를 해결해야 한다.
문제를 정의하고 가설을 수립한다.
영향을 주는 x -> 영향을 받는 y 이다.
단계
1.해결해야 할 문제가 무엇인가 (목표,관심사,y)
2.Y를 설명하기 위한 요인을 찾아라. (x)
3.가설의 구조를 정의해라 (x->y)
귀무가설 / 대립가설
귀무가설 -> 기존의 연구로 내려운 정설
대립가설 -> 새로운 연구 가설 , y에 영향을 주는 가설
있는 데이터 / 없는데이터 -> 가용 데이터
취득 가능 -> 취득 비용 산정 과정 수행
취득 불가능한 데이터 -> 정보분할 , 최대한 가용한 데이터 영역 만들기
2단계 데이터 이해
3단계 데이터 준비
데이터를 준비하는 과정
- 결측지 조치
- 가변수화
- 스케일링
- 데이터 분할
4단계 모델링
학습
검증
중요 변수를 선택하고 적절한 알고리즘을 적용하여 예측 모델을 생성
생성된 모델을 검증하기 위해 평가를 해야한다.
5단계 평가
만들어진 모델이 비즈니스 문제를 잘 해결하는가
만약 평가가 좋지 않다면 비즈니스 문제를 다시 점검해서 새로운 모델을 만든다.
모델을 사용시 수익성을 돈으로 평가한다.
평가는 Test_set 을 사용한다.
비즈니스 기대가치 평가
6단계 배포
시스템 유효성 검사
프로젝트 이전