[3주차]데이터 분석

siyeon kim·2022년 8월 10일
1

kt aivle

목록 보기
5/24

CRISP-DM

1. 비즈니스 이해

1-1) 문제 정의 -> 데이터 분석 방향, 목표 설정 -> 초기 가설 설정(X->Y)
즉 무엇을 해결하고자 하는가?

2. 데이터 이해

2-1) EDA - 개별 데이터의 분포, 가설 파악
2-2) CDA - 통계적 분석 도구 사용

  • 숫자형 - mean, mode, 4분위수 / 히스토그램, boxplot, 밀도함수그래프
  • 범주형 - 범주별 빈도수, 비율 / barplot, piechart

3. 데이터 전처리

3-1) 추가 변수 도출
3-2) 결측치 조치
3-3) 가변수화(dummy)
3-4) 스케일링(one-hot/standarization)
3-5) 데이터 분할

  • 모든 셀은 값이 있어야 한다.
  • 모든 값은 숫자여야한다.
  • 숫자의 범위를 일치시킨다.

4. 모델링

모델링 : 데이터로부터 패턴, 규칙, 반복을 찾아 수학식으로 정리하는 과정 -> 오차를 최소화

  • 답이 있는 데이터 : 답을 맞추기, 지도학습
  • 답이 없는 데이터 : 비슷한것끼리 묶기, 비지도 학습
    4-1) 함수불러오기
    4-2) 모델선언 및 설계
    4-3) 학습
    4-4) 검증(예측/평가)

5. 모델 평가

  • 회귀모델평가
    5-1) R^2 score : 평균모델의 오차중에서 회귀모델이 해결한 비율
    5-2) MSE : 오차제곱
    5-3) RMSE : 오차제곱 루트
    5-4) MAE : 평균오차
    5-5) MAPE : 평균오차율
  • 분류모델평가

6. 비즈니스 평가

profile
사회에 선한 영향을 미치고 싶은 개발자

0개의 댓글