머신러닝 진행 시 고려사항

YJ·2023년 6월 17일
0

[제로베이스 데이터 취업 스쿨]

  • 결측치, outlier 처리
    결측치 대응을 하더라도 전/후 비교를 해서 상대적으로 결과 보여주기

  • 수치형 데이터 전처리(scaler)

  • 범주형 데이터 전처리(label encoder, OneHotEncoder, 더미변수 등)

  • 데이터 불균형 해소하는 방법 여러가지 시도하기

  • 다중공선성 확인

  • 모델 특성을 선택하는 기준

  • 상관계수가 높은 특성만 넣는 것보다 특성을 포함시킬 때와 제외했을 때의 상대적 차이 비교하기(상관계수가 0이여도 모델 성능에 영향을 줄 수 있다.)

  • 모델링을 통해 확인된 주요 특성으로 다시 데이터 분석, 결론 도출


  • EDA 내용 추가(고객 이탈에 영향을 주는 변수 확인, 시각화)

  • 상관관계(correlation matrix)

  • 데이터 전처리(scaler)

  • 모든 특성 사용 & 결측치, outlier 처리하기 전 모델 성능

  • 결측치 처리 후 모델 성능 비교

  • outlier 처리 후 모델 성능 비교

  • oversampling 비교(데이터를 나누고 oversampling 하기)
    Resampling, SMOTE, Borderline SMOTE, ADASYN, GAN

  • 특성 빼보면서 전/후 비교

  • 파악된 주요 특성 중심으로 EDA 다시 해서 결론 도출

0개의 댓글

Powered by GraphCDN, the GraphQL CDN