[제로베이스 데이터 취업 스쿨]
결측치, outlier 처리
결측치 대응을 하더라도 전/후 비교를 해서 상대적으로 결과 보여주기
수치형 데이터 전처리(scaler)
범주형 데이터 전처리(label encoder, OneHotEncoder, 더미변수 등)
데이터 불균형 해소하는 방법 여러가지 시도하기
다중공선성 확인
모델 특성을 선택하는 기준
상관계수가 높은 특성만 넣는 것보다 특성을 포함시킬 때와 제외했을 때의 상대적 차이 비교하기(상관계수가 0이여도 모델 성능에 영향을 줄 수 있다.)
모델링을 통해 확인된 주요 특성으로 다시 데이터 분석, 결론 도출
EDA 내용 추가(고객 이탈에 영향을 주는 변수 확인, 시각화)
상관관계(correlation matrix)
데이터 전처리(scaler)
모든 특성 사용 & 결측치, outlier 처리하기 전 모델 성능
결측치 처리 후 모델 성능 비교
outlier 처리 후 모델 성능 비교
oversampling 비교(데이터를 나누고 oversampling 하기)
Resampling, SMOTE, Borderline SMOTE, ADASYN, GAN
특성 빼보면서 전/후 비교
파악된 주요 특성 중심으로 EDA 다시 해서 결론 도출