ML

Jen Y·2021년 12월 7일
0

ML

목록 보기
1/1
  1. 데이터 전 처리
    04 데이터 정제 및 분리
    결측값(Missing data) 처리하기

    일반적인 머신러닝 모델의 입력 값으로 결측값을 사용할 수 없음 따라서 Null, None, NaN 등의 결측값을 처리 해야함

    대표적인 결측 값 처리 방식
    1) 결측값이 존재하는 샘플 삭제
    2) 결측값이 많이 존재하는 변수 삭제
    3) 결측값을 다른 값으로 대체 (평균, 중앙, 머신러닝 예측)

    이상치(Outlier) 처리하기

    이상치가 있으면, 모델의 성능 저하 가능
    이상치는 일반적으로 처리과정에서 제거
    어떤 값이 이상치 인지 판단하는 기준이 중요

    이상치 판단 기준 방법
    1) 통계 지표(카이제곱 검정, IQR 지표 등)을 사용
    2) 데이터 분포를 보고 직접 판단
    3) 머신러닝 기법을 사용하여 이상치 분류

       

0개의 댓글