[AI] 결측치 처리, 이상치 처리 : Scikit-Learn

Ik·2022년 7월 16일
0

Data

목록 보기
3/34

결측치 처리

설명

  • 머신러닝 알고리즘은 데이터셋에 결측치가 있으면 학습이나 추론을 하지 못하기 때문에 적절한 처리가 필요
  • 모든 머신러닝 모델들은 함수이기에 숫자 밖에 처리하지 못한다

종류

  • 제거(행, 열단위)
    • 행단위를 기본으로 특정 열에 많을 경우에는 열도 제거
  • 다른 값 대체
    • 가장 가능성이 높은 값으로 대체
    • 결측치 자체를 표현하는 값을 만들어서 대체

이상치 처리

설명

  • 이상치(Outlier) : 의미 그대로 이상한 값, 튀는 값, 패턴을 벋어난 값으로 그 Feature를 가지는 대부분의 값들과는 동떨어진 값

종류

  • 오류값
    • 잘못 수집된 값 => 결측치 처리
  • 극단치
    - 그대로 유지
    - 결측치 처리
    - 다른 값으로 대체
    • 보통 Min/Max 값을 설정한 뒤 그 값으로 변경

0개의 댓글