[AI] 결측치 처리, 이상치 처리 : Scikit-Learn
결측치 처리
설명
- 머신러닝 알고리즘은 데이터셋에 결측치가 있으면 학습이나 추론을 하지 못하기 때문에 적절한 처리가 필요
- 모든 머신러닝 모델들은 함수이기에 숫자 밖에 처리하지 못한다
종류
- 제거(행, 열단위)
- 행단위를 기본으로 특정 열에 많을 경우에는 열도 제거
- 다른 값 대체
- 가장 가능성이 높은 값으로 대체
- 결측치 자체를 표현하는 값을 만들어서 대체
이상치 처리
설명
- 이상치(Outlier) : 의미 그대로 이상한 값, 튀는 값, 패턴을 벋어난 값으로 그 Feature를 가지는 대부분의 값들과는 동떨어진 값
종류
- 오류값
- 극단치
- 그대로 유지
- 결측치 처리
- 다른 값으로 대체
- 보통 Min/Max 값을 설정한 뒤 그 값으로 변경