전처리 - 훈련 세트의 통계 값으로 테스트 세트를 변환

jaybon·2022년 10월 10일
0

머신러닝 정리

목록 보기
4/9

테스트 세트는 훈련 세트의 통계(평균과 표준편차)로 변환(전처리) 해야한다.

그렇지 않을 경우 데이터의 스케일이 달라지므로 훈련한 모델이 쓸모 없게 된다.

쉽게 말해서 같은 기준으로 데이터를 가공하지 않으면 비교가 불가능 하다는 뜻이다.

예를들어 훈련 세트에서는 70점을 0.7로 가공해 놓고 테스트 세트에서는 70점을 0.4로 가공해 놓았다면 결과를 도출해도 의미가 없다는 뜻이다.

from sklearn.preprocessing import StandardScaler

# 전처리기
ss = StandardScaler()

# 훈련 세트로 학습
ss.fit(train_input)

# 동일한 전처리기인 ss로
# 훈련 세트와 테스트 세트 변환
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)
profile
티스토리 블로그 https://ondolroom.tistory.com/

0개의 댓글