데이터 스케일(Data Scale)
데이터의 스케일은 곧 데이터 특성값이 갖는 값의 범위를 의미한다고 볼 수 있다.
데이터의 스케일이 크게 차이가 나는 경우 서포트 벡터 머신과 같은 스케일에 민감한 모델들은 그 성능을 제대로 발휘하지 못하므로, 가급적 데이터의 스케일은 통일해주는 것이 좋다.
표준화
- 단위가 서로 다른 feature들을 공통되는 통계적 단위인 표준편차를 기준으로 분포를 표준정규분포 N(µ=0,σ2=1)에 맞게 변환하는 것으로, 고등학교 때 배웠던 그 표준화를 의미한다.
- 정규분포를 따르는 데이터는 표준화를 진행해주는 것이 좋다.
- 데이터에 이상치가 존재하는 경우, 이상치가 원래 데이터 분포에 큰 영향을 미치기 떄문에 적절하지 않다.
min-max scaling, max-abs scaling
- 모든 feature들이 범위 0≤xi≤1에 들어가도록 조정한다. (max-abs scaling은 0≤∣xi∣≤1)
- xi=xmax−xminx−xmin로 정의된다.
- 데이터에 이상치가 존재하는 경우 적합하지 않다.
robust scaling
- 표준화와 유사하나, 표준화와 달리 평균 및 분산 대신 중앙값과 IQR(InterQuartile Range, 사분위수, IQR=Q3−Q1)를 사용한다.
- 이상치의 영향을 최소화할 수 있다.