[머신러닝] 데이터의 스케일 조정

JSHyeon·2023년 5월 24일
0

머신러닝

목록 보기
3/7

데이터 스케일(Data Scale)

데이터의 스케일은 곧 데이터 특성값이 갖는 값의 범위를 의미한다고 볼 수 있다.
데이터의 스케일이 크게 차이가 나는 경우 서포트 벡터 머신과 같은 스케일에 민감한 모델들은 그 성능을 제대로 발휘하지 못하므로, 가급적 데이터의 스케일은 통일해주는 것이 좋다.

표준화

  • 단위가 서로 다른 feature들을 공통되는 통계적 단위인 표준편차를 기준으로 분포를 표준정규분포 N(µ=0,σ2=1)N(µ=0,σ^2=1)에 맞게 변환하는 것으로, 고등학교 때 배웠던 그 표준화를 의미한다.
  • 정규분포를 따르는 데이터는 표준화를 진행해주는 것이 좋다.
  • 데이터에 이상치가 존재하는 경우, 이상치가 원래 데이터 분포에 큰 영향을 미치기 떄문에 적절하지 않다.

min-max scaling, max-abs scaling

  • 모든 feature들이 범위 0xi10≤x_i≤1에 들어가도록 조정한다. (max-abs scaling은 0xi10≤|x_i|≤1)
  • xi=xxminxmaxxminx_i=\frac{x-x_{min}}{x_{max}-x_{min}}로 정의된다.
  • 데이터에 이상치가 존재하는 경우 적합하지 않다.

robust scaling

  • 표준화와 유사하나, 표준화와 달리 평균 및 분산 대신 중앙값과 IQR(InterQuartile Range, 사분위수, IQR=Q3Q1IQR=Q3 - Q1)를 사용한다.
  • 이상치의 영향을 최소화할 수 있다.
profile
네트워크와 인프라를 좋아하는 학부생

0개의 댓글