# MaxAbsScaler
Preprocessing - Data Scaling
Scaling 1. Definition numerical data들은 서로 scale 차이가 너무 많이 나면 모델의 학습이 원활하게 되지 않는 경우가 있다. 예를 들어 KNN의 경우 Eucliean distance를 사용할 때 $$ \sqrt{(10-9)^2 + (100000-29900)^2 \cdots} $$ 이런 식으로 되어 버리면 두번째 column의 영향력이 너무 강해져서 첫번째 column은 무시될 수 있다. 그러므로 column별로 scaling을 해줘야 한다. 대표적으로 Standardization(표준화)과 Normalization(정규화)이 있다. 보통 categorical variables에는 사용하지 않는다. 2. Techniques 1. StandardScaler() feature들의 mean을 0, variance를 1로 scailing하는 방법이다. outlier에 매우 민감하다. regression보다 cl
[인사이드 머신러닝] 데이터 스케일링
보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값의 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨씬 크기 때문에 재산에 치중한 학습을 하게 된다. 따라서 학습을 진행하기에 앞서 데이터 스케일링은 필수적이다. 참고로 decision tree 계열의 알고리즘들은 스케일링이 필수는 아니다. Min-Max Scaling Normalization(정규화)이라는 용어도 많이 쓰임. 아래 식과 같은 변환을 통해 값의 범위를 0~1로 제한 (=좁은 범위로 압축) $$ x{scaled} = \frac{x-x{min}}{x{max}-x{min}} $$ Outlier에 매우 민감 Standardization 우리말로 표준화라고 부르며, Z-score라고도 함. (통계학 용어, 둘 다 많