# RobustScaler

제로베이스 데이터취업스쿨 DAY52 머신러닝5~8
결정나무에서는 이런 전처리는 의미를 가지지 않는다. 주로 Cost Function을 최적화할 때 유효화할 때가 있다. 
Decision Tree(Feat. Wine)
해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다 Scaling MinMaxScaler 0 ~ 1로 스케일 조정 이상치의 영향이 큼 StandardScaler 기본스케일. 평균과 표준편차로 스케일링 이상치의 영향이 큼 RobustScaler 중간값과 사분위수 사용 이상치 영향 최소화 와인 개요 와인은 당도, 타닌, 산도, 알콜, 향기, 풍미, 바디감, 맛 등 굉장히 많은 분류가 있다 이 많은 분류를 모두 하는 것은 어렵고 레드와인과 화이트와인으로 분류해보자 목표 레드와인, 화이트와인 분류하기 절차 1. 데이터 이해 2. Decision Tree 활용 3. 이진분류(레
Feature Engineering_2
ML101601featureengineering.ipynb Feature Scaling StandardScaler : 표준화, 주로 신경망 모델 MinMaxScaler : 0~1 RobustScaler : oulier에 강함 PowerTransformer : 분산 안정화, 왜도 최소화, box-cox와 yeo-johnson변환 지원 All about Feature Scaling Feature Selection Model Based feature Selection Univarate(단변량) Feature Selection -통계 모델 기반 y값과 하나의 feature간의 통계적 유의미를 분석 주로 선형 모델에서 유용 **Recursive feature el
Preprocessing - Data Scaling
Scaling 1. Definition numerical data들은 서로 scale 차이가 너무 많이 나면 모델의 학습이 원활하게 되지 않는 경우가 있다. 예를 들어 KNN의 경우 Eucliean distance를 사용할 때 $$ \sqrt{(10-9)^2 + (100000-29900)^2 \cdots} $$ 이런 식으로 되어 버리면 두번째 column의 영향력이 너무 강해져서 첫번째 column은 무시될 수 있다. 그러므로 column별로 scaling을 해줘야 한다. 대표적으로 Standardization(표준화)과 Normalization(정규화)이 있다. 보통 categorical variables에는 사용하지 않는다. 2. Techniques 1. StandardScaler() feature들의 mean을 0, variance를 1로 scailing하는 방법이다. outlier에 매우 민감하다. regression보다 cl
[인사이드 머신러닝] 데이터 스케일링
보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값의 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨씬 크기 때문에 재산에 치중한 학습을 하게 된다. 따라서 학습을 진행하기에 앞서 데이터 스케일링은 필수적이다. 참고로 decision tree 계열의 알고리즘들은 스케일링이 필수는 아니다. Min-Max Scaling Normalization(정규화)이라는 용어도 많이 쓰임. 아래 식과 같은 변환을 통해 값의 범위를 0~1로 제한 (=좁은 범위로 압축) $$ x{scaled} = \frac{x-x{min}}{x{max}-x{min}} $$ Outlier에 매우 민감 Standardization 우리말로 표준화라고 부르며, Z-score라고도 함. (통계학 용어, 둘 다 많
[python] Scaler 구현하기
사이킷런의 scaler 3개를 직접 구현해봅시다. MinMaxScaler, 2. StandardScaler, 3. RobustScaler 1. MinMaxScaler 1) 정의 모든 값을 0 ~ 1 사이의 실수로 변환시킵니다. 공식은 다음과 같습니다. > (x - 최소값) / (최대값 - 최소값) 2) 파이썬으로 직접구현 2. StandardScaler 1) 정의 모든 값을 평균이 0 분산이 1인 정규분포로 변환합니다. 공식은 다음과 같습니다. > (x - 평균) / 표준편차 2) 파이썬으로 직접구현 3. RobustScaler 1) 정의 중앙값이 0, 최대값 1, 최소값 -1 인 분포로 변경됩니다. 만약 이상값이 너무 크거나 작으면 -1, 1을 뚫어버립니다. 공식은 다음과 같습니다. > (x - 중앙값) / (q3 - q1) 2) 파이썬으로 직접구현