# MinMaxScaler

11개의 포스트

Day 55

Machine Learningreviewday7 https://www.kaggle.com/datasets/shwetabh123/mall-customers ![](https://ve

2023년 7월 25일
·
1개의 댓글
·
post-thumbnail

제로베이스 데이터취업스쿨 DAY52 머신러닝5~8

결정나무에서는 이런 전처리는 의미를 가지지 않는다. 주로 Cost Function을 최적화할 때 유효화할 때가 있다. ![](https://velog.velcdn.com/im

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

Decision Tree(Feat. Wine)

해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다 Scaling MinMaxScaler 0 ~ 1로 스케일 조정 이상치의 영향이 큼 StandardScaler 기본스케일. 평균과 표준편차로 스케일링 이상치의 영향이 큼 RobustScaler 중간값과 사분위수 사용 이상치 영향 최소화 와인 개요 와인은 당도, 타닌, 산도, 알콜, 향기, 풍미, 바디감, 맛 등 굉장히 많은 분류가 있다 이 많은 분류를 모두 하는 것은 어렵고 레드와인과 화이트와인으로 분류해보자 목표 레드와인, 화이트와인 분류하기 절차 1. 데이터 이해 2. Decision Tree 활용 3. 이진분류(레

2023년 3월 16일
·
0개의 댓글
·
post-thumbnail

ML 04. 로지스틱 회귀

키워드 훈련/검증/테스트(train/validate/test) 데이터를 분리하는 이유 분류(classification) 문제와 회귀문제의 차이점 로지스틱회귀(Logistic regression) 그렇다면 데이터를 훈련/테스트 세트로 나누는 것에 더해 왜 검증세트가 필요한 것일까요? 왜냐하면 훈련세트로 모델을 한 번에 완전하게 학습시키기가 어렵기 때문입니다. 훈련세트로 다르게 튜닝된 여러 모델들을 학습한 후 어떤 모델이 학습이 잘 되었는지 검증하고 선택하는 과정이 필요합니다. 이렇게 훈련/검증세트로 좋은 모델을 만들어 낸 후 최종적으로 테스트세트에는 단 한번의 예측테스트를 진행합니다. 최종테스트 결과가 마음에 들지 않는다고 모델을 또 수정하여 테스트 세트를 더 잘 예측하는 모델을 만든다면 그 모델은 테스트세트에 과적합하여 일반화 성능이 떨어지게 될 수 있습니다. train set: 학습을 위한

2022년 12월 7일
·
0개의 댓글
·
post-thumbnail

머신러닝 2

새싹 인공지능 응용sw 개발자 양성 교육 프로그램 심선조 강사님 수업 정리 글입니다. 머신러닝을 위한 대표적인 인코딩 방식 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환하는 것 원-핫 인코딩 레이블 인코딩 LableEncoder 클래스로 구현 LableEncoder를 객첼 생성한 후 fit()과 transform()을 호출해 레이블 인코딩을 수행한다. array([0, 1, 4, 5, 3, 3, 2, 2]) array([1]) array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5') array(['냉장고'], dtype='<U5') array(['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'], dtype='<U5')

2022년 11월 25일
·
0개의 댓글
·

Feature Engineering_2

ML101601featureengineering.ipynb Feature Scaling StandardScaler : 표준화, 주로 신경망 모델 MinMaxScaler : 0~1 RobustScaler : oulier에 강함 PowerTransformer : 분산 안정화, 왜도 최소화, box-cox와 yeo-johnson변환 지원 All about Feature Scaling Feature Selection Model Based feature Selection Univarate(단변량) Feature Selection -통계 모델 기반 y값과 하나의 feature간의 통계적 유의미를 분석 주로 선형 모델에서 유용 **Recursive feature el

2021년 12월 26일
·
0개의 댓글
·

Preprocessing - Data Scaling

Scaling 1. Definition numerical data들은 서로 scale 차이가 너무 많이 나면 모델의 학습이 원활하게 되지 않는 경우가 있다. 예를 들어 KNN의 경우 Eucliean distance를 사용할 때 $$ \sqrt{(10-9)^2 + (100000-29900)^2 \cdots} $$ 이런 식으로 되어 버리면 두번째 column의 영향력이 너무 강해져서 첫번째 column은 무시될 수 있다. 그러므로 column별로 scaling을 해줘야 한다. 대표적으로 Standardization(표준화)과 Normalization(정규화)이 있다. 보통 categorical variables에는 사용하지 않는다. 2. Techniques 1. StandardScaler() feature들의 mean을 0, variance를 1로 scailing하는 방법이다. outlier에 매우 민감하다. regression보다 cl

2021년 11월 2일
·
0개의 댓글
·

[인사이드 머신러닝] 데이터 스케일링

보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값의 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨씬 크기 때문에 재산에 치중한 학습을 하게 된다. 따라서 학습을 진행하기에 앞서 데이터 스케일링은 필수적이다. 참고로 decision tree 계열의 알고리즘들은 스케일링이 필수는 아니다. Min-Max Scaling Normalization(정규화)이라는 용어도 많이 쓰임. 아래 식과 같은 변환을 통해 값의 범위를 0~1로 제한 (=좁은 범위로 압축) $$ x{scaled} = \frac{x-x{min}}{x{max}-x{min}} $$ Outlier에 매우 민감 Standardization 우리말로 표준화라고 부르며, Z-score라고도 함. (통계학 용어, 둘 다 많

2021년 8월 6일
·
0개의 댓글
·

[python] Scaler 구현하기

사이킷런의 scaler 3개를 직접 구현해봅시다. MinMaxScaler, 2. StandardScaler, 3. RobustScaler 1. MinMaxScaler 1) 정의 모든 값을 0 ~ 1 사이의 실수로 변환시킵니다. 공식은 다음과 같습니다. > (x - 최소값) / (최대값 - 최소값) 2) 파이썬으로 직접구현 2. StandardScaler 1) 정의 모든 값을 평균이 0 분산이 1인 정규분포로 변환합니다. 공식은 다음과 같습니다. > (x - 평균) / 표준편차 2) 파이썬으로 직접구현 3. RobustScaler 1) 정의 중앙값이 0, 최대값 1, 최소값 -1 인 분포로 변경됩니다. 만약 이상값이 너무 크거나 작으면 -1, 1을 뚫어버립니다. 공식은 다음과 같습니다. > (x - 중앙값) / (q3 - q1) 2) 파이썬으로 직접구현

2021년 5월 18일
·
0개의 댓글
·
post-thumbnail

Feature Scaling in Scikit Learn

Data Preprocessing is not just about encoding the data and converting the data type within the dataset. It also requires arduous steps to adjust the widening range of different independent variables hence enabling to exercise similar extent of impact to the model. Imagine two different features height and weight. It will simply be "nonsensical" to extract meaningful outcome by comparing features with diifferent units (ex - cm vs. kg , ft vs. lb). A process of normalizing the range of variabl

2021년 1월 6일
·
0개의 댓글
·

데이터 전처리

사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다. 결손값: NaN, Null 값을 어떻게 처리할지 결정하기 문자열 값: 머신러닝 알고리즘은 문자열 값을 입력 값으로 허용하지 않기에 숫자형으로 변형해야함. 데이터 인코딩 레이블 인코딩(Label Encoding): 카테고리 피처를 코드형 숫자 값으로 변환하는 것 원-핫 인코딩(One-Hot Encoding): 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식 레이블 인코딩 인코딩 변환값; [0 1 4 5 3 3 2 2] 인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터'] 디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기'] 레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리

2020년 12월 21일
·
0개의 댓글
·