# StandardScaler

9개의 포스트
post-thumbnail

제로베이스 데이터취업스쿨 DAY52 머신러닝5~8

결정나무에서는 이런 전처리는 의미를 가지지 않는다. 주로 Cost Function을 최적화할 때 유효화할 때가 있다. ![](https://velog.velcdn.com/im

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

Decision Tree(Feat. Wine)

해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다 Scaling MinMaxScaler 0 ~ 1로 스케일 조정 이상치의 영향이 큼 StandardScaler 기본스케일. 평균과 표준편차로 스케일링 이상치의 영향이 큼 RobustScaler 중간값과 사분위수 사용 이상치 영향 최소화 와인 개요 와인은 당도, 타닌, 산도, 알콜, 향기, 풍미, 바디감, 맛 등 굉장히 많은 분류가 있다 이 많은 분류를 모두 하는 것은 어렵고 레드와인과 화이트와인으로 분류해보자 목표 레드와인, 화이트와인 분류하기 절차 1. 데이터 이해 2. Decision Tree 활용 3. 이진분류(레

2023년 3월 16일
·
0개의 댓글
·
post-thumbnail

[혼공머신] 3-3. 특성 공학과 규제

Intro. 다항회귀 모델로 예측해봐도 여전히 남아있는 과소적합이 찜찜한데... 도와주세요ㅠ 김 팀장🗣️ "뭐야, 높이랑 두께 데이터도 있으면서 왜 안 썼어? 선형회귀는 특성이 많을수록 효과가 뛰어나니까, 여러 개의 특성을 함께 적용해 봐!" 1. 다중 회귀 데이터 준비 이번엔 길이 말고 높이랑 두께까지, 특성(독립변수)이 3개로 늘어남. 인터넷에서 데이터를 편하게 내려받아 쓸 수 있는 pandas 라이브러리 활용! 입력 데이터 pd.read_csv() : 외부의 csv 파일을 데이터프레임으로 받아오는 함수 .to_numpy() : 넘파이 배열로 바꿔주는 메소드 타깃 데이터 ![](https://velog.velcdn.c

2023년 1월 12일
·
0개의 댓글
·
post-thumbnail

머신러닝 2

새싹 인공지능 응용sw 개발자 양성 교육 프로그램 심선조 강사님 수업 정리 글입니다. 머신러닝을 위한 대표적인 인코딩 방식 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환하는 것 원-핫 인코딩 레이블 인코딩 LableEncoder 클래스로 구현 LableEncoder를 객첼 생성한 후 fit()과 transform()을 호출해 레이블 인코딩을 수행한다. array([0, 1, 4, 5, 3, 3, 2, 2]) array([1]) array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5') array(['냉장고'], dtype='<U5') array(['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'], dtype='<U5')

2022년 11월 25일
·
0개의 댓글
·

Feature Engineering_2

ML101601featureengineering.ipynb Feature Scaling StandardScaler : 표준화, 주로 신경망 모델 MinMaxScaler : 0~1 RobustScaler : oulier에 강함 PowerTransformer : 분산 안정화, 왜도 최소화, box-cox와 yeo-johnson변환 지원 All about Feature Scaling Feature Selection Model Based feature Selection Univarate(단변량) Feature Selection -통계 모델 기반 y값과 하나의 feature간의 통계적 유의미를 분석 주로 선형 모델에서 유용 **Recursive feature el

2021년 12월 26일
·
0개의 댓글
·

Preprocessing - Data Scaling

Scaling 1. Definition numerical data들은 서로 scale 차이가 너무 많이 나면 모델의 학습이 원활하게 되지 않는 경우가 있다. 예를 들어 KNN의 경우 Eucliean distance를 사용할 때 $$ \sqrt{(10-9)^2 + (100000-29900)^2 \cdots} $$ 이런 식으로 되어 버리면 두번째 column의 영향력이 너무 강해져서 첫번째 column은 무시될 수 있다. 그러므로 column별로 scaling을 해줘야 한다. 대표적으로 Standardization(표준화)과 Normalization(정규화)이 있다. 보통 categorical variables에는 사용하지 않는다. 2. Techniques 1. StandardScaler() feature들의 mean을 0, variance를 1로 scailing하는 방법이다. outlier에 매우 민감하다. regression보다 cl

2021년 11월 2일
·
0개의 댓글
·

[인사이드 머신러닝] 데이터 스케일링

보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값의 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨씬 크기 때문에 재산에 치중한 학습을 하게 된다. 따라서 학습을 진행하기에 앞서 데이터 스케일링은 필수적이다. 참고로 decision tree 계열의 알고리즘들은 스케일링이 필수는 아니다. Min-Max Scaling Normalization(정규화)이라는 용어도 많이 쓰임. 아래 식과 같은 변환을 통해 값의 범위를 0~1로 제한 (=좁은 범위로 압축) $$ x{scaled} = \frac{x-x{min}}{x{max}-x{min}} $$ Outlier에 매우 민감 Standardization 우리말로 표준화라고 부르며, Z-score라고도 함. (통계학 용어, 둘 다 많

2021년 8월 6일
·
0개의 댓글
·

[python] Scaler 구현하기

사이킷런의 scaler 3개를 직접 구현해봅시다. MinMaxScaler, 2. StandardScaler, 3. RobustScaler 1. MinMaxScaler 1) 정의 모든 값을 0 ~ 1 사이의 실수로 변환시킵니다. 공식은 다음과 같습니다. > (x - 최소값) / (최대값 - 최소값) 2) 파이썬으로 직접구현 2. StandardScaler 1) 정의 모든 값을 평균이 0 분산이 1인 정규분포로 변환합니다. 공식은 다음과 같습니다. > (x - 평균) / 표준편차 2) 파이썬으로 직접구현 3. RobustScaler 1) 정의 중앙값이 0, 최대값 1, 최소값 -1 인 분포로 변경됩니다. 만약 이상값이 너무 크거나 작으면 -1, 1을 뚫어버립니다. 공식은 다음과 같습니다. > (x - 중앙값) / (q3 - q1) 2) 파이썬으로 직접구현

2021년 5월 18일
·
0개의 댓글
·

데이터 전처리

사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다. 결손값: NaN, Null 값을 어떻게 처리할지 결정하기 문자열 값: 머신러닝 알고리즘은 문자열 값을 입력 값으로 허용하지 않기에 숫자형으로 변형해야함. 데이터 인코딩 레이블 인코딩(Label Encoding): 카테고리 피처를 코드형 숫자 값으로 변환하는 것 원-핫 인코딩(One-Hot Encoding): 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식 레이블 인코딩 인코딩 변환값; [0 1 4 5 3 3 2 2] 인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터'] 디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기'] 레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리

2020년 12월 21일
·
0개의 댓글
·