오늘 한 일
- Ridge 회귀
- 점심 저녁 집밥 먹음 (뿌듯)
keyword :
- one-hot encoding
- 더미 코딩(불필요한 피쳐 제거)
- 범주형 변수 (Categorical variable)
- 명목형(nominal)
- 순서형(ordinal)
- 집합의 크기(Cardinality)
- 특성선택(Feature selection)
- 특성공학(feature engineering)
* 과제에 적합한 특성을 만들어 내는 과정
- 이상치
- Ridge Regression 모델 학습
* 편향을 조금 더하고 분산을 줄이는 방법으로 정규화 수행
- alpha=0 : OLS와 그래프상으로 같은 모델
- alpha커짐 : 직선의 기울기가 0에 가까워져 평균 기준모델과 비슷해짐
- alpha(람다)값이 커질수록 회귀계수(가중치)들을 0으로 수렴시킴 -> 덜필요한 특성 줄임 -> 과적함 내려감
? 람다값이 0에 가까워질수록 다중 회귀 모델이 됨
- OLS(최소자승법 / 단순선형회귀에 쓰임)
- 회귀계수
- 교차검증(Cross-validation)
- RidgeCV, 최적 패널티
참고) alpha, lambda, regularization parameter, penalty term 모두 같은 뜻 입니다.
기타
범주 비율을 살펴볼 때
df['컬럼이름'].value_counts(normalize=True)
각 범주에 대한 여러 통계량 보고 싶을 때
df.groupby('City')['Price'].agg(['min','max','mean','median'])
범주형 데이터에만 원핫 인코딩 수행
## import OneHotEncoder
from category_encoders import OneHotEncoder
## 원핫 인코딩
encoder = OneHotEncoder(use_cat_names = True)
X_train = encoder.fit_transform(X_train)
X_test = encoder.transform(X_test)
내일 할 일
- 논리회귀(Logistic Regression) 공부
- 건강을 위해 스트레칭!
🐹
오늘은 정말 쉽지 않았다..! 이해 안되는 것 투성이지만, 키워드를 직접 써보니 조금은 정리되는 느낌이다. 릿지는 이번 sprint 끝나면 제일 복습해야 하는 파트일 것 같다.