혼공 머신러닝 + 딥러닝 3장

cse 23·2023년 10월 25일
0

회귀 알고리즘과 모델 규제

03-1 k-최근접 이웃 회귀

지도 학습 알고리즘 -> 회귀/분류

회귀: 클래스중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제.-> 타깃갑도 임의의 수치가 됌

k-최근접 이웃 회귀: k-최근접 이웃 알고리즘을 사용해 회귀 문제를 푼다. 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼음

결정계수(R^2):대표적인 회귀 문제의 성능 측정 도구(1에 가까울수록 좋고, 0에 가깝다면 성능이 나쁜 모델)
R^2=1-((타깃-예측)^2의 합/(타깃-평균)^2의 합))

과대적합:모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을때 발생
과소적합 :훈련세트와 테스트 세트 성능이 모두 동일하게 낮거나 테스트 세트 성능이 높을때 발생

scikit-learn
KNeighborsRegressor : k-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스
mean_absolute_error(): 회귀모델의 평균 절댓값 오차를 계산
reshape():배열의 크기를 바꾸는 메서드

1.데이터 준비
2.훈련세트와 테스트세트로 나누기 -> 사이킷런의 train_test_split()함수 사용

03-2 선형회귀

선형회귀: 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형방정식을 찾는다.

모델파라미터: 선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터를 말함
다항회귀: 다앙식을 사용하여 특성과 타깃 사이의 관계를 나타냄

03-3 특성 공학과 규제

다중회귀: 여러개의 특성을 사용하는 회귀 모델
특성공학: 주어진 특성을 조합하여 새로운 특성을 만드는 일련의 작업과정
릿지: 규제가 있는 선형회귀모델중 하나이며 선형모델의 계수를 작게 만들어 과대적합을 완하(비교적 효과가 좋아 널리 사용하는 규제 방법)
하쏘: 또 다른 규제가 있는 선형 회귀 모델(계수 값을 아예 0으로 만들수도 있음)
하이퍼파라미터: 머신러닝 알고리즘이 학습하지 않은 파라미터

read_csv(): CSV파일을 로컬 컴퓨터나 인터넷에서 읽어 판다스 데이터 프레임으로 변환하는 함수
sep는 CSV파일의 구분자를 지정(기본값은 콤마(,)이다.)
PolynomialFeatures : 주어진 특성을 조합하여 새로운 특성을 만들어냄(degree 최고 자수를 지정. 기본값은 2)
ridge : 규제가 있는 회귀 알고리즘인 릿지 회귀 모델을 훈련(alpha 매개변수로 규제의 강도를 조절)
규제: 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는것

Lasso: 규제가 있는 회귀 알고리즘인 라쏘 회귀 모델을 훈련
max_iter:알고리즘의 수행 반복 횟수를 지정

0개의 댓글