[ML] 회귀분석

juyeon lee·2023년 2월 23일

Machine Learning

목록 보기

2/11

📌 개념

지도학습의 한 종류
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 분석 기법
변수들 사이에 인과관계를 밝히고 독립변수에 의해 변하는 종속변수를 예측 및 추론
수학적 설명을 덧붙이자면 직선의 함수에서 올바른 기울기와 y절편을 구하는 과정이다.

🔍 회귀분석의 변수

종속변수(y) : 영향을 받는 변수 = 결과 즉, 우리가 알고 싶어하는 결괏값
독립변수(x) : 영향을 주는 변수 = 원인
통제변수 : 인위적으로 조작할 수 있지만, 핵심적 관점을 두지 않는 변수

🔍 기준에 따른 회귀분석의 분류

❗ 단순 / 다중 선형 회귀분석을 가장 많이 사용

🔍 회귀분석의 가정

선형성
입력변수와 출력변수의 관계가 선형
독립성
입력변수와 오차는 관련 X
산점도에서 잔차와 입력변수 간 아무런 관련성 없이 무작위로 골고루 분포되어야 만족
비상관성
오차들끼리의 상관이 존재하지 않음
정규성
오차의 분포가 정규분포를 따름

📌 회귀분석의 종류

선형/비선형 회귀분석

다항 회귀분석

다중 회귀분석

로지스틱 회귀분석

리지 회귀

라쏘 회귀

🔍 선형회귀분석

선형이란 독립변수가 1차항으로 돼 있다는 의미
즉, 독립변수와 종속변수의 관계가 2차원에서는 직선의 형태, 3차원 공간에서 평면으로 나타난다.

🔍 다중 회귀분석

📖 정의

독립변수가 k개이며 종속변수와의 관계가 선형인 회귀분석
-> 독립변수의 개수가 많아질수록 과적합될 가능성 높아짐
최소제곱법 사용하여 각각의 독립변수의 가중치 역할을 하는 회귀계수 구함

💡 모형의 통계적 유의성

F-통계량으로 확인
p-value가 0.05보다 작으면 회귀식이 통계적으로 유의하다고 봄

💡 다중선형 회귀분석의 검정

회귀계수 유의성
t-통계량을 통해 확인
모든 회귀계수의 유의성이 검증되어야 함
결정계수 R2
모형의 설명력을 보여주는 지표
회귀선의 정확도를 평가
모형의 적합성
잔차와 종속변수의 산점도로 확인
다중공선성

설명변수들 사이에 선형관계가 존재하여 회귀계수의 추정에 부정적인 영향을 미치는 것
결정계수의 값이 높지만 독립변수의 p-value가 커서 유의하지 않다는 결론이 나오면 다중공선성을 의심해 볼 수 있음.
해결방법
→ 문제가 있는 변수를 제거하거나 주성분 회귀 모형을 적용
규제를 통해 문제 해결 가능!

🔍 규제(Regularization)

📖 정의

기존 회귀분석의 비용함수에 특정한 규제 함수를 더하여 손실 함수가 너무 작아지지 않도록 모델의 가중치를 제한하여 차수를 감소
즉, 모델이 훈련 세트에 과적합되지 않고 일반성을 가질 수 있도록 하는 방법
-> 모델의 복잡도 감소 하여 정확도 향상!

✔ 특징

규제는 분산을 줄여 머신러닝의 정확도를 향상 (편향에 대한 규제는 설정하지 않음)
BUT ❗ 이 과정에서 편향이 증가할 수 있기 때문에 적절한 조절이 필요하다.

규제를 통한 회귀분석 방법 세 가지를 설명하겠다.

💡 라쏘(Lasso) : L1

📖 정의

선형 회귀에 L1 규제(L1 norm)를 적용하는 회귀분석 모델
변수 선택을 통해 변수 간 검정오차(검정MSE)가 최소인 모델을 찾는 분석 기법

🔷 L1 규제

✔ 정의

중요하지 않은 변수의 가중치를 0으로 설정하여 특성을 무력화 시킴

✔ 특징

맨하튼 거리 이용
의미 있는 변수만을 선택하는 효과
→ 모델의 복잡도 낮춤
다중공선성이 있는 경우, 발생하는 변수 그룹의 모든 변수가 제거되는 경우 발생할 수 있음

✔ 규제항 추가한 회귀식

RSS + α∑|θ|_i^2\\

비용함수 $= RSS$
규제항 $= α∑|θ_i|$ (θ = 가중치)
규제항을 비용함수에 절댓값 적용하여 추가
모델의 훈련이 끝나면 규제가 없는 성능 지표로 모델 성능을 평가
하이퍼파라미터 $=α$
모델을 얼마나 많이 규제할지 조절하는 값
중요하지 않은 변수들의 가중치(θ)가 0이 되어 제거

$α$ 커지면▲ 가중치가 작아져▼ = 과소적합
$α$ 작아지면▼ 가중치 커져▲ = 과대적합

💡릿지 (Lidge) : L2

📖 정의

선형 회귀에 L2규제 (L2 norm)를 적용하는 회귀분석 모델
라쏘 회귀분석과 달리, 변수 선택을 하지 않고 검정MSE가 최소인 모델을 찾는 분석기법

🔷 L2 규제

✔ 정의

중요하지 않은 변수의 가중치를 0에 가깝게 하여 특성의 영향력을 감소시킴
가중치가 0에 가까워진다는 것은 모델의 편향이 증가하고 분산이 감소한다는 의미
→ 모델의 정확도 향상

✔ 특징

유클리드 거리 이용
L2 손실함수는 실제 값과 예측 값 오차들의 제곱의 합
→ 이상치에 대해 더 큰 영향 받음
가중치의 부호 뿐만 아니라 크기만큼 규제 가능
L1 대비 학습효과가 더 좋음

✔ 규제항 추가한 회귀식

RSS + α∑θ_i^2\\

비용함수 $= RSS$
규제항 $= α∑θ_i^2$
규제항을 비용함수에 제곱하여 추가
모델의 훈련이 끝나면 규제가 없는 성능 지표로 모델 성능을 평가한다.
하이퍼파라미터 $=α$
모델을 얼마나 많이 규제할지 조절하는 값
값이 커질수록 모든 가중치(θ)가 0에 수렴 → 과적합 방지

$α$ 커지면▲ 가중치가 작아져▼ = 과소적합
$α$ 작아지면▼ 가중치 커져▲ = 과대적합

💡라쏘와 릿지의 비교

라쏘	릿지
L1 규제	L2 규제
맨하탄 거리	유클리드 거리
규제항 절댓값	규제항 제곱
가중치 0 설정	가중치 0에 가깝게
일부 특성이 중요한 경우	특성 중요도가 비슷한 경우

💡엘라스틱 넷(elastic net)

릿지와 라쏘를 혼합하여 회귀식을 규제하는 분석 (= 둘의 절충안)
두 회귀의 규제항을 단순히 더해서 사용
혼합 비율을 조절하여 어느 방식의 비중을 크게 할 것인지 결정

juyeon lee

이전 포스트

[ML] 머신러닝이란?

다음 포스트

[ML] 회귀분석

Machine Learning

📌 개념

🔍 회귀분석의 변수

🔍 기준에 따른 회귀분석의 분류

🔍 회귀분석의 가정

📌 회귀분석의 종류

🔍 선형회귀분석

🔍 다중 회귀분석

📖 정의

💡 모형의 통계적 유의성

💡 다중선형 회귀분석의 검정

🔍 규제(Regularization)

📖 정의

✔ 특징

💡 라쏘(Lasso) : L1

📖 정의

🔷 L1 규제

✔ 정의

✔ 특징

✔ 규제항 추가한 회귀식

💡릿지 (Lidge) : L2

📖 정의

🔷 L2 규제

✔ 정의

✔ 특징

✔ 규제항 추가한 회귀식

💡라쏘와 릿지의 비교

💡엘라스틱 넷(elastic net)

[ML] 머신러닝이란?

[ML] 의사결정나무(Decision Tree)

0개의 댓글