📌 개념
지도학습의 한 종류
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 분석 기법
변수들 사이에 인과관계를 밝히고 독립변수에 의해 변하는 종속변수를 예측 및 추론
수학적 설명을 덧붙이자면 직선의 함수에서 올바른 기울기와 y절편을 구하는 과정이다.
🔍 회귀분석의 변수
- 종속변수(y) : 영향을 받는 변수 = 결과 즉, 우리가 알고 싶어하는 결괏값
- 독립변수(x) : 영향을 주는 변수 = 원인
통제변수 : 인위적으로 조작할 수 있지만, 핵심적 관점을 두지 않는 변수
🔍 기준에 따른 회귀분석의 분류

❗ 단순 / 다중 선형 회귀분석을 가장 많이 사용
🔍 회귀분석의 가정
- 선형성
입력변수와 출력변수의 관계가 선형
- 독립성
입력변수와 오차는 관련 X
산점도에서 잔차와 입력변수 간 아무런 관련성 없이 무작위로 골고루 분포되어야 만족
- 비상관성
오차들끼리의 상관이 존재하지 않음
- 정규성
오차의 분포가 정규분포를 따름
📌 회귀분석의 종류
- 선형/비선형 회귀분석
- 다항 회귀분석
- 다중 회귀분석
- 로지스틱 회귀분석
- 리지 회귀
- 라쏘 회귀
🔍 선형회귀분석
선형이란 독립변수가 1차항으로 돼 있다는 의미
즉, 독립변수와 종속변수의 관계가 2차원에서는 직선의 형태, 3차원 공간에서 평면으로 나타난다.
🔍 다중 회귀분석
📖 정의
- 독립변수가 k개이며 종속변수와의 관계가 선형인 회귀분석
-> 독립변수의 개수가 많아질수록 과적합될 가능성 높아짐
- 최소제곱법 사용하여 각각의 독립변수의 가중치 역할을 하는 회귀계수 구함
💡 모형의 통계적 유의성
- F-통계량으로 확인
- p-value가 0.05보다 작으면 회귀식이 통계적으로 유의하다고 봄
💡 다중선형 회귀분석의 검정
-
회귀계수 유의성
t-통계량을 통해 확인
모든 회귀계수의 유의성이 검증되어야 함
-
결정계수 R2
모형의 설명력을 보여주는 지표
회귀선의 정확도를 평가
-
모형의 적합성
잔차와 종속변수의 산점도로 확인
-
다중공선성
- 설명변수들 사이에 선형관계가 존재하여 회귀계수의 추정에 부정적인 영향을 미치는 것
- 결정계수의 값이 높지만 독립변수의 p-value가 커서 유의하지 않다는 결론이 나오면 다중공선성을 의심해 볼 수 있음.
- 해결방법
→ 문제가 있는 변수를 제거하거나 주성분 회귀 모형을 적용
규제를 통해 문제 해결 가능!
🔍 규제(Regularization)
📖 정의
기존 회귀분석의 비용함수에 특정한 규제 함수를 더하여 손실 함수가 너무 작아지지 않도록 모델의 가중치를 제한하여 차수를 감소
즉, 모델이 훈련 세트에 과적합되지 않고 일반성을 가질 수 있도록 하는 방법
-> 모델의 복잡도 감소 하여 정확도 향상!
✔ 특징
- 규제는 분산을 줄여 머신러닝의 정확도를 향상 (편향에 대한 규제는 설정하지 않음)
- BUT ❗ 이 과정에서 편향이 증가할 수 있기 때문에 적절한 조절이 필요하다.
규제를 통한 회귀분석 방법 세 가지를 설명하겠다.
💡 라쏘(Lasso) : L1
📖 정의
- 선형 회귀에 L1 규제(L1 norm)를 적용하는 회귀분석 모델
- 변수 선택을 통해 변수 간 검정오차(검정MSE)가 최소인 모델을 찾는 분석 기법
🔷 L1 규제
✔ 정의
- 중요하지 않은 변수의 가중치를 0으로 설정하여 특성을 무력화 시킴
✔ 특징
- 맨하튼 거리 이용
- 의미 있는 변수만을 선택하는 효과
→ 모델의 복잡도 낮춤
- 다중공선성이 있는 경우, 발생하는 변수 그룹의 모든 변수가 제거되는 경우 발생할 수 있음
✔ 규제항 추가한 회귀식
RSS+α∑∣θ∣i2
α 커지면▲ 가중치가 작아져▼ = 과소적합
α 작아지면▼ 가중치 커져▲ = 과대적합
💡릿지 (Lidge) : L2
📖 정의
- 선형 회귀에 L2규제 (L2 norm)를 적용하는 회귀분석 모델
- 라쏘 회귀분석과 달리, 변수 선택을 하지 않고 검정MSE가 최소인 모델을 찾는 분석기법
🔷 L2 규제
✔ 정의
- 중요하지 않은 변수의 가중치를 0에 가깝게 하여 특성의 영향력을 감소시킴
- 가중치가 0에 가까워진다는 것은 모델의 편향이 증가하고 분산이 감소한다는 의미
→ 모델의 정확도 향상
✔ 특징
- 유클리드 거리 이용
- L2 손실함수는 실제 값과 예측 값 오차들의 제곱의 합
→ 이상치에 대해 더 큰 영향 받음
- 가중치의 부호 뿐만 아니라 크기만큼 규제 가능
- L1 대비 학습효과가 더 좋음
✔ 규제항 추가한 회귀식
RSS+α∑θi2
💡라쏘와 릿지의 비교
라쏘 | 릿지 |
---|
L1 규제 | L2 규제 |
맨하탄 거리 | 유클리드 거리 |
규제항 절댓값 | 규제항 제곱 |
가중치 0 설정 | 가중치 0에 가깝게 |
일부 특성이 중요한 경우 | 특성 중요도가 비슷한 경우 |
💡엘라스틱 넷(elastic net)
- 릿지와 라쏘를 혼합하여 회귀식을 규제하는 분석 (= 둘의 절충안)
- 두 회귀의 규제항을 단순히 더해서 사용
- 혼합 비율을 조절하여 어느 방식의 비중을 크게 할 것인지 결정