[ML] 회귀분석

juyeon lee·2023년 2월 23일
0

Machine Learning

목록 보기
2/11
post-thumbnail

📌 개념

지도학습의 한 종류
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 분석 기법
변수들 사이에 인과관계를 밝히고 독립변수에 의해 변하는 종속변수를 예측 및 추론
수학적 설명을 덧붙이자면 직선의 함수에서 올바른 기울기와 y절편을 구하는 과정이다.

🔍 회귀분석의 변수

  • 종속변수(y) : 영향을 받는 변수 = 결과 즉, 우리가 알고 싶어하는 결괏값
  • 독립변수(x) : 영향을 주는 변수 = 원인
    통제변수 : 인위적으로 조작할 수 있지만, 핵심적 관점을 두지 않는 변수

🔍 기준에 따른 회귀분석의 분류


❗ 단순 / 다중 선형 회귀분석을 가장 많이 사용


🔍 회귀분석의 가정

  • 선형성
    입력변수와 출력변수의 관계가 선형
  • 독립성
    입력변수와 오차는 관련 X
    산점도에서 잔차와 입력변수 간 아무런 관련성 없이 무작위로 골고루 분포되어야 만족
  • 비상관성
    오차들끼리의 상관이 존재하지 않음
  • 정규성
    오차의 분포가 정규분포를 따름


📌 회귀분석의 종류

  • 선형/비선형 회귀분석
  • 다항 회귀분석
  • 다중 회귀분석
  • 로지스틱 회귀분석
  • 리지 회귀
  • 라쏘 회귀

🔍 선형회귀분석

선형이란 독립변수가 1차항으로 돼 있다는 의미
즉, 독립변수와 종속변수의 관계가 2차원에서는 직선의 형태, 3차원 공간에서 평면으로 나타난다.

🔍 다중 회귀분석

📖 정의

  • 독립변수가 k개이며 종속변수와의 관계가 선형인 회귀분석
    -> 독립변수의 개수가 많아질수록 과적합될 가능성 높아짐
  • 최소제곱법 사용하여 각각의 독립변수의 가중치 역할을 하는 회귀계수 구함

💡 모형의 통계적 유의성

  • F-통계량으로 확인
  • p-value가 0.05보다 작으면 회귀식이 통계적으로 유의하다고 봄

💡 다중선형 회귀분석의 검정

  1. 회귀계수 유의성
    t-통계량을 통해 확인
    모든 회귀계수의 유의성이 검증되어야 함

  2. 결정계수 R2
    모형의 설명력을 보여주는 지표
    회귀선의 정확도를 평가

  3. 모형의 적합성
    잔차와 종속변수의 산점도로 확인

  4. 다중공선성

  • 설명변수들 사이에 선형관계가 존재하여 회귀계수의 추정에 부정적인 영향을 미치는 것
  • 결정계수의 값이 높지만 독립변수의 p-value가 커서 유의하지 않다는 결론이 나오면 다중공선성을 의심해 볼 수 있음.
  • 해결방법
    문제가 있는 변수를 제거하거나 주성분 회귀 모형을 적용
    규제를 통해 문제 해결 가능!

🔍 규제(Regularization)

📖 정의

기존 회귀분석의 비용함수에 특정한 규제 함수를 더하여 손실 함수가 너무 작아지지 않도록 모델의 가중치를 제한하여 차수를 감소
즉, 모델이 훈련 세트에 과적합되지 않고 일반성을 가질 수 있도록 하는 방법
-> 모델의 복잡도 감소 하여 정확도 향상!

✔ 특징

  • 규제는 분산을 줄여 머신러닝의 정확도를 향상 (편향에 대한 규제는 설정하지 않음)
  • BUT ❗ 이 과정에서 편향이 증가할 수 있기 때문에 적절한 조절이 필요하다.

규제를 통한 회귀분석 방법 세 가지를 설명하겠다.

💡 라쏘(Lasso) : L1

📖 정의

  • 선형 회귀에 L1 규제(L1 norm)를 적용하는 회귀분석 모델
  • 변수 선택을 통해 변수 간 검정오차(검정MSE)가 최소인 모델을 찾는 분석 기법

🔷 L1 규제

✔ 정의

  • 중요하지 않은 변수의 가중치를 0으로 설정하여 특성을 무력화 시킴

✔ 특징

  • 맨하튼 거리 이용
  • 의미 있는 변수만을 선택하는 효과
    → 모델의 복잡도 낮춤
  • 다중공선성이 있는 경우, 발생하는 변수 그룹의 모든 변수가 제거되는 경우 발생할 수 있음

✔ 규제항 추가한 회귀식

RSS+αθi2RSS + α∑|θ|_i^2\\
  • 비용함수 =RSS= RSS

  • 규제항 =αθi= α∑|θ_i| (θ = 가중치)
    규제항을 비용함수에 절댓값 적용하여 추가
    모델의 훈련이 끝나면 규제가 없는 성능 지표로 모델 성능을 평가

  • 하이퍼파라미터 =α
    모델을 얼마나 많이 규제할지 조절하는 값
    중요하지 않은 변수들의 가중치(θ)가 0이 되어 제거

αα 커지면▲ 가중치가 작아져▼ = 과소적합
αα 작아지면▼ 가중치 커져▲ = 과대적합



💡릿지 (Lidge) : L2

📖 정의

  • 선형 회귀에 L2규제 (L2 norm)를 적용하는 회귀분석 모델
  • 라쏘 회귀분석과 달리, 변수 선택을 하지 않고 검정MSE가 최소인 모델을 찾는 분석기법

🔷 L2 규제

✔ 정의

  • 중요하지 않은 변수의 가중치를 0에 가깝게 하여 특성의 영향력을 감소시킴
  • 가중치가 0에 가까워진다는 것은 모델의 편향이 증가하고 분산이 감소한다는 의미
    → 모델의 정확도 향상

✔ 특징

  • 유클리드 거리 이용
  • L2 손실함수는 실제 값과 예측 값 오차들의 제곱의 합
    → 이상치에 대해 더 큰 영향 받음
  • 가중치의 부호 뿐만 아니라 크기만큼 규제 가능
  • L1 대비 학습효과가 더 좋음

✔ 규제항 추가한 회귀식

RSS+αθi2RSS + α∑θ_i^2\\
  • 비용함수 =RSS= RSS

  • 규제항 =αθi2= α∑θ_i^2
    규제항을 비용함수에 제곱하여 추가
    모델의 훈련이 끝나면 규제가 없는 성능 지표로 모델 성능을 평가한다.

  • 하이퍼파라미터 =α
    모델을 얼마나 많이 규제할지 조절하는 값
    값이 커질수록 모든 가중치(θ)가 0에 수렴 → 과적합 방지

    αα 커지면▲ 가중치가 작아져▼ = 과소적합
    αα 작아지면▼ 가중치 커져▲ = 과대적합



💡라쏘와 릿지의 비교

라쏘릿지
L1 규제L2 규제
맨하탄 거리유클리드 거리
규제항 절댓값규제항 제곱
가중치 0 설정가중치 0에 가깝게
일부 특성이 중요한 경우특성 중요도가 비슷한 경우

💡엘라스틱 넷(elastic net)

  • 릿지와 라쏘를 혼합하여 회귀식을 규제하는 분석 (= 둘의 절충안)
  • 두 회귀의 규제항을 단순히 더해서 사용
  • 혼합 비율을 조절하여 어느 방식의 비중을 크게 할 것인지 결정

0개의 댓글