회귀 분석
회귀 분석을 한 마디로 하면 변수들 사이의 관계를 이해하고 도움을 주는 통계적 방법이다.
우리가 원하는 타겟 값(종속 변수)와 그것을 예측하는데 필요한 변수들(독립 변수)에 의해 얼마나 영향을 받는지 확인하는 것이다.
그래서 회귀 분석에는 여러 종류가 있다.
- 단순 선형 회귀
하나의 독립 변수와 하나의 종속 변수 사이의 관계 (X, Y 관계)를 살펴본다.
- 다중 선형 회귀
여러 독립 변수(날씨, 요일, 위치 등)을 사용하여 종속 변수를 예측한다.
- 로지스틱 회귀
예/아니오와 같은 종속 변수를 예측할 때 사용한다.
언제 사용하는가?
- 작은 데이서셋
회귀 분석은 작은 데이터셋에서도 의미 있는 결과를 얻을 수 있다.
- 간단 & 적은 비용
복잡하지 않기 때문에 컴퓨터의 부담이 적다.
- 이해와 설명
데이터의 패턴을 이해하고 설명할 때, 데이터가 어떻게 움직이고 왜 그런지 보여준다.
- 선형 관계가 강한 데이터
선형적인 패턴을 보인다면, 높은 정확도를 제공할 수 있다.
한계점
- 비선형 관계에서는 잘 안된다.
- 간단하기 때문에 복잡한 패턴이나 관계를 포착하거나 설명하기 어렵다.
기본 가정
- 선형성(Linearity)
- 종속 변수와 독립 변수 사이에 직선과 같은 관계가 있어야 한다.
- 이 가정이 충족되지 않으면 회귀 모델은 실제 데이터의 패턴을 잘못 해석할 수 있음.
- 오차의 독립성(Independence of Errors)
- 모델의 예측과 실제 값 사이의 차이(오차)가 서로 영향을 주면 안됨.
- 오차가 서로 관련되어 있으면, 모델이 특정 패턴이나 추세를 놓칠 수 있음.
- 오차의 정규 분포(Normality of Errors)
- 오차는 정규분포를 따라야 한다. 오차가 특정한 종모양 패턴을 보여야 한다.
- 통계적 추정과 검정이 더 정확하고 신뢰할 수 있게 된다.
- 오차의 등분산성(Homoscedasticity)
- 오차의 크기가 독립 변수의 값에 관계없이 일정해야한다.
- 독립 변수가 어떤 값이든 오차의 분산은 같아야 한다.
- 일부 영역에서만 잘 작동할 수 있다.
- 다중공선성(Multicollinearity) 부재
- 독립 변수들이 서로 너무 강하게 연관되어 있지 않아야 한다.
- 하나의 독립 변수가 다른 독립 변수를 예측하는데 사용되서는 않된다.
- 다중공선성이 높으면 어떤 독립 변수가 종속 변수에 영향을 미치는지 정확히 파악하기 어려움.
회귀 모형 평가
회귀 모형 적합도 평가
- 결정 계수(R-squared)
- R-제곱은 모델이 데이터의 변동성을 얼마나 잘 설명하는지 나타내는 지표.
- 0 ~ 1 사이에서 변하며 1에 가까울수록 잘 설명함.
- 무조건 높은 값이 좋은것은 아니고 과적합도 의심해야 함.
- 조정된 결정 계수(Adjusted R-squared)
- 독립 변수의 수가 증가할 때 R-제곱의 증가를 보정.
- 독립 변수의 수를 고려하여 R-제곱을 조정한 값으로, 불필요한 변수가 모델에 추가될 때 패널티를 부여함.
- 표준 오차(Standard Error)
- 회귀선과 실제 데이터 포인트 간의 평균 거리를 나타냄.
- 표준 오차가 작을수록 모델의 예측이 실제 값에 더 가깝다는 의미.
- F-통계량(F-Statistic)
- 모델의 전체 유의성을 평가함.
- F-통계량이 크고, 관련 p-값이 작을수록 모델이 통계적으로 유의미하다고 간주.
- AIC(Akaike Information Criterion) 및 BIC(Bayesian Information Cirterion)
- 모델의 복잡성과 적합도를 함께 고려하는 지표.
- 값이 작을수록 더 좋은 모델로 평가.
회귀계수에 대한 T검정
회귀 모델에서 각 독립 변수가 종속 변수에 미치는 영향이 통계적으로 유의미한지를 평가하는것.
- 통계적 유의성 판단: T 검정은 각 독립 변수의 회귀계수가 0인지 아닌지를 판단.
- 회귀계수가 0이면 해당 변수는 종속 변수에 영향을 미치지 않음.
- 신뢰 구간 추정: T 검정은 회귀계수의 신뢰 구간(Confidence Interval)을 계산하는데 사용됨.
- 신뢰 구간은 회귀계수가 특정한 범위 안에 있을 확률을 제공.
- 변수 선택: 회귀 모델에서 어떤 변수들이 결과에 중요한 영향을 미치는지 결정하는데 T 검정 결과과 사용될 수 있음.
- 통계적으로 유의미하지 않는 변수는 모델에서 제외할 수 있음.
- 모델의 예측력 평가: T 검정은 모델의 전체적인 예측력을 평가하는데 도움을 줌.
- 모든 독록 변수의 계수가 유의미하다면, 모델은 데이터를 잘 설명할 가능성이 높음.