단순 선형 회귀 모델 검정
- 귀무 가설: b1 = 0(회귀계수는 0 = 변수의 설명력이 존재하지 않음)
- 대립가설: b1 =! 0 (설명력 있는 변수 존재함)
1) 회귀 분석은 Y의 변동성을 '독립변수'가 얼마나 잘 설명하느냐가 중요
2) 변수가 여러개 일때 각각 Y를 설명하는 변동성이 크면 좋은 변수 = p-value가 자연스레 낮아짐
다중선형 회귀 모델 검정
- 귀무 가설: b1 = b2= ... = bp = 0(모든 회귀계수는 0 = 변수의 설명력이 하나도 존재하지 않음)
- 대립가설: 하나의 회귀계수라도 0이 아님(설명력 있는 변수 존재함)
--> 기각 하기 너무 쉬운 가설
--> (b/c) 변수가 추가되면 추가 될수록 기각하기 쉬워짐
1) Y의 변동성: 총 변동은 정해져 있음(바뀌지 않음)
2) SSR
변수들간의 다중공선성이 있다
<문제점>
<진단 방법>
<해결 방법>
: 중요한 변수 추출 방법은 데이터사이언스 분야에서 큰 이슈 중에 하나이다
잔차가 가정에 위배되는 경우
1) Y에 대하여 log 또는 루트 적용
2) 이상치 제거
3) 다항회귀분석: 항이 추가 될수록 overfitting 가능성 크므로, 고차항 추가시 신중해야 함