결정계수와 SST/SSE/SSR

jaybon·2022년 10월 10일
0

머신러닝 정리

목록 보기
1/9

결정계수

통계학에서 결정계수(決定係數, 영어: coefficient of determination)는 추정한 선형 모형이 주어진 자료에 적합한 정도를 재는 척도이다. 반응 변수의 변동량 중에서 적용한 모형으로 설명가능한 부분의 비율을 가리킨다. 결정계수의 통상적인 기호는 표본에서 R2R^2이 그리고 모집단에서는 P2P^2이 사용된다.
결정계수가 0에 가까운 값을 가지는 회귀모형은 유용성이 낮은 반면, 결정계수의 값이 클수록 회귀모형의 유용성이 높다고 할 수 있다.
(위키백과 결정계수에서 발췌)

SST/SSE/SSR

(씩씩한IT블로그, 이해할때까지님의 블로그를 참고)

SSR

explained : Sum of Squares due to Regression

설명 가능한 수치

y값의 평균과 y값을 통해 구한 회귀선 간의 차이를 의미한다.

SSE

not explained : Sum of Squared errors

설명 불가능한 수치

y실제값과 예측값 사이의 차이를 의미한다.

y값을 회귀식으로 예측했다. 하지만 예측한 값과 실제값이 차이가 있을 수 있다. 이것은 회귀식으로는 설명할 수 없는 설명불가능한 수치이다.

SST

Total Sum of Square

y값들의 평균값과 실제 y값의 차이로 총 변동을 의미한다

SSE와 SSR값을 합친값이기도 하다.

어떻게 해석해야하나?

궁극적으로는 SSR이 커진다는 것은 SSE가 작아진다는 것이고, SSE가 작아지면 설명 불가능한 변동이 작아지는 거니까,우리가 추정한 모형을 바탕으로 반응변수 Y를 보다 잘 예측할 수 있게 된다는 것.
그러나 R²이 거의 0에 가깝다고 하더라도 X와 Y의 관계가 전혀 없는 것은 절대 아닙니다.만약 우측의 그래프와 같이 X와 Y가 비선형의 관계라면, 이를 고려하지 않은 회귀모형은 이 비선형성을 잡아낼 수 없습니다.(폴리노멀)
(간토끼님 블로그에서 발췌)

결정계수(R2R^2)은 아래와 같이 표현 할 수 있다.

R2=SSRSST=1SSESSTR^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}

결정계수는 상향 편의된 추정치이므로 표본 결정계수의 값은 항상 모집단의 결정계수보다 클 수 밖에 없음.
따라서, 보다 정확한 추정치를 얻기 위해서는 수정 결정계수를 사용해야 함.
(의료기기 컨설팅님 블로그에서 발췌)

참고 사이트

위키백과 결정계수
https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98

의료기기 컨설팅
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chk3424&logNo=221693542702

씩씩한IT블로그
https://sosoeasy.tistory.com/371

이해할때까지님의 블로그
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=wujuchoi&logNo=221158680188

간토끼님 블로그
https://datalabbit.tistory.com/54

profile
티스토리 블로그 https://ondolroom.tistory.com/

0개의 댓글