통계학에서 결정계수(決定係數, 영어: coefficient of determination)는 추정한 선형 모형이 주어진 자료에 적합한 정도를 재는 척도이다. 반응 변수의 변동량 중에서 적용한 모형으로 설명가능한 부분의 비율을 가리킨다. 결정계수의 통상적인 기호는 표본에서 이 그리고 모집단에서는 이 사용된다.
결정계수가 0에 가까운 값을 가지는 회귀모형은 유용성이 낮은 반면, 결정계수의 값이 클수록 회귀모형의 유용성이 높다고 할 수 있다.
(위키백과 결정계수에서 발췌)
(씩씩한IT블로그, 이해할때까지님의 블로그를 참고)
explained : Sum of Squares due to Regression
설명 가능한 수치
y값의 평균과 y값을 통해 구한 회귀선 간의 차이를 의미한다.
not explained : Sum of Squared errors
설명 불가능한 수치
y실제값과 예측값 사이의 차이를 의미한다.
y값을 회귀식으로 예측했다. 하지만 예측한 값과 실제값이 차이가 있을 수 있다. 이것은 회귀식으로는 설명할 수 없는 설명불가능한 수치이다.
Total Sum of Square
y값들의 평균값과 실제 y값의 차이로 총 변동을 의미한다
SSE와 SSR값을 합친값이기도 하다.
궁극적으로는 SSR이 커진다는 것은 SSE가 작아진다는 것이고, SSE가 작아지면 설명 불가능한 변동이 작아지는 거니까,우리가 추정한 모형을 바탕으로 반응변수 Y를 보다 잘 예측할 수 있게 된다는 것.
그러나 R²이 거의 0에 가깝다고 하더라도 X와 Y의 관계가 전혀 없는 것은 절대 아닙니다.만약 우측의 그래프와 같이 X와 Y가 비선형의 관계라면, 이를 고려하지 않은 회귀모형은 이 비선형성을 잡아낼 수 없습니다.(폴리노멀)
(간토끼님 블로그에서 발췌)
결정계수()은 아래와 같이 표현 할 수 있다.
결정계수는 상향 편의된 추정치이므로 표본 결정계수의 값은 항상 모집단의 결정계수보다 클 수 밖에 없음.
따라서, 보다 정확한 추정치를 얻기 위해서는 수정 결정계수를 사용해야 함.
(의료기기 컨설팅님 블로그에서 발췌)
위키백과 결정계수
https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98
의료기기 컨설팅
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=chk3424&logNo=221693542702
씩씩한IT블로그
https://sosoeasy.tistory.com/371
이해할때까지님의 블로그
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=wujuchoi&logNo=221158680188
간토끼님 블로그
https://datalabbit.tistory.com/54