Regression toward the mean
- Sir Francis Galton
어떤 데이터들이 크거나 작더라도, 전체적으로 봤을 때 전체 평균으로 되돌아 간다는 통계적
원리를 설명한 것이라고 합니당. 이걸 줄여서 Regression(회귀)
라고 합니당.
파란색 점을 데이터
라고 하면, 이 데이터
전체를 잘 대변하는 직선을 찾는 것을 선형 회귀Linear Regression
이라고 합니당.
직선의 기본 형식은 y = ax + b
로 a
는 기울기, b
는 y 절편입니당. 선형 회귀Linear Regression
는 이 a
와 b
를 구해 적절한 직선을 찾는 것이라고 보면 됩니당.
다행히도 전 수학을 열심히 해서(ㅎ) 그림을 보면 어떻게 선을 그어야 저 점데이터
을 전체적으로 잘 대변할 수 있을지 보입니당
바로 이 모든 데이터
를 대변하는 적절한 함수(여기선 직선의 방정식이겠죠?)를 가설함수Hypothesis Function
라고 합니당
하지만 우리 컴퓨터는 점데이터
만 보고 바로 저렇게 선
을 못 그어요 ㅠ
따라서 우리는 학습
을 통해 컴퓨터가 선
을 정할 수 있게 해줘야 합니당.
즉, 직선 함수의 a
와 b
를 스스로 구할 수 있게 해야 합니당
이제부터 a
를 W
라 칭하게 됩니당. 가중치
라는 의미가 있어용.
파란색 점선
가설 함수Hypothesis Function
가 있습니당. 빨간색 선
은 점데이터
와 가설 함수Hypothesis Function
의 차를 나타냅니당.
가설 함수Hypothesis Function
점데이터
에 잘 대변할수록 각 값들은 0으로 수렴하게 됩니당. 그렇게 되면 그만큼 오차가 줄어든다는 의미가 됩니당.
이 오차를 평균을 내면 그만큼 전체적으로 얼마나 오차가 적은지 알 수 있게 됩니당.
이처럼 가장 적은 오차의 가설함수를 도출하기 위해 사용되는 함수를 비용 함수Cost Function
(또는 손실 함수Loss Function
)이라고 합니당
근데 여기서 그대로 끝내기엔 오차의 평균을 내기가 어렵습니당. 왜냐하면 오차 값이 음수일수도 있거든용.
그래서 이 빨간색 선
의 값을 제곱해줘서 그런 문제를 해결하면서 동시에 작은 수치에 오차 값에도 민감하게 반응하도록 만들어주었습니당. 이러한 비용 함수Cost Function
를 평균 제곱 오차Mean Squared Error(MSE)
라고 합니당.
그리고 이 수치를 최소화Minimize
하는 W
와 b
를 찾는 것이 머신러닝
의 목표가 됩니당