[회귀 분석] 1. Linear Regression with One Predictor Variable (1)

그렘린·2022년 7월 21일
0

회귀 분석

목록 보기
1/9

시작하기 전에

계절학기로 회귀분석을 수강하게 되었다! 사실 전에 대충 공부해봤어서 뭐하는건지는 정말 정말 조금 알고 있었는데, 학교에서 수업으로 들으니까 약간 물음표들이 정리되는 기분이었다. 솔직히 어려운 과목인거 진짜 맞고,많은 양을 한번에 머릿속에 넣으려니 힘들기도 했지만 나름대로 ENjoy!! 한 것 같다. 정말 통계에서 중요한 과목이니 지식들이 휘발되지 않으려면 정리를 잘 해야할 것 같다고 생각해서 아마 큰일이 없다면 하루에 하나씩... 이렇게 요약 정리를 하게 될 것 같다. 파이팅.

Regress의 concept


(사진출처 위키)

Regress 이라는 단어는 영국의 Francis Galton이라는 사람이 가장 먼저 사용했다고 한다. Galton은 사실 사회학자이자 심리학자, 인류학자였는데 아버지의 키를 바탕으로 아들의 키를 예측하고자 했다고 한다. 그리고 그는 '아버지의 키가 클수록 아들의 키도 클것이다.' 라고 추측했으나 실제로는 그룹의 평균으로 회귀한다는 결과를 얻게 되었다. 여기서 평균으로의 regress 라는 말이 처음 사용되었다고 한다.

현재에 이르러서는 Regression이란 데이터를 바탕으로 predictor와 response간의 함수적 관계를 모델링하는 통계적 방법을 의미한다.

Simple linear regression model

y=f(x)y = f(x)

우리는 좋은 f를 찾아야한다. 그럼 이 좋은 f는 어떻게 찾을 것인지 생각해보아야한다..
하지만 함수는 정말 수도없이 많이 존재할 것이다. 그러므로 현실적인 무리가 있다. 따라서 우리는 error term을 만들어준다.

y=f(x)+ϵy = f(x) + \mathit{\epsilon}

여기서 ϵ\mathit{\epsilon}는 random error이다.

또한 위 그림처럼 random error는 정규분포를 따른 형태로 설정해준다.

simple linear regression model은 다음과 같이 정한다.

yi=β0+β1Xi+ϵiy_i = \mathit{\beta}_0 + \mathit{\beta}_1X_i +\mathit{\epsilon}_i

선형이므로 당연히 직선 형태로 표현을 하며, ii는 여기서 observation을 의미한다.
yiy_i : response variable of iith observation
β0\mathit{\beta}_0 and β1\mathit{\beta}_1 : unknown parameters (추정해야하는 값이다)
XiX_i : predictor variable, known constants
ϵi\mathit{\epsilon}_i : random error term, mean E(ϵi)=0E(\mathit{\epsilon}_i)=0 and variance Var(ϵi)=σ2Var(\mathit{\epsilon}_i)=\mathit{\sigma}^2. 그리고 모든 error term들의 covariance는 0이다.

그렇다면

E(Yi)=E(β0+β1Xi+ϵi)=β0+β1XiE(Y_i)=E(\mathit{\beta}_0 + \mathit{\beta}_1X_i +\mathit{\epsilon}_i) = \mathit{\beta}_0 + \mathit{\beta}_1X_i

가 된다. (error term의 expectation은 0이므로)

Var(Yi)=Var(ϵi2)=σ2Var(Y_i)=Var(\mathit{\epsilon}_i^2) = \mathit{\sigma}^2

임을 simple linear regression 식을 통해서 얻어낼 수 있다.

example

suppose that in the iith week, Xi=45X_i = 45 bids are prepared and the actual number of hours required is Yi=108.Y_i =108. In that case, error term is 4.

위에 따른다면 식을 다음과 같이 나타낼 수 있다.

E(Yi)=9.5+2.1(45)=104E(Y_i)=9.5 + 2.1(45) =104

그렇다면 실제의 표현은 다음과 같다.

Yi=108=104+4Y_i=108 = 104 + 4

그래프를 이용해 표현하면 다음과 같은 regression을 얻을 수 있다.


여기서 회귀 계수들의 의미를 잘 확인하는 편이 좋다.
1. 우선 β1\mathit{\beta}_1은 regression line의 slope이다. 따라서 평균이 변하는 량, 즉 XX가 한 단위 변할 때 증가하는 양이라고 할 수 있다.
2. β0\mathit{\beta}_0 는 절편, intercept라고도 표현한다. 지금 예제에서는 bids의 초기값 정도로 표현할 수 있다.


to be continued,,

0개의 댓글