[Statistics]Least Squares & Maximum LikeLihood Estimation

ssh00n·2023년 4월 21일
0

Statistics

목록 보기
1/2

Linear Regression

Simple linear model

y=β0+β1X+ϵy = \beta_0 + \beta_1X + \epsilon

Simple linear 모델은 위의 식과 같은 선형 관계를 가정함으로써 만들어진다.

random variable ϵ\epsilon은 mean zero이며 X와 독립이고, ϵ\epsilon 은 모델이 나타내지 못하는, 다른 변수들의 영향을 포함한 error들을 나타낸다.

 E[YX=x]=β0+β1x,\ \mathbb{E}[Y|X=x] = \beta_0 + \beta_1x,

since E[ϵX=x]=0since\ \mathbb{E}[\epsilon|X=x]=0

위 식의 좌변은 YXY|X 에 대한 조건부 기댓값을 나타낸다.
이것은 확률변수 XX의 particular value에 따라 변화하는 확률변수 YY의 평균을 의미

즉, 좌변과 우변을 통해 YY의 평균이 XX와 관련된 어떠한 linear fashion에 의해 바뀐다는 것을 나타낸다.

  • β0\beta_0 : the mean of YY when X=0X = 0
  • β1\beta_1 : the increment in the mean of YY for an increment of one unit in X=xX=x ( X가 한 단위 변할 때 Y의 평균의 변화를 설명하는 변량)

우리에게 sample이 있다면, uncertain coefficients인 β0,β1\beta_0, \beta_1 을 estimate할 수 있다.

estimate하는 방법은 certain optimality를 찾는 것

예를 들어 the minimization of the Residual Sum of Squares (RSS)를 통해

RSS(β0, β1):=i=1n(Yiβ0β1Xi)2RSS(\beta_0, \ \beta_1) := \sum_{i=1}^{n}(Y_i -\beta_0 -\beta_1X_i)^2

(β0^,β1^)=arg minβ0,β1RSS(β0,β1)(\hat{\beta_0}, \hat{\beta_1}) = \argmin_{\beta_0, \beta_1} RSS(\beta_0, \beta_1)

위 식을 만족하는 estimator를 찾는 방식으로 uncertain coefficient를 estimate하게 됨

위 식을 partial derivative를 통해 계산하면,

β0^=Yˉβ1^Xˉ,      β1^=sxysx2\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X} ,\ \ \ \ \ \ \hat{\beta_1}= \frac{s_{xy}}{s_x^2}

  • Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum^{n}_{i=1} X_i : the sample mean
  • sx2=1n(XiXˉ)2s_x^2 = \frac{1}{n}(X_i-\bar{X})^2 : the sample variance
  • sxy=1ni=1n(XiXˉ)(YiYˉ)s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y}) : the sample covariance

RSS(Residual Sum of Squares)를 β0,β1\beta_0, \, \beta_1을 얻기 위한 error criterion으로 사용하는 이유

  • 우리가 원하는 것은 prediction of  Y\ Y 의 오차를 최소화 하는 것이기 때문(그러므로 horizontal하거나 perpendicular한 distance가 아닌 vertical distance를 사용)
  • 오차로써 거리 개념을 사용하는데, absolute value가 아닌 squares를 사용하는 이유 → 수학적 편리성 때문, 미분하기 쉬울 뿐 아니라 normal distribution에서의 MLE와 밀접하게 연관되어 있기 때문이다.

Multiple linear Model

  • simple linear model을 확장하여 random variable X1,X2,... ,XpX_1, X_2, ... \ , X_pYY의 관계를 설명

y=β0+β1X1+β2X2+...+βpXp+ϵy = \beta_0 + \beta_1X_1 +\beta_2X_2 + ... +\beta_pX_p + \epsilon

simple linear model과 마찬가지로

E[YX1=x1,...,Xp=xp]=β0+β1x1+...+βpxp\mathbb{E}[Y|X_1 = x_1, ...\, , X_p=x_p] = \beta_0 + \beta_1x_1 + ... + \beta_px_p

since E[ϵX1=x1,... ,Xp=xp]=0\mathbb{E}[\epsilon|X_1=x_1, ... \ , X_p=x_p] = 0

위 식에서 LHS는 X1,...,XpX_1, ... ,X_p가 주어졌을 때 YY의 조건부 기댓값
이것은 predictor XiX_i의 particular value들에 따라 확률변수 YY의 평균이 어떻게 변화하는지를 나타낸다.

위 식이 말하고자 하는 것은 simple linear regression과 마찬가지로, the mean of YYX1,...,XpX_1, ... ,X_p들의 값들과 관련하여 어떠한 linear fashion으로 변화하는 양상을 보인다는 것

  • β0\beta_0 : the mean of YY when X1=...=Xp=0X_1 = ... =X_p = 0
  • β1\beta_1 : 1jp1 \leq j \leq p , the increment in the mean of YY for an increment of one unit in Xj=xjX_j=x_j , provided that the rest of predictors X1,...,Xj1,Xj+1,...,XpX_1, ... , X_{j-1} , X_{j+1}, ... , X_p remain constant → XjX_j를 제외한 나머지 변수가 고정이라고 가정할 때, XjX_j가 한 단위 변화할 때에 대한 YY의 평균의 변량
  • multiple regression의 경우 dimension이 3-d 이상으로 확장되기 때문에 matrix를 이용한 접근이 필요하다.

이를 이용하여 간단히 표현하면,

β0,β1,...,βp\beta_0, \beta_1, ... ,\beta_p를 추정하기 위해 RSS를 이용

RSS(β):=i=1n(Yiβ0β1Xi1...βpXip)2=(YXβ)(YXβ)RSS(\beta) := \sum_{i=1}^{n}(Y_i-\beta_0-\beta_1X_{i1}-...-\beta_pX_{ip})^2 \\= (Y-X\beta)'(Y-X\beta)

위 RSS는 데이터의 β\beta가 주어졌을 때 regression plane에서 squared vertical distance들을 집계한다.

→ least squares estimators are the minimizers of the RSS

β^:=arg minβRp+1RSS(β)\hat{\beta} := \argmin_{\beta\in\mathbb{R}^{p+1}} RSS(\beta)

RSS의 matrix form 덕분에,

β^=(XX)1XY\hat{\beta} = (X'X)^{-1}X'Y

위 식을 이용해 β^\hat{\beta}를 추정하면,

least squares estimates에 대해 닫힌 형태의 표현을 작성할 수 있다.

  • fitted values Y1^,...,Yn^\hat{Y_1}, ... , \hat{Y_n} where

Yi^:=β0^+β1^Xi1+...+βp^Xip,      i=1,... n\hat{Y_i} := \hat{\beta_0} + \hat{\beta_1}X_{i1}+...+\hat{\beta_p}X_{ip},\ \ \ \ \ \ i= 1, ... \ n

→ they're the vertical projections of Y1,... ,YnY_1, ... \ , Y_n onto the fitted plane

매트릭스 폼으로 표현하면,

Y^=Xβ^=X(XX)1XY\hat{Y} = X\hat{\beta} = X(X'X)^{-1}X'Y

Assumptions of the model

linear Regression에서 estimator인 β^\hat{\beta}의 변동성을 설명하고, 주어진 샘플 {(Xi, Yi)}i=1n\{(X_i, \ Y_i)\}^n_{i=1} 로부터 알려지지 않은 population coefficient인 β\beta를 추론하기 위해 probabilistic assumption이 필요하다.

Assumptions of Linear Regression

  1. Linearity (선형성):

    E[YX1=x1,...,Xp=xp]=β0+β1x1+...+βpxp\mathbb{E}[Y|X_1=x_1, ... , X_p =x_p] = \beta_0 + \beta_1x_1 + ... + \beta_px_p

  2. Homoscedasticity (등분산성):

    Var[ϵX1=x1,..., Xp=xp]=σ2\mathbb{V}ar[\epsilon | X_1=x_1, ... ,\ X_p=x_p] = \sigma^2

  3. Normality(정규성) : ϵN(0,σ2)\epsilon \sim N(0, \sigma^2)

  4. Independence of the errors:

    ϵ1,..., ϵn\epsilon_1, ... ,\ \epsilon_n are independent ( or uncorrelated, E[ϵiϵj]=0,ij\mathbb{E}[\epsilon_i\epsilon_j]=0, i \neq j )

    since they are assumed to be normal

Y(X1=x1,...,Xp=xp)N(β0+β1x1+... +βpxp)Y|(X_1=x_1, ... , X_p=x_p) \sim N(\beta_0+\beta_1x_1+ ... \ + \beta_px_p)

위의 가정 중, 4번 가정을 제외하고 나머지는 표본의 관점에서의 가정이 아닌, 확률변수(즉, 모수) 에 관한 가정

이러한 가정들을 기반으로, 선형회귀 모델을 다시 표현하면

Yi(Xi1=xi1,...,Xip=xip)N(β0+β1xi1+... +βpxip, σ2)Y_i|(X_{i1}=x_{i1}, ... , X_{ip}=x_{ip}) \sim N(\beta_0+\beta_1x_{i1}+ ... \ + \beta_px_{ip} \, , \ \sigma^2)

  • with Y1, ... ,YnY_1, \ ... \ , Y_n being independent conditionally on the sample of predictors

YXNn(Xβ,σ2I)Y|X \sim N_n(X\beta, \sigma^2I)


Least squares and Maximum Likelihood Estimation

Least squares는 linear models에서 아주 중요한 역할을 담당한다. 그런데, Least Squares는 데이터에서 어떠한 plane을 fitting하는데 필요한 단순한 geometrical argument처럼 보일 수 있다.
즉 unknown parameters β\beta를 추정하는 데 어떠한 statistical ground도 들어가지 않는 것 처럼 보인다.

→ 하지만, 사실 least squares estimation은 위에서 가정했던 4개의 assumption 하에서 maximum likelihood estimation과 동일하다.

Yi(Xi1=xi1,...,Xip=xip)N(β0+β1xi1+... +βpxip, σ2)Y_i|(X_{i1}=x_{i1}, ... , X_{ip}=x_{ip}) \sim N(\beta_0+\beta_1x_{i1}+ ... \ + \beta_px_{ip} \, , \ \sigma^2)

YXNn(Xβ, σ2I)Y|X \sim N_n(X\beta, \ \sigma^2I)

위 식으로부터 Y1,... ,YnY_1, ... \ , Y_n 에 대한 log-likelihood function을 얻을 수 있다.

(β)=log(ϕ(Y;Xβ,σ2I))=i=1nlog(ϕ(Yi;(Xβ)i,σ))\ell(\beta) = \log(\phi(Y;X\beta, \sigma^2\mathbf{I})) = \sum_{i=1}^{n}\log(\phi(Y_i;(X\beta)_i, \sigma))

(β)\ell (\beta)β\beta에 대해 maximize 하면 maximum likelihood estimator β^ML\hat{\beta}_{ML} 을 얻게 된다.

β^ML=arg maxβRp+1(β)=(XX)1XY\hat{\beta}_{ML} = \argmax_{\beta\in\mathbb{R}^{p+1}}\ell(\beta) = (X'X)^{-1}XY

Proof)

(β)=log((2π)n/2σn) 12σ2(YXβ)(YXβ)\ell(\beta) = -\log((2\pi)^{n/2}\sigma^n) \ -\frac{1}{2\sigma^2}(Y-X\beta)'(Y-X\beta)

differentiate with respect to β\beta,

1σ2(YXβ)X=1σ2(YXβXX)=0\frac{1}{\sigma^2}(Y-X\beta)'X = \frac{1}{\sigma^2}(Y'X-\beta'X'X) = 0

β^=(XX)1XY\hat{\beta} = (X'X)^{-1}XY


MLE(Maximum Likelihood Estimation)에 대한 직관적인 접근

MLE는 Likelihood를 최대화 하는 모델의 파라미터들의 값을 결정하는 방법


만약 linear regression이라고 한다면,

우리는 parameter α,β\alpha, \beta를 가지고 xx를 넣으면, 예측된 yy가 나오는 함수 y(xα,β)y(x|\alpha, \beta)를 정의하여, 가능한 모든 xx에 대하여 예측된 y(xα,β)y(x|\alpha, \beta)가 실제 yy에 가깝게 나오도록 α,β\alpha, \beta 를 정해주어야 한다.

이러한 parameter들은 여러개일 수도 있고 각 모델마다 다른 형태를 가지게 된다. (이런 parameter들을 θ\theta로 통칭)

parameter들을 잘 학습하여 모델 y(xθ)y(x|\theta)를 얻고 나면,

우리는 xx에 대하여 실제 값(tt)를 알고 싶다면

t=y(xθ)t = y(x|\theta) 식을 이용하면 된다.

그런데, 우리는 항상 t=y(xθ)t = y(x|\theta) 라고 보장할 수 없다.

데이터의 형태가 우리가 가정한 모델의 형태와 다르기 때문에 필연적으로 오차가 발생한다.

이러한 불확실성을 TV 광고와 판매량(Sales)을 예로 들어 통계적으로 표현하면

'특정 advertisement budget(xx)에서의 실제 sales(yy)는 우리가 모르고 있기 때문에 Random Variable인데, 위 그림과 같이 내가 예측한 직선을 평균으로 하는 형태를 띠고 있다.

그리고 이 직선은 assumption에 기반하여,

β0+β1xi1+...+βpxip\beta_0+\beta_1x_{i1}+...+\beta_px_{ip} 를 평균으로 하고, σ\sigma를 표준편차로 하는 Normal Distribution을 따른다.'

라고 말할 수 있다.

Yi(Xi1=xi1,...,Xip=xip)N(β0+β1xi1+... +βpxip, σ2)Y_i|(X_{i1}=x_{i1}, ... , X_{ip}=x_{ip}) \sim N(\beta_0+\beta_1x_{i1}+ ... \ + \beta_px_{ip} \, , \ \sigma^2)

여기서, 우리가 Normal Distribution이라는 확률분포를 이용하는 이유는, 우리가 한 예측에 대해 100% 확신할 수 없기 때문이다. Normal Distribution이라는 확률분포를 통해서, '우리의 예측하는

Y^\hat{Y}가 우리가 fitting한 직선을 평균으로 하는 Normal Distribution을 따른다고 볼 수 있다' 라고 말할 수 있다. Normal Distribution은 평균에서 가장 확률밀도가 높기 때문에, 우리가 의도한 바를 잘 표현할 수 있다.

위 식을 이용해서 Maximum Likelihood Estimation을 하기 위해

우선 위 Normal Distribution의 p.d.f를 이용해 Likelihood를 정의하면 ,

p(βX,σ2x)=12πσe(yβX)22σ2p(\beta X, \sigma^2|x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\beta X)^2}{2\sigma^2}}

위 식이 된다. 우리는 parameter인 μ(βX)\mu (\beta X) , σ2\sigma^2 를 모르고 있다.

이러한 상황에서 yy를 가장 잘 예측하는 모델은,

모든 x(x1,x2,...,xn)x (x_1, x_2, ... , x_n)가 실제 y(y1,y2,...,yn)y(y_1, y_2, ... , y_n)값에 대한 예측 확률을 최대로 하는 모델이다.

p(βX,σ2x)=12πσe(yβX)22σ2p(\beta X, \sigma^2|x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\beta X)^2}{2\sigma^2}}

그래서 우리는 Probability Distribution을 이용해서 Likelihood를 정의하고, 이를 최대화하는 모델을 optimal한 모델로 보고, 이를 찾게 된다.


Maximum Likelihood Estimation for the Normal Distribution

probability vs. likelihood

  • probability : the quantity most people are familiar with which deals with predicting new data given a known model ( 동전 던지기를 할 때 앞면이 나올 확률은? )
    • p(datadistribution)p( data | distribution)
  • likelihood : deals with fitting models given some known data ( 던진 동전이 6회 연속 앞면이 나왔는데, 이 동전이 비정상 동전일 확률은 ? )
    • p(distributiondata)p(distribution | data)
  • 즉, 모델의 파라미터가 이미 정해져 있고, 새로운 데이터에 대한 quantity를 도출하는 것이 probability 이고, 모델의 파라미터가 정해져 있지 않고, 주어진 데이터를 통해서 모델을 fitting하기 위해 도출한 quantity가 likelihood 이다.

p(xθ)=p(x|\theta) = p(xμ,σ)=12πσe(xμ)22σ2p(x|\mu, \sigma) = \frac {1} {\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

정규분포에는 μ,σ\mu, \sigma 2개의 parameter가 있다. μ\mu는 분포의 위치를 결정하고, σ\sigma는 scale을 결정한다.

parameter가 2개이기 때문에, 우리는 1개를 각각 따로 구하되, 다른 하나는 고정되어 있다고 가정하고 계산한다.

L(μ,σx1,x2,...,xn)=L(μ,σx1)×...×L(μ,σxn)=12πσ2e(x1μ)2/2σ2×...×12πσ2e(xnμ)2/2σ2L(\mu, \sigma | x_1, x_2, ... ,x_n) = L(\mu, \sigma |x_1) \times ... \times L(\mu, \sigma |x_n) \\ = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_1-\mu)^2/2\sigma^2} \times ... \times \frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_n-\mu)^2/2\sigma^2}

  • 로그를 취해준다 ( 미분하기 편해짐 )
ln[L(μ,σx1,x2,...,xn)]=ln(12πσ2e(x1μ)2/2σ2×...×12πσ2e(xnμ)2/2σ2)=12ln(2π)ln(σ)(x1μ)22σ2...12ln(2π)ln(σ)(xnμ)22σ2\ln [L(\mu, \sigma | x_1, x_2, ... ,x_n)] = \ln(\frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_1-\mu)^2/2\sigma^2} \times ... \times \frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_n-\mu)^2/2\sigma^2}) \\ = -\frac{1}{2}\ln(2\pi)-\ln(\sigma)-\frac{(x_1-\mu)^2}{2\sigma^2} - ... -\frac{1}{2}\ln(2\pi)-\ln(\sigma)-\frac{(x_n-\mu)^2}{2\sigma^2}
μln[L(μ,σx1,...,xn)]=00+(x1μ)σ2+...+(xnμ)σ2=1σ2[(x1+...+xn)nμ]\frac{\partial}{\partial\mu}\ln[L(\mu,\sigma|x_1, ..., x_n)] = 0 - 0 + \frac{(x_1-\mu)}{\sigma^2} + ... + \frac{(x_n-\mu)}{\sigma^2} \\ = \frac{1}{\sigma^2}[(x_1+...+x_n) - n\mu]

0=1σ2[(x1+...+xn)nμ]0=(x1+...+xn)nμnμ=(x1+...+xn)μ=(x1+...+xn)n0 = \frac{1}{\sigma^2}[(x_1+...+x_n) - n\mu] \\0 = (x_1+...+x_n) - n\mu \\ n\mu = (x_1+...+x_n) \\ \therefore \mu = \frac{(x_1+...+x_n)}{n}

σln[L(μ,σx1,...,xn)]=0nσ+(x1μ)2σ3+...+(xnμ)2σ3=nσ+1σ3[(x1μ)2+...+(xnμ)2]\frac{\partial}{\partial\sigma}\ln[L(\mu, \sigma | x_1, ... ,x_n)] = 0 - \frac{n}{\sigma} +\frac{(x_1-\mu)^2}{\sigma^3} + ... + \frac{(x_n - \mu)^2}{\sigma^3} \\ = -\frac{n}{\sigma} + \frac{1}{\sigma^3}[(x_1-\mu)^2+...+(x_n-\mu)^2]

0=nσ+1σ3[(x1μ)2+...+(xnμ)2]0=n+1σ2[(x1μ)2+...+(xnμ)2]n=1σ2[(x1μ)2+...+(xnμ)2]nσ2=(x1μ)2+...+(xnμ)2σ2=(x1μ)2+...+(xnμ)2nσ=(x1μ)2+...+(xnμ)2n0 = -\frac{n}{\sigma} + \frac{1}{\sigma^3}[(x_1-\mu)^2+...+(x_n-\mu)^2] \\ 0 = -n + \frac{1}{\sigma^2}[(x_1-\mu)^2+...+(x_n-\mu)^2] \\ n = \frac{1}{\sigma^2}[(x_1-\mu)^2+...+(x_n-\mu)^2] \\ n\sigma^2 = (x_1-\mu)^2 + ... + (x_n -\mu)^2 \\ \sigma^2 = \frac{(x_1-\mu)^2+...+(x_n-\mu)^2}{n} \\ \therefore \sigma = \sqrt{\frac{(x_1-\mu)^2+...+(x_n-\mu)^2}{n}}

profile
Whatever I want

0개의 댓글