[Statistics]Least Squares & Maximum LikeLihood Estimation

ssh00n·2023년 4월 21일

Statistics

목록 보기

1/2

Linear Regression

Simple linear model

$y = \beta_0 + \beta_1X + \epsilon$

Simple linear 모델은 위의 식과 같은 선형 관계를 가정함으로써 만들어진다.

random variable $\epsilon$ 은 mean zero이며 X와 독립이고, $\epsilon$ 은 모델이 나타내지 못하는, 다른 변수들의 영향을 포함한 error들을 나타낸다.

$\ \mathbb{E}[Y|X=x] = \beta_0 + \beta_1x,$

$since\ \mathbb{E}[\epsilon|X=x]=0$

위 식의 좌변은 $Y|X$ 에 대한 조건부 기댓값을 나타낸다.
이것은 확률변수 $X$ 의 particular value에 따라 변화하는 확률변수 $Y$ 의 평균을 의미

즉, 좌변과 우변을 통해 $Y$ 의 평균이 $X$ 와 관련된 어떠한 linear fashion에 의해 바뀐다는 것을 나타낸다.

$\beta_0$ : the mean of $Y$ when $X = 0$
$\beta_1$ : the increment in the mean of $Y$ for an increment of one unit in $X=x$ ( X가 한 단위 변할 때 Y의 평균의 변화를 설명하는 변량)

우리에게 sample이 있다면, uncertain coefficients인 $\beta_0, \beta_1$ 을 estimate할 수 있다.

estimate하는 방법은 certain optimality를 찾는 것

예를 들어 the minimization of the Residual Sum of Squares (RSS)를 통해

$RSS(\beta_0, \ \beta_1) := \sum_{i=1}^{n}(Y_i -\beta_0 -\beta_1X_i)^2$

$(\hat{\beta_0}, \hat{\beta_1}) = \argmin_{\beta_0, \beta_1} RSS(\beta_0, \beta_1)$

위 식을 만족하는 estimator를 찾는 방식으로 uncertain coefficient를 estimate하게 됨

위 식을 partial derivative를 통해 계산하면,

$\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X} ,\ \ \ \ \ \ \hat{\beta_1}= \frac{s_{xy}}{s_x^2}$

$\bar{X} = \frac{1}{n}\sum^{n}_{i=1} X_i$ : the sample mean
$s_x^2 = \frac{1}{n}(X_i-\bar{X})^2$ : the sample variance
$s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})$ : the sample covariance

RSS(Residual Sum of Squares)를 $\beta_0, \, \beta_1$ 을 얻기 위한 error criterion으로 사용하는 이유

우리가 원하는 것은 prediction of $\ Y$ 의 오차를 최소화 하는 것이기 때문(그러므로 horizontal하거나 perpendicular한 distance가 아닌 vertical distance를 사용)
오차로써 거리 개념을 사용하는데, absolute value가 아닌 squares를 사용하는 이유 → 수학적 편리성 때문, 미분하기 쉬울 뿐 아니라 normal distribution에서의 MLE와 밀접하게 연관되어 있기 때문이다.

Multiple linear Model

simple linear model을 확장하여 random variable $X_1, X_2, ... \ , X_p$ 와 $Y$ 의 관계를 설명

$y = \beta_0 + \beta_1X_1 +\beta_2X_2 + ... +\beta_pX_p + \epsilon$

simple linear model과 마찬가지로

$\mathbb{E}[Y|X_1 = x_1, ...\, , X_p=x_p] = \beta_0 + \beta_1x_1 + ... + \beta_px_p$

since $\mathbb{E}[\epsilon|X_1=x_1, ... \ , X_p=x_p] = 0$

위 식에서 LHS는 $X_1, ... ,X_p$ 가 주어졌을 때 $Y$ 의 조건부 기댓값
이것은 predictor $X_i$ 의 particular value들에 따라 확률변수 $Y$ 의 평균이 어떻게 변화하는지를 나타낸다.

위 식이 말하고자 하는 것은 simple linear regression과 마찬가지로, the mean of $Y$ 가 $X_1, ... ,X_p$ 들의 값들과 관련하여 어떠한 linear fashion으로 변화하는 양상을 보인다는 것

$\beta_0$ : the mean of $Y$ when $X_1 = ... =X_p = 0$
$\beta_1$ : $1 \leq j \leq p$ , the increment in the mean of $Y$ for an increment of one unit in $X_j=x_j$ , provided that the rest of predictors $X_1, ... , X_{j-1} , X_{j+1}, ... , X_p$ remain constant → $X_j$ 를 제외한 나머지 변수가 고정이라고 가정할 때, $X_j$ 가 한 단위 변화할 때에 대한 $Y$ 의 평균의 변량

multiple regression의 경우 dimension이 3-d 이상으로 확장되기 때문에 matrix를 이용한 접근이 필요하다.

이를 이용하여 간단히 표현하면,

$\beta_0, \beta_1, ... ,\beta_p$ 를 추정하기 위해 RSS를 이용

$RSS(\beta) := \sum_{i=1}^{n}(Y_i-\beta_0-\beta_1X_{i1}-...-\beta_pX_{ip})^2 \\= (Y-X\beta)'(Y-X\beta)$

위 RSS는 데이터의 $\beta$ 가 주어졌을 때 regression plane에서 squared vertical distance들을 집계한다.

→ least squares estimators are the minimizers of the RSS

$\hat{\beta} := \argmin_{\beta\in\mathbb{R}^{p+1}} RSS(\beta)$

RSS의 matrix form 덕분에,

$\hat{\beta} = (X'X)^{-1}X'Y$

위 식을 이용해 $\hat{\beta}$ 를 추정하면,

least squares estimates에 대해 닫힌 형태의 표현을 작성할 수 있다.

fitted values $\hat{Y_1}, ... , \hat{Y_n}$ where

$\hat{Y_i} := \hat{\beta_0} + \hat{\beta_1}X_{i1}+...+\hat{\beta_p}X_{ip},\ \ \ \ \ \ i= 1, ... \ n$

→ they're the vertical projections of $Y_1, ... \ , Y_n$ onto the fitted plane

매트릭스 폼으로 표현하면,

$\hat{Y} = X\hat{\beta} = X(X'X)^{-1}X'Y$

Assumptions of the model

linear Regression에서 estimator인 $\hat{\beta}$ 의 변동성을 설명하고, 주어진 샘플 $\{(X_i, \ Y_i)\}^n_{i=1}$ 로부터 알려지지 않은 population coefficient인 $\beta$ 를 추론하기 위해 probabilistic assumption이 필요하다.

Assumptions of Linear Regression

Linearity (선형성):

→ $\mathbb{E}[Y|X_1=x_1, ... , X_p =x_p] = \beta_0 + \beta_1x_1 + ... + \beta_px_p$
Homoscedasticity (등분산성):

→ $\mathbb{V}ar[\epsilon | X_1=x_1, ... ,\ X_p=x_p] = \sigma^2$
Normality(정규성) : $\epsilon \sim N(0, \sigma^2)$
Independence of the errors:

→ $\epsilon_1, ... ,\ \epsilon_n$ are independent ( or uncorrelated, $\mathbb{E}[\epsilon_i\epsilon_j]=0, i \neq j$ )
```
since they are assumed to be normal
```

$Y|(X_1=x_1, ... , X_p=x_p) \sim N(\beta_0+\beta_1x_1+ ... \ + \beta_px_p)$

위의 가정 중, 4번 가정을 제외하고 나머지는 표본의 관점에서의 가정이 아닌, 확률변수(즉, 모수) 에 관한 가정

이러한 가정들을 기반으로, 선형회귀 모델을 다시 표현하면

$Y_i|(X_{i1}=x_{i1}, ... , X_{ip}=x_{ip}) \sim N(\beta_0+\beta_1x_{i1}+ ... \ + \beta_px_{ip} \, , \ \sigma^2)$

with $Y_1, \ ... \ , Y_n$ being independent conditionally on the sample of predictors

$Y|X \sim N_n(X\beta, \sigma^2I)$

Least squares and Maximum Likelihood Estimation

Least squares는 linear models에서 아주 중요한 역할을 담당한다. 그런데, Least Squares는 데이터에서 어떠한 plane을 fitting하는데 필요한 단순한 geometrical argument처럼 보일 수 있다.
즉 unknown parameters $\beta$ 를 추정하는 데 어떠한 statistical ground도 들어가지 않는 것 처럼 보인다.

→ 하지만, 사실 least squares estimation은 위에서 가정했던 4개의 assumption 하에서 maximum likelihood estimation과 동일하다.

$Y_i|(X_{i1}=x_{i1}, ... , X_{ip}=x_{ip}) \sim N(\beta_0+\beta_1x_{i1}+ ... \ + \beta_px_{ip} \, , \ \sigma^2)$

$Y|X \sim N_n(X\beta, \ \sigma^2I)$

위 식으로부터 $Y_1, ... \ , Y_n$ 에 대한 log-likelihood function을 얻을 수 있다.

$\ell(\beta) = \log(\phi(Y;X\beta, \sigma^2\mathbf{I})) = \sum_{i=1}^{n}\log(\phi(Y_i;(X\beta)_i, \sigma))$

위 $\ell (\beta)$ 를 $\beta$ 에 대해 maximize 하면 maximum likelihood estimator $\hat{\beta}_{ML}$ 을 얻게 된다.

$\hat{\beta}_{ML} = \argmax_{\beta\in\mathbb{R}^{p+1}}\ell(\beta) = (X'X)^{-1}XY$

Proof)

$\ell(\beta) = -\log((2\pi)^{n/2}\sigma^n) \ -\frac{1}{2\sigma^2}(Y-X\beta)'(Y-X\beta)$

differentiate with respect to $\beta$ ,

$\frac{1}{\sigma^2}(Y-X\beta)'X = \frac{1}{\sigma^2}(Y'X-\beta'X'X) = 0$

$\hat{\beta} = (X'X)^{-1}XY$

MLE(Maximum Likelihood Estimation)에 대한 직관적인 접근

MLE는 Likelihood를 최대화 하는 모델의 파라미터들의 값을 결정하는 방법

만약 linear regression이라고 한다면,

우리는 parameter $\alpha, \beta$ 를 가지고 $x$ 를 넣으면, 예측된 $y$ 가 나오는 함수 $y(x|\alpha, \beta)$ 를 정의하여, 가능한 모든 $x$ 에 대하여 예측된 $y(x|\alpha, \beta)$ 가 실제 $y$ 에 가깝게 나오도록 $\alpha, \beta$ 를 정해주어야 한다.

이러한 parameter들은 여러개일 수도 있고 각 모델마다 다른 형태를 가지게 된다. (이런 parameter들을 $\theta$ 로 통칭)

parameter들을 잘 학습하여 모델 $y(x|\theta)$ 를 얻고 나면,

우리는 $x$ 에 대하여 실제 값( $t$ )를 알고 싶다면

$t = y(x|\theta)$ 식을 이용하면 된다.

그런데, 우리는 항상 $t = y(x|\theta)$ 라고 보장할 수 없다.

데이터의 형태가 우리가 가정한 모델의 형태와 다르기 때문에 필연적으로 오차가 발생한다.

이러한 불확실성을 TV 광고와 판매량(Sales)을 예로 들어 통계적으로 표현하면

'특정 advertisement budget( $x$ )에서의 실제 sales( $y$ )는 우리가 모르고 있기 때문에 Random Variable인데, 위 그림과 같이 내가 예측한 직선을 평균으로 하는 형태를 띠고 있다.

그리고 이 직선은 assumption에 기반하여,

$\beta_0+\beta_1x_{i1}+...+\beta_px_{ip}$ 를 평균으로 하고, $\sigma$ 를 표준편차로 하는 Normal Distribution을 따른다.'

라고 말할 수 있다.

$Y_i|(X_{i1}=x_{i1}, ... , X_{ip}=x_{ip}) \sim N(\beta_0+\beta_1x_{i1}+ ... \ + \beta_px_{ip} \, , \ \sigma^2)$

여기서, 우리가 Normal Distribution이라는 확률분포를 이용하는 이유는, 우리가 한 예측에 대해 100% 확신할 수 없기 때문이다. Normal Distribution이라는 확률분포를 통해서, '우리의 예측하는

$\hat{Y}$ 가 우리가 fitting한 직선을 평균으로 하는 Normal Distribution을 따른다고 볼 수 있다' 라고 말할 수 있다. Normal Distribution은 평균에서 가장 확률밀도가 높기 때문에, 우리가 의도한 바를 잘 표현할 수 있다.

위 식을 이용해서 Maximum Likelihood Estimation을 하기 위해

우선 위 Normal Distribution의 p.d.f를 이용해 Likelihood를 정의하면 ,

$p(\beta X, \sigma^2|x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\beta X)^2}{2\sigma^2}}$

위 식이 된다. 우리는 parameter인 $\mu (\beta X)$ , $\sigma^2$ 를 모르고 있다.

이러한 상황에서 $y$ 를 가장 잘 예측하는 모델은,

모든 $x (x_1, x_2, ... , x_n)$ 가 실제 $y(y_1, y_2, ... , y_n)$ 값에 대한 예측 확률을 최대로 하는 모델이다.

$p(\beta X, \sigma^2|x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\beta X)^2}{2\sigma^2}}$

그래서 우리는 Probability Distribution을 이용해서 Likelihood를 정의하고, 이를 최대화하는 모델을 optimal한 모델로 보고, 이를 찾게 된다.

Maximum Likelihood Estimation for the Normal Distribution

probability vs. likelihood

probability : the quantity most people are familiar with which deals with predicting new data given a known model ( 동전 던지기를 할 때 앞면이 나올 확률은? )
- $p( data | distribution)$
likelihood : deals with fitting models given some known data ( 던진 동전이 6회 연속 앞면이 나왔는데, 이 동전이 비정상 동전일 확률은 ? )
- $p(distribution | data)$
즉, 모델의 파라미터가 이미 정해져 있고, 새로운 데이터에 대한 quantity를 도출하는 것이 probability 이고, 모델의 파라미터가 정해져 있지 않고, 주어진 데이터를 통해서 모델을 fitting하기 위해 도출한 quantity가 likelihood 이다.

$p(x|\theta) =$ $p(x|\mu, \sigma) = \frac {1} {\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

정규분포에는 $\mu, \sigma$ 2개의 parameter가 있다. $\mu$ 는 분포의 위치를 결정하고, $\sigma$ 는 scale을 결정한다.

parameter가 2개이기 때문에, 우리는 1개를 각각 따로 구하되, 다른 하나는 고정되어 있다고 가정하고 계산한다.

$L(\mu, \sigma | x_1, x_2, ... ,x_n) = L(\mu, \sigma |x_1) \times ... \times L(\mu, \sigma |x_n) \\ = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_1-\mu)^2/2\sigma^2} \times ... \times \frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_n-\mu)^2/2\sigma^2}$

로그를 취해준다 ( 미분하기 편해짐 )

\ln [L(\mu, \sigma | x_1, x_2, ... ,x_n)] = \ln(\frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_1-\mu)^2/2\sigma^2} \times ... \times \frac{1}{\sqrt{2\pi\sigma^2}}e^{-(x_n-\mu)^2/2\sigma^2}) \\ = -\frac{1}{2}\ln(2\pi)-\ln(\sigma)-\frac{(x_1-\mu)^2}{2\sigma^2} - ... -\frac{1}{2}\ln(2\pi)-\ln(\sigma)-\frac{(x_n-\mu)^2}{2\sigma^2}

\frac{\partial}{\partial\mu}\ln[L(\mu,\sigma|x_1, ..., x_n)] = 0 - 0 + \frac{(x_1-\mu)}{\sigma^2} + ... + \frac{(x_n-\mu)}{\sigma^2} \\ = \frac{1}{\sigma^2}[(x_1+...+x_n) - n\mu]

$0 = \frac{1}{\sigma^2}[(x_1+...+x_n) - n\mu] \\0 = (x_1+...+x_n) - n\mu \\ n\mu = (x_1+...+x_n) \\ \therefore \mu = \frac{(x_1+...+x_n)}{n}$

\frac{\partial}{\partial\sigma}\ln[L(\mu, \sigma | x_1, ... ,x_n)] = 0 - \frac{n}{\sigma} +\frac{(x_1-\mu)^2}{\sigma^3} + ... + \frac{(x_n - \mu)^2}{\sigma^3} \\ = -\frac{n}{\sigma} + \frac{1}{\sigma^3}[(x_1-\mu)^2+...+(x_n-\mu)^2]

$0 = -\frac{n}{\sigma} + \frac{1}{\sigma^3}[(x_1-\mu)^2+...+(x_n-\mu)^2] \\ 0 = -n + \frac{1}{\sigma^2}[(x_1-\mu)^2+...+(x_n-\mu)^2] \\ n = \frac{1}{\sigma^2}[(x_1-\mu)^2+...+(x_n-\mu)^2] \\ n\sigma^2 = (x_1-\mu)^2 + ... + (x_n -\mu)^2 \\ \sigma^2 = \frac{(x_1-\mu)^2+...+(x_n-\mu)^2}{n} \\ \therefore \sigma = \sqrt{\frac{(x_1-\mu)^2+...+(x_n-\mu)^2}{n}}$

ssh00n

Whatever I want

다음 포스트

[Statistics]Least Squares & Maximum LikeLihood Estimation

Statistics

Linear Regression

Simple linear model

Multiple linear Model

Assumptions of the model

Assumptions of Linear Regression

Least squares and Maximum Likelihood Estimation

MLE(Maximum Likelihood Estimation)에 대한 직관적인 접근

Maximum Likelihood Estimation for the Normal Distribution

probability vs. likelihood

[Statistics]Degrees of Freedom(자유도)

0개의 댓글