[Gaussian process]

MA·2022년 7월 28일
0

Uncertainty

목록 보기
2/4

Reference : https://distill.pub/2019/visual-exploration-gaussian-processes/

Gaussian process가 뭘까 ?

Gaussian processes는 머신러닝에서 매우 강력한 도구이다. 이것들은 Prior Knowledge를 결합하여 우리의 데이터에 대한 예측을 가능하게 해준다. 이러한 것을 우리는 regression이라 부르고, 예를 들어 로봇이나, 시계열 예측에서 주로 사용된다. 그러나 Gaussian processes는 regression에 한정되지 않고, 분류나 클러스터 같은 문제에서도 확장된다.

주어진 set of training points에는 무수히 많은 데이터에 적합한 함수들이 존재한다. Gaussian processes는 이러한 문제를 각각의 함수들에 확률을 할당해줌으로써 고급지게 문제를 해결한다. 이러한 확률 분포의 mean값은 가장 데이터를 잘 특정할 수 있는 확률 값을 나타낸다. 더욱이, 이러한 확률적인 접근법은 예측의 confidence를 합칠 수 있도록 만들어 준다. (?)_


Multivariate Gaussian distributions

Gaussian Process를 살펴보기 전에, 수학적인 개념에 대해 알 필요가 있다.

Gaussian distribution : 우리가 흔히 아는 Normal distribution이다.

특히, Gaussian Process는 다변량 가우시안 분포에 관련돼 있다.

평균 벡터인 μ\mu는 분포의 기대값을 나타낸다. 각각의 요소들은 해당하는 dimension에 상응하는 평균값이다. Σ\Sigma는 분산인데, 각 dimension에 해당하고 얼만큼 random variables 간의 상관성을 나타내준다. 이러한 Covariance matrix는 항상 symmetric하고 positive semi-definite이다.

Σ\Sigmadiagonalii-th random variable의 분산 σi2\sigma_i^2으로 이루어져 있다. 그리고 off diagonal elements σij\sigma_{ij}ii-th와 jj-th의 random variable 사이의 correlation을 의미한다.

XX =[X1X2Xn]\begin{bmatrix}X_1\\X_2\\\vdots\\X_n\end{bmatrix}N(μ,Σ)\sim\mathcal{N}(\mu,\Sigma)

위를 볼 때, 우리는 XXnormal distribution을 따른다고 한다. 여기서 Σ\Sigma는 이러한 분포의 모양을 결정해준다. 이는 아래와 같이 정의된다.

Σ=Cov(Xi,Xj)=E[(Xiμi)(Xjμj)T]\Sigma = \mathbf{Cov}(X_i,X_j)=E[(X_i-\mu_i)(X_j-\mu_j)^T]


Marginalization and Conditioning

Gaussian distribution have the nice algebraic property of being closed under conditioning and marginalization. Being closed under conditioning and marginalization means that the resulting distributions from these operations are also Gaussian, which makes many problems in statistics and machine learning tractable.

Gaussian distribution은 아주 특별한 특징이 있는데, Gaussian distribution을 연산해서 나온 결과값 또한 Gaussian 분포를 따른다는 점이다.

PX,Y=[XY]N(μ,Σ)=N([μXμY],[ΣXXΣXYΣYXΣYY])P_{X,Y}=\begin{bmatrix}X\\Y\end{bmatrix}\sim{\mathcal{N(\mu,\Sigma)=N(\begin{bmatrix}\mu_X\\\mu_Y\end{bmatrix},\begin{bmatrix}\Sigma_{XX}&\Sigma_{XY}\\\Sigma_{YX} & \Sigma_{YY}\end{bmatrix})}}

XX and YYsubsets of original random varaibles이다.

marginalization을 통해서, 우리는 multivariate probability distributions에서 부분적인 정보들을 추출할 수 있다. 특히, 주어진 normal probability distribution P(X,Y)P(X,Y)에서, 우리는 그들의 marginalized probability distributions를 다음과 같이 구할 수 있다.

XN(μX,ΣXX)X\sim{\mathcal{N}(\mu_X,\Sigma_{XX})}
YN(μY,ΣYY)Y\sim{\mathcal{N}(\mu_Y,\Sigma_{YY})}

The interpretation of this equation is that each partition XX and YY only depends on its corresponding entries in μ\mu and Σ\Sigma. To marginalize out a random variable from a Gaussian distribution we can simply drop the variables from μ\mu and Σ\Sigma.

pX(x)=ypX,Y(x,y)dy=ypXY(xy)pY(y)dyp_X(x) = \int_yp_{X,Y}(x,y)dy=\int_yp_{X|Y}(x|y)p_Y(y)dy

profile
급할수록 돌아가라

0개의 댓글