Reference : https://distill.pub/2019/visual-exploration-gaussian-processes/
Gaussian process가 뭘까 ?
Gaussian processes는 머신러닝에서 매우 강력한 도구이다. 이것들은 Prior Knowledge
를 결합하여 우리의 데이터에 대한 예측을 가능하게 해준다. 이러한 것을 우리는 regression
이라 부르고, 예를 들어 로봇이나, 시계열 예측에서 주로 사용된다. 그러나 Gaussian processes는 regression에 한정되지 않고, 분류나 클러스터 같은 문제에서도 확장된다.
주어진 set of training points
에는 무수히 많은 데이터에 적합한 함수들이 존재한다. Gaussian processes는 이러한 문제를 각각의 함수들에 확률을 할당해줌으로써 고급지게 문제를 해결한다. 이러한 확률 분포의 mean
값은 가장 데이터를 잘 특정할 수 있는 확률 값을 나타낸다. 더욱이, 이러한 확률적인 접근법은 예측의 confidence
를 합칠 수 있도록 만들어 준다. (?)_
Multivariate Gaussian distributions
Gaussian Process를 살펴보기 전에, 수학적인 개념에 대해 알 필요가 있다.
Gaussian distribution
: 우리가 흔히 아는 Normal distribution
이다.
특히, Gaussian Process는 다변량 가우시안 분포에 관련돼 있다.
평균 벡터인 는 분포의 기대값을 나타낸다. 각각의 요소들은 해당하는 dimension에 상응하는 평균값이다. 는 분산인데, 각 dimension에 해당하고 얼만큼 random variables
간의 상관성을 나타내준다. 이러한 Covariance matrix
는 항상 symmetric
하고 positive semi-definite
이다.
의 diagonal
은 -th random variable의 분산 으로 이루어져 있다. 그리고 off diagonal elements 는 -th와 -th의 random variable 사이의 correlation
을 의미한다.
=
위를 볼 때, 우리는 가 normal distribution
을 따른다고 한다. 여기서 는 이러한 분포의 모양을 결정해준다. 이는 아래와 같이 정의된다.
Marginalization and Conditioning
Gaussian distribution have the nice algebraic property of
being closed under conditioning
andmarginalization
. Being closed under conditioning and marginalization means thatthe resulting distributions from these operations are also Gaussian
, which makes many problems in statistics and machine learning tractable.
Gaussian distribution은 아주 특별한 특징이 있는데, Gaussian distribution을 연산해서 나온 결과값 또한 Gaussian 분포를 따른다는 점이다.
and 는 subsets of original random varaibles
이다.
marginalization
을 통해서, 우리는 multivariate probability distributions
에서 부분적인 정보들을 추출할 수 있다. 특히, 주어진 normal probability distribution 에서, 우리는 그들의 marginalized probability distributions
를 다음과 같이 구할 수 있다.
The interpretation of this equation is that each partition and only depends on its corresponding entries in and . To marginalize out a random variable from a Gaussian distribution we can simply drop the variables from and .