Expectation Propagation(EP) 알고리즘은 Laplace approximation에서 살펴본 것과 같이 사후확률분포를 근사하는 알고리즘 중 하나이다. 이번 글에서는 Expectation Propagation 알고리즘을 살펴보고 Gaussian Proc
SOM 이라고 줄여 부르는 Self-organizing maps는 고차원(High dimensional) 데이터를 저차원(주로 2차원 평면)에 표현하는 차원축소 기법의 일종이다. 차원축소 기법으로 많이 사용되는 PCA와는 다르게, SOM은 데이터의 고차원 구조(topo
바로 이전 글에서 Gaussian Process classifier는 사후확률분포가 정규분포형태가 아니고, 이로 인해 직접 계산이 어렵다는 점을 살펴보았다. Laplace Approximation은 사후확률분포 $p(\\mathbf{f}|X,y)$ 를 정규분포 형태로
베이지안 관점에서 분류(Classification) 문제를 정의하는 과정을 생각해보면, 설명변수 $\\mathbf{x}$와 반응변수(class) $y$의 결합확률분포 $p(y,\\mathbf{x})$를 접근하는 방식에 두 가지 방법이 있음을 고려할 수 있다.$$p(y,
Gaussian Process는 함수들의 사전분포에 대한 것이다. 이때, 함수들의 사전분포를 정하는 이유는 주어진 데이터로부터 함수를 추정하는 과정에서 특정 조건을 부여하여 추론 혹은 예측 과정을 더 용이하게 하기 위함이다. 이 과정에서 Gaussian, especia
Traditional Linear Model > suffers at specific tasks(ex. MNIST) \- Why : Designed to use at low-dimensional data \- At higher dimension(ex. Image, Vid
MM algorithm은 EM algorithm의 일반화된 버전으로 이해하면 되는데, MM은 maximization 관점에서 minorize-maximize를 나타낸다. MM algorithm은 최대화하고자 하는 목적함수 $l(\\theta)$ 에 대한 lower bo
이번 여름방학 기간을 활용하여 데이터사이언스 영역에서 갈수록 중요해지는 토픽 중 하나인 추천시스템에 대해 공부해 포스팅해보고자 한다. 추천시스템의 목적은 궁극적으로 사용자에게 적절한 아이템을 추천해주는 것인데, 기존의 statistical learning model과는
$i$번째 그룹에 대한 $j$번째 관측값 $y{11},\\ldots,y{nn}$ 들이 주어질 때, 이들의 평균을 모델링하는 다음과 같은 모형을 생각해보자.$$\\mathrm{E}y\_{ij} = \\mu + \\alpha{i}+\\epsilon{ij}$$이때 각 par
일반화 선형모형(GLM)은 일반적인 선형모형(Linear Model, 반응변수와 설명변수의 관계가 선형이고 오차항의 분포가 normal인 모형)을 확장한 모형이다. 확장 방식은 반응변수와 설명변수의 관계를 nonlinear(ex. Exponential form)하게 바
REST(Representational State Transfer)란, 자원 (resource)을 이름으로 구분하여 해당 자원의 상태를 주고받는 모든 것HTTP URI (Uniform Resource Identifier) 으로 자원을 명시HTTP Method (POST
이번 포스트에서는 통계학의 추정, 검정 등에서 중요하게 사용되는 통계량의 충분성에 대해 정리하고자 한다. 확률공간 $(\\Omega,\\mathcal{F},P)$ 을 이용해 random experiment를 정의할 때, 우리는 확률측도 $P$를 population이라고
23년도 첫 공모전이자 대학원 입학 전 마지막 공모전으로 경찰대학 치안정책연구소 등에서 주관한 치안 데이터 기반의 공모전 지역치안데이터분석경진대회에 참가하게 되었다. 평소 도메인 지식이 치안이나 교통쪽에 한정되어 있기도 하고, 결국 안전한 사회를 위해 데이터를 활용하고
상태공간모형(State-Space Model, 이하 SSM)은 Markov chain을 기반으로 하는 시계열 모형의 일종이지만, 실제 관측가능한 observation 데이터와 hidden state data가 결합하여 만들어진다.상태공간모형은 다음과 같이 정의된다. 각
시계열 자료는 ${x\_{t}: t=1\\ldots T}$ 형태로 discrete하게 주어진다. 반면, 파동함수(cosine, sine function)를 이용해 시계열 자료를 근사하는 방법이 있는데, 이러한 형태로 주어진 자료를 spectral 하다고 한다. Spec
Measure Theory를 기반으로 한 조건부 기댓값 및 조건부 확률을 정의해보도록 하자. 일반적으로 measure를 다루지 않는 통계학에서는 조건부 확률을 먼저 정의하고, 이후에 조건부 기댓값을 조건부 확률을 이용해 정의하는데 measure를 이용하면 좀 더 엄밀한
시계열 모형에는 다양한 구조가 존재하는데, 여기서는 가장 기본적인 MA model(이동평균 모형)에 대해 다루어보도록 하자. MA는 Moving Average(이동평균)의 약자인데, 각 시점의 확률변수는 이전 시점들의 White Noise들로 구성된다. MA(q) 모델
우리말로 정상성이라고 정의하는 Stationarity는 시계열 분석을 수행하기 위해 가정해야 하는 가장 중요한 도구이다. 회귀분석에 비유하자면, 회귀모형의 오차항(흔히 $\\epsilon$으로 나타나는)이 정규성을 가진다고 가정하는 것과 비슷하다. 가장 단순한 (단변량
이전에 graph의 markov property을 살펴보며 markov property 하에서(parent 노드가 주어질 때 다른 노드들과의 조건부 독립성) graphical model을 다음과 같은 markov chain 형태로 나타낼 수 있음을 알았다.$$p(\\m
MCMC라고도 하는 Markov Chain Monte Carlo 기법은 확률분포에서 샘플을 추출하는 여러 종류의 알고리즘을 일컫는다. 다양한 머신러닝 이론들이 등장하며, 기존 통계학에서 다룰 수 없을 정도의 수만-수백만 개의 변수 및 파라미터를 사용하는 모델들 역시 등