profile
행정학도 경찰의 DataScientist 되기
post-thumbnail

Expectation Propagation

Expectation Propagation(EP) 알고리즘은 Laplace approximation에서 살펴본 것과 같이 사후확률분포를 근사하는 알고리즘 중 하나이다. 이번 글에서는 Expectation Propagation 알고리즘을 살펴보고 Gaussian Proc

2023년 7월 14일
·
0개의 댓글
·
post-thumbnail

Self-Organizing Maps

SOM 이라고 줄여 부르는 Self-organizing maps는 고차원(High dimensional) 데이터를 저차원(주로 2차원 평면)에 표현하는 차원축소 기법의 일종이다. 차원축소 기법으로 많이 사용되는 PCA와는 다르게, SOM은 데이터의 고차원 구조(topo

2023년 7월 13일
·
0개의 댓글
·
post-thumbnail

Laplace Approximation GP classifier

바로 이전 글에서 Gaussian Process classifier는 사후확률분포가 정규분포형태가 아니고, 이로 인해 직접 계산이 어렵다는 점을 살펴보았다. Laplace Approximation은 사후확률분포 $p(\\mathbf{f}|X,y)$ 를 정규분포 형태로

2023년 7월 12일
·
0개의 댓글
·
post-thumbnail

Gaussian Process Classification

베이지안 관점에서 분류(Classification) 문제를 정의하는 과정을 생각해보면, 설명변수 $\\mathbf{x}$와 반응변수(class) $y$의 결합확률분포 $p(y,\\mathbf{x})$를 접근하는 방식에 두 가지 방법이 있음을 고려할 수 있다.$$p(y,

2023년 7월 11일
·
0개의 댓글
·
post-thumbnail

Gaussian Process Regression

Gaussian Process는 함수들의 사전분포에 대한 것이다. 이때, 함수들의 사전분포를 정하는 이유는 주어진 데이터로부터 함수를 추정하는 과정에서 특정 조건을 부여하여 추론 혹은 예측 과정을 더 용이하게 하기 위함이다. 이 과정에서 Gaussian, especia

2023년 7월 10일
·
0개의 댓글
·

23 KISS Summer School Note

Traditional Linear Model > suffers at specific tasks(ex. MNIST) \- Why : Designed to use at low-dimensional data \- At higher dimension(ex. Image, Vid

2023년 7월 10일
·
0개의 댓글
·
post-thumbnail

MM algorithm

MM algorithm은 EM algorithm의 일반화된 버전으로 이해하면 되는데, MM은 maximization 관점에서 minorize-maximize를 나타낸다. MM algorithm은 최대화하고자 하는 목적함수 $l(\\theta)$ 에 대한 lower bo

2023년 7월 5일
·
0개의 댓글
·

추천시스템의 분류

이번 여름방학 기간을 활용하여 데이터사이언스 영역에서 갈수록 중요해지는 토픽 중 하나인 추천시스템에 대해 공부해 포스팅해보고자 한다. 추천시스템의 목적은 궁극적으로 사용자에게 적절한 아이템을 추천해주는 것인데, 기존의 statistical learning model과는

2023년 6월 27일
·
0개의 댓글
·

Linear mixed effect model

$i$번째 그룹에 대한 $j$번째 관측값 $y{11},\\ldots,y{nn}$ 들이 주어질 때, 이들의 평균을 모델링하는 다음과 같은 모형을 생각해보자.$$\\mathrm{E}y\_{ij} = \\mu + \\alpha{i}+\\epsilon{ij}$$이때 각 par

2023년 6월 27일
·
0개의 댓글
·

Generalized Linear Model

일반화 선형모형(GLM)은 일반적인 선형모형(Linear Model, 반응변수와 설명변수의 관계가 선형이고 오차항의 분포가 normal인 모형)을 확장한 모형이다. 확장 방식은 반응변수와 설명변수의 관계를 nonlinear(ex. Exponential form)하게 바

2023년 6월 26일
·
0개의 댓글
·

REST API

REST(Representational State Transfer)란, 자원 (resource)을 이름으로 구분하여 해당 자원의 상태를 주고받는 모든 것HTTP URI (Uniform Resource Identifier) 으로 자원을 명시HTTP Method (POST

2023년 5월 12일
·
0개의 댓글
·

Sufficiency

이번 포스트에서는 통계학의 추정, 검정 등에서 중요하게 사용되는 통계량의 충분성에 대해 정리하고자 한다. 확률공간 $(\\Omega,\\mathcal{F},P)$ 을 이용해 random experiment를 정의할 때, 우리는 확률측도 $P$를 population이라고

2023년 3월 31일
·
0개의 댓글
·
post-thumbnail

제1회 지역치안데이터분석경진대회 공모전 후기

23년도 첫 공모전이자 대학원 입학 전 마지막 공모전으로 경찰대학 치안정책연구소 등에서 주관한 치안 데이터 기반의 공모전 지역치안데이터분석경진대회에 참가하게 되었다. 평소 도메인 지식이 치안이나 교통쪽에 한정되어 있기도 하고, 결국 안전한 사회를 위해 데이터를 활용하고

2023년 3월 2일
·
0개의 댓글
·

State-Space Model

상태공간모형(State-Space Model, 이하 SSM)은 Markov chain을 기반으로 하는 시계열 모형의 일종이지만, 실제 관측가능한 observation 데이터와 hidden state data가 결합하여 만들어진다.상태공간모형은 다음과 같이 정의된다. 각

2023년 1월 25일
·
0개의 댓글
·
post-thumbnail

Spectral Density

시계열 자료는 ${x\_{t}: t=1\\ldots T}$ 형태로 discrete하게 주어진다. 반면, 파동함수(cosine, sine function)를 이용해 시계열 자료를 근사하는 방법이 있는데, 이러한 형태로 주어진 자료를 spectral 하다고 한다. Spec

2023년 1월 12일
·
0개의 댓글
·

Conditional Expectation

Measure Theory를 기반으로 한 조건부 기댓값 및 조건부 확률을 정의해보도록 하자. 일반적으로 measure를 다루지 않는 통계학에서는 조건부 확률을 먼저 정의하고, 이후에 조건부 기댓값을 조건부 확률을 이용해 정의하는데 measure를 이용하면 좀 더 엄밀한

2022년 12월 11일
·
0개의 댓글
·

MA Model & Trend Estimation

시계열 모형에는 다양한 구조가 존재하는데, 여기서는 가장 기본적인 MA model(이동평균 모형)에 대해 다루어보도록 하자. MA는 Moving Average(이동평균)의 약자인데, 각 시점의 확률변수는 이전 시점들의 White Noise들로 구성된다. MA(q) 모델

2022년 11월 14일
·
0개의 댓글
·

Stationarity

우리말로 정상성이라고 정의하는 Stationarity는 시계열 분석을 수행하기 위해 가정해야 하는 가장 중요한 도구이다. 회귀분석에 비유하자면, 회귀모형의 오차항(흔히 $\\epsilon$으로 나타나는)이 정규성을 가진다고 가정하는 것과 비슷하다. 가장 단순한 (단변량

2022년 11월 14일
·
0개의 댓글
·
post-thumbnail

Graphical Models in Python

이전에 graph의 markov property을 살펴보며 markov property 하에서(parent 노드가 주어질 때 다른 노드들과의 조건부 독립성) graphical model을 다음과 같은 markov chain 형태로 나타낼 수 있음을 알았다.$$p(\\m

2022년 9월 28일
·
0개의 댓글
·
post-thumbnail

Markov Chain Monte Carlo

MCMC라고도 하는 Markov Chain Monte Carlo 기법은 확률분포에서 샘플을 추출하는 여러 종류의 알고리즘을 일컫는다. 다양한 머신러닝 이론들이 등장하며, 기존 통계학에서 다룰 수 없을 정도의 수만-수백만 개의 변수 및 파라미터를 사용하는 모델들 역시 등

2022년 9월 11일
·
0개의 댓글
·