Deterministic vs Generative model

Yongsang Yoon·2021년 12월 31일

개인공부방

목록 보기

2/5

모델의 두 가지 종류인 Deterministic 방법과 Generative 방법의 기본 개념과 차이점에 대해 공부했다.

Deterministic model

Deterministic model이란 데이터 $X$ 가 주어졌을 때 라벨 $Y$ 가 나타날 조건부 확률 $p(Y|X)$ 에 대해 직접적으로 계산하는 모델을 뜻한다. 라벨 $Y$ 가 반드시 필요한 지도학습 (Supervised learning)에 속한다. 이 모델의 목표는 결정경계 (Decision boundray) 를 잘 학습하는 것이다.
Generative model에 비해 가정(hypothesis)가 단순한 편이며 학습 데이터가 충분하다면 좋은성능을 보인다. 선형회귀(Linear regression)과 로지스틱회귀(Logistic regression)이 대표적인 예시이다.

Generative model

Gerenrative model이란 데이터 $X$ 에 대한 분포를 두개의 확률모형 $p(Y), p(Y|X)$ 로부터 베이지안 이론을 활용하여 $p(Y|X)$ 를 간접적으로 계산하는 모델을 뜻한다. 라벨 $Y$ 의 유무에 따라 지도학습 (e.g., 선형판별분석 (Linear Discriminant Analysis)), 비지도학습 (e.g.,g Gaussian Mixture Model (GMM))으로 구분된다.

Deterministic model에 비해 가정이 복잡한 편이며, 실제 현상과 잘 맞지 않는다면 성능이 대폭 감소한다. 하지만 가정이 좋다면 적은 데이터로도 좋은 성능을 보인다. 이 모델의 목표는 범주의 분포 (distrbution) 을 학습하는 것이다. 아울러 $p(X|Y)$ 도 학습하기 때문에 라벨 $y$ 로부터 데이터 $x$ 를 샘플링 할 수도 있다.

Data distribution

데이터 확률 분포 $p(X)$ 란 특정 데이터 $x$ 가 나타날 확률을 뜻한다. 예를 들어 대한민국 남자 키에 대한 데이터 $X$ 있다고 해보자. 아래 그림에서처럼 가장 흔한 평균키 174cm는 $x_3$ 에서처럼 높은 확률을 나타내는 반면 드문 키 188cm인 $x_4$ 는 낮은 확률을 나타낸다. 만약 키가 212cm가 넘는다면 나타날 확률은 0에 가까워질 것이다.