학습 과정이 사전에 정의된 특정한 방법을 따릅
니다.q(x_t-1|x_t)
을 알려면, 전체 데이터셋이 필요하기 떄문에, 알 수 없습니다.P_theta(x_t-1|x_t)
를 학습시키는게 목표이고, 그 이유에 대해서도 위에서 얘기했었다.q(x_t-1 | x_t)
와 P_theta(x_t-1|x_t)
의 분포를 유사하게 학습시키는 것이, 왜 원래 input 이미지를 제대로 복원시키는 것과 동치인지 수학적으로 증명할 필요가 있다.원래 input 이미지를 제대로 복원시키는 것
= log[P_theta(X_0)] 를 극대화 한다.
log[P_theta(X_0)] 를 극대화 한다.
는 것이, 아래의 것과 동치임을 보이겠다.q(x_t-1 | x_t)
와 P_theta(x_t-1|x_t)
의 분포를 유사하게 학습하는 것q(x_t-1|x_t)
의 평균과 분산은 아래와 같다!ϵ_t
만 우리가 구할 수 있으면 알 수 있다.P_theta(x_t-1|x_t)
가 ϵ_t
을 정확히 출력하도록 학습할 수 있다면,P_theta(x_t-1|x_t)
가 ϵ_t
을 정확히 근사하여 출력하도록 학습 하는 방법을 알아보자.P_theta(x_t-1|x_t)
가 ϵ_t
을 정확히 근사하도록 학습하기 위한 Objective(Loss) Function
을 알아보자.denoising score matching
과 비슷하다.Langevin Dynamics
의 아이디어를 적용하여 노이즈를 추가∇xlogq(x)
를 딥러닝 네트워크로 학습하는 방법∇xlogq(x)
를 딥러닝 네트워크로 학습한다고 볼 수 있습니다.