이번 시간에 배울 모델은 Pix2Pix다. GAN을 기반을 설계된 모델이다.
Image-to-image translation 방식인데, 한 이미지를 그 특성을 토대로 다른 형태의 이미지로 출력할 수 있는 방식이다. 예를 들어 이미지가 레이블 형태로 주어진 이미지를 실제 사진처럼 변형하거나, 흑백 사진에 색을 추가하여 컬러 이미지로 변환하거나, 윤곽만 있거나 혹은 손그림 이미지를 완성된 사진같은 이미지 형태로 출력할 수 있다.
입력 이미지 자체를 조건(condition)으로 입력받는 CGAN의 한 유형이다
이미지를 조건으로 입력받아 이미지를 출력하는 방식이기 때문에 서로의 해상도가 같도록 하는것이 좋다. 이러한 결과를 효과적으로 얻기 위해 U-Net 구조의 네트워크를 사용한다.
일반적인 encoder-decoder 구조와는 다르게 decoder로 넘어가 출력되는 과정에서도 입력층의 해당하는 데이터부분이 출력층에서도 유사하게 사용되고 새로운 정보를 학습할 필요없이 새로운 정보만 학습할 수 있도록 한다.