Style Transfer 논문으로부터 아이디어를 빌려, 새로운 형태의 Generator architecture를 가진 GAN framework를 제안한다.
우리가 제안하는 모델은 high-level attributes (e.g. human face 상에서 pose나 identity와 같은 디테일함) 을 비지도적으로 구분하고, 생성되는 이미지의 확률적 다양성 (frickle, hair)을 자동적으로 학습하며, 이는 synthesis의 control을 가능하게 해준다.
traditional한 quality metric들에 대해 state-of-the-art를 달성하고, FFHQ dataset을 새롭게 소개한다.
latent space로부터 이미지를 생성하는데, 지금까지는 latent space에 대한 이해가 부족했고 제안된 latent space interpolation들은 generator 간에 비교할 수 있는 정량적인 방법을 제공하지 않았다.
Style Transfer에서 아이디어를 얻어, Generator의 구조를 다시 디자인하여 Image Synthesis process를 control할 수 있게 한다.
noisy latent 를 직접적으로 Generator에 넣기보다는, latent code에 대한 convolution 연산을 통해 image의 style을 조정한다.
한편 discriminator나 loss function은 전혀 구조를 바꾸지 않았다.
Generator는 input latent code를 'intermediate latent space'로 mapping하고, 이는 variation의 factore들이 network 내에서 어떻게 represent되는지 알 수 있는 효과가 있다.
기존의 접근에서는 input latent space가 training data의 probability density를 따라야 하고, 이는 피할 수 없는 disentanglement를 유발한다.
PPL과 linear separability라는 두 가지 metric을 제시한다. 이러한 metric을 통해 우리가 제시하는 generator architecture가 traditional approach보다 (different factors of variation에 대해) 더 linear, less entangle한 representation을 얻어낼 수 있음을 확인할 수 있었다.
AdaIN 연산을 통해 각 feature map 는 normalize 후 style scalar 에 의해 scaling, biasing된다.
Style Transfer와 StyleGAN을 비교해보면, StyleGAN에서는 example image를 계산하는 대신, spatially invariant한 style 을 계산한다.
마지막으로, 우리는 noise input을 Generator의 중간 입력에 noisy input을 명시적으로 넣어줌에 따라, generator가 stochastic detail을 잡도록 했다. noise가 넣어지는 위치는 AdaIN 또는 Upsample 연산을 거친 뒤 3x3 convolution을 거친 이후이다.
Progressive GAN의 Generator을 base로 하여 method를 추가했다. 각 method에 대한 설명은 다음과 같다.
FFHQ dataset에 대해 FID를 비교
추가적으로, 지금까지의 GAN을 개선하려는 접근들은 discriminator을 개선하는 방식이었음. (multiple discriminator, multiresolution discrimination, self-attention 등..)
genearator을 개선하려는 접근은 latent space이 정확한 distribution을 갖도록 하거나, Gaussian mixture model로 latent space를 shaping하거나, clustering, convexity를 개선하는 등의 접근이었음.
우리는 intermediate latent space라는 새로운, latent의 특성을 더 잘 설명할 수 있고 유용한 space를 설명하며 input noise를 learnable netwokr로 embedding한다는 점에서 novelty가 있음.
StyleGAN을 통해 style에 대한 scale-specific modification을 통해 image synthesis를 control할 수 있게 되었음.
mapping network를 learned distribution으로부터 sample을 그리는 방법으로 해석할 수 있음.
Synthesis network는 style collection들을 base로 하여 novel한 image를 만들어내는 방법으로 해석할 수 있움.
이러한 localization이 가능한 것은, AdaIN operation 때문이라고 생각할 수 있는데, AdaIN operation은 각 채널들을 zero mean, unit variance로 normalize한 뒤 style에 근거하여 각 채널들을 scaling하고 biasing하는 방식으로 feature들의 relative importance를 수정함.
Style localize를 더 개선하기 위해서, "mixing regularization"이라는 방법을 제시하는데, training 과정 동안 한 latent vector로부터 sampling하는 것이 아니라 2개의 random latent code로부터 generate하는 것이다.
이를 더 구체적으로 말하면, synthesis network 상에서 noisy input을 넣어주는 부분에 을 넣어주던 것의 일부를 를 넣는 것으로 대체하는 것이다. 그리고, 대응되는 는 어떤 crossover point를 지정하고 이전 지점까지는 를 넣어주고 그 이후로는 를 넣어주는 것이다. 이런 접근은 adjacent style (인접한 스타일)들이 correlate되어있다고 가정하는 것을 막아준다. 즉, style 간의 seperation을 돕는다.