[Compression] Variational Image Compression with a Scale Hyperprior 리뷰

es.Seong·2024년 9월 23일
0

Image Compression

목록 보기
9/14
post-thumbnail

논문 제목
Variational image compression with a scale hyperprior (ICLR 2018)
URL: https://arxiv.org/abs/1802.01436
인용수 : 1766회 (24.09.23 기준)

학습기반 이미지 압축 (Learned Image Compression) 연구분야에서 가장 유명한 분이라고 할 수 있는 Johannes Ballé씨의 Hyperprior 제안 논문이다.
이 논문이후 대부분의 딥러닝 기반 이미지 압축 모델은 HyperpriorContext Module을 통해 이미지를 보다 효율적으로 압축할 수 있게 되었다.

요약

  1. 잠재 표현 (Latent Representation)에서 공간적 종속성을 효과적으로 포착하기 위해 Hyperprior를 사용함.
  2. Hyperprior는 이미지 코덱(codecs)에서 보편적으로 사용되는 side information과 관련이 있지만 딥러닝 이미지 압축에서는 거의 연구되지 않은 개념임.
  3. 기존 오토인코더 기반 압축 방식과 달리, Hyperprior 네트워크를 함께 학습하는 모델을 제안하였고, 정성&정량 평가에서 기존 방법들보다 성능이 우수함을 증명하였음.

Introduction

  1. 기존 이미지 압축 방법의 문제 : Lossy Compression에서 잠재 표현을 양자화하고 엔트로피 코딩으로 압축을 진행하지만, 잠재 표현 간. 통계적 종속성을 고려하지 않아 최적의 압축 성능 달성을 못하였음.
  2. Side Information : 기존 압축 모델에 부가적인 정보를 주는 네트워크를 활용해서 이미지 특성을 더 잘 반영할 수 있음.
  3. VAE + Hyperprior : VAE 기반의 모델에 엔트로피 모델의 매개변수로 사용하는 Hyperprior를 추가하여 잠재표현의 공간적 종속성을 학습 시킴.

Compression with Variational Models, Scale Hyperprior

  1. Transform Coding : 이미지 벡터 x를 인코더가 Analysis Transform(y=ga(x;ϕg)y=g_a(x; \phi_g))을 사용하여 잠재표현 y로 변환하고, 이를 양자화된 y^\hat{y}를 엔트로피 코딩을 통해 압축함.
    디코더는 양자화된 잠재 표현을 복원하고(x^=gs(y^;θg)\hat{x} = g_s(\hat{y}; \theta_g)), 복원된 이미지 x^\hat{x}를 생성.

  2. Rate-Distortion : 압축과정에서 양자화로 생기는 오류를 고려하여 Rate(Bit-Rate)와 Distortion(PSNR,MS-SSIM)의 균형을 맞추는 최적화를 진행. 여기서 Rate는 Cross Entropy를 사용.
    R=Expx[log2py^(Q(ga(x;ϕg)))]R = \mathbb{E}_{x \sim p_x} \left[ - \log_2 p_{\hat{y}} \left( Q(g_a(x; \phi_g)) \right) \right]

  3. VAE 최적화 : VAE 최적화 방식을 통해, generative모델과 inference 모델을 사용하여 KL발산을 최소화여 Rate-Distortion을 최적화함.
    ExpxDKL[qpy~x]=ExpxEy~q[logq(y~x)logp(xy~)logp(y~)]\mathbb{E}_{x \sim p_x} D_{KL} \left[ q \parallel p_{\tilde{y} \mid x} \right] = \mathbb{E}_{x \sim p_x} \mathbb{E}_{\tilde{y} \sim q} \left[ \log q(\tilde{y} \mid x) - \log p(x \mid \tilde{y}) - \log p(\tilde{y}) \right]

  4. 양자화 : 양자화를 하면 미분이 되지 않는 문제가 발생하기 때문에 학습 중 Gaussian Noise를 추가함.

  5. Prior Model 확장 : 2017년 Ballé 논문의 모델델은 완전히 Factorized)된 Prior Model을 사용함.(잠재 표현의 각 요소들이 서로 독립이라고 가정하는 방식) 하지만 이 방법은 잠재표현의 spatial dependency를 잘 표현하지 못함.
    Hyperprior는 잠재표현 y의 각 요소가 독립적이지 않고, 그들의 Scale이 공간적으로 관련이 있다는 것을 모델로 구현. 이를 위해 추가적인 잠재변수 z를 도입하여 잠재표현 y의 스케일 정보를 추정. 이 추가적인 잠재변수 z는 잠재표현 y의 스케일을 설명하는데 사용, 이를 통해 잠재변수 간의 상관관계를 더 잘 모델링할 수 있음.

Hyperprior의 모델은 다음과 같이 표현됨.

p(y~z~,θh)=i(N(0,σi2)U(12,12))(y~i)p(\tilde{y} \mid \tilde{z}, \theta_h) = \prod_i \left( N(0, \sigma_i^2) * U\left(-\frac{1}{2}, \frac{1}{2}\right) \right)(\tilde{y}_i)

모델 구조

Convolution Layer와 비선형 함수인 GDN/IGDN, ReLU를 번갈아 사용하였음.

EXPERIMENTS

학습

  1. 데이터는 JPEG 100만장 사용하였고, 256x256 크기로 랜덤 크롭하여 학습에 사용.
  2. ADAM 사용하였고 LR은 0.0001로 설정
  3. 8개의 람다 값을 설정하였고 손실함수의 Distortion은 PSNR과 MS-SSIM으로 각각 학습되었다고함.

성능 평가

이미지 압축의 대표적인 벤치마크 데이터셋인 Kodak 데이터셋을 사용하여 평가 진행.

  1. Scale Hyperprior 모델이 기존 딥러닝 기반의 모델들보다 더 우수한 성능을 보였음.
  2. Hyperprior가 사용한 Bit-rate는 전체 압축된 Bit-rate의 작은 비율이지만 성능 개선이 크게 이루어졌음.
  3. PSNR측면에서는 여전히 BPG와 같은 전통적인 방식이 나은 성능을 보임.

하이퍼프라이어는 잠재 표현에서의 공간적 종속성(spatial dependency)을 효과적으로 포착하며, 더 나은 압축 성능을 보였던 논문이고 Compression 연구에서 무조건 사용하는 방법이 된 방법론이다.

다음 리뷰할 논문은 같은해에 나온 "Joint Autoregressive and Hierarchical Priors for Learned Image Compression"에서 제안된 Context Model이다. 이 또한 구글의 David Minnen, Johannes Ballé가 저자이다.

이 논문에서는 컨텍스트 모델(context model)하이퍼프라이어(hyperprior)를 결합하여 잠재 표현의 확률 분포를 더 정확하게 예측하고, 이를 통해 이미지 압축 성능을 향상 시킨 논문이다.

profile
Graduate student at Pusan National University, majoring in Artificial Intelligence

0개의 댓글