ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

곽태욱·2024년 3월 25일
0

논문 번역

목록 보기
3/4

https://ar5iv.labs.arxiv.org/html/1809.00219

ESRGAN: 향상된 초해상도 생성적 적대 신경망

Abstract

Super-Resolution Generative Adversarial Network (이하 SRGAN)는 단일 이미지 기반 Super Resolution (이하 SR) 중 사실적인 질감을 생성할 수 있는 획기적인 기술입니다. 그러나 이미지의 희미한 세부 사항을 복원하면 일반적으로 결함(artifact)도 같이 생성됩니다. 시각적 품질을 더욱 향상시키기 위해 SRGAN의 세 가지 핵심 구성 요소인 인공신경망 구조 및 adversarial loss, perceptual loss을 철저히 연구했고, 각 구성 요소를 개선하여 향상된(Enhanced) SRGAN(이하 ESRGAN)을 도출했습니다. 특히, 신경망 구성 기본 단위로 배치 정규화(Batch normalization)가 없는 Residual-in-Residual Dense Block(이하 RRDB)을 도입합니다. 그리고 우리는 판별기(discriminator)가 절대값 대신 상대적인 현실성을 예측하도록 하는 relativistic GAN에서 아이디어를 얻었습니다. 마지막으로 밝기 일관성 및 텍스처 복구에 좋은 활성화 전 기능(features before activation)을 사용하여 perceptual loss을 개선했습니다. 이러한 개선을 통해 본 논문에서 제안된 ESRGAN은 SRGAN보다 더 사실적이고 자연스러운 질감으로 더 나은 일관된 시각적 품질을 달성했으며 PIRM2018-SR Challenge에서 1위를 차지했습니다. 코드는 https://github.com/xinntao/ESRGAN 이 사이트에서 확인할 수 있습니다.

이 논문의 부록으로, 섹션 6에선 배치 정규화를 사용했을 때 이미지에 나타나는 결함의 예시를 많이 보여줍니다. 그런 다음 섹션 7 에서 매우 깊은 계층의 신경망 모델을 쉽게 훈련할 수 있는 몇 가지 유용한 기술을 소개합니다. 다양한 데이터 세트와 훈련 패치 크기의 영향에 대한 분석은 각각 섹션 8과 섹션 9에 설명되어 있습니다 . 마지막으로 섹션 10에서는 시각적 비교를 위한 정성적인 결과를 제공합니다.

Introduction

근본적인 저수준 시력 문제인 단일 이미지 초해상도(Single image super-resolution, 이하 SISR) 분야는 연구 커뮤니티와 AI 기업에서 점점 더 많은 관심을 보이고 있습니다. SISR은 단일 저해상도 이미지에서 고해상도 이미지로 복구하는 것을 목표로 합니다. Dong 외 다수가 제안한 SRCNN(Super Resolution Convolution Neural Network)의 선행 작업 이후, 심층 합성곱 신경망(deep CNN) 접근 방식은 성공적인 발전을 가져왔습니다. 다양한 신경망 구조 설계 및 학습 전략을 통해 SR 성능, 특히 PSNR(최고 신호 대 잡음비, 높을 수록 좋음) 값이 지속적으로 향상되었습니다. 그러나 이러한 PSNR 중심 접근 방식은 이미지 디테일 부분의 주파수(명암이 번갈아가면서 나타나는 빈도)가 높지 않고 결과물이 과도하게 over-smoothing(활성화 함수가 입력 범위를 제한해 출력이 작아지는 현상)되는 경향이 있습니다. 왜냐하면 PSNR 측정 기준은 인간 시각의 주관적인 판단 기준과 근본적으로 일치하지 않기 때문입니다.

SR 결과의 시각적 품질을 향상시키기 위해 여러 가지 perceptual 기반 방법이 제안되었습니다. 예를 들어, perceptual loss 방식은 픽셀 공간 대신 feature space에서 SR 모델을 최적화하기 위해 제안되었습니다. 또한 네트워크가 자연스러운 이미지처럼 보이는 결과물을 선호하도록 장려하기 위해 GAN 개념이 SR 분야에 소개됐습니다. 여기서 업스케일된 결과 이미지의 질감을 개선하기 위해 semantic image prior 개념이 추가로 사용됐습니다. 시각적으로 만족스러운 결과 이미지를 얻기 위한 방법 중 하나가 바로 SRGAN입니다. SRGAN은 기본적으로 residual block으로 구성되고, GAN 모델의 perceptual loss을 사용하여 최적화되었습니다. 이러한 기술을 통해 SRGAN은 PSNR 중심 방법에 비해 이미지 복원 분야에서 전반적인 시각적 품질을 크게 향상시켰습니다.

그림 1: SRGAN의 SR 4배, 제안된 ESRGAN, 원본 데이터를 비교한 그림입니다. ESRGAN은 SRGAN보다 선명도와 디테일 면에서 뛰어납니다.

그러나 그림 1에서 볼 수 있듯이 SRGAN 결과와 원본 이미지 사이에는 여전히 명확한 격차가 존재합니다. 본 연구에서는 SRGAN의 핵심 구성 요소를 재검토하고 세 가지 측면에서 모델을 개선합니다. 먼저, 용량(capacity, 파라미터 개수?)이 더 크고 훈련하기 쉬운 Residual-in-Residual Dense Block를 도입하여 인공신경망 구조를 개선합니다. 그리고 깊은 신경망(deep Neural Network)의 학습을 용이하게 하기 위해 배치 정규화 계층을 제거하고 residual scaling을 사용하여 초기화할 가중치를 줄입니다(주: 신경망 계층이 깊어지거나 가중치 개수가 늘어나면 차원의 저주, 기울기 소실/폭발, 공간복잡도 상승 등의 이유로 학습이 어려워짐). 둘째로, Relativistic average GAN (상대주의적 평균 GAN, 이하 RaGAN) 개념을 사용하여 판별기(discriminator)를 개선하려고 하는데, "한 이미지가 진짜인지 가짜인지"보다는 "한 이미지가 다른 이미지보다 더 현실적인지"를 판단하는 방법을 학습시키려고 합니다. 우리의 실험에서는 이러한 개선으로 생성기(generator)가 보다 사실적인 텍스처 세부 정보를 복구하는 데 도움이 된다는 것을 보여줍니다. 셋째, SRGAN에선 활성화(activation) 후에 VGG feature를 적용하던데, 그 대신 우리는 활성화 전에 VGG feature 적용하는 perceptual loss 방식을 제안합니다. 우리가 제안한 perceptual loss 방식은 기존 방식보다 더 선명한 가장자리 묘사와 시각적으로 더 만족스러운 결과를 제공합니다. 이는 섹션 4.4에서 확인할 수 있습니다. 광범위한 실험을 통해 ESRGAN(향상된 SRGAN)이 현재의 state-of-the-art 방식보다 선명도와 세부 묘사 모두에서 지속적으로 우수한 것으로 나타났습니다(그림 1 및 그림 7 참조).

우리는 PIRM-SR 챌린지에 참여하기 위해 ESRGAN의 변형을 사용합니다. 이 챌린지는 The Perception-Distortion Tradeoff(주: 업스케일링의 정확도와 자연스러움은 반비례하는 현상)라는 원리 하에 얼마나 자연스러운(perceptual-quality) 이미지가 나오는지 평가하는 최초의 SR 대회입니다. 자연스러움은 Ma 점수와 NIQE의 비참조 측정값(non-reference measures)으로 판단합니다. 예를 들면 perceptual index = 1/2 * ((10 − Ma) + NIQE) 입니다. 점수가 낮을 수록 이미지가 더 자연스럽다는 것을 의미합니다.

그림 2: PIRM 자체 검증 데이터세트의 자연스러움-정확도 평면(perception-distortion plane). 해당 그림은 EDSR, RCAN, EnhanceNet, ESRGAN의 기준선을 보여줍니다. 그림의 파란색 점은 이미지 보간이 적용된 모델을 의미합니다.

그림 2에서 볼 수 있듯이 자연스러움-정확도 평면(perception-distortion plane)은 RMSE(Root-Mean-Square Error)의 임계값으로 정의된 R1, R2, R3 세 개의 영역으로 나뉘며, 각 영역에서 가장 낮은 지각 지수를 달성하는 알고리즘이 해당 영역의 챔피언이 됩니다. 우리는 자연스러움을 새로운 최고 수준으로 끌어올리는 것을 목표로 하기 때문에 주로 영역 3(R3)에 중점을 둡니다. 앞서 언급한 개선 사항과 섹션 4.6에서 설명할 최적화 덕분에 우리가 제안한 ESRGAN은 PIRM-SR Challenge(R3)의 최고의 자연스러움 지수(perceptual index)에서 1위를 차지했습니다.

시각적 품질과 RMSE/PSNR의 균형을 맞추기 위해 업스케일링 스타일과 부드러움을 지속적으로 조정할 수 있는 네트워크 보간(network interpolation) 전략을 제안합니다. 또 다른 대안은 이미지를 픽셀 단위로 직접 보간하는 이미지 보간입니다. 우리는 이 전략을 사용하여 PIRM-SR Challenge의 R1과 R2에도 참여합니다. 네트워크 보간 및 이미지 보간 전략과 그 차이점은 섹션 3.4에서 살펴봅니다.

profile
이유와 방법을 알려주는 메모장 겸 블로그. 블로그 내용에 대한 토의나 질문은 언제나 환영합니다.

0개의 댓글