TIL 2023-03-12

곽태욱·2023년 3월 12일

UNet

https://youtu.be/n_FDGMr4MxE

의료 이미지 분류를 위해 만들어진 신경망 모델이다. UNet은 크게 input의 가로와 세로 길이를 축소하고 채널을 늘리는 Encoder 부분과 input의 가로와 세로 길이를 확대하고 채널을 줄이는 Decoder 부분으로 나뉜다. 이러한 UNet의 구조는 Convolutional Neural Network(CNN)에서 따왔다.

CNN는 각 단계마다 입력값의 가로와 세로 길이를 줄이고 채널을 늘리면서 이미지의 각 부분의 특징을 요약한다. CNN 각 단계에 존재하는 가중치 행렬을 시각화해보니, 입력층에 가까우면서 가로 세로 길이가 길고 채널이 적은 가중치 행렬은 이미지의 세세한 특징 정보를 가지고, 출력층에 가까우면서 가로 세로 길이가 짧고 채널이 많은 가중치 행렬은 이미지의 전체적인 특징을 요약해 가지고 있었다.

근데 CNN은 이미지를 여러 클래스 중 하나로 분류하기 위한 모델이라 입력 이미지와 가로 세로 길이가 같은 출력 이미지를 생성할 수 없다. 그래서 UNet은 CNN에서 입력 이미지의 특징을 요약하는 부분을 Encoder로 차용하고, 입력 이미지와 모양(shape)이 같은 이미지를 출력하기 위해 가로 세로 길이를 늘리고 채널을 줄이는 Decoder를 만들었다.

이때 Decoder 부분에서 가로 세로 길이를 늘리고 채널을 줄일 때 입력 이미지의 각 픽셀 위치 정보가 손실되는데, 이를 보완하기 위해 Decoder 각 단계의 입력값과 Encoder에서 동일한 가로 세로 길이를 가지는 출력값을 채널 단위에서 합친다.

GigaGAN

https://arxiv.org/abs/2303.05511

기존 모델보다 이미지 화질 복원 속도 및 이미지 생성 속도가 빠르다. 여러 기준에 따른 interpolation 추론도 매끄럽게 된다. Latent Diffusion 모델 성능을 넘보고 있다.

곽태욱

이유와 방법을 알려주는 메모장 겸 블로그 (Frontend, AI, 경제, 책)

이전 포스트

TIL 2023-03-11

다음 포스트

TIL 2023-03-12

UNet

GigaGAN

TIL 2023-03-11

TIL 2023-03-13

0개의 댓글