이번 글에서는 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(2021)을 리뷰하겠습니다. 본 논문에서는 Vision Transformer 모델을 소개합니다.
DeiT 모델을 이해하기 위해 세 개의 논문을 순차적으로 리뷰하도록 하겠습니다. Distilling the Knowledge in a Neural Network(2015) 이 논문에서 DeiT의 훈련 전략의 기초가 되는 distillation에 대해 이해하겠습니다.