Introduction CNN 인접한 픽셀간의 correlation 관계를 학습 => 'locality' 성질 거리가 먼 픽셀들 간의 연관성 학습이 어려움 (long-range dependency) Transformer의 self-attention 입력값 간의 연관성
해당 notion 경로
TransBTS 모델
notion 링크
Copy-Past augmentation : 자른 객체를 랜덤하게 이미지에 붙이는 방법이전에는, 주변 visual context를 반영하였지만, 본 논문은 더 simple한 방식을 제안 - 충분히 좋은 성능을 보여준다고 함semi-supervised learning 가
github : https://github.com/czczup/vit-adapterinductive biases를 도입한 최신의 vision specific model들과 달리, ViT는 사전 지식이 부족하기 때문에 dense prediction이 어려움ViT