github : https://github.com/czczup/vit-adapter
inductive biases
를 도입한 최신의 vision specific model들과 달리, ViT
는 사전 지식이 부족하기 때문에 dense prediction이 어려움ViT-Adapter
제안pretraining-free adapter
사용adpater
는 이미지 기반의 inductive bias(위치 정보)
를 모델에 넣어주는 역활ViT-Adapter
는 segmentation, detection 등 다양한 downstream task에서 좋은 성능을 보여줌
ViT-Adapter
가 vision-specific transformer들의 대체제가 되기를 바람
Plain ViT
에 adapter
도입spatial prior module
, (2) spatial feature injector
, multi-scale feature extractor
💥핵심💥
ViT
ViT-Adapter
: spatial prior module, spatial feature injector, multi-scale feature extractor로 구성역할 : 입력 이미지에서 공간정보 추출
역할 : ViT
에 추출한 공간정보 주입
attention
하여 ViT에 보내줌역할 : ViT
의 feature를 multi-scale로 변환
(ViT의 각 block은 같은 크기의 feature 추출 -> 다양한 크기의 feature 학습 불가)
cross attention
, FFN
(-> down sampling 진행)구성
저도 개발자인데 같이 교류 많이 해봐요 ㅎㅎ! 서로 화이팅합시다!