Google Research | NIPS 2017 > Transformer > Multi-Headed Self-Attention > Trains faster than architectures based on recurrent/convolutional layers 📎 Paper: https://arxiv.org/abs/1706.03762 Attention Mechanism Attention: 주어진 Query에 대해 모든 Key와의 유사도를 구한 후, 각 유사도를 기반으로 한 가중치(Attention weight)를 대응하는 Value에 반영한 것이다. Attention weight를 구하는 방식에 따라 dot-product attention, Bahdanau attention 등 다양한 attention mechanism이 존재한다.
Facebook AI | ECCV 2020 > DETR (DEtection TRansformer) > - Object detection as a direct set prediction problem > - Set-based global loss, bipartite matching > - Transformer encoder-decoder architecture, N object queries 📎 Paper: https://ai.facebook.com/research/publications/end-to-end-object-detection-with-transformers 🧑🏻💻 Code: [https://github.com/facebookresearch/detr](https://github.co
Google Research, Brain Team | ICLR 2021 > Vision Transformer (ViT) > - Image classification 태스크에 Transformer 구조를 적용하였다. > - Image를 sequence of patches 형태로 변환하여 입력으로 사용하였다. > - Inductive bias가 적고, large dataset에 pre-train 할수록 성능이 좋아진다. > - CNN에 비해 computational cost 가 작다. 📎 Paper: https://arxiv.org/abs/2010.11929 🧑🏻💻 Code: https://github.com/google-research/vision_transformer 🤗 PyTo
Microsoft Research Asia | ICCV 2021 > General-purpose Transformer backbone for Computer Vision > - Hierarchical feature maps ← Patch Merging > - Linear computational complexity to image size ← Shifted Window-based MSA 📎 Paper: https://arxiv.org/abs/2103.14030 🧑🏻💻 Code: https://github.com/microsoft/Swin-Transformer *논문에서 발췌한 figure를 제외한 그림들은 제 이해를 바탕으로 직접 묘사한 것으로 오류가 있을 수 있습니다. -