Google Research | NIPS 2017 > Transformer > Multi-Headed Self-Attention > Trains faster than architectures based on recurrent/convolutional layers 📎 Paper: https://arxiv.org/abs/1706.03762 Attention Mechanism Attention: 주어진 Query에 대해 모든 Key와의 유사도를 구한 후, 각 유사도를 기반으로 한 가중치(Attention weight)를 대응하는 Value에 반영한 것이다. Attention weight를 구하는 방식에 따라 dot-product attention, Bahdanau attention 등 다양한 attention mechanism이 존재한다.