[논문리뷰] Attention Is All You Need

Google Research | NIPS 2017 > Transformer > Multi-Headed Self-Attention > Trains faster than architectures based on recurrent/convolutional layers 📎 Paper: https://arxiv.org/abs/1706.03762 Attention Mechanism Attention: 주어진 Query에 대해 모든 Key와의 유사도를 구한 후, 각 유사도를 기반으로 한 가중치(Attention weight)를 대응하는 Value에 반영한 것이다. Attention weight를 구하는 방식에 따라 dot-product attention, Bahdanau attention 등 다양한 attention mechanism이 존재한다.

2023년 4월 10일
·
0개의 댓글
·