- 등장 배경
- 인코더의 마지막 은닉층에서는, 인코더의 모든 흐름에서 나온 정보를 우겨넣게 됩니다.
- LSTM으로 장기기억 소실 (Long Term Dependency)을 해결해도, 뒷쪽 타임 스텝에서 앞쪽의 정보를 잘 저장하지 못하는 현상이 발생하기도 했습니다. 이를 보완하기 위해 Attention이 등장하게 됩니다.
attention이란, Decoder가 각 time step에서 결과를 생성할 때, 몇 번째 time step을 더 집중(Attention)해야 하는 지를 스코어 형태로 나타낸 것입니다.
각 디코더의 타임 스텝마다 인코더의 hidden state vector 간의 유사도를 계산합니다.
그리고 인코더의 타임스텝들 중 몇 번째 타임 스텝에 속하는 hidden state vector가 더 중요한 정보를 담고 있는지 적절히 고려할 수 있게 됩니다.