Attention의 장점에 대해서 생각하고 설명
RNN 모델의 단점 2가지
장기 의존성(Long-term dependency)
Attention의 장점
Time-step마다 출력할 단어가 어떤 인코더의 어떤 단어 정보와 연관되어 있는지 => 어떤 단어에 집중(Attention)할 지를 알 수 있음
-> (전체 입력 문장을 전부 다 동일한 비율로 참고하는 게 아니라, 해당 시점에서 예측해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중(attention)해서 봄)
장기 의존성 문제 해결
-> 디코더가 인코더에 입력되는 단어 정보 모두 활용하기 때문
Transformer의 장점과 구조에 대해서 생각하고 설명
쿼리(Q)
- 디코더 블록의 Masked Self-Attention으로부터 출력된 벡터키(K)
, 밸류(V)
- 최상위(=6번째) 인코더 블록에서 사용했던 값