Introduction Transfomer는 2017년 Attention is all you need 라는 제목의 논문에서 발표된 모델로, (제목을 보면 알 수 있듯) Attention을 활용한 모델이다. Transformer 모델은 기존의 RNN, LSTM, Seq2
위 사진(트랜스포머 아키텍처)의 Input Embedding부터 알아보도록 하자. Input embedding 이 때 문장들이 인코더에 들어가기 위해서 어떻게 해야할까? 바로 임베딩 알고리즘을 이용해 벡터로 변환해야한다. 본 논문에서 각 단어들은 크기가 512인
이전 게시글에서는 positional encoding에 대해 설명했다. 이제 얼마 안남았다 아자아자 안화이팅. 킹무튼 위의 트랜스포머 아키텍처에 따르면, positional encoding까지 더해진 input vector들은 encoder block의 sub-la
Residual connection, Normalization 인공신경망을 학습할 때 깊은 모델이 더 좋은 성능을 낼 것이라 생각할 수 있는데, 일정 깊이에 도달하면 오히려 정확도가 감소하는 경향을 보인다. (deep residual learning for image
지금까지 encoder 쪽의 대부분의 개념들에 대해서 얘기했다. 디코더는 인코더와 마찬가지로 6개의 스택으로 이주어지고, 각 디코더는 Masked Multi-head attention mechanism, Multi-head attention mechanism, fee