하루 종일 Attention is All You Need 논문을 잡고 있었다.
트랜스포머를 5번 정도 학습했었는데, 보면 볼 수록 새로운 내용이 나온다.
특히 논문 리뷰를 하면서 새로운 내용이 많이 나온다.
실험적으로 나온 내용을 설명하다보니 암기에 가까운 내용이 많아서 그런 것 같다.
특히 Positional Encoding이 와닿지 않았다.
왜 sinusoid를 채택했는지, 지수의 밑은 왜 10000인지, 왜 인지 등
이해하기 힘든 부분이 대다수였다.
어떤 사고과정과 실험을 거쳐서 저런 복잡한 함수를 채택했는지 설명이 있으면 좋을 것 같다.
Positional Encoding을 더 이해하고 싶어서 나름대로 분석해봤다.
Attention is All You Need 논문 리뷰
이 부분에서 혼자 식을 풀어보면서 3~4시간 고민했는데, 다른 블로그 설명에는 명쾌하게 접근했다.
후회하지는 않지만, 고민 과정을 빠르게 해결하고 싶다.