CNN feature map(ResNetV2) 적용
그냥 이미지 패치들을 사용하는 것 대신 Input sequence는 CNN의 feature map으로 사용할 수도 있는데, 이 하이브리드 모델에서 패치 임베딩 projection EE는 CNN feature map으로부터 뽑아낸 패치들에 적용된다.
WordLevel -> BPE
이전에는 단순히 WordLevel Tokenizer를 사용해 white space를 기준으로 latex를 토큰화하였다. latex는 띄어쓰기를 하지 않아도 인식이 되기 때문에 이는 적합하지 않은 방법이라 판단하였다. 따라서 BPE를 통해 tokenizer를 학습하였다.
기존에는 사이즈 상관없이 순서대로 batch_size 만큼 잘라서 batch를 만들지만, 같은 height와 width의 이미지끼리 묶어 batch화하였다. NLP에서 자주 볼 수 있는 Bucketing 기법과 유사하다.
+) 새로 수집한 5만개의 추가 데이터 활용