이 논문에서는 요약에 중점을 둔 다중 문서 표현을 위해 사전 학습된 훈련모델인 PRIMERA를 소개한다. PRIMERA는 문서의 정보를 연결하고 집계하여 인코더-디코더 트랜스포머를 사용하여 문서들의 입력 처리를 단순화하였다. self-attention에서 인풋 시퀀스
Big Bird 논문 리뷰