Sparse Attention 이란?

Juheon Oh·2023년 1월 6일
0

DiNAT 논문리뷰에 나오는 Sparse-Attention에 대해 보충 설명한 글입니다.

Sparse Attention 기반 모델은 긴 시퀀스 데이터를 더 효율적으로 학습 가능

Motivation

  1. Global Context가 필요하고 긴 시퀀스 Token을 활용해야 하는 경우
  2. Self-Attention을 사용한다면 계산량이 엄청남
    • ex) 대용량 문서 처리

Sparse Attention을 이용


Limitations

  • Sparse-Attention 기반 모델은 Swin에 비해 계산량⬆️, 처리량⬇️
  • Self-Attention에 Non-Local, Sparse한 규제를 주는 연구가 Hierarchical Transformer에서는 잘 연구되지 않았음

Conculsion

  • Hierarchical Transformer에 Local Receptive Field를 넓히고 Global Context를 재도입하기 위해서 DiNA를 제안
  • DiNA는 Sparse, Global 연산을 할 수 있고 Local 전용 연산으로 Neighborhood Attention과 같이 사용될 때 가장 효율적으로 작동

0개의 댓글