Sparse Attention 이란?

Juheon Oh·2023년 1월 6일

Attention Deep Learning DiNAT

0

DiNAT 논문리뷰에 나오는 Sparse-Attention에 대해 보충 설명한 글입니다.

Sparse Attention 기반 모델은 긴 시퀀스 데이터를 더 효율적으로 학습 가능

Motivation

Global Context가 필요하고 긴 시퀀스 Token을 활용해야 하는 경우
Self-Attention을 사용한다면 계산량이 엄청남
- ex) 대용량 문서 처리

Sparse Attention을 이용

Limitations

Sparse-Attention 기반 모델은 Swin에 비해 계산량⬆️, 처리량⬇️
Self-Attention에 Non-Local, Sparse한 규제를 주는 연구가 Hierarchical Transformer에서는 잘 연구되지 않았음

Conculsion

Hierarchical Transformer에 Local Receptive Field를 넓히고 Global Context를 재도입하기 위해서 DiNA를 제안
DiNA는 Sparse, Global 연산을 할 수 있고 Local 전용 연산으로 Neighborhood Attention과 같이 사용될 때 가장 효율적으로 작동

OJH

이전 포스트

Local Attention 이란?

다음 포스트

Airflow 소개 및 환경 설정

0개의 댓글