Motivation: transformer-based LM이 relevant information을 longcontext에서 어떻게 가져오는 지 보기위한 실험을 진행함.
retrieval head: the heads that redirect information from the input to the output
이에 대한 명칭을 retrieval head라고 명명함. retrieval head는 아래의 5가지 특징이 존재함
Niddle in the haystack 셋팅에서 “모델이 생성한 단어가 input정답에 있을 때, 어떤 head의 활성화 정도가 가장 크냐” (Intuitively, retrieval score represents a token-level recall rate of the most attended tokens by an attention head)
question과 answer 에 해당하는 k 를 관련없는 정보를 넣으며, 내부지식으로 답변할 수 없는 데이터를 사용한다. 20개의 다양한 length를 가지고, 다양한 위치에 답변을 넣어서 확인한다. 이때 모든 head의 retrieval score를 측정하고 0.1 이상의 점수를 갖는 head에 대해서 retrieval head로 간주한다. 전체 attention head중 약 5퍼센트 미만이 retrieval head가 된다.
전체 retrieval head에서 약 45-73% 는 활성화 되지 않고 다른 역할을 한다. 오직 3-6% 정도의 retrieval head의 score가 0.1 보다 높다.
retrieval head를 제거했을 때 와 random으로 제거했을 때 QA 실험결과