[논문 리뷰] Taking Notes on the Fly Helps Language Pre-Training (TNF)

우징어·2023년 9월 20일

LLM NLP transformer transformers 논문 리뷰

🚨 Abstract

🔑 Method

1. 노트 사전 구축

2. 노트 사전 유지 관리

논문 리뷰

목록 보기

1/43

🚨 Abstract

✅ Pre-training에서 희귀 단어에 대한 노트 사전을 생성하면 더 빠르고 안정적입니다.
✅ 노트 사전을 업데이트하고 유지하기 위한 노트 임베딩을 소개합니다.

🔑 Method

1. 노트 사전 구축

왼쪽 상자는 노트 사전의 도움을 받아 전방향 패스를 보여줍니다. 입력 단어 시퀀스에서 $w_2$ 는 희귀한 단어입니다.
그리고 $w_2$ 에서 비롯된 토큰 4와 5에 대해서 우리는 노트 사전에서 $w_2$ 의 값을 조회하고 토큰/위치 임베딩과 가중 평균을 계산합니다.
오른쪽 박스는 노트 사전을 어떻게 유지하는지를 보여줍니다.
모델의 forward pass 이후, $w_2$ 근처 단어의 문맥적 표현을 얻을 수 있으며, 이러한 표현에 대한 평균 풀링을 사용하여 현재 문장에서 $w_2$ 의 노트로 사용합니다.
그런 다음, $w_2$ 의 노트 사전 값에 현재 노트와 이전 값의 가중 평균을 통해 업데이트합니다.

2. 노트 사전 유지 관리

입력 토큰 시퀀스 $x = x_1, …, x_i, …, x_n$ 및 노트 사전에 모두 나타나는 희귀한 단어 $w$ 에 대해서, $x$ 내에서 $w$ 의 범위 경계를 $(s, t)$ 로 표시하며, 여기서 $s$ 와 $t$ 는 시작 위치와 끝 위치입니다.
$w$ 의 $x$ 에 대한 노트는 다음과 같이 정의됩니다.

Note(w,x)=\frac{1}{2k+t+1}\sum^{t+k}_{j=s-k}c_j

여기서 $c_j \in R^d$ 는 위치 $j$ 에서의 인코더 출력으로 $x_j$ 의 문맥적 표현으로 사용되며, $k$ 는 주변 토큰을 몇 개의 노트로 취할지와 그들의 embedding을 저장할 window 크기의 절반을 나타냅니다.

우징어

안녕하세요, AI를 좋아하는 AI 엔지니어입니다

다음 포스트

[논문 리뷰] Taking Notes on the Fly Helps Language Pre-Training (TNF)

논문 리뷰

🚨 Abstract

🔑 Method

1. 노트 사전 구축

2. 노트 사전 유지 관리

[논문 리뷰] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks (DAPT + TAPT)

0개의 댓글