Add & Norm 블록에 왜 두개의 input 브랜치가 필요한가

hur-kyuh-leez·2024년 1월 31일
0

트랜스포머

목록 보기
7/11

Gradient Normalization(Norm):
Gradient normalization rescales the gradients to have a fixed norm, such as unit norm or a desired norm. This can prevent the gradients from becoming too large or too small, and maintain a consistent scale across different layers or parameters. It can also help regularize the model and reduce overfitting by preventing the gradients from being dominated by a few large components.

Add & Norm에서 들어오는 두개의 Branch 필요한 이유는 vanishing or exploding gradient problem을 방지 하기 위해서 이다. 그래서 이전 블록에서 들어온 거 뿐만 아니라, 이전 블록에서 input으로 받은 것도 포함하여 2개의 브랜치가 들어오는 것 이다.

stackoverflow

profile
벨로그에 생각을 임시로 저장합니다. 틀린건 틀렸다고 해주세요 :) 그래야 논리 학습이 강화됩니다.

0개의 댓글