5.4 정규화(2) 가중치 감소

꼼댕이·2023년 6월 23일
0

딥러닝 교과서

목록 보기
8/11

가중치 감소 (wieght decay)

최적화 할 때는 다루는 숫자의 크기가 작을수록 오차의 변동성이 낮아져 파라미터 공간이 원점 근처에 있을 때 정확한 해를 빠르게 찾을 수 있다.

그래서 직선의 방정식 wTx+b=0w^Tx+b=0를 표현할 때, 가중치와 편향이 작은게 좋다.

가중치 감소(weight decay)는 학습과정에서 작은 크기의 가중치를 찾는 기법이다.

적용방식

크기를 제한하는 제약 조건으로써 손실함수의 일부항에 표현할 수 있다.

가중치의 크기를 표현하는 정규화 항을 더하면, 최적화 과정에서 원래의 손실함수와 함꼐 정규화 항도 같이 최고화 되므로, 크기가 작은 가중치 해를 구할 수 있다.

J~(w)=J(w)+λR(w)\tilde{J}(w)=J(w) + \lambda R(w)

J~(w)\tilde{J}(w): 손실함수 확장
J(w)J(w): 손실함수
λR(w)\lambda R(w): 정규화
λ\lambda: 정규화 상수

λ\lambda가 커질수록 정규화 항의 비중이 커지면서 가중치 크기는 작아지고,
λ\lambda가 작아질수록 정규화 항의 비중이 작아져 가중치 크기는 커진다.

R(w)R(w)는 가중치의 크기를 나타내는 노름으로 정의한다.

보통: L2 normL_2\ norm, L1 normL_1\ norm
회귀: L2 normL_2\ norm 사용 = Ridge, L1 normL_1\ norm 사용 = Lasso

가중치의 사전 분포와 노름

가중치의 사전분포가

  • Gaussian distribution: L2 normL_2\ norm
  • Laplace distribution: L1 normL_1\ norm
profile
사람을 연구하는 공돌이

0개의 댓글