[CS231n]Weight lnitialization

ai_lim·2022년 2월 14일

CS231n 6강

가중치 초기화에 대해 알아보자

가중치 W를 0으로 초기화한다면?? gradient vanishing이 발생한다.

1. small random numbers

그래서 생각해낸 첫번째 아이디어가 랜덤의 작은 값들로 초기화하는 것이다.

평균이 0이고, 표준편차가 0.01인 randn을 발생시켜 W를 초기화한다.이것은 동작이 꽤나 잘되지만 네트워크가 깊어질수록 문제가 생긴다.

code

1. 10개의 레이어, 각각은 500개의 노드를 가지고 있고 활성화 함수는 tanh 이다.

2. 가중치를 랜덤의 작은 값들로 초기화시켜주었다.

3. 그러고나서 레이어마다 평균과 표준편차를 구해주고 그래프를 그리고 분포를 히스토그램으로 표현해준 코드이다.

결과를 보니 평균과 표준편차가 0으로 모두 수렴한다. 표준편차가 0으로 수렴하니 히스토그램도 가운데로 몰린다. 그렇게되면 모든 activation이 0이 되어 vanishing gradient가 되는 문제가 발생한다.