Wa가 0일 때 기울기가 제일 크다
0일 때 기울기 ⇒ 0.25
기울기 손실
시그모이드 함수의 값은 0 ~ 1인데, 층이 깊어지면 입력층에 가까운 weight의 오차 기울기를 계산할 때 0 ~ 0.25 (시그모이드 기울기) 사이 값을 여러 번 곱하게 된다는 것이다
→ 오차가 크게 존재할 경우, 입력층에 가까운 층의 weight값은 업데이트가 이루어지지 않을 수 있다
⇒ ReLU
입력값이 음수면 0, 양수면 입력값 그대로 반환하는 함수
큰 값이 그대로 전달된다
기타 ReLU
초기에 Weight 값을 잘 주는 것이 좋음
RBM (Restrict Boltzmann Machine, 비지도 학습)
사전에 트레이닝을 시켜서 초기에 좋은 Weight값을 주는 방법
입력값만을 가지고 비지도 방식으로 사전학습을 통해 weight 초기값을 설정하는 방법
굉장히 무거운 계산량을 요구한다
Xavier (자비에 글로럿)
RBM의 무거운 계산량을 계선한 방법론
가중치의 분산은 데이터의 분포에 영향을 받고, 데이터의 분포는 데이터의 개수에 영향을 받는다는 가정 하에 제안된 방법
기존 Xavier 초기화에서 앞 층 노드 수를 2로 나눈 후 루트를 씌운 방식으로 Xavie에 비해 분모가 작기 때문에 활성화 함수 값들을 더 넓게 분포 시킨다
Xavier와 유사하지만 He는 입력 노드와 출력 노드의 개수를 모두 고려하지 않고 입력 노드 수만 고려한다는 점에서 차이가 있다
정말 유익하네요!