밑바닥부터 시작하는 딥러닝 - 6장

Jajuna_99·2022년 9월 11일

밑바닥부터 시작하는 딥러닝

목록 보기

7/9

물론 우리가 학습하는데 관련 기술들이 아니라, 딥러닝 학습에 관련된 기술들을 챕터이겠다. ^오^

신경망의 학습 목표는 손실 함수의 값을 가능한 최대한 낮추는 매개변수를 찾는 것이다. -> 다시말해 최적의 매개변수를 찾는 것이 목표이고, 이를 최적화(optimization)이라 한다.

SGD
최적의 매개변수 값을 찾는 방법으로 매개변수의 기울기(미분)를 이용했고, 확률적 경사 하강법(stochastic gradient descent, SGD)을 채택했었다.

모맨텀, Momentum

AdaGrad

학습률을 정하는 효과적 기술로 학습률 감소(learning rate decay)가 있다. -> 학습을 진행하면서 학습률을 점차 줄여가는 방법
- 학습률을 서서히 낮추는 간단한 방법으로 매개변수 '전체'의 학습률 값을 일괄적으로 낮추는 것이다. -> 이 방법의 발전된 형태가 AdaGrad이다.
수식과 의사코드(수도코드)는 p.197에 있다.

Adam

공이 그릇 바닥(작가님이 그릇 바닥이라는 표현을 쓴다.) 구르는 듯한 움직임의 momentum과 매개변수의 원소마다 적응적으록 갱신 정도를 조정하는 방법의 AdaGrad 융합한 형태가 Adam이다.
의사코드(수도코드), 시각화된 그래프는 p.200에 있다.

이 외에 각각의 기법들을 시각화해보고 비교해보면서 절대적으로 '올바른' 최적화 방법은 없고 문제들마다 최적화 방법이 다르다고 말한다.

가중치 감소, weight decay

가중치 매개변수의 값이 작아지도록 학습하는 방법이다. -> 가중치 값을 작게하면 오버치팅이 일어나지 않게 된다.
- 가중치를 모두 0으로 만들면 순전파 가중치가 0이기 때문에 층수와 상관없이 모두 같은 값이 전달된다.

위에 이유들 때문에 가중치 초깃값은 무작위로 설정해야 한다.

표준편차가 1인 정규분포와 0.01인 신경망으로 활성화값들의 분포를 관찰하는 실험을 했는데 각각 기울기 소실(gradient vanishing)문제와 표현력 제한 문제가 생긴다. (p.204)

Xavier 초깃값

앞 계층의 노드가 n개라면 표준편차가 (1/n)^1/2 인 분포를 사용하는 초깃값 (p.206) 앞에 실험들보다 활성화 값들이 넓게 분포 됐다. -> 활성화 함수가 선형인 것이 전제이다.

He 초깃값

앞 계층의 노드가 n개라면 표준편차가 (2/n)^1/2 인 분포를 사용하는 초깃값 (p.207) ReLU는 음의 영역이 0이라서 더 넓게 분포시키기 위해 Xavier 초깃값보다 2배의 계수가 필요하다고 볼 수 있다.
이후 MNIST 데이터셋으로 가중치 초깃값들을 비교하는 실험을 해본다. (p.209)

각 층이 활성화를 적당히 퍼뜨리도록 강제해보자는 아이디어에서 나온 기법이 배치 정규화(batch normalization)이다.

배치 정규화는

배치 정규화의 예시와 수식은 (p.211)에 있다.

오버피팅, over fitting

가중치 감소, weight decay

드롭아웃, dropout

(p.220)에 의사코드와 시각화된 결과값들이 있다.

기계 학습의 앙상블 학습(ensemble learning)에 대해서도 약간 설명해준다. (p.221)

하이퍼파라키터는, 각 층의 뉴런 수, 배치 크기, 매개변수 갱신 시의 학습률과 가중치 감소 등 설정이 필요한 변수들을 얘기한다. 이런 값들은 당연히 중요하고 최적의 값을 찾는 방법 또한 알아야 하겠다.

여태껏 훈련 데이터와 시험 데이터를 사용해 학습 했었는데, 하이퍼파라미터 성능을 평가할 떄는 시험 데이터를 사용하면 안된다. (시험 데이터에 오버피팅 되기 때문에)
그래서 검증 데이터(validation data)를 따로 만들어 사용한다. (훈련 데이터 중 20% 정도 분리 해서 만든다.) (코드 p.223)
이 하이퍼파라미터 값 최적화의 핵심은 '최적 값이 존재하는 범위를 조금씩 줄여가는 것이다.'
- 범위를 조금씩 줄이려면 우선 대략적인 범위를 설정하고 그 범위에서 무작위로 하이퍼파라미터 값을 골라내 후(샘플링) 후, 그 값으로 정확도를 평가하는 것이다.
- '대략적으로' 지정하는 것이 효과적이다. 시간이 매우 오래 걸리기 때문에 학습을 위한 에폭을 작게 하여, 1회 평가에 걸리는 시간을 단축하는 것도 효과적이다.

하이퍼파이미터 최적화 프로세스