신경망 구조를 사용해서 데이터를 학습하고 추론한다.
학습: 손실함수 값을 줄이는 방향으로 가중치를 개선하는 것
추론: 학습이 된 신경망에 데이터를 입력하여 분류, 회귀하는 것
교차 엔트로피와 소프트맥스가 같이 있는 layer는 역전파 값이 깔끔하게 떨어진다.
항등함수와 MSE도 마찬가지이다.
Chain rule
손실함수를 통해 신경망의 추론값과 정답의 차이를 이용해 가중치를 개선할 때, 가중치에 대한 손실값의 기울기를 구한다. 수치 미분과 역전파를 통해 구현할 수 있다. 수치 미분은 구현하기 편한 대신에 자원을 많이 소모하며, 역전파는 보다 적은 시간으로도 기울기 계산에 용이하다. 수치미분과 역전파의 결과는 컴퓨터에 의한 계산 오류를 제외하면 이론상 같다.
신경망의 표현력을 저하하지 않으면서 기울기 소실을 막을 수 있는 적절한 초기값을 필요로 한다. Xavier와 He는 이전 layer의 노드 개수에 반비례하는 표준편차를 갖도록 초기값을 설정한다.