인공신경망도 시작은 인간의 뇌를 모방하여 신경망의 형태를 나타내었지만, 꼭 항상 사람이나 동물의 뇌를 모방할 필요는 없다.
지금의 딥러닝 혹은 인공신경망이 ‘인간의 뇌를 모방하기 때문에 잘 작동한다’ 라는 해석보다는 이 모델이 왜 잘 작동하는지 수학적으로 분석하는 것이 더 옳다고 생각된다.
function approximators 와 함께 nonlinear transformations가 반복적으로 일어나는 모형을 인공신경망이라 한다.
Linear Neural Networks
Beyond Linear Neural Networks
네트워크의 층을 깊게 쌓기 위해서는 비선형 활성화 함수가 필요하다.
아래 그림의 네트워크는 W1과 W2의 곱으로 이루어져 있지만, 이것은 단순 행렬 곱이기 때문에 1단 짜리의 네트워크와 다를 것이 없다.
Multi - Layer Perceptron
항상 Loss function을 최소화 하는 것이 우리의 목적을 달성 시켜주지는 않는다. 예를 들어, MSE의 경우 데이터에 이상값이 존재할 경우 크게 영향을 받기 때문에 내가 원하는 function을 찾는데 도움이 되지 않을 수 있다.
분류 문제에서의 output은 onehot vector로 표현되며, Loss function으로는 일반적으로 cross entropy를 사용한다.
만약, 내가 찾고 싶은 라벨이 10개면 10차원의 벡터가 output으로 나타나며, 강아지를 찾고 싶을 경우 그에 해당하는 demention만 1이고 나머지는 0이 된다.
cross entropy를 minimize 한다는 것은 내 네트워크의 output 중에서 해당하는 label의 출력값만 높이는 것을 의미하며, 분류를 할 때 d개의 output 중 가장 큰 숫자를 가진 인덱스 만을 고려한다.