2. Neural Networks - MLP

유승우·2022년 5월 11일

4 week DL Basic 부스트캠프 AI Tech 3기

0

인공신경망

인공신경망도 시작은 인간의 뇌를 모방하여 신경망의 형태를 나타내었지만, 꼭 항상 사람이나 동물의 뇌를 모방할 필요는 없다.
지금의 딥러닝 혹은 인공신경망이 ‘인간의 뇌를 모방하기 때문에 잘 작동한다’ 라는 해석보다는 이 모델이 왜 잘 작동하는지 수학적으로 분석하는 것이 더 옳다고 생각된다.
function approximators 와 함께 nonlinear transformations가 반복적으로 일어나는 모형을 인공신경망이라 한다.

Linear Neural Networks

Linear regression은 입력이 1차원이고 출력이 1차원일 때 이 두개를 연결하는 모델을 찾는 것.
선형이기 때문에 기울기와 절편이라는 parameter를 찾는 모형
주로 선형회귀에서의 Loss function 은 MSE를 사용

w와 b라는 parameter를 찾는 방법은 여러가지가 있음
역전파를 이용하여 Loss function을 줄이는 것을 목표로 parameter를 update한다.
parameter의 update는 Loss fucntion을 각각의 parameter(선형 회귀에서는 w와 b)로 편미분 한 값을 찾아서 현재의 parameter에 적절한 값(학습률)을 곱해서 빼주는 방식으로 최적의 parameter를 찾는다. (gradient descent)

학습률이 너무 높거나 작으면 학습이 잘 이루어지지 않기 때문에, 적절하게 조절해줘야 할 필요가 있다.

Beyond Linear Neural Networks

네트워크의 층을 깊게 쌓기 위해서는 비선형 활성화 함수가 필요하다.
아래 그림의 네트워크는 W1과 W2의 곱으로 이루어져 있지만, 이것은 단순 행렬 곱이기 때문에 1단 짜리의 네트워크와 다를 것이 없다.

하지만 비선형 함수를 이용한다면 x와 y간의 mapping의 표현을 극대화 시킬 수 있다

어떤 Nonlinear function을 사용할지는 상황과 문제마다 따라 다르지만, Nonlinear function을 사용해야지만 네트워크를 깊게 쌓았을 때 의미가 있다고 할 수 있다.

Multi - Layer Perceptron

입력이 주어져 있고 여러 개의 hidden layer와 출력으로 이루어져 있는 것을 Multi - Layer Perceptron 이라 한다.

항상 Loss function을 최소화 하는 것이 우리의 목적을 달성 시켜주지는 않는다. 예를 들어, MSE의 경우 데이터에 이상값이 존재할 경우 크게 영향을 받기 때문에 내가 원하는 function을 찾는데 도움이 되지 않을 수 있다.
분류 문제에서의 output은 onehot vector로 표현되며, Loss function으로는 일반적으로 cross entropy를 사용한다.
만약, 내가 찾고 싶은 라벨이 10개면 10차원의 벡터가 output으로 나타나며, 강아지를 찾고 싶을 경우 그에 해당하는 demention만 1이고 나머지는 0이 된다.
cross entropy를 minimize 한다는 것은 내 네트워크의 output 중에서 해당하는 label의 출력값만 높이는 것을 의미하며, 분류를 할 때 d개의 output 중 가장 큰 숫자를 가진 인덱스 만을 고려한다.

이전 포스트

7-1. Custom Matplotlib Teme

다음 포스트

3. Optimization

0개의 댓글