[딥러닝] 인공 신경망 (ANN : Artifical Neural Network)

JaeYoung Seon·2022년 7월 26일

딥러닝

목록 보기

3/5

0. Intro

오늘은 인간의 뇌에서 영감을 얻은 학습 알고리즘인 인공 신경망 (Artifical Neural Network. ANN)에 대해 알아보겠습니다.

ANN ('A'를 빼고 'NN'이라고 부르기도 합니다)을 사용하면 선형 회귀 뿐만 아니라 비선형 회귀 (non-linear regression)까지 표현할 수 있기 때문에 많은 분야에 이용됩니다.

공부 소스 : 혁펜하임의 "꽂히는" 딥러닝 (Youtube)

1. 🧠 신경망 (Neural Network)이란?

위 그림은 신경 세포의 구조입니다. (생명과학 PTSD..)

여기서 구체적인 구조는 이해하지 않으셔도 됩니다. 단지 "하나의 신경 세포에 자극이 주어지면, 신경 전달 물질을 다음 신경 세포로 넘겨준다!"라는 것만 이해하시면 충분합니다.

이렇게 생긴 신경 세포가 다발을 이룬 것을 신경망이라고 합니다.

파블로 피카소의 '소'

피카소는 소 그림을 '구체적인 형태'에서 출발하여 점점 "특징적이고 단순한 형태"로 그렸습니다.
이처럼 신경망은 무언가 특징적인 요소를 입력으로 받아서 적절한 처리를 한 뒤 다음 신경에 넘겨주게 됩니다.

2. 신경망 (NN)을 통한 선형 회귀 표현

앞선 포스트에서 정의한 것처럼 주어진 데이터셋을 가장 잘 표현하는 함수가 $y=ax+b$ 라고 가정해봅시다.
그러면 행렬 곱으로 다음과 같이 표현할 수 있습니다.

$\begin{bmatrix}x_1&1\\x_2&1\\\vdots\end{bmatrix}\begin{bmatrix}a\\b\end{bmatrix}\approxeq\begin{bmatrix}y_1\\y_2\\\vdots\end{bmatrix}$

이때 행렬 $\begin{bmatrix}x_1&1\\x_2&1\\\vdots\end{bmatrix}$ 의 값은 순차적으로 신경망 (NN)의 입력으로 들어가고, 여기에 적절한 값 $a,b$ 를 곱하게 됩니다.
그 값이 최대한 $y_1,y_2,\cdots$ 에 가까워지도록 하는 $a,b$ 를 찾는 것이 목표입니다.

이 구조를 그림으로 살펴볼까요?

이때 $x_1,x_2,\cdots$ 와 $y_1,y_2,\cdots$ 는 이미 알고 있는 값입니다.

목표값 $y_1,y_2,\cdots$ 와 실제 데이터 간의 차이, 즉 오차를 Cost라고 하는데, cost를 최대한 줄이는 것이 핵심입니다.

$cost=\sum_i(y_i-(ax_i+b))^2$

신경망 중에서는 입력의 개수가 엄청나게 많은 경우도 있고, 그에 따라 찾아야 하는 $a,b$ 와 같은 미지수가 셀 수 없이 많아질 수 있습니다.
따라서 앞으로는 기존 값에 곱해지는 값 $a,b$ 를 가중치 (Weight)라고 칭할 것이며, 기호로 $w_1,w_2,...$ 과 같이 표현하겠습니다.

또한 앞에서 말했듯이 한 신경의 결과가 다른 신경의 입력으로 들어가기 때문에 "몇 번째 신경망을 거쳐가는지"에 대한 layer가 존재합니다.
몇 번째 layer의 가중치인지 표현하기 위해 $w_1^{(1)}, w_2^{(2)}$ 와 같이 표기하겠습니다.

$w_2^{(1)}$ - 1번 layer의 2번 가중치
$w_3^{(2)}$ - 2번 layer의 3번 가중치

📒 여러 가지 선형회귀 식

NN을 통해 다양한 선형 회귀를 표현할 수 있습니다.

$y=ax+b$ 는 아까 했으니 넘어가고, 4개의 식을 NN으로 표현해보겠습니다.

$y=ax^2+bx+c$

$y=ax+b$ 와 행렬 구성만 다를 뿐, 표현하는 방식은 비슷합니다.
이 식을 행렬 곱으로 표현하면 다음과 같습니다.

$\begin{bmatrix}x_1^2&x_1&1\\x_2^2&x_2&1\\\vdots\end{bmatrix}\begin{bmatrix}a\\b\\c\end{bmatrix}\approxeq\begin{bmatrix}y_1\\y_2\\\vdots\end{bmatrix}$

따라서 다음과 같이 NN으로 표현이 가능합니다.

❗ 주의할 점
꼭 함수가 linear해야만 linear regression이 성립되는 것은 아닙니다. $x,y,z$ 가 아닌, 파라미터 $a,b,c$ 에 대해 linear해야 linear regression이 성립하는 것입니다.
('행렬 x 벡터' 형태로 표현할 수 있는 것은 모두 linear합니다)
$y=ax^2+bx+c$ 의 경우, $x$ 에 대해서는 non-linear한 식이지만 $a,b,c$ 에 대해서는 linear한 식입니다.

$y=ax^b$

이 함수는 앞의 다른 함수와는 다르게 접근해야 합니다.

먼저 양변에 자연로그 $\ln$ 을 취하면
$\ln y=\ln a+b\ln x$

이때 $\ln y$ 를 $\tilde y$ (tilde y)로, $\ln a$ 를 $\tilde a$ 로, $\ln x$ 를 $\tilde x$ 로 치환해봅시다.

$\tilde{y}=b\tilde{x}+\tilde{a}$

어디서 많이 보지 않았나요?
처음에 다뤘던 $y=ax+b$ 와 동일한 형태가 되었습니다!

다시 이를 행렬 곱으로 표현하면,
$\begin{bmatrix}\tilde{x_1}&1\\\tilde{x_2}&1\\\vdots\end{bmatrix}\begin{bmatrix}b\\\tilde{a}\end{bmatrix}\approxeq\begin{bmatrix}\tilde{y_1}\\\tilde{y_2}\\\vdots\end{bmatrix}$

즉, 파라미터 $\tilde a, b$ 에 대해 linear한 상태가 되었습니다.

이처럼 "원 형태 그대로는 linear하지 않지만, 어떠한 조치를 취하면 linear한 상태가 되는 함수"를 ⭐선형화 가능한 (linearizable)⭐ 함수라고 합니다.

$y=\frac{e^{ax^2+bx+c}}{1+e^{ax^2+bx+c}}$

이 함수 역시 linearizable한 함수입니다.

$\frac{y}{1-y}$ 로 함수의 형태를 바꿔봅시다.
$\frac{y}{1-y}=\frac{\frac{e^{ax^2+bx+c}}{1+e^{ax^2+bx+c}}}{\frac{1}{1+e^{ax^2+bx+c}}}=\frac{e^{ax^2+bx+c}(1+e^{ax^2+bx+c})}{1+e^{ax^2+bx+c}}=e^{ax^2+bx+c}$

이때 양변에 자연로그 $\ln$ 을 취하면
$\ln(\frac{y}{1-y})=ax^2+bx+c$

여기서 $\ln(\frac{y}{1-y})$ 를 $\tilde y$ 로 치환하면 $y=ax^2+bx+c$ 와 동일한 형태가 되고, linear한 함수가 됩니다.

행렬 곱으로 표현하면
$\begin{bmatrix}x_1^2&x_1&1\\x_2^2&x_2&1\\\vdots\end{bmatrix}\begin{bmatrix}a\\b\\c\end{bmatrix}=\begin{bmatrix}\tilde{y_1}\\\tilde{y_2}\\\vdots\end{bmatrix}$

$y=\frac{ax}{b+x}$

이 함수는 어떤 짓을 해도 linear한 함수로 만들 수 없습니다.
따라서 non-linear regression에 해당합니다.

3. "Deep" Neural Network (DNN)

$y=\frac{ax}{b+x}$ 과 같은 non-linear regression을 해결하기 위해 뉴런 (신경망의 개별 요소)을 여러 개 연결하여 말 그대로 신경망 자체를 "deep"하게 만드는 것이 가능합니다.

출처 : IBM

즉, 하나의 뉴런에서 입력을 처리한 뒤 바로 출력으로 내보내지 않고, 다른 뉴런의 입력으로 사용하는 것을 말합니다.

하지만 무조건 "Deep"하다고만 해서 non-linear regression을 풀 수 있는 것은 아닙니다.

예를 들어 다음과 같은 신경망이 있다고 가정해보죠.

이 신경망을 하나의 식으로 작성하면 다음과 같이 표현할 수 있습니다.
$(w_1^{(1)}+w_2^{(1)}x_1)w_2^{(2)}+w_1^{(2)}$

이를 다시 쓰면
$w_2^{(1)}w_2^{(2)}x_1+w_1^{(1)}w_2^{(2)}+w_1^{(2)}$

이 식은 $a=w_2^{(1)}w_2^{(2)}, b=w_1^{(1)}w_2^{(2)}+w_1^{(2)}$ 인 $y=ax+b$ 함수와 동일한 형태가 됩니다.
따라서 이 함수 역시 linear regression이 되는 것입니다.

4. 💥 활성화 함수

지금까지는 한 뉴런에서 다른 뉴런으로 값을 보낼 때 아무런 처리도 하지 않고 그대로 보냈습니다.

하지만 실제로는 특별한 처리를 한 뒤에 다른 뉴런으로 보냅니다.

이 "특별한 처리"는 활성화 함수 (Activation Function)를 통해 이루어지는데, 지금까지는 이 활성화 함수가 $y=x$ 였기 때문에 입력값이 그대로 출력값으로 전달되는 것이었고, 이제부터는 활성화 함수를 새롭게 정의하여 출력값에 변화를 줄 것입니다.