RNN Basic

mincheol2·2022년 1월 23일

AR모델 BPTT RNN 시퀸스데이터

AI_math

목록 보기

8/9

이 글은 부스트캠프 AI Tech 3기 강의를 듣고 정리한 글입니다.

RNN은 구조자체는 어렵지 않지만 왜 그렇게 해야하는지 수식을 통해 이해가 필요하다

시퀸스 데이터

시퀸스 데이터란

소리, 문자열, 주가 등 시간에 따라 변화하는 데이터를 시퀸스(sequence) 데이터라고 한다

시퀸스 데이터는 i.i.d(독립동등분포)가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다.

시퀸스 데이터는 이전의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다루기 위해 기본적으로 조건부 확률을 이용한다.

이처럼 조건부 확률을 이용하게 된다면 과거의 모든 정보를 사용하게 된다.
하지만 실제로 시퀸스 데이터를 분석할 때 과거의 모든 정보들을 사용 할 수 없다.

RNN(Recurrent Neural Network)

RNN의 등장

시퀸스 데이터를 다루기 위해서는 길이가 가변적인 데이터를 고정된 길이의 데이터로 다룰 수 있는 모델이 필요

AR(Autoregressive) 모델

고정된 길이 $\tau$ 만큼의 시퀸스를 사용하는경우 $AR(\tau)$ 라는 자기회귀 모델이 된다.

바로 이전 정보를 제외한 나머지 정보들을 $H_t$ 라는 잠재변수로 인코딩해서 활용하는
잠재AR모델이 활용될 수 있는데, 이때 $H_t$ 를 인코딩 할 때 RNN이 등장하게 된다.

이처럼 잠재변수 $H_t$ 를 신경망을 통해 반복해서 사용하여
시퀸스 데이터의 패턴을 학습하는 모델이 RNN이다.

RNN 이해

가변적인 길이의 데이터를 다루기 위해 잠재변수를 활용해 자기회귀적인 모형을 만들어서 모델링을 하게된다.

MLP

가장 기본적인 RNN 모형은 MLP와 유사하다.(2-Layer)

MLP의 경우 입력 $X$ 를 $W^{(1)}$ 과 선형결합 후 활성화함수를 씌운 잠재벡터 $H$ 에 다시 $W^{(2)}$ 를 곱해 출력되게 된다.
이때 $W^{(1)}$ 과 $W^{(2)}$ 는 시점 $t$ 에 상관 없이 모든 시점에서 동일한 값을 가지는 값이다.
그렇기 때문에 이 모델은 과거의 정보를 다룰 수 없다.

RNN

MLP와 다른점을 보면 $H_{t}$ term을 표현할 때 RNN은 새로운 벡터( $W_X^{(1)}, H_{t-1}, W_H^{(1)}$ 가 등장한다.

$W_X^{(1)}$ : 입력의 가중치
$H_{t-1}$ : 이전까지의 잠재변수
$W_H^{(1)}$ : 이전 잠재변수의 가중치

잠재변수인 $H_t$ 는 복제해서 다음순서의 잠재변수를 인코딩하는데 사용한다.
이때도 마찬가지로 가중치 $W_X^{(1)},W_H^{(1)},W^{(2)}$ 는 시점 $t$ 에 따라 변하지 않는 값이다.

시점 $t$ 에 따라 변하는 것은 오직 입력벡터 $X_t$ 와 잠재변수 $H_t$ 뿐이다.

BPTT(Backpropagation Through Time)

그림으로

RNN의 역전파는 잠재변수의 연결그래프에 따라 순차적으로 계산한다.

잠재변수들의 연결그래프에 따라서 순차적으로 계산되게 된다.
모든 시점의 그레디언트가 예측이 된 후에 마지막 시점에서부터 타고 올라와서 과거까지 그레디언트가 흐르는 방법이다.
그림에서는 빨색색이 역전파의 흐름이다.
그래서 잠재변수 $H_t$ 에 들어오는 그레디언트벡터는 2개로