Sequential Models - RNN (Boost Course DL Lecture 8)

박상우·2023년 1월 5일
0

Boost Course

목록 보기
6/7
post-thumbnail

Sequential Model

sequential data는 매우 익숙함
sequential data는 어디서 끝날지 모름 = 차원이 불분명
이는 CNN 등에서 사용하기 힘듬
가장 간단한 task는 이전 데이터를 이용해 다음 데이터를 예측
즉 과거의 정보량이 점점 늘어난다는 것

가장 쉬운 모델은 주목할 정보를 과거 n개 정보로 fix하는 것

Markov Model

현재는 과거의 정보에만 dependent
이는 많은 정보의 손실을 수반

Latent autoregressive model

과거의 정보를 요약하는 벡터 hidden state에 현재가 영향을 받음

RNN

recurrent 구조를 시간순으로 보면 입력이 굉장히 많은 FCN이라고 볼 수 있음
width가 굉장히 큰 구조

Short-term depedencies

RNN의 가장 큰 단점
과거의 정보들이 취합해서 고려 될 때 과거의 정보가 미래까지 살아남기 쉽지 않음

RNN의 또 다른 문제

현재로 온 hidden state는 결국 맨 처음 hidden state weighted 곱과 특정 값이 합해진 게 반복되는 값임
즉 많은 시간이 지나면서 정보의 의미가 없어지게 되는 것 (발산 or 소실)

LSTM

  • Input x
    t 시점에 들어온 인풋 데이터

  • hidden state
    output

  • cell state
    time t 까지에 들어온 정보를 summarize 하는 state
    (컨베이어 벨트)

  • forget gate
    decide which information to throw away
    무엇을 버릴지 정하는 gate
    Input x와 이전 output=hidden state가 input으로 사용

  • Input gate
    어떤 정보를 cell state에 올릴지 정하는 gate

  • Update cell
    forget gate에서 버리고, input gate에서 고른 정보로 cell state를 update

  • Output gate
    update된 cell과 Input x, 이전 output=hidden state를 통해 어떤 값을 output으로 내보낼지 정하는 gate

Gate를 통해 update하고 Input과 output을 조합

GRU

Gated Recurrent Unit

lstm에서 cell state가 없고, gate가 두 개인 형태

profile
세상아 덤벼라

0개의 댓글