sangyun.log
로그인
sangyun.log
로그인
[부스트캠프 Pre-Cource] 9. RNN
김상윤
·
2022년 7월 30일
팔로우
0
0
부스트캠프AI-PreCource
목록 보기
9/12
Sequential Model
sequential data
길이가 언제 끝날지 모른다.
-> input data의 차원을 알 수 없다.
-> conv layer 등 사용 불가
Naive sequence model
고려해야 하는 과거의 정보량이 계속 늘어난다.
Autoregressive model
고려해야 하는 과거의 정보량을 fix
Markov model (first-order autoregressive model)
바로 직전 과거의 정보만 예측결과에 영향을 미친다고 가정
많은 정보가 버려질 수 밖에 없다.
Latent autoregressive model
Latent state (Hidden state) 추가
: 직전보다 이전의 정보들을 (요약)포함한다.
Recurrent Neural Network (RNN)
현재 입력이 들어가고, 이전의 입력이 Recurrent되어 돌아온다
timestamp T에 : T-1에서 들어온 정보
T : T-1에서의 정보와 x(t)의 정보 합쳐져서 h(t) 나온다.
시간순으로 푼다.
Timestamp를 고정하고 시간순으로 풀면
-> 각각의 network parameter를 쉐어하는 굉장히 큰 하나의 Fully-Connected 네트워크라고 할 수 있다.
Short-term dependencies
한참 전의 정보는 현재에서 고려하기 힘들다.
Vanishing/Exploding gradient
매 단계의 W가 중첩되어 곱해진다.
activation func: sigmoid
: 정보가 죽어버린다.
Relu (activation func)
: 정보가 너무 커져버린다.
가장 기본적인 (vanilla) RNN
: 하이퍼블릭 tan 이용
LSTM : Long Short Term Memory
cell state
컨베이어 벨트 역할
이전까지 들어온 정보들을 요약
들어오는 정보를 요약하기 위한 조작 방법 (중요도 따져서)
: gate
gate
Forget Gate
: 어떤 정보를 버릴지 선택
Input Gate
: 어떤 정보를 올릴지(cell state에)
Update cell
: 정보를 cell에 올린다 (앞의 두 Gate 취합)
Output Gate
: Output 결정
GRU : Gated Recurrent Unit
김상윤
팔로우
이전 포스트
[부스트캠프 Pre-Cource] 8. CNN
다음 포스트
[부스트캠프 Pre-Cource] 10. Numpy
0개의 댓글
댓글 작성