논문들을 보다보니 감정 분석을 하는데 있어 트랜스포머보다 RNN, LSTM 계열을 통한 시계열 모델을 쓰는 경우가 많은 것 같다. (논문은 트랜스포머가 나온 2017년 이후 논문에서도 마찬가지..)
트랜스포머는 시계열 관련해서 굉장히 좋은 성능을 보이지만 다른 이유가 있을 거라 생각해서 조금 참고한 것들 기반으로 계속해서 공부해가며 써내려갈 생각이다.
RNN 장점
제한되지 않은 temporal context window를 통해 임의의 temporal context를 처리할 수 있다.
attention에 비해 sequnece length가 길어지더라도 computation cost가 상대적으로 덜하다
RNN 단점
정보를 저장할 때 고정된 차원을 사용함으로써 정보 손실이 발생한다.
길이가 길어질수록 gradient vanishing 문제가 생긴다.
attention 장점
이전 정보를 전파하지 않고 직접적으로 필요한 정보에 접근함으로써 장기적인 상황을 처리할 때 더 유용하다.
위의 결과로 gradient vanishing 문제를 피할 수 있다.
attention 단점
sequence의 길이에 따라 cost 및 성능이 제곱으로 늘어날 수 있다.
제한된 temporal context window사용으로 인해 모델이 입력 데이터의 일부만을 고려하고 해당 window 내에서만 attention하는 것을 의미함으로써 성능을 저하시킬 수 있다.
결과적으로 트랜스포머는 먼 미래를 예측하거나 window가 길 때 유리하고, 짧은 미래나 w가 짧을 경우 LSTM 계열이 아직 유의미한 것으로 보인다.
유익한 글이었습니다.