World Model

김지예·2023년 4월 4일

world model

AI / 머신러닝 / 강화학습

목록 보기

4/4

외부에 진실이 있다고 하더라도 그것을 내부에서 어떻게 표상할 것인가에 따라 우리의 인지와 판단이 달라진다는 것을(Mental Model) 전제로 월드모델이 나타났다.

World Model 월드모델

월드모델 background

RNN 같은 경우, 사이즈가 커지게 되면 hyperparameter 숫자가 많아지면서 트레이닝 하기 어렵고 vanishing gradient (학습한 것을 잊어버림) 문제가 발생한다.
에이전트가 지속적으로 running 할 때, 강화학습 같은 경우 credit assignment 문제가 심각하다. 어떻게 해결할 수 있을까?
실제 인지구조에서 보고 외부 모델을 압축해서 가져오고 그것을 이용해서 학습하면 될까? 실제 상황에서도 working 하는가?

커다란 RNN 기반의 에이전트를 학습할 수 있을까?

Dividing the agents into

Larger world model: Unsupervised learning. Not sacrificing capacity and expressiveness (iterate 빠르게, policy 심플하게 해서 강화학습의 약점보완)

Smaller controller model: VAE를 통해 보이는 것만 가져와서 space가 작아짐 -> credit을 주기 편함, 각각 task 마다 policy가 달라짐 -> 테스크별로 policy를 compact 하게 학습할 수 있음

1. Vision

VAE 사용
latent space에 우리가 보고 있는 세상을 압축해서 넣고 재현

High dementional observation을 통해 차원이 낫게 VAE를 이용해 encoding - Z - decoding
z 라고 하는 Latent space 커다란 이미지에 들어가있는 representation을 압축하고 추상적으로 만들어서 보관을 할 수 있다.
잘 조정을 하면 구체적으로 에이전트가 뭘 보고 있는지 시각화 할 수 있다.