학습한 dynamics로, 다양한 task나 환경에 transfer 할 수 있음
(우리 domain을 생각해보면, 학습시 없었던 센서 배치의 로봇에 알고리즘을 탑재시켜도, zero-shot으로 적응하거나, 적은 fine-tuning으로 주행 가능할 수 있음)Learning long-horizon behaviors by latent imagination
latent dynamics models
의 발전을 통해 가능해지고 있습니다.derivative-free optimization
에 의존하였지,neural network dynamics가 제공하는 해석적인 gradients
를 이용하지 않았습니다.world models can interpolate past experience
and offer analytic gradients of multi-step returns
for efficient policy optimization.Learning long-horizon behaviors by latent imagination
모델 기반 에이전트는 유한한 상상 지평선을 사용할 경우 단기적일 수 있습니다.
우리는 행동과 상태 가치를 모두 예측함으로써 이 제한을 해결합니다.
Training purely by imagination in a latent space lets us efficiently learn the policy by propagating analytic value gradients back through the latent dynamics.