task-oriented latent dynamics model
을 사용하여 learned terminal value function
를 사용하여,temporal difference learning
에 의해 공동으로 학습됩니다. 학습된 모델을 사용하여 생성된 롤아웃
에서 학습함으로써 모델 무관 방법의 샘플 효율성을 향상시키려고 합니다. value function
함수를 사용하여 전역적으로 최적의 해를 근사화할 수 있습니다. task-oriented latent dynamics model
과 learned terminal value function
를 사용하여 시간 차분(TD) 학습을 통해 공동으로 학습하는 것입니다. task-oriented latent dynamics model
을 사용하여 정확한 관절 움직임을 계획하는 것이 유익할 수 있으며, learned terminal value function
에 따라 안내될 수 있습니다.latent representation of the dynamics model
purely from rewards, ignoring nuances unnecessary for the task at hand. modality-agnostic prediction loss in latent space
that enforces temporal consistency in the learned representation without explicit state or image prediction.