계획(planning)을 위한 계산 예산(computational budget)이 증가함에 따라 더 나은 성능을 제공task-oriented latent dynamics model을 사용하여 learned terminal value function를 사용하여,temporal difference learning에 의해 공동으로 학습 학습된 모델을 사용하여 생성된 롤아웃에서 학습함으로써, model-free 방법의 샘플 효율성을 향상시키려고 함.value function 함수를 사용하여 전역적으로 최적의 해를 근사화할 수 있음task-oriented latent dynamics model과 learned terminal value function를 사용하여 temporal difference(TD) 학습을 통해 공동으로 학습하는 것 학습된 모델이 생성한 short-term reward estimates 를 사용하여 궤적 최적화를 수행 
task-oriented latent dynamics model을 사용하여 정확한 관절 움직임을 계획하는 것이 유익할 수 있으며, learned terminal value function에 따라 안내될 수 있습니다.상태나 비디오 예측을 통해 모델을 학습하는 반면, 우리는 모든 것을 모델링하는 것이 효율적이지 않다고 주장quantities and visuals 요소를 포함하여 환경 전체를 모델링하는 것은 모델의 부정확성과 오차의 누적을 야기하기 때문latent representation of the dynamics model purely from rewards, ignoring nuances unnecessary for the task at hand. reward and value predictions을 향상시킴.시간적 일관성을 강제하는, modality-agnostic(비구체적) latent space에서의 prediction loss을 제안modality-agnostic prediction loss in latent space that enforces temporal consistency in the learned representation without explicit state or image prediction.