Temporal Difference Learning for Model Predictive Control

jk01019·2023년 8월 29일
0

강화학습

목록 보기
5/13

Abstract

  • Data-driven Model Predictive Control > model-free
    • 모델 학습을 통한 개선된 샘플 효율성(sample efficiency)의 잠재성
    • 계획(planning)을 위한 계산 예산(computational budget)이 증가함에 따라 더 나은 성능을 제공
  • 그러나 오랜 시간 범위에 걸쳐 계획하는 것은 비용이 많이 들며, 환경의 정확한 모델을 얻는 것은 어려운 과제
  • 이 작업에서는 모델 무관 및 모델 기반 방법의 강점을 결합
  • 우리는 task-oriented latent dynamics model을 사용하여
    • 짧은 시간 범위 내의 local trajectory optimization를 수행하며,
  • learned terminal value function를 사용하여,
    • 장기적인 보상을 추정합니다.
  • 이 두 가지 요소는 temporal difference learning에 의해 공동으로 학습됩니다.
  • 우리의 방법인 TD-MPC는 DMControl 및 Meta-World의 상태 및 이미지 기반 연속 제어 작업에서 이전 작업에 비해 우수한 샘플 효율성과 점진적인 성능을 달성

Introduction

  • 구체적으로, 모델 기반 방법에 대한 이전 연구는 주로 두 가지 방향으로 세분화될 수 있습니다.
  • 각각은 모델 기반 학습의 주요 이점을 활용합니다:
    • (i) 계획(planning)은 학습된 정책에 비해 이점을 갖지만, 오랜 시간 범위에 걸쳐 계획하는 것은 지나치게 비용이 많이 들 수 있습니다.
    • (ii) 학습된 모델을 사용하여 생성된 롤아웃에서 학습함으로써 모델 무관 방법의 샘플 효율성을 향상시키려고 합니다.
    • 그러나 이렇게 하면 모델 편향이 정책에도 전파될 가능성이 높습니다.
  • 따라서 모델 기반 방법은 과거에 연속 제어 작업에서 더 간단한 모델 무관 방법보다 우수한 성능을 내기 어려웠습니다.

  • 대신에 모델 기반 계획을 모델 무관 학습의 강점으로 보강할 수 있을까요?
  • 오랜 시간 범위의 계획이 매우 비용이 많이 들기 때문에
    • 모델 예측 제어(Model Predictive Control, MPC)는 더 짧은 유한 시간 범위 내에서 궤적을 최적화하며, 이는 시간적으로 지역적인 최적해만을 얻게 됩니다.
  • MPC는 계획 범위를 넘어선 할인된 반환(discounted return)을 추정하는 value function 함수를 사용하여 전역적으로 최적의 해를 근사화할 수 있습니다.
  • 그러나 정확한 모델과 value function를 얻는 것은 어려울 수 있습니다.

  • 본 연구에서는 Temporal Difference Learning for Model Predictive Control (TD-MPC)라는 데이터 기반 MPC 프레임워크를 제안
  • 이 프레임워크는 task-oriented latent dynamics modellearned terminal value function를 사용하여 시간 차분(TD) 학습을 통해 공동으로 학습하는 것입니다.
  • 각 결정 단계에서 우리는 학습된 모델이 생성한 짧은 기간 보상 추정치를 사용하여 궤적 최적화를 수행하고, 장기적인 반환 추정치에는 학습된 값 함수를 사용합니다.
  • 예를 들어 Figure 1에 나타난 Humanoid 이동 작업에서는
    • task-oriented latent dynamics model을 사용하여 정확한 관절 움직임을 계획하는 것이 유익할 수 있으며,
    • 더 높은 수준의 목표인 달리기 방향은 장기적인 learned terminal value function에 따라 안내될 수 있습니다.

  • 주요 기술적 기여는 모델 학습 방식에 있습니다.
  • 이전 연구에서는 상태나 비디오 예측을 통해 모델을 학습하는 반면, 우리는 모든 것을 모델링하는 것이 효율적이지 않다고 주장합니다.
  • 이는 관련 없는 양 및 그림자와 같은 시각적 요소를 포함하여 환경 전체를 모델링하는 것은 모델의 부정확성과 오차의 누적을 야기하기 때문입니다.

  • 이러한 도전을 극복하기 위해 모델 학습에 세 가지 주요 변경 사항을 도입합니다.
    • 첫째, we learn the latent representation of the dynamics model purely from rewards, ignoring nuances unnecessary for the task at hand.
      • 이는 상태/이미지 예측보다 학습이 더 샘플 효율적이게 만듦.
    • 둘째, 우리는 reward 및 TD-objective 을 모델의 여러 롤아웃 단계에 걸쳐 역전파하여 long horizons에서 보상과 값 예측을 향상시킵니다.
      • 이는 롤아웃을 수행할 때 오류 누적을 줄여줍니다.
    • 마지막으로, 우리는 학습된 표현에서 시간적 일관성을 (명시적인 상태나 이미지 예측 없이) 강제하는 모달리티-비구체적 예측 손실을 제안합니다.
    • Lastly, we propose a modality-agnostic prediction loss in latent space that enforces temporal consistency in the learned representation without explicit state or image prediction.

profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글