강화학습 알고리즘 중, 최고의 샘플 효율성 + 더불어 계산시간 단축을 달성하기 위함
reconstruction or value prediction
과 같은 보조 목표를 사용하여 관측값의 저차원 표현을 학습잠재 공간 모델과 정책을 동시에 최적화하는 새로운 단일 목표
를 제안예상 return의 하한선을 설정하는 것으로, 이를 통해 높은 수익을 달성하면서 모델의 자체 일관성을 유지
기존의 모델 기반 RL에서 사용된 하한선들은 주로 정책 탐색(policy exploration)이나 모델 검증(model guarantees)에 적용되었지만, 이 연구에서 제안된 하한선은 전체 RL 목표에 직접 적용
세계 모델을 maximum likelyhood로 훈련
하는 것만으로는, 일반적으로 모델 기반 RL(MBRL)에 좋은 모델을 만들지 못함.원시 관측값의 동역학
보다는, 관측값의 컴팩트한 표현의 동역학을 학습함
으로써 고차원 관측값을 모델링하는 어려움에 대처해왔습니다.모델이 부정확한 전환을 피하면서
+ 높은 수익을 달성하는 정책을 최적화
하는 것입니다. 정책은 모델이 정확한 상태만 방문해야 하며,
표현은 작업 관련 및 예측 가능한 정보를 인코딩해야 합니다.
목표는 return(the likelyhodd)을 극대화하는 것이며, 이것은 trajectories(관찰되지 않은 잠재 변수)에 대한 기대값입니다.
이것은 보상 함수와 무관하게 관찰된 데이터의 likelyhood를 극대화하는 이전 작업과 다릅니다.
trajectories(observations, actions)
과 representations of observations(=states)
을 추론하는 것입니다. 고차원 관측값을 샘플링할 필요 없이, 이 추론된 분포 하에서 예상 수익을 극대화하는 방법을 보여줍니다.
observation representations
, a model that predicts those representations
, and a policy that acts based on those representations.
Encoder: 인코더는 고차원의 관측 데이터(예: 이미지)를 입력으로 받아 잠재 공간에 있는 저차원의 표현 ( z_t )로 변환합니다. 이렇게 변환된 데이터는 처리하기 쉽고, 계산적으로 효율적입니다.
Latent-Space Model: 잠재 공간 모델은 현재의 잠재 상태 ( zt )와 행동 ( a_t )를 기반으로 다음 시간 스텝에서의 잠재 상태 ( z{t+1} )을 예측합니다. 이 모델은 또한 이 행동이 가져올 보상을 예측하는 역할도 합니다.
Policy: 정책은 주어진 잠재 상태에 대해 어떤 행동을 취할지 결정하는 규칙 또는 함수입니다. 이 정책은 최적의 행동을 취하기 위해 잠재 공간 모델과 함께 최적화됩니다.
Objective Function: 목적 함수는 예측된 보상을 최대화하고, 예측된 표현의 오류를 최소화하는 것입니다. 이는 강화학습에서 사용되는 보상 함수에 추가적인 요소를 포함하여 수정된, 보상 함수 \(\tilde{r}\)
와 관련이 있습니다.