Observe and Look Further: Achieving Consistent Performance on Atari

About_work·2023년 6월 22일
0

강화학습

목록 보기
4/20

Abstract

  • 우리는 모든 게임에서 우수한 성능을 발휘하기 위해 알고리즘이 극복해야 할 세 가지 핵심적인 도전 과제를 확인했습니다:
    • processing diverse reward distributions
    • reasoning over long time horizons
    • exploring efficiently.
  • 이 논문에서 우리는 각각의 도전 과제에 대응하면서 거의 모든 아타리 게임에서 인간 수준의 정책을 학습할 수 있는 알고리즘을 제안합니다.
  • 새로운 변형된 벨만 연산자를 통해 우리의 알고리즘은 다양한 밀도와 스케일의 보상을 처리할 수 있게 되었으며,
    • A new transformed Bellman operator allows our algorithm to process rewards of varying densities and scales
  • 보조적인 시간 일관성 손실을 사용하여 감마(gamma) = 0.99 대신 감마(gamma) = 0.999로 안정적인 훈련을 할 수 있게 되었고, 이로써 효과적인 계획 범위를 한 단계 확장할 수 있게 되었습니다.
    • an auxiliary temporal consistency loss allows us to train stably using a discount factor of γ = 0.999 (instead of γ = 0.99) extending the effective planning horizon by an order of magnitude;
  • 또한, 보상을 제공하는 상태로 에이전트를 이끄는 인간의 데모를 활용하여 탐색 문제를 해결합니다.
    • and we ease the exploration problem by using human demonstrations that guide the agent towards rewarding states.

Introduction

  • 그러나 모든 게임에서 일관되게 인간 수준의 정책을 학습하는 것은 여전히 해결되지 않은 문제입니다.
  • 첫 번째 도전 과제는 다양한 보상 분포의 처리 (processing diverse reward distributions)
    • 알고리즘은 보상의 밀도와 스케일에 관계없이 안정적으로 학습해야 합니다.
    • Mnih et al. [13]은 보상을 규범적인 구간 [−1, 1]으로 클리핑(clipping)하는 것이 안정성을 달성하는 한 가지 방법임을 보였습니다.
    • 그러나 이 클리핑 작업은 최적 정책 집합을 변경할 수 있습니다.
    • 예를 들어, 에이전트는 BOWLING에서 한 개의 핀을 쳐도 모든 열 개의 핀을 쳐도 차이를 인식하지 못합니다.
    • 따라서, 변경되지 않은 보상 신호를 안정적인 방식으로 최적화하는 것은 게임 전체에 걸친 일관된 성능을 달성하는 데 중요합니다.
  • 두 번째 도전 과제는 장기적인 시간 경계를 초월한 추론 (reasoning over long time horizons)
    • 먼 미래에 있을 수 있는 보상을 예측하여 행동을 선택할 수 있어야 함을 의미
    • 표준 γ-할인된 RL 설정에서는 알고리즘이 1에 가까운 할인 요소를 처리할 수 있어야 함.
  • 세 번째이자 마지막 도전 과제는 MDP의 효율적인 탐색
    • 효율적으로 탐색하는 알고리즘은 개별 보상이 매우 희소한 상황에서도 높은 누적 보상을 가진 긴 경로를 합리적인 시간 내에 발견할 수 있습니다.
  • 본 논문에서는 이러한 세 가지 도전 과제를 명확히 다루는 새로운 Deep Q-Network (DQN) [13] 스타일의 알고리즘을 제안합니다.
  • 보상 분포에 관계없이 학습이 안정적으로 이루어지기 위해, 분산-밸만 연산자를 사용하여 행동 가치 함수의 분산을 감소시킵니다.
    • In order to learn stably independent of the reward distribution, we use a transformed Bellman operator that reduces the variance of the action-value function.
    • 변형된 연산자를 사용하여 환경 보상을 원래대로 처리할 수 있으며, 스케일과 밀도에 관계없이 학습이 가능해집니다.
    • 우리는 결정론적인 MDP에서 최적 정책이 변경되지 않음을 증명하고, 일부 가정 하에 연산자가 확률적인 MDP에서 수렴하는 압축성(contraction)을 가진다는 것을 보여줍니다 (3.2절 참조).
      • We prove that the optimal policy does not change in deterministic MDPs and
      • show that under certain assumptions the operator is a contraction in stochastic MDPs (i.e., the algorithm converges to a fixed point).
  • 보조적인 시간 일관성(Temporal Consistency, TC) 손실로 인해 우리의 알고리즘은 높은 할인 요소에서도 안정적으로 학습합니다.
    • Our algorithm learns stably even at high discount factors due to an auxiliary temporal consistency (TC) loss.
    • 이 손실은 네트워크가 이전에 보지 못한 상태에 일찍 일반화되지 않도록 방지합니다 (3.3절 참조).
    • 이를 통해 우리는 실제로 γ = 0.999와 같은 매우 높은 할인 요소를 사용할 수 있게 되었습니다.
    • 이는 Atari에서 다른 심층 강화 학습 접근 방식과 비교했을 때 우리의 알고리즘의 효과적인 계획 범위를 한 단계 크게 확장합니다.
      • This extends the effective planning horizon of our algorithm by one order of magnitude when compared to other deep RL approaches on Atari.
  • 마지막으로, 우리는 DQN의 기본 탐색 방식을 개선하기 위해
    • Horgan et al. [8]의 분산 경험 재생(distributed experience replay) 접근법과 Hester et al. [7]의 심층 Q-학습(DQfD) 알고리즘을 결합했습니다.
    • 이로써 결과적으로, 오프라인 전문가 데모와 온라인 에이전트 경험을 결합한 분산 액터-러너 시스템을 구축하게 되었습니다 (3.4절 참조).
      • The resulting architecture is a distributed actor-learner system that combines offline expert demonstrations with online agent experiences.
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글