Learning values across many orders of magnitude

About_work·2023년 6월 22일
0

강화학습

목록 보기
3/20

Abstract

  • 대부분의 학습 알고리즘은 근사하려는 함수의 스케일에 불변하지 않습니다.
  • We propose to adaptively normalize the targets used in learning.
  • 우리는 학습에 사용되는 목표값을 적응적으로 정규화하는 것을 제안합니다.
  • 이는 가치 기반 강화 학습에서 유용한데, 우리가 정책을 업데이트할 때마다 적절한 가치 근사치의 크기가 시간에 따라 변할 수 있기 때문입니다.
  • This is useful in value-based reinforcement learning, where the magnitude of appropriate value approximations can change over time when we update the policy of behavior.
  • 우리의 주된 동기는 Atari 게임을 배우는 데 대한 이전 연구입니다. 이전 연구에서 보상은 모두 미리 정해진 범위로 클리핑되었습니다.
  • 이 클리핑은 하나의 학습 알고리즘으로 여러 게임에서 학습을 용이하게 하지만, 클리핑된 보상 함수는 질적으로 다른 동작을 초래할 수 있습니다.
  • Using the adaptive normalization we can remove this domain-specific heuristic without diminishing overall performance.

Introduction

  • DQN은 하나의 하이퍼파라미터 세트를 사용하는 단일 솔루션(여러 task에 대해)으로 제안되었지만, 보상의 크기와 빈도는 서로 다른 게임에서 크게 다릅니다.
    • To overcome this hurdle, the rewards and temporal-difference errors were clipped to [−1, 1].
    • 예를 들어, Pong 게임에서 보상은 -1과 +1로 제한되고, Ms. Pac-Man에서는 하나의 유령을 먹는 것만으로 최대 +1600의 보상을 얻을 수 있지만, DQN은 이를 +1로 클리핑합니다.
  • 이는 두 가지 이유로는 만족스러운 해결책이 아닙니다.
  • 첫째, 이러한 클리핑은 도메인 지식을 도입합니다.
    • Most games have sparse non-zero rewards outside of [−1, 1].
    • 클리핑은 보상의 빈도를 최적화하는 결과를 초래하며, 그들의 합을 최적화하는 것이 아닙니다.
  • 둘째, 더 중요한 것은 클리핑이 목적을 변경하여 때로는 질적으로 다른 행동 정책을 초래한다는 점입니다.
  • We propose a method to adaptively normalize the targets used in the learning updates.
  • 우리는 학습 업데이트에서 사용되는 목표값을 적응적으로 정규화하는 방법을 제안합니다.
  • 이러한 targets이 정규화되었다는 것이 보장된다면, 적절한 하이퍼파라미터를 찾는 것이 훨씬 쉬워집니다.
  • 제안된 기술은 DQN에만 국한되지 않으며, 지도 학습과 강화 학습에서 더 일반적으로 적용될 수 있습니다.
  • 정규화가 바람직한 이유는 몇 가지가 있습니다.
    1. sometimes we desire a single system that is able to solve multiple different problems with varying natural magnitudes, as in the Atari domain.
    1. for multi-variate functions, the normalization can be used to disentangle(분리하다) the natural magnitude of each component from its relative importance in the loss function.
    • 둘째, 다변량 함수의 경우 정규화를 사용하여 각 구성 요소의 자연적인 크기와 손실 함수에서의 상대적인 중요성을 분리할 수 있습니다.
  • 이는 각 구성 요소가 서로 다른 단위를 갖는 경우, 예를 들어 다른 모달리티를 가진 센서에서 신호를 예측할 때 특히 유용합니다.
  • 마지막으로, 적응적인 정규화는 비정상적인 상황을 다루는 데 도움이 될 수 있습니다.
  • Finally, adaptive normalization can help deal with non-stationary.
    • 예를 들어, 강화 학습에서는 학습 도중 반복적으로 행동 정책이 변경될 수 있으며, 이로 인해 값의 분포와 크기가 변경될 수 있습니다.
    • For instance, in reinforcement learning the policy of behavior can change repeatedly during learning, thereby changing the distribution and magnitude of the values.

대충

  • 모든 critic의 unnormalized target 값을 받아와, 평균과 std를 계산함.
  • 이를 이용하여 critic 마지막 layer의 weight와 bias를 조정. (점차적으로 그 값이 고르게 학습되도록 하는 듯)
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글