Multi-task Deep Reinforcement Learning with PopArt

About_work·2023년 6월 19일
0

강화학습

목록 보기
1/20

Abstract

  • 강화학습 커뮤니티는 인간의 성능을 능가할 수 있는 알고리즘을 개발하는 데 큰 발전을 이루었습니다.
  • 이러한 알고리즘들은 대부분 한 번에 한 가지의 작업을 학습하며, 새로운 작업마다 새로운 에이전트 인스턴스를 학습해야 합니다.
  • 이는 학습 알고리즘은 일반적이지만 각 해결책은 그렇지 않다는 것을 의미합니다.
  • 각 에이전트는 훈련된 작업 하나만 해결할 수 있습니다.
  • 이 연구에서는 하나가 아닌 여러 순차적인 의사결정 작업을 동시에 마스터하는 문제를 연구
  • 멀티태스크 학습에서 일반적인 문제는 단일 학습 시스템의 제한된 자원을, 경쟁하는 여러 작업의 요구 사항 사이에서 균형을 잡아야 한다는 것
    • 많은 학습 알고리즘은 해결해야 할 작업 집합 내의 특정 작업에 방해를 받을 수 있습니다.
    • 이러한 작업은 학습 과정에서 더 중요하게 비춰질 수 있으며, 작업 내부 보상의 밀도나 크기 때문에 더 눈에 띌 수 있습니다.
    • 이로 인해 알고리즘은 일반성을 희생하고 그 중요한 작업에 초점을 맞추게 됩니다.
  • 우리는 각 작업의 기여도를 자동으로 조정하여, 모든 작업이 학습 동적에 유사한 영향을 미치도록 제안합니다.
    • 이로 인해 다양한 Atari 게임 집합에서 최첨단 성능을 달성했습니다.

Introduction

  • 멀티태스크 학습과 전이 학습은 심층 강화학습에서 여전히 중요한 미해결 문제입니다.

multi task RL

  • 기존의 강화학습은 한 번에 하나의 작업에만 집중하여 에이전트를 훈련시키는 반면, 멀티태스크 강화학습은 여러 작업을 동시에 다루면서 에이전트를 훈련시킵니다.

  • 멀티태스크 강화학습에서 주요한 목표는 다양한 작업들 간의 상호작용과 공유를 통해 학습 성능을 향상시키는 것입니다.

  • 에이전트는 각 작업에 대한 정보와 보상을 받으며, 이를 토대로 최적의 정책을 학습합니다.

    • 각 작업은 서로 다른 목표와 요구 사항을 가지고 있을 수 있으며, 에이전트의 리소스 (예: 메모리, 계산 능력)는 한정되어 있기 때문에 작업들 사이에서 적절한 균형을 유지해야 합니다.
  • 멀티태스크 강화학습의 핵심은 다른 작업들 사이에서 지식 및 경험의 공유를 통해 효율적인 학습을 이루는 것

    • 예를 들어, 에이전트가 한 작업에서 얻은 지식을 다른 작업에 적용하여 -> 학습 속도와 성능을 향상시킬 수 있음
    • 또한, 작업 간의 상호작용을 통해 에이전트는 보다 일반화된 정책을 학습할 수 있음
    • 즉, 한 작업에서 학습한 정책이 다른 작업에서도 유용하게 활용될 수 있는 것입니다.
  • 이전에 문헌에서 탐구된 멀티태스크 강화학습에는 적어도 네 가지 주요 접근 방식

    • 하나의 off-policy learning of many predictions about the same stream of experience(Schmidhuber 1990; Sutton et al. 2011; Jaderberg et al. 2016),
    • continual learning in a sequence of tasks (Ring 1994; Thrun 1996; Thrun 2012; Rusu et al. 2016),
    • distillation of task-specific experts into a single shared model (Parisotto, Ba, and Salakhutdinov 2015; Rusu et al. 2015; Schmitt et al. 2018; Teh et al. 2017)
    • parallel learning of multiple tasks at once (Sharma and Ravindran 2017; Caruana 1998)
  • 저희는 후자에 초점을 맞출 것입니다.

  • 최근에 병렬 멀티태스크 학습은 하나의 시스템이 다양한 작업을 학습할 수 있도록 하는 데 많은 성공을 거두었습니다.

    • 논문: 중요성 가중 액터-러너 아키텍처 (IMPALA, Espeholt et al. 2018)
  • 하지만, 이러한 결과는 멀티태스크 강화학습에서 최첨단 기술이지만, 각 작업을 개별적으로 훈련할 때와 같은 도메인에서 -> 심층 강화학습 에이전트가 보여준 인간 수준의 성능과는 거리가 있습니다.

  • 멀티태스크 학습이 단일 작업 학습보다 훨씬 어렵다는 이유 중 하나는

    • 단일 학습 시스템의 제한된 자원 (예: 표현 능력이 제한된 경우)을 경쟁하는 여러 작업의 요구 사항 사이에서 균형을 잡아야 한다는 것
  • 우리는 일반적인 강화학습 알고리즘을 멀티태스크 환경에 적용하는 것만으로는 이런 측면에서 성능이 좋지 않을 수 있다는 것을 관찰

  • 구체적으로, 에이전트에게 작업의 중요성은, 해당 작업에서 관측되는 return의 규모와 함께 증가하며, 이는 작업 간에 임의로 다를 수 있음

    • 이는 Q-러닝 (Watkins 1989)과 같은 가치 기반 알고리즘뿐만 아니라 REINFORCE (Williams 1992)와 같은 정책 기반 알고리즘에도 영향을 미칩니다.
  • 개별 보상의 적절한 스케일링 문제는 새로운 문제가 아니며, 종종 보상 클리핑 (reward clipping)을 통해 해결되었습니다 (Mnih et al. 2015).

    • 이러한 휴리스틱은 에이전트의 목표를 변경합니다.
    • 예를 들어, 모든 보상이 음이 아닌 경우 -> 알고리즘은 누적 합계가 아닌 보상 빈도수를 최적화
      • 두 목표가 충분히 일치하는 경우 클리핑은 효과적일 수 있습니다.
  • 그러나 return의 규모는 보상의 희소성에도 의존

  • 이는 보상 클리핑을 사용하더라도 멀티태스크 환경에서 업데이트의 크기가 여전히 작업 간에 상당히 다를 수 있음을 의미하며,

    • 이로 인해 일부 작업은 다른 중요한 작업보다 학습 동적에 더 큰 영향을 미칠 수 있습니다.
    • 환경에서 수집된 reward의 희소성과 크기는, 에이전트가 수집할 수 있는 보상의 총량을 최대화하기 위해 노력하는 과정에서 불변하지 않음
    • 이러한 비불변적인 학습 동적은 학습 업데이트를 사전에 정규화하는 것이 불가능하게 만듦
  • 심지어 알고리즘 설계에 상당한 도메인 지식을 투입할 의지가 있다 하더라도 마찬가지입니다.

  • 요약하면, IMPALA에서 각 환경에서 수집된 경험으로 인해 업데이트의 크기는 다음과 같은 요소에 의존

    • 보상의 규모
    • 보상의 희소성
    • 에이전트의 능력
  • 이 논문에서는 PopArt 정규화를 사용하여

    • 이러한 요소에 불변한 액터-크리틱 업데이트를 유도하여 병렬 멀티태스크 에이전트의 큰 성능 향상을 가능하게 했음
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글