Multi-task Deep Reinforcement Learning with PopArt

About_work·2023년 6월 19일

강화학습

목록 보기

1/19

Abstract

강화학습 커뮤니티는 인간의 성능을 능가할 수 있는 알고리즘을 개발하는 데 큰 발전을 이루었습니다.
이러한 알고리즘들은 대부분 한 번에 한 가지의 작업을 학습하며, 새로운 작업마다 새로운 에이전트 인스턴스를 학습해야 합니다.
이는 학습 알고리즘은 일반적이지만 각 해결책은 그렇지 않다는 것을 의미합니다.
각 에이전트는 훈련된 작업 하나만 해결할 수 있습니다.
이 연구에서는 하나가 아닌 여러 순차적인 의사결정 작업을 동시에 마스터하는 문제를 연구
멀티태스크 학습에서 일반적인 문제는 단일 학습 시스템의 제한된 자원을, 경쟁하는 여러 작업의 요구 사항 사이에서 균형을 잡아야 한다는 것
- 많은 학습 알고리즘은 해결해야 할 작업 집합 내의 특정 작업에 방해를 받을 수 있습니다.
- 이러한 작업은 학습 과정에서 더 중요하게 비춰질 수 있으며, 작업 내부 보상의 밀도나 크기 때문에 더 눈에 띌 수 있습니다.
- 이로 인해 알고리즘은 일반성을 희생하고 그 중요한 작업에 초점을 맞추게 됩니다.
우리는 각 작업의 기여도를 자동으로 조정하여, 모든 작업이 학습 동적에 유사한 영향을 미치도록 제안합니다.
- 이로 인해 다양한 Atari 게임 집합에서 최첨단 성능을 달성했습니다.

Introduction

멀티태스크 학습과 전이 학습은 심층 강화학습에서 여전히 중요한 미해결 문제입니다.

multi task RL

기존의 강화학습은 한 번에 하나의 작업에만 집중하여 에이전트를 훈련시키는 반면, 멀티태스크 강화학습은 여러 작업을 동시에 다루면서 에이전트를 훈련시킵니다.
멀티태스크 강화학습에서 주요한 목표는 다양한 작업들 간의 상호작용과 공유를 통해 학습 성능을 향상시키는 것입니다.
에이전트는 각 작업에 대한 정보와 보상을 받으며, 이를 토대로 최적의 정책을 학습합니다.
- 각 작업은 서로 다른 목표와 요구 사항을 가지고 있을 수 있으며, 에이전트의 리소스 (예: 메모리, 계산 능력)는 한정되어 있기 때문에 작업들 사이에서 적절한 균형을 유지해야 합니다.
멀티태스크 강화학습의 핵심은 다른 작업들 사이에서 지식 및 경험의 공유를 통해 효율적인 학습을 이루는 것
- 예를 들어, 에이전트가 한 작업에서 얻은 지식을 다른 작업에 적용하여 -> 학습 속도와 성능을 향상시킬 수 있음
- 또한, 작업 간의 상호작용을 통해 에이전트는 보다 일반화된 정책을 학습할 수 있음
- 즉, 한 작업에서 학습한 정책이 다른 작업에서도 유용하게 활용될 수 있는 것입니다.
이전에 문헌에서 탐구된 멀티태스크 강화학습에는 적어도 네 가지 주요 접근 방식
- 하나의 off-policy learning of many predictions about the same stream of experience(Schmidhuber 1990; Sutton et al. 2011; Jaderberg et al. 2016),
- continual learning in a sequence of tasks (Ring 1994; Thrun 1996; Thrun 2012; Rusu et al. 2016),
- distillation of task-specific experts into a single shared model (Parisotto, Ba, and Salakhutdinov 2015; Rusu et al. 2015; Schmitt et al. 2018; Teh et al. 2017)
- parallel learning of multiple tasks at once (Sharma and Ravindran 2017; Caruana 1998)
저희는 후자에 초점을 맞출 것입니다.
최근에 병렬 멀티태스크 학습은 하나의 시스템이 다양한 작업을 학습할 수 있도록 하는 데 많은 성공을 거두었습니다.
- 논문: 중요성 가중 액터-러너 아키텍처 (IMPALA, Espeholt et al. 2018)
하지만, 이러한 결과는 멀티태스크 강화학습에서 최첨단 기술이지만, 각 작업을 개별적으로 훈련할 때와 같은 도메인에서 -> 심층 강화학습 에이전트가 보여준 인간 수준의 성능과는 거리가 있습니다.
멀티태스크 학습이 단일 작업 학습보다 훨씬 어렵다는 이유 중 하나는
- 단일 학습 시스템의 제한된 자원 (예: 표현 능력이 제한된 경우)을 경쟁하는 여러 작업의 요구 사항 사이에서 균형을 잡아야 한다는 것
우리는 일반적인 강화학습 알고리즘을 멀티태스크 환경에 적용하는 것만으로는 이런 측면에서 성능이 좋지 않을 수 있다는 것을 관찰
구체적으로, 에이전트에게 작업의 중요성은, 해당 작업에서 관측되는 return의 규모와 함께 증가하며, 이는 작업 간에 임의로 다를 수 있음
- 이는 Q-러닝 (Watkins 1989)과 같은 가치 기반 알고리즘뿐만 아니라 REINFORCE (Williams 1992)와 같은 정책 기반 알고리즘에도 영향을 미칩니다.
개별 보상의 적절한 스케일링 문제는 새로운 문제가 아니며, 종종 보상 클리핑 (reward clipping)을 통해 해결되었습니다 (Mnih et al. 2015).
- 이러한 휴리스틱은 에이전트의 목표를 변경합니다.
- 예를 들어, 모든 보상이 음이 아닌 경우 -> 알고리즘은 누적 합계가 아닌 보상 빈도수를 최적화
  - 두 목표가 충분히 일치하는 경우 클리핑은 효과적일 수 있습니다.
그러나 return의 규모는 보상의 희소성에도 의존
이는 보상 클리핑을 사용하더라도 멀티태스크 환경에서 업데이트의 크기가 여전히 작업 간에 상당히 다를 수 있음을 의미하며,
- 이로 인해 일부 작업은 다른 중요한 작업보다 학습 동적에 더 큰 영향을 미칠 수 있습니다.
- 환경에서 수집된 reward의 희소성과 크기는, 에이전트가 수집할 수 있는 보상의 총량을 최대화하기 위해 노력하는 과정에서 불변하지 않음
- 이러한 비불변적인 학습 동적은 학습 업데이트를 사전에 정규화하는 것이 불가능하게 만듦
심지어 알고리즘 설계에 상당한 도메인 지식을 투입할 의지가 있다 하더라도 마찬가지입니다.
요약하면, IMPALA에서 각 환경에서 수집된 경험으로 인해 업데이트의 크기는 다음과 같은 요소에 의존
- 보상의 규모
- 보상의 희소성
- 에이전트의 능력
이 논문에서는 PopArt 정규화를 사용하여
- 이러한 요소에 불변한 액터-크리틱 업데이트를 유도하여 병렬 멀티태스크 에이전트의 큰 성능 향상을 가능하게 했음

About_work

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

다음 포스트

Multi-task Deep Reinforcement Learning with PopArt

강화학습

Abstract

Introduction

multi task RL

Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance

0개의 댓글