The StarCraft Multi-Agent Challenges+(benchmark)

이두현·2024년 3월 17일

ReinforcementLearning

기존 SMAC 특징

1) defensive situation 에서 agent들의 micro-managed control을 중요시 여김

2) 알고리즘들이 다른 agent들의 relevance에 집중함

3) 알고리즘의 exploration 능력을 정량적으로 측정하기에 적합하지 않다(multi-stage task와 environmental factor에 대한 고려가 부족하다)

Contribution

1) 에이전트들이 multi-stage task와 environmental factor를 학습하는 과정이 어떻게 이뤄지는지 identify 하려 했다.

2) 기존 알고리즘들 중 enhanced exploration 에 강점을 갖는 것들만 이번 benchmark에서 효과를 보임

3) micro-control과 multi-stage task를 동시에 해결해야하는 가장 어려운 task에는 효과적인 알고리즘이 없으므로 이에 대한 과제를 제시한다.

본문

기존의 SMAC과 동일하게 제거된 적의 수에 비례하는 보상과정은 동일하지만 implicit 하게 multi-stage task를 발견해야 한다던가, 적을 먼저 찾아 제거(offensive scenario), 지형지물을 이용해 피해를 줄이는 등의 추가적인 feature들이 생김

지형지물

tree, stone과 같은 모든 agent의 시야를 방해하는 장애물이 등장
hill 아래에 있는 agent들은 0.5의 확률로 공격성공, 위에서는 1.0 확률로 공격성공 : 이러한 성질은 explicit 하게 주어진 것이 아니기 때문에 implicit 한 학습이 잘 이뤄져야 한다.

Defensive scenarios

아군은 hill 위에서 시작
기존 SMAC과 비슷하지만 적들이 여러 방향으로 공격해 오는 것을 허용하고 지형에 대한 변화를 추가해 offense의 방향을 알아내기 위한 exploration 반경이 넓어졌음

Offensive scenarios

direct incentive 없이 increment 한 학습 방식을 추구하는 과제
적을 찾아나서서 죽여야 reward를 얻을 수 있는 구조이며 (만나지 않으면 reward 없음), kill, defeat, harm 에 대한 reward가 있다.
이러한 구조는 micro-management + exploration 을 요구한다.
Defensive scenario에 비해 micro-control의 중요성은 떨어지지만 적의 위치를 별다른 reward 없이 찾아내는 것이 가장 중요하다.

Experiments

세 가지 key question 에 맞춰 실험결과를 설명하고자 한다.

1) multi-stage task와 environmental 요소들은 exploration capability 에 대한 정량적인 평가 방식을 제공할 수 있는가?

2) 현존하는 알고리즘들은 이러한 exploration을 효과적으로 해내어 위의 두 가지 요소들을 효과적으로 풀 수 있는가?

3) 현존하는 알고리즘들이 SMAC에서 믿을만한 성능을 보여줄 수 있는가?

기존 알고리즘의 성능을 현격히 감소시키는 변수들은 supply difference와 opponent approach 였으며 이를 살아남은 것은 DRIMA 뿐이었다.

→ micro-control 뿐만 아니라 environmental factor 까지 explore 했기 때문

다른 알고리즘들은 trial 마다 큰 성능차이를 보이기도 했는데 $\epsilon$ -greedy 방식을 기반으로 한 임의의 액션 탐색 방식은 명확한 reward가 없는 상황에서 enemy location 을 찾는데 큰 variance를 갖기 때문이다.
DRIMA 도 잘 해내지 못한 off-superhard task를 열린 과제로 제시

이두현

0100101

이전 포스트

Addressing Function Approximation Error in Actor-Critic Methods

다음 포스트

The StarCraft Multi-Agent Challenges+(benchmark)

Addressing Function Approximation Error in Actor-Critic Methods

DFAC : Factorizing the Value Function

0개의 댓글