The StarCraft Multi-Agent Challenges+(benchmark)

이두현·2024년 3월 17일
0

기존 SMAC 특징

1) defensive situation 에서 agent들의 micro-managed control을 중요시 여김

2) 알고리즘들이 다른 agent들의 relevance에 집중함

3) 알고리즘의 exploration 능력을 정량적으로 측정하기에 적합하지 않다(multi-stage task와 environmental factor에 대한 고려가 부족하다)

Contribution

1) 에이전트들이 multi-stage task와 environmental factor를 학습하는 과정이 어떻게 이뤄지는지 identify 하려 했다.

2) 기존 알고리즘들 중 enhanced exploration 에 강점을 갖는 것들만 이번 benchmark에서 효과를 보임

3) micro-control과 multi-stage task를 동시에 해결해야하는 가장 어려운 task에는 효과적인 알고리즘이 없으므로 이에 대한 과제를 제시한다.


본문

기존의 SMAC과 동일하게 제거된 적의 수에 비례하는 보상과정은 동일하지만 implicit 하게 multi-stage task를 발견해야 한다던가, 적을 먼저 찾아 제거(offensive scenario), 지형지물을 이용해 피해를 줄이는 등의 추가적인 feature들이 생김


지형지물

  • tree, stone과 같은 모든 agent의 시야를 방해하는 장애물이 등장
  • hill 아래에 있는 agent들은 0.5의 확률로 공격성공, 위에서는 1.0 확률로 공격성공 : 이러한 성질은 explicit 하게 주어진 것이 아니기 때문에 implicit 한 학습이 잘 이뤄져야 한다.

Defensive scenarios

  • 아군은 hill 위에서 시작
  • 기존 SMAC과 비슷하지만 적들이 여러 방향으로 공격해 오는 것을 허용하고 지형에 대한 변화를 추가해 offense의 방향을 알아내기 위한 exploration 반경이 넓어졌음

Offensive scenarios

  • direct incentive 없이 increment 한 학습 방식을 추구하는 과제
  • 적을 찾아나서서 죽여야 reward를 얻을 수 있는 구조이며 (만나지 않으면 reward 없음), kill, defeat, harm 에 대한 reward가 있다.
  • 이러한 구조는 micro-management + exploration 을 요구한다.
  • Defensive scenario에 비해 micro-control의 중요성은 떨어지지만 적의 위치를 별다른 reward 없이 찾아내는 것이 가장 중요하다.

Experiments

세 가지 key question 에 맞춰 실험결과를 설명하고자 한다.

1) multi-stage task와 environmental 요소들은 exploration capability 에 대한 정량적인 평가 방식을 제공할 수 있는가?

2) 현존하는 알고리즘들은 이러한 exploration을 효과적으로 해내어 위의 두 가지 요소들을 효과적으로 풀 수 있는가?

3) 현존하는 알고리즘들이 SMAC에서 믿을만한 성능을 보여줄 수 있는가?

  • 기존 알고리즘의 성능을 현격히 감소시키는 변수들은 supply difference와 opponent approach 였으며 이를 살아남은 것은 DRIMA 뿐이었다.

→ micro-control 뿐만 아니라 environmental factor 까지 explore 했기 때문

  • 다른 알고리즘들은 trial 마다 큰 성능차이를 보이기도 했는데 ϵ\epsilon -greedy 방식을 기반으로 한 임의의 액션 탐색 방식은 명확한 reward가 없는 상황에서 enemy location 을 찾는데 큰 variance를 갖기 때문이다.

  • DRIMA 도 잘 해내지 못한 off-superhard task를 열린 과제로 제시

profile
0100101

0개의 댓글