기존 SMAC 특징
1) defensive situation 에서 agent들의 micro-managed control을 중요시 여김
2) 알고리즘들이 다른 agent들의 relevance에 집중함
3) 알고리즘의 exploration 능력을 정량적으로 측정하기에 적합하지 않다(multi-stage task와 environmental factor에 대한 고려가 부족하다)
Contribution
1) 에이전트들이 multi-stage task와 environmental factor를 학습하는 과정이 어떻게 이뤄지는지 identify 하려 했다.
2) 기존 알고리즘들 중 enhanced exploration 에 강점을 갖는 것들만 이번 benchmark에서 효과를 보임
3) micro-control과 multi-stage task를 동시에 해결해야하는 가장 어려운 task에는 효과적인 알고리즘이 없으므로 이에 대한 과제를 제시한다.
본문
기존의 SMAC과 동일하게 제거된 적의 수에 비례하는 보상과정은 동일하지만 implicit 하게 multi-stage task를 발견해야 한다던가, 적을 먼저 찾아 제거(offensive scenario), 지형지물을 이용해 피해를 줄이는 등의 추가적인 feature들이 생김
지형지물
Defensive scenarios
Offensive scenarios
Experiments
세 가지 key question 에 맞춰 실험결과를 설명하고자 한다.
1) multi-stage task와 environmental 요소들은 exploration capability 에 대한 정량적인 평가 방식을 제공할 수 있는가?
2) 현존하는 알고리즘들은 이러한 exploration을 효과적으로 해내어 위의 두 가지 요소들을 효과적으로 풀 수 있는가?
3) 현존하는 알고리즘들이 SMAC에서 믿을만한 성능을 보여줄 수 있는가?
→ micro-control 뿐만 아니라 environmental factor 까지 explore 했기 때문
다른 알고리즘들은 trial 마다 큰 성능차이를 보이기도 했는데 -greedy 방식을 기반으로 한 임의의 액션 탐색 방식은 명확한 reward가 없는 상황에서 enemy location 을 찾는데 큰 variance를 갖기 때문이다.
DRIMA 도 잘 해내지 못한 off-superhard task를 열린 과제로 제시