CTDE(Centralized Training Decentralized Execution)

About_work·2023년 11월 3일

Multi Agent RL

목록 보기

1/3

왜 하는가? (문제 정의)

agent간 통신 없이도 + agent가 partially observable 한 상황에서도, multi-agent 주행을 잘 하고 싶다.(충돌이 적고, 서로 협력적으로 도와가며 주행).
- partially observable: 한 agent는 내 주변 상황만 센서로 부분적 감지하고, 더불어 다른 agents들에 대한 정보도 부분적으로만 알 수 있는 상태.
- 이러한 문제 정의에서, agents 들은 공동의 reward를 극대화하는 전략을 학습하는 것이 목표
위 목적을 달성하기 위해 학습시에만, 시뮬레이터 혹은 실세계에서의 비싼 학습 환경에서, 풍부한 정보들을 전부 이용하여 학습하고, 구동 시에는 개별 agent의 정보만을 이용해서 주행하는 접근방법을 택해보자!

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

다음 포스트

COMA(Counterfactual Multi-Agent Policy Gradients)

0개의 댓글