Proximal Policy Optimization (PPO)
Soft Actor Critic (SAC)
Curiosity based Exploration (ICM, RND)
Multi-Agent POsthumous Credit Assignment (MA-POCA)
Behaviroal Cloning
Generative Adversarial Imitation Learning (GAIL)
Curriculum Learning : 난이도를 순차적으로 높이며 학습하는 방식
Parameter Randomization : 환경 내의 파라미터를 변경해가며 학습하는 방식 (ex. 노면의 미끄러움 정도, 드론의 바람의 세기 등)
Competitive Multi-Agent
Cooperative Multi-Agent
일반적인 강화학습은 하나의 환경에 하나의 에이전트만 존재하여 하나의 에이전트만 제어하는 환경이다.
MARL은 하나의 환경에 다수의 에이전트가 존재하여 동시 제어를 하는 환경.
다수의 에이전트가 서로 협력하거나 경쟁하도록 학습.
(ex. 물류 로봇, 드론 군집 제어 등)
mlagents-learn [Trainer_Path] --env=[Env_Path]/bulid_name --run_id=[run_id]
Traniner_Path : 학습 알고리즘 설정 YAML 파일이 위치한 경로
Env_Path : 학습을 실행시킬 환경의 빌드 파일이 위치한 경로
Run_Id : 학습된 모델이 저장될 폴더의 이름