ML-Agents

Seulgi Kim·2023년 4월 24일

reinforce learning

목록 보기

5/14

ML-Agents에서 제공하는 알고리즘

Reinforcement Learning

Proximal Policy Optimization (PPO)
Soft Actor Critic (SAC)
Curiosity based Exploration (ICM, RND)
Multi-Agent POsthumous Credit Assignment (MA-POCA)

PPO와 SAC은 일반적으로 사용하는 강화학습 알고리즘

Imitation Learning

Behaviroal Cloning
Generative Adversarial Imitation Learning (GAIL)

ML-Agents에서 제공하는 학습 방식

Curriculum Learning : 난이도를 순차적으로 높이며 학습하는 방식
Parameter Randomization : 환경 내의 파라미터를 변경해가며 학습하는 방식 (ex. 노면의 미끄러움 정도, 드론의 바람의 세기 등)
Competitive Multi-Agent
Cooperative Multi-Agent

Multi-Agent Reinforcement Learning (MARL)

일반적인 강화학습은 하나의 환경에 하나의 에이전트만 존재하여 하나의 에이전트만 제어하는 환경이다.
MARL은 하나의 환경에 다수의 에이전트가 존재하여 동시 제어를 하는 환경.
다수의 에이전트가 서로 협력하거나 경쟁하도록 학습.
(ex. 물류 로봇, 드론 군집 제어 등)

ML-Agents를 이용한 학습

mlagents-learn [Trainer_Path] --env=[Env_Path]/bulid_name --run_id=[run_id]

Traniner_Path : 학습 알고리즘 설정 YAML 파일이 위치한 경로
Env_Path : 학습을 실행시킬 환경의 빌드 파일이 위치한 경로
Run_Id : 학습된 모델이 저장될 폴더의 이름

Seulgi Kim

이전 포스트

Unity ML-Agent 내부 요소 및 함수

다음 포스트