discrete-tfxl-coma

About_work·2023년 11월 27일

0

강화학습

목록 보기

11/19

discrete-tfxl

기존 continuous SAC와 discrete SAC의 차이점

discrete_core.py

_get_values
get_actions_inference
get_actions_learning
get_actor_loss
get_return_estimate
get_temperature_loss

gru.py

MLPGaussianActor 대신, MLPDiscreteActor 을 씀
MLPCritic 대신, MLPDiscreteCritic 을 씀.

차이점을, 구현된 TransformerXL에 반영하기

DiscreteSACGRUCore <- DiscreteSACCore <- SACCore

DiscreteSACCore <- SACCore
- 위 get으로 시작하는 6가지 함수의 차이.
DiscreteSACGRUCore <- DiscreteSACCore
- MLPDiscreteActor / MLPDiscreteCritic 을 씀

SACGRUCore <- SACCore

MLPGaussianActor / MLPCritic 을 씀

DiscreteSACTFXLCore <- DiscreteSACCore <- SACCore

DiscreteSACCore <- SACCore
- 위 get으로 시작하는 6가지 함수의 차이.
DiscreteSACTFXLCore <- DiscreteSACCore
- TFXLEncoder / TransformerDiscreteActor(MLPDiscreteActor) / TransformerDiscreteCritic(MLPDiscreteCritic) 을 씀
- get_actions_inference / get_actions_learning / get_q_value 에서
  - rl_token을 쓰면, 마지막 index만 input에 넣어줌

SACTFXLCore <- SACCore

TFXLEncoder / TransformerGaussianActor(MLPGaussianActor) / TransformerCritic(MLPCritic) 을 씀
get_actions_inference / get_actions_learning / get_q_value 에서
- rl_token을 쓰면, 마지막 index만 input에 넣어줌

discrete-tfxl-COMA

COMA와 기존 discrete SAC와의 차이점 정리하기

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

이전 포스트

[강화학습] Stationary & Markovian

다음 포스트

Masked Autoencoding for Scalable and Generalizable Decision Making

0개의 댓글