decentralized actor + centralized critic 구조 제안(U**n -> U) 로 줄이기 위한, 독창적 centralized critic 구조 제안.decentralized actor + centralized critic 구조 제안decentralized actor + centralized critic의 shared network & weight
counterfactual baseline계산.counterfactual baseline)을 계산Q(St,at) 대신 Q(St,at) - counterfactual baseline 로 대체됩니다.
참고사항(중요)counterfactual baseline을 계산하는데, joint actions의 차원 복잡도에 계산량이 과도하게 증가하면 쓸 수 없습니다.독창적 centralized critic 구조를 제안합니다.개별 agent의 centralized critic에, 개별 agent의 action은 input으로 넣지 않고, 나머지 agent들의 action들만 input으로 넣습니다.
내 시야 frame(s_t^a), 전체 시야 frame(s_t), 시간 t에서 나를 제외한 다른 선수들이 한 행동들 총 3가지를 가져옵니다.기존 SAC의 학습 방법COMA가 SAC(SARL)와 다른점
참고사항(중요)"전체 시야 frame(s_t)", "t에서 나를 포함한 동료들이 한 행동들", "그 때의 보상", "다음 전체 시야 frame(s_t+1)", "t+1에서 나를 제외한 동료들이 한 행동"을 가져옵니다."(전체 시야 frame(s_t) + t에서 동료들의 움직임)에서 내가 한 행동의 가치" 를, (아래 목표)와 유사하도록 학습합니다.(그때 얻은 보상) + ( "다음 전체 시야 frame(s_t+1)" 와 "t+1에서 나를 제외한 동료들이 한 행동" 에서, 내가 현재 판단으로 할 행동의 내가 생각하는 가치)
내 agent의 encoding다른 agent의 encoding_combine_embeddings 로직을 바꿔가며 테스트해보자.