3장 순간 목표와 장기 목표 간의 균형

ingeol·2023년 9월 14일
0

이번장 목적 : MDP를 풀 수 있는 알고리즘, 에이전트의 목적(objective), 단순 정책이 MDP 를 푸는데 적합하지 않은지 설명, 동적 프로그래밍(dynamic programming) - 2개 기본 알고리즘 1. 가치반복(value iteration)알고리즘 2. 정책반복(policy iteration)알고리즘


반환값(reward) : Gt=Rt+1+γRt+2+γ2Rt+3++γT1RTG_{t} = R_{t+1} + \gamma^{} R_{t+2} + \gamma^{2} R_{t+3} + … + \gamma^{T-1} R_{T} 반환값은 타임 스템 t에서 마지막 스텝 T 까지 얻은 보상의 총합 Gt=Rt+1+γGt+1G_{t} = R_{t+1} + \gamma G_{t+1} ←재귀적 형태로 표현 가능.

정책(policy) : 비종료 상태에서 취할 수 있는 행동

전체적인 계획, 확률적 환경에서는 계획만으로 충분하지 않다.


agent의 목표 : 반환값(GtG_{t}를 최대화 하는 행동의 집합을 찾는 것)

agent는 plan(계획)이라는 것을 찾아야한다. 계획은 시작상태에서 목표 상태까지 수행한 행동의 집합

⇒즉, 전체적인 policy(전체적인 계획)가 필요

agent는 GtG_{t} (반환값)을 최대화 시킬 방법을 찾는다. = 반환값은 환경의 확률성과 관련이 있다는 의미

부트스트랩 : 예측치를 통해서 새로운 예측치를 계산하는 방법

state value function = vπ(s)v_{\pi}(s) = V-함수 = 상태-가치함수

state에 대한 기대 반환 값을 요약

agent가 정책 π\pi를 따르면서 상태s에서 시작했을 때, 상태 s의 가치는 반환값의 기대치 → 모든 상태에 대한 기대 반환값 = Vπ(s)V^{\pi}(s) 상태가치함수

action value function = qπ(s,a)q_{\pi}(s,a) = Q-함수 = 액션-가치함수

state value function으로 부터 기대 반환값을 요약한다.

상태 s에서 행동a를 취했을 때, 에이전트가 정책 π\pi를 수행하면서 얻을 수 있는 기대 반환값

action advantage function = Aπ(s,a)A^{\pi}(s,a) = 행동-이점함수, 이점함수

agent가 어떤 state-action 쌍이 맞춰져 있을 때 기존보다 얼마만큼 더 좋은지를 알려준다.

행동-이점함수 Aπ(s,a)A^{\pi}(s,a) 는 상태 s에서 행동 a를 취했을 때의 가치와 정책 π\pi에서 상태 s에 대한 상태가치 함수간의 차이

optimal policy

모든 상태에 대해서 다른 정책들보다 기대 반환값이 같거나 더 크게 얻을 수 있는 정책

policy iteration

전제 : MDP의 정보에 대해서 모두 안다, env dynamics를 알고있다.

MDP로부터 이상적인 정책을 얻기 위해, policy-evaluation, policy-improvement를 반복한다.

  • policy-evaluation : 상태 영역을 살펴보면서 반복적으로 예측치를 개선한다. 정책평가를 충분히 많이 진행하면 정책에 대한 가치 함수로 수렴시킬 수 있다.
  • policy-improvement : action value function (Q-함수) 이용 = V-함수와 MDP를 사용하면 Q-함수에 대한 예측치를 구할 수 있다, 원래 정책의 Q-함수에 대한 탐욕적인 정책을 반환

value iteration

전제 : MDP의 정보에 대해서 모두 안다, env dynamics를 알고있다.

정책 평가 단계를 부분적으로 수행 → 정책 개선 단계를 조금 더 일찍 수행할 수 있도록 해준다.

0개의 댓글