이번장 목적 : MDP를 풀 수 있는 알고리즘, 에이전트의 목적(objective), 단순 정책이 MDP 를 푸는데 적합하지 않은지 설명, 동적 프로그래밍(dynamic programming) - 2개 기본 알고리즘 1. 가치반복(value iteration)알고리즘 2. 정책반복(policy iteration)알고리즘
반환값(reward) : 반환값은 타임 스템 t에서 마지막 스텝 T 까지 얻은 보상의 총합 ←재귀적 형태로 표현 가능.
전체적인 계획, 확률적 환경에서는 계획만으로 충분하지 않다.
agent의 목표 : 반환값(를 최대화 하는 행동의 집합을 찾는 것)
agent는 plan(계획)이라는 것을 찾아야한다. 계획은 시작상태에서 목표 상태까지 수행한 행동의 집합
⇒즉, 전체적인 policy(전체적인 계획)가 필요
agent는 (반환값)을 최대화 시킬 방법을 찾는다. = 반환값은 환경의 확률성과 관련이 있다는 의미
부트스트랩 : 예측치를 통해서 새로운 예측치를 계산하는 방법
state에 대한 기대 반환 값을 요약
agent가 정책 를 따르면서 상태s에서 시작했을 때, 상태 s의 가치는 반환값의 기대치 → 모든 상태에 대한 기대 반환값 = 상태가치함수
state value function으로 부터 기대 반환값을 요약한다.
상태 s에서 행동a를 취했을 때, 에이전트가 정책 를 수행하면서 얻을 수 있는 기대 반환값
agent가 어떤 state-action 쌍이 맞춰져 있을 때 기존보다 얼마만큼 더 좋은지를 알려준다.
행동-이점함수 는 상태 s에서 행동 a를 취했을 때의 가치와 정책 에서 상태 s에 대한 상태가치 함수간의 차이
모든 상태에 대해서 다른 정책들보다 기대 반환값이 같거나 더 크게 얻을 수 있는 정책
전제 : MDP의 정보에 대해서 모두 안다, env dynamics를 알고있다.
MDP로부터 이상적인 정책을 얻기 위해, policy-evaluation, policy-improvement를 반복한다.
전제 : MDP의 정보에 대해서 모두 안다, env dynamics를 알고있다.
정책 평가 단계를 부분적으로 수행 → 정책 개선 단계를 조금 더 일찍 수행할 수 있도록 해준다.