Return
리턴이란, 현재 시점부터 앞으로 받을 것으로 기대되는 리워드 (n번째 보상) 들의 기댓값이다.
Gt=Rt+1+γRt+2+...=k=0∑∞γkRt+k+1
Bellman Equation for MRPs (Markov Reward Process)
현재의 밸류 = 현재 리워드 + 다음 State 의 밸류
v(s)=E[Rt+1+γv(St+1)∣St=s]
이때 기댓값의 정의 (확률 x 밸류)에 의해 다음과 같이 정의되므로,
E[v(St+1)]=s′∈S∑Pss′v(s′)
v(s)=Rs+γs′∈S∑Pss′v(s′)
v(s) 를 이와 같이 쓸 수 있다.
Markov Decision Process
State - Value Function
vπ(s)=Eπ[Gt∣St=s]
Policy pi 를 따랐을 때, s state 에서 기대되는 리턴값.
Action - Value Function
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Rsa+γs∈S∑Pss′avπ(s′)
s state 에서 a action 을 취하고 policy pi 를 따랐을 때 기대되는 리턴값.
Optimal Value Function
내가 취할 수 있는 모든 action 중 가장 좋은 것을 골라서 걔만 할거임 (확률값 = 1)