강화학습_Markov Decision Process

지토·2023년 3월 27일
0

강화학습

목록 보기
1/4

Return

리턴이란, 현재 시점부터 앞으로 받을 것으로 기대되는 리워드 (n번째 보상) 들의 기댓값이다.

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1Gt = R_{t+1}+ \gamma R_{t+2}+ ...=\sum_{k=0}^{\infty }\gamma ^{k}R_{t+k+1}

Bellman Equation for MRPs (Markov Reward Process)

현재의 밸류 = 현재 리워드 + 다음 State 의 밸류

v(s)=E[Rt+1+γv(St+1)St=s]v(s) = E[R_{t+1}+\gamma v(S_{t+1}) | S_{t}=s]

이때 기댓값의 정의 (확률 x 밸류)에 의해 다음과 같이 정의되므로,

E[v(St+1)]=sSPssv(s)E[v(S_{t+1})] = \sum_{s'\in S}^{}P_{ss'}v(s')
v(s)=Rs+γsSPssv(s)v(s) = R_{s}+ \gamma \sum_{s'\in S}^{}P_{ss'}v(s')

v(s) 를 이와 같이 쓸 수 있다.

Markov Decision Process

State - Value Function

vπ(s)=Eπ[GtSt=s]v{_{\pi }}(s) = E{_{\pi }}[G_{t}|S_{t} = s]

Policy pi 를 따랐을 때, s state 에서 기대되는 리턴값.

Action - Value Function

qπ(s,a)=Eπ[GtSt=s,At=a]=Rsa+γsSPssavπ(s)q_{\pi }(s,a) = E_{\pi }[G_{t}|S_{t} = s, A_{t}=a] = R_{s}^{a} + \gamma \sum_{s\in S}^{}P_{ss'}^{a}v_{\pi }(s')

s state 에서 a action 을 취하고 policy pi 를 따랐을 때 기대되는 리턴값.

Optimal Value Function

내가 취할 수 있는 모든 action 중 가장 좋은 것을 골라서 걔만 할거임 (확률값 = 1)

0개의 댓글