강화학습_Markov Decision Process

지토·2023년 3월 27일

강화학습

목록 보기

1/4

리턴이란, 현재 시점부터 앞으로 받을 것으로 기대되는 리워드 (n번째 보상) 들의 기댓값이다.

Gt = R_{t+1}+ \gamma R_{t+2}+ ...=\sum_{k=0}^{\infty }\gamma ^{k}R_{t+k+1}

현재의 밸류 = 현재 리워드 + 다음 State 의 밸류

v(s) = E[R_{t+1}+\gamma v(S_{t+1}) | S_{t}=s]

이때 기댓값의 정의 (확률 x 밸류)에 의해 다음과 같이 정의되므로,

E[v(S_{t+1})] = \sum_{s'\in S}^{}P_{ss'}v(s')

v(s) = R_{s}+ \gamma \sum_{s'\in S}^{}P_{ss'}v(s')

v(s) 를 이와 같이 쓸 수 있다.

v{_{\pi }}(s) = E{_{\pi }}[G_{t}|S_{t} = s]

Policy pi 를 따랐을 때, s state 에서 기대되는 리턴값.

q_{\pi }(s,a) = E_{\pi }[G_{t}|S_{t} = s, A_{t}=a] = R_{s}^{a} + \gamma \sum_{s\in S}^{}P_{ss'}^{a}v_{\pi }(s')

s state 에서 a action 을 취하고 policy pi 를 따랐을 때 기대되는 리턴값.

내가 취할 수 있는 모든 action 중 가장 좋은 것을 골라서 걔만 할거임 (확률값 = 1)