Off-Policy TD Q-Learning

이정운·2022년 2월 8일

Optimal Bellman Equation Q learning RL Value Iteration off policy td 가치반복법 강화학습 벨만 방정식

강화학습

목록 보기

7/8

강화학습 시리즈는 패스트캠퍼스 박준영 강사님의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.

Review

Bellman Equation

$V(s)=\sum\limits_{a \in A(s)}\pi(a|s)Q^\pi(s,a)$
$Q(s,a)=R_s^a+\gamma\sum\limits_{s`\in S}P_{ss`}^aV^\pi(s`)$
$V(s)=\sum\limits_{a \in A(s)}\pi(a|s)(R_s^a+\gamma\sum\limits_{s`\in S}P_{ss`}^aV^\pi(s`))$
$Q(s,a)=R_s^a+\gamma\sum\limits_{s`\in S}P_{ss`}^a\sum\limits_{a` \in A(s`)}\pi(a`|s`)Q^\pi(s`,a`)$

Bellman Optimal Equation

$V^*(s)=\max\limits_{a \in A(s)}Q^*(s,a)=\max\limits_{a\in A(s)}(R_s^a+\gamma\sum\limits_{s`\in S}P_{ss`}^aV^*(s`))$

$Q^*(s,a)=R_s^a+\gamma\sum\limits_{s`\in S}P_{ss`}^aV^*(s`)=R_s^a+\gamma\sum\limits_{s` \in S}P_{ss`}^a \max\limits_{a` \in A(s`)}Q^*(s`,a`)$

Value Iteration

Value Iteration은 정책 평가와 정책 개선을 한번에 묶은 것으로 정책에 대한 개선 없이 가치 함수만을 개선하는 방식으로 Loop를 하나로 줄였다. (이것 역시 $\gamma$ -축약사상을 만족하기 때문에 최적 가치함수에 반드시 수렴한다.)

Definition

$V(s) \leftarrow \max\limits_{a}(R_{s}^a+\gamma \sum\limits_{s` \in S}p_{ss`}^aV(s`))$

Psuedocode

Conclusion

자세히 보면 벨만 최적 방정식을 Sample로 모으고 있다는 것을 확인할 수 있다.
가치 반복 알고리즘은 Bellman 최적 방정식의 샘플 기반을 추산하는 것으로 최적 가치 함수를 추정한다.

Off-Policy Monte-Carlo

우리는 지난 시간에 Off-Policy 방법을 이용하기 위해 Importance Sampling 방식에 대해서 공부하였다. Random Variable에 두 정책의 ratio를 곱하면 된다.

$G_t^{\frac{\pi} {\mu}}=\prod\limits_{k=t}^{T-1} \frac{\pi(a_t |s_t)}{\mu(a_t|s_t)}G_t$

Policy Iteratoin

Policy Iteration은 정책 평가 정책 개선 과정을 통해 최적 가치 함수를 추정한다.

Incremental Policy Evalutatoin TD
$V(s) \leftarrow V(s)+\alpha(r_t+\gamma V(s_{t+1})-V(s_t))$
$Q(s,a) \leftarrow Q(s,a) +\alpha(r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t))$

Greedy Policy Improvement : PI
$\pi`(s)=\arg\max\limits_{a \in A(s)}Q^\pi(s,a)$

$\epsilon-$ greedy