# value function
Value Function(가치함수)
date: 2021-10-16 19:00:00 우리는 앞서 MDP를 통해 강화학습 문제를 정의 하였다. 설정된 MDP를 가지고 우리는 agent가 미래 reward를 고려하여 action을 선택할것이라고 하였다. 그런데 도대체 어떻게 미래 reward를 고려한다는것이고 어떤 방식으로 action을 선택할 것인가? 이번 value function(가치 함수)를 배우게 되면 그 방법을 조금 알게 될것이다. Value function(가치 함수)가 무엇인가? V(s) = E[Rt+1 + γRt+2 + γ2 Rt+3 + ... | St = s] 위 식을 해석해보자면 value function은 현재 timestep 이후의 모든 future reward의 기댓값이라고 할 수 있다. 실제 grid-wo
강화학습 개념정리(2) - rl problem, 벨만 방정식, Q 함수, advantage function, value function
Intro 1편에 이어 2편도 바로 작성하게 됐다. 기본적으로 내 머릿속 정리를 위해 쓰는거라 다소 배려가 부족하긴 하지만, 그래도 최대한 보는사람도 도움을 얻을 수 있게끔 쓰도록 노력하겠다. RL Problem > 정책의 종류나 리턴 측정의 종류에 상관없이, RL의 목표는 기대수익(Expected Return)을 극대화 하는 정책을 찾는것이다. Expected Return 에 대해 얘기하기 위해서는 먼저 Trajectory의 확률 분포에 대해 알아야 한다. Environment transition과 policy가 모두 확률적(Stochastic)인 상황에서 T-step Trajectory의 확률은 다음과 같다. $$P(\tau|\pi)=\rho0(s0)\displaystyle\prod{t=0}^{T-1}P(s{t+1}|st,at)\pi(at|st)-(1)$$ $$\rho0(s0)$$ : start-state distribution 으로부터 sa

Reinforcement Learning 강화학습 개요
- Reinforcement Learning: An Introduction by Richard S. Sutton and Andrew G. Barto 책에 챕터 1 인트러덕션 파트의 모르는 부분을 다른 아티클들과 더불어 정리했습니다. > 책의 요약은 아래 미디엄에 영문으로 1-1, 1-2, 1-3으로 저장해뒀습니다. shorturl.at/vyGJU > * 이 글은 https://www.g2.com/articles/reinforcement-learning 와 여러 reference의 내용을 번역, 정리한 글이며 가장 기초적인 개념을 담은 글입니다. 오역, 틀린 내용은 댓글로 부탁드립니다. 내용은 의역하여 정리 하였습니다. 누군가는 강화학습은 학습과정을 게임화시키는 것과 같다고 했다. 이런 말이 나오게된 이유는 뭘까? 강화학습은 시행착오의 과정을 겪기 때문이다. 옳은 action을 취하면 보상을 받고 틀린 action을 취하면 환경에서 페널티를 준다. 한마디로 강화학습은 빨리