# reward
강화학습 개념정리(1) - 강화학습 정의, state, observation, action space, policy, trajectory, reward, return
Intro 최근 몇개월 RL공부를 하다보니, 기본적인 용어나 개념이 헷갈리는 경우가 종종 있어서 이참에 기본부터 개념정리를 싹 하고자 한다. 본 글은 OpenAi Spinning Up - Introduction to RL을 바탕으로 작성하였다. 아마 RL을 정말로 처음 접하는 사람들에게는 어려운 글이 될것같다. 데이비드 실버 선생님의 강의 혹은 그에 준하는 기본 개념 강의를 다 듣고 난 후, 배운 개념을 명확하게 정리하는데 도움이 되면 좋겠다. 한마디로 RL이 뭔데 >RL(Reinforcement Learning, 강화학습)은 Agent가 시행착오를 통해서 보상을 극대화 하는 방향으로 학습하는것을 말한다. 예를들어 축구를 잘하는 Agent(이하 슛돌이)를 만들고 싶다고 할때, 일단 슛돌이를 축구장에 풀어놓고 마음대로 행동하게 놔둔다. 슛돌이는 처음에 무작위로 여러가지 행동을 할것이다.

Reinforcement Learning 강화학습 개요
- Reinforcement Learning: An Introduction by Richard S. Sutton and Andrew G. Barto 책에 챕터 1 인트러덕션 파트의 모르는 부분을 다른 아티클들과 더불어 정리했습니다. > 책의 요약은 아래 미디엄에 영문으로 1-1, 1-2, 1-3으로 저장해뒀습니다. shorturl.at/vyGJU > * 이 글은 https://www.g2.com/articles/reinforcement-learning 와 여러 reference의 내용을 번역, 정리한 글이며 가장 기초적인 개념을 담은 글입니다. 오역, 틀린 내용은 댓글로 부탁드립니다. 내용은 의역하여 정리 하였습니다. 누군가는 강화학습은 학습과정을 게임화시키는 것과 같다고 했다. 이런 말이 나오게된 이유는 뭘까? 강화학습은 시행착오의 과정을 겪기 때문이다. 옳은 action을 취하면 보상을 받고 틀린 action을 취하면 환경에서 페널티를 준다. 한마디로 강화학습은 빨리