[RL] 1. What is Reinforcement Learning?

SYiee·2023년 7월 3일

Reinforcement Learning

목록 보기

1/5

The term “reinforcement” is oriented in the context of animal learning in psychology
강확학습이라는 개념은 동물들을 학습을 시키는 것에서 시작이 되었다.

컨셉은 행동의 패턴을 강화하는 것에서 시작되었다.
The concept is the strengthening of a behavior pattern when an animal receives a stimulus
pleasure-oriented

Agent

Environment

State

Action

Reward

Policy

Value function

이 state에서 예상되는 앞으로의 합쳐진 reward
이 state에 자체에 대한 평가를 하기 위해 존재
→ 로봇이 쓰레기를 주우러 다니며 쓰레기를 주울 때 보상을 받는 예시를 생각해보자.
어떤 state에서는 쓰레기가 많아서 쉽게 좋은 reward를 얻을 수 있는 반면 어떤 state는 쓰레기가 0개여서 reward를 얻을 수 없다. 이런 것을 평가 하기 위해서 존재한다.
state를 평가하기 위해 예상되는 기댓값

강화학습은 행동에 판단을 내릴 때 리워드가 잘 모일 수 있도록 하는 정책을 배우는 것을 목적으로 한다. 이 정택이 optimal policy이다.

내가 수많은 액션들을 다 해보지 않으면 어떤 것이 제일 좋은지 알 수가 없다.

직접해봐야지만 reward를 알 수 있다. 될 수 있으면 다양한 액션을 해보고 평가를 해봐야 한다.

대다수의 강화학습은 일반적으로 아래와 같은 과정을 거쳐 학습을 진행한다.

agent는 현재 environment가 어떤 상황인지 observe한다.
관찰 한 것을 바탕으로 current policy에 따라 action을 한다.
선택된 action을 수행 → environment의 state가 바뀜
행동에 대한 reward를 받고 새로운 observation을 한다.
agent가 자신의 knowledge(policy, value function, or action-value function)를 업데이트 한다.
이 과정을 계속 반복한다. 완료되었다고 생각될 때까지

이 글은 강형엽 교수님의 게임공학[GE-23-1] 수업을 수강하고 정리한 내용입니다.
[mdpw] https://en.wikipedia.org/wiki/Markov_decision_process
[sutton] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press

게임 개발자