[RL] 1. What is Reinforcement Learning?

SYiee·2023년 7월 3일
0

Reinforcement Learning

목록 보기
1/5
post-thumbnail

강화학습이란?

✔ Core Concept of Reinforcement Learning

The term “reinforcement” is oriented in the context of animal learning in psychology
강확학습이라는 개념은 동물들을 학습을 시키는 것에서 시작이 되었다.

  • 컨셉은 행동의 패턴을 강화하는 것에서 시작되었다.
    The concept is the strengthening of a behavior pattern when an animal receives a stimulus
  • pleasure-oriented

✔ The 7 key components of reinforcement learning include

Agent

  • The entity that makes decisions and takes actions in the environment.
  • 환경 내에서 decision도 내리고 그에 따라서 action도 취하는 주체, 학습을 시키는 주체

Environment

  • state 라는 것으로 characterized가 되고, agent와 interacion하는 대상

State

  • 상태

Action

  • agent가 실제로 취하는 행동

Reward

  • 내가 어떤 액션을 취했을 때 그에 해당하는 보상
    • 좋은 action → 양수의 reward
    • 나쁜 action → 음수의 reward, 0

Policy

  • 어떤 state에서 action으로 mapping 하는 함수, agent의 행동을 정의하는
  • deterministic : a specific action for each state , 100% 절대 예외 없음
  • stochastic : a probability distribution over possible actions

Value function

  • 이 state에서 예상되는 앞으로의 합쳐진 reward
  • 이 state에 자체에 대한 평가를 하기 위해 존재
    → 로봇이 쓰레기를 주우러 다니며 쓰레기를 주울 때 보상을 받는 예시를 생각해보자.
    어떤 state에서는 쓰레기가 많아서 쉽게 좋은 reward를 얻을 수 있는 반면 어떤 state는 쓰레기가 0개여서 reward를 얻을 수 없다. 이런 것을 평가 하기 위해서 존재한다.
  • state를 평가하기 위해 예상되는 기댓값

✔ The objective of RL is to learn an optimal policy

강화학습은 행동에 판단을 내릴 때 리워드가 잘 모일 수 있도록 하는 정책을 배우는 것을 목적으로 한다. 이 정택이 optimal policy이다.

  • 최적정책이란 expected cumulative reward를 극대화하는 전략을 찾는 것이다.

  • 여러개의 액션을 해보면서 나오는 결과물들을 확인하고 해 본 결과들을 가지고 강화해나간다.

  • 이런 것들을 하기 위한 다양한 알고리즘이 있다.

Does the agent explore the environment by trying different actions?

내가 수많은 액션들을 다 해보지 않으면 어떤 것이 제일 좋은지 알 수가 없다.

직접해봐야지만 reward를 알 수 있다. 될 수 있으면 다양한 액션을 해보고 평가를 해봐야 한다.

✔ The reinforcement learning loop

대다수의 강화학습은 일반적으로 아래와 같은 과정을 거쳐 학습을 진행한다.

  1. agent는 현재 environment가 어떤 상황인지 observe한다.

  2. 관찰 한 것을 바탕으로 current policy에 따라 action을 한다.

  3. 선택된 action을 수행 → environment의 state가 바뀜

  4. 행동에 대한 reward를 받고 새로운 observation을 한다.

  5. agent가 자신의 knowledge(policy, value function, or action-value function)를 업데이트 한다.

  6. 이 과정을 계속 반복한다. 완료되었다고 생각될 때까지

Reference

이 글은 강형엽 교수님의 게임공학[GE-23-1] 수업을 수강하고 정리한 내용입니다.
[mdpw] https://en.wikipedia.org/wiki/Markov_decision_process
[sutton] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press

profile
게임 개발자

0개의 댓글