그로킹 심층 강화학습 공부

ingeol·2023년 8월 7일
0
post-thumbnail

1장 심층 강화학습의 기초

DRL : 지능이 요구되는 문제를 해결할 수 있도록 인공지능 개발,

시행착오를 통해 학습 → 순차적이면서 동시에 평가가능, 강력한 비선형 함수 근사(non-linear function approximation) 통해 샘플링해서 얻게된다.

강화학습

  • 데이터 라벨링 필요없음
  • 데이터 수집 및 관련된 작업 필요가없음
  • 목표 : 행동하기

심층강화학습(deep reinforcement learning) : 강화학습 문제를 푸는데 딥러닝을 사용한 것


용어

에이전트(Agent) : 의사를 결정하는 객체, agent 학습 3단계 방법, 순차적, 평가가능, 동시에 샘플링 으로 학습

  • 행동(Action)에 대해 평가를 하며, 받는 반응(Rewatd)을 개선
  • 시행착오(trial and error)를 통해 학습. 시도 - 관찰 - 학습 - 새로운 것 시도 (반복)
  • SVM, Decision tree 등 머신러닝으로 함수 근사화 가능, 하지만 신경망을 시용하는게 잠재력 있고 성능이 좋음. 단, 해석하기 어렵고 데이터가 많이 필요.
  1. 정책(Policy)라고 하는 관찰(Observation)과 행동(action) 사이의 관계를 표현한 것을 학습하도록 설계 가능
  2. 모델 : 환경에 내재된 관계 학습하도록 설계 가능,
  3. 가치함수(value function)이라고 불리는 보상(Reward)과 행동(Action)사이의 관계 평가한 함수로 학습할 수 있다.

환경 (Environment):

  • 에이전트와 반대되는 개념, 에이전트 이외의 모든 것을 말한다.
  • 에이전트가 제어할 수 없는 모든 것
  • 문제와 연관된 변수들의 집합

동작(Action) :

  • 보상함수(Reward function)에 의해서 정의된다.

상태 (State) :

  • 변수의 집합. 위치, 속도 같은 변수가 가질 수 있는 모든 값

관찰(observation) : - 관찰과 상태는 동일할 용어로 자주 쓴다.

  • 에이전트가 관찰할 수 있는 상태(State)의 일부

전이함수(transfer function) : - 환경(Environment)의 모델(Model)

  • 전이학습(transfer learning) : 학습과정을 통해서 얻은 지식을 새로운 주제에 접목시키는 방법 ex) 망치 집는 방법을 알았으면 못을 잡는 집는 방법 학습하는데 적용할 수 있다.
  • 에이전트(Agent)와 환경(Environment)사이의 관계를 정의한 함수
  • 이전 상태(State)와 에이전트(Agent)의 행동에 따라 변한다.

보상함수(Reward function) : - 환경(Environment)의 모델(Model)

  • 환경에서 나오는 것으로 행동에 대한 반응, 에이전트(Agent)에게 보상 신호 제공
  • 순차적, 평가가능, 동시에 샘플링 가능

타임스텝(time step) :

  • 에이전트(Agent)와 환경(Environment) 사이의 상호반응의 각 단계
  • 매 스텝마다 Agent는 환경을 관찰하고 행동을 취하고, 새로운 관찰과 보상을 얻게된다.
  • 여기서 얻을 수 있는 상태와 행봉, 보상 그리고 새로운 상태를 경험이라 부른다.

Task 형태

에피소드형 업무(episodic task) : 게임과 같이 자연적으로 끝나는 테스크

  • 게임과 같이 자연적으로 끝나는 task
  • 처음부터 끝까지의 연속적인 스텝을 에피소드(episode) 라고 한다.

연속형(continuing task) : 자연적으로 끝나지 않는 task

  • 계속되는 형태 ex) 앞으로 가는 동작

다이나믹스(dynamix) : 역학에서 파생된 용어로 어떤 물리적인 요소가 외부의 자극에 따라 밖으로 반응이 표출되는 과정에서 발생하는 모든 정보들을 말한다.

경험튜플(experience tuple) : state, action, reward, new state → 경험 튜플이라고 한다.

에피소드형 업무(episodic task) : 게임과 같이 자연적으로 끝나는 테스크

return : 단일 에피소드 동안 수집된 reward 총합 → 에이전트는 return 최대화 되게 설계

episode = trial = period = stage → 에피소드형 task에서 시작부터 끝까지의 연속적인 타임 스텝


학습방식

시간적 가치 할당 문제(temporal credit assignment) : 연속적인 피드백

  • 주어진 보상에 적합한 상태와 행동을 정의하는 과제
  • 시간적 개념이 들어가 있다.
  • 행동에 지연된 속성이 담겨있으면, 보상에 대한 가치를 부여하기 어려울 수 있다.

평가 가능한 피드백(Evaluative feedback)

  • 탐험(exploration) : 평가 가능한 피드백을 하기 위해 필요
  • 착취(exploitation) :
  • Agent는 현재 가지고 있는 정보에서 얻을 수 있는 가장 좋은 것과 정보를 새로 얻는 것 간의 균형을 맞춰야한다. → 탐험과 착취 간의 트레이드 오프(exploration versus exploitation trade-off)

샘플링된 피드백으로 학습하는 agent - 에어전트가 받는 보상은 그저 샘플이며 보상함수에 접근할 수 없다. → 샘플링된 피드백으로 학습 → 이를 통해 일반화

  • 정책 근사화 (policy based agent)
  • 가치함수 근사화 ( value based agent)
  • 모델 근사화 ( model-based agent)
  • 정책과 가치함수 둘 다 근사화 (actor-critic agent)

테이블 기반(tabular) 강화학습

  • 신경망이나 함수 근사화가 필요하지 않은 문제 (1-3장)

심층 강화학습 : 에이전트가 순차적이면서 평가 가능하고, 동시에 샘플링된 피드백으로 부터 학습한다.

  1. 순차적인 피드백으로 학습 : 에이전트는 단기목표와 장기목표의 균형을 맞추는 방법을 학습
  2. 평가 가능한 피드백으로부터 학습 : 에이전트는 정보를 수집과 활용 사이에서 균형을 맞추는 방법 학습

2장 강화학습의 수학적 기초

마르코프 결정 과정 Markov decision process(MDP) :

불확실성상에 놓여진 상황 → 복잡한 연속적 결정을 가상으로 모델링 → 강화학습 에이전트가 모델과 반응을 주고받음 → 경험을 통해 스스로 학습

agent - 의사 결정권자 : 결정을 내리는 주체, 문제에 대한 답 제공

  1. 상호작용요소 : 학습에 필요한 데이터 수집
  2. 평가 : 현재 취하고 있는 행동 평가
  3. 개선 : 학습한다.

environment : 그외 모든 것

강화 학습에서 모든 환경이 이면에 동작하는 MDP를 가지고 있다고 가정

state space : 변수들의 집합(변수들의 모든 값에 대한 조합), 순차성(시간) 개념이 있음

observation : agent가 특정 시간에 얻을 수 있는 변수들의 집합을 observation이라고 한다.

observation space : 변수가 가질 수 있는 모든 값들의 조합

observation, state 교환적 사용(거의 비슷하나 좀 다름 : agent가 환경의 내부상황을 인지할 수도 있지만 못할 수도 있기 때문)

action : 모든 상태에서 취할 수 있는 모든 행동에 대한 집합

transfer function : agent의 action으로 변화한 environment → 전이 발생 후 environment는 새로운 observation 방출 + 반응으로 reward 제공할 수 있다.

reward function : 행동과 관련된 보상에 대한 함수

model : 전이와 보상 함수에 대한 집합을 환경에 대한 모델이라고 한다.

MDP : 환경의 엔진

  • MDP에 놓여진 환경에서 상호작용하는 능력을 표현기 위해서는 state, observation, action, transfer function, reward function needed
  • 에이전트가 MDP에 대한 정보에 접근할 수 있는 경우, environment와 상호작용을 수행할 필요가 없어진다.
  • 무기억성memoryless = Markov property
  • fact : Markov persume(가정) : 완벽하게 따르는 것이 비 실용적, 어쩌면 불가능..
  • action
    • A(s)로 표현, 이 함수는 상태 s에서 취할 수 있는 행동들의 집합 반환
    • 어떤 state에서 취할 수 있는 action은 그 state에 따라 달라진다.
    • state에 따른 확률분포에서 action을 결정할 수 있다.
    • 조회표(lookup table)에서 행동을 결정할 수도 있다.
  • transfer function : T(s,a,s)T(s,a,s^{\prime}) - s상태에서 a action을 하고, 다음상태가 ss^{\prime}이 되었을 때 이때 확률을 반환한다. 전이함수는 T(s,a)T(s,a)로 표현하기도 한다.
    • sSp(ss,a)=1,sS,aA(s)\sum_{s^{\prime} \in S} p(s^{\prime}|s,a) = 1, \forall s \in S, \forall a \in A(s) 이 식에서 분포는 변화가 없는 stationary(고정상태)이다. 확률적으로 전이가 발생할 가능성이 높다 하더라도 확률 분포는 학습하거나 검증하는 동안 변화하지 않는다.
  • reward signal(보상신호)
    • reward function은 전이 튜플 s,a, ss^{\prime}을 특정한 스칼라 값으로 매핑한다.
    • R(s,a,s)R(s,a,s^{\prime})은 간략하게 R(s,a)R(s,a) or R(s)R(s) 으로 표현하기도 한다.
  • planning horizon : agent 관점에서 에피소드형 task나 연속적인 task 정의
    • finite horizon : 에이전트가 유한한 타임 스텝내에 업무가 종료된다는 것을 알고 있는 horizon
    • greedy horizon : planning horizon이 1인 경우를 말한다.
    • infinite horizon : 에이전트한테 미리 정의된 타임 스템에 대한 제한이 없어 agent가 무한하게 계획할 수 있다.
    • indefinite horizon : episodic 로 task가 되어있어 결국 종료 된다고 하더라고, 에이전트의 관점에서 보면, 에이전트가 가질 수 있는 계획 horizon은 무한할 수 있다. 이렇게 infinite horizon을 가지는 task를 indefinite horizon task라고 부른다.
    • infinite planning horizon 상에서 episode는 초기 상태와 종료 상태 사이에 발생한 모든 상호작용을 모아둔 집합이다.
  • discount factor(감가율) = gamma : 보상의 시점이 미래로 더 멀어질수록, 현재 시점에서는 이에 대한 가치를 더 낮게 평가한다. ⇒ 에이전트들이 안정적으로 학습될 수 있도록 해준다. 감마는 분산을 줄일 수 있는 하이퍼 파라미터

강화학습 : agent 와 environment사이에서 반응을 주고받는다.

POMDPs : partial observable Markov decision processes

관찰에대한 환경을 모델링하는 좀 더 일반적인 프레임워크 이때도 observation은 environment 내부 state에 의존하기는 하지만, 에이전트가 관찰할 수 있는 상태에만 해당한다.

0개의 댓글