1장 심층 강화학습의 기초
DRL : 지능이 요구되는 문제를 해결할 수 있도록 인공지능 개발,
시행착오를 통해 학습 → 순차적이면서 동시에 평가가능, 강력한 비선형 함수 근사(non-linear function approximation) 통해 샘플링해서 얻게된다.
강화학습
- 데이터 라벨링 필요없음
- 데이터 수집 및 관련된 작업 필요가없음
- 목표 : 행동하기
심층강화학습(deep reinforcement learning) : 강화학습 문제를 푸는데 딥러닝을 사용한 것
용어
에이전트(Agent) : 의사를 결정하는 객체, agent 학습 3단계 방법, 순차적, 평가가능, 동시에 샘플링 으로 학습
- 행동(Action)에 대해 평가를 하며, 받는 반응(Rewatd)을 개선
- 시행착오(trial and error)를 통해 학습. 시도 - 관찰 - 학습 - 새로운 것 시도 (반복)
- SVM, Decision tree 등 머신러닝으로 함수 근사화 가능, 하지만 신경망을 시용하는게 잠재력 있고 성능이 좋음. 단, 해석하기 어렵고 데이터가 많이 필요.
- 정책(Policy)라고 하는 관찰(Observation)과 행동(action) 사이의 관계를 표현한 것을 학습하도록 설계 가능
- 모델 : 환경에 내재된 관계 학습하도록 설계 가능,
- 가치함수(value function)이라고 불리는 보상(Reward)과 행동(Action)사이의 관계 평가한 함수로 학습할 수 있다.
환경 (Environment):
- 에이전트와 반대되는 개념, 에이전트 이외의 모든 것을 말한다.
- 에이전트가 제어할 수 없는 모든 것
- 문제와 연관된 변수들의 집합
동작(Action) :
- 보상함수(Reward function)에 의해서 정의된다.
상태 (State) :
- 변수의 집합. 위치, 속도 같은 변수가 가질 수 있는 모든 값
관찰(observation) : - 관찰과 상태는 동일할 용어로 자주 쓴다.
- 에이전트가 관찰할 수 있는 상태(State)의 일부
전이함수(transfer function) : - 환경(Environment)의 모델(Model)
- 전이학습(transfer learning) : 학습과정을 통해서 얻은 지식을 새로운 주제에 접목시키는 방법 ex) 망치 집는 방법을 알았으면 못을 잡는 집는 방법 학습하는데 적용할 수 있다.
- 에이전트(Agent)와 환경(Environment)사이의 관계를 정의한 함수
- 이전 상태(State)와 에이전트(Agent)의 행동에 따라 변한다.
보상함수(Reward function) : - 환경(Environment)의 모델(Model)
- 환경에서 나오는 것으로 행동에 대한 반응, 에이전트(Agent)에게 보상 신호 제공
- 순차적, 평가가능, 동시에 샘플링 가능
타임스텝(time step) :
- 에이전트(Agent)와 환경(Environment) 사이의 상호반응의 각 단계
- 매 스텝마다 Agent는 환경을 관찰하고 행동을 취하고, 새로운 관찰과 보상을 얻게된다.
- 여기서 얻을 수 있는 상태와 행봉, 보상 그리고 새로운 상태를 경험이라 부른다.
Task 형태
에피소드형 업무(episodic task) : 게임과 같이 자연적으로 끝나는 테스크
- 게임과 같이 자연적으로 끝나는 task
- 처음부터 끝까지의 연속적인 스텝을 에피소드(episode) 라고 한다.
연속형(continuing task) : 자연적으로 끝나지 않는 task
다이나믹스(dynamix) : 역학에서 파생된 용어로 어떤 물리적인 요소가 외부의 자극에 따라 밖으로 반응이 표출되는 과정에서 발생하는 모든 정보들을 말한다.
경험튜플(experience tuple) : state, action, reward, new state → 경험 튜플이라고 한다.
에피소드형 업무(episodic task) : 게임과 같이 자연적으로 끝나는 테스크
return : 단일 에피소드 동안 수집된 reward 총합 → 에이전트는 return 최대화 되게 설계
episode = trial = period = stage → 에피소드형 task에서 시작부터 끝까지의 연속적인 타임 스텝
학습방식
시간적 가치 할당 문제(temporal credit assignment) : 연속적인 피드백
- 주어진 보상에 적합한 상태와 행동을 정의하는 과제
- 시간적 개념이 들어가 있다.
- 행동에 지연된 속성이 담겨있으면, 보상에 대한 가치를 부여하기 어려울 수 있다.
평가 가능한 피드백(Evaluative feedback)
- 탐험(exploration) : 평가 가능한 피드백을 하기 위해 필요
- 착취(exploitation) :
- Agent는 현재 가지고 있는 정보에서 얻을 수 있는 가장 좋은 것과 정보를 새로 얻는 것 간의 균형을 맞춰야한다. → 탐험과 착취 간의 트레이드 오프(exploration versus exploitation trade-off)
샘플링된 피드백으로 학습하는 agent - 에어전트가 받는 보상은 그저 샘플이며 보상함수에 접근할 수 없다. → 샘플링된 피드백으로 학습 → 이를 통해 일반화
- 정책 근사화 (policy based agent)
- 가치함수 근사화 ( value based agent)
- 모델 근사화 ( model-based agent)
- 정책과 가치함수 둘 다 근사화 (actor-critic agent)
테이블 기반(tabular) 강화학습
- 신경망이나 함수 근사화가 필요하지 않은 문제 (1-3장)
심층 강화학습 : 에이전트가 순차적이면서 평가 가능하고, 동시에 샘플링된 피드백으로 부터 학습한다.
- 순차적인 피드백으로 학습 : 에이전트는 단기목표와 장기목표의 균형을 맞추는 방법을 학습
- 평가 가능한 피드백으로부터 학습 : 에이전트는 정보를 수집과 활용 사이에서 균형을 맞추는 방법 학습
2장 강화학습의 수학적 기초
마르코프 결정 과정 Markov decision process(MDP) :
불확실성상에 놓여진 상황 → 복잡한 연속적 결정을 가상으로 모델링 → 강화학습 에이전트가 모델과 반응을 주고받음 → 경험을 통해 스스로 학습
agent - 의사 결정권자 : 결정을 내리는 주체, 문제에 대한 답 제공
- 상호작용요소 : 학습에 필요한 데이터 수집
- 평가 : 현재 취하고 있는 행동 평가
- 개선 : 학습한다.
environment : 그외 모든 것
강화 학습에서 모든 환경이 이면에 동작하는 MDP를 가지고 있다고 가정
state space : 변수들의 집합(변수들의 모든 값에 대한 조합), 순차성(시간) 개념이 있음
observation : agent가 특정 시간에 얻을 수 있는 변수들의 집합을 observation이라고 한다.
observation space : 변수가 가질 수 있는 모든 값들의 조합
observation, state 교환적 사용(거의 비슷하나 좀 다름 : agent가 환경의 내부상황을 인지할 수도 있지만 못할 수도 있기 때문)
action : 모든 상태에서 취할 수 있는 모든 행동에 대한 집합
transfer function : agent의 action으로 변화한 environment → 전이 발생 후 environment는 새로운 observation 방출 + 반응으로 reward 제공할 수 있다.
reward function : 행동과 관련된 보상에 대한 함수
model : 전이와 보상 함수에 대한 집합을 환경에 대한 모델이라고 한다.
MDP : 환경의 엔진
- MDP에 놓여진 환경에서 상호작용하는 능력을 표현기 위해서는 state, observation, action, transfer function, reward function needed
- 에이전트가 MDP에 대한 정보에 접근할 수 있는 경우, environment와 상호작용을 수행할 필요가 없어진다.
- 무기억성memoryless = Markov property
- fact : Markov persume(가정) : 완벽하게 따르는 것이 비 실용적, 어쩌면 불가능..
- action
- A(s)로 표현, 이 함수는 상태 s에서 취할 수 있는 행동들의 집합 반환
- 어떤 state에서 취할 수 있는 action은 그 state에 따라 달라진다.
- state에 따른 확률분포에서 action을 결정할 수 있다.
- 조회표(lookup table)에서 행동을 결정할 수도 있다.
- transfer function : T(s,a,s′) - s상태에서 a action을 하고, 다음상태가 s′이 되었을 때 이때 확률을 반환한다. 전이함수는 T(s,a)로 표현하기도 한다.
- ∑s′∈Sp(s′∣s,a)=1,∀s∈S,∀a∈A(s) 이 식에서 분포는 변화가 없는 stationary(고정상태)이다. 확률적으로 전이가 발생할 가능성이 높다 하더라도 확률 분포는 학습하거나 검증하는 동안 변화하지 않는다.
- reward signal(보상신호)
- reward function은 전이 튜플 s,a, s′을 특정한 스칼라 값으로 매핑한다.
- R(s,a,s′)은 간략하게 R(s,a) or R(s) 으로 표현하기도 한다.
- planning horizon : agent 관점에서 에피소드형 task나 연속적인 task 정의
- finite horizon : 에이전트가 유한한 타임 스텝내에 업무가 종료된다는 것을 알고 있는 horizon
- greedy horizon : planning horizon이 1인 경우를 말한다.
- infinite horizon : 에이전트한테 미리 정의된 타임 스템에 대한 제한이 없어 agent가 무한하게 계획할 수 있다.
- indefinite horizon : episodic 로 task가 되어있어 결국 종료 된다고 하더라고, 에이전트의 관점에서 보면, 에이전트가 가질 수 있는 계획 horizon은 무한할 수 있다. 이렇게 infinite horizon을 가지는 task를 indefinite horizon task라고 부른다.
- infinite planning horizon 상에서 episode는 초기 상태와 종료 상태 사이에 발생한 모든 상호작용을 모아둔 집합이다.
- discount factor(감가율) = gamma : 보상의 시점이 미래로 더 멀어질수록, 현재 시점에서는 이에 대한 가치를 더 낮게 평가한다. ⇒ 에이전트들이 안정적으로 학습될 수 있도록 해준다. 감마는 분산을 줄일 수 있는 하이퍼 파라미터
강화학습 : agent 와 environment사이에서 반응을 주고받는다.
POMDPs : partial observable Markov decision processes
관찰에대한 환경을 모델링하는 좀 더 일반적인 프레임워크 이때도 observation은 environment 내부 state에 의존하기는 하지만, 에이전트가 관찰할 수 있는 상태에만 해당한다.