강화학습 - MDP(1)

BSH·2023년 5월 16일

강화학습_basic

목록 보기

1/12

보상을 최대화 하기위한 행동을 시도하면서 보상을 최대로하는 행동을 찾는 과정이라고 생각할 수 있습니다. 책에서는 아래와 같이 소개하네요

순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정

간단하게 어떤 행동을 하기위한 과정이라고 볼 수 있습니다.
예시로는 주식 투자에서 포트폴리오 관리, 운전, 게임 등이 있습니다.

순차적 의사결정 문제는 MDP개념을 통해 정확하게 표현할 수 있습니다.
MDP를 얘기하기전 MP, MRP를 보고 넘어가야합니다.

마르코프 성질은 아래의 식과 같습니다.

\mathbb{P}[s_{t+1}|s_{t}]=\mathbb{P}[s_{t+1}|s_{1}, s_{2}, ..., s_{t}]

글로 다시 말하자면 미래의 상태는 오로지 현재의 상태에 의해서 결정된다는 의미입니다.
좀 더 나아가서 RNN을 공부할 당시에도 등장했던 것 같은데 n차 마르코프 체인은 n번째 이전 데이터까지 보고 다음 데이터를 판단하는 것을 의미합니다.

마르코프 프로세스는 정해진 확률 분포를 따라 상태와 상태사이를 이동하는 과정입니다.

MP\equiv(S, P)

마르코프 프로세스는 상태의 집합과 전이확률행렬로 나타낼 수 있습니다.

P_{ss'}=\mathbb{P}[S_{t+1}=s'|S_{t}=s]

마르코프한 상태
체스 게임 같은 경우를 생각해볼 수 있습니다. 이전에 어떤 과정을 거치더라도 말들이 같은 자리에 있는 경우 두어야 하는 최선의 수는 바뀌지 않습니다.
마르코프 하지 않은 상태
운전하는 차의 사진을 찍었을 때 그 사진만 보고 브레이크를 밟아야하는지 판단을 할 수는 없습니다. 이렇게 정보가 부족한 경우(어떤 상태인지 모르는 경우)를 마르코프 하지 않은 상태라고 합니다. 이전 몇초간의 사진이 추가적으로 주어진다면 속도, 가속도 등의 정보를 얻을 수 있기에 조금이라도 더 마르코프한 상태로 만들 수 있습니다.

마르코프 프로세스에 보상이 추가되면 마르코프 리워드 프로세스라고 합니다.
MRP정의를 위해서는 discount factor $\gamma$ 와 보상 함수 $R$ 2가지 요소가 추가적으로 필요합니다.

MRP\equiv(S, P, R, \gamma)

보상함수는 아래의 수식으로 표현할 수 있습니다.

R=\mathbb{E}[R_{t}|S_{t}=s]

Return
MRP에서는 MP와 다르게 상태가 바뀔 때마다 보상을 얻습니다. 리턴은 현재 시점 이후에 발생하는 모든 보상을 더한 값입니다.
$G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+...$
감쇠인자 $\gamma$ 가 필요한 이유
1. 리턴의 경우 t시점 이후로 스텝을 무한번 진행하기 때문에 리턴 $G_{t}$ 의 값이 무한대가 될 수 있습니다. 그러므로 0과 1사이의 $\gamma$ 를 곱해주어 수렴할 수 있게 만들어 관련 이론들을 수학적으로 증명하기 편리하게 만들어줍니다.
2. 미래의 보상을 선호하게 할지 바로 눈앞의 보상(다음 스텝의 보상)을 선호하게 할지 결정할 수 있습니다. 예로 눈앞의 100만원을 선택할지, 10년뒤 1000만원 중 어떤걸 선택할지 결정하는 경우가 있습니다.
3. 미래 가치에 대한 불확실성을 반영할 수 있습니다.

컴공생