[강화학습] Stationary & Markovian

About_work·2023년 10월 25일

0

강화학습

목록 보기

10/19

강화학습의 기본 가정
- 환경이 stationary하고 Markovian 하다.

환경이 stationary 하다.

어떤 상태에서의 보상이나 다음 상태의 확률 분포는 시간이 지나도 변하지 않습니다.
deterministic 하다고 부를 수도 있습니다.

환경이 Markovian 하다.

Markov 특성을 가진 환경에서는 현재 상태만이 미래의 상태와 보상을 예측하는 데 필요한 모든 정보를 제공합니다.
다시 말해, 과거의 상태나 액션의 시퀀스를 알고 있더라도 현재 상태가 주어지면 그 추가적인 정보는 미래를 예측하는 데 도움이 되지 않습니다.
마르코프 특성을 가진 환경은 강화학습에서 중요하게 취급되며, 대부분의 강화학습 알고리즘은 이 마르코프 특성을 기반으로 합니다.
그 이유는 마르코프 특성을 가진 환경에서는 현재 상태와 액션만을 고려하면 미래의 상태와 보상을 예측할 수 있기 때문에, 계산의 복잡성이 크게 줄어들기 때문입니다.

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

이전 포스트

Estimating Q(s, s′) with Deep Deterministic Dynamics Gradients

다음 포스트

discrete-tfxl-coma

0개의 댓글