bshc.log
로그인
bshc.log
로그인
[강화학습] Stationary & Markovian
About_work
·
2023년 10월 25일
팔로우
0
0
강화학습
목록 보기
11/20
강화학습의 기본 가정
환경이 stationary하고 Markovian 하다.
환경이 stationary 하다.
어떤 상태에서의 보상이나 다음 상태의 확률 분포는 시간이 지나도 변하지 않습니다.
deterministic 하다고 부를 수도 있습니다.
환경이 Markovian 하다.
Markov 특성을 가진 환경에서는 현재 상태만이 미래의 상태와 보상을 예측하는 데 필요한 모든 정보를 제공합니다.
다시 말해, 과거의 상태나 액션의 시퀀스를 알고 있더라도 현재 상태가 주어지면 그 추가적인 정보는 미래를 예측하는 데 도움이 되지 않습니다.
마르코프 특성을 가진 환경은 강화학습에서 중요하게 취급되며, 대부분의 강화학습 알고리즘은 이 마르코프 특성을 기반으로 합니다.
그 이유는 마르코프 특성을 가진 환경에서는 현재 상태와 액션만을 고려하면 미래의 상태와 보상을 예측할 수 있기 때문에, 계산의 복잡성이 크게 줄어들기 때문입니다.
About_work
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.
팔로우
이전 포스트
Estimating Q(s, s′) with Deep Deterministic Dynamics Gradients
다음 포스트
discrete-tfxl-coma
0개의 댓글
댓글 작성