[강화학습] Stationary & Markovian

About_work·2023년 10월 25일
0

강화학습

목록 보기
11/20
  • 강화학습의 기본 가정
    • 환경이 stationary하고 Markovian 하다.

환경이 stationary 하다.

  • 어떤 상태에서의 보상이나 다음 상태의 확률 분포는 시간이 지나도 변하지 않습니다.
  • deterministic 하다고 부를 수도 있습니다.

환경이 Markovian 하다.

  • Markov 특성을 가진 환경에서는 현재 상태만이 미래의 상태와 보상을 예측하는 데 필요한 모든 정보를 제공합니다.
  • 다시 말해, 과거의 상태나 액션의 시퀀스를 알고 있더라도 현재 상태가 주어지면 그 추가적인 정보는 미래를 예측하는 데 도움이 되지 않습니다.
  • 마르코프 특성을 가진 환경은 강화학습에서 중요하게 취급되며, 대부분의 강화학습 알고리즘은 이 마르코프 특성을 기반으로 합니다.
  • 그 이유는 마르코프 특성을 가진 환경에서는 현재 상태와 액션만을 고려하면 미래의 상태와 보상을 예측할 수 있기 때문에, 계산의 복잡성이 크게 줄어들기 때문입니다.
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글