불확실성 안에서 좋은 결정을 내리는 법을 학습하는 것!
Optimization : 최적화
Delayed Consequences : 지연된 보상
Exploration : 탐험
Generalization : 일반화
-> Agent가 World와 상호작용하며 Observation을 바탕으로 Reward를 주는 것을 반복하는 구조
핵심 목표는 미래까지의 총 기대보상을 최대화 하는것
따라서 즉각적인 보상과 장기적 보상 사이의 전략적 행동을 요구
Agent는 Reward 극대화를 위해 쉬운 문제만 출제할 것. 이는 Goal과 다른 결과를 유도할 수 있음
이를 Reward Hacking이라고 부름. Reward Function을 잘 제시하는 것이 중요
각 time step 마다 Agent는 action a를, World는 observation o를, Reward r을 반환함. 이를 바탕으로 Agent는 다음 action을 결정함
History는 Action과 Obs의 총 집합. Agent는 History를 바탕으로 새로운 Action을 결정
State는 History의 일부분. 즉 State는 History의 함수. Agent는 State를 바탕으로 새로운 Action을 결정
State는 Observation과 다름. Observation은 관찰되는 상황 그 자체이고, State는 결정을 내릴 때 사용되는 상황 전체 이기에, 문제 정의에 따라 달라질 수 있음.
State에는 다음 두가지가 존재.
World State : Real World의 State로 Agent는 이를 전부 알 수 없음
Agent State : Agent가 알고 있는 State. World State의 부분 집합. Agent가 결정을 내릴 때 사용하는 State
위 가정이 성립한다면 Agent에게 주어진 State만으로 효과적으로 학습한다는 가정이 성립할 수 있음.
현재 관찰한 Obs가 State가 되고, 결정은 현재에만 의존하게 됨. 미래는 과거와 독립적으로 변할 수 있음.
그러나 대부분의 예시에서 Markov Assumption은 성립하지 않음. 그럼 왜 중요한가?
State를 어떻게 설정하냐에 따라 Markov 가정은 성립할 수 있기 때문. State를 Full of History로 설정하면 Markov는 성립. 그러나 이는 비용상의 문제가 있으므로 도메인마다의 State 설정이 필요.
MDP는 Agent가 모든 상황을 다 관찰할 수 있는 경우 즉 Agent State = World State = State
State는 현재 관찰되는 Obs로 설정하여도 괜찮음
Agent State가 World State 보다 작은 경우 (대부분의 케이스에 해당 Ex:포커, Health care.. 등)
Bandits : 이전 action이 다음 action에 영향을 주지 않음. 즉 과거와 미래가 독립이기에 Markov 가정이 성립.
MDPs and POMDPs : 이전 action이 다음 action에 영향을 줌. 현재의 obs 만으로 state를 설정하면 결정을 내리는데 정보가 부족할 수 있음
How the World Changes :
위의 Mars Rover 문제로 S1에 +1, S7에 +10, 나머지에 0의 보상이 있다고 가정.
Agent의 Action에 따라 World가 어떻게 바뀔지에 대한 예측을 출력하는 함수
Reward의 보상체계와 다르더라도 많은 경우에 사용 가능
Agent가 현재 State에서 어떤 Action을 취할지를 출력하는 함수
현재 상태에서 받을 수 있을 것이라고 기대되는 보상의 총 합. 미래의 모든 보상까지 고려한 값 (waiting의 개념을 포함) gamma는 보상에 대한 가중치를 조절하는 파라미터
World가 어떻게 굴러가는지를 표현. Model이 정책, 가치 함수를 포함하고 있다면 이를 알기 위해 추가적인 연산이 필요.
명시된 가치함수와 정책함수가 존재, Model은 존재하지 않음.