DRL : 지능이 요구되는 문제를 해결할 수 있도록 인공지능 개발, 시행착오를 통해 학습 → 순차적이면서 동시에 평가가능, 강력한 비선형 함수 근사(non-linear function approximation) 통해 샘플링해서 얻게된다.강화학습데이터 라벨링 필요없음데이
이번장 목적 : MDP를 풀 수 있는 알고리즘, 에이전트의 목적(objective), 단순 정책이 MDP 를 푸는데 적합하지 않은지 설명, 동적 프로그래밍(dynamic programming) - 2개 기본 알고리즘 1. 가치반복(value iteration)알고리즘