제한된 관찰 환경
, 희소한 피드백
, 높은 확률적 특성
을 가진 환경에서도 적응할 수 있는 강화학습 에이전트를 구축하는 데 최적화모듈형 설계를 기반으로 다양한 기능을 조합
하여 특정 환경과 목적에 최적화된 AI 에이전트를 개발할 수 있음위험 선호도
와 제약조건
을 반영Pearl 기능 | 추천 시스템 | 경매 입찰 시스템 | 창의적 선택 |
---|---|---|---|
정책 학습 | ✅ | ✅ | ✅ |
지능적 탐색 | ✅ | ✅ | ✅ |
안전성 | ✅ | ||
이력 요약 | ✅ | ||
Replay Buffer | ✅ | ✅ | ✅ |
Contextual Bandit | ✅ | ||
오프라인 강화학습 | ✅ | ✅ | |
동적 액션 공간 | ✅ | ✅ |