profile
Studying NLP
post-thumbnail

RL의 기초 Introduction to RL

Supervisor가 없고 reward signal만 있다.피드백은 즉각적이지 않고 지연된다.'시간'은 중요하다. (Time really matters)에이전트의 액션은 이후에 받는 데이터에 영향을 끼친다. (Agent's actions affect the subseq

2023년 6월 28일
·
0개의 댓글
·

[RL] Reinforcement Learning

공부,, 시작해봅니다. 참고 강의 자료:https://www.davidsilver.uk/teaching/참고 Textbook:http://incompleteideas.net/book/RLbook2020.pdf

2023년 6월 28일
·
0개의 댓글
·

[Overview] Task-Oriented Dialogue

Task-oriented dialogue를 간략히 설명합니다.

2022년 12월 30일
·
0개의 댓글
·