기본적으로 instruction tuning은 instruction과 입력을 넣으면 원하는 출력이 나오게 하도록 하는 학습 방식이다. 다양한 instruction+input & output pair를 주고 학습시킴으로써 이 지시를 모델이 이해하도록 하는 게 주 목적.
https://newsletter.ruder.io/p/instruction-tuning-vol-1 읽고 정리겸 끄적끄적,,Natural Instructions영어, 193k examples, 61 taskscommon schema를 사용해서 다른 데이터셋에 비
Supervisor가 없고 reward signal만 있다.피드백은 즉각적이지 않고 지연된다.'시간'은 중요하다. (Time really matters)에이전트의 액션은 이후에 받는 데이터에 영향을 끼친다. (Agent's actions affect the subseq
공부,, 시작해봅니다. 참고 강의 자료:https://www.davidsilver.uk/teaching/참고 Textbook:http://incompleteideas.net/book/RLbook2020.pdf