profile
Studying NLP
post-thumbnail

[FLAN] Scaling Instruction-Finetuned Language Models

기본적으로 instruction tuning은 instruction과 입력을 넣으면 원하는 출력이 나오게 하도록 하는 학습 방식이다. 다양한 instruction+input & output pair를 주고 학습시킴으로써 이 지시를 모델이 이해하도록 하는 게 주 목적.

2024년 1월 28일
·
0개의 댓글
·

Instruction Tuning 개요

https://newsletter.ruder.io/p/instruction-tuning-vol-1 읽고 정리겸 끄적끄적,,Natural Instructions영어, 193k examples, 61 taskscommon schema를 사용해서 다른 데이터셋에 비

2024년 1월 28일
·
0개의 댓글
·
post-thumbnail

RL의 기초 Introduction to RL

Supervisor가 없고 reward signal만 있다.피드백은 즉각적이지 않고 지연된다.'시간'은 중요하다. (Time really matters)에이전트의 액션은 이후에 받는 데이터에 영향을 끼친다. (Agent's actions affect the subseq

2023년 6월 28일
·
0개의 댓글
·

[RL] Reinforcement Learning

공부,, 시작해봅니다. 참고 강의 자료:https://www.davidsilver.uk/teaching/참고 Textbook:http://incompleteideas.net/book/RLbook2020.pdf

2023년 6월 28일
·
0개의 댓글
·

[Overview] Task-Oriented Dialogue

Task-oriented dialogue를 간략히 설명합니다.

2022년 12월 30일
·
0개의 댓글
·