# instruction tuning

[Instruction Tuning] Platypus 정리
Platypus는 오리너구리라는 뜻이라고 한다. 들어가며 Platypus는 Open LLM Leaderboard에서 1위를 했었던 LLaMA 기반의 Instruction Tuning 모델로 8월 14일에 ArXiv에 공개된 연구이다. 글을 쓰는 현 시점에서는 2위에 랭크되어있다. 이 페이퍼를 보면서 놀랐던 것은 25k의 데이터셋만을 사용했다는 점이다. Platypus가 공개되기 전에 Leaderboard에서 1위를 했던 Orca는 Instruction Tuning을 위해 GPT를 통해 생성한 대량의 데이터를 사

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor
Abstract Instruction tuning은 PLM이 추론할 때 natural language description으로부터의 새로운 task에 대해 답을 할 수 있게 해 줌. 일반적으로 사람이 수동적으로 수많은 데이터를 직접 라벨링하든지, 구성하여 데이터셋을 구성함. 하지만 위의 방식은 굉장히 많은 비용이 들어가고, 시간이 소모됨. 따라서, 본 논문에서는 Unnatural Instruction 방식을 설명함. Unnatural Instruction 방식을 활용하면 사람의 노동력 없이도, 다양하고, creative한 대량의 데이터셋을 확보할 수 있음. 이 방식을 통해 실제로 사람이 직접 공을 들여 만든 데이터셋으로 학습한 모델의 성능에 버금가거나, 심지어 뛰어 넘기도 했음. Instroduction 방법 예시 
[Paper Review] Finetuned Language Models are Zero-Shot Learners (ICLR 2022)
0. References Paper: https://arxiv.org/abs/2109.01652 Appendix 에 있는 다양한 instruction format 을 참고할 것! Google Research, ICRL 2022 Instruction Tuning 기법에 대한 초기 논문 중 하나로 (arXiv 시기는 2021), Google 에서 많이 사용하고 있는 (PaLM 등에서 사용됨) FLAN 기법에 대한 소개 1. Introduction > 📌 Contributions: GPT 와 같은 모델이 few-shot 성능은 높은 대신에 zero-shot 성능은 아직 부족한데, Instruction tuning 기법을 통해 unseen task 에 대한 zero-shot 성능을 높인 연구 타겟 task 와 관련이 없더라도, 다양한 cluster 의 NLP task 데이터셋을 Instruction tuning 에 사용하면 타겟 task

[LLaMA 관련 논문 리뷰] 02-Scaling Instruction-Finetuned Language Models (Instruction Tuning)
이전 글에 이어서 Instruction Tuning 관련 논문을 리뷰하겠습니다. 오늘 리뷰할 논문은 Instruction Tuning에 CoT prompting을 추가하여 모델의 성능 향상 (특히 reasoning ability)를 증진할 수 있는지 실험한 논문입니다. Scaling Instruction-Finetuned Language Models(2022) idea unseen task에 대한 인공지능 모델의 추론 능력을 향상시키는 것이 중요한 goal이죠. NLP에서는 사전학습 모델을 통해 상당한 성취가 이뤄졌는데요, 특히 instruction tuning은 few-shot examplars의 개수를 감소시키는 데 중요한 역할(모델이 적은 예시로도 unseen task를 추론할 수 있도록 향상시켰

[LLaMA 관련 논문 리뷰] 01-FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (Instruction Tuning)
LLaMA: Open and Efficient Foundation Language Models LLaMA는 Open and Efficient Foundation 언어 모델입니다. 오픈소스를 제공하지 않는 closed source 모델들로 인해 점차 ai업계가 폐쇄적으로 변해가는데요, Meta는 open source 모델을 공개하고 있습니다. LLaMA 역시 open source 모델이며 공개 데이터만으로 학습되었습니다. 여기서 open이라는 수식어가 설명되네요. 그렇다면 Efficient Foundation은 어떻게 이해하면 될까요? 그동안의 Large Language Models(LLMs)들은 주로 Transformer를 backbone으로 하여 대규모 데이터셋을 대규모 컴퓨팅 리소스로 학습하여 그 성능을 경쟁하였습니다. 실상 그만큼의 budget이 없다면 이 시장에 뛰어들 수가 없겠죠. 학습 뿐만 아니라 추론 시에도 마찬가지입니다. 모델을 서비스하는 입장에서 생각해봅시다.

StableVicuna
Background 최근, chatbot의 개발 및 릴리즈에 상당한 추진이 있었다. Chracter.ai의 chatbot에서 ChatGPT, Bard까지, 채팅을 이용해 봇을 튜닝하는 유저들의 경험은 매우 뜨거운 주제가 되었다. 이러한 뜨거운 관심에 오픈소스의 출현과 오픈소스 대체제가 등장함으로써 기름을 붓는 상황이 되었다. The Current Environment of Open Source Chatbots 위의 chat모델의 성공에는 두 가지의 비결이 존재한다: 1) instruction finetuning 2) Reinforcement Learning through human feedback (RLHF). 그 동안 앞서 제시한 모델들을 학습시키기 쉽게 만드는 수 많은 오픈 소스 프레임워크(trlX, trl, DeepSpeed Chat and ColossalAI)를 제작하는 노력이 있었으나 두 패러다임을 적용시킬 수 있는 open access,