# LLM
LLM 관련 논문 정리
내가 공부하려고 쓰는 글 > 인스트럭션/프롬프트를 이용한 대형언어모델 파인튜닝 관련 최신 논문 정리 (인스트럭션, 프롬프트 작성/적용 방법을 중심으로) Finetuned Language Models Are Zero-Shot Learners (Wei et al., 2021) | https://arxiv.org/pdf/2109.01652.pdf | 초록 문제점: 대형언어모델(이하 LLM(Large Language Models))이 퓨샷 학습에서는 뛰어난 성과를 보이는 반면 제로샷 학습에서는 그렇지 않았다. (퓨샷은 예시를 모델에게 줘야 하는 방법이고, 제로샷은 예시를 줄 필요가 없는 방법이니 학습시키는 사람 입장에서는 제로샷이 학습시키기 더 편리한 방법으로 예상된다. 그래서 제로샷 성능 향상이 필요했던 것 같다.) 그래서 만든 해결책: 137B 파라미터를 가진 사전 훈련된 언어 모델에 대해 '인스트럭션 튜닝' 수행했다고 한다. 인스트럭션 튜닝은 언어

RAG(Retrieval Augmented Generation)
RAG RAG(Retrieval Augmented Generation)는 미리 학습된 LLM(대규모 언어 모델) 및 자체 데이터를 사용하여 응답을 생성하는 패턴이다. 왜 필요한가 현재 널리 쓰이고 있는 Chatgpt와 같은 LLM은 수많은 범용적인 데이터로 그리고 특정 시점 데이터로(과거 어떤 시점) 학습되었습니다. 그러나 때로는 범용적이지 않고 자신만이 갖고 있는 데이터나 최신 데이터로 작업해야 하는 경우도 있습니다. 해당 경우에 LLM을 활용할 수 있는 두 가지 방식이 있다. 새로운 데이터로 모델을 Fine tuning한다. RAG를 활용한다. Fine tuning은 좋은 해결책이 될 수 있지만 값이 비싸다는 단점이 있어서 RAG가 효율적인 방법이 될 수 있다. 추가적으로 RAG를 잘 사용하면 LLM의 고질적인 문제인 Hallucination도 어느 정도 줄일 수 있다는 장점도 있다. 그래서 어떻게 동작하는건데 Flow는 다음과 같다.
생성형 AI에 대해 찍먹으로 공부한 것들..
생성형 AI에 대해서 알아 본 것을 정리 해보려 합니다. 생성형 AI를 한번에 이해시킬 수 있는 단어는 최근 세계적인 관심도가 높은 'Chat GPT'라고 할 수 있습니다. **생성형(Generative) AI란? ** 사람이 AI에게 입력값을 요구하면 그 요구에 맞춰 결과를 만들어주는 인공지능을 말합니다. 하지만 AI로부터 정확한 답변을 얻기 위해서는 AI가 알아 듣기 쉽게 질문을 하는 것이 중요합니다. 대표적인 생성형 AI로는 Chat GPT, Bard, DALL-E, Stable Diffusion, Midjourney등이 있습니다. ChatCPT : OpenAI에서 개발한 대화형 인공지능 모델로 사용자와 대화를 이어가며 자연스러운 문장을 스스로 생성하여 답변 Bard : 구글에서 개발한 대화형 인공지능으로 텍스트를 생성하는 AI Dall-E 2, Midjourney, Stable Diffusion : 텍스트를 입력 받아 이미지를 생성하는 AI 이외에도 음성합성
[AI] 거대언어 모델(LLM, Large Language Model)
배경 목요일 오후에 학교에서 진행하는 'IT 직무특강'을 들었다. 강사님께서는 내가 가고 싶은 또는 관심있는 기업의 보도자료나 IT 관련 기사를 스크랩하는 습관을 들이라고 말씀하셨다. 이 조언은 이 특강뿐만 아니라 다른 데에서도 많이 들었던 내용이었다. 항상 "해야지. 시간 나면 언젠가 시작해보자"라고만 생각하고 정작 실천은 하지 않았는데 이젠 정말 해야 할 때가 온 것 같아 이렇게 시작을 해 본다. 이렇게 하다 보면 내가 가고 싶어하는 기업은 어디이며 내가 원하는 직무가 무엇인지 뚜렷하게 나오지 않을까싶다. 절차 기사 최소 2개 이상 읽고 스크랩한 후 최대 3줄 요약 정리 처음 들어보는 단어가 있거나 중요한 단어(용어)라고 생각이 들면 따로 정리하기 잘 나가던 중국 IT 기업에 무슨 일?... "전쟁 시작됐다"는데 > ### 요약 중국은 세계에서 두 번째로 LLM

Large Language Models are Zero-Shot Reasoners (NIPS 2022)
Introduction LLM과 prompting은 Hot Topic in NLP task-specific한 few-shot, zero-shot prompting의 한계를 극복하기 위한 method인 CoT의 등장은 매우 Novel 특히 CoT 성능은 모델 scale과 비례하기에 LLM의 한계를 뛰어 넘게 해줌 우리는 이러한 CoT가 zero-shot에서도 잘 작동함을 보여줄 것 특히 Zero-shot CoT는 versatile(다재다능)하며 task-agnostic(특정 task에 구애받지 않음)함 (이전 prompting method와 차별화되는 점) empirical하게 향상된 성능을 보여줌 few-shot CoT에서는 human engineering이 필요해 hu

PaLM-E: An Embodied Multimodal Language Model
2022년 구글에서 발표한 PaLM(Pathways Language Model) 모델에 Multi-modal 특성을 더한 PaLM-E이 2023년 3월에 발표되었다. 대화형 AI에 자주 쓰인 초대형 언어 AI모델들은 아직 로봇에까지 적용되기에는 무리가 있다. 로봇은 상황에 맞는 동작을 수행하기 위해서 언어 뿐만 아니라 다양한 data의 자극에 반응해야 한다. 이에 기존에 발표했던 초대형 언어 모델인 PaLM에 image deep learning을 접목한 multi-modal AI model인 PaLM-E에 대해 알아보고자 한다. Intro 이론적 배경 PaLM 모델 https://velog.io/@tobigs-nlp/PaLM-Scaling-Language-Modeling-with-Pathways-1 https://coding-moomin.tistory.com/38 https://coding-moomin.notion.site/PaLM-Scaling-Languag

[2023 오픈소스 컨트리뷰션 아카데미] Masters 중간 점검
자료 조사 Masters 기간이 시작되는 8월 중순부터 말까지는 각자의 일정으로 바쁜 팀원들이 있어 일정을 널널하게 잡았다. 사무국에서 #용어집 채널을 만들어준 8월 17일부터 9월 3일까지 약 3주 동안 각자 벤치마킹할 만한 용어집 사이트가 있는지, Streamlit 컴포넌트 중에는 써먹을 수 있을 법한 게 뭐가 있는지 찾아보는 시간을 가졌다. 그런데 진행하다보니 8월에 도저히 여건이 안 되는 경우가 있어 9월 14일 목요일에 중간 점검을 하기로 하고 그 때까지 약 한 달간 이것저것 조사해보기로 하였다. 타 용어집 사이트 벤치마킹 몇 가지 용어집 사이트를 훑어본 결과, 한 페이지에 모든 용어들을 다 담고 있는 사이트도 있고 알파벳 첫 글자를 기준으로 페이지를 나눠 놓은 사이트도 있고 게시판 형태로 페이지 당 몇 단어씩 모아서 순서대로 나열해 놓은 사이트도 있었다. 검색 기능의 유무는 각 사이트가 보유
EFFICIENT AND EFFECTIVE TEXT ENCODING FOR CHINESE LLAMA AND ALPACA
Abstract ChatGPT와 GPT-4와 같은 LLM들이 nlp 분야의 연구를 많이 바꿔놨고, AGI에 뭔가 한 걸음 더 다가간 것을 보여줬다. 그럼에도 불구하고, 사실 ChatGPT나 GPT-4와 같은 초거대 모델들은 학습, 배포하는데 너무나 많은 비용이 들기 때문에, 기업이 학습해서 만들어낸다고 해도, open source로 공개하지도 않고, close source로 운영하기 때문에, academic한 연구를 하기에는 어려움이 많다. 그런데 LLaMA와 같은 모델들이 open source로 풀리긴 했지만, LLaMA를 만든 기업이 Meta이다 보니 아무래도 사전학습의 기반이 된 corpus가 영어가 되었다. 따라서 다른 언어들에 대해 사용성이 떨어지는 문제가 있다. 본 논문은 그러한 단점을 해결하기 위해 나온 논문으로, LLaMA가 Chinese text를 이해하고, Chinese instruction들을 따를 수 있도록 하기 위한 방법론들을 제시한다.

[DEVOCEAN YOUNG 2기] 테크 세미나 "업무 생산성 향상을 위한 생성형 AI 사용" 후기
들어가며 안녕하세요! 2023년 8월 31일에 진행한 테크 세미나 '업무 생산성 향상을 위한 생성현 AI 사용'의 후기를 작성하게 된 DEVOCEAN YOUNG 2기 Young Wave의 박상우입니다. 현재 연구실에서 생성형 AI 및 멀티 모달 시스템을 연구하고 있는데, 관련된 테크 세미나에 참가하게 되어 기대감이 부풀어 올랐습니다. 특히 실제 기업, 생활에서 어떻게 적용되는지를 알 수 있겠다는 생각에 심장이 두근거렸습니다. 발표 IT 계의 백종원 선생님 역할을 맡아 Digital Transformation을 컨설팅 하시는 조코디님께서 테크 세미나를 진행해주셨습니다. LLM에 대한 이론적 설명 및 파생되는 직업, 실습의 순서로 발표를 진행하셨습니다. 특히 초반에 아이스 브레이킹을 위해 여러 퀴즈와 생성형 AI만으로 만든 광고 등을 보여주셨는데, 앞으로 진행될 세미나를 기대하게 만드는 내용이었습니다. LLM 가장 먼저 LLM에 대한 이론적인 배경을 설명해주

Emerging Architecture for LLM Applications
밀린 포스트들을 하나씩 정리해봐야겠다. 최근 LLM관련 이것저것 공부하고 있는데, 그 중에서 LLM App Architecutre 관련한 아티클이 있어서 스터디겸 번역해서 소개해보려고함. 제 글은 어디까진 참고용으로.. 혹시라도 이글을 참고하신다면 원문을 보는걸 추천드립니다. > 모든 그림과 내용은 아래 링크의 글을 참조함 출처 : https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/ Intro 최근 LLM은 소프트웨어를 구축하기 위한 강력한 새로운 기본 요소로 주목 받고 있으나, 일반 컴퓨팅 자원과는 매우 다르게 작동하기 때문에 어떻게 사용해야 하는지 항상 명확하지 않음. 이 글에서는 급속히 등장하는 LLM 앱 스택을 위한 참조 아키텍처를 공유하고 있음. AI 스타트업과 세련된 기술 회사에서 사용되는 가장 일반적인 시스템, 도구 및 디자인 패턴을 보여줌. 
LLMonitor를 사용하여 입력, 출력 및 요금 관리 이제 단순화되었습니다
🖥️ LLMonitor langchain으로 앱을 개발하는 도중, 도대체 프롬프트와 아웃풋의 히스토리를 로깅해야 될 지 난감했는데 Document에서 LLMonitor(📜document)라는 것을 발견했다! 아직 beta라 몇 가지 오류들이 있지만, cost도 계산해주고, prompt, output이 자동으로 로깅되어 매우 만족스럽다. (그리고 예쁘다!) 🛠 Installation 사이트에서 프로젝트 관리 및 앱 아이디를 발급받을 수 있다. 🤩 Use 
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models (2023)
Introduction LLM은 매우 눈에 띄는 tool CoT 등 다양한 method에도 불구하고 LLM의 근본적 한계인 (up-to-date information, mathematical reasoning, inability to utilize specialized models)은 여전히 존재 New domain에 대응할 수 있는 general한 모델은 아직 존재하지 않음 이러한 한계를 해결하기 위해 Chameleon a plug and play compositional reasoning framework를 제안 tool-augmented LLM과 달리 Chameleon은 LLM 포함 더 많은 tool을 사용 LLM을 natural language planner

InstructGPT
논문은 여기에서 확인할 수 있다. Background GPT의 역사 InstructGPT는 기존의 GPT-3의 문제점을 해결하고자 GPT-3가 세상에 나온지 2년 후 출시되었다. GPT-3의 문제점 GPT-3의 근본적인 문제점은 다음과 같다. 문맥적으로는 맞는 말일지 모르나, 사실과는 다른 말을 지어낼 수 있다. 편향적이거나 유해한 텍스트를 생성한다. 사용자의 지시를 따르지 않은 경우가 발생한다. 이는 LM의 목표와 사용자가 원하는 목표가 다르기 때문에 발생하는 것이다. LM의 목표: 주어진 텍스트 sequence를 바탕으로 다음에 올 토큰 맞추기 사용자의 목표: 사용자의 지시를 안전하고 유용하게 따르기 즉, 사

[Instruction Tuning] Platypus 정리
Platypus는 오리너구리라는 뜻이라고 한다. 들어가며 Platypus는 Open LLM Leaderboard에서 1위를 했었던 LLaMA 기반의 Instruction Tuning 모델로 8월 14일에 ArXiv에 공개된 연구이다. 글을 쓰는 현 시점에서는 2위에 랭크되어있다. 이 페이퍼를 보면서 놀랐던 것은 25k의 데이터셋만을 사용했다는 점이다. Platypus가 공개되기 전에 Leaderboard에서 1위를 했던 Orca는 Instruction Tuning을 위해 GPT를 통해 생성한 대량의 데이터를 사

[논문 정리] REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao github generative agents를 어떻게 하면 발전시킬 수 있을지 고민하며 이를 인용한 논문들을 읽다보니 Reflextion(리뷰는 여기)가 너무 많이 보여서 읽지 않을 수가 없었다. 일반적으로 강화학습의 기본으로 agent가 environment를 지속적으로 인식하고 이를 기반으로 next action을 정의하고, LLM을 사용한 agent를 다루는 선행 연구들은 Inner Monologue (IM)을 기반으로 계속 스스로 생각의 연쇄과정을 거치며 next action을 정의하는데 이 두 방법을 융합하는

[Paper Review] Training Compute-Optimal Large Language Models (NeurIPS 2022)
- Paper: https://arxiv.org/abs/2203.15556 DeepMind, NeurIPS 2022 Scaling Laws 관점에서 Compute-Optimal Model 제안 FLOPs budget 이 고정되었을 때, optimal 한 model size 와 training tokens 간의 관계가 존재함: Gopher -> Chinchilla 기존 Kaplan 의 Scaling Laws 결과와 달리 모델 퍼포먼스를 위한 model size 와 training tokens 와의 관계는 거의 1:1 의 weight 를 가짐 (기존: 0.73:0.27 로 model size 가 가장 영향력이 큼) 즉, Kaplan 의 Scaling Laws 기반으로 학습된 현재의 LLM 모델들은 대부분 undertrained 되었음 논문의 주요 실험 결과 및 기본적인 Contribution 위주로 작성 자세한 실험 결과는

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor
Abstract Instruction tuning은 PLM이 추론할 때 natural language description으로부터의 새로운 task에 대해 답을 할 수 있게 해 줌. 일반적으로 사람이 수동적으로 수많은 데이터를 직접 라벨링하든지, 구성하여 데이터셋을 구성함. 하지만 위의 방식은 굉장히 많은 비용이 들어가고, 시간이 소모됨. 따라서, 본 논문에서는 Unnatural Instruction 방식을 설명함. Unnatural Instruction 방식을 활용하면 사람의 노동력 없이도, 다양하고, creative한 대량의 데이터셋을 확보할 수 있음. 이 방식을 통해 실제로 사람이 직접 공을 들여 만든 데이터셋으로 학습한 모델의 성능에 버금가거나, 심지어 뛰어 넘기도 했음. Instroduction 방법 예시 
Alignment Data Collection
LLM에 대한 alignment를 잘하기 위해서는 퀄리티가 좋은 데이터가 반드시 필요하다. 여기서 생각해볼 점은 좋은 퀄리티를 가진 데이터란 무엇인가이다. 이 점은 두고 두고 고민해야 한다. 우리가 직면한 문제에서 적절하며, 좋은 퀄리티를 가진 데이터가 무엇일지 고민해야 한다. 다음은 여러 가지 데이터를 좋은 퀄리티를 얻을 수 있는 대표적인 방법론들이다. Instructions from Human 일단 간단하게는 기존에 존재하는 human-annotated NLP benchmark가 있음. i.e.) AI HUB 데이터 등등 뿐만 아니라, 직접 비용을 들여가며 사람을 고용해서 라벨링하는 방법이 있음. NLP Benchmarks 기존에 존재하는 NLP Benchmarks를 natural language instruction 형태로 바꾸는 방식이 존재한다. 
[Paper Review] Scaling Laws for Neural Language Models
- Our results strongly suggest that larger models will continue to perform better, and will also be much more sample efficient than has been previously appreciated. Big models may be more important than big data. Paper: Scaling Laws for Neural Language Models OpenAI, 2020 본격적인 LLM 시대 돌입에 대한 근거를 제시한 논문 Larger models will continue to perform better 논문의 Summary 부분만 정리함. 각 항목 별 자세한 내용은 논문의 각 Section 참조 1. Introduction `Empirical scaling