# LLaMA
생성형 AI에 대해 찍먹으로 공부한 것들..
생성형 AI에 대해서 알아 본 것을 정리 해보려 합니다. 생성형 AI를 한번에 이해시킬 수 있는 단어는 최근 세계적인 관심도가 높은 'Chat GPT'라고 할 수 있습니다. **생성형(Generative) AI란? ** 사람이 AI에게 입력값을 요구하면 그 요구에 맞춰 결과를 만들어주는 인공지능을 말합니다. 하지만 AI로부터 정확한 답변을 얻기 위해서는 AI가 알아 듣기 쉽게 질문을 하는 것이 중요합니다. 대표적인 생성형 AI로는 Chat GPT, Bard, DALL-E, Stable Diffusion, Midjourney등이 있습니다. ChatCPT : OpenAI에서 개발한 대화형 인공지능 모델로 사용자와 대화를 이어가며 자연스러운 문장을 스스로 생성하여 답변 Bard : 구글에서 개발한 대화형 인공지능으로 텍스트를 생성하는 AI Dall-E 2, Midjourney, Stable Diffusion : 텍스트를 입력 받아 이미지를 생성하는 AI 이외에도 음성합성

[ML/DL] Rotary Embeddings
- Paper: RoFormer: Enhanced Transformer with Rotary Position Embedding 위 논문은 RoPE 를 제안한 논문이지만, 이후 EleutherAI 에서 Positional Embeddings 으로 구현하여 사용하면서 더 유명해짐 GPT-J, GPT-NEO, LLaMA 많은 추가적인 실험을 EleutherAI 에서 진행 및 https://www.slideshare.net/taeseonryu/roformer-enhanced-transformer-with-rotary-position-embedding 슬라이드의 내용을 많이 참고하였습니다. 감사합니다. 1. Posi

[Paper Review] LLaMA: Open and Efficient Foundation Language Models
- Paper: Link 참고한 한국어 blog: Link 1. Introduction Meta AI 에서 Open 하여 공개한 LLM 모델 7B ~ 65B 규모의 foundation language models 저작권이 있거나 접근 불가능한 데이터 사용 없이, Public Data 만으로 SOTA 달성할 수 있다는 것을 보임 (trillions of tokens 수집) 성능 측면 LLaMA-13B 가 GPT-3 (175B) 보다 성능이 좋음 이 모델의 경우 single GPU 로 inference 가

[Project] Promptie: The Best Prompt Tool Ever
인공지능(AI)은 현재 우리의 삶에 많은 영향을 미치고 있다. 특히, Chat GPT와 같은 생성형 AI는 다양한 문제를 해결하거나, 코딩을 하는 데 유용하게 사용되고 있다. 생성형 AI는 우리가 원하는 결과를 얻기 위해 적절한 명령을 내려야 한다. 이러한 명령을 프롬프트(Prompt)라고 하며, 프롬프트를 효과적으로 설계하고 개선하는 기술을 프롬프트 엔지니어링(Prompt Engineering)이라고 한다. 프롬프트 엔지니어링은 AI의 성능과 품질을 높이는 데 매우 중요한 역할을 한다. 따라서 OpenAI사나 국내 Wrtn사에서는 프롬프트 엔지니어링만을 전문으로 하는 프롬프트 엔지니어를 억대 연봉에 채용하고 있다. 이처럼 개인뿐 아니라 기업에서도 프롬프트 엔지니어링에 대한 수요가 점점 높아지고 있다. 프롬프트 엔지니어링에는 분명 몇 가지의 정형화된 형태나 기술이 있음에도 불구하고, 이를 체계적으로 구조화하고 관리하는 도구는 부족한 실정이다. 몇몇 프롬프트 도구를 이용해 보았지만

[잡담] 일론 머스크 vs 마크 저커버그 PK 누가 이길까? GPT, Bard, LLaMA에게 분석 맡겨보기.
얼마전 전세계를 뜨겁게 달구었던, 그리고 현재 협상 진행중(?) 이라는 일론 머스크vs마크 저커버그 현피 사건! (세상에서 제일 재밌다는 3대 구경 불구경, 물구경, 싸움구경 ㅎ) 각종 커뮤니티에 전력분석하는 글들을 흥미롭게 봤는데, 문득 LLM 기반 챗봇들은 어떤 분석을 내놓을까? 하는 궁금증이 생겼다. bring me popcorns..!!! 그래서 OpenAI의 GPT, google의 Bard, 그리고 Meta의 LLaMA(LLaMA 2)에게 각각 물어보고 그 결과를 비교해보자 한다. LLa

[AI] Meta, 오픈소스 기반의 Llama 2를 공개하다.
어제 메타에서 대형언어모델 라마(Llama) 2를 공개했습니다. 오픈소스고, 다운받아서 로컬에서 사용이 가능하며 파인튜닝도 가능합니다. 또한 1에서 2로 넘어오며 상업적 사용이 가능해졌습니다. 상업적 사용이 가능한데 로컬로 돌릴 수 있는 대형언어모델! GPT를 사용하는 것 보다 보안 이슈에서 자유로울 수 있을 것 같네요. 성능은 GPT 3.5와 비슷한 수준이라고 합니다. 다운로드 링크: https://ai.meta.com/llama/

[LLaMA 관련 논문 리뷰] 02-Scaling Instruction-Finetuned Language Models (Instruction Tuning)
이전 글에 이어서 Instruction Tuning 관련 논문을 리뷰하겠습니다. 오늘 리뷰할 논문은 Instruction Tuning에 CoT prompting을 추가하여 모델의 성능 향상 (특히 reasoning ability)를 증진할 수 있는지 실험한 논문입니다. Scaling Instruction-Finetuned Language Models(2022) idea unseen task에 대한 인공지능 모델의 추론 능력을 향상시키는 것이 중요한 goal이죠. NLP에서는 사전학습 모델을 통해 상당한 성취가 이뤄졌는데요, 특히 instruction tuning은 few-shot examplars의 개수를 감소시키는 데 중요한 역할(모델이 적은 예시로도 unseen task를 추론할 수 있도록 향상시켰

[LLaMA 관련 논문 리뷰] 01-FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (Instruction Tuning)
LLaMA: Open and Efficient Foundation Language Models LLaMA는 Open and Efficient Foundation 언어 모델입니다. 오픈소스를 제공하지 않는 closed source 모델들로 인해 점차 ai업계가 폐쇄적으로 변해가는데요, Meta는 open source 모델을 공개하고 있습니다. LLaMA 역시 open source 모델이며 공개 데이터만으로 학습되었습니다. 여기서 open이라는 수식어가 설명되네요. 그렇다면 Efficient Foundation은 어떻게 이해하면 될까요? 그동안의 Large Language Models(LLMs)들은 주로 Transformer를 backbone으로 하여 대규모 데이터셋을 대규모 컴퓨팅 리소스로 학습하여 그 성능을 경쟁하였습니다. 실상 그만큼의 budget이 없다면 이 시장에 뛰어들 수가 없겠죠. 학습 뿐만 아니라 추론 시에도 마찬가지입니다. 모델을 서비스하는 입장에서 생각해봅시다.
Meta AI에서 개발한 ChatGPT의 대항마, LLaMA
LLaMA: Open and Efficient Foundation Language Models 라마가 등장하기까지 ChatGPT로 세계가 떠들썩한 2023년 2월 24일, 메타AI (페이스북)에서 라마(LLaMA)를 발표했습니다. 사실 메타가 언어 모델을 발표한 것은 이번이 처음이 아닙니다. 2022년 5월에 OPT-175B를 발표했습니다. 그런데 OPT는 GPT3와 모델 크기는 같지만 성능이 많이 뒤쳐졌습니다. [OPT 논문](https://arxiv.org/ab

LLMs 전성시대! (Meta) LLaMA, (Stanford) Alpaca 알아보기
openai chatGPT가 공개됨에 따라, 대형 언어 모델(LLMs)들에 대한 연구가 주목 받고 있는 것 같다. 얼마 전 Meta에서 공개한 파운데이션 LLMs인 LLaMA와 스탠포드 대학에서 LLaMA를 기반으로 학습한 모델 Alpaca에 대해서 알아보고자 한다. 여기서 파운데이션 모델이란, 대용량의 unlabeled dataset으로 사전학습하고 다양한 다운스트림 태스크에 파인튜닝하여 응용할 수 있는 모델들을 말한다. LLaMA: Open and Efficient Foundation Language Models(2023) (들어가기 전.. 🔎) LLaMA 모델의 핵심은 트랜스포머 아키텍쳐를 기반으로 하면서 GPT와 같은 few-shot learning 방식을 사용하지

LLaMA, (Ko)Alpaca, Dalai (!)
요즘 LLaMA 가 핫하길래 순전히 내 궁금증 해소 차원에서 메모를 남긴다. 기술블로그 포스팅은 다른 사람이 정보를 이해하기 쉽도록 일목요연하게 쓰면 좋겠으나 그러려면 글을 쓰는 수고가 많이 들 테고, 나는 내 궁금증만 해결하면 되는데 너무 input 이 크다. (사실 라마는 남아메리카 안데스의 가축인지라 안데스 산맥이 뻗어 있는 국가의 언어인 스페인어로 읽으면 '야마' 지만 야마는 왠지 한국인에게는 어감이 별로니 남들처럼 라마라고 부르는 걸로 😅) LLaMA > Large Language Model Meta AI ChatGPT 가 몰고 온 생성 바람에 Meta 도 LLaMA 를 공개하며 맞섰는데 오픈소스 AI의 명가 Meta 답게 서비스가 아니라 LLM 을 공개한 점이 흥미롭다. 특징 OpenAI, Google 의 LLM 보다 적은 parameter -> 적은 컴퓨팅 파워로 큰 성능 비결 : 고품질 데이터로 train (train 에 사용하는 토큰 양을

List of Open Sourced LLM like ChatGPT
_글 작성 - 23.3.15 업데이트 - 23.4.5_ OpenAI의 ChatGPT는 정말 훌륭한 서비스이지만, 운영 및 보안적인 측면에서 컨트롤하기 어렵고 비용적인 문제도 발생한다. 만약 ChatGPT에 못지않은 성능을 내면서 자신만의 안전한 서버에서 실행할 수 있다면 어떨까? 최근 한달 사이에 ChatGPT를 겨냥한 오픈소스 프로젝트들이 많이 공개되었다. 물론 이러한 오픈소스 프로젝트들이 아직까지 ChatGPT, GPT-4와 동등한 성능이라 말하기 어렵다. 하지만, 꽤 준수한 성능을 보이고 있고, 최근 양자화 기술이 접목되어 개인 랩탑에서도 ChatGPT와 같은 LLM 모델을 실행할 수 있는 수준에 이르렀다. 이에 일부 주목받고 있는 오픈소스 LLM 프로젝트들에 대해 정리해보았다. OpenChatKit Vicuna GPT4ALL ColossalChat OpenChatKit (by TOGETHER) ![](https://velog.velcdn.c