Ref: https://velog.io/@gy77/Review-A-Survey-of-Large-Language-Models-Chapter-2
일반적으로 Large Language Models(LLMs)는 방대한 텍스트 데이터로 수천억개(또는 그 이상의) 파라미터를 가지는 Transformer language model를 의미함.
LLMs에 대한 빠른 이해를 위해, 이 섹션에서는 LLMs의 주요 등장배경인 Scaling Law와 Emergent Ability에 대해 소개함.
기존 언어모델들은 일반적으로 기본적인 Transformer 아키텍처의 구조와 Pre-training objective (e.g., language modeling)을 따랐음.
그러나, LLM은 Transformer 아키텍처에서 model size, data size, total compute (orders of magnitude) 부분이 크게 확장된 것임.
이전 연구들은 LLM의 스케일을 확장하는 것이 model capacity를 향상시키는 데 도움을 준다는 것을 발견하였음.
그리고, 그것을 정량화하여 LLM의 performance에 영향을 줄 수 있는 다양한 요인들과 그것의 영향에 대한 특정 공식을 도출해내고자 하였음. (Scaling Law/스케일링 법칙)
이후부터는 Transformer language model을 위한 스케일링 법칙의 가장 대표적인 두 가지 예시를 소개하고자 함.
✅ KM Scaling Law (2020) : 2020년 OpenAI 팀은 거대언어모델의 성능과 세 가지의 주요 요인들 간의 관계를 설명하였음.
더 큰 모델, 더 많은 데이터, 더 많은 컴퓨팅을 사용하면 예측 가능한 방식으로 성능이 항상됨. (Power-law) 모델의 크기와 데이터 크기를 동시에 늘리면 성능은 예측 가능하게 증가하지만, 한쪽을 고정하면 어느 시점에서 성능이 향상되지 않음. 즉, 큰 모델은 성능 향상을 위해 더 많은 데이터를 필요로 함.
✅ Chinchilla Scaling Law (2022):
Google DeepMind team이 2022년에 발표한 스케일링 법칙. 이전 연구보다 다양한 스케일의 모델과의 비교를 통해 다른 관점에서의 Scaling Law 제시하였음.
같은 Compute budget 데이터 크기보다 모델의 크기를 더 늘리는 것을 권장했던 이전 연구와는 달리 Chinchilla는 모델, 데이터셋 두 크기를 동일한 스케일로 늘려야 한다고 주장.
같은 계산 비용이라면 더 작은 모델을 더 많은 데이터로 학습시키면 더 좋은 성능을 얻을 수 있다고 주장함. (이전 연구보다 학습 데이터의 양을 보다 강조)
Predictable Scaling
실제로 Scaling Law는 보다 작은 규모의 언어 모델을 Scale up할 때 인풋 대비 성능을 안정적으로 추정할 수 있게 만들었음.
그런데 향후 가용 LLM 훈련 데이터가 소진(exhausted)될 수 있는 환경에서, 데이터 증강 등의 추가적인 기법들을 사용한 LLMs에 Scaling Law이 어떻게 적용될 지에 대한 연구 필요할 것임.
Task-level predictability
기존의 scaling laws 연구들은 대부분 language modeling loss(e.g., per-token cross-entropy loss)에 초점을 맞춘 반면, 우리가 실제로 관심 있는 것은 actual tasks들을 수행하는 LLM의 성능임.
이에 따라 근본적인 문제는 어떻게 language modeling의 loss의 감소가 task performance의 향상으로 이어질 수 있냐는 것임.
최근 연구들에서 LLMs의 특정 작업(Coding ability)의 성능이 어떻게 정확하게 scaling law를 통해 예측될 수 있는지 연구된 사례도 있음. 일부 테스크에서는 inverse scaling이 발생한다는 사례도 보고되었음. (손실 감소-특정 작업 성능하락)
우리는 언어 모델링 측면에서의 Loss의 감소가 항상 Downstream task의 성능 향상을 의미하지는 않는다는 것을 알고있어야 함.
LLM의 Emergent abilities는 종종 "The abilities that are not present in small models but arise in large models"로 정의되며, 이는 LLM과 PLM을 구별하는 가장 두드러지는 특징 중 하나로 고려되고 있음.
Performance rises significantly above random when the scale reaches a certian level.
추가적 훈련 없이도 test inference 가능
instruction tuning => A-B pair 보고 학습하렴~
일반화 능력 상승
단계별 추론!
LLM이 general하고 capable한 learner로 될 수 있게 만들어주었던 핵심 기법들에 대해 소개
General-purpose task solver로서의 GPT 성공에는 두 가지 키포인트가 있음.
GPT-2가 unsupervised multitask learner로 소개되긴 했으나, 이것은 여전히 supervised fine-tuning sota 모델보다 inferior했음.
GPT-2를 바탕으로 GPT-3은 generative pre-training architecture를 scaling함으로써 key capacity leap을 입증하였음.
✅ GPT-3 (2020): meta learning, in-context learning이 가능하게 함! 모델을 상당한 크기로 늘렸을 때 성능이 크게 증가할 수 있다는 것을 경험적으로 보여준 사례임.
✅ GPT-3.5:
✅ ChatGPT
ChatGPT는 InstructGPT와 유사한 방식으로 학습되었음 (called "a sibling model to InstructGPT" in the original post) 그러면서도 dialoge에 특화된 모델이라고 할 수 있음.
특히, 두 모델은 학습 데이터에서 차별화되어 있음. ChatGPT의 데이터는 InstructGPT의 데이터에 추가적으로 human-generated conversations (playing both the roles of user and AI)를 훈련한 것임. 이를 통해 기본적인 상식, 인간의 지시를 이해하는 능력을 유지할 뿐만 아니라 multi-turn 대화이해 능력까지 보유할 수 있게 됨.
✅ GPT-4
2023년 3월 출시, 멀티모달 입력을 지원하는 모델임. GPT-3.5보다 더 복잡한 테스크를 해결할 수 있으며 추가적인 alignment (RLHF traninig) 통해 환각, 프라이버시, 악의적인 쿼리에 보다 안전하게 응답할 수 있게 됨.
또한 이때 OpenAI는 predictable scaling이라는 새로운 메커니즘을 소개하였음. (모델 훈련 중 small proportioin of compute 만으로 final performance를 정확히 예측할 수 있는 기법) => 미리 예견해서 학습해야하는 거 좀 대비 가능해졌다
✅ GPT-4V, GPT-4 turb, and beyond
어쨌든 계속해서 목적은 사람의 일을 얼마나 대체하여 잘 할 수 있는가구나?!
어떤 점이 인간을 대체하기 힘든지를 확인하는 게 중요하겠다.
kdd 연구할 때 COT ablation 구조 짜봐야겠다!