ingsong: NLP Researcher

ingsong: NLP Researcher

[NLP] XGen-7B 이란?

잉송·2023년 7월 6일

AI LLM NLP XGEN XGen-7B 언어모델 자연어 자연어처리 초거대언어모델

0

NLP

목록 보기

9/10

XGen-7B 이란?

1.5T 토큰에 대해 최대 8K sequence length로 훈련한 7B LLM

Codebase: https://github.com/salesforce/xGen
Model Checkpoint: https://huggingface.co/Salesforce/xgen-7b-8k-base

지금까지의 연구

방대한 양의 데이터를 모델이 훈련함으로써 여러 복잡한 언어 관련 작업을 해결

해결하고 싶은 것

더 넓은 맥락을 포함하기 위해 긴 형식 콘텐츠를 처리

이것이 필요한 이유?

텍스트의 여러 부분 간의 연결을 식별하고 가장 관련성이 높은 정보 추출 가능

더 넓은 범위의 지식을 이용해 보다 정확하고 상황에 맞는 답변을 제공 가능

현상황

Meta의 LLaMA, MosaicML의 MPT 등 대부분의 사용 가능한 오픈 소스 LLM은 최대 2K sequence length만큼 훈련
연구 결과로 동일 예산에서 훈련된 큰 모델보다 더 많은 수의 토큰으로 훈련된 작은 모델이 더 우수한 성능을 보임.

XGen-7B 결과

Salesforce Research는 1조 5,000억 개의 토큰에 대해 8K 시퀀스 길이로 훈련된 일련의 7B LLM인 XGen-7B를 도입하여 획기적인 성과를 거둠
NLP 벤치마크에서 XGen이 MPT, Falcon, LLaMA 등과 같은 유사한 크기의 다른 최신 LLM과 비교할 때 비슷하거나 더 나은 결과를 달성

XGen-7B 종류

XGen-7B-4K-Base (4K 시퀀스 길이 지원)
XGen-7B-8K-Base (8K 시퀀스 길이 지원)
XGen-7B-8k-Inst (8K 시퀀스 길이 지원) 공개 도메인 교육 데이터에서 미세 조정. 연구 목적으로만 공개됨

훈련 방식

기본적으로 LLaMA의 가이드라인을 따랐으며 두 가지 방식 추가
- 첫 번째 방식
  훈련 중에 손실이 갑자기 일시적으로 증가하는 "loss spikes"을 밝히는데 중점을 뒀다.
  본 연구자들은 "sequential over parallel circuits", "swish-GLU over GeLU" 및 "RMS-Norm over Layer-norm"을 원인으로 예상
- 두 번째 방식
  긴 시퀀스로 훈련하면 self-attention의 2차 복잡성으로 인해 훨씬 더 높은 계산 비용이 발생하기 때문에 단계적 훈련 방식 채택.
  훈련 초기의 시퀀스 길이를 2k 토큰인 800B 토큰으로 훈련, 다음에는 4k 길이의 400B 토큰, 마지막으로 8k 길이의 300B 토큰을 포함하여 훈련.

평가 방식

긴 형식의 대화 생성, 텍스트 요약 및 질문 답변을 사용하여 평가를 수행한다.

데이터: AMI 회의 요약, ForeverDreaming 및 TVMegaSite 시나리오 요약 활용

다른 여러 instruction fine-tuning과 비교하여 가장 높은 점수를 획득하여 뛰어난 성능을 보여줌.
2k 토큰으로 제한되는 기본 모델을 능가한 우수한 성능
긴 형식의 대화 생성, 질의 응답 및 텍스트 요약을 비롯한 다양한 작업에서 더 긴 컨텍스트를 이해하는 데 탁월

Reference

NLP 공부하는 사람

이전 포스트

[NLP] PEFT-IA3로 LLM 학습하기

다음 포스트

[OpenAI Agent SDK] Handoff 란?

0개의 댓글