[도서] 쉽고 빠르게 익히는 실전 LLM : LLM 정의

­chae-zero·2024년 10월 22일
0

DX

목록 보기
2/2
post-thumbnail

📍 LLM (Large Language Modeling)이란?

  • 큰 크기와 광범위한 데이터셋에 기반해 텍스트 생성 및 분류 등 복잡한 언어 작업을
    (거의 혹은 전혀) 파인튜닝 없이 높은 정확도로 수행할 수 있는 언어 모델
  • 모델별로 디스크 크기, 메모리 사용량, 파라미터 수, 사전 훈련 데이터량 등에 차이가 존재

📍 LLM은 어떻게 동작하고, 왜 중요한가?

  • LLM은 대부분 Transformer 기반 아키텍처에서 파생된 AI 모델
  • 사람의 언어 , 코드 등을 이해하고 생성하기 위해 설계

ㅇ 활용분야
[ 의료 ] 전자의무기록(EMR) 처리, 임상시험 매칭, 신약 발견 등
[ 금융 ] 사기 탐지, 금융 뉴스의 감정 분석, 트레이딩 전략 도출 등
[ 컨택센터 ] 챗봇/보이스봇, 가상 어시스턴트 등

ㅇ 발전 과정 (2001 - 현재)
(2001) 신경망 언어모델
(2013) Word2Vec
(2014-2017) Seq2Seq + Attention
(2017~ ) LLM + Transformer


📍 토큰(Token) & 시퀀스(Sequence)

✔ 토큰이란?
: LLM의 기본 입력 단위로, 의미를 가지는 가장 작은 단위를 의미
: 형태소, 단어, 구절 등 다양한 형태로 구성 가능
: n-gram = n개의 연속적인 토큰으로 구성된 시퀀스

✔ 시퀀스란?
: LLM에서 순차적으로 나열된 토큰들의 묶음"시퀀스(sequence)" 라 칭함
: Sequence Length = 토큰 수/단어 수

📖 사전적 의미
1. 학습에서, 단원이 발달하여 가는 차례.
2. 영화에서, 하나의 이야기가 시작되고 끝나는 독립적인 구성단위. 극의 장소, 행동, 시간의 연속,...
3. 카드놀이에서, 숫자가 연속된 석 장 이상의 같은 종류 카드


📍 '트랜스포머(Transformer)'란 무엇인가?

  • 시퀀스 내 각각의 단어들이 다른 모든 단어에 "주의를 기울이게" 하여,
    단어 간 "장거리 종속성" 및 문맥 관계를 포착하는 self-attention 계산 방식 활용
  • 한 번에 처리 가능한 텍스트의 최대 길이, 즉 "입력 문맥 윈도우"에 대해서는 여전히 제한적

✔ 장거리 종속성 (long-range dependency)
: 어떠한 문장이나 시퀀스 내에서 서로 먼 위치에 있는 단어 혹은 구문 간 의존 관계

✔ 입력 문맥 윈도우 (context window)
: AI와 머신러닝에서 모델이 예측을 위해 한 번에 참조할 수 있는 최대 텍스트 양


📍 언어 모델링 (Language Modeling)

  • 언어 모델링이란, 지정된 어휘 내의 토큰 시퀀스 가능성을 예측하기 위한 통계/딥러닝 모델의 생성을 포함
  • NLP의 일종으로, 언어 모델링보다 NLP가 상위의 개념
  • 대표적으로 자동 인코딩 작업, 자기회귀 작업 등이 있음
  • LLM은 자동 인코딩, 자기회귀, 혹은 두 가지 언어 모델의 조합이 될 수 있는 언어모델

✔ 자동 인코딩 작업
: 알려진 어휘 내에서, 문장 내 누락된 단어를 채우도록 요청
: 누락된 토큰의 양쪽 모두에서 문맥 파악 가능 (자기회귀 작업과의 차이점)

" ___ 하지 않으면 과태료가 부과됩니다."

✔ 자기회귀 작업
: 알려진 어휘 내에서, 주어진 문장 바로 다음에 가장 가능성 높은 토큰을 생성하도록 요청
: 누락된 토큰의 이전 문맥만 파악 가능

" If you don't ___," >> mind, have, want, ...

💡 자동 인코딩 vs. 자기회귀

자동 인코딩 작업자기회귀 작업
전체 문맥을 파악해 누락된 토큰 예측이전 토큰만으로 다음에 올 토큰 예측
IncoderDecoder
마스크 없이 전체 토큰에 접근 가능앞선 토큰만 남기고, 그 외 토큰은 모두 마스킹
전체 문장의 양방향 표현 생성에 유리주어진 문장 뒤에 이어질 텍스트 생성에 유리
ex. BERTex. GPT
profile
사람 재미를 아는 길잡이가 될래요

0개의 댓글