Transformer
기반 아키텍처에서 파생된 AI 모델ㅇ 활용분야
[ 의료 ] 전자의무기록(EMR) 처리, 임상시험 매칭, 신약 발견 등
[ 금융 ] 사기 탐지, 금융 뉴스의 감정 분석, 트레이딩 전략 도출 등
[ 컨택센터 ] 챗봇/보이스봇, 가상 어시스턴트 등
ㅇ 발전 과정 (2001 - 현재)
(2001) 신경망 언어모델
(2013)Word2Vec
(2014-2017)Seq2Seq + Attention
(2017~ )LLM + Transformer
✔ 토큰이란?
: LLM의 기본 입력 단위로, 의미를 가지는 가장 작은 단위를 의미
: 형태소, 단어, 구절 등 다양한 형태로 구성 가능
:n-gram
= n개의 연속적인 토큰으로 구성된 시퀀스
✔ 시퀀스란?
: LLM에서 순차적으로 나열된 토큰들의 묶음 을 "시퀀스(sequence
)" 라 칭함
:Sequence Length
= 토큰 수/단어 수📖 사전적 의미
1. 학습에서, 단원이 발달하여 가는 차례.
2. 영화에서, 하나의 이야기가 시작되고 끝나는 독립적인 구성단위. 극의 장소, 행동, 시간의 연속,...
3. 카드놀이에서, 숫자가 연속된 석 장 이상의 같은 종류 카드
self-attention
계산 방식 활용✔ 장거리 종속성 (
long-range dependency
)
: 어떠한 문장이나 시퀀스 내에서 서로 먼 위치에 있는 단어 혹은 구문 간 의존 관계
✔ 입력 문맥 윈도우 (
context window
)
: AI와 머신러닝에서 모델이 예측을 위해 한 번에 참조할 수 있는 최대 텍스트 양
✔ 자동 인코딩 작업
: 알려진 어휘 내에서, 문장 내 누락된 단어를 채우도록 요청
: 누락된 토큰의 양쪽 모두에서 문맥 파악 가능 (자기회귀 작업과의 차이점)" ___ 하지 않으면 과태료가 부과됩니다."
✔ 자기회귀 작업
: 알려진 어휘 내에서, 주어진 문장 바로 다음에 가장 가능성 높은 토큰을 생성하도록 요청
: 누락된 토큰의 이전 문맥만 파악 가능" If you don't ___," >> mind, have, want, ...
💡 자동 인코딩 vs. 자기회귀
자동 인코딩 작업 | 자기회귀 작업 |
---|---|
전체 문맥을 파악해 누락된 토큰 예측 | 이전 토큰만으로 다음에 올 토큰 예측 |
Incoder | Decoder |
마스크 없이 전체 토큰에 접근 가능 | 앞선 토큰만 남기고, 그 외 토큰은 모두 마스킹 |
전체 문장의 양방향 표현 생성에 유리 | 주어진 문장 뒤에 이어질 텍스트 생성에 유리 |
ex. BERT | ex. GPT |