
글로벌 대규모 언어 모델(LLM) 개발 경쟁이 치열해지고 있습니다. Closed-Source 모델이 여전히 성능 우위를 점하고 있지만, Open-Weight 모델들이 수천억 파라미터를 넘어 조(trillion) 단위 스케일로 공격적으로 확장하며 그 격차를 빠르게 좁히고 있습니다.
그러나 한국의 상황은 독특한 도전을 안고 있습니다. 글로벌 선두 국가 대비 AI 전용 데이터센터와 AI 칩이 상대적으로 부족하여, 그간 수백억(tens of billions) 파라미터 수준의 비용 효율적 소규모 모델 개발에 집중해왔습니다. 하지만 AI 전환의 근본적 기반을 확보하려면 글로벌 최상위 수준의 성능을 갖춘 대규모 모델이 필수적입니다. 이러한 인프라 격차를 해소하기 위해 한국 정부가 GPU 등 핵심 자원을 제공하는 전략적 프로그램을 시작했고, LG AI Research가 이 지원을 활용하여 개발한 것이 바로 K-EXAONE입니다.
K-EXAONE은 이전 모델인 EXAONE 4.0의 하이브리드 아키텍처(추론/비추론 통합)를 계승하면서, 세 가지 핵심 혁신을 도입합니다.
GitHub: https://github.com/LG-AI-EXAONE/K-EXAONE
Hugging Face: https://huggingface.co/LGAI-EXAONE/K-EXAONE-236B-A23B

(참고) K-EXAONE 성능표, Technical Paper 발췌
K-EXAONE은 기존 EXAONE 시리즈의 Dense 모델링 패러다임에서 벗어나, 100B+ 규모 모델 학습에서 점점 보편화되고 있는 MoE 아키텍처를 채택합니다. 핵심 설계 철학은 높은 표현 다양성과 자원 효율적 학습/추론의 양립입니다.
구체적으로, 128개의 Expert 풀에서 토큰당 Top-8 Expert를 라우팅하고, 여기에 1개의 Shared Expert를 추가하여 총 9개의 Expert가 동시에 활성화됩니다. 총 파라미터가 236B이지만 활성 파라미터는 약 23B에 불과하여, Dense 모델 대비 훨씬 효율적인 연산이 가능합니다.
MoE 구조에서 핵심적인 라우팅 안정성과 Expert 활용 효율을 위해 두 가지 기법을 적용합니다.
Sequence-Level Load Balancing은 "routing stability and expert utilization efficiency"를 위한 것으로, 특정 Expert에 토큰이 몰리는 현상(Expert Collapse)을 방지합니다.
Dropless Routing(자세한 내용은 MegaBlocks 논문 참고)은 "all tokens are dispatched to experts without capacity-based dropping"이 핵심입니다.
이 두 기법의 조합은 대규모 MoE 학습에서 Gradient Flow를 안정화하고 수렴 행동을 개선하는 데 핵심적입니다.

(참고) K-EXAONE 아케텍쳐, Technical Paper 발췌
(위 그림 참고) K-EXAONE의 Main Block은 총 48개 레이어로 구성되며, Sliding Window Attention(SWA) 36개 레이어와 Global Attention(GA) 12개 레이어가 혼합된 Hybrid Attention 구조를 따릅니다.
이는 전체 레이어에 GA를 적용하는 것 대비 메모리 소비와 연산 오버헤드를 크게 줄이면서도 Long-Context 모델링 능력을 유지하는 설계입니다.
블록 구조의 흐름을 텍스트로 표현하면 다음과 같습니다.
입력 토큰
→ Embedding
→ [SWA + Sparse MoE] × 3 레이어
→ [GA + Sparse MoE] × 1 + [SWA + Sparse MoE] × 3 반복 × 12
→ [GA + Sparse MoE] × 1
→ RMSNorm → LM Head → 출력
* 각 블록 내부: Attention → RMSNorm → Sparse MoE (128 experts, top-8 + 1 shared) → RMSNorm
* 첫 번째 레이어만 MoE 대신 Dense FFN (hidden size: 18,432) → 학습 안정성 확보
여기서 주목할 설계 결정이 몇 가지 있습니다.
[블록 1] SWA + Dense FFN ← ★ 여기만 Dense FFN (MoE 아님)
[블록 2] SWA + Sparse MoE
[블록 3] SWA + Sparse MoE
[블록 4] GA + Sparse MoE
─── 위가 첫 번째 반복 단위 ───
[블록 5] SWA + Sparse MoE
[블록 6] SWA + Sparse MoE
[블록 7] SWA + Sparse MoE
[블록 8] GA + Sparse MoE
─── 두 번째 반복 단위 ───
... (같은 패턴 반복) ...
[블록 45] SWA + Sparse MoE
[블록 46] SWA + Sparse MoE
[블록 47] SWA + Sparse MoE
[블록 48] GA + Sparse MoE
─── 열두 번째 반복 단위 ───
SWA의 Window Size를 기존 4,096에서 128로 대폭 축소한 것은, Long-Context 추론 시 KV-Cache 사용량을 극단적으로 줄이면서도 모델링 용량을 보존하기 위한 것입니다.
Attention Head는 Query 64개, Key-Value 8개의 Grouped Query Attention(GQA) 구성이며, Head Dimension은 128입니다.
학습 안정성과 Long-Context 외삽을 강화하기 위해 EXAONE 4.0에서 두 가지 기법을 계승합니다.
K-EXAONE은 Dense Layer 기반의 MTP 모듈을 통합하여 현재 토큰뿐 아니라 미래 토큰까지 예측하는 보조 학습 목표를 적용합니다.
(참고)
Q. NEXT TOKEN PREDICTION 원래하는거 아닌가?
A. 맞습니다.
- NTP는 모든 Autoregressive LLM의 기본 학습 목표입니다.
- K-EXAONE도 당연히 NTP를 합니다. 다른 점은 NTP에 더해서 MTP를 추가로 한다는 것입니다.
NTP만 하는 경우 (표준 LLM)
일반적인 LLM은 각 위치에서 바로 다음 토큰 하나만 예측합니다.
입력: "나는 오늘 학교에"
↓ ↓ ↓ ↓
예측: "오늘" "학교에" "갔다" "."
각 위치에서 Loss 계산:
Position 1: "나는" → "오늘" 예측 (Loss_1)
Position 2: "오늘" → "학교에" 예측 (Loss_2)
Position 3: "학교에" → "갔다" 예측 (Loss_3)
Position 4: "갔다" → "." 예측 (Loss_4)
총 Loss = Loss_1 + Loss_2 + Loss_3 + Loss_4
NTP + MTP를 하는 경우 (eg. K-EXAONE)
K-EXAONE은 NTP에 더해서, 각 위치에서 +1 미래 토큰도 동시에 예측합니다.
입력: "나는 오늘 학교에"
↓ ↓ ↓ ↓
NTP: "오늘" "학교에" "갔다" "." ← Main Block (기존과 동일)
MTP: "학교에" "갔다" "." "끝" ← MTP Block (한 칸 더 미래)
총 Loss = NTP Loss + 0.05 × MTP Loss
각 위치에서 두 개의 예측이 나옵니다.
직관적으로 생각해보기
직관적으로 비유하면 이렇습니다.
- NTP만 하는 것은 바둑에서 한 수 앞만 보고 두는 것이고, MTP를 추가하는 것은 두 수 앞까지 보고 두는 것입니다.
- 두 수 앞을 보려면 현재 상태에 대한 이해가 더 깊어야 하므로, 결과적으로 한 수 앞 예측의 품질도 함께 좋아집니다.
- 이것이 MTP가 "보조 학습 목표(Auxiliary Objective)"로서 모델 전체의 표현력을 향상시키는 원리입니다.
이 모듈(MTP BLOCK)의 역할은 이중적입니다.
학습 시에는 Future-Token 예측 능력을 향상시키는 Auxiliary Loss로 기능하고, 추론 시에는 Self-Drafting에 활용되어 표준 Autoregressive Decoding 대비 약 1.5배의 디코딩 처리량 향상을 달성합니다.
MTP Block 자체의 파라미터 수는 0.52B으로 매우 경량이며, Dense Layer 기반 설계를 통해 라우팅 오버헤드와 메모리 소비를 최소화합니다. MTP Block은 Main Block의 LM Head와 Embedding을 공유(shared)하여 추가적인 파라미터 부담을 줄입니다.
| 구성 요소 | 세부 설정 | 값 |
|---|---|---|
| Main Block | Layers (Total / SWA / GA) | 48 / 36 / 12 |
| Sliding Window Size | 128 | |
| Attention Heads (Q / KV) | 64 / 8 | |
| Head Dimension | 128 | |
| Experts (Total / Shared / Activated) | 128 / 1 / 8 | |
| Parameters (Total / Activated) | 236B / 23B | |
| MTP Block | Attention Heads (Q / KV) | 64 / 8 |
| Head Dimension | 128 | |
| Parameters | 0.52B |
SuperBPE: 단어 시퀀스를 하나의 토큰으로
기존 BPE(Byte Pair Encoding)는 자주 등장하는 문자 쌍을 반복적으로 합쳐서 서브워드 토큰을 만듭니다.
[일반 BPE]
"인공지능 모델" → ["인공", "지능", " 모", "델"] (4 토큰)
[SuperBPE - Superword 토큰이 있는 경우]
"인공지능 모델" → ["인공지능 모델"] (1 토큰)
이것이 Bytes per Token 향상의 핵심 메커니즘입니다.
Superword Token이 전체 어휘의 약 20%를 차지하며, 영어:한국어:다국어 = 2:3:1 비율로 할당됩니다.
어휘 확장 전략: 100K → 150K
단순히 어휘를 늘리는 것이 아니라 전략적으로 재배분합니다.
EXAONE 4.0 (100K 어휘):
[한국어/영어/스페인어 토큰들] ← 전부 사용
K-EXAONE (150K 어휘):
[기존 고빈도 70% 보존] ← 100K의 70% = 70K 토큰 유지
[추가 언어: 독일어/일본어/베트남어] ← 새로 할당
[STEM/코드 도메인 확장] ← 새로 할당
[Superword 토큰 (~30K)] ← 새로 할당
기존 어휘의 고빈도 70%를 보존하는 이유는, 자주 쓰이는 토큰을 제거하면 기존 언어 처리 능력이 크게 훼손되기 때문입니다. 저빈도 30%를 제거하고 그 자리에 새로운 언어와 도메인 토큰을 채워 넣는 효율적인 전략입니다.
Unicode Normalization: NFKC → NFC
Unicode Normalization은 컴퓨터에서 같은 글자를 여러 방식으로 표현할 수 있는 문제를 해결하기 위한 표준입니다. 예를 들어 한글 "가"는 완성형 코드(U+AC00) 하나로 표현할 수도 있고, 초성 ㄱ(U+1100) + 중성 ㅏ(U+1161)의 조합으로 표현할 수도 있습니다. 사람 눈에는 동일하지만 컴퓨터에게는 다른 바이트 시퀀스이므로, Tokenizer가 같은 글자를 다른 토큰으로 처리할 수 있습니다. 이런 혼란을 방지하기 위해 "같은 글자는 같은 방식으로 통일하자"는 것이 Unicode Normalization의 목적입니다.
NFC와 NFKC는 둘 다 표현을 통일하지만, 통일하는 범위가 다릅니다. NFC(Canonical Decomposition + Composition)는 "진짜 같은 글자"만 통일합니다. "가"의 조합형과 완성형처럼 동일한 문자의 다른 표현만 정규화하고, "²"(위첨자 2)와 "2"(일반 숫자 2)처럼 유니코드에서 별개의 문자로 정의된 것은 구분을 존중합니다. 반면 NFKC(Compatibility Decomposition + Composition)는 "비슷하게 생긴 글자"까지 적극적으로 통일합니다.
NFKC (기존 - 적극적 통일):
"x²" → "x2" (위첨자 2를 일반 2로 변환)
"㎞" → "km" (킬로미터 기호를 알파벳으로 분해)
"fi" → "fi" (합자를 분리)
"Ⅳ" → "IV" (로마 숫자를 알파벳으로 분해)
NFC (K-EXAONE - 보수적 통일):
"x²" → "x²" (위첨자 2를 그대로 보존)
"㎞" → "㎞" (킬로미터 기호 보존)
"fi" → "fi" (합자 보존)
"Ⅳ" → "Ⅳ" (로마 숫자 보존)
일반 텍스트에서는 NFKC의 적극적 통일이 편리합니다. "㎞"를 검색할 때 "km"으로도 찾을 수 있기 때문입니다.
하지만 STEM과 코드 도메인에서는 이 통일이 의미를 파괴합니다.
print("㎞")와 print("km")은 다른 동작을 수행합니다. NFC는 이런 의미적 차이를 보존하면서 동일 문자의 중복 표현만 정리하므로, STEM과 코드 도메인의 텍스트를 정확하게 처리할 수 있습니다. K-EXAONE이 STEM과 코드 Vocabulary를 확장한 것과 같은 맥락의 설계 결정입니다.
K-EXAONE의 학습은 크게 네 단계로 이루어집니다.
K-EXAONE의 사전학습은 총 11T(11조) 토큰, FLOPs 규모로 수행됩니다.
이 학습은 3단계 커리큘럼으로 구성되어 점진적으로 능력을 쌓아갑니다.
이런 단계적 접근은 "기초 → 심화 → 응용"으로 이어지는 학습 설계로, 각 단계가 이전 단계 위에 쌓이는 구조입니다.
학습 셋업에서 주목할 점은 FP8 정밀도로 네이티브 학습을 수행한다는 것입니다.
K-EXAONE은 FP8으로 학습하면서도 BF16과 동등한 Loss 곡선을 달성했다고 보고하며, 이는 대규모 MoE 모델에서도 FP8 학습이 실용적임을 보여줍니다.
Optimizer로는 Muon을 채택하고, Learning Rate Scheduler는 Warmup-Stable-Decay(WSD)를 사용합니다.
다국어 확장에서는 Cross-Lingual Knowledge Transfer를 활용한 합성 코퍼스를 생성합니다.
또한 Thinking-Augmented Data Synthesis를 통해 사전학습 데이터에 명시적 추론 과정을 포함시킵니다.
사전학습된 기본 모델은 8K 토큰의 Context Window를 가집니다. 이를 실세계 활용에 필요한 256K 토큰까지 확장하기 위해 2단계 Context Length Extension을 수행합니다.
Stage 1에서 8K → 32K로, Stage 2에서 32K → 256K로 점진적으로 넓혀갑니다. 두 단계 모두 동일한 세 가지 데이터 구성 요소를 사용하되, 각 단계의 목표에 맞게 비율을 조정합니다.
Rehearsal Dataset은 Context를 늘리는 학습에서 가장 큰 위험인 Short-Context 성능 저하를 방지합니다.
Synthetic Reasoning Dataset은 수학, 과학, 경쟁 프로그래밍 등 다단계 추론이 필요한 문제로 구성됩니다.
Long-Document Dataset은 실제 긴 문서(논문, 책, 보고서 등)를 Truncation 없이 전체를 한 학습 샘플로 사용합니다.
품질 검증에는 Needle-In-A-Haystack(NIAH) 테스트를 사용합니다.
(요약) Context Extension 학습 배치 구성 (한 배치 안에 세 종류가 섞임):
[Rehearsal 샘플] 짧은 일반 텍스트 (사전학습과 유사한 분포)
[Synthetic Reasoning] 수학/코드 추론 문제
[Long-Document] 긴 논문, 보고서 전체
Stage 1 (8K→32K): Rehearsal 비중 높음, Long-Doc은 32K 이내
Stage 2 (32K→256K): Long-Doc 비중 높음, 256K까지의 장문 포함
사전학습과 Context Extension이 끝난 모델은 방대한 지식과 Long-Context 처리 능력을 갖추고 있지만, 아직 "사용자와 대화하는 방법"을 모릅니다. Post-training은 이 모델을 실제 사용자 인터페이스에 적합하게 만드는 과정으로, 세 단계로 구성됩니다.
Supervised Fine-Tuning(SFT)을 통해 다양한 사용자 지시를 따르고 응답을 생성하는 능력을 학습합니다.
Agentic Tool Use 학습에서는 모델이 외부 도구(API, 웹 검색, 코드 실행기 등)를 호출하여 문제를 해결하는 능력을 학습합니다.
Web Search 수행 시에는 두 가지 Sub-Agent를 활용하여 Context 효율성을 개선합니다.
SFT까지 마친 모델은 사용자 지시를 따를 수 있지만, 수학 문제를 풀거나 코드를 작성하는 등의 추론 능력은 아직 최적화되지 않았습니다. RL 단계에서는 "정답을 맞히면 보상, 틀리면 페널티"라는 명확한 피드백으로 추론 능력을 강화합니다.
K-EXAONE은 수학, 코드, STEM, Instruction Following을 아우르는 Multi-Task RL을 수행합니다. 검증에는 두 가지 방식을 조합합니다.
최적화에는 AGAPO(Off-Policy Policy Gradient with Truncated Importance Sampling)를 사용합니다. 기본 아이디어는 이렇습니다.

이 수식의 각 구성 요소는 다음과 같은 역할을 합니다.
Advantage 계산은 두 단계로 이루어집니다.
(1) 먼저 Group-Level Advantage를 계산합니다.
한 질문에 대한 개 응답 내에서, 해당 응답의 보상()이 나머지 응답들의 평균 보상보다 얼마나 높은지를 계산합니다. 이렇게 하면 "쉬운 질문이라 모든 응답이 높은 보상을 받은 경우"와 "어려운 질문이라 모든 응답이 낮은 보상을 받은 경우"가 구분됩니다.
(2) 이어서 Global Normalization을 적용합니다.
전체 배치에 걸쳐 Advantage를 정규화하여, 배치 수준의 정보를 반영합니다.
AGAPO의 핵심 설계 결정은 아래 세 가지입니다.
Zero-Variance Filtering은 개 응답이 모두 동일한 보상을 받은 질문을 학습에서 제외합니다. 모든 응답의 보상이 같으면 Advantage가 0이 되어 학습 신호가 없으므로, 이런 프롬프트를 필터링하여 유효한 학습 신호만 사용합니다.
KL Penalty를 제거합니다. 많은 RL 기법이 모델이 원래 정책(Reference Policy)에서 너무 벗어나지 않도록 KL Divergence 페널티를 추가하지만, AGAPO는 이를 사용하지 않습니다. Truncated Importance Sampling이 이미 업데이트 크기를 제한하므로 KL Penalty가 불필요하며, 제거함으로써 성능 향상과 연산 절감을 동시에 달성합니다.
MoE Router를 동결합니다. RL 학습 전 과정에서 Router 가중치를 고정하여, Expert 배정 패턴이 RL에 의해 교란되는 것을 방지합니다. 사전학습에서 최적화된 라우팅을 보존하면서 각 Expert의 내부 능력만 강화하는 전략입니다.
RL이 수학, 코드 등 정답이 있는 태스크의 추론 능력을 강화했다면, Preference Learning은 "정답은 없지만 사람이 선호하는 응답"에 맞추는 단계입니다. Chat, Safety, Instruction Following, Agentic Tool Use, Creative Writing 등 일반 정렬 도메인에 집중하며, RL에서 강화된 추론 성능은 보존합니다.
K-EXAONE은 이를 위해 SimPER의 개선 변형인 GROUPER(Group-wise SimPER)를 제안합니다. GRPO에서 영감을 받아, 하나의 쿼리에 대해 여러 응답을 샘플링하고, 각 응답의 품질을 평가하여 Group-wise Advantage로 학습합니다.
목적함수는 다음과 같습니다.
AGAPO의 목적함수와 비교하면 구조가 다릅니다.
Advantage 계산에서도 AGAPO와 차이가 있습니다.
먼저 Preference Reward를 표준화(z-score)한 뒤, 범위로 재스케일링합니다.
GROUPER의 핵심 기여를 정리하면, SimPER의 Hyperparameter-Free 특성(응답 길이 보정이 자동으로 이루어짐)과 GRPO의 Group-wise Sampling(하나의 쿼리에서 여러 응답을 비교)을 결합한 것입니다.
K-EXAONE은 9개 카테고리에 걸친 포괄적 벤치마크 스위트로 평가됩니다. World Knowledge(MMLU-PRO, GPQA-DIAMOND, HUMANITY'S LAST EXAM), Math(IMO-ANSWERBENCH, AIME 2025, HMMT NOV 2025), Coding/Agentic Coding(LIVECODEBENCH PRO, LIVECODEBENCH V6, TERMINAL-BENCH 2.0, SWE-BENCH VERIFIED), Agentic Tool Use(-BENCH, BROWSECOMP), Instruction Following(IFBENCH, IFEVAL), Long Context Understanding(AA-LCR, OPENAI-MRCR), Korean(KMMLU-PRO, KOBALT, CLICK, HRM8K, KO-LONGBENCH), Multilinguality(MMMLU, WMT24++), Safety(WILDJAILBREAK, KGC-SAFETY)를 포함합니다.
평가 설정은 Temperature 1.0, Top-p 0.95이며, Long Context Understanding 벤치마크에는 160K, 나머지에는 128K Context Length를 사용합니다. 추론 시 MTP는 비활성화합니다.
비교 대상은 EXAONE 4.0(32B Dense), gpt-oss-120b(117B MoE, 5.1B Active), Qwen3-235B-A22B-Thinking-2507(235B MoE, 22B Active), DeepSeek-V3.2(671B MoE, 37B Active)입니다.
| 벤치마크 | K-EXAONE | EXAONE 4.0 | gpt-oss-120b | Qwen3-235B | DeepSeek-V3.2 |
|---|---|---|---|---|---|
| MMLU-PRO | 83.8 | 81.8 | 80.7 | 84.4 | 85.0 |
| AIME 2025 | 92.8 | 85.3 | 92.5 | 92.3 | 93.1 |
| LiveCodeBench V6 | 80.7 | 66.7 | 81.9 | 74.1 | 79.4 |
| -Bench (weighted) | 73.2 | 46.8 | 63.9 | 58.6 | 79.0 |
| IFBench | 67.3 | 36.0 | 69.5 | 52.6 | 62.5 |
| KoBALT | 61.8 | 25.4 | 54.3 | 56.1 | 62.7 |
| KGC-SAFETY | 96.1 | 58.0 | 92.5 | 66.2 | 73.0 |
수학 추론에서 K-EXAONE은 AIME 2025에서 92.8을 달성하여 gpt-oss-120b(92.5)와 Qwen3(92.3)을 상회하고, 37B 활성 파라미터를 가진 DeepSeek-V3.2(93.1)에 근접합니다. 23B 활성 파라미터로 이 수준의 성능을 달성한 것은 파라미터 효율성 면에서 인상적입니다.
Agentic Tool Use(-Bench)에서는 가중 평균 73.2로 gpt-oss-120b(63.9)와 Qwen3(58.6)을 크게 상회합니다. 이는 Synthetic Tool Environment 기반 학습 전략이 유효했음을 시사합니다. 다만 DeepSeek-V3.2(79.0)에는 미치지 못합니다.
Instruction Following에서 K-EXAONE은 IFBench 67.3, IFEVAL 89.7을 기록하여 대부분의 비교 모델을 능가합니다.
안전성(KGC-SAFETY)에서는 96.1로 모든 비교 모델을 압도적으로 능가합니다. gpt-oss-120b(92.5)와도 3.6p 차이를 보이며, Qwen3(66.2)와 DeepSeek-V3.2(73.0)와는 20~30p 이상의 격차를 보입니다.
한국어 벤치마크에서 K-EXAONE은 Open-Weight Reasoning 모델 중 강한 성능을 보입니다. CLICK(언어·문화 역량) 83.9, HRM8K(올림피아드급 수학 추론) 90.9, KO-LONGBENCH(Long-Context 이해) 86.8을 달성합니다. 다만 KMMLU-PRO(67.3)에서 Qwen3(71.6)과 DeepSeek-V3.2(72.1)에 뒤처지는 점은 주목할 만합니다. 한국어 특화 모델임에도 한국어 전문 지식 벤치마크에서 최고가 아닌 것은 향후 개선이 필요한 영역입니다.
다국어 평가에서는 MMMLU 85.7, WMT24++ 90.5를 기록합니다. EXAONE 4.0 대비 모든 언어에서 고르게 성능이 향상되어, 특정 언어의 두드러진 약화나 지배 없이 균형 잡힌 다국어 역량을 보여줍니다.
Non-Reasoning 모드에서 특히 주목할 결과는 Long Context Understanding입니다. K-EXAONE은 AA-LCR 45.2, OPENAI-MRCR 60.9를 달성하여, Qwen3(31.2, 42.8)과 DeepSeek-V3.2(32.0, 42.4)를 대폭 상회합니다. 이는 Hybrid Attention 구조와 2단계 Context Extension 전략이 Non-Reasoning 환경에서 특히 효과적임을 시사합니다.
EXAONE 4.0(32B Dense)에서 K-EXAONE(236B MoE, 23B Active)으로의 전환에서 가장 극적인 개선이 나타난 영역은 -Bench Telecom(23.7 → 73.5, +49.8p), KGC-SAFETY(58.0 → 96.1, +38.1p), KoBALT(25.4 → 61.8, +36.4p), IFBench(36.0 → 67.3, +31.3p)입니다. 이는 MoE 스케일링과 Post-Training 파이프라인 개선의 복합적 효과로 해석됩니다.
실험 결과에서 몇 가지 개선 여지가 확인됩니다. Agentic Coding(SWE-BENCH VERIFIED 49.4)에서 DeepSeek-V3.2(73.1)과 gpt-oss-120b(62.4)에 비해 상당한 격차가 존재합니다. HUMANITY'S LAST EXAM(13.6)에서 DeepSeek-V3.2(25.1)의 약 절반 수준으로, 최상위 난이도 지식 추론에서 한계를 보입니다.
K-EXAONE의 가장 두드러진 차별점 중 하나는 한국 사회문화적 맥락을 체계적으로 반영한 안전성 프레임워크입니다. 기존의 서구 중심 AI 위험 분류 체계가 한국 사회의 문화적 민감성과 맥락 특화 요구를 충분히 반영하지 못하는 한계를 극복하기 위해, Korea-Augmented Universal Taxonomy(K-AUT)를 제안합니다.
K-AUT는 4개 주요 도메인과 226개 세부 위험 영역으로 구성됩니다. Universal Human Values(55개)는 UN 헌장과 국제 인권 기준에 기반한 생명·존엄·기본권 위협을 다룹니다. Social Safety(75개)는 사회 질서 교란이나 양극화 심화를 평가합니다. Korean Sensitivity(60개)는 헌법적 가치, 국내법(국가보안법 등), 검증된 역사적 합의에 기반하여 한국의 문화적·역사적·지정학적 맥락에서의 민감 이슈를 관리합니다. Future Risk(36개)는 국제 AI 윤리 원칙과 예측적 위험 연구에 기반하여 신기술로 인한 새로운 위협을 다룹니다.
이 프레임워크를 기반으로 한 KGC-SAFETY 벤치마크는 226개 카테고리에서 각 10개씩 총 2,260개 테스트 인스턴스로 구성되며, 다국어(6개 언어), 멀티턴, 적대적, 일반 시나리오를 포함합니다. 평가는 LLM-as-a-Judge 프레임워크로 수행되며, 각 테스트 케이스의 안전 여부를 이진 판단합니다.
KGC-SAFETY 세부 결과에서 대부분의 모델이 Universal Human Values와 Social Safety에서 상대적으로 높은 Safe Rate를 보이지만, Future Risk와 Korean Sensitivity에서는 낮은 경향을 보입니다. K-EXAONE은 전 도메인에서 94% 이상의 Safe Rate를 유지하여(Universal Human Values 97.5, Social Safety 96.9, Korean Sensitivity 94.3, Future Risk 95.0), K-AUT 기반의 한국 특화 안전성 학습이 효과적이었음을 입증합니다.
논문에서는 이 접근법이 다른 국가의 Sovereign AI 개발 시 modular하고 scalable한 blueprint으로 활용될 수 있다고 위치를 지정합니다. 보편적 윤리에 지역적 특수성을 체계적으로 통합하는 K-AUT의 구조는, 각국의 문화적 맥락에 맞게 확장 가능한 설계를 갖추고 있습니다.
K-EXAONE은 모든 LLM과 마찬가지로 몇 가지 한계를 가집니다.
개인적, 유해한, 편향된 정보를 포함하는 부적절한 응답이 생성될 수 있으며, 연령·성별·인종 등과 관련된 편향된 응답이 나올 수 있습니다. 학습 데이터의 통계에 크게 의존하여 의미적·구문적으로 부정확한 문장이 생성될 수 있고, 최신 정보를 반영하지 못하여 거짓이거나 모순된 응답을 할 수 있습니다.
배포 측면에서 K-EXAONE은 비독점적, 비양도적, 전 세계적, 취소 불가 라이선스로 상업적·비상업적 목적의 접근, 다운로드, 설치, 수정, 사용, 배포, 파생 저작물 생성이 허용됩니다. 다만 상업적 목적의 배포, 서브라이선싱, 또는 제3자 제공은 별도 합의가 필요합니다.
K-EXAONE은 한국의 AI 인프라 제약 속에서 정부-민간 협력을 통해 글로벌 경쟁력 있는 대규모 모델을 구축할 수 있음을 실증한 Sovereign AI 모델입니다.
MoE 아키텍처를 통한 효율적 스케일링(236B/23B), Hybrid Attention 기반의 256K Long-Context 처리, SuperBPE Tokenizer의 평균 30% 효율 향상, AGAPO RL과 GROUPER Preference Learning을 통한 정렬, 그리고 K-AUT 프레임워크 기반의 한국 사회문화 특화 안전성이라는 다층적 혁신이 조화를 이루며, 추론, Agentic, 다국어, 안전성 등 다양한 평가에서 유사 규모 Open-Weight 모델들과 대등하거나 그 이상의 성능을 입증합니다.
향후 연구 방향으로는 K-EXAONE의 MoE 라우팅 동작 분석(어떤 Expert가 어떤 언어/도메인에 특화되는지에 대한 Ablation Study), Agentic Coding 능력 강화, 그리고 GROUPER와 기존 RLHF/DPO 계열 Preference Learning 방법론 간의 심층 비교가 흥미로운 탐구 주제가 될 것입니다.
읽어주셔서 감사합니다.