DeepSeek V3 의 등장

Min Jae Cho·2025년 1월 12일

AI정보

목록 보기

13/24

DeepSeek-V3: GPT-4를 능가하는 오픈 소스 AI 모델의 등장

최근 인공지능(AI) 분야에서 주목할 만한 소식이 전해졌습니다. 중국의 AI 스타트업 딥시크(DeepSeek)가 6,710억 개의 매개변수를 가진 초대형 오픈 소스 언어 모델인 DeepSeek-V3를 발표했습니다. 이는 현재까지 공개된 오픈 소스 모델 중 최대 규모로, OpenAI의 GPT-4와 견줄 만한 성능을 보인다고 합니다.

DeepSeek-V3의 주요 특징

모델 규모: 총 6,710억 개의 매개변수를 보유하고 있으며, 각 토큰 처리 시 370억 개의 매개변수가 활성화됩니다.
아키텍처: Multi-head Latent Attention(MLA)과 Mixture-of-Experts(MoE) 구조를 채택하여 효율적인 추론과 비용 효율적인 학습을 구현했습니다.
학습 데이터: 14조 8천억 개의 고품질 토큰으로 사전 학습되었으며, Supervised Fine-Tuning(SFT) 및 Reinforcement Learning(RL) 단계를 거쳐 성능을 극대화했습니다.
학습 비용: 엔비디아 H800 GPU를 활용하여 총 2,788,000 GPU 시간을 사용하였으며, 이는 약 557만 달러의 비용으로, 다른 대규모 모델에 비해 경제적입니다.