Summary
DeepSeek-R1-Zero
- 사전학습된 언어모델 DeepSeek-V3-Base를 Supervised Fine-Tuning 없이 강화 학습을 바로 적용한 모델
- 강화학습으로 강력한 추론 능력을 얻었지만 가독성이 떨어지고 언어들이 섞이는 문제가 발생
DeepSeek-R1
- 위 문제를 해결하기 위해 Cold-Start 데이터(소량의 고품질 데이터)를 먼저 적용한 후, 강화 학습을 진행한 모델
- 다양한 논리적 추론 작업에서 OpenAI-o1-1217과 유사한 성능 달성
- Distillation방식으로 소규모 모델 생성
Cold Start
수집 방법
- Few-shot prompting을 이용하여 긴 CoT 예제를 생성 → 여러 방법을 사용하여 예제를 생성, 정확히 모
- 모델을 직접 활용하여 상세한 답변을 생성(자기 검증 및 반성 포함)
- DeepSeek-R1-Zero의 출력을 읽기 쉬운 형태로 변환
- 인간 검토자가 후처리하여 품질을 개
정해진 출력 형식(|special_token|<reasoning_process>|special_token|
)을 포함
Reflection
- 모델이 스스로 답변을 다시 검토하고, 논리적 오류나 개선점을 찾아내는 과정
- 이를 위한 프롬프트를 설계하여 모델이 ‘이 답이 맞는가? ‘ 또는 ‘다른 방법이 있는가?’ 같은 질문을 하도록 함.
- 특정 시점에서 모델이 스스로 "Wait, let’s reevaluate this step-by-step."(잠깐, 이 단계를 다시 평가해 보자.) 같은 표현을 사용하며 논리를 점검하는 "Aha Moment"가 나타남.
Verification
- 답변의 정확성을 검증
- 수학이나 코딩같은 경우 룰베이스로 검증함
- DeepSeek-V3와 같은 모델을 활용하여 답변을 다시 평가. “이 답변이 정답인가?”를 묻는 프롬프트를 활용해 모델이 스스로 판단하도록 함.
- 다수결 검증: 동일한 질문에 대해 모델이 여러 개의 답변을 생성한 후, 가장 많이 나온 답을 최종 정답으로 선택.→ 랜덤 오류를 줄이고 신뢰도 상승
Reinforcement Learning, RL
- two stage로 진행
- GRPO 알고리즘을 사용하여 RL의 비용을 절감하고, Reward Model을 활용하여 효과적인 추론을 할 수 있도록 학습
GRPO
- 기존의 PPO 방식과 유사하지만 별도의 critic 모델을 사용하지 않고 그룹 샘플링을 활용하여 정책 모델을 최적화
- 그룹 샘플링이란 여러개의 출력을 샘플링한 후 각 출력을 비교하여 상대적 평가를 진행
- Reward Model
- 수학이나 코딩 문제의 경우 정확도에 대한 보상을 줌
- CoT의 형식을 잘 따랐는지에 따라 보상. 예를들어 태그를 잘 감쌌는가
- 언어의 일관성에 대해서 보상
- 학습과정
- 초기모델 DeepSeek-V3-Base에 강화학습 적용
Cold Start 데이터를 활용한 강화학습
- cold start 데이터로 SFT를 하고 강화학습 진행
- RL 모델이 어느정도 수렴한 후, 거부 샘플링을 적용하여 고품질 데이터를 생성
- 거부 샘플링이란?(Rejection sampling) 모델이 생성한 여러 개의 답변 중에서 품질이 높은 것마을 선
- 이 데이터로 다시 SFT
- 이 때 추론 데이터 뿐만 아니라 다양한 형식의 데이터를 포함해서 모델의 범용성 강
Distillation
- Distillation(지식 증류)은 대형 모델(DeepSeek-R1)의 지식을 소형 모델(1.5B~70B 파라미터)로 전이하는 방법입니다.
- DeepSeek-R1은 Fine-Tuning 기반의 Distillation 기법을 사용, 기존보다 훨씬 작은 모델에서도 뛰어난 추론 능력을 유지할 수 있음
- 대형 모델은 강력하지만 비용이 높고 실시간 서비스에서 사용하기 어려움
- 소형 모델에서도 대형 모델의 성능을 유지하는 것이 중요
Distillation 과정
- R1에서 고품질 학습 데이터 생성
- 소형 모델에 Fine-tuning 적용
- Qwen과 Lamma 모델을 사용하여 fine-tuninig
Distilled 모델 성능 평가
- DeepSeek-R1-Distill-Qwen-32B 모델이 OpenAI-o1-mini 수준의 성능을 달성
- 14B 모델이 기존 QwQ-32B-Preview 모델을 모든 벤치마크에서 뛰어넘음
- 추론 관련 벤치마크(AIME 2024, MATH-500, GPQA Diamond)에서 기존 오픈소스 모델 대비 강력한 성능