DeepSeek-R1 논문 리뷰

TaeJong Kim·2025년 2월 5일
0

Summary

DeepSeek-R1-Zero

  • 사전학습된 언어모델 DeepSeek-V3-Base를 Supervised Fine-Tuning 없이 강화 학습을 바로 적용한 모델
  • 강화학습으로 강력한 추론 능력을 얻었지만 가독성이 떨어지고 언어들이 섞이는 문제가 발생

DeepSeek-R1

  • 위 문제를 해결하기 위해 Cold-Start 데이터(소량의 고품질 데이터)를 먼저 적용한 후, 강화 학습을 진행한 모델
  • 다양한 논리적 추론 작업에서 OpenAI-o1-1217과 유사한 성능 달성
  • Distillation방식으로 소규모 모델 생성

Cold Start

  • 강화학습 전에 모델을 안정화 하기 위한 방법

수집 방법

  1. Few-shot prompting을 이용하여 긴 CoT 예제를 생성 → 여러 방법을 사용하여 예제를 생성, 정확히 모
  2. 모델을 직접 활용하여 상세한 답변을 생성(자기 검증 및 반성 포함)
  3. DeepSeek-R1-Zero의 출력을 읽기 쉬운 형태로 변환
  4. 인간 검토자가 후처리하여 품질을 개

정해진 출력 형식(|special_token|<reasoning_process>|special_token|

)을 포함

Reflection

  • 모델이 스스로 답변을 다시 검토하고, 논리적 오류나 개선점을 찾아내는 과정
  • 이를 위한 프롬프트를 설계하여 모델이 ‘이 답이 맞는가? ‘ 또는 ‘다른 방법이 있는가?’ 같은 질문을 하도록 함.
  • 특정 시점에서 모델이 스스로 "Wait, let’s reevaluate this step-by-step."(잠깐, 이 단계를 다시 평가해 보자.) 같은 표현을 사용하며 논리를 점검하는 "Aha Moment"가 나타남.

Verification

  • 답변의 정확성을 검증
  • 수학이나 코딩같은 경우 룰베이스로 검증함
  • DeepSeek-V3와 같은 모델을 활용하여 답변을 다시 평가. “이 답변이 정답인가?”를 묻는 프롬프트를 활용해 모델이 스스로 판단하도록 함.
  • 다수결 검증: 동일한 질문에 대해 모델이 여러 개의 답변을 생성한 후, 가장 많이 나온 답을 최종 정답으로 선택.→ 랜덤 오류를 줄이고 신뢰도 상승

Reinforcement Learning, RL

  • two stage로 진행
  • GRPO 알고리즘을 사용하여 RL의 비용을 절감하고, Reward Model을 활용하여 효과적인 추론을 할 수 있도록 학습

GRPO

  • 기존의 PPO 방식과 유사하지만 별도의 critic 모델을 사용하지 않고 그룹 샘플링을 활용하여 정책 모델을 최적화
  • 그룹 샘플링이란 여러개의 출력을 샘플링한 후 각 출력을 비교하여 상대적 평가를 진행
  • Reward Model
    • 수학이나 코딩 문제의 경우 정확도에 대한 보상을 줌
    • CoT의 형식을 잘 따랐는지에 따라 보상. 예를들어 태그를 잘 감쌌는가
    • 언어의 일관성에 대해서 보상
  • 학습과정
    • 초기모델 DeepSeek-V3-Base에 강화학습 적용

Cold Start 데이터를 활용한 강화학습

  • cold start 데이터로 SFT를 하고 강화학습 진행
  • RL 모델이 어느정도 수렴한 후, 거부 샘플링을 적용하여 고품질 데이터를 생성
    • 거부 샘플링이란?(Rejection sampling) 모델이 생성한 여러 개의 답변 중에서 품질이 높은 것마을 선
  • 이 데이터로 다시 SFT
  • 이 때 추론 데이터 뿐만 아니라 다양한 형식의 데이터를 포함해서 모델의 범용성 강

Distillation

  • Distillation(지식 증류)은 대형 모델(DeepSeek-R1)의 지식을 소형 모델(1.5B~70B 파라미터)로 전이하는 방법입니다.
  • DeepSeek-R1은 Fine-Tuning 기반의 Distillation 기법을 사용, 기존보다 훨씬 작은 모델에서도 뛰어난 추론 능력을 유지할 수 있음
  • 대형 모델은 강력하지만 비용이 높고 실시간 서비스에서 사용하기 어려움
  • 소형 모델에서도 대형 모델의 성능을 유지하는 것이 중요

Distillation 과정

  • R1에서 고품질 학습 데이터 생성
  • 소형 모델에 Fine-tuning 적용
  • Qwen과 Lamma 모델을 사용하여 fine-tuninig

Distilled 모델 성능 평가

  • DeepSeek-R1-Distill-Qwen-32B 모델이 OpenAI-o1-mini 수준의 성능을 달성
  • 14B 모델이 기존 QwQ-32B-Preview 모델을 모든 벤치마크에서 뛰어넘음
  • 추론 관련 벤치마크(AIME 2024, MATH-500, GPQA Diamond)에서 기존 오픈소스 모델 대비 강력한 성능
profile
머신러닝 엔지니어 김태종입니다. anomaly detection, recommendation system에 관심있습니다.

0개의 댓글