DeepSeek 风暴下看看它的论文

DeepSeek 之前，国内大模型公司各种刷榜，也是内卷得一塌糊涂，也都刷榜刷到了世界先进水平，但没有哪家做到了 DeepSeek 这种硬气、震撼和让人服气。一鸣惊人天下知。

NND，人家论文也写得漂亮、亲民，看上去、读起来就像一首码农诗。没有任何故作高深的玄乎和遮蔽。简单、平实，但那种底气也算是力透纸背。有一种工程美，还能感受到情怀。邪门。应该推举为年度 best paper。

论文的漂亮还体现在，好比一个火箭技术或原子弹配方，在论文中如此清晰地展现出来，连我们小白也能看清。过去几天逐字读它的论文 is a huge pleasure，极大满足了好奇心。

DeepSeek_R1 paper

好，奇文共欣赏，咱们就坐下来读。

R1 论文读下来，原来被 OpenAI 从 q* 开始到 o 系列，搞得神秘兮兮的所谓 System 2 慢思维的强化训练过程，一下子就变得清晰简单多了。

他们的主要发现是：

不用人造强化数据做监督学习微调（sft），利用多答案采样选优的再生数据来“硬做”强化学习，也一样可以学到慢思维的推理能力，这就是他们的 DeepSeek-R1-Zero，实际上是 follow Alpha-Zero 的思路。AlphaZero 在围棋这种非常单纯狭窄的场景，可以把 Zero 进行到底，排除了人类/人为的数据，最终成为绝对王者。

在更广一点的数学、代码和某些逻辑问题的推理场景，他们最终发现还是借助少量的 sft 人工数据更好。但也不过就是几千条的数据，做推理sft的“冷启动”，人工准备一点也不难。这就是他们的 DeepSeek-R1。

他们的 Zero 也走通了，达到了 OpenAI-o1-0912 的水平（o1的9月12日版本？）。其所以做 R1, 加入了sft冷启动的步骤，主要是因为机器完全自主学习出来的 Zero 的推理步骤可读性差、里面还混杂了不同的语言表达方式，这对进一步改良这个系统造成困扰，毕竟模型要“以人为本”，服务开发者和用户的。最终炼成的 R1 推理表现进一步提升，达到 OpenAI-o1-1217 （估计是12月17日版本的o1）的水平。

他们的创新和探索精神表现在，当 community 把 sft+rl 当成是后训练范式的时候，他们做 Zero，完全排除人工数据，验证了纯粹的rl对于推理能力的学习潜力。从 Zero 首先是学到了信心，体验了探索创新者的 aha moment，然后再回头加一些用于冷启动的高质量人工数据sft，再做实用的 R1 就有底气了。两个模型都开源，供人研究和验证，做得煞是漂亮。

DeepSeek 是化繁为简的大师。

强化学习中，直接砍掉了应该与policy模型平行迭代的 critic 模型，代之以简单的GRPO。critic 是评估每个步骤的价值模型，砍掉了等于是训练中一下子降低了一半的资源耗费。需要单独训练的奖励模型也省掉了，代之以简单的规则奖励。

咱们先看看GRPO (Group Relative Policy Optimization，分组相对策略优化) 是什么创新，为什么GRPO算法可以平替 Actor-Critic架构的PPO来优化模型。本质上，GRPO是一个无需critic模型的PPO变体。它通过组内统计计算优势值，而不是用critic网络评估价值。

具体说，GRPO 要求每个问题生成多个答案，形成一组，组内答案相互比较，计算每个答案的"好坏程度"(优势值)：

优势值 = (当前答案的得分 - 组内平均分) / 组内标准差

假设一道数学题，生成4个答案，得分分别是: 90, 80, 70, 60分；平均分 = 75。90分答案的优势值 = (90-75)/标准差。高于平均分的答案获得正优势值，反之为负。这样就不需要额外的评判模型 (Critic)，通过组内比较，模型就知道哪些答案更好，强化学习的优化目标就是要提升生成好答案的概率。

GRPO 算法的优点:

1. 训练效率高：不需要额外的 critic 模型，节省了大量计算资源。
2. 训练稳定性好：用clip限制更新幅度，防止过度优化
3. 实施简单：算法简单，易于实现。

GRPO简单易行又有效，为什么传统的强化学习要用critic模型呢？Actor-Critic 架构有其优势，包括：

1. 全局评估：不受限于当前组内比较，可以评估答案的绝对质量
2. 可学习复杂奖励：比如用户偏好、安全性等难以用规则定义的指标
3. 单个答案也能评估：不需要同时生成多个答案
4. 场景优势：早期RL主要用于线条很长的游戏和机器人，需要 critic 学习长期奖励

但GRPO表明，对于明确的任务（如数学、coding和逻辑题），只要能规模化做大强化学习，简单的组内比较也能达到模型优化的同样效果。这是强化学习“多快好省”的重要发现。

至于奖励模型，他们在 Zero 训练中完全弃之不用，而是用简单直接的奖励规则代之。只是在R1训练最后阶段的偏好对齐任务上（不是推理任务），才按照RLHF（人类反馈强化学习）的常规使用了 reward model（实际是对于自己基座模型V3中的奖励模型的复用）。原因如前所述，是人类偏好 (如安全性、有帮助性等) 涉及复杂的价值判断，难以用简单规则量化。对这类评估，还是沿用训练过的reward model来模拟人类判断。但推理任务，他们的探索表明完全可以只用简单的奖励规则 -- 因为正确性判断相对明确：math 有答案，code 可以编译和执行 unit testing。

还有什么能简化的，他们没有简化？

强化学习中的难缠的痛点之一是所谓过程奖励 Process Reward Model (PRM)，就是深入到推理的每一步去评估。对此他们是“知难而退，敬而远之”，干脆绕过去：DeepSeek的强化是结果导向，不深究过程。论文说明他们选择不使用PRM的原因如下：

- 难以明确定义推理中的每个细节步骤（难：绕过去）
- 难以判断中间步骤的正确性（难：绕过去）
- 重新训练reward model需要额外资源，使流程复杂化（复杂：能简则简）
- 模型评估会导致reward hacking：即神经模型可能学会欺骗奖励模型

就最后一条是出于神经模型本性上的短板考量，主要原则还是能简则简，能绕则绕。所以说，他们选择简单的规则奖励 + 答案验证的方案，是一个有意识的权衡选择。

就是说，明明简单的规则就可以确定奖励指向，为什么要训练叠床架屋的奖励模型呢？不过是查一下答案或测试一下code，判定结果的对错，加上判定格式是不是符合规范。R1 主打的奖励刺激属于规则绑定：例如，答案正确，奖励+1分；格式正确，奖励 +0.5；答案错误，“奖励”-1分；答案不具体，奖励 0分。

当然，这样做，在把推理拓展到数学、代码以外的任务的时候，可能行不通。但目前大家发力的重点主要就是数学和代码，而更加狭窄的长线条棋类和游戏场景，基本被传统RL攻克。尽管如此，绕过过程奖励仍然可能是潜在的软肋，理论上给结果正确，过程逻辑混乱留下了空间。

只关注答案对错，不问过程是怎么强化出长线条的复杂推理过程的呢？门道就在强化学习的答案自然偏向于长答案，随着训练这就自然增加了 test time compute ，发展出对于复杂推理的应对能力。这使得 R1 的强化学习更易自主探索推理路径，成就了DeepSeek的这次突破和出圈。

与 GPT 的 next token prediction（ntp）规模化以后可以涌现通用智能异曲同工，DeepSeek那帮年轻人发现，只要结果明确可判定，结果导向的强化学习可以自然涌现出复杂的内部推理能力，因为正确的结果需要推理。这个发现的意义，对于领域今后的深度推理的推进非同一般，可媲美GPT系列预训练时发现的 scaling law。

头部推理模型R1 的训练四阶段：

1. 推理冷启动：

利用数千条高质量人工推理数据，例如：

# 收集高质量示例 
Question: 求解方程 x^2 + 2x + 1 = 0 
<think> 
1. 识别这是一个二次方程 
2. 系数: a=1, b=2, c=1 
3. 使用求根公式: x = (-b ± √(b^2-4ac))/2a 
4. 代入: x = (-2 ± √(4-4))/2 
5. 化简: x = -1 
</think> 
<answer>x = -1</answer>

2. 推理强化学习：

结果导向，再生数据的模版“留白” <think>.........</think>

- 设计简单模板让模型自主再生训练数据：
  <think>思考过程</think><answer>答案</answer>
  模型生成多个答案 -> 筛选正确答案 -> 加入强化学习的训练集
- 不添加任何人工偏见或策略提示，留下RL自主学习推理过程的空间：
  逐渐增加思考时间（test time compute）和tokens量，模型就自发涌现反思步骤等推理能力，这就是论文作者描述的 aha moment，令人动容的见证
- GRPO算法采样多个答案，通过内部对比来优化模型
- 规则奖励：奖励答案正确 + 格式规范

前面提到，系统只验证最终答案，理论上无法保证中间推理步骤的正确性（可能学到"答案对但推理错"的模式），但实践似乎显示，只要强化学习足够充分和规模化，答案正确会自然导向推理步骤的正确性。根据K氏复杂性（Kolmogorov complexity）压缩理论，正确的推理导向正确的答案才是可靠解决方案的“最短程序”，这是无损压缩的终极目标。后训练强化学习的过程与预训练一样，都是对无损压缩的逼近。

DeepSeek 的探索再次表明，简单即美，scale为王。
（一简遮三丑，你是服也不服? LOL）

天机就是，scale 是硬道理。简单架构/算法有利于真正的 scale up，只要目标清晰，一旦 scale 了，一切就自然搞定。

训练数据的源头

模版再生数据的input 应该是来自两个源头，1 人工设计的数学题/编程题；2 公开基准测试题(如AIME)。

根据模版的再生数据的output流程：

Input: x^2 + 2x + 1 = 0 Model生成多个答案:
 Answer1:
<think>[推理过程1]</think>
<answer>x = -1</answer>
 Answer2:
<think>[推理过程2]</think>
<answer>x = -1</answer>
 Answer3: 
<think>[推理过程3]</think>
<answer>x = 2</answer>
 筛选:  - 保留Answer1、2（答案正确） - 丢弃Answer3（答案错误）

保留的答案作为推理再生数据加入训练集用于下轮迭代。所有再生训练数据都需要标准答案来评估正确性，这在来源中就给定了：

- 数学题：确定的数值答案
- 编程题：通过测试用例验证
- 逻辑推理：有明确的正确结论

有标准答案是规则奖励能工作的基础。对没有标准答案的任务(如写作)，需要用其他方式评估质量，例如使用奖励模型。

3. 综合性微调：

800k 条训练数据，其中推理 600k, 其他任务 200k

论文没说为什么按照这个比例选取微调数据，应该是根据经验。600k 推理数据是再生的，用的就是阶段2的推理模型。但这里有一个值得注意的插曲：在阶段2的推理强化学习中，再生数据必须是奖励规则可以判定的。但阶段3的推理数据，却突破了这个限制。阶段3的推理数据增加一些 reward rule 不能判定的 cases，既然简单的奖励规则无法判定，就找 V3 模型来判定。好像是说，当一道推理题（数学、coding或逻辑题）生成n个奖励规则难以评判优劣的结果的时候，就把这些结果和标准答案送给V3，让V3做裁判。

另外的200k数据呢？一部分是拿来主义，直接从他们自己的V3的原始finetune训练数据中选取；另一部分让 V3 生成数据，但要求V3不仅给答案，还要给思维链过程（就是要求它 step by step 输出结果）。这可以理解，这里虽然不是纯粹的长线条推理题，其他任务很多时候也是要有条理的。

4. 全局强化学习：

这最后的强化学习很像是早就使用过的 RLHF，更注重人类偏好的对齐。但为了防止推理退化，在偏好对齐的同时，也强化了推理，用的还是规则奖励。而人类偏好对齐用的则是V3原有的奖励模型（这是唯一真正用到的奖励模型）。

整个过程还是相当清晰的，原则上可复现。

用R1再生数据去蒸馏小模型，提升其推理能力

最后，Deepseek 的R1推理强化工作在蒸馏开源小模型方面也做得很牛，干翻了openAI 的 o1-mini 小模型。展示给世人看，开源 LLMs 开始全面逼近闭源模型。

但话说回来，没有这些巨烧钱的闭源模型在前面开路，并建立标杆，后来者也容易失去方向。现在这种局面非常好：让有钱的去砸银子。在金钱的赋能和压力下，不断开疆拓土。让deep“黑马”们在后面紧追不舍，而且还追赶得特别牛气。

令人印象深刻的是，R1 不是仅仅大幅度提升了推理能力（慢思维），在“传统”的知识能力方面比起它的基座模型V3也有显著提升。这可能是因为，推理能力的增强对于一些传统任务具有正面作用，但更应该归功于他们探索出来的四阶段训练R1的pipeline。

最后总结一下。

主要创新点:

1. DeepSeek-R1-Zero: 首个仅通过强化学习(RL)训练的推理模型, 无需人工推理数据的监督微调(SFT)。展示了模型可以纯靠 RL 自主发展出推理能力。

2. DeepSeek-R1: 在 R1-Zero 基础上做以下改进:
- 后训练阶段先用少量高质量数据进行冷启动SFT
- 采用4阶段的后训练流程，两次SFT，两次RL
- 性能可与 OpenAI-o1-1217 相媲美

3. 蒸馏技术: 成功将推理能力迁移到一系列开源小模型:
- 1.5B 参数的模型就超越了 GPT-4 在数学方面的表现
- 32B 和 70B 的模型创造了密集模型的新记录

关键技术细节:

- 使用 GRPO (Group Relative Policy Optimization)算法，舍弃 Critic 模型
- 采用基于规则的奖励系统, 舍弃奖励模型 PRM
- 设计特定的训练模板引导模型再生数据进行自主学习：
<think> is all we need for reasoning！

【笔者后记】

这两天莫名很兴奋。跟 deep啥纠缠不休，今天才缓过气来 lol

硅谷老友群也热议不断：

Hongtao：
DeepSeek若不快速大融资和上市， R1的18位主要贡献者估计很快就被国内外大厂抢光了[Grin]
Core Contributors：
Daya Guo
Dejian Yang
Haowei Zhang
Junxiao Song
Ruoyu Zhang
Runxin Xu
Qihao Zhu
Shirong Ma
Peiyi Wang
Xiao Bi
Xiaokang Zhang
Xingkai Yu
Yu Wu
Z.F. Wu
Zhibin Gou
Zhihong Shao
Zhuoshu Li
Ziyi Gao
当年DeepMind被迫卖给Google，因为founders被告知若不卖，就高薪挖人。挖走一两个作者，就少走大部分弯路了。

主要还是幻方的AI量化投资受挫，因势利导做deepseek成功；开源后，国内外大家都沿着这路子去试。若不财大气粗起来，优势恐怕难以为继。

超大模型训表征，
开源一蹴而就成。
强化学习各求精，
蒸馏定制缩小型。

内卷已经卷出墙，
硅谷AI圈被激荡。
OpenAI&Meta领头羊，
都被鞭策加速闯。

硅谷不眠夜：DeepSeek为何震动美国科技界？

Nick：复现DeepSeek貌似很容易。其实强化学习大家也都想到过，过去总觉得可能要花很多算力，少人试。貌似o1就是强化学习练出来的，但一些推理token他们没open。这可能迫使国内头部那两家加速上市过程。

立委：这类团队属于中华之光，国之重器。

他们写得基本够清晰了。让人担心他们下一步怎么保持这个势头和地位。很多神秘就是一层窗户纸。最大的功劳是他们同时也差不多捅破了o系列神秘面纱的窗户纸。

Nick：马上融一大笔钱，突击上市。除非手里还有更硬的牌。

马老师：好几家复现了deepseek，各家再各自探索，相信会是快速迭代的过程，有望再一次大发展。

Nick：也是个试金石，倒逼openAI看看还有啥新东西，是骡子是马拉出来溜溜。

Hongtao：给openai压力；更是叫板meta，争夺开源盟主地位

鲁总：OpenAI 的牌越来越少了。但SamA 希望通过心理战误导大众。之前发文强调过程奖励，O1 出来时放烟幕弹让人相信推断时使用复杂的搜索 ... 结果都应该没有用。

香港科技大学的团队说是也独立发现了RL涌现推理能力，不过只针对数学问题求解，但也特别指出使用输出格式奖励。

白老师：数学能力和编程能力是相通的。

不请贵的人是成功的很重要因素。

施总：哈哈。贵的不一定能干，能干的都比较贵。

刘总：主要是要用年轻人，岁数大的没戏。岁数大了，思维僵化，精力不行。当然，我说的是统计规律，个例总是有的。

立委：deepseek 不是常态，是冒尖。但 deepseek 这么一捅窗户纸，很多人就跟上了。不知道它还有多少宝贝没有显露。否则逐渐暗淡下去也不是不可能的。

deepseek 之前，各种刷榜，也是内卷得一塌糊涂，也都刷榜刷到了世界先进水平。但没有哪家做到了 deepseek 这种硬气震撼和让人服气。一鸣惊人天下知。

Nick：估计每家都会短期内在数学能力上长足进步。豆包上周一周内就进步不小。窗户纸捅破，门槛也不是那么高。大概率o1也是这么做的，只不过内帮孙子比较鸡贼。

Liren：DeepSeek-R1告诉大家，你们都被PRM和MCTS误导了，其实只需要一个<thinking>标签就够了[Chuckle]

Nick：是啊，你写篇文章，“<thinking> is enough"

立委：就是留白。你留了白，系统就会给自主填上。

zero 的实践表明，根本不用想那么复杂，还要考虑怎么从各种不同推理任务中找到共同的思维链 patterns，等等。甚至也不管里面的逻辑是不是胡说八道，结果导向，最终，推理还是学出来了。预训练靠的是简单的 next token prediction，后训练推理靠的就是结果导向的强化自主学习。设计一个简单的模版就搞定了无穷的再生推理数据。

Nick：是啊，有了ToT和Gemini，话都在嘴边了。

Liren：增加在推理时的tokens来提升思考时间。

立委：秘方就是4步走：1 冷启动 2 强化 3 微调 4 再强化。zero 干脆省掉了 1 3 4，所以显得过于生猛，但 beautifully 证明了“硬启动”的强化学习也能涌现高级推理能力。r1 就是完善后训练的节奏和数据配比。很多应该就是经验，是摸索出来的 best practice，他们肯定有过很多其他失败的尝试，但还是摸着石头过了河。

马老师：感觉就是碰运气，不过沿着别人路走的永远没有运气。

立委：我觉得他们还有一些东西，所以才“肆无忌惮”。等于是他们推出了一个菜谱，这个菜谱做的菜比肩世界一流。但他们其实还有其他的菜谱，更高级，但不急于拿出来？

不是大道至简，而是大模型本身已经具备了强大的推理能力，它需要的只是：

1 足够的思考空间/时间/tokens量（<think>标签）
2 正确的反馈信号（答案正确性）
3. 探索优化的机会（GRPO采样选优）

复杂、难缠、费力的PRM（过程奖励模型）和MCTS（蒙特卡洛树搜索路径空间）反而限制了模型的自主探索。这说明大模型的能力被我们低估了。

deepseek 的成功的先决条件是 v3，他们自己做出了世界前列的头部基础模型，他们自己知道怎么善用它的潜力。如果是借助于外部基础模型 GPT4o，就很难这么快做出r1，很多 v3 的资源和practice 就在 r1 过程中直接借用了。

马老师：在理。

Nick：So what's next? assuming everybody will have as strong math capabilities within a month

立委：AI for science？机器自动证明百年难题啥的；机器自动发明新药......

Nick: only two problems matter: Riemann Conjecture and P vs NP

马老师：大厂也许会用更大的模型，更多的数据，继续向大上走。

Nick：那肯定。我觉得Nvidia的生意会更好。

立委：deep 目前为止还是在追平，是人家先树立了标杆，它去对齐。多快好省。

deep 要真牛，再上一个台阶，需要自己树立标杆和方向。但这太难了。目前为止似乎还是只有敢于疯狂烧钱敢于无限做大的那些狂人才在开疆拓土。

【相关】

DeepSeek 风暴下看看它的论文

头部推理模型R1 的训练四阶段：

1. 推理冷启动：

2. 推理强化学习：

训练数据的源头

3. 综合性微调：

4. 全局强化学习：

用R1再生数据去蒸馏小模型，提升其推理能力

主要创新点:

关键技术细节:

【笔者后记】

发布者

立委

发表回复

头部推理模型R1 的训练四阶段 ：

1. 推理冷启动：

2. 推理强化学习：

训练数据的源头

3. 综合性微调：

4. 全局强化学习：

用R1再生数据去蒸馏小模型，提升其推理能力

主要创新点:

关键技术细节:

【笔者后记】

发布者

立委

发表回复

头部推理模型R1 的训练四阶段：