推理强化学习是端到端的监督，推理过程的非监督

DeepSeek R1 的数学和代码数据究竟是有监督还是无监督？是人造数据还是再生数据？

很多人其实没究细节：实际上这些数据是人造也是再生，是监督学习，也是非监督学习（强化学习）。

怎么讲？

这些训练数据，从源头和结果（黄金标准）上看，是地地道道的人造数据。用的是各种数学测试题，以及 github 开源社区的人类（码农手工编制）的代码。这些全部是很多人类分子（教师、码农等）辛辛苦苦多年编制积累的。

源头是人造数据，标准答案也是人类已经验证或事先设计好的。所以，从这个意义上，从结果评判看，强化学习很像是一个典型的监督学习。

input：数学题/代码题；output：标准答案。

这是端到端意义上的监督学习（supervised learning）。

但是，与其他的监督学习不同的是，强化学习为了达到结果正确，他需要学习中间的思考过程。而每一步的思考或推导的过程，它却没有人类的标注或反馈数据，而完全靠自己的再生数据。是机器”自主“再生这些过程思考的数据，然后自我提高。从过程学习的意义上，这又是非监督的学习。这就是强化学习牛的地方：自主学习，自主探索路径，自主再生数据。

具体说，R1 的冷启动用了一点人类标注的过程推理的数据，但比起再生数据动辄百万条，sft 冷启动的几千条数据，零头都算不上，可以忽略不计。

zero 的研究表明，跟本就不需要过程标注的人类数据。

在围棋场景，alpha zero 表明，人类数据不但不需要，反而可能阻碍学习。

deepseek zero 研究表明，人类数据也不是必需的。用少量的人类数据冷启动，主要还不是因为需要人类数据来增强推理能力，而是需要人类数据提升可读性。人类看不见它是怎样思考的，心里不爽；对于开发者改进算法，也不利，因为开发者也是肉眼凡胎。于是在R1的训练pipeline的配方中，加入了少量人类推理数据的冷启动。

所以可以说，这种被称为新范式的self-play或self-study的强化学习是过程非监督、结果监督的深度学习。

DeepSeek 在这条路上的最大一个启蒙是，它给我们显示了慢思考的强化学习在逻辑推理与非逻辑创造的过程中，同样有效。这里面的奥秘就是老友Cheng指出的慢思维本质：慢思维可以得出更好结果，不（仅仅）是我们以前以为的符号逻辑被神经系统模拟了，而是过程数据使得 perplexity 降低，从而为平稳得到正确结果，铺平了道路。

Cheng 指出：

深思考就是在问题和答案之间加入大段文字，从而降低了生成答案的perplexity。从问题直接到答案的perplexity很高，用“思路”座桥梁，就把答案的perplexity降下来了。没离开语言模型的框架，就是把合适的“思路”搜索出来。

一语中的。

Cheng 说：

"Let’s Verify Step by Step" OpenAI这篇经典文章说，训练推理要给每一步打分。Deekseek中间推理模型的训练貌似推翻了这个，只用最终的reward就可以。

Deekseek中间推理模型可以完全不需要CoT数据，单纯用RL训练出来，真挺impressive。

这是一个重大发现。无论 Open AI 是否真用PRM做了大量的过程监督，还是它其实是放烟雾弹，DeepSeek 那帮年轻人做的 zero 研究都是非常漂亮的突破，给业界推理工作指明了方向。

我们总不免疑惑，系统非监督再生数据免不了出错，走错路，导向错了，一错再错，怎么办？

现在已经清楚了，结果监督原则上可以 work，就好像放风筝一样，一根线牵在人手上，基本上就可以放飞而不跌落（事故除外）。关键还是结果导向的强化学习，你能学到多大、多深，只要你能真正规模化（scale up），学深学透，就不用担心自主再生学习在过程中的偏离，最终会学到最深入的深思熟虑。

机器与人不同，优化的总方向明确以后，过程的瑕疵或不逻辑，概率分布上并不影响最终结果的正确。对于那些非逻辑（数学、代码外）的能力，过程就更容易有逻辑不严密（甚至矛盾）、混杂和冗余；但没关系，只要有这个慢思维的学习过程铺路，结果还是漂亮，甚至超人，正如我们这几天所一再见证的。

这一切其实是因为再生的过程数据，不是天上掉下来的，而是基座大模型在最全面的巨量人类知识的基础上，遵循自回归生成定式，生成出来的。而自回归生成（例如 next token prediction）本性的好处我们都知道是，概率上每一步都可能偏离，但每一步都在逐渐加长的上下文条件下做进一步校正，是这种概率性上下波动和步步校正的合力，提升了再生数据内部的语义“相谐性”和知识线条的流畅性，从而降低了整体文本生成的 perplexity，最终导向更好的结果。这就保证了过程再生数据不会差之毫厘失之千里。

推理强化学习是端到端的监督，推理过程的非监督

发布者

立委

发表回复