推理强化模型中思维链的本质

DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列，而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文（国学）的能力方面，大家都体会到了奇迹般的能力跃升。

这一切都要感谢推理强化的 CoT（思维链）。CoT 为什么这么有效，这么神奇，文理通吃，在强化中最大化了其赋能作用呢？

应该主要是因为 CoT 是从大模型自主生成出来的 tokens，它有效降低了从 query 到 answer 的 perplexity（困惑度），好比是为高质量结果提供了一个桥梁。看过CoT输出的同学都有体会，桥梁本身并不总是精彩，常常给人的感觉是小题大作，瞻前顾后、啰哩啰嗦、信息冗余，但精彩的answer却可以借助它面世。从第一性原理看，这里似乎涉及perplexity在信息论中的深刻含义。

CoT的本质

从信息论角度理解：

CoT是在high-perplexity的query和answer之间搭建的低熵通道
通过逐步分解，每一步的条件概率都变得更趋"自然"和丝滑，符合语言模型的本性
最终让看似"跳跃"的推理结论，变成了一系列"小步走"的累积

用信息熵的视角来看：

对于复杂问题，直接从query到answer需要跨越很大的信息鸿沟，这“迫使”模型以幻觉应急，胡乱输出一个 answer
而CoT的每一步都在降低局部的条件熵
就像把一个大的信息压缩/解码任务分解成多个小的压缩/解码任务

这解释了为什么"平庸"的CoT也如此有效：

它的作用不在于过程步骤的内容本身有多精彩
而在于它创造了一条信息熵递减的路径
模型可以沿着这条路径稳定地向目标迁移

这也解释了为什么DeepSeek的训练如此有效：

不是教会模型更"聪明"的推理，这在文科类任务中根本就无法定义
而是优化了它构建这种低熵通道的能力
本质上是优化了信息流的路径规划

这个观点为理解CoT提供了一个新的视角，把表面上的思维链“自言自语”诠释为信息论意义上的"熵减（entropy reduction）途径"。这对无须过程监督的结果驱动的强化学习是一个合理的解释：

过程很重要，但过程监督并不重要，因为大模型本身自然产生的过程数据，比任何人类监督更加实用和可行。

【相关】

推理强化学习是端到端的监督，推理过程的非监督

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

CoT的本质

发布者

立委

发表回复