在人工智能发展的历史长河中,符号逻辑和神经网络一直如两条平行线,难以交汇。然而,2025年春节,DeepSeek发布的推理大模型R1揭示了一个令人惊叹的技术突破——思维链(Chain of Thought, CoT)的自主生成,其展现出的语言序列仿佛在模拟人类的符号逻辑。这一强化学习的进展或将重新定义符号逻辑与神经网络的融合方向。

符号逻辑的回归
DeepSeek R1推理模型的发布引发全球关注,其强化学习框架下自主生成的思维链展现出惊人的问题解决能力与创作能力。其核心机制仍是GPT风格的自回归下一词元预测 (next token prediction, NTP),但模型生成的中间结果——思维链,却呈现出典型的符号逻辑特征,有效模拟了人类的思考过程。
这一现象值得深思:大语言模型的本质从未改变,包括最新的推理模型,其内部运作仍是基于向量计算的条件概率。然而,为了模拟人类的符号推理,这些模型竟然学会了通过自然语言构建推理链条。更令人惊讶的是,这些符号链条确实有效,它们结合内部的词元预测机制,显著提升了模型的推理和创造能力。这是一个非常值得回味反思的技术进展。这件事的奇妙,是ChatGPT核爆以来最大的震撼。
符号与神经的无缝对接
这项奇迹的发生尤其让我们符号AI的老司机感慨。多少年来,我们心心念念地追求两条路线的融合,希望符号逻辑能在关键时刻帮助神经系统和统计模型,但一直看不到入口。忽然间,在大模型预训练进入平台期的关口,神经社区内部打开了一扇通向符号逻辑的大门,找到了一种神经与符号融合的路径。这一突破来得如此突然而有力,不能不让人既惊且叹。可惊的是,符号逻辑终于开始发力了;可叹的是,闯出这条路的还是神经社区的研发者,没有符号研究者什么事儿。
大模型就是个端到端的黑盒子,符号仅在输入输出两个端口出现。具体说,我们只能在输入端将符号“嵌入”(embedding)至高维向量空间,并在输出端通过 softmax 映射回符号,而内部的多层前馈的数据流则完全由向量运算主导,与符号逻辑无关,也很难以人类可以理解的符号来解释(因此才有专门的大模型可解释性研究)。此前所有结合符号与向量的努力都失败了,感觉这两种表示就是不同物种,无法融合。符号逻辑一直坐冷板凳,而符号本身除了作为训练数据燃料,在内部智能运作上一点也帮不了忙。
符号与概率的桥梁:CoT的奥秘
现今的推理大模型将内在“思考过程”外化为自然语言CoT,很像是模型的内心独白或意识流。模型在生成最终答案前,CoT重新嵌入系统中助力最终答案的生成。看似简单的这一过程,却在推理时成功地利用了自然语言这一符号载体,使得符号逻辑与神经网络在端口上实现了全程对接,没有一点违和或不容。
这是怎么发生的呢?一切多亏了自回归的 NTP 范式。下一词元预测的GPT生成方式,使得内部的“思维过程”可以在输出端外化为符号CoT,从而利用符号推理的形态,一步步模拟人类思维过程。
从信息论的角度看,推理大模型在 question-CoT-answer 的生成过程中,实际上构建了一条低熵的信息传输路径。相比传统的 question-answer 直接映射,这种显式的中间步骤大大降低了输入question与输出answer的信息鸿沟,显著提升了正确答案的生成概率。正如我在之前的博客(推理新范式 query+cot+answer 支持新的 scaling law 吗)中所论述的,CoT 充当了信息桥梁的角色。虽然不是严谨的符号逻辑推断过程,但它无需改变概率模型的底层运作机理,实现了对于人类推理的有效模拟。
自然语言vs形式语言:CoT的载体选择
CoT 本质是思维,语言只是载体,原理上没必要用自然语言,或任何特定的语言(例如中文,或英文)。但现在的实现方式,无路DeepSeek的R系列,还是OpenAI的O系列,就是直接用了中文或英文的思维链表示。推理模型在运行时,CoT先在输出端外化为中文或英文的符号序列,然后自回归循环运作,最终生成答案。看上去简直就是在符号与神经之间变戏法。以前何曾想到符号介入神经,还带这么玩的,内部与端口天衣无缝。
我们都要感谢DeepSeek,要不是 DeepSeek 给了这样一个开源的春节大礼包,又完全公开了自己的CoT,我们会一直蒙在鼓里,绞尽脑汁也想不明白 reasoning 这种符号逻辑,怎么就悄悄进入了神经过程。符号与向量的矛盾通过端口外化,化解于无形。
从符号逻辑的角度看,自然语言虽然老妪能解,但其精确性远逊于数学符号、形式逻辑表达式或编程语言代码。对于数理问题或逻辑推演,CoT 用这些形式语言比用自然语言显然更合适。然而,目前思维链生成采用自然语言,而不是形式语言。偶然也夹杂了一些数学符号,但思维链整体还是压倒性的使用英语或中文。R1论文中还提到他们的CoT连计算机代码都排斥在外。感觉上,这其实不是推理的正道,但可以理解其成因。CoT 是模型自主生成的序列,而据以生成的基座大模型本身,其训练数据以自然语言压倒多数。原因之二是开发者刻意追求的可解释性以及对用户的透明性,觉得自然语言大家都容易看明白。R1在设计CoT强化训练的时候,强调了格式的奖励,其中语言一致性当成了一个目标。夹杂不同语言或代码的CoT,剔除出局了。从长远来看,这未必是最明智的决策。
前景与思考
推理模型的 CoT 无疑是神经网络与符号逻辑融合的一次创新,也是近年来人工智能领域的重要里程碑。未来的CoT研究方向,可以考虑越来越多地奖励 CoT 以更加严谨的形式语言表示。至少要文理分科,文科任务(如创作)继续用自然语言做CoT的载体,这类思维过程涉及的主要是篇章规划和表达斟酌,而非严格推理;理工任务(数学、编程、逻辑等)则不同,应该训练模型尽量使用形式语言来表示CoT推理过程。当然,要做到后者,可能还要进一步加强基座模型等代码和其他形式语言的数据配比,否则 LLM也许 “憋”不出来合适的表示。
最后说一下概率模型与符号逻辑的严谨性差异。推理模型的 CoT 是推理模型的现场发挥,很多时候显得不够严谨。但其实人脑也是一样。没人能出口成章地把一个复杂数学证明一气呵成,就如同没人能一口气写出一个没有bugs的程序。严谨性都是在反复校验、修正,甚至是几代科学家前赴后继不断探究中完成的。CoT 不够严谨是拿模型的“草稿”与人类专家的定稿对比产生的印象。可以预见,对于非常复杂的问题,推理模型应该像人类一样反复校正,独立复现结果比对。这可能要指望各种推理 agents 的相互协作,以及它们与人类反馈的多层交互。
【相关】
- 再谈自然模态数据是高维空间的低维流形
- 深度学习的局限性研究综述
- o3 deep research: 深度学习局限性研究报告
- 深度学习的基石:多层感知机
- o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
- RPA 赛道与大模型Copilots早期创业者的困局
- Transformer 和注意力机制简介
- 立委科普:如何理解自注意力机制中的QKV分工?
- DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
- DeepSeek 笔记:R1 部署阶段的推理机制
- 从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
- 推理强化学习是端到端的监督,推理过程的非监督
- DeepSeek 风暴下看看它的论文
- 大模型风云诡谲的下半场:scaling 失效?