【外一篇:推理范式演进中的概念】

1.1 训练与推断的二分

机器学习系统存在两个核心阶段:

- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train)
- 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)

大语言模型(LLM)领域的最新进展显示,通过引入思维链(CoT)机制,推断阶段的计算量(test time compute)显著增长。

1.2 逻辑学视角

推理类型 逻辑结构 确定性 典型应用
演绎 前提→必然结论 确定性 数学证明
归纳 个案→普遍规律 概率性 趋势发现
溯因 现象→最佳原因 启发式 诊断推测

在传统的符号逻辑语境下,Reasoning 特指演绎推理的符号化过程,但考察当下的LLM推理模型,reasoning 最多只是对逻辑演绎的符号化模拟,本质上仍然是概率模型的推断(inference)生成;而Inference对应概率模型中的推断过程,本质是大数据压缩后的经验性模式归纳。溯因在大模型范式下,实现启发式推测的手段也还是大数据压缩后的经验性(逆势)模式归纳。总之,生成式AI大模型以不变应万变,各种思考推理过程一律采用下一词元预测(Next Token Prediction)的 inference 实现。

1.2 认知科学维度

Kahneman在《思考,快与慢》中提出的双系统理论为理解大脑行为提供新视角:

- System 1(快思考):直觉式响应 input→output,对应大模型 seq2seq 函数式生成模式

output=F(input)

- System 2(慢思考):反思性推理 input→[Think]→output,体现为CoT(ChainofThought) 驱动的两阶段函数生成模式

CoT=F(input) & output=F(CoT)

1.3 推理模型的计算-智能增长关系

强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢?并无定论,一切刚刚开始,经验法则需要时间测量。

例如,当test time compute增加10倍时:
- 数学推理准确率提升多少?
- 响应延迟增长多少?

`

1.4 答问

「蔡江滨l六问:早安,能否理解为cot的生成是推断inference ,根据cot生成的具体内容是推理?@wei li 」

cot+answer 的区分是人为的格式区分,对于ntp GPT 模型,它们都是概率性 inference 生成的 response

如果这个response 是针对理工类推理题目,那么这种 inference 是对于人类 reasoning,尤其是演绎( deduction)的模拟,但不是严格意义上的逻辑演绎。

如果是创作类任务,inference 中的 CoT 就是 planning/pondering 等思考过程, inference 中的answer就是生成结果,都谈不上逻辑推理。

reasoning model 这个实命名也不准确,还不如叫思考模型、思维链模型、慢思维模型、意识流模型、内心独白模型、小九九模型,总之就是 system 2,与传统的 system 1 模型比,只是多了个 CoT。

 

【原文】

生成式AI学习中容易混淆的几个术语

test time / reasoning / inference 辨析

推理模型是当前生成式AI的主流热点,带火了一个热词(buzz word)叫 test time compute,咱们就先从它谈起。

从模型开发者视角,test time(测试时间) 针对的是 training time (训练时间)。众所周知,这是机器学习的两个阶段,一个是在线,一个是离线。训练模型好比是软件开发;测试模型就是软件测试。模型测试阶段就是常说的(在线)推理(inference)阶段,所以 test time 又叫 inference time。

问题是,中文翻译“推理”对应了英文两个词:inference 和 reasoning,业内人士很多人是认为后者才是推理正解,而前者是错译(misnomer),合适的翻译是“推断”。但“推理”的一词二用已经混淆并流行了很久,社区习惯上不一定能改过来。但对于后学,还是要辨析清楚才好。

test time compute 之所以流行,是因为大模型领域近几个月的“范式转变”。社区依据预训练scaling law原来一直聚焦基座大模型的做大做强,但发现大算力带来大智能的效益递减,进入了平台期。于是把重心转移到后训练的强化学习,发展了一种称为 System 2 慢思维模式的推理模型。这种推理模型最大的特点就是运行起来慢了,原来的秒回现在是慢了几拍才回复,消耗了更多在线时间和在线推断的算力(即 test/inference time compute)。

按常理,在线计算量增加,模型运行慢了,听上去是在退步,而不是进步。但好消息是,模型对于复杂问题的处理智能飙升。时间换质量,当然应该看好这个新方向。慢思维推理模型的成就,就好比人类的三思而后行。一般而言,凡事喜欢琢磨的人,比不假思索就行动的人,更有智慧,也更加靠谱。学会了慢思维(术语叫思维链)的大模型亦是如此。

模型训练阶段,无论是预训练还是后训练,都是离线进行的,迭代循环,在改变模型的参数,模型并未成形,属于开发进行时。而 test time 说的是模型已经完成阶段。严格说,test time 是内部试运行阶段,让 QA(quality assurance)部门在上线发布前做测试。但现在谈 test time compute,已经不分内部测试还是用户使用,所以更准确的术语还是 inference time compute。

白老师说:

Inference当初译成推理就错,真的推理Reasoning不来还则罢了,这回真的来了,将错就错都难。

我说:

不知是不是下意识,以前一直有意无意地把 inference 与统计预测关联得更紧,而把 reasoning 与符号演绎(deduction)划了等号。前者是统计性的,后者是确定性的。(概率性)推断就是(统计性)预测,statistical inference。不知道受到了什么的暗中影响。

老友尼克说:

本意也差不多是这个意思。reasoning是偏deduction的。

大模型的术语最早借自于统计,统计中区分建模与inference两个阶段,大模型训练相当于建模。统计中inference翻译为“推断”。简中自媒体乱翻导致业界人也瞎起哄,好像上海电影译制厂把中国两代人的英文发音都带偏了。

但是定理证明community也用inference,好多会都以此冠名,所以很难把inference与reasoning完全隔开。相对讲,reasoning更偏deduction,最好的办法是在可能引起歧义时括号英文。

abduction在逻辑里是美国实用主义的特定叫法,源自Peirce。这个意思是把建模和inference合到一起的意思,就是Solomonoff Induction的不严谨的哲学说法。inference出错时,再去修正模型,the whole nine yard。在Kolmogorov Complexity中,inference被称为logic depth 。。。

其实,inference time 口语中也叫 running time 或 runtime,其他的近义词和关联词还有很多: test-time,real time,decoding time, prediction time, service time, execution time, on-the-fly computing time ...

 

 

【外一篇:推理范式演进中的概念

1.1 训练与推断的二分

机器学习系统存在两个核心阶段:

- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train)
- 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)

大语言模型(LLM)领域的最新进展显示,通过引入思维链(CoT)机制,推断阶段的计算量(test time compute)显著增长。

1.2 逻辑学视角

推理类型 逻辑结构 确定性 典型应用
演绎 前提→必然结论 确定性 数学证明
归纳 个案→普遍规律 概率性 趋势发现
溯因 现象→最佳原因 启发式 诊断推测

在传统的符号逻辑语境下,Reasoning 特指演绎推理的符号化过程,但考察当下的LLM推理模型,reasoning 最多只是对逻辑演绎的符号化模拟,本质上仍然是概率模型的推断(inference)生成;而Inference对应概率模型中的推断过程,本质是大数据压缩后的经验性模式归纳。溯因在大模型范式下,实现启发式推测的手段也还是大数据压缩后的经验性(逆势)模式归纳。总之,生成式AI大模型以不变应万变,各种思考推理过程一律采用下一词元预测(Next Token Prediction)的 inference 实现。

1.2 认知科学维度

Kahneman在《思考,快与慢》中提出的双系统理论为理解大脑行为提供新视角:

- System 1(快思考):直觉式响应 input→output,对应大模型 seq2seq 函数式生成模式

output=F(input)

- System 2(慢思考):反思性推理 input→[Think]→output,体现为CoT(ChainofThought) 驱动的两阶段函数生成模式

CoT=F(input) & output=F(CoT)

1.3 推理模型的计算-智能增长关系

强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢?并无定论,一切刚刚开始,经验法则需要时间测量。

例如,当test time compute增加10倍时:
- 数学推理准确率提升多少?
- 响应延迟增长多少?

`

【相关】

 

 

 

 

思维链是大模型的符号神助攻

在人工智能发展的历史长河中,符号逻辑和神经网络一直如两条平行线,难以交汇。然而,2025年春节,DeepSeek发布的推理大模型R1揭示了一个令人惊叹的技术突破——思维链(Chain of Thought, CoT)的自主生成,其展现出的语言序列仿佛在模拟人类的符号逻辑。这一强化学习的进展或将重新定义符号逻辑与神经网络的融合方向。

DeepSeek R1 CoT 示例

符号逻辑的回归

DeepSeek R1推理模型的发布引发全球关注,其强化学习框架下自主生成的思维链展现出惊人的问题解决能力与创作能力。其核心机制仍是GPT风格的自回归下一词元预测 (next token prediction, NTP),但模型生成的中间结果——思维链,却呈现出典型的符号逻辑特征,有效模拟了人类的思考过程。

这一现象值得深思:大语言模型的本质从未改变,包括最新的推理模型,其内部运作仍是基于向量计算的条件概率。然而,为了模拟人类的符号推理,这些模型竟然学会了通过自然语言构建推理链条。更令人惊讶的是,这些符号链条确实有效,它们结合内部的词元预测机制,显著提升了模型的推理和创造能力。这是一个非常值得回味反思的技术进展。这件事的奇妙,是ChatGPT核爆以来最大的震撼。

符号与神经的无缝对接

这项奇迹的发生尤其让我们符号AI的老司机感慨。多少年来,我们心心念念地追求两条路线的融合,希望符号逻辑能在关键时刻帮助神经系统和统计模型,但一直看不到入口。忽然间,在大模型预训练进入平台期的关口,神经社区内部打开了一扇通向符号逻辑的大门,找到了一种神经与符号融合的路径。这一突破来得如此突然而有力,不能不让人既惊且叹。可惊的是,符号逻辑终于开始发力了;可叹的是,闯出这条路的还是神经社区的研发者,没有符号研究者什么事儿。

大模型就是个端到端的黑盒子,符号仅在输入输出两个端口出现。具体说,我们只能在输入端将符号“嵌入”(embedding)至高维向量空间,并在输出端通过 softmax 映射回符号,而内部的多层前馈的数据流则完全由向量运算主导,与符号逻辑无关,也很难以人类可以理解的符号来解释(因此才有专门的大模型可解释性研究)。此前所有结合符号与向量的努力都失败了,感觉这两种表示就是不同物种,无法融合。符号逻辑一直坐冷板凳,而符号本身除了作为训练数据燃料,在内部智能运作上一点也帮不了忙。

符号与概率的桥梁:CoT的奥秘

现今的推理大模型将内在“思考过程”外化为自然语言CoT,很像是模型的内心独白或意识流。模型在生成最终答案前,CoT重新嵌入系统中助力最终答案的生成。看似简单的这一过程,却在推理时成功地利用了自然语言这一符号载体,使得符号逻辑与神经网络在端口上实现了全程对接,没有一点违和或不容。

这是怎么发生的呢?一切多亏了自回归的 NTP 范式。下一词元预测的GPT生成方式,使得内部的“思维过程”可以在输出端外化为符号CoT,从而利用符号推理的形态,一步步模拟人类思维过程。

从信息论的角度看,推理大模型在 question-CoT-answer 的生成过程中,实际上构建了一条低熵的信息传输路径。相比传统的 question-answer 直接映射,这种显式的中间步骤大大降低了输入question与输出answer的信息鸿沟,显著提升了正确答案的生成概率。正如我在之前的博客(推理新范式 query+cot+answer 支持新的 scaling law 吗)中所论述的,CoT 充当了信息桥梁的角色。虽然不是严谨的符号逻辑推断过程,但它无需改变概率模型的底层运作机理,实现了对于人类推理的有效模拟。

自然语言vs形式语言:CoT的载体选择

CoT 本质是思维,语言只是载体,原理上没必要用自然语言,或任何特定的语言(例如中文,或英文)。但现在的实现方式,无路DeepSeek的R系列,还是OpenAI的O系列,就是直接用了中文或英文的思维链表示。推理模型在运行时,CoT先在输出端外化为中文或英文的符号序列,然后自回归循环运作,最终生成答案。看上去简直就是在符号与神经之间变戏法。以前何曾想到符号介入神经,还带这么玩的,内部与端口天衣无缝。

我们都要感谢DeepSeek,要不是 DeepSeek 给了这样一个开源的春节大礼包,又完全公开了自己的CoT,我们会一直蒙在鼓里,绞尽脑汁也想不明白 reasoning 这种符号逻辑,怎么就悄悄进入了神经过程。符号与向量的矛盾通过端口外化,化解于无形。

从符号逻辑的角度看,自然语言虽然老妪能解,但其精确性远逊于数学符号、形式逻辑表达式或编程语言代码。对于数理问题或逻辑推演,CoT 用这些形式语言比用自然语言显然更合适。然而,目前思维链生成采用自然语言,而不是形式语言。偶然也夹杂了一些数学符号,但思维链整体还是压倒性的使用英语或中文。R1论文中还提到他们的CoT连计算机代码都排斥在外。感觉上,这其实不是推理的正道,但可以理解其成因。CoT 是模型自主生成的序列,而据以生成的基座大模型本身,其训练数据以自然语言压倒多数。原因之二是开发者刻意追求的可解释性以及对用户的透明性,觉得自然语言大家都容易看明白。R1在设计CoT强化训练的时候,强调了格式的奖励,其中语言一致性当成了一个目标。夹杂不同语言或代码的CoT,剔除出局了。从长远来看,这未必是最明智的决策。

前景与思考

推理模型的 CoT 无疑是神经网络与符号逻辑融合的一次创新,也是近年来人工智能领域的重要里程碑。未来的CoT研究方向,可以考虑越来越多地奖励 CoT 以更加严谨的形式语言表示。至少要文理分科,文科任务(如创作)继续用自然语言做CoT的载体,这类思维过程涉及的主要是篇章规划和表达斟酌,而非严格推理;理工任务(数学、编程、逻辑等)则不同,应该训练模型尽量使用形式语言来表示CoT推理过程。当然,要做到后者,可能还要进一步加强基座模型等代码和其他形式语言的数据配比,否则 LLM也许 “憋”不出来合适的表示。

最后说一下概率模型与符号逻辑的严谨性差异。推理模型的 CoT 是推理模型的现场发挥,很多时候显得不够严谨。但其实人脑也是一样。没人能出口成章地把一个复杂数学证明一气呵成,就如同没人能一口气写出一个没有bugs的程序。严谨性都是在反复校验、修正,甚至是几代科学家前赴后继不断探究中完成的。CoT 不够严谨是拿模型的“草稿”与人类专家的定稿对比产生的印象。可以预见,对于非常复杂的问题,推理模型应该像人类一样反复校正,独立复现结果比对。这可能要指望各种推理 agents 的相互协作,以及它们与人类反馈的多层交互。

【相关】

 

再谈自然模态数据是高维空间的低维流形

这个话题实际上涉及 流形假设(Manifold Hypothesis)对抗样本攻击(Adversarial Attacks)高维几何的脆弱性


1. Normal Bundle 在高维空间的“刺猬”形象

normal bundel 是微分几何里的一个重要术语,中文翻译叫“法丛”,对于欠缺数学背景的我们来说,这个术语不好理解,但理解它对于大模型的骇客攻击与AI安全性蛮重要,咱们先看看它是个什么东西。

先破题:Normal 不是‘正常’,而是‘垂直’!

咱中文里‘法’字,来自‘法线’——就是几何里那个与曲面切线呈90度的垂直方向的线。比如你拿根筷子插进苹果,筷子方向就是苹果表面的‘法线方向’。数学家说的‘法丛’(Normal Bundle),其实就是把曲面上每一点的所有垂直方向‘打包’成捆(Bundle),像给苹果表面插满箭头的刺猬!

刺猬的类比是准确的!在 低维流形嵌入高维空间 时,法丛(Normal Bundle)确实可以被想象成“刺猬”——流形的每个点都有一个法向空间,而法丛就是把这些法向空间整体“打包”在一起。见我让Sora生成的法丛示意图:

这是我给Sora发的指令:

制作3D曲面切线与法线动态演示短视频,为科普用,数学家说的‘法丛’(Normal Bundle),其实就是把曲面上每一点的所有垂直方向‘打包’成捆(Bundle),像给苹果表面插满箭头的刺猬!

有几个关键点:

    • 在 3D 空间里,我们习惯把曲面(2D 流形)的法丛(Normal Bundle)想象成一个 1D 线性空间(即法线),所以它看起来像是一个“箭头丛”。
    • 在更高维空间中,比如一个 d 维流形嵌入到 n 维空间(d < n),它的法丛一般是 (n-d) 维的,这意味着法丛方向本身就有多个自由度,而不只是单纯的“刺”。
    • 用 3D 可视化高维流形的法丛,最常见的做法确实是让法丛的“刺”呈现出扇形的扩展感,因为高维空间的法向方向比低维空间的直观“法线”更加复杂。

所以 Sora 生成的图如果能表现出“立体感更强的刺猬形态”,或者在某些点上看到“扇面展开的刺”,就能更好地表达高维法丛的概念。

想象你是只二维蚂蚁,活在皱巴巴的树叶上。对你来说,前后左右是‘切空间’——现实世界;而上下方向就是‘法丛’——完全不可见的维度。所以‘法丛’的normal,本质是几何垂直性,不是日常说的‘正常不正常’。

数学家眼里的‘法丛’一点也不玄乎,就是垂直方向的集合。既然切空间是‘tangent’(相切的),那垂直方向就叫‘normal’(正交的),跟‘正常’没半毛钱关系!要怪就怪英文一词多义。


2. 高维空间 vs. 自然数据流形

“自然数据(文本、音频、图像、视频等)通常分布在一个远低于高维空间的流形上”,这是 流形假设(Manifold Hypothesis) 的核心观点:

    • 我们的高维数据(比如图片,通常是 256×256×3 维)并没有填满整个高维空间,而是集中在 远低于该维数的流形上
    • 这类似于:宇宙是三维的,但星星和星系主要分布在局部区域,而不是均匀填充整个宇宙。
    • 这个流形的维度一般和“人类可感知的主要变化”相关,比如在 人脸识别模型 里,所有可能的“人脸”数据分布在一个 远低于像素维度的低维流形 上,而这个流形包涵了现实中所有合理的人脸样本。这实际上是人脸与表情解耦可以work的原因。

3. 对抗样本:在法丛方向制造“幽灵数据”

既然 自然数据的流形是稀疏的,那这意味着:

    • 绝大多数可能的数据点 根本不属于自然数据的流形
    • 但在数学上,它们仍然是“合法”的高维向量,可以被构造出来,并且会落在 法丛方向 之中。

这是对抗攻击(Adversarial Attacks) 可以成立的根本原因:

    1. 模型只在自然流形上训练,它对“流形外的点”几乎没有概念。
    2. 对抗攻击就是在法丛方向上微调输入数据,让它离开流形,但仍然能欺骗模型的决策边界。
    3. 由于高维空间的稀疏性,很多非自然数据的点可能距离决策边界非常近,但在我们人类看来它们几乎与原始自然数据无差别。

一个经典的例子是:给神经网络输入一张猫的图片,稍微在 法丛方向 加一点扰动(人眼几乎察觉不到)。这张图片仍然落在数据空间里,但 已经偏离自然流形,导致模型认为它是一只狗。

这种“幽灵数据”之所以有效,正是因为 法丛方向是流形的正交补空间(Orthogonal Complement),而流形本身对它并不敏感——就像蚂蚁看不到第三维的变化。


4. 为什么法丛方向上的攻击有效?

既然自然数据流形本身很低维,而法丛方向是它的补空间,远高于流形维度,那么:

    1. 法丛方向上的变动可以很大,但仍然不影响数据的可感知特性(因为它们对人类而言是“无意义的方向”)。
    2. 但是对于机器学习模型而言,这些方向仍然是合法的数据输入,它并没有经过特殊训练去防御这种扰动。
    3. 于是,在某些关键点上,对抗样本只需要在法丛方向上加一点点扰动,就能让模型的决策边界翻车

这也解释了:

    • 为什么对抗样本攻击几乎无处不在?因为高维空间里“非自然数据”占比极高,总会有某些点可以被找到来攻击模型。
    • 为什么对抗样本对人类视觉几乎无影响?因为它利用的不是“自然数据的流形变化”,而是“法丛方向的变化”,这个方向人类或自然模型根本不敏感。
    • 为什么深度学习模型的泛化能力有时不稳定?因为它们过度依赖训练数据流形,而法丛方向上的任何变化都会导致预测结果的剧烈偏移。

5. 这是否意味着“无限对抗攻击”可能存在?

在理论上,确实可以构造出 无穷多的“几何意义上非自然的数据” 来攻击模型。

    • 这些数据点不属于原始数据流形,但它们可以被设计得 足够接近决策边界,从而诱导模型出错。
    • 只要高维空间的维度够高,法丛方向的自由度就足够多,攻击者总能找到某个点来实现攻击。

这也是为什么:

    • 对抗样本防御是个无止境的军备竞赛,模型越强,对抗攻击手段就要越高级。
    • 对抗训练(Adversarial Training) 是当前最有效的解决方案之一,本质上就是“让模型在法丛方向上也学会一些关键的变化”,从而增加对抗鲁棒性。
    • 如果不考虑计算成本,我们可以尝试在更大的法丛方向空间中做鲁棒性优化,但这通常代价太高,所以现实中只能有限度地解决。万全之策是少有的,迅速堵漏或patches 对应用系统变得尤为重要。

6. AI炼丹里的‘法丛陷阱’

搞大模型训练时,参数空间就像高低起伏的山脉。梯度下降是沿着‘切空间’(Tangent Space)找路,但万一算法抽风往‘法丛’方向抖动,就可能造成极度的训练不稳定。所以高阶炼丹师都要用正则化当护栏,专门防着往法丛深渊掉。

如果没有黑客,模型使用者用到的数据输入都是自然数据,与模型训练集是同质的,模型本身的泛化能力足以轻松应对。这是因为自然数据,包括用户的自然语言指令和样例都处于模型数据的切空间里,好比在平原地带,东西南北方向坡度平缓。

但不怕贼,就怕贼惦记。黑客可以刻意制造法丛区域的数据,攻击模型。法丛处于训练数据没有覆盖的未知区域,以此为测试数据,模型性能就急剧下降,可能表现得一塌糊涂。这就像开车——切空间是方向盘能控制的方向,法丛是侧翻悬崖的方向。

这是个头痛问题,单纯依靠数据中的统计模式,难以实现真正的分布外泛化和可靠的安全性保障。常规数据增强很难解决这个法丛数据攻击的问题,因为常规自然数据如同在已知区域做探索,不会主动探索法丛方向,而且这样的数据在通常的场景极为罕见:正常用户也不会故意跳崖。开发者要探索所有法丛危险方向需要无限资源,防不胜防,通常是对骇客的数据进攻,亡羊补牢,给模型做针对性补漏。

总结:

“刺猬模型”来展示法丛(Normal Bundle)是合理的,需要强调“不同点的法向方向形成的丛”,就能很好地表达它的几何概念。
自然数据流形 vs. 法丛方向的思考是对的,它基于自然数据的流形假设。
高维空间的稀疏性 + 法丛方向上的非自然数据确是对抗攻击成立的根本原因,所以确实可以构造无数个“几何上合法但不自然”的数据点来让模型翻车。
如果要防御,关键是让模型学会法丛方向上的“稳定性”,这就是对抗训练、正则化、鲁棒性优化、构造对抗数据patching等技术的意义。

高维空间和对抗攻击的研究,可以进一步研读对抗学习(Adversarial Learning)相关论文,尤其是 Ian Goodfellow 提出的 FGSM(Fast Gradient Sign Method)经典攻击方法及其后续的种种高级变体

 

【相关】

The Three-Stage Scaling Laws Large Language Models

Mr. Huang's background features three S-curves, illustrating the scaling relay race across three stages of large language models, demonstrating a persistent spirit akin to the Chinese fable of the legendary Old Man Who Moved Mountains.

We know that large language models have three stages: pre-training, post-training, and online inference. The biggest change in recent months is the community consensus, following Ilya Sutskever's claim, that the pre-training era has ended. The famous empirical scaling laws for pre-training appear to have plateaued. This has led to the rise of inference models (OpenAI's O series and Deepseek's R series, among others), which emphasize investment in chain-of-thought (CoT) reinforcement learning during post-training and utilization of online inference time (so-called "test time compute"). These reasoning models have indeed demonstrated unprecedented achievements in mathematics, coding, and creative writing.

The scaling of post-training for reasoning models has just begun, and it's unclear how far it can go. But we can gradually see this trajectory from O1 evolving to O3, and from R1 to the reportedly soon-to-be-released R2 and their enhanced capabilities. What about the test time scaling in the final inference stage?

Recently, I spoke with my old friend Junlin, one of the earliest advocates for the three S-curves of scaling in China. I mentioned that I hadn't seen any real test time scaling because no one can control the model's test time compute—how much time/computing power it uses and when it completes assigned tasks is determined by the model itself, so test time doesn't seem "scalable." Junlin agreed that this is currently the case.

These past few days, while playing with large models' deep research capabilities, I've gradually experienced some possibilities for test time scaling. The answer is emerging. Fundamentally, it's about whether there's a curve showing that if you give a query or topic more thinking and response time, it performs better. Specifically, with O3-mini, there's a button called "deep research" that users can choose to use or not to use. Without it, your question still follows a chain of thought because you initially selected the reinforced O3 reasoning model. The process for reasoning models typically takes a minute or two. However, if you also press the deep research button, the final reasoning time is extended by several times, potentially lasting up to 10 minutes. This shows us that even with the same model, different inference times produce different results. This should count as a precursor of test time scaling.

How does it work? How can users invest different amounts of test time compute based on the difficulty or challenge of their topic and their tolerance for waiting time to generate different results for the same topic? It turns out it uses an agent-like approach. The functionality provided by the deep research button is essentially a research reasoning agent. Agents are an additional LLM-native feature that doesn't require changing the model—it changes the interaction method during the inference stage. Currently, this interaction is very simple, just one round, but this test time scaling direction is expected to continue exploring longer and more interactions with users to help maximize the effect of test time compute.

If test time compute scaling doesn't quickly hit bottlenecks, we can imagine future deep research interacting with users for extended periods to complete highly complex projects. Perhaps we're moving beyond minute-level reasoning time investments—we can entirely envision large models investing hours or even days to complete challenging tasks, such as projects that would take human researchers months or years, or completing research projects humans cannot accomplish. The current deep research is very simple—after receiving the user's prompt/query, it immediately breaks down the problem and asks the user five or six simple questions to confirm the required sources, breadth, depth, and considerations for the research. After receiving user feedback, the model begins accepting updated materials (if any) and uses search to collect more relevant information. Then, following the decomposed tasks and the plan confirmed with the user, it analyzes each source and finally synthesizes everything into a research report. This naturally extends the required reasoning time because the task is no longer singular, and the materials aren't limited to knowledge already digested within the model but include more sources searched in real-time—processing all this takes time.

For both reinforcement learning in the post-training stage of reasoning models and the investment in test time compute during the inference stage, the scaling journey has just begun. Let's hope these two S-curves can continue to rise steadily for some time, allowing the scaling relay race to help us progress continuously on the path toward artificial general intelligence (AGI) and eventually artificial superintelligence (ASI).

 

【Related】

大模型三阶段的 scaling laws 接力赛

张俊林:从Deepseek R1看Scaling Law

 

大模型三阶段的 scaling laws 接力赛

黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。

我们知道,大模型有三个阶段:预训练、后训练、在线推理。过去几个月最大的改变是,业内基本有了共识,就是伊利亚宣称的说法,预训练时代结束了,著名的预训练的 scaling law 的经验法则貌似走到了头,进入平台期。于是有了推理模型(OpenAI O 系列,以及deepseek R 系列等)的兴起,强调的是后训练的思维链强化学习的投入以及对于在线推理时间(所谓 test time compute)的利用。推理模型也确实在数学、代码以及文字创造性方面展现了前所未有的亮眼成绩。

推理模型的后训练 scaling 刚开始,能走多远,还不清晰。但这个轨迹可以从 o1 变成 o3,以及 r1 到据说今后一两个月随时可能发布的 r2 等能力增强上,慢慢看到。最后这个推理阶段的 test time scaling 呢?

前阵子我跟国内最早鼓吹 scaling 三条S曲线的老友 Junlin 说,根本就没看到什么 test time scaling 呀,因为用户不能掌控模型的 test time compute,它花多少时间/算力,啥时候完成我给它的指令任务,是大模型自己决定的,test time 并不是可以“伸缩”(scaling)的呢。Junlin说,目前确实如此。

这几天玩大模型 deep research,逐渐体会到一点 test time scaling 的伸缩可能性。答案的端倪出现了。说到底就是,如果一个query 或课题,有没有一条曲线表示,如果你给它更多的思考和响应时间,它就完成得更好。具体说,在 o3-mini 下,有一个 button 叫 deep research,用户可以选择用或者不用。如果不用,你的问题也会有思维链,因为你一开始就选择了已经后训练强化的 o3 推理模型。推理模型的思维过程通常是一两分钟吧。但是如果你同时又按下 deep research 按钮,它最终完成任务的推理时间是加n倍的等待时间,可以长达10来分钟。这至少让我们看到了,模型不变,但推理现场的缩放时间不同,其结果是不同的。这应该算是 test time scaling 的前序或影子了。

那它是怎么做到的呢?让用户可以根据自己的课题的难易或挑战性,以及自己可以容忍的等待时间,来对同一个课题做不同的 test time compute 的投入,以便生成不同的结果呢?原来,它用的是某种 agent 的思路。deep research 这个按钮所提供的功能,实际上就是一个研究性推理的 agent。agent 是 LLM-native 的附加 feature,但不需要改变模型,它所改变的是在推理阶段与用户的交互方式。目前这种交互非常简单,只有一轮,但所开辟的这个 test time scaling 方向,预计可以继续探索与用户更长更多的交互,来帮助最大化 test time compute 的效果。

如果 test time compute scaling 并不是很快就遇到瓶颈,可以想象将来的 deep research 可以与用户互动很长的时间去完成一个非常复杂的项目,也许不是分钟量级的推理时间投入了,完全可以想象大模型投入 hours 甚至 days 来完成一个高难课题,譬如一个人类研究员需要几个月甚至几年才能完成的项目,或者完成一个人类无法完成的研究项目。当前的 deep research 非常简单,它在得到用户的 prompt/query 后,立即分解问题,并反问用户五六个简单的问题,来确认这个研究所需要的资料来源、广度、深度以及注意事项。得到用户的反馈以后,模型开始接受用户更新的资料(if any),并用 search 来收集更多的相关资料,然后按照任务的分解以及与用户确认过的计划和信息,对于每一个来源做分析,最后综合贯通,形成研究报告。这样一来,它所需要耗费的推理时间自然就加长了,因为任务不再是单一的任务,资料也不仅仅是自己模型内部已经消化了的知识,而是现场搜索的更多来源,处理这一切都需要时间。

对于推理模型的后编辑阶段的强化学习以及它在推理阶段的 test time compute 的投入,这两阶段的 scaling 征程刚刚开始。希望这两条S曲线还可以稳定上升一段时间,让 scaling 的接力赛助力我们在通用智能(AGI)和超级智能(ASI)的道路上不断前行。

 

 

【相关】

张俊林:从Deepseek R1看Scaling Law

Fundamental Limitations of Deep Learning: Origins in Data-Driven Methodology

In today's rapidly evolving artificial intelligence landscape, deep learning models have become the core engine driving technological innovation. However, behind these impressive achievements, deep learning faces several fundamental limitations that are not merely technical implementation challenges but are determined by the essence of its methodological approach.

This article explores the core limitations of deep learning beyond the well-known "black box" problem and analyzes their mathematical origins.

I. "Original Sin" of Data-Driven Approaches: Philosophical Dilemma of Statistical Learning

Confusion Between Correlation and Causation

Deep learning models are essentially high-dimensional probability density estimators. Their core objective is to find the best approximation of the conditional probability distribution P(y|x;θ) through parameters θ. Models learn from large volumes of training data, attempting to capture statistical patterns of various sizes and generalize them to unknown data. However, this statistical learning paradigm leads to a fundamental problem: models learn P(y|x) rather than P(x→y) – statistical correlation rather than causal relationships.

Consider a simple example: an AI medical system might discover that a certain type of rash is highly correlated with malaria diagnoses (possibly because the data was collected in regions with mosquito proliferation issues). The model establishes a pseudo-causal relationship of "rash → malaria" while overlooking temperature, humidity, and other actual disease factors.

This "causal misplacement" leads to poor model performance in new environments:

    • In regions without mosquito problems, the model may over-diagnose malaria
    • When facing new infectious diseases, the model may misclassify them as known categories
    • When the diagnostic environment changes, model performance significantly deteriorates

Information Bottleneck and Compression Distortion

According to information bottleneck theory, neural networks need to perform a special kind of information compression during training: discarding information in input X that is irrelevant to prediction Y while preserving all relevant information. Mathematically, this is expressed as maximizing:

I(Z;Y) - β·I(X;Z)

Where Z is the intermediate representation, I denotes mutual information, and β is a trade-off coefficient.

When training data is insufficient or biased, this compression process encounters serious problems:

    1. Discarding genuine causal signals (e.g., cell morphological features in medical images)
    2. Preserving pseudo-correlative signals (e.g., using hospital wall colors as diagnostic criteria)

The essence of this "lossy compression" causes models to grasp incorrect features in new environments. In fact, when H(Y|X) is incorrectly minimized, the model establishes data defect-driven false information channels rather than accurate mappings of reality.

II. The Low-Dimensional Manifold Hypothesis for Natural Data

A classic assumption in machine learning theory is that natural data resides on low-dimensional manifolds within high-dimensional spaces. Taking a simple example of a two-dimensional manifold in three-dimensional space, it resembles folded paper – although data points exist in 3D space, the intrinsic structure is 2D. Manifolds possess local Euclidean properties of smoothness and continuity: the neighborhood of any point on the manifold can be mapped to a low-dimensional Euclidean space. For instance, when a face rotates, the image slides continuously on the manifold without sudden changes.

Basic Concepts

    • High-dimensional space: Refers to mathematical spaces with dimensions far greater than 3. For example, a 100x100 pixel image exists in a 10,000-dimensional space (each pixel being one dimension).
    • Low-dimensional manifold: A continuous, smooth low-dimensional structure embedded in high-dimensional space. For example, a two-dimensional surface in three-dimensional space, or a structure of dozens of dimensions in a space of millions of dimensions. For instance, all ways of writing the digit "2" in a 784-dimensional pixel space form an approximately 10-dimensional manifold (controlling stroke thickness, tilt, curvature, etc.).

Why Natural Data Forms Low-Dimensional Manifolds

Natural data (such as video, images, audio, text) may seem to contain high-dimensional features but is constrained by physical laws and semantic restrictions, exhibiting low-dimensional characteristics:

Physical constraints:

    • A facial photograph's parameters are limited by bone structure, lighting angle, facial muscle movements, etc., with actual degrees of freedom potentially fewer than 50 dimensions.

Semantic constraints:

    • In textual data, grammatical rules and semantic coherence restrict seemingly unlimited vocabulary combinations to a finite meaning space. Other modal data is similar, also constrained by relationships between atomic units (tokens).

Dimensionality Reduction and Feature Extraction

The information "compression" in models is actually a process of dimensionality reduction and feature extraction. For example, the hierarchical structure of Convolutional Neural Networks (CNNs) progressively strips away redundant dimensions, approaching the essence of data manifolds. Shallow layers extract edges (local linear structures), while deeper layers combine them into object parts (global manifold structures). Manifold Learning explicitly recovers the intrinsic low-dimensional structure of data.

Taking 3D object recognition as an example: The translation and rotation of objects in 3D space form a 6-dimensional manifold (3 translations + 3 rotations). When related video image data is embedded in high-dimensional pixel space, ideal 3D object recognition involves dimensionality reduction to its 6-dimensional manifold, identifying objects through feature extraction.

III. Adversarial Examples: Fragility at Distribution Boundaries

Adversarial examples refer to samples that, through minor perturbations to original input samples, can cause deep learning models to produce incorrect outputs. For instance, a slightly modified panda image might be identified as a turtle with 99% confidence by AI.

The existence of adversarial examples reveals structural defects in data manifolds, challenging the traditional manifold hypothesis discussed above and exposing its fragility:

    • Natural data manifolds contain numerous "holes": areas not covered by training data
    • Manifold boundaries have high-curvature regions: minor perturbations can cross category boundaries

Theoretically, the possible combinations of high-resolution color images far exceed astronomical numbers. While natural images are constrained by physical laws, substantially reducing the effective space, it remains far from being adequately covered by existing datasets. This data sparsity is one fundamental reason why deep learning models are susceptible to adversarial attacks and struggle to generalize to extreme scenarios.

This sparse coverage allows attackers to find vulnerable points near decision boundaries. For example, adding carefully designed noise to a panda image that is almost imperceptible to the human eye can cause an image recognition model to misclassify it as a turtle.

Adversarial examples are not random but systematically exploit the geometric structure of model decision boundaries. A panda image being identified as a turtle is not due to random noise but because the noise is precisely added in the direction of the shortest path to the decision boundary.

Failure of Lipschitz Continuity

Lipschitz continuity is a metric for measuring how sensitive a function is to input changes. The higher the Lipschitz constant (L-value) of a deep network, the more sensitive the model is to input perturbations. The L-value of actual deep networks in adversarial directions can reach 10^3 magnitude, meaning that even minor perturbations may cause dramatic changes in model output. For example, in an autonomous driving system, if the image recognition model is overly sensitive to input perturbations, it might misidentify a large truck crossing an intersection as sky, leading to incorrect driving decisions.

Ideal classification models should satisfy the Lipschitz continuity condition, meaning that minimal input changes should only lead to limited output changes:

‖f(x+δ)-f(x)‖ ≤ L‖δ‖

Mathematical expression meaning:

‖model(input+small change) - model(input)‖ ≤ L × ‖small change‖

L is the "sensitivity coefficient," smaller L is better.

The failure of Lipschitz continuity causes input space to exhibit strong anisotropy (i.e., sensitivity in different directions varies dramatically). Imagine standing in complex terrain:

    • Natural perturbation directions (L≈1): Like walking on a gentle slope, moving 1 meter changes elevation by 1 meter, movement is safe and controllable
    • Adversarial perturbation directions (L≫1, e.g., L=10³): Like standing at a cliff edge, moving 1 centimeter might result in a 100-meter fall

This geometric structure makes it difficult for data augmentation based on uniform sampling to cover high-risk areas, as these areas have extremely low probability in natural data distribution but are "close" in Euclidean distance. For example:

    • Natural direction: Not sensitive to perturbations like lighting changes, blur, etc. (L≈1) ➔ Model can correctly handle everyday image variations
    • Adversarial direction: Specific minor perturbations cause dramatic changes (L=10³) ➔ Like applying "magic noise" to images, causing model misclassification

The Danger:

    • Exploited by attackers: Finding high-L directions to create adversarial examples is like knowing cliff locations and specifically targeting vulnerable points
    • Difficult to defend: Regular training covering all directions is prohibitively expensive, like requiring hikers to adapt to all terrain types, which is unrealistic

IV. The Mathematical Chasm Between Interpolation and Extrapolation

Interpolation Success vs. Extrapolation Failure

Deep learning models perform excellently on interpolation tasks but often fail in extrapolation tasks. This is not coincidental but determined by the essence of statistical learning:

    • Interpolation: Predicting points within the support set of the training data distribution, equivalent to filling gaps in known regions
    • Extrapolation: Predicting points outside the support set of the training data distribution, equivalent to exploring unknown regions

The success of modern deep learning largely depends on the assumption that "training distribution ≈ testing distribution." When this assumption is broken, extrapolation problems become severe, and model performance deteriorates dramatically.

Differential Geometric Explanation of Extrapolation Failure

Imagine you are a geographer drawing terrain maps:

    • Input space (M): The entire Earth's surface, containing plains, mountains, canyons, and various terrains
    • Data distribution (P_data): Regions explored by humans (cities, roads, farmland, etc.)
    • Classification model (f): Maps drawn based on terrain features (marking where forests, deserts are)
    • Decision boundaries: Transition zones between different terrains (e.g., transition between forest and grassland)

Tangent Space: Trends in terrain changes in explored areas. For example, in plains, slopes are gentle in east, west, north, and south directions (corresponding to natural perturbation directions).

The normal bundle refers to directions perpendicular to explored areas, such as suddenly appearing cliffs.

Key problem: Maps are accurate in explored regions but fail in unknown cliff areas.

When moving in unknown cliff areas, test data falls in the normal bundle of the training data distribution, and model generalization performance drops dramatically. This situation can be characterized by the following inequality:

∇ₓ log P_data(x)·δ > κ

Mathematical expression meaning:

(Terrain steepness) × (Movement direction) > (Map boundary blurriness)

Where κ is the curvature radius of the decision boundary, comparable to the width of the transition zone between forest and grassland on the map; δ is the perturbation vector, i.e., the direction of movement.

∇ₓ log P_data(x): "Terrain steepness" of data distribution

    • In frequently visited human areas (like cities), terrain is gentle (small gradient)
    • In uninhabited areas (like deep sea), terrain is steep (large gradient)

It is impossible to effectively cover unknown cliff areas through conventional training data augmentation because they have extremely low probability in the training distribution. Conventional data augmentation is like exploring in known areas and will not actively explore cliff directions because (1) the probability is extremely low: normal people don't deliberately jump off cliffs; (2) the cost is prohibitively high: exploring all dangerous directions requires infinite resources.

Consequence: When map users accidentally walk to the edge of a cliff, the navigation provided by the map fails; the map cannot predict whether you will fall off the cliff or discover a new continent.

Beyond Data-Driven Artificial Intelligence

The limitations of deep learning are not temporary technical difficulties but methodological boundaries determined by its "data-driven" nature. Relying solely on statistical patterns in data makes it difficult to achieve true causal understanding, out-of-distribution generalization, and reliable security guarantees.

One future direction may be to combine data-driven learning with structured prior logical symbolic systems, creating hybrid systems that can both leverage massive data and possess causal reasoning capabilities.

 

 

【Related】

深度学习的局限性研究综述

在人工智能快速发展的今天,深度学习大模型已成为推动技术革新的核心引擎。然而,在这些耀眼成就的背后,深度学习也面临着一系列根本性的局限,这些局限不仅是技术实现上的挑战,更是其方法论本质所决定的。

本文探讨深度学习除了黑箱以外的核心局限性,并分析它们的数学根源。

请参照机器自动生成的研究报告 o3 deep research: 深度学习局限性研究报告,本文不是在该研究报告基础上修正的版本,而是笔者综述调研同时进行的平行版本。因此,不敢说一定更好,虽然我花了不少时间核对、查验、精简、修正,道理上应该靠谱一些,至少可读性更好(?)。

一、数据驱动的"原罪":统计学习的哲学困境

相关性与因果关系的混淆

深度学习模型本质上是高维概率密度估计器,它的核心目标是通过参数θ找到条件概率分布P(y|x;θ)的最佳近似。模型通过学习大量的训练数据,试图捕捉数据中的大大小小的统计规律,并将其泛化到未知数据。然而,这种统计学习范式决定了一个根本性问题:模型学习的是P(y|x)而非P(x→y),即统计相关性而非因果关系。

举个简单例子,假设一个医疗AI系统在训练数据中发现,某种皮疹与疟疾诊断高度相关(可能因为采集数据的地区同时存在蚊虫滋生问题)。模型会建立"皮疹→疟疾"的伪因果关系,而忽略温度、湿度等真实致病因素。再如,模型可能学习到“公鸡打鸣”与“太阳升起”之间的强相关性,但这并不意味着公鸡打鸣导致了太阳升起。

这种"因果错置"导致模型在新环境中表现不佳:

    • 在没有蚊虫问题的地区,模型可能过度诊断疟疾
    • 面对新型传染病,模型可能将其误判为已知类别
    • 当诊断环境变化时,模型性能会显著下降

信息瓶颈与压缩失真

根据信息瓶颈理论,神经网络在训练过程中需要执行一种特殊的信息压缩:丢弃输入X中与预测Y无关的信息,同时保留所有相关信息。数学上表达为最大化:

I(Z;Y) - β·I(X;Z)

其中Z是中间表示,I表示互信息,β是权衡系数。

当训练数据不足或有偏时,这种压缩过程会出现严重问题:

    1. 丢弃真实因果信号(如医学图像中丢弃细胞形态学特征)
    2. 保留伪相关信号(如将医院墙面色调作为诊断依据)

这种"有损压缩"的本质导致模型在新环境中往往抓住了错误特征。实际上,当H(Y|X)被错误最小化时,模型建立的是数据缺陷驱动的虚假信息通道,而非对现实的准确映射。

二、自然数据的低维流形假说

机器学习理论中有一个经典假设:自然数据位于高维空间的低维流形上。以简单的三维空间中的二维流形为例,它就形似卷起的纸张,虽然数据点存在于3D空间,但内在结构是2D的。流形具有光滑性与连续性的局部欧几里得性:流形任意点的邻域可映射到低维欧几里得空间。例如,人脸旋转角度变化时,图像在流形上连续滑动,不会突变。

基本概念

    • 高维空间:指维度远大于3的数学空间,例如一张100x100像素的图像存在于10,000维空间中(每个像素为一个维度)。
    • 低维流形:嵌入在高维空间中的连续、光滑的低维结构。例如,三维空间中的二维曲面,或万维空间中的几十维结构。例如,784维像素空间中,数字"2"的所有写法构成约10维流形(控制笔画粗细、倾斜、弧度等)。

自然数据为何形成低维流形

自然数据(如视频、图像、语音、文本)看似蕴含着高维特征,实则受物理规律和语义约束,呈现低维特性:

    • 物理约束
      一张人脸照片的参数受限于骨骼结构、光照角度、表情肌肉运动等,实际自由度可能不足50维。
    • 语义约束
      文本数据中,语法规则和语义相谐性将看似无限的词汇组合限制在有限的意义空间内。其他模态数据也是如此,同样存在原子性单元(tokens)之间相互关系的约束。

降维与特征提取

模型的信息“压缩”实际上是降维与特征提取的过程。例如,卷积神经网络(CNN)的层级结构逐步剥离冗余维度,逼近数据流形本质。浅层提取边缘(局部线性结构),深层组合成物体部件(全局流形结构)。流形学习(Manifold Learning)意味着显式恢复数据的内在低维结构。

以3D物体识别为例
物体在3D空间中的平移、旋转形成6维流形(3个平移+3个旋转)。当相关视频图像数据嵌入到高维像素空间中以后,理想的3D物体识别就是降维到其6维流形,通过特征抽取识别物体。

三、对抗样本:分布边界的脆弱性

对抗样本是指通过对原始输入样本进行微小的扰动,就能使深度学习模型产生错误输出的样本。例如,一张微调过的熊猫图片会被AI以99%的置信度识别为乌龜。

对抗样本的存在揭示了数据流形的结构性缺陷,挑战了上文的传统流形假说,揭示了这一假说的脆弱性:

    1. 自然数据流形存在大量"孔洞":未被训练数据覆盖的区域
    2. 流形边界存在高曲率区域:微小扰动即可跨越类别边界

ImageNet包含128万张标注图像,但这些数据仅覆盖了自然图像空间的极小部分。理论上,高分辨率彩色图像的可能性组合数远超天文数字,而虽然自然图像受物理规律约束,实际有效空间大幅减少,但仍远未被现有数据集充分覆盖。这种数据稀疏性是深度学习模型易受对抗样本攻击、难以泛化到极端场景的根本原因之一。

这种稀疏覆盖使得攻击者可以在决策边界附近找到脆弱点。例如,在一张熊猫图片中加入一些精心设计的噪声,人眼几乎无法察觉,但却可以使图像识别模型将其误判为烏龜。

对抗样本不是随机的,而是系统性地利用了模型决策边界的几何结构。一张熊猫图片被识别为烏龜,不是因为随机噪声,而是因为噪声被精确添加到决策边界的最短路径方向。

李普希茨连续性的失效

李普希茨连续性是衡量函数对输入变化敏感程度的一个指标。深度网络的李普希茨常数(L值)越大,表示模型对输入的扰动越敏感。实际深度网络的 L 值在对抗方向上可达 量级,这意味着即使微小的扰动也可能导致模型输出发生剧烈变化。例如,自动驾驶系统中的图像识别模型如果对输入的扰动过于敏感,就可能将前方横穿路口的大卡车误识别为天空,从而导致错误的驾驶决策。

理想的分类模型应满足李普希茨连续条件,即输入的微小变化只能导致输出的有限变化:

‖f(x+δ)-f(x)‖ ≤ L‖δ‖

数学表达含义:‖模型(输入+小改动) - 模型(输入)‖ ≤ L × ‖小改动‖
L是"敏感系数",L越小越好。

李普希茨连续性失效导致输入空间呈现强烈的各向异性(即,不同方向上的敏感度天差地别)。想象你站在一片复杂地形中:

    • 自然扰动方向(L≈1):如同缓坡行走,移动1米海拔变化1米,行动安全可控
    • 对抗扰动方向(L≫1, 例如 L=10³):如同悬崖边缘,移动1厘米可能坠落100米

这种几何结构使得基于均匀采样的数据增强很难覆盖高风险区域,因为这些区域在自然数据分布中概率极小,但在欧氏距离上却很"近"。例如,

    • 自然方向:对光照变化、模糊等扰动不敏感(L≈1)
      ➔ 模型能正确处理日常图片变化
    • 对抗方向:存在特定微小扰动导致剧烈变化(L=10³)
      ➔ 如同在图片上施加"魔法噪声",使模型错判

各向异性的危险

    • 攻击者利用:找到高L方向制作对抗样本
      就像知道悬崖位置后,专攻脆弱点
    • 防御困难:常规训练覆盖所有方向成本过高
      如同要求登山者适应所有地形,不现实

四、内插与外推的数学鸿沟

内插成功vs外推失败

深度学习模型在内插(interpolation)任务上表现出色,但在外推(extrapolation)任务上往往失效。这不是偶然现象,而是其统计学习本质决定的:

    • 内插:预测落在训练数据分布支撑集内的点,相当于填补已知区域的空白
    • 外推:预测落在训练数据分布支撑集外的点,相当于探索未知区域

现代深度学习的成功很大程度上依赖于"训练分布≈测试分布"这一假设。当这一假设被打破时,外推问题严重,模型的表现会急剧恶化。

外推失效的微分几何解释

从微分几何视角看,可以将输入空间视为黎曼流形(M,g),分类模型f:M→ℝ^C将数据点映射到类别空间。

想象你是一位绘制地形图的地理学家:

输入空间(M):整个地球表面,包含平原、高山、峡谷等各种地形

数据分布(P_data):人类已探索区域(城市、公路、农田等)

分类模型(f):根据地形特征绘制的地图(标注哪里是森林、哪里是沙漠)

决策边界:不同地形的分界线(如森林与草原的过渡带)

切空间(Tangent Space):已探索区域的地形变化趋势,例如在平原地带,东西南北方向坡度平缓(对应自然扰动方向)。所谓法丛区域(normal bundle)指的是垂直于已探索区域的方向,例如突然出现的悬崖。

关键问题:地图在已探索区域表现精准,但对未知悬崖区域失效。

在未知悬崖区域移动时,测试数据落在训练数据分布的法丛区域,模型泛化性能急剧下降。这种情况可以用以下不等式表征:

 ∇ₓ log P_data(x)·δ > κ

数学表达含义:(地形陡峭度) × (移动方向) > (地图边界模糊度)

其中κ为决策边界的曲率半径,好比地图标注的森林与草原的过渡带宽;δ为扰动向量,即移动的方向。

∇ₓ log P_data(x):数据分布的"地形陡峭度"

      • 在人类常去区域(如城市),地形平缓(梯度小)
      • 在无人区(如深海),地形陡峭(梯度大)

无法通过常规训练数据增强来有效覆盖未知悬崖区域,因为它们在训练分布中概率极低。常规数据增强如同在已知区域做探索,不会主动探索悬崖方向,因为(1)概率极低:正常人不会故意跳崖;(2)成本过高:探索所有危险方向需要无限资源。

后果:当地图使用者意外走到悬崖边时,地图提供的导航失效,地图无法预测你会掉下悬崖还是发现新大陆。

结论:超越数据驱动的人工智能

深度学习的局限不是技术实现上的暂时困难,而是其"数据驱动"本质所决定的方法论边界。单纯依靠数据中的统计模式,难以实现真正的因果理解、分布外泛化和可靠的安全性保障。

一个未来方向可能是将数据驱动学习与结构化先验逻辑符号系统相结合,打造既能利用海量数据又具备因果推理能力的混合系统。

 

【相关】

 

o3 deep research: 深度学习局限性研究报告

立委按:这是 OpenAI o3 deep research 生成的研究报告,一字未改。可能尚存幻觉类错误,仅供参考。

我自己驱动的相同综述方向的人工版本是 深度学习的局限性研究综述,可以比对参照。不一定比此版更好。

本文将整理一篇深入分析深度学习局限性的研究报告,涵盖泛化能力、对抗样本、因果推理、黑盒问题,并结合数据驱动方法论的挑战、安全性问题和数学根源展开探讨。 分析统计学习的哲学困境、信息瓶颈理论、拓扑学视角的对抗样本解析、微分几何视角下的外推问题,以及数据缺陷的量子化表达。同时,探讨现有应对策略及其局限性,并展望未来可能的发展路径。

1. 深度学习的泛化能力与局限性

深度学习模型的核心优势在于对复杂数据模式的泛化能力。通过对大量样本的训练,深度神经网络能够学习高维特征表示,并在测试集上取得优异表现。这种泛化能力使其在图像识别、自然语言处理等任务上超越传统方法。然而,这种成功主要局限于训练数据分布内的情形,当面对更广泛的情境时,模型表现出一系列局限性。

相关性与因果关系的混淆:深度学习模型倾向于利用数据中的相关性来做出预测,却缺乏辨别因果关系的能力 () ()。它们可以在海量数据中发现高度相关的特征模式,但无法确定哪些因素是真正的因果因素。例如,模型可能将巧合当作关联,著名的案例如Google流感趋势因过度拟合搜索频率而产生误判 ()。实际上,神经网络无法区分关联与因果,常常对统计上显著却非因果的模式赋予意义,这会导致所谓的“愚蠢的洞察” () ()。正因如此,在复杂系统中缺乏因果推断能力会严重限制模型的预测可靠性 ()。

对抗样本脆弱性:深度模型被发现对对抗样本非常敏感。对抗样本是指在原始输入中加入人类几乎察觉不到的微小扰动,就能使模型信心十足地给出错误输出的输入 ()。例如,只需对一张图像像素做细微修改,就可能令模型将熊猫误识别为长臂猿,而人眼几乎看不出差别 ()。 (Adversarial example using FGSM  |  TensorFlow Core)上图演示了对抗样本攻击:原始图像$x$是熊猫(模型置信度57.7%),加入放大系数$\epsilon=0.007$的微小扰动$\text{sign}(\nabla_x J(\theta, x, y))$后,得到对抗样本$x+\epsilon,\text{sign}(\nabla_x J(\theta, x, y))$,模型被误导将其分类为长臂猿(置信度99.3%)。产生对抗扰动的一种常见方法是快速梯度符号法(FGSM),其公式为:$x_{\text{adv}} = x + \epsilon \cdot \text{sign}(\nabla_x J(\theta, x, y))$,表示沿损失函数对输入梯度的正方向施加微小步长$\epsilon$ (Adversarial example using FGSM  |  TensorFlow Core) (Adversarial example using FGSM  |  TensorFlow Core)。对抗样本现象凸显了深度模型在输入空间局部扰动下的非鲁棒性,表明它更多是根据浅层相关特征作决策,而非抓住人类理解的语义要点 ()。

黑盒性质:深度神经网络往往被视为黑盒模型,缺乏可解释性 () ()。模型内部的高维参数和非线性使人类难以理解其决策依据。实际上,网络只是将输入映射为数字并拟合统计相关性,它无法提供人类可理解的决策理由 ()。研究表明,模型的可解释性往往和灵活性呈反比,而神经网络是灵活性极高的模型,因此其内部机制难以解释 ()。这种黑盒特性意味着我们难以信任深度模型去完成高风险决策任务,例如医疗诊断或自动驾驶中的生死抉择 ()。同时,由于内部机制复杂且缺乏模块化结构,深度模型也很难调试和验证,这为实际部署带来安全隐患 ()。

数据依赖与需求:深度学习在很大程度上是一个数据驱动的范式。深度神经网络对大规模标记数据的依赖程度极高 ()。没有大量多样的训练数据,网络难以学习到稳健的模式。这导致在数据匮乏的场景下,深度学习往往表现不佳。例如,人类可以通过一两次示范就学会新任务(一次学习),但神经网络通常需要成千上万的样本才能勉强泛化 () ()。如果训练数据分布存在偏差或盲区,模型很容易记忆训练集而缺乏真正的理解 ()。正如有研究指出的:“这些模型表面上表现出对任务的理解,其实只是记住了海量数据,在训练数据覆盖不到的地方就会失败” ()。因此,深度学习革命在某种意义上是由“大数据”推动的,当缺乏大数据时,这种方法就陷入困境。

综上,深度学习模型在训练分布内展现了强大的泛化性能,但其对相关性依赖、对抗攻击脆弱、内部不可解释以及对数据的高度需求,构成了其显著的局限。这些问题为我们在更广泛、更复杂的现实环境中应用深度学习敲响了警钟。

2. 数据驱动方法论的挑战

深度学习崛起于数据驱动的统计学习范式,本质上可被视为一个高维的概率密度估计器。模型通过在训练集上最大化似然或最小化误差来捕获输入与输出之间的映射关系。然而,这种纯关联式的学习方法在哲学和实践上都面临挑战:

  • 统计学习的哲学困境:相关不等于因果。深度模型所学到的是训练数据中输入与输出的联合分布或条件分布,并没有内置因果推理机制 () ()。它在本质上是一种复杂的函数拟合,追求在样本内的准确性,却无法保证在介入干预下依然有效。这就像是模型在“盲目”地记录现象,而不理解“为什么”。当数据中存在混杂因素时,模型可能错误地将伪相关当作因果规律。正如上一节提到的例子:在有偏数据集里,模型看到沙漠背景经常伴随骆驼,就误以为沙漠是骆驼出现的原因 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。实际中,“沙漠”和“骆驼”只是相关而非因果,模型缺乏常识因此产生了误因果推理。这种哲学困境表明,纯数据驱动的方法难以获得对环境的深层理解。
  • 信息瓶颈理论的启示:信息瓶颈理论认为,一个好的模型应当在保持对输出预测有用信息的同时压缩无关的输入信息。在深度学习中,隐藏层可以被看作输入信息到输出信息的“瓶颈”。研究发现,深度神经网络的训练过程可能包含两个阶段:先是拟合训练数据,尽可能记住输入细节;随后进入压缩阶段,有意或无意地丢弃与输出无关的冗余信息 (Anatomize Deep Learning with Information Theory | Lil'Log)。这种压缩有助于提升泛化能力,因为模型专注于关键信息而忽略噪声。信息瓶颈观点为泛化提供了理论解释:模型最终学到的是关于输出的充分简洁表示,而非输入的完整细节。如果一个模型无法有效压缩信息,仍记忆了大量与任务无关的细节,它在新样本上表现往往较差。这一定程度上解释了为何适当的正则化和表示压缩有利于泛化。
  • 训练数据缺陷导致伪相关:数据驱动方法严重依赖于训练数据的质量和分布假设。如果训练数据存在偏差或瑕疵,模型就会学到伪相关,并在推理时做出错误因果假设。例如,如果狗的图片大多在草地背景,模型可能将“绿色草地”作为识别狗的特征之一。结果是,一张只有草地没有狗的图片也可能被模型高置信度地预测为狗 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客) ()。这就是训练数据中的偏差导致模型学到了错误关联。在现实中,数据常常存在偏倚(例如采集自有限的环境或存在标签噪声),深度模型缺乏自我校正机制,难以分辨哪些特征是偶然相关的。研究者已经观察到,深度模型有将统计上显著却无因果意义的特征据为己用的倾向 ()。这不仅会导致模型在无偏数据上性能下降,还可能产生不公平或不可靠的决策。
  • 外推问题(分布外无能为力):深度学习模型对分布外数据(OOD)表现不佳是一个众所周知的挑战。当输入分布发生轻微变化,或遇到训练集未覆盖的情形时,模型往往束手无策 () ()。神经网络本质上擅长插值(在训练分布范围内进行预测),但在外推(超出已知分布范围进行预测)方面几乎是“绝对失败” ()。正如文献所指出:“在意料之外的新情况或极端条件下,深度模型表现会急剧恶化” ()。这源于模型只能从有限的数据近似真实函数,在超出经验数据范围时,没有依据进行可靠推断 ()。现实世界往往是开放环境,充满了复杂和未见的情境。没有无限的数据去覆盖所有可能,深度学习在开放世界中无法保证性能 ()。例如,一个在晴天公路图像上训练的自动驾驶模型,可能无法应对雪天或泥泞道路,因为这些是训练中未出现的“未知领域”。这种分布外泛化无能限制了深度学习部署在变化环境中的可靠性。

总而言之,当前的数据驱动深度学习方法存在明显的局限。它们在本质上是一种统计关联的学习:捕捉了高维数据中的模式,却缺乏因果推理和开放环境适应能力。信息瓶颈等理论为提升泛化提供了方向,但仍不足以解决由于数据缺陷和分布变化带来的挑战。未来的方法需要在纯关联学习之外,引入因果推断、先验知识和更强的模型假设,才能克服这些方法论上的瓶颈。

3. 对抗样本的数学解析

深度神经网络的对抗脆弱性可以从拓扑学、分析学和微分几何等角度加以理解。这些理论视角揭示了模型决策边界和数据结构的内在缺陷,为对抗样本的产生提供了数学解释。

3.1 拓扑视角:数据流形的结构性漏洞

高维输入数据通常假定分布在一个低维流形上。也就是说,真实样本只占据了输入空间中的一个局部子流形。然而,分类模型的决策边界需要在整个高维空间上划分类别区域。拓扑学角度表明,当数据流形嵌入在高维空间中时,其共维数(codimension)很高,围绕流形会存在大量“空白”区域。在这些流形之外的方向上,模型的决策边界缺乏约束,容易被攻破 (On the Geometry of Adversarial Examples | OpenReview)。正如一项几何分析指出的:对抗样本是深度模型决策边界在数据流形附近不正确分类的自然结果 (On the Geometry of Adversarial Examples | OpenReview)。由于训练时模型只需在流形上正确分类数据,它可能仅在流形表面学得很好,而对于流形附近的点(只差一点点就偏离了训练分布)分类却是任意的 (On the Geometry of Adversarial Examples | OpenReview)。这一结构性漏洞意味着:攻击者可以沿着垂直于数据流形的方向轻微移动样本,使其仍然在原始样本的邻域中(人眼看来几乎没变),却因脱离流形而落入决策边界另一侧。换言之,数据流形犹如悬浮于高维空间中的“岛屿”,四周充满了模型未曾见过的区域,对抗攻击正是利用了这些区域的漏洞。流形结构越是弯曲、高维,留给攻击者可利用的“缝隙”就越多,使得生成对抗样本成为可能 (On the Geometry of Adversarial Examples | OpenReview)。

3.2 李普希茨连续性失效:局部稳定性问题

理想情况下,分类函数应该是足够平滑的,对输入的小扰动保持稳定。然而,深度神经网络通常缺乏全局的李普希茨连续性约束,其输出对输入变化非常敏感。当网络在训练数据上高度拟合时,在某些方向的梯度会变得很大。这意味着存在较大的局部李普希茨常数——输入的一微小变化可以引起输出置信度的巨大变化,从而跨越决策边界。研究已表明,仅修改图像的几个像素就可能导致DNN完全错误地分类,这强调了此类模型局部稳定性的缺失 (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)。形式上,如果一个模型$f(x)$的李普希茨常数$L$非常大,那么$|x'-x|$虽很小,但$|f(x')-f(x)|$可能超过判别阈值,导致类别变化。对抗样本正是利用了这一点:通过沿着梯度方向施加精心设计的微小扰动,攻击者使模型输出发生非线性放大,从而产生错误分类。直观来说,深度网络在输入空间形成了复杂的山谷和峰峦,对抗扰动就像在谷底推了一把,看似平静的输出瞬间跃上海拔。稳定性精确拟合间存在矛盾:理论和实证结果都指出,提高模型对对抗扰动的鲁棒性常常要以牺牲部分标准精度为代价 (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)。这被视为深度学习中的一种基本权衡:追求对训练数据的极致拟合(高精度)会导致决策函数过于陡峭,从而难以兼顾对输入噪声的稳定性。这种李普希茨连续性的失效解释了为何神经网络在非常局部的范围内缺乏鲁棒性,也指导我们通过控制梯度范数(例如谱范数约束)来提升模型稳健性。

3.3 微分几何视角:测地线攻击路径与决策边界曲率

从微分几何的角度,可以将输入空间视为带有测度的流形,分类决策边界则是嵌入其中的一个超曲面。测地线攻击路径指的是在输入空间中,连接原始样本与目标对抗样本的最短路径。如果模型足够鲁棒,那么在原始类别流形内沿任意短路径都不应越界;但实际情况是,攻击者可以找到一条极短的路径穿过决策边界,将样本送入错误类别。这条路径往往偏离数据流形,抄近道绕过了模型对流形内数据的防御。决策边界的曲率在其中扮演重要角色:如果边界在样本附近高度弯曲或复杂起伏,那么存在局部区域使得很小的扰动即可达到另一侧类别。研究发现,通过对抗训练等方法增强鲁棒性,会显著降低决策边界在输入空间的曲率,使其更加平滑 ([PDF] Robustness via Curvature Regularization, and Vice Versa)。也就是说,脆弱模型的决策边界可能是“皱巴巴”的,充满高曲率的小曲面,导致分类区域犬牙交错;而鲁棒模型的边界更趋于平滑和笔直,需要更大的扰动才能跨越 ([PDF] Robustness via Curvature Regularization, and Vice Versa)。在微分几何上,可以将对抗扰动视作在决策边界法向方向上的微小位移。对抗攻击等价于找到一条绕过边界的捷径,而边界曲率越大,这条捷径越短。比如,当决策边界在样本点附近形成一个凸起,攻击者沿垂直于边界方向前进一点点就跌下凸起进入另一侧分类区域。这解释了测地线极短且几乎贴着数据流形表面的攻击路径是如何存在的。此外,高曲率还意味着不同方向上的鲁棒性各异,模型在某些特征方向上特别脆弱。综合来看,微分几何视角揭示:深度模型决策边界的形状不够平滑规整,存在曲率过大的薄弱环节,这使得对抗样本能够以最小的“能量”越过边界成功欺骗模型。

通过以上拓扑、分析和几何视角的解析,我们更全面地理解了对抗样本形成的原因:高维数据流形之外的大量空间给了攻击以可乘之机,模型的局部不稳定和决策边界弯曲则决定了这些攻击可以以何等微小的代价奏效。这些理论洞见也为提升模型鲁棒性指明了路径,例如通过流形约束、梯度正则和边界平滑等手段来弥补先天的结构缺陷。

4. 安全性问题与防御方案

深度学习模型的对抗脆弱性和不可解释性带来了严重的安全隐患。针对这些问题,研究者提出了多种防御策略。然而,每种方案都有其局限性,需要辩证地加以理解。

对抗样本攻击的防御策略大致可分为以下几类:

  • 对抗训练:将经过算法生成的对抗样本加入训练集中一同训练模型,使模型学会识别并抵抗这些微扰 (Adversarial Attack and Defense: A Survey)。这是目前最主要的防御手段之一,通过在训练阶段模拟攻击来增强模型鲁棒性。对抗训练在小规模数据集上显示出显著效果,但其局限在于对数据和计算量要求更高,而且在大规模数据集(如ImageNet)上训练和调参非常困难 (Adversarial Attack and Defense: A Survey)。即使经过对抗训练,模型的防御也不是牢不可破——往往攻击者稍作调整就能再次骗过模型 (Adversarial Attack and Defense: A Survey)。此外,对抗训练还可能降低模型对干净样本的精度,这体现了鲁棒性与准确率间的权衡。
  • 鲁棒优化:从优化的角度,将训练目标改为极小极大问题,提升模型在最坏情况下的性能。这与对抗训练本质相同,即在损失函数中加入对扰动的最大化过程,寻找模型决策在局部的最坏情况并据此更新参数。一些改进的方法如PGD(投影梯度下降)对抗训练、TRADES等,都属于鲁棒优化范畴。它们通过更强的攻击迭代或修改损失项来提高鲁棒性。然而,这类方法经常面临计算成本高昂的问题,而且当扰动范围增加或攻击方式改变时,模型鲁棒性可能急剧下降 (Adversarial Attack and Defense: A Survey)。鲁棒优化也难以防御分布外或物理世界中的攻击(如真实场景的光线变化、打印再拍摄攻击),因为这些超出了简单范畴内扰动的假设。
  • 正则化与随机化方法:通过在训练时加入各种正则项或在预测时对输入/模型进行随机扰动,来平滑模型决策边界,提高鲁棒性。例如,梯度正则化方法在损失中惩罚输入梯度的大小,使模型学习到更平缓的函数;随机噪声注入输入转化(如输入随机压缩、平移)在预测阶段扰乱潜在攻击者的信息。同样地,防御蒸馏(distillation)曾被提出通过压缩软标签知识来增强模型稳定性。这些方法有时能在非适应性攻击下减少对抗样本成功率,但很多被证明属于**“梯度掩蔽”**(gradient masking)技巧 (Towards Understanding and Improving Adversarial Robustness of Vision Transformers)——它们并未真正提高模型本质鲁棒性,而是通过隐藏有用梯度信息来暂时阻碍攻击。当攻击者认识到防御策略并进行相应调整后,这些防御常被攻破 (Towards Understanding and Improving Adversarial Robustness of Vision Transformers)。因此,仅依赖正则和随机手段往往不能提供持久可靠的安全保障。

尽管上述防御策略层出不穷,深度模型的安全性仍然令人担忧。这些防御的局限性在于:首先,大多数防御只针对已知的特定攻击,在遇到新型攻击或适应性攻击时失效。例如,一些防御通过让梯度不可导或不可用来阻止攻击,但改进的攻击(比如通过梯度估计或期望重写技术)仍能突破。其次,防御往往带来性能开销。对抗训练会降低模型对正常样本的精度,复杂正则项增加了训练难度,有些防御还需要额外的推理步骤。再次,许多防御缺乏理论保证,我们无法证明模型在某扰动范围内一定安全,只能不断地通过各种攻击来检验。事实上,近年来多个声称成功的防御在更强的白盒攻击下纷纷被攻破,表明安全对抗是一个动态的攻防军备竞赛

即便如此,这些研究为未来指明了改进方向。例如,对抗训练的发展催生了混合对抗训练特征层对抗训练等更强方法;鲁棒优化激发了认证鲁棒性研究,尝试从数学上证明模型对一定范围扰动是安全的;正则化手段则逐步与架构设计结合,出现了诸如利用随机平滑获得置信区间的方案等。总的来说,目前没有万无一失的防御——每种方法都有局限,但组合多种策略或探索全新思路可能带来突破。

5. 理论分析与未来发展

面对深度学习当前的局限性,研究者从更深层的理论角度分析问题,并探索未来的发展路径。下面讨论几个具有前瞻性的方向:

数据缺陷的量化表达:对于深度模型因数据导致的泛化问题,有学者借鉴物理概念提出了类似**“正交灾难”“不确定性原理”的观点加以描述。正交灾难指的是在高维空间中,不同样本或特征方向往往近似正交,导致模型难以在各方向上同时保持良好性能——在一个方向上精细拟合数据(降低误差),可能会牺牲在另一个正交方向上的泛化,从而陷入维度灾难的困境。这可以类比于量子多体系统中的正交性灾难:状态空间维度巨大,以致一个微小扰动就使系统基态与原本几乎正交,重叠率骤降。对应到深度学习,微小的分布变化可能令原模型与新形态的“真实函数”几乎无重叠,需要完全重新学习,这解释了模型对分布变化如此敏感的原因。同时,不确定性原理被用来类比深度模型中精度与鲁棒性**的不可同时最大化 (On The Uncertainty Principle of Neural Networks)。有研究提出,网络对输入的识别能力和对扰动的抗噪能力是一对互相制约的“共轭变量” (On The Uncertainty Principle of Neural Networks)——提高对特征的敏感度(提升精度)会降低对梯度扰动的鲁棒性,反之亦然 (On The Uncertainty Principle of Neural Networks)。这种观点将深度学习的权衡提升到原理层面,提示我们在设计模型时必须接受某种形式的折衷,如同测不准原理限制同时精确测定粒子的位置和动量一样。对这些现象的量化分析,能够加深我们对模型固有局限的理论理解,为突破现有瓶颈提供指引。

因果介入学习:鉴于深度学习混淆相关性与因果性的缺陷,融入因果推理被认为是未来的重要方向之一 () (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。因果介入学习主张在模型中显式地考虑干预和反事实推断,让模型不仅“知其然”还要“知其所以然” (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。具体途径包括:借助因果图谱和结构方程模型,将领域知识融入网络;在训练过程中对输入进行干预操作(如打破某些相关性,模拟因果试验),迫使模型区分直接原因和伴随因素;开发新型损失函数,使模型对因果不变特征的预测更优(如因果不变风险最小化)。已经有大量研究致力于因果表征学习,希望学习到的中间表示能对应真实的因果因素 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。通过因果介入,模型有望获得更稳定的泛化性能更强的可解释性,例如在面对分布变化时,只要因果机制不变,模型决策就应当不变。这对于实现真正可靠的人工智能至关重要。目前,包括科技巨头在内的很多研究团队都在积极探索将因果推断融入深度学习的方法 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。尽管这仍处于早期阶段,但它为克服关联学习的瓶颈提供了有力方向。

微分流形增强:上一节讨论的对抗漏洞表明,需要从数据流形的结构入手增强模型鲁棒性。未来模型或训练策略可能显式地考虑流形约束几何信息。一种思路是令模型的表示空间本身构建为一个更合理的流形,使得类内样本分布在紧致光滑的流形上、类间有明显间隔,减少不确定区域。例如,利用流形正则化,在训练时惩罚模型在流形邻域内的输出变化,鼓励决策边界顺着数据流形表面而非横切通过 (Manifold-driven decomposition for adversarial robustness - Frontiers)。又或者,结合流形学习方法(如流形降维、自回归流形建模),先学习数据所在的低维流形结构,再在该流形坐标系中训练分类器,从而避免高维空间那些无效区域的干扰。微分几何还启发我们关注决策边界的平滑度:未来的训练可能直接以降低边界曲率为目标,形成更“平坦”的分类区域,提高对抗鲁棒性。此外,拓扑层面的分析(如利用代数拓扑的持久同调等)也可用于约束模型,使其决策边界拓扑结构与数据真实分类结构一致,不出现奇异的决策区域。从业界进展看,已经有一些针对特定任务的流形防御措施(如在人脸识别中将对抗样本投影回人脸图像流形)取得了积极效果。总体而言,将深度学习与微分流形/拓扑分析结合,有望打造出更理解数据几何结构、更稳健可靠的模型。

量子化正则化:这里的“量子化”并非专指量子计算,而是泛指离散化/量化技术对模型的正则作用。一方面,将模型权重和激活进行数值量化可以减少自由参数的表示能力,从而在一定程度上防止过拟合,提高泛化性能。这类似于把连续的参数空间用栅格划分,模型无法表示非常精细的差异,从而自然具有滤除高频噪声的效果。另一方面,量子力学中的某些原理也被借鉴来改进正则化手段。例如,有人提出利用量子态塌缩机制来随机正则网络权重,使模型在训练过程中跳出某些陷阱解;或者利用量子叠加/纠缠思想构造新的激活函数和正则项,迫使网络学到更具鲁棒性的表示 (Quantum adversarial machine learning | Phys. Rev. Research) ((PDF) Quantum adversarial machine learning - ResearchGate)。此外,真正的量子机器学习也在兴起,利用量子算法求解经典网络的优化问题、或构造量子神经网络等。如果将来量子计算机足够成熟,或许可以训练出内在就具有抗噪性的量子化模型(因量子系统天然服从不确定性原理约束)。当然,目前这些都处于探索阶段,但“量子化”思想提供了一种跳出现有框架限制的新视角,即从离散化与物理原理角度重新审视模型复杂度与泛化的平衡。

新型架构的实践进展:深度学习架构的革新也被寄予厚望以改进模型的局限性。以Vision Transformer (ViT)为代表的自注意力模型是近年出现的与卷积网络不同的新架构。ViT在图像领域不依赖卷积结构,而是采用全局自注意力机制,一开始人们希望这种架构能缓解CNN某些固有偏差(例如CNN偏重局部纹理)。实践表明,Transformer在某些方面展现出与CNN不同的泛化特性和鲁棒性。有研究指出,在采用对抗训练时,ViT在对抗攻击下的泛化性能可能优于同等条件下的CNN (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective);但也有研究发现,Transformer在某些频率域扰动下甚至更脆弱 (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective) (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective)。总体来看,ViT等新模型并非对局限性免疫:它们仍需要大量数据预训练,在缺乏归纳偏置的情况下甚至更依赖数据;同时自注意力机制本身也会遭受对抗攻陷(如针对补丁的攻击)。不过,好消息是,ViT的出现拓宽了架构设计空间,启发了诸如混合架构(结合卷积和注意力)、更强归纳偏置的Transformer(如嵌入位置编码的先验)等探索。这些最新架构为研究模型结构与泛化/鲁棒性的关系提供了新的试验平台。例如,通过比较CNN和Transformer对抗扰动的反应,我们可以更深入了解是什么导致了模型的脆弱性,并据此改进架构设计。未来的模型或许会融合多种机制,既拥有卷积的局部稳定,又具备注意力的全局灵活,以在复杂任务中取得更好的稳健性和平衡性能。

总结展望:深度学习的局限性既源于算法范式(数据驱动的相关学习),也与工程实现(模型结构、训练数据)密切相关。理论分析为我们揭示了这些问题背后的深层原因,如信息瓶颈、维度灾难、对抗攻防中的基本权衡等。在未来的发展中,一个共识是:仅靠堆积数据和参数规模难以彻底克服当前瓶颈,我们需要在学习范式上有所突破。这可能意味着结合因果推理引导学习、融入物理世界的先验和约束、设计更具透明性和模块化的模型,以及跨越经典与量子的思维来正则化学习过程。当下的研究已经在朝这些方向前进,同时新的架构(如ViT)和训练策略也不断涌现,为改进提供了契机。可以预见,未来的深度学习模型将不再是纯粹的数据相关性黑盒,而将逐步朝着更懂因果、更几何鲁棒、更加可控可靠的智能体演进。在这个过程中,本文讨论的各方面局限性研究将持续发挥作用,指导我们迈向下一个人工智能阶段的里程碑。

参考文献:

【1】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.3-4. ()

【2】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.7. ()

【3】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.7-8. () ()

【4】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.5. ()

【5】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.5-6. () ()

【6】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.6. ()

【7】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.10. ()

【8】 CSDN博文. 深度学习因果推断与机器学习的高级实践, 2024. (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客) (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)

【9】 CSDN博文. 深度学习因果推断与机器学习的高级实践, 2024. (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)

【10】 Marc Khoury, Dylan Hadfield-Menell. On the Geometry of Adversarial Examples. ICLR 2019. (On the Geometry of Adversarial Examples | OpenReview)

【11】 Marouan Benidir et al. Multivariate Lipschitz Analysis of the Stability of Neural Networks. Frontiers in Signal Processing, 2022. (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)

【12】 Francesco Croce et al. Robustness via Curvature Regularization, and Vice Versa. CVPR 2020. ([PDF] Robustness via Curvature Regularization, and Vice Versa)

【13】 Zhen Xiang et al. On the Uncertainty Principle of Neural Networks. arXiv preprint arXiv:2205.01493, 2023: pp.6-7. (On The Uncertainty Principle of Neural Networks)

【14】 Hongshuo Liang et al. Adversarial Attack and Defense: A Survey. Electronics, 11(8):1283, 2022: pp.15-16. (Adversarial Attack and Defense: A Survey)

【15】 Samyak Jain et al. Towards Understanding and Improving Adversarial Robustness of Vision Transformers. CVPR 2024. (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective) (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective)

【16】 TensorFlow Tutorial: Adversarial example using FGSM. TensorFlow官方教程, 2022.

 

 

【相关】