立委按:这是 OpenAI o3 deep research 生成的研究报告,一字未改。可能尚存幻觉类错误,仅供参考。 我自己驱动的相同综述方向的人工版本是 深度学习的局限性研究综述,可以比对参照。不一定比此版更好。
本文将整理一篇深入分析深度学习局限性的研究报告,涵盖泛化能力、对抗样本、因果推理、黑盒问题,并结合数据驱动方法论的挑战、安全性问题和数学根源展开探讨。 分析统计学习的哲学困境、信息瓶颈理论、拓扑学视角的对抗样本解析、微分几何视角下的外推问题,以及数据缺陷的量子化表达。同时,探讨现有应对策略及其局限性,并展望未来可能的发展路径。
1. 深度学习的泛化能力与局限性
深度学习模型的核心优势在于对复杂数据模式的泛化能力。通过对大量样本的训练,深度神经网络能够学习高维特征表示,并在测试集上取得优异表现。这种泛化能力使其在图像识别、自然语言处理等任务上超越传统方法。然而,这种成功主要局限于训练数据分布内的情形,当面对更广泛的情境时,模型表现出一系列局限性。
相关性与因果关系的混淆:深度学习模型倾向于利用数据中的相关性来做出预测,却缺乏辨别因果关系的能力 () ()。它们可以在海量数据中发现高度相关的特征模式,但无法确定哪些因素是真正的因果因素。例如,模型可能将巧合当作关联,著名的案例如Google流感趋势因过度拟合搜索频率而产生误判 ()。实际上,神经网络无法区分关联与因果,常常对统计上显著却非因果的模式赋予意义,这会导致所谓的“愚蠢的洞察” () ()。正因如此,在复杂系统中缺乏因果推断能力会严重限制模型的预测可靠性 ()。
对抗样本脆弱性:深度模型被发现对对抗样本非常敏感。对抗样本是指在原始输入中加入人类几乎察觉不到的微小扰动,就能使模型信心十足地给出错误输出的输入 ()。例如,只需对一张图像像素做细微修改,就可能令模型将熊猫误识别为长臂猿,而人眼几乎看不出差别 ()。 (Adversarial example using FGSM | TensorFlow Core)上图演示了对抗样本攻击:原始图像$x$是熊猫(模型置信度57.7%),加入放大系数$\epsilon=0.007$的微小扰动$\text{sign}(\nabla_x J(\theta, x, y))$后,得到对抗样本$x+\epsilon,\text{sign}(\nabla_x J(\theta, x, y))$,模型被误导将其分类为长臂猿(置信度99.3%)。产生对抗扰动的一种常见方法是快速梯度符号法(FGSM),其公式为:$x_{\text{adv}} = x + \epsilon \cdot \text{sign}(\nabla_x J(\theta, x, y))$,表示沿损失函数对输入梯度的正方向施加微小步长$\epsilon$ (Adversarial example using FGSM | TensorFlow Core) (Adversarial example using FGSM | TensorFlow Core)。对抗样本现象凸显了深度模型在输入空间局部扰动下的非鲁棒性,表明它更多是根据浅层相关特征作决策,而非抓住人类理解的语义要点 ()。
黑盒性质:深度神经网络往往被视为黑盒模型,缺乏可解释性 () ()。模型内部的高维参数和非线性使人类难以理解其决策依据。实际上,网络只是将输入映射为数字并拟合统计相关性,它无法提供人类可理解的决策理由 ()。研究表明,模型的可解释性往往和灵活性呈反比,而神经网络是灵活性极高的模型,因此其内部机制难以解释 ()。这种黑盒特性意味着我们难以信任深度模型去完成高风险决策任务,例如医疗诊断或自动驾驶中的生死抉择 ()。同时,由于内部机制复杂且缺乏模块化结构,深度模型也很难调试和验证,这为实际部署带来安全隐患 ()。
数据依赖与需求:深度学习在很大程度上是一个数据驱动的范式。深度神经网络对大规模标记数据的依赖程度极高 ()。没有大量多样的训练数据,网络难以学习到稳健的模式。这导致在数据匮乏的场景下,深度学习往往表现不佳。例如,人类可以通过一两次示范就学会新任务(一次学习),但神经网络通常需要成千上万的样本才能勉强泛化 () ()。如果训练数据分布存在偏差或盲区,模型很容易记忆训练集而缺乏真正的理解 ()。正如有研究指出的:“这些模型表面上表现出对任务的理解,其实只是记住了海量数据,在训练数据覆盖不到的地方就会失败” ()。因此,深度学习革命在某种意义上是由“大数据”推动的,当缺乏大数据时,这种方法就陷入困境。
综上,深度学习模型在训练分布内展现了强大的泛化性能,但其对相关性依赖、对抗攻击脆弱、内部不可解释以及对数据的高度需求,构成了其显著的局限。这些问题为我们在更广泛、更复杂的现实环境中应用深度学习敲响了警钟。
2. 数据驱动方法论的挑战
深度学习崛起于数据驱动的统计学习范式,本质上可被视为一个高维的概率密度估计器。模型通过在训练集上最大化似然或最小化误差来捕获输入与输出之间的映射关系。然而,这种纯关联式的学习方法在哲学和实践上都面临挑战:
- 统计学习的哲学困境:相关不等于因果。深度模型所学到的是训练数据中输入与输出的联合分布或条件分布,并没有内置因果推理机制 () ()。它在本质上是一种复杂的函数拟合,追求在样本内的准确性,却无法保证在介入干预下依然有效。这就像是模型在“盲目”地记录现象,而不理解“为什么”。当数据中存在混杂因素时,模型可能错误地将伪相关当作因果规律。正如上一节提到的例子:在有偏数据集里,模型看到沙漠背景经常伴随骆驼,就误以为沙漠是骆驼出现的原因 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。实际中,“沙漠”和“骆驼”只是相关而非因果,模型缺乏常识因此产生了误因果推理。这种哲学困境表明,纯数据驱动的方法难以获得对环境的深层理解。
- 信息瓶颈理论的启示:信息瓶颈理论认为,一个好的模型应当在保持对输出预测有用信息的同时压缩无关的输入信息。在深度学习中,隐藏层可以被看作输入信息到输出信息的“瓶颈”。研究发现,深度神经网络的训练过程可能包含两个阶段:先是拟合训练数据,尽可能记住输入细节;随后进入压缩阶段,有意或无意地丢弃与输出无关的冗余信息 (Anatomize Deep Learning with Information Theory | Lil'Log)。这种压缩有助于提升泛化能力,因为模型专注于关键信息而忽略噪声。信息瓶颈观点为泛化提供了理论解释:模型最终学到的是关于输出的充分简洁表示,而非输入的完整细节。如果一个模型无法有效压缩信息,仍记忆了大量与任务无关的细节,它在新样本上表现往往较差。这一定程度上解释了为何适当的正则化和表示压缩有利于泛化。
- 训练数据缺陷导致伪相关:数据驱动方法严重依赖于训练数据的质量和分布假设。如果训练数据存在偏差或瑕疵,模型就会学到伪相关,并在推理时做出错误因果假设。例如,如果狗的图片大多在草地背景,模型可能将“绿色草地”作为识别狗的特征之一。结果是,一张只有草地没有狗的图片也可能被模型高置信度地预测为狗 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客) ()。这就是训练数据中的偏差导致模型学到了错误关联。在现实中,数据常常存在偏倚(例如采集自有限的环境或存在标签噪声),深度模型缺乏自我校正机制,难以分辨哪些特征是偶然相关的。研究者已经观察到,深度模型有将统计上显著却无因果意义的特征据为己用的倾向 ()。这不仅会导致模型在无偏数据上性能下降,还可能产生不公平或不可靠的决策。
- 外推问题(分布外无能为力):深度学习模型对分布外数据(OOD)表现不佳是一个众所周知的挑战。当输入分布发生轻微变化,或遇到训练集未覆盖的情形时,模型往往束手无策 () ()。神经网络本质上擅长插值(在训练分布范围内进行预测),但在外推(超出已知分布范围进行预测)方面几乎是“绝对失败” ()。正如文献所指出:“在意料之外的新情况或极端条件下,深度模型表现会急剧恶化” ()。这源于模型只能从有限的数据近似真实函数,在超出经验数据范围时,没有依据进行可靠推断 ()。现实世界往往是开放环境,充满了复杂和未见的情境。没有无限的数据去覆盖所有可能,深度学习在开放世界中无法保证性能 ()。例如,一个在晴天公路图像上训练的自动驾驶模型,可能无法应对雪天或泥泞道路,因为这些是训练中未出现的“未知领域”。这种分布外泛化无能限制了深度学习部署在变化环境中的可靠性。
总而言之,当前的数据驱动深度学习方法存在明显的局限。它们在本质上是一种统计关联的学习:捕捉了高维数据中的模式,却缺乏因果推理和开放环境适应能力。信息瓶颈等理论为提升泛化提供了方向,但仍不足以解决由于数据缺陷和分布变化带来的挑战。未来的方法需要在纯关联学习之外,引入因果推断、先验知识和更强的模型假设,才能克服这些方法论上的瓶颈。
3. 对抗样本的数学解析
深度神经网络的对抗脆弱性可以从拓扑学、分析学和微分几何等角度加以理解。这些理论视角揭示了模型决策边界和数据结构的内在缺陷,为对抗样本的产生提供了数学解释。
3.1 拓扑视角:数据流形的结构性漏洞
高维输入数据通常假定分布在一个低维流形上。也就是说,真实样本只占据了输入空间中的一个局部子流形。然而,分类模型的决策边界需要在整个高维空间上划分类别区域。拓扑学角度表明,当数据流形嵌入在高维空间中时,其共维数(codimension)很高,围绕流形会存在大量“空白”区域。在这些流形之外的方向上,模型的决策边界缺乏约束,容易被攻破 (On the Geometry of Adversarial Examples | OpenReview)。正如一项几何分析指出的:对抗样本是深度模型决策边界在数据流形附近不正确分类的自然结果 (On the Geometry of Adversarial Examples | OpenReview)。由于训练时模型只需在流形上正确分类数据,它可能仅在流形表面学得很好,而对于流形附近的点(只差一点点就偏离了训练分布)分类却是任意的 (On the Geometry of Adversarial Examples | OpenReview)。这一结构性漏洞意味着:攻击者可以沿着垂直于数据流形的方向轻微移动样本,使其仍然在原始样本的邻域中(人眼看来几乎没变),却因脱离流形而落入决策边界另一侧。换言之,数据流形犹如悬浮于高维空间中的“岛屿”,四周充满了模型未曾见过的区域,对抗攻击正是利用了这些区域的漏洞。流形结构越是弯曲、高维,留给攻击者可利用的“缝隙”就越多,使得生成对抗样本成为可能 (On the Geometry of Adversarial Examples | OpenReview)。
3.2 李普希茨连续性失效:局部稳定性问题
理想情况下,分类函数应该是足够平滑的,对输入的小扰动保持稳定。然而,深度神经网络通常缺乏全局的李普希茨连续性约束,其输出对输入变化非常敏感。当网络在训练数据上高度拟合时,在某些方向的梯度会变得很大。这意味着存在较大的局部李普希茨常数——输入的一微小变化可以引起输出置信度的巨大变化,从而跨越决策边界。研究已表明,仅修改图像的几个像素就可能导致DNN完全错误地分类,这强调了此类模型局部稳定性的缺失 (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)。形式上,如果一个模型$f(x)$的李普希茨常数$L$非常大,那么$|x'-x|$虽很小,但$|f(x')-f(x)|$可能超过判别阈值,导致类别变化。对抗样本正是利用了这一点:通过沿着梯度方向施加精心设计的微小扰动,攻击者使模型输出发生非线性放大,从而产生错误分类。直观来说,深度网络在输入空间形成了复杂的山谷和峰峦,对抗扰动就像在谷底推了一把,看似平静的输出瞬间跃上海拔。稳定性与精确拟合间存在矛盾:理论和实证结果都指出,提高模型对对抗扰动的鲁棒性常常要以牺牲部分标准精度为代价 (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)。这被视为深度学习中的一种基本权衡:追求对训练数据的极致拟合(高精度)会导致决策函数过于陡峭,从而难以兼顾对输入噪声的稳定性。这种李普希茨连续性的失效解释了为何神经网络在非常局部的范围内缺乏鲁棒性,也指导我们通过控制梯度范数(例如谱范数约束)来提升模型稳健性。
3.3 微分几何视角:测地线攻击路径与决策边界曲率
从微分几何的角度,可以将输入空间视为带有测度的流形,分类决策边界则是嵌入其中的一个超曲面。测地线攻击路径指的是在输入空间中,连接原始样本与目标对抗样本的最短路径。如果模型足够鲁棒,那么在原始类别流形内沿任意短路径都不应越界;但实际情况是,攻击者可以找到一条极短的路径穿过决策边界,将样本送入错误类别。这条路径往往偏离数据流形,抄近道绕过了模型对流形内数据的防御。决策边界的曲率在其中扮演重要角色:如果边界在样本附近高度弯曲或复杂起伏,那么存在局部区域使得很小的扰动即可达到另一侧类别。研究发现,通过对抗训练等方法增强鲁棒性,会显著降低决策边界在输入空间的曲率,使其更加平滑 ([PDF] Robustness via Curvature Regularization, and Vice Versa)。也就是说,脆弱模型的决策边界可能是“皱巴巴”的,充满高曲率的小曲面,导致分类区域犬牙交错;而鲁棒模型的边界更趋于平滑和笔直,需要更大的扰动才能跨越 ([PDF] Robustness via Curvature Regularization, and Vice Versa)。在微分几何上,可以将对抗扰动视作在决策边界法向方向上的微小位移。对抗攻击等价于找到一条绕过边界的捷径,而边界曲率越大,这条捷径越短。比如,当决策边界在样本点附近形成一个凸起,攻击者沿垂直于边界方向前进一点点就跌下凸起进入另一侧分类区域。这解释了测地线极短且几乎贴着数据流形表面的攻击路径是如何存在的。此外,高曲率还意味着不同方向上的鲁棒性各异,模型在某些特征方向上特别脆弱。综合来看,微分几何视角揭示:深度模型决策边界的形状不够平滑规整,存在曲率过大的薄弱环节,这使得对抗样本能够以最小的“能量”越过边界成功欺骗模型。
通过以上拓扑、分析和几何视角的解析,我们更全面地理解了对抗样本形成的原因:高维数据流形之外的大量空间给了攻击以可乘之机,模型的局部不稳定和决策边界弯曲则决定了这些攻击可以以何等微小的代价奏效。这些理论洞见也为提升模型鲁棒性指明了路径,例如通过流形约束、梯度正则和边界平滑等手段来弥补先天的结构缺陷。
4. 安全性问题与防御方案
深度学习模型的对抗脆弱性和不可解释性带来了严重的安全隐患。针对这些问题,研究者提出了多种防御策略。然而,每种方案都有其局限性,需要辩证地加以理解。
对抗样本攻击的防御策略大致可分为以下几类:
- 对抗训练:将经过算法生成的对抗样本加入训练集中一同训练模型,使模型学会识别并抵抗这些微扰 (Adversarial Attack and Defense: A Survey)。这是目前最主要的防御手段之一,通过在训练阶段模拟攻击来增强模型鲁棒性。对抗训练在小规模数据集上显示出显著效果,但其局限在于对数据和计算量要求更高,而且在大规模数据集(如ImageNet)上训练和调参非常困难 (Adversarial Attack and Defense: A Survey)。即使经过对抗训练,模型的防御也不是牢不可破——往往攻击者稍作调整就能再次骗过模型 (Adversarial Attack and Defense: A Survey)。此外,对抗训练还可能降低模型对干净样本的精度,这体现了鲁棒性与准确率间的权衡。
- 鲁棒优化:从优化的角度,将训练目标改为极小极大问题,提升模型在最坏情况下的性能。这与对抗训练本质相同,即在损失函数中加入对扰动的最大化过程,寻找模型决策在局部的最坏情况并据此更新参数。一些改进的方法如PGD(投影梯度下降)对抗训练、TRADES等,都属于鲁棒优化范畴。它们通过更强的攻击迭代或修改损失项来提高鲁棒性。然而,这类方法经常面临计算成本高昂的问题,而且当扰动范围增加或攻击方式改变时,模型鲁棒性可能急剧下降 (Adversarial Attack and Defense: A Survey)。鲁棒优化也难以防御分布外或物理世界中的攻击(如真实场景的光线变化、打印再拍摄攻击),因为这些超出了简单范畴内扰动的假设。
- 正则化与随机化方法:通过在训练时加入各种正则项或在预测时对输入/模型进行随机扰动,来平滑模型决策边界,提高鲁棒性。例如,梯度正则化方法在损失中惩罚输入梯度的大小,使模型学习到更平缓的函数;随机噪声注入和输入转化(如输入随机压缩、平移)在预测阶段扰乱潜在攻击者的信息。同样地,防御蒸馏(distillation)曾被提出通过压缩软标签知识来增强模型稳定性。这些方法有时能在非适应性攻击下减少对抗样本成功率,但很多被证明属于**“梯度掩蔽”**(gradient masking)技巧 (Towards Understanding and Improving Adversarial Robustness of Vision Transformers)——它们并未真正提高模型本质鲁棒性,而是通过隐藏有用梯度信息来暂时阻碍攻击。当攻击者认识到防御策略并进行相应调整后,这些防御常被攻破 (Towards Understanding and Improving Adversarial Robustness of Vision Transformers)。因此,仅依赖正则和随机手段往往不能提供持久可靠的安全保障。
尽管上述防御策略层出不穷,深度模型的安全性仍然令人担忧。这些防御的局限性在于:首先,大多数防御只针对已知的特定攻击,在遇到新型攻击或适应性攻击时失效。例如,一些防御通过让梯度不可导或不可用来阻止攻击,但改进的攻击(比如通过梯度估计或期望重写技术)仍能突破。其次,防御往往带来性能开销。对抗训练会降低模型对正常样本的精度,复杂正则项增加了训练难度,有些防御还需要额外的推理步骤。再次,许多防御缺乏理论保证,我们无法证明模型在某扰动范围内一定安全,只能不断地通过各种攻击来检验。事实上,近年来多个声称成功的防御在更强的白盒攻击下纷纷被攻破,表明安全对抗是一个动态的攻防军备竞赛。
即便如此,这些研究为未来指明了改进方向。例如,对抗训练的发展催生了混合对抗训练、特征层对抗训练等更强方法;鲁棒优化激发了认证鲁棒性研究,尝试从数学上证明模型对一定范围扰动是安全的;正则化手段则逐步与架构设计结合,出现了诸如利用随机平滑获得置信区间的方案等。总的来说,目前没有万无一失的防御——每种方法都有局限,但组合多种策略或探索全新思路可能带来突破。
5. 理论分析与未来发展
面对深度学习当前的局限性,研究者从更深层的理论角度分析问题,并探索未来的发展路径。下面讨论几个具有前瞻性的方向:
数据缺陷的量化表达:对于深度模型因数据导致的泛化问题,有学者借鉴物理概念提出了类似**“正交灾难”和“不确定性原理”的观点加以描述。正交灾难指的是在高维空间中,不同样本或特征方向往往近似正交,导致模型难以在各方向上同时保持良好性能——在一个方向上精细拟合数据(降低误差),可能会牺牲在另一个正交方向上的泛化,从而陷入维度灾难的困境。这可以类比于量子多体系统中的正交性灾难:状态空间维度巨大,以致一个微小扰动就使系统基态与原本几乎正交,重叠率骤降。对应到深度学习,微小的分布变化可能令原模型与新形态的“真实函数”几乎无重叠,需要完全重新学习,这解释了模型对分布变化如此敏感的原因。同时,不确定性原理被用来类比深度模型中精度与鲁棒性**的不可同时最大化 (On The Uncertainty Principle of Neural Networks)。有研究提出,网络对输入的识别能力和对扰动的抗噪能力是一对互相制约的“共轭变量” (On The Uncertainty Principle of Neural Networks)——提高对特征的敏感度(提升精度)会降低对梯度扰动的鲁棒性,反之亦然 (On The Uncertainty Principle of Neural Networks)。这种观点将深度学习的权衡提升到原理层面,提示我们在设计模型时必须接受某种形式的折衷,如同测不准原理限制同时精确测定粒子的位置和动量一样。对这些现象的量化分析,能够加深我们对模型固有局限的理论理解,为突破现有瓶颈提供指引。
因果介入学习:鉴于深度学习混淆相关性与因果性的缺陷,融入因果推理被认为是未来的重要方向之一 () (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。因果介入学习主张在模型中显式地考虑干预和反事实推断,让模型不仅“知其然”还要“知其所以然” (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。具体途径包括:借助因果图谱和结构方程模型,将领域知识融入网络;在训练过程中对输入进行干预操作(如打破某些相关性,模拟因果试验),迫使模型区分直接原因和伴随因素;开发新型损失函数,使模型对因果不变特征的预测更优(如因果不变风险最小化)。已经有大量研究致力于因果表征学习,希望学习到的中间表示能对应真实的因果因素 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。通过因果介入,模型有望获得更稳定的泛化性能和更强的可解释性,例如在面对分布变化时,只要因果机制不变,模型决策就应当不变。这对于实现真正可靠的人工智能至关重要。目前,包括科技巨头在内的很多研究团队都在积极探索将因果推断融入深度学习的方法 (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)。尽管这仍处于早期阶段,但它为克服关联学习的瓶颈提供了有力方向。
微分流形增强:上一节讨论的对抗漏洞表明,需要从数据流形的结构入手增强模型鲁棒性。未来模型或训练策略可能显式地考虑流形约束和几何信息。一种思路是令模型的表示空间本身构建为一个更合理的流形,使得类内样本分布在紧致光滑的流形上、类间有明显间隔,减少不确定区域。例如,利用流形正则化,在训练时惩罚模型在流形邻域内的输出变化,鼓励决策边界顺着数据流形表面而非横切通过 (Manifold-driven decomposition for adversarial robustness - Frontiers)。又或者,结合流形学习方法(如流形降维、自回归流形建模),先学习数据所在的低维流形结构,再在该流形坐标系中训练分类器,从而避免高维空间那些无效区域的干扰。微分几何还启发我们关注决策边界的平滑度:未来的训练可能直接以降低边界曲率为目标,形成更“平坦”的分类区域,提高对抗鲁棒性。此外,拓扑层面的分析(如利用代数拓扑的持久同调等)也可用于约束模型,使其决策边界拓扑结构与数据真实分类结构一致,不出现奇异的决策区域。从业界进展看,已经有一些针对特定任务的流形防御措施(如在人脸识别中将对抗样本投影回人脸图像流形)取得了积极效果。总体而言,将深度学习与微分流形/拓扑分析结合,有望打造出更理解数据几何结构、更稳健可靠的模型。
量子化正则化:这里的“量子化”并非专指量子计算,而是泛指离散化/量化技术对模型的正则作用。一方面,将模型权重和激活进行数值量化可以减少自由参数的表示能力,从而在一定程度上防止过拟合,提高泛化性能。这类似于把连续的参数空间用栅格划分,模型无法表示非常精细的差异,从而自然具有滤除高频噪声的效果。另一方面,量子力学中的某些原理也被借鉴来改进正则化手段。例如,有人提出利用量子态塌缩机制来随机正则网络权重,使模型在训练过程中跳出某些陷阱解;或者利用量子叠加/纠缠思想构造新的激活函数和正则项,迫使网络学到更具鲁棒性的表示 (Quantum adversarial machine learning | Phys. Rev. Research) ((PDF) Quantum adversarial machine learning - ResearchGate)。此外,真正的量子机器学习也在兴起,利用量子算法求解经典网络的优化问题、或构造量子神经网络等。如果将来量子计算机足够成熟,或许可以训练出内在就具有抗噪性的量子化模型(因量子系统天然服从不确定性原理约束)。当然,目前这些都处于探索阶段,但“量子化”思想提供了一种跳出现有框架限制的新视角,即从离散化与物理原理角度重新审视模型复杂度与泛化的平衡。
新型架构的实践进展:深度学习架构的革新也被寄予厚望以改进模型的局限性。以Vision Transformer (ViT)为代表的自注意力模型是近年出现的与卷积网络不同的新架构。ViT在图像领域不依赖卷积结构,而是采用全局自注意力机制,一开始人们希望这种架构能缓解CNN某些固有偏差(例如CNN偏重局部纹理)。实践表明,Transformer在某些方面展现出与CNN不同的泛化特性和鲁棒性。有研究指出,在采用对抗训练时,ViT在对抗攻击下的泛化性能可能优于同等条件下的CNN (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective);但也有研究发现,Transformer在某些频率域扰动下甚至更脆弱 (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective) (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective)。总体来看,ViT等新模型并非对局限性免疫:它们仍需要大量数据预训练,在缺乏归纳偏置的情况下甚至更依赖数据;同时自注意力机制本身也会遭受对抗攻陷(如针对补丁的攻击)。不过,好消息是,ViT的出现拓宽了架构设计空间,启发了诸如混合架构(结合卷积和注意力)、更强归纳偏置的Transformer(如嵌入位置编码的先验)等探索。这些最新架构为研究模型结构与泛化/鲁棒性的关系提供了新的试验平台。例如,通过比较CNN和Transformer对抗扰动的反应,我们可以更深入了解是什么导致了模型的脆弱性,并据此改进架构设计。未来的模型或许会融合多种机制,既拥有卷积的局部稳定,又具备注意力的全局灵活,以在复杂任务中取得更好的稳健性和平衡性能。
总结展望:深度学习的局限性既源于算法范式(数据驱动的相关学习),也与工程实现(模型结构、训练数据)密切相关。理论分析为我们揭示了这些问题背后的深层原因,如信息瓶颈、维度灾难、对抗攻防中的基本权衡等。在未来的发展中,一个共识是:仅靠堆积数据和参数规模难以彻底克服当前瓶颈,我们需要在学习范式上有所突破。这可能意味着结合因果推理引导学习、融入物理世界的先验和约束、设计更具透明性和模块化的模型,以及跨越经典与量子的思维来正则化学习过程。当下的研究已经在朝这些方向前进,同时新的架构(如ViT)和训练策略也不断涌现,为改进提供了契机。可以预见,未来的深度学习模型将不再是纯粹的数据相关性黑盒,而将逐步朝着更懂因果、更几何鲁棒、更加可控可靠的智能体演进。在这个过程中,本文讨论的各方面局限性研究将持续发挥作用,指导我们迈向下一个人工智能阶段的里程碑。
参考文献:
【1】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.3-4. ()
【2】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.7. ()
【3】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.7-8. () ()
【4】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.5. ()
【5】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: pp.5-6. () ()
【6】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.6. ()
【7】 Valerii Likholetov. Limitations of Deep Neural Networks. arXiv preprint arXiv:2012.15754, 2020: p.10. ()
【8】 CSDN博文. 深度学习因果推断与机器学习的高级实践, 2024. (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客) (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)
【9】 CSDN博文. 深度学习因果推断与机器学习的高级实践, 2024. (〖深度学习〗因果推断与机器学习的高级实践 | 数学建模_问题根因 分析 机器学习-CSDN博客)
【10】 Marc Khoury, Dylan Hadfield-Menell. On the Geometry of Adversarial Examples. ICLR 2019. (On the Geometry of Adversarial Examples | OpenReview)
【11】 Marouan Benidir et al. Multivariate Lipschitz Analysis of the Stability of Neural Networks. Frontiers in Signal Processing, 2022. (Frontiers | Multivariate Lipschitz Analysis of the Stability of Neural Networks)
【12】 Francesco Croce et al. Robustness via Curvature Regularization, and Vice Versa. CVPR 2020. ([PDF] Robustness via Curvature Regularization, and Vice Versa)
【13】 Zhen Xiang et al. On the Uncertainty Principle of Neural Networks. arXiv preprint arXiv:2205.01493, 2023: pp.6-7. (On The Uncertainty Principle of Neural Networks)
【14】 Hongshuo Liang et al. Adversarial Attack and Defense: A Survey. Electronics, 11(8):1283, 2022: pp.15-16. (Adversarial Attack and Defense: A Survey)
【15】 Samyak Jain et al. Towards Understanding and Improving Adversarial Robustness of Vision Transformers. CVPR 2024. (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective) (Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective)
【16】 TensorFlow Tutorial: Adversarial example using FGSM. TensorFlow官方教程, 2022.
【相关】
- 深度学习的局限性研究综述
- o3 deep research: 深度学习局限性研究报告
- 深度学习的基石:多层感知机
- o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
- RPA 赛道与大模型Copilots早期创业者的困局
- Transformer 和注意力机制简介
- 立委科普:如何理解自注意力机制中的QKV分工?
- DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
- DeepSeek 笔记:R1 部署阶段的推理机制
- 从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
- 推理强化学习是端到端的监督,推理过程的非监督
- DeepSeek 风暴下看看它的论文
- 大模型风云诡谲的下半场:scaling 失效?