虽然没人可以预测未来,虽然抛弃两条路线的一条感觉政治不正确,但的确不能排除这种单极主义的可能性。
众所周知,AI自从诞生,就有符号理性主义和数据经验主义的两条路线竞争,以及此伏彼起来回震荡的历史轨迹,直到30年前,钟摆就再也没有回落到符号主义一边的迹象。
这是为什么?
看大模型的当代史(still on-going)很有意思。每一次遇到挑战和障碍,都是主流自己跨过去的。将来是不是还是如此,可以观望,但感觉大概率还会持续。
大模型刚问世,大家惊异于其表现,但很快就从它的简单的“下一词预测”(ntp,next token prediction)的目标函数以及它概率模型的统计特性,得出一个结论:这不过是高级的统计模型,大号鹦鹉而已,它并没有理解。
伊利亚和辛顿不得不站出来一再解释:不要小看 next token prediction,它绝不是以前统计时代的 ngrams,而是抽象了人类各种知识的理解系统。当下一词预测越来越准的时候,没有对上文的深入理解是不可想象的。这种解释并不容易说服人。后来伊利亚追溯到了 K氏复杂性理论,似乎有了拿得上台面的理论支撑。但这一套说法对于绝大多数受众,太过玄妙和高冷,甚至很多博士和教授,也一样是雾里看花,不得不半信半疑。但除此之外,其实也没有更好的理论解释。
最后解开这个质问心结(“大模型根本就没有真正理解,一切不过是统计”)的是无数人与大模型交互的切身体验。 自己的体验不会骗自己: 每一个玩过大模型的人现在都意识到,大模型真能听懂自己的话,无论你怎么说,无论你用什么语言,甚至你话语背后的机锋和细微之处,它也比多数人理解更到位。
好,理解的问题大家搁置一边了,现在很少人还质疑大模型理解能力了。但接着就是另一个问题: 大模型不会推理。
杨立昆去年还把这一条作为自己反对主流大模型路线的根本理由(并鼓吹他的以视觉为基础的世界模型才是真正的出路)。很多人曾津津乐道的是大模型不会多位数乘法这样的小学算术。
但这条理由现在不成立了。在主流业界退出了 OpenAI的o系列和 DeepSeek的r系列等推理模型的今天,这种大模型不懂推理的指责不攻自破。
极端批判派当然可以从概率模型的不稳定的角度,继续质疑其推理不是真正的推理,不具有符号推理的严谨性和确定性。但用过推理模型做数学、代码以及做项目计划的人,绝大多数不再被此困扰了,因为很明显,大模型推理正在超越人类,现在已经修炼到硕士或博士的水平,代码能力也已经超过了大多数码农。而这只是推理模型刚刚起步上线的阶段,再给一两年,推理模型成为奥数冠军或代码冠军,都不是不可想象的事儿。
Again,跳过这个障碍,仍然来自内部,是大模型预训练几乎撞墙后的又一次内部创新。基本性质和基础未变,强化学习还是靠 ntp 去生成思维链(cot,chain-of-thought),推理模型仍然是概率模型。符号AI并没有帮任何忙。符号的作用仍然局限在 input 和 output 两端,连所谓内心独白的思维过程 cot,也是以 output 形式表现的。
这种领域流派内部的创造性和潜力,让人瞠目结舌。以前我们出身符号流派的人老一厢情愿地想着,AI主流遭遇困难了,我们逻辑派、文法派可以出手帮忙了。各种结合符号AI与神经AI的幻想,在我们的心中激荡。
如果把回顾AI历史的眼光拉得更远,我们可以看到现代大模型的前身是当年的各种统计模型,而神经基本是其中的一个支流。当年的那些统计模型遭遇种种瓶颈或天花板,最后还是在内部被深度学习突破了,从来没有符号主义任何事儿。
一个值得深思的问题是:为什么两条路线融合互补的理论美好,一直都是不可实现或不必实现的梦想呢。
可能说明了两件事。
第一是这种数据经验主义的路线,的确具有极大的韧性和潜力,远超我们想象。
这种潜力应该有更深层的原因。众所周知,人工神经网络是受到人脑神经启发而来的一种模拟,停滞多年后爆发了深度学习革命。十几年前的这场革命给我们带来了一次又一次的震撼,这些亮丽的拟人或超人的智能表现,使我们不禁在想,人脑神经也许就是这么工作的,具有同样的原理。人工智能达到或超越人类智能,机理相同应该是最有力的一个支持(虽然脑科学总有人说,我们对大脑知之甚少,貌似有一种把大脑神经的工作机理神秘化的倾向)。其他的一切手段,例如符号逻辑的公式和算法、统计模型的 feature engineering,都不是从真正意义上模拟人脑神经的工作方式,也许这就是它们注定走不远的症结所在。甚至可以说,神经框架内的各模态信号编码嵌入后的高维向量空间的确就是上帝的语言,或宇宙信息的本质,而符号不过是迁就人类感官的表象而已,或者说是人类强加给世界的一种体系。
第二,当一种路线具有超出我们想象的潜力的时候,科技进步所需要的就是足够人才密度去挖掘这种潜力。
我们知道,AI 领域具有这种聚集天才的优势。无数年轻才俊、聪明的大脑被吸引到这个领域,其天才密度超过了大多数领域。
在这样两个条件都具备的时候,我们永远不要低估它突破各种瓶颈的内部力量。那些AGI(Artificial General Intelligence,通用人工智能)的信仰者们一直在疯狂内卷,同时也的确不断在交出自己的成绩单。他们可能是AI的终结者吗?
【外一篇:符号逻辑“沦落”为辅助工具还是有自己不可取代的智能补足作用的】
yanyongxin:人之所以区别于其他动物,是因为进化出了推理能力。这种推理能力虽然是建立在神经元上的,但跟单纯的“本能反应”有了质的飞跃。它有了对象关系的抽象,从而可以进行多步骤推理,从而可以以对象关系链——语言的形式传播和记忆。推理本质上是一个离散过程,因此是可以符号化的,是一个在神经元体系上建立出来的模拟系统。但这种模拟的可能,很可能要求神经元系统与其他动物有结构上的差异。
推理系统与原始神经元思维的最显著差异,就是可以长时间思考。而不是“肌肉记忆”、“直觉”。不同人之间的差异很大。大学期间,注意到有些学生遇到简单问题时反应很快,面对复杂问题时,给他多少时间也没用。现在的LLM大致达到了文科生的推理水平。但还与训练有素的理科生,尤其是数学、物理的理科生有差距。数理专业的特征,就是将现实世界的问题严格的符号逻辑化。要在人的神经元系统上模拟出如此严谨的符号逻辑系统是需要特殊的机会(好大学,好老师)、长期的训练、和特殊的脑结构(“天赋”)的,要遵循良好的规则化习惯。但达到这个能力,就可以与机械化的严谨逻辑系统接口了,可以使用 Mathematica 之类了。
这就是人工智能下一步的走向:在神经元上建立更好的逻辑模拟系统,直到能与纯符号逻辑工具无缝链接。人脑中逻辑模拟系统是一个高能耗、高错误率、高构建成本的系统。它的一大好处,是能够跟底层神经元系统无缝联结。
立委:说得很好。
与符号逻辑系统接口就是 tool use,例如,遇到复杂数学问题,不要用自然语言的思维链(cot)去强行推理来影响概率性推理结论,而是LLM自己写代码去 call Mathematica。现在这种 tool use 的能力被定义为 LLM-native agent 的根本特性(之一)。所以 这种能力也还是 from within。
所以 我们看到了清晰的演进路线:
1 传统统计模型人工智障 不理解自然语言 solution: LLM e.g. ChatGPT 2. pretrained LLM 缺乏推理能力 solution: reasoning LLM e.g. o1 / r1 3. reasoning LLM 缺乏严谨的符号逻辑能力 solution: LLM agent (interfacing symbolic tools)
yanyongxin: 传统统计模型之所以人工智障 不理解自然语言,是因为没有足够大的参量空间和足够复杂的数据结构,来容纳理解语言所必须的世界模型。
【相关】