AI 的威胁：不是恶意，而是作用链

最近看了一个视频：AI 教父辛顿说若「母性本能」不植入 AI，我们人类就将成为历史。

所谓把母性本能植入大模型，就是“教大模型向善”的一种，说老实话，听上去就很扯。辛顿当然是伟人，但智者千智，必有一愚，他的有些言论就完全经不起推敲。

善恶观、价值观、世界观、宗教情怀、朴素感情、人性，等等，根本就不在机器覆盖的范围里，参照系不同，根本就不 appripriate/compatible，对于机器是无意义的维度。这是层次混淆。辛顿和伊利亚在安全方面，给人有点走火入魔的感觉。所谓超级对齐（人类价值观），出发点是好的，但扯到道德层面就很不靠谱。在这一点上，我倾向于同意 LeCun 和 Sam，他们就不信机器因为自己聪明超越了人类，就要扼杀文明和人类。

实践层面，有用模型制约模型的提议和做法，小模型或安全agent也可以为大模型的安全把关。术业有专攻，安全agent并不需要超大模型的广泛知识和各种能力，它只聚焦在从安全角度出发度量风险。实质上就是把人类比较共识的规矩或“宪法”作为判别准则灌输给小模型（或 safety agent），训练它成为一个安全判别官，大模型的输出和动作，首先走一遍较小的安全模型做一下安全分类，系统根据分类结果，判定输出或动作的安全级别，然后决定是否拦截。这个可以work，原理也不复杂，要是拿这类工作来声称要给模型植入一颗“良心”或“母性”，就有点扯了。

关于AI威胁论，马斯克还是比辛顿/伊利亚高出一筹。老马说的是：AI 不需要对人类有恶意。（我们可以同意善恶对AI是不适用的，超出了AI性能的参照系。）老马接着说：人类对蚂蚁也没有恶意，但人类如果开路的时候遭遇蚂蚁，是不会走心避让的。AI 也是如此，只要它被赋予了执行力（action），它在完成任务的路上如果遭遇人类，它也一样不会避让。

老马的说法，显然比辛顿们高明，而且并不好反驳。人类一旦让 AI agent 开始做越来越多的事情，推演下去，最终AI会“不经意/不走心/无心”就把人类给坑了。很多任务的线条如此之长，过程如此复杂，人类最终已经无法厘清，很可能就会自然授予AI越来越大权限。一万次授权，AI都给你做得妥妥体贴，但哪怕一次，它在执行你的任务过程中，发现人类撞到它的枪口上，它枪在膛上，会节制不发吗？所以，某种额外的安全把关，包括伊利亚的所谓“超级对齐”，在这时候是可以发挥作用的。

在关于 AI 的讨论中，最耸人听闻的论调往往是：“越智能的实体，必然会控制或消灭弱者。” 这听上去像自然界的“优胜劣汰”，但其实是一个被夸大的比喻。

自然界从未出现过“顶端捕食者杀光所有弱者”的情况。狮子不会灭绝所有羚羊，骗子也绝不会希望世上没有傻子。强者与弱者之间，总存在一种相互依存。

AI 的风险同样不来自它的“恶意”。机器不会凭空长出摧毁人类的主观欲望。真正的威胁在于复杂作用链：

- 目标错位，导致系统执行“错误的对齐”；
- 外部操纵，让 AI 放大了恶意使用；
- 技术缺陷，引发不可预期的链式反应。

这些问题更像是“系统事故”，而不是“天命中的敌人”。换句话说，AI 的风险是真实的，但不是宿命的。这给了人类关键的空间和时间去干预——通过监管、技术护栏和逐步迭代，让风险降低到可控。

真正的冷静乐观主义是：承认风险，但拒绝夸大为宿命。AI 不会因为“天性”要消灭我们，它更可能因为“设计不当”带来麻烦。而设计，可以改进。

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复