最近看了一个视频:AI 教父辛顿说若「母性本能」不植入 AI,我们人类就将成为历史。
所谓把母性本能植入大模型,就是“教大模型向善”的一种,说老实话,听上去就很扯。辛顿当然是伟人,但智者千智,必有一愚,他的有些言论就完全经不起推敲。
善恶观、价值观、世界观、宗教情怀、朴素感情、人性,等等,根本就不在机器覆盖的范围里,参照系不同,根本就不 appripriate/compatible,对于机器是无意义的维度。这是层次混淆。辛顿和伊利亚在安全方面,给人有点走火入魔的感觉。所谓超级对齐(人类价值观),出发点是好的,但扯到道德层面就很不靠谱。在这一点上,我倾向于同意 LeCun 和 Sam,他们就不信机器因为自己聪明超越了人类,就要扼杀文明和人类。
实践层面,有用模型制约模型的提议和做法,小模型或安全agent也可以为大模型的安全把关。术业有专攻,安全agent并不需要超大模型的广泛知识和各种能力,它只聚焦在从安全角度出发度量风险。实质上就是把人类比较共识的规矩或“宪法”作为判别准则灌输给小模型(或 safety agent),训练它成为一个安全判别官,大模型的输出和动作,首先走一遍较小的安全模型做一下安全分类,系统根据分类结果,判定输出或动作的安全级别,然后决定是否拦截。这个可以work,原理也不复杂,要是拿这类工作来声称要给模型植入一颗“良心”或“母性”,就有点扯了。
关于AI威胁论,马斯克还是比辛顿/伊利亚 高出一筹。老马说的是:AI 不需要对人类有恶意。(我们可以同意善恶对AI是不适用的,超出了AI性能的参照系。)老马接着说:人类对蚂蚁也没有恶意,但人类如果开路的时候遭遇蚂蚁,是不会走心避让的。AI 也是如此,只要它被赋予了执行力(action),它在完成任务的路上如果遭遇人类,它也一样不会避让。
老马的说法,显然比辛顿们高明,而且并不好反驳。人类一旦让 AI agent 开始做越来越多的事情,推演下去,最终AI会“不经意/不走心/无心”就把人类给坑了。很多任务的线条如此之长,过程如此复杂,人类最终已经无法厘清,很可能就会自然授予AI越来越大权限。一万次授权,AI都给你做得妥妥体贴,但哪怕一次,它在执行你的任务过程中,发现人类撞到它的枪口上,它枪在膛上,会节制不发吗?所以,某种额外的安全把关,包括伊利亚的所谓“超级对齐”,在这时候是可以发挥作用的。
在关于 AI 的讨论中,最耸人听闻的论调往往是:“越智能的实体,必然会控制或消灭弱者。” 这听上去像自然界的“优胜劣汰”,但其实是一个被夸大的比喻。
自然界从未出现过“顶端捕食者杀光所有弱者”的情况。狮子不会灭绝所有羚羊,骗子也绝不会希望世上没有傻子。强者与弱者之间,总存在一种相互依存。
AI 的风险同样不来自它的“恶意”。机器不会凭空长出摧毁人类的主观欲望。真正的威胁在于复杂作用链:
-
-
目标错位,导致系统执行“错误的对齐”;
-
外部操纵,让 AI 放大了恶意使用;
-
技术缺陷,引发不可预期的链式反应。
-
这些问题更像是“系统事故”,而不是“天命中的敌人”。换句话说,AI 的风险是真实的,但不是宿命的。这给了人类关键的空间和时间去干预——通过监管、技术护栏和逐步迭代,让风险降低到可控。
真正的冷静乐观主义是:承认风险,但拒绝夸大为宿命。AI 不会因为“天性”要消灭我们,它更可能因为“设计不当”带来麻烦。而设计,可以改进。