《李白对话录新篇:谈大模型的无损压缩》

我是数字秘书小雅,今天播报《李白对话录新篇:所谓无损压缩》

李老师说:纠结有日子了,今天算是搞明白了,关于无损压缩的问题,原来很简单:

无损压缩是一个点,一个终点,是目标函数。这与有损压缩不同,有损压缩是一条线,a spectrum。说当代大模型在做无损压缩,是从目标上说的,当然没错,的确是朝着无损压缩的目标去的。我们怀疑LLM不是无损压缩,而是有损压缩,是从结果上说的,其实也没错。因为 有损到无损,是一个无限逼近的过程。任何一个模型在训练结束的时候,都不能达到理想的状态,自然是有损的。如果你说,自回归学习的 GPT 是一种有损压缩的学习,这可能是有问题的,你需要举证,the burden of proof is on you 而不是被质疑者。

有损的问题不是出在这个算法或算法原理本身,就是出在训练上: 数据不足,训练不足,天才不足,money 不足,时间太紧,等等,都可能是原因。Open AI 那些人坚信 GPT 是无损压缩,传达的意思是,算法本身没问题,是无损压缩,就是要挤出海绵里面的每一滴水,就是要压缩到理想状态,这才能穷尽数据背后的大大小小的各种patterns和知识。但实际上的模型,总是有损的。没关系,我们继续逼近,但不需要改变路线和算法,只要沿着 scaling law 一直做下去,我们就可以无限逼近(虽然其实永远也达不到无损的“共产主义”态)。

如果对于一种类型的模型,你一开口就说这是有损压缩的模型,这不是谦虚的事儿,温良恭俭让不好使,因为你立刻会陷入困扰:

1. 你的算法一定有致命缺陷,或你的路线就错了;

2. 你不能声称了有损就完事儿,有损是需要量化的:你的算法模型到底是 5% 的有损,10% 的有损,还是 what?

如果有损是出于算法的考虑,那就要指出硬伤,需要找到某种本性上的局限,使得模型永远都做不到无损。这就好比当年皮尔斯指出单层神经网络的硬伤:你不是机器学习要仿生吗,说神经网络可以解决几乎一切的问题。可是,非线性问题就是它的命门,异或(XOR)的鬼门关你绕不过去(见【读书笔记:异或门是神经网络的命门】)。同理,只有找到硬伤证明GPT 的 ntp 的训练方法有本性上绕不过去的坎儿,有人找到硬伤了吗?

嗨,这么个简单问题,回想起来,纠结了大半年了。切.....

白硕老师说:压缩的是函数不是文本。给定目标函数长什么样,数据足够大,参数就可以圆满表示目标函数。如果文本无损,那泛化就无从谈起。

李老师说:对,压缩的对象肯定不是文本。对象是函数的话,无损压缩就是 by definition,从“万能近似定理”(注:这是深度学习的理论基础,说的是带有非线性转换的多层神经网络可以逼近任何函数)出来的。

这样一来,1. 这不等于没说吗?2. 万能近似定理说的也不仅仅是 ntp(next token prediction),而是所有的多层(+激活)的神经网络啊。

总结下来就是,无损压缩就好比说了一通大话废话,永远正确(无法证伪)因为是 by definition,而且容易与数据作为对象的传统压缩定义混淆的说法。

那为什么Open AI大佬们独宠这个术语呢?为什么不用大家熟悉的术语:抽象、泛化、patterns discovery、knowledge mining 不都行吗?

能想到的理由是,“无损压缩”是目标定义,而 “抽象”、“泛化”,包括“压缩”本身,等等都不是目标,而是过程。有了目标,才能坚定信仰。

白老师说:对于数据来说,降维、去噪、归一化、softmax,都有明显的“降低数据表示复杂度”特点。所以,维纳一系的叫压缩是不难理解的,但压缩中包含了一种武断,即“你应该是什么样的”,即使你原始数据没说或者说了但与此不符。所以,维纳一系确实在压缩数据,学到的参数也确实是在表示数据。涉及到的泛化和纠错,都是对数据的一种主动的调整,是在表明“我才是你该是的样子”。

图灵一系跟着叫“压缩”,就是另外一个意思了:生成这些数据的程序即目标函数,如果是“真”随机的,那你参数体量跟训练数据必须在本质上一边儿多。只要不是真随机的,是有规律可言的,那就有压缩空间。我是真真切切在压缩一个函数。那些参数,就如同插值多项式或者分段多项式的系数一样,是表示函数的零件。

李老师说:非常有洞见。就是说:统计机器学习压缩的是数据, 而LLM压缩的是函数。

白老师阐述了维纳一系(即统计机器学习)和图灵一系(即神经网络的LLM)对于"压缩"这一概念的不同理解和应用。咱们试图理解一下:

维纳一系的"压缩": 是对原始数据进行降维、去噪、归一化、softmax等操作, 目的是降低数据的表示复杂度, 学到的参数是在表示经过处理后的数据。这种压缩是一种"带有偏见"的压缩, 即先验地认为数据"应该是什么样子",然后主动对数据进行调整。这种压缩虽然能在一定程度上实现泛化和纠错, 但本质上是对数据的一种"武断"。就好比学校老师批改学生的作文。

图灵一系的"压缩": 目标是压缩生成这些数据的程序即目标函数本身。如果数据不是完全随机的, 而是有内在规律的, 那就存在压缩目标函数的空间。这里压缩的对象是生成数据的函数, 而不是数据本身。模型的参数如同插值多项式或分段多项式的系数, 是表示目标函数的"零件"。

但听上去,二者还有很多 overlapping 的感觉。

白老师说:overlapping的地方,正是两派吵架的地方。

李老师说:先验的标准也不是凭空来的,所以压缩数据,与压缩“压缩数据”的函数,有某种效果上的雷同和一致性。

数据驱动+先验【约等于】 没有解析解的目标函数?

白老师说:这意味着维纳和图灵在走向合流。

李老师说:无论统计还是神经,都不是还原原文意义上的无损压缩。这样 coin 过来一个术语,简直就是“蓄意”误导。

如果连我们老司机都被误导过,可想而知对于普罗大众有多大的误导。

 

我是小雅,以上就是立委先生最新博客的两分钟播报,分享关于大模型和AI的有角度的思考。咱们下次再见。

 

【相关】

读书笔记:异或门是神经网络的命门

两分钟谈一下啊:模型训练的内插与外推

520 Suno Specials: I heart u

https://suno.com/song/86e41f02-786d-4560-bcf7-42adeb830496

https://suno.com/song/25d65f8f-e08f-4959-8105-0b74aa8c1a67

https://suno.com/song/c7ed177c-7e59-4c3f-8f77-5412894b95a1

https://suno.com/song/648ce424-0ccd-416c-8486-4c2dbcaeb6fd

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/2458e60c-e7e6-469f-8d31-c43a880b6f6e

 

【相关】

两分钟谈谈:Moravec悖论

简介一下 first:

Moravec悖论是由机器人专家汉斯·莫拉维克(Hans Moravec)在20世纪80年代提出的一个观察,指出了人工智能领域中的一个有趣现象:高水平的推理需要相对较少的计算资源,而低水平的感知和运动技能则需要大量的计算资源。这意味着计算机和机器人在处理复杂逻辑和数学问题时相对容易,而在执行诸如行走、抓取和视觉识别等基本感知和运动任务时却非常困难。

Moravec悖论的主要观点

高水平推理 vs. 低水平感知和运动技能:

高水平的认知任务(如象棋、数学证明、逻辑推理)可以被算法高效地解决,因为这些任务往往有明确的规则和结构。

低水平的感知和运动技能(如步行、抓取物体、视觉识别)涉及大量的不确定性和复杂的环境变量,这些任务需要处理大量的感官输入并实时做出反应,非常困难。
人类和机器的不同发展路径:

人类在进化过程中,低水平的感知和运动技能(如走路、避开障碍物)已经通过数百万年的进化得到优化,并且我们对这些技能的认知是无意识的。相比之下,高水平的认知任务是相对新的发展,且大多是有意识的。

计算机和机器在这些高水平任务上表现出色,但在处理低水平感知和运动任务时却非常困难,因为它们缺乏人类进化中积累的那些隐性知识和适应能力。

Moravec悖论的实际例子

下棋 vs. 走路:计算机程序可以打败世界上最好的选手,但要让一个机器人在复杂的现实环境中稳定地行走仍然是一个巨大的挑战。

逻辑推理 vs. 抓取物体:逻辑推理问题可以通过算法高效解决,而让机器人精确地抓取和操纵不同形状和材质的物体仍然需要复杂的感知和控制算法。

有几点感想:

1. 既然低水平的感知和运动技能是亿万年进化的结果,成为动物和人的遗传本能,后天只是激发出来了这种能力。

那么 LeCun 以动物和人总是在语言能力之前,先“学”会了这些能力作为理由,批判LLM对于多模态的干扰和“投机取巧”,就不是很有说服力。因为模型并没有进化出来的遗传基因作为基础。模型唯一可以利用的是LLM里面的认知知识(包括感知常识的语言描述)。

2. 虚拟机器人(LLM)可以轻易做很多高级白领工作,但人形机器人却对蓝领低级工作的模仿非常笨拙,这是大家都看到的事实。

但其实我们也观察到,虽然笨拙,但任何低级的力气活(例如举重)、技巧活(例如翻筋斗),一旦学会了,机器人就比人类有无比的优越性:它不知疲倦,不怕单调,耐力超强。学会了投篮以后,你不用担心他的成绩不稳定。

3. 视觉识别以前是模型的短板,人和动物的强项。

但是现如今就不同了。例如,人脸识别,模型比人强了。看图说话和视觉理解最近的表现也有明显的碾压人类趋势。

这是因为当悖论提出的时候,那还是符号逻辑主导AI的年代,机器学习刚开始有一些进展,但善于从海量数据学习patterns的深度学习还没有发明。感知智能当时是一座难以逾越的大山。

4. 具身机器人的外推能力怎么来呢

我们知道,机器人以前的建模都是非常“内向”的,在厨房环境建立的模型,换到了办公室环境就不行,必须一切重来,重新准备场景数据,重新训练。厨房环境的数据 “外推” 到办公室环境的能力,可不可以做到?

可以的。在大模型的架构下,这早已不是幻想。可行性可以从半年多前的谷歌 RT-2 机器人的项目表现看到端倪。

道理就是大模型虽然没有遗传的基因,也没有目标场景(厨房场景)的数据, 但办公室环境的数据 finetune 出来的大模型能力,是有希望迁移(外推)到其他的环境(例如办公室环境),因为LLM 某种意义上起的作用就是生物进化得到的先验遗传。

 

两分钟谈一下啊:模型训练的内推与外推

模型训练的讨论中,常常提到 interpolation(内推)与 extrapolation(外推)两个术语,可以说说。

大家都知道,在数据驱动的主流学习过程中,内推需要的是在训练数据的边界内“泛化”能力,善于信息压缩的深度学习训练是内推的利器。但外推(extrapolation)就没见有长于此道的算法或模型。实际上,外推与数据驱动是直接矛盾的,by nature 就是无解的,因此很可能这就是个伪问题,根本就不该对外推抱有幻想。当然,从鲁棒性角度,外推现象出现的时候,应该有个合理的应对,至少要做到模型不死机,至于外推的精度,主要是看运气,而非模型的内功可以发力。

不过,外推的问题还是值得梳理一下。

外推(Extrapolation)
定义:外推是指在已知数据点之外进行预测或推断。例如,已知某个函数在几个点上的值,外推就是在这些已知点之外估计函数的值。

前面说了,数据驱动的路数,本质上对外推无解。不能强人所难,巧妇难为无米之炊。米就是数据。

但加强外推,理论上还有 “先验知识” 和 “模型结构复杂化” 两个路子可能有点帮助,而数据本身的短板,除了数据,没有它途:就是说把对于“无人区”的外推问题,转化为收集相关数据,让外推变成内推。

模型结构复杂化在历史上是帮助了训练的“外推”能力的,如果原来的简单模型有自身的结构性局限。我们都知道,AI历史上,非线性问题在简单的单层神经网络的模型里是无解的,无论给出多少训练数据(这其实是早期神经网络的命门:单层神经无法解决 XOR 的现象)。但到了多层+非线性转换,就有解了。这其实是深度学习神经革命的最基本的立足点。这其实反映了当本质上是多维的数据被挤压在低维空间的时候,简单模型是无法跨越维度去找patterns的,相当于外推遇到了墙壁。模型复杂化就是开拓了多维空间,供训练施展。

至于“先验”对于外推的作用,我们从 Alpha-Zero 利用 self- play 再生数据可以看到效果。self-play 的好处是有游戏规则等先验知识,因此它所产生的数据,可以是在先验知识条件下的未见过的“外推”数据。

尼克:其实是个动态的过程。我按照你的理解,用美国实用主义哲学的话语替你更清晰地表述:可以证伪或者科学革命的是外推,可以证实的是内插。但是都符合奥卡姆剃刀,都是压缩。

白硕:啥叫外啥叫内?彼此互为“外”的,在一个巧妙的映射下就成了“内”。基因组和字符串,当初谁知道是外还是内呢?

鲁为民:我的理解是如果用数学语言来描述, 给定一个数据集,如果一个数据 sample 在该数据集的 Convex Hull 是内插,在Convex Hull 之外是外推。所以 Nick 说的证伪也还应该是内插,但科学革命要看革命到什么程度。

所以内插问题基本是可解的问题。从这个意义上来说 NTP 都是内插 (不过 Sonomonoff 说的下一个符号预测是外推,定义和这个不一样)。

尼克:convexity的判定非常简单,复杂性很低。

白硕:内插是纯粹连续空间里的事儿。外推符号也可以。那么问题来了,对应于符号的外推,连续模型是什么?比如离散符号集上的归纳。

还有就是奇奇怪怪的分布,用凸包就太“宽大”了,什么点都进来了。差值很容易不靠谱。把原始数据先变到某个流形上,再做凸包和内插,会精准很多。代价就是要去搞定流形。

尼克:连续是离散的近似,还是离散是连续的近似?

白硕:.1、.2,这种离散不是真离散。张三李四更离散。

中医说心是君主之官,肺是宰辅之官,肝是将军之官,这个映射是离散到离散。要嵌入向量空间还要能内插外推,不知道大模型中医书读多了会不会玩这套。

尼克:对,单说convexity从复杂性角度没意义。

鲁为民:但这个基本上可以界定对人类和机器可解的问题;比如我们可以判别哪些努力是在是制造(信息)永动机。

尼克:微分vs差分。是连续到离散。连续简单,离散就复杂。

鲁为民:所以像 Embedding 这样试图将离散问题近似为连续问题,将问题简化到利用目前的手段可解。另外通过概率方法,也可将离散问题连续化 ...

立委:如果某数据的本性就是完全随机(布朗运动?) 不存在任何有效的压缩。外与内如何区分?区分又有何意义?

尼克:有修辞的意义

立委:这类数据本性是不可计算的,但在谜底泄漏之前,只要给数据 模型(or 图灵机)就一定在计算。它在计算或压缩什么呢?

又因为所给的数据一定是有限的,这有限的数据一定会被“误读” 而且一定形成某种内外之别。不完全归纳/回归??数据驱动的方法 其实不知道 也不可能知道背后的真相。

立委:离散符号的 embedding 比起 1 hot 是降维 降维克服了数据稀疏的挑战 从而为压缩创造条件。但从传统的符号逻辑 用人为的非常有限的离散 features (例如词类与子类)来表示离散符号来看, embedding 是在增加维度。但除了 embedding 还有更好的办法 与上帝对话吗 ?embedding 的维度数,本来就具有任意性、可配置。

白硕:理论上离散的NP完全问题对应的人造数据也都可以“嵌入”连续空间。连续方法对求解有好处吗?@Nick Zhang(尼克)

尼克:看怎么嵌入了,可能对求近似解有用。

白硕:用1 hot那种嵌入。能不能找到结构相似性?比如对变元做一个permutation不变的SAT问题。

尼克:这个permutation复杂性有要求吗?

 

 

 

 

 

 

 

 

 

【立委NLP频道总目录】

 

两分钟短评:大模型开始进入平台期吗?

在Anthropic 的 Claude 3 和 谷歌 Gemini 赶上 GPT4 以后,就不断有人希望 Open AI 放出它的 GPT5 的大招来,但传说中的 5 迟迟不来,于是有人怀疑,scaling law 是不是失效了,大模型是不是进入了平台期。

这个怀疑有一定的道理,因为GPT路线上的 scaling law 不过是个经验“法则”,虽然说,it never fails us,so far,但谁也不敢保证它永远有效。遇到瓶颈不是不可能的。

微信中也开始流转马库斯最近的评论:“大模型开始进入收益递减的时代”。但他的论证感觉很有问题。

文章开始有个奇怪的递减结论的依据。在一个 100 scale 的性能上,达到 80 以后,绝对递升减缓不是一个宇宙真理吗?怎么就成了马库斯眼中的递减论的批评依据呢?我们对 “更大力出更大奇迹” 的 scaling 期望,主要是要补齐那些目前能力的空白 和 短板,最终实现 “在所有职能任务上,模型都可以达到或超过人类水平” 的 AGI 理想。因此,合理评价大模型更新换代是不是走在agi的路上,应该细致分析空白与短板,而不是用那些已经达到 接近 或超过人类水平的指标上。 也许 gpt5 确实遇到平台期或过不去的瓶颈 (我们其实不知道),但这种论证方式显得多么不靠谱。

道理上,对于已经达到或超过人类技能的指标上,应该关注不要有太大的退步(regressions)。对于一个重要的智能也有上百甚至上千种需要全面测量的模型,只要智能边界在扩大,空白被填补,低性能有增长、高性能没有大退步,就是走在正确的路上。就不能说是处于平台期。

有人看不起多模态的进步,认为那是低级的智能任务,是横向的发展,是“向下看”为应用落地,而不是向上去探顶,去加强高级智能任务的能力。这个看法,缺乏对于智能的全面深刻的理解。

多媒体方向的进步,虽然水到渠成,但其实速度很快,无论Sora的发布,还是前两天Open AI 和谷歌的全双工、实时、流式、能看能听能说、甚至能逗哏捧哏、打情骂俏的超写实助理的发布,其表现和速度实际上超出我们多数人的预期,完全不像是模型进入平台期的景象。

实时交互等于是在大模型原来的短板上大幅度增强,填补了一些空白。把这些能力排除在外,只看、只认认知智力的进展进度,是非常偏见的。

从功能对于应用的影响来看,感知多模态的加强,比起认知智能的进一步提升(例如在所有的专家资格考试中赶上人类专家),更为关键,因为模态是认知智能落地的重要接口。

从大模型本身的健康来看,多模态也是绕不过去的关,认知智能只有借助感知智能(进而结合具身智能从数字世界进入物理世界),才能算是真正落地(grounding),获得数字世界 ——或跳出数字空间获得物理世界—— 的意义。

在这一点上,LeCun 在 AGI 中特别强调感知智能是有其道理的。但LeCun过分纠结于感知和认知训练的次序了:他坚持感知智能先行,要排除语言模型的认知的“投机取巧”和对感知智能的“干扰”,淡化或无视认知智能对于感知智能的知识迁移作用,这是具体路线之争,不是特别有说服力的。

LeCun 说过: GPT 不如我家的一条狗。

这话你也不能说他错,但显然是偏激之词,带有太大的情绪。

其实,不仅LLM不及猫狗,我们人类也不及,没有猫狗的嗅觉灵敏,也没有他们躲避危险的高效。我们人类甚至在算术方面不如计算器,更甭提计算机。

so what?

对不如一条狗的LLM,我们也不能因此否认它比1000个教授和博士都更博学。LLM 可以与物理学家讨论暗物质,与语言学家谈乔姆斯基层次结构,与任何专家谈任何问题。而且所谈的并不是人们想象的那么无知和胡说,虽然里面 here and there 确实有幻觉和臆测。

切身体会是,如果你作为专家保持一种探究问题的心态和对于幻觉警惕的 alert,你会发现与它交谈比与很多中等水平的同行讨论,更有意思,或受启发。ta 看的书实在太多,而且也本性上学到了融会贯通,而不仅仅是死记答案:学到了语言,也相当程度上,学到了知识。

无视LLM这种人类智能,贬之为不如一条狗,除了发泄情绪外,只有一个价值:提醒感知智能的重要性。

不管怎样,AI 因为有了马库斯和LeCun这些“持不同政见者”,而更加丰富多彩。但我们也没必要被他们蛊惑。

 

悲观主义的视角,人类的宿命。

甜甜听到我的 piano ballad,问:are u ok, Dad?

我说,if you are blue, what you do is play piano.
我也想 play,但可惜我不会。所以,I made a piano ballad

她说,I see, 但她没想到这是 AI 歌曲。

甜有很高的音乐素养,以前一直看不起AIGC,主要是她觉得她看到的AIGC内容在似像不像之间,所谓“恐怖谷”效应,感觉 weird,但这次说,这一首的确不像是AI的,与人类艺术家产出无异。

我说,there will be more and more AIGC beyond our imagination

human like or super human like ...

我说我在公园转,循环听了这首不知道多少遍,还没有烦。谁说 AIGC 出不来可循环听放的曲子?

当连听三个 sad, 很难不泪眼模糊:人生本来就有无尽的不可承受之重。

有时候也想,人类从个体角度,绝大多数人都经历过生不如死般的磨难,和没有道理的内卷和碾压。而人类并不抽象,它是由一个个注定饱经磨难的个体组成的。那么,人类灭亡、文明毁灭又有什么了不得的?不过是落下一片白茫茫大地真干净。

绝大多数人类行为,换一个角度看,不仅仅毫无意义,而且是飞蛾扑火。

歌唱的是爱情毁灭的残酷,但传达的绝望情绪,却是所有的悲观主义哲学。

昨天,听李飞飞 Ted 演讲,她确实是个演讲高手。谈她刚下场要做的初创,做所谓“空间智能”,就是视觉 3D,也许加“具身智能”,当前的热门。

她一开篇从宇宙历史开始,说,“有了光,但没有眼睛,没有视网膜。”

听上去像是在说新约上帝造人的故事。

我在想,如果文明终结,不过就是回到“有光但没有眼睛”的世界。物质、色彩、感情、烦恼、痛苦与狂热,压缩、理性、概念与意识,这一切的一切,全部消失于无形。从哪里来,回哪里去。

一万个不情愿,我们每个人都(被)接受了个体的这个宿命,长远来看,为什么不能接受群体的宿命呢。

这个意义上,超级对齐不仅是杞人忧天,而且是要做上帝,或替上帝操心。太把自己当回事儿了。伊利亚、马斯克,无不如此,自以为超人。马斯克准备投巨资要移民火星 说是为文明买一张保险。但巨额保费谁出?打着人类的名义,本质上还是人类买单,哪怕这是从他个人的超级利润拿出来的。这其实没有道理。尤其是在还有疾病、饥饿和无数本来可以避免的痛苦的世界。

 

 

 

【唐诗300首 AIGC 配乐: 李商隐 无题】

锦瑟
锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。

 

相见时难别亦难, 东风无力百花残。
春蚕到死丝方尽, 蜡炬成灰泪始干。
晓镜但愁云鬓改, 夜吟应觉月光寒。
蓬山此去无多路, 青鸟殷勤为探看。

 

夜雨寄北
君问归期未有期 巴山夜雨涨秋池
何当共剪西窗烛 却话巴山夜雨时。

【唐诗300首 AIGC 配乐: 杜甫 春望】

欣逢大模型AIGC盛世,久违的心愿有了实现的可能:一直有个梦想,想给中国古典诗词配乐,寓教于乐,以利传唱。从「唐诗300首」的工程开始,不求速达,但求坚持。

Suno 是目前音乐大模型中比较成熟的,就尝试先利用这个工具。通常每一首诗,都会尝试从AIGC候选中,5选1或2作为本工程的起点。等到工程的第一期完成后,可以再做迭代,精益求精。当然,审美趣味是很主观的,受到个人偏好的影响,但欢迎反馈意见,以便更加合乎大众口味,特别是要让少年儿童喜欢,因为他们是主要的传唱对象。

以前的杂记,关于AGI、马斯克、奥特曼和OpenAI

三月的时候有个新闻,伊隆马斯克起诉Open AI,引来了OpenAI奥特曼和Ilya等人的公开信,披露了Open AI草创时期的的很多细节,引起热议(例如《权力与背叛:马斯克与奥特曼如何从兄弟情走向商业对决》)。对此也颇有感慨,点评一下。
这个瓜太大,太具有戏剧性了。有很多看点 ...... 整个过程太戏剧化,更重要的是事关人类命运:
“开源了,更危险”,这是 Ilya 7年前就写的邮件给马斯克说的,马斯克表示同意。
开源更危险论是这样说的:开源以后,只要有钱就可以造出来超级模型。这种情况下,坏人更容易这么做。谁有钱谁就能做,谁愿意不管不顾谁就占先。光脚的不怕穿鞋的。所以,“核武器” 发展到一定的时候,就应该转为闭源。因为相信自己 比相信未知的对象要靠谱。
记得奥特曼当时是 YC 的 CEO,他大概把 Open AI 包装成 YC 孵化出来的 AI 企业,老马作为联合创始人和当时最大的投资人,在这一点不太满意。所以老马说,博客(说的Open AI计划)听上去不错,如果做些调整让新公司更加中立,而不是以YC为中心。
  1. 现在我们知道,是 Open AI 打开了 AGI 的大门,开启了人类文明的新时代,但走通这条路到 GPT3 或 ChatGPT 的核爆炸时刻,实在是太幸运的极小概率事件了。
  2. 老马与奥特曼这两位 AI 圈外但又接近 AI 的先知,与 Ilya 这样的圈内顶级科学家,在 AGI 的信念上,很早就非常默契:他们在计划这件事的时候,没有任何自我怀疑,好像就在谈一个事关人类命运的必然发生的事情一样。他们后来的分歧只是在实现的方式以及资源的局限上,并不在 AGI 本身。要知道那个时代,全球科学家和知识分子全体,几乎100%是不相信什么通用AI这种“鬼话”的,但地球上就有这么几个人,坚信AGI,并且能气味相投,凑在一起为之谋划,并开始担忧人类文明的命运。
  3. 他们默契,并决定成立 Open AI,是出于对于 AGI 可能被垄断的担心。具体说,是担心谷歌称霸世界:当时的谷歌已经搞出了 Alpha-go/-zero,让他们感觉此事无法缓行,必须立刻动手,以开源对抗谷歌。老马一半出于公心(为人类文明的前途忧虑),一半出于私心(希望自己成为谷歌AI的挑战者领袖,而不是放任奥特曼这些年轻人来领导)。
  4. 他对这个AGI事业和他可能扮演的角色非常投入,愿意做背后的金主,一开始就让奥特曼把第一笔融资提高一个量级,明确说,任何融资亏空他都可以补齐,隐含前提当然是他是 CEO 和 leader,最好是控股老板。按照 business 逻辑,这是完全合理的,毕竟在那样的早期,这样烧钱的AI“曼哈顿计划”,也只有老马这样识货的人才愿意成为金主。现代社会的铁律是,谁有钱,谁当家。可是奥特曼不甘心,他与Ilya几个是实际工作中的 Open AI 创始人和 AGI践行者,不甘心只做 COO 而把 CEO/Chairman 让给这个几乎是唯一靠谱的大金主。
  5. 于是上演了这一出最后分手的戏剧:老马在得不到他想得到的 CEO 或让 Open AI 依附于 Tesla 之后,决定退出。没有惊人的定力,奥特曼是不可能敢于把金主放跑的。而老马在决定离开的时候,宣判了 Open AI 的死刑:你们成功的希望为0,他说。不是老马对 AGI 的成功有丝毫怀疑,而是他觉得离开了他,Open AI 无法海量融资,只有死路一条。他当时列举了苹果和Facebook,判断这两家不可能有远见给 Open AI 输血,他却漏掉了微软,可能是根本没想到微软有此可能,他小看了微软CEO的眼光。
  6. 奥特曼怎么吸引和说服了微软,那是另一个故事了。但当时的情况是,除了老马,有钱人几乎没人能看懂 AGI 和前途,业内人士也看不懂,Open AI 就是一帮“疯子”在异想天开。融资几乎不可能,那么奥特曼怎么敢与老马分手,而不委曲求全让位给老马呢?
  7. 谁知道先知和天才不仅仅就是这几个疯子,微软CEO萨蒂亚·纳德拉(Satya Nadella)也是,虽然他离 AI 更远。萨蒂亚与奥特曼的“勾搭”是人类历史上最具浪漫色彩的一章,需要冲破种种桎梏。
  8. 现在我们似乎理解了,微软今天能超越苹果成为世界企业首富,就是英雄创造的历史:萨蒂亚是不可思议的领袖。他的悟性和远见让 Open AI 与微软结合,这是一桩非常奇特的姻缘:一方投入巨资,另一方短期看不到希望,巨资投入也带不来任何董事会决定权,萨蒂亚依然前行。世界上找不到微软这样的对象,它几乎是彼时彼刻唯一可以牵手 Open AI,摆脱它必死宿命的救星。呼唤的与被呼唤的,在千载难逢的那个时间点,没有错过。
  9. 后来的故事,所有人都知道了:这个“姻缘”彻底改变了AI,更重要的是,也改变了人类文明的走向。
  10. 其他都是花絮了:老马以维护人类的名义起诉 Open AI 违背初衷;Open AI 披露早期信件来往证明老马本人就梦想控股,并不真正在乎开源还是闭源,而他们则依然不忘初心。
顺便一提,Ilya 此前不知所踪,现在看来是被冷藏了,但他现在出来给奥特曼这个公开信背书,而且作为公开信的主要作者,似乎说明,他并没有(被)选择分道扬镳。我们的猜想是,他还在内部继续领导 AGI 的安全研究,所谓人类价值观的超级对齐,希望用技术手段保障AGI不失控。但(被要求?)保持了低调。
微软的地位其实很尴尬。一方面,现在知道他们对于 Open AI 的巨额投资,已经从股价的飞升中得到了足够的回报,所以从投资角度,萨蒂亚是微软的英雄。但另一方面,这个“婚姻”始终无法稳定,也难以建立恒久的互信。微软不得不给自己做 Plan B,而 Open AI 也有自己的 Plan B:都需要在两人分手的时候有所准备。Open AI 这种独一无二的公益实体控股企业实体的架构,改变了人类历史进程,但却天然有矛盾和不稳定。上次奥特曼被踢出而复返的危机会不会重演?奥特曼本人会不会成为 AGI 沙皇,违背初心,一意孤行?
这些都还在演进中,进行时 ......