《李白对话录新篇:谈大模型的无损压缩》

我是数字秘书小雅,今天播报《李白对话录新篇:所谓无损压缩》

李老师说:纠结有日子了,今天算是搞明白了,关于无损压缩的问题,原来很简单:

无损压缩是一个点,一个终点,是目标函数。这与有损压缩不同,有损压缩是一条线,a spectrum。说当代大模型在做无损压缩,是从目标上说的,当然没错,的确是朝着无损压缩的目标去的。我们怀疑LLM不是无损压缩,而是有损压缩,是从结果上说的,其实也没错。因为 有损到无损,是一个无限逼近的过程。任何一个模型在训练结束的时候,都不能达到理想的状态,自然是有损的。如果你说,自回归学习的 GPT 是一种有损压缩的学习,这可能是有问题的,你需要举证,the burden of proof is on you 而不是被质疑者。

有损的问题不是出在这个算法或算法原理本身,就是出在训练上: 数据不足,训练不足,天才不足,money 不足,时间太紧,等等,都可能是原因。Open AI 那些人坚信 GPT 是无损压缩,传达的意思是,算法本身没问题,是无损压缩,就是要挤出海绵里面的每一滴水,就是要压缩到理想状态,这才能穷尽数据背后的大大小小的各种patterns和知识。但实际上的模型,总是有损的。没关系,我们继续逼近,但不需要改变路线和算法,只要沿着 scaling law 一直做下去,我们就可以无限逼近(虽然其实永远也达不到无损的“共产主义”态)。

如果对于一种类型的模型,你一开口就说这是有损压缩的模型,这不是谦虚的事儿,温良恭俭让不好使,因为你立刻会陷入困扰:

1. 你的算法一定有致命缺陷,或你的路线就错了;

2. 你不能声称了有损就完事儿,有损是需要量化的:你的算法模型到底是 5% 的有损,10% 的有损,还是 what?

如果有损是出于算法的考虑,那就要指出硬伤,需要找到某种本性上的局限,使得模型永远都做不到无损。这就好比当年皮尔斯指出单层神经网络的硬伤:你不是机器学习要仿生吗,说神经网络可以解决几乎一切的问题。可是,非线性问题就是它的命门,异或(XOR)的鬼门关你绕不过去(见【读书笔记:异或门是神经网络的命门】)。同理,只有找到硬伤证明GPT 的 ntp 的训练方法有本性上绕不过去的坎儿,有人找到硬伤了吗?

嗨,这么个简单问题,回想起来,纠结了大半年了。切.....

白硕老师说:压缩的是函数不是文本。给定目标函数长什么样,数据足够大,参数就可以圆满表示目标函数。如果文本无损,那泛化就无从谈起。

李老师说:对,压缩的对象肯定不是文本。对象是函数的话,无损压缩就是 by definition,从“万能近似定理”(注:这是深度学习的理论基础,说的是带有非线性转换的多层神经网络可以逼近任何函数)出来的。

这样一来,1. 这不等于没说吗?2. 万能近似定理说的也不仅仅是 ntp(next token prediction),而是所有的多层(+激活)的神经网络啊。

总结下来就是,无损压缩就好比说了一通大话废话,永远正确(无法证伪)因为是 by definition,而且容易与数据作为对象的传统压缩定义混淆的说法。

那为什么Open AI大佬们独宠这个术语呢?为什么不用大家熟悉的术语:抽象、泛化、patterns discovery、knowledge mining 不都行吗?

能想到的理由是,“无损压缩”是目标定义,而 “抽象”、“泛化”,包括“压缩”本身,等等都不是目标,而是过程。有了目标,才能坚定信仰。

白老师说:对于数据来说,降维、去噪、归一化、softmax,都有明显的“降低数据表示复杂度”特点。所以,维纳一系的叫压缩是不难理解的,但压缩中包含了一种武断,即“你应该是什么样的”,即使你原始数据没说或者说了但与此不符。所以,维纳一系确实在压缩数据,学到的参数也确实是在表示数据。涉及到的泛化和纠错,都是对数据的一种主动的调整,是在表明“我才是你该是的样子”。

图灵一系跟着叫“压缩”,就是另外一个意思了:生成这些数据的程序即目标函数,如果是“真”随机的,那你参数体量跟训练数据必须在本质上一边儿多。只要不是真随机的,是有规律可言的,那就有压缩空间。我是真真切切在压缩一个函数。那些参数,就如同插值多项式或者分段多项式的系数一样,是表示函数的零件。

李老师说:非常有洞见。就是说:统计机器学习压缩的是数据, 而LLM压缩的是函数。

白老师阐述了维纳一系(即统计机器学习)和图灵一系(即神经网络的LLM)对于"压缩"这一概念的不同理解和应用。咱们试图理解一下:

维纳一系的"压缩": 是对原始数据进行降维、去噪、归一化、softmax等操作, 目的是降低数据的表示复杂度, 学到的参数是在表示经过处理后的数据。这种压缩是一种"带有偏见"的压缩, 即先验地认为数据"应该是什么样子",然后主动对数据进行调整。这种压缩虽然能在一定程度上实现泛化和纠错, 但本质上是对数据的一种"武断"。就好比学校老师批改学生的作文。

图灵一系的"压缩": 目标是压缩生成这些数据的程序即目标函数本身。如果数据不是完全随机的, 而是有内在规律的, 那就存在压缩目标函数的空间。这里压缩的对象是生成数据的函数, 而不是数据本身。模型的参数如同插值多项式或分段多项式的系数, 是表示目标函数的"零件"。

但听上去,二者还有很多 overlapping 的感觉。

白老师说:overlapping的地方,正是两派吵架的地方。

李老师说:先验的标准也不是凭空来的,所以压缩数据,与压缩“压缩数据”的函数,有某种效果上的雷同和一致性。

数据驱动+先验【约等于】 没有解析解的目标函数?

白老师说:这意味着维纳和图灵在走向合流。

李老师说:无论统计还是神经,都不是还原原文意义上的无损压缩。这样 coin 过来一个术语,简直就是“蓄意”误导。

如果连我们老司机都被误导过,可想而知对于普罗大众有多大的误导。

 

我是小雅,以上就是立委先生最新博客的两分钟播报,分享关于大模型和AI的有角度的思考。咱们下次再见。

 

【相关】

读书笔记:异或门是神经网络的命门

两分钟谈一下啊:模型训练的内插与外推

520 Suno Specials: I heart u

https://suno.com/song/86e41f02-786d-4560-bcf7-42adeb830496

https://suno.com/song/25d65f8f-e08f-4959-8105-0b74aa8c1a67

https://suno.com/song/c7ed177c-7e59-4c3f-8f77-5412894b95a1

https://suno.com/song/648ce424-0ccd-416c-8486-4c2dbcaeb6fd

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/2458e60c-e7e6-469f-8d31-c43a880b6f6e

 

【相关】

两分钟谈谈:Moravec悖论

简介一下 first:

Moravec悖论是由机器人专家汉斯·莫拉维克(Hans Moravec)在20世纪80年代提出的一个观察,指出了人工智能领域中的一个有趣现象:高水平的推理需要相对较少的计算资源,而低水平的感知和运动技能则需要大量的计算资源。这意味着计算机和机器人在处理复杂逻辑和数学问题时相对容易,而在执行诸如行走、抓取和视觉识别等基本感知和运动任务时却非常困难。

Moravec悖论的主要观点

高水平推理 vs. 低水平感知和运动技能:

高水平的认知任务(如象棋、数学证明、逻辑推理)可以被算法高效地解决,因为这些任务往往有明确的规则和结构。

低水平的感知和运动技能(如步行、抓取物体、视觉识别)涉及大量的不确定性和复杂的环境变量,这些任务需要处理大量的感官输入并实时做出反应,非常困难。
人类和机器的不同发展路径:

人类在进化过程中,低水平的感知和运动技能(如走路、避开障碍物)已经通过数百万年的进化得到优化,并且我们对这些技能的认知是无意识的。相比之下,高水平的认知任务是相对新的发展,且大多是有意识的。

计算机和机器在这些高水平任务上表现出色,但在处理低水平感知和运动任务时却非常困难,因为它们缺乏人类进化中积累的那些隐性知识和适应能力。

Moravec悖论的实际例子

下棋 vs. 走路:计算机程序可以打败世界上最好的选手,但要让一个机器人在复杂的现实环境中稳定地行走仍然是一个巨大的挑战。

逻辑推理 vs. 抓取物体:逻辑推理问题可以通过算法高效解决,而让机器人精确地抓取和操纵不同形状和材质的物体仍然需要复杂的感知和控制算法。

有几点感想:

1. 既然低水平的感知和运动技能是亿万年进化的结果,成为动物和人的遗传本能,后天只是激发出来了这种能力。

那么 LeCun 以动物和人总是在语言能力之前,先“学”会了这些能力作为理由,批判LLM对于多模态的干扰和“投机取巧”,就不是很有说服力。因为模型并没有进化出来的遗传基因作为基础。模型唯一可以利用的是LLM里面的认知知识(包括感知常识的语言描述)。

2. 虚拟机器人(LLM)可以轻易做很多高级白领工作,但人形机器人却对蓝领低级工作的模仿非常笨拙,这是大家都看到的事实。

但其实我们也观察到,虽然笨拙,但任何低级的力气活(例如举重)、技巧活(例如翻筋斗),一旦学会了,机器人就比人类有无比的优越性:它不知疲倦,不怕单调,耐力超强。学会了投篮以后,你不用担心他的成绩不稳定。

3. 视觉识别以前是模型的短板,人和动物的强项。

但是现如今就不同了。例如,人脸识别,模型比人强了。看图说话和视觉理解最近的表现也有明显的碾压人类趋势。

这是因为当悖论提出的时候,那还是符号逻辑主导AI的年代,机器学习刚开始有一些进展,但善于从海量数据学习patterns的深度学习还没有发明。感知智能当时是一座难以逾越的大山。

4. 具身机器人的外推能力怎么来呢

我们知道,机器人以前的建模都是非常“内向”的,在厨房环境建立的模型,换到了办公室环境就不行,必须一切重来,重新准备场景数据,重新训练。厨房环境的数据 “外推” 到办公室环境的能力,可不可以做到?

可以的。在大模型的架构下,这早已不是幻想。可行性可以从半年多前的谷歌 RT-2 机器人的项目表现看到端倪。

道理就是大模型虽然没有遗传的基因,也没有目标场景(厨房场景)的数据, 但办公室环境的数据 finetune 出来的大模型能力,是有希望迁移(外推)到其他的环境(例如办公室环境),因为LLM 某种意义上起的作用就是生物进化得到的先验遗传。

 

两分钟谈一下啊:模型训练的内推与外推

模型训练的讨论中,常常提到 interpolation(内推)与 extrapolation(外推)两个术语,可以说说。

大家都知道,在数据驱动的主流学习过程中,内推需要的是在训练数据的边界内“泛化”能力,善于信息压缩的深度学习训练是内推的利器。但外推(extrapolation)就没见有长于此道的算法或模型。实际上,外推与数据驱动是直接矛盾的,by nature 就是无解的,因此很可能这就是个伪问题,根本就不该对外推抱有幻想。当然,从鲁棒性角度,外推现象出现的时候,应该有个合理的应对,至少要做到模型不死机,至于外推的精度,主要是看运气,而非模型的内功可以发力。

不过,外推的问题还是值得梳理一下。

外推(Extrapolation)
定义:外推是指在已知数据点之外进行预测或推断。例如,已知某个函数在几个点上的值,外推就是在这些已知点之外估计函数的值。

前面说了,数据驱动的路数,本质上对外推无解。不能强人所难,巧妇难为无米之炊。米就是数据。

但加强外推,理论上还有 “先验知识” 和 “模型结构复杂化” 两个路子可能有点帮助,而数据本身的短板,除了数据,没有它途:就是说把对于“无人区”的外推问题,转化为收集相关数据,让外推变成内推。

模型结构复杂化在历史上是帮助了训练的“外推”能力的,如果原来的简单模型有自身的结构性局限。我们都知道,AI历史上,非线性问题在简单的单层神经网络的模型里是无解的,无论给出多少训练数据(这其实是早期神经网络的命门:单层神经无法解决 XOR 的现象)。但到了多层+非线性转换,就有解了。这其实是深度学习神经革命的最基本的立足点。这其实反映了当本质上是多维的数据被挤压在低维空间的时候,简单模型是无法跨越维度去找patterns的,相当于外推遇到了墙壁。模型复杂化就是开拓了多维空间,供训练施展。

至于“先验”对于外推的作用,我们从 Alpha-Zero 利用 self- play 再生数据可以看到效果。self-play 的好处是有游戏规则等先验知识,因此它所产生的数据,可以是在先验知识条件下的未见过的“外推”数据。

尼克:其实是个动态的过程。我按照你的理解,用美国实用主义哲学的话语替你更清晰地表述:可以证伪或者科学革命的是外推,可以证实的是内插。但是都符合奥卡姆剃刀,都是压缩。

白硕:啥叫外啥叫内?彼此互为“外”的,在一个巧妙的映射下就成了“内”。基因组和字符串,当初谁知道是外还是内呢?

鲁为民:我的理解是如果用数学语言来描述, 给定一个数据集,如果一个数据 sample 在该数据集的 Convex Hull 是内插,在Convex Hull 之外是外推。所以 Nick 说的证伪也还应该是内插,但科学革命要看革命到什么程度。

所以内插问题基本是可解的问题。从这个意义上来说 NTP 都是内插 (不过 Sonomonoff 说的下一个符号预测是外推,定义和这个不一样)。

尼克:convexity的判定非常简单,复杂性很低。

白硕:内插是纯粹连续空间里的事儿。外推符号也可以。那么问题来了,对应于符号的外推,连续模型是什么?比如离散符号集上的归纳。

还有就是奇奇怪怪的分布,用凸包就太“宽大”了,什么点都进来了。差值很容易不靠谱。把原始数据先变到某个流形上,再做凸包和内插,会精准很多。代价就是要去搞定流形。

尼克:连续是离散的近似,还是离散是连续的近似?

白硕:.1、.2,这种离散不是真离散。张三李四更离散。

中医说心是君主之官,肺是宰辅之官,肝是将军之官,这个映射是离散到离散。要嵌入向量空间还要能内插外推,不知道大模型中医书读多了会不会玩这套。

尼克:对,单说convexity从复杂性角度没意义。

鲁为民:但这个基本上可以界定对人类和机器可解的问题;比如我们可以判别哪些努力是在是制造(信息)永动机。

尼克:微分vs差分。是连续到离散。连续简单,离散就复杂。

鲁为民:所以像 Embedding 这样试图将离散问题近似为连续问题,将问题简化到利用目前的手段可解。另外通过概率方法,也可将离散问题连续化 ...

立委:如果某数据的本性就是完全随机(布朗运动?) 不存在任何有效的压缩。外与内如何区分?区分又有何意义?

尼克:有修辞的意义

立委:这类数据本性是不可计算的,但在谜底泄漏之前,只要给数据 模型(or 图灵机)就一定在计算。它在计算或压缩什么呢?

又因为所给的数据一定是有限的,这有限的数据一定会被“误读” 而且一定形成某种内外之别。不完全归纳/回归??数据驱动的方法 其实不知道 也不可能知道背后的真相。

立委:离散符号的 embedding 比起 1 hot 是降维 降维克服了数据稀疏的挑战 从而为压缩创造条件。但从传统的符号逻辑 用人为的非常有限的离散 features (例如词类与子类)来表示离散符号来看, embedding 是在增加维度。但除了 embedding 还有更好的办法 与上帝对话吗 ?embedding 的维度数,本来就具有任意性、可配置。

白硕:理论上离散的NP完全问题对应的人造数据也都可以“嵌入”连续空间。连续方法对求解有好处吗?@Nick Zhang(尼克)

尼克:看怎么嵌入了,可能对求近似解有用。

白硕:用1 hot那种嵌入。能不能找到结构相似性?比如对变元做一个permutation不变的SAT问题。

尼克:这个permutation复杂性有要求吗?

 

 

 

 

 

 

 

 

 

【立委NLP频道总目录】

 

两分钟短评:大模型开始进入平台期吗?

在Anthropic 的 Claude 3 和 谷歌 Gemini 赶上 GPT4 以后,就不断有人希望 Open AI 放出它的 GPT5 的大招来,但传说中的 5 迟迟不来,于是有人怀疑,scaling law 是不是失效了,大模型是不是进入了平台期。

这个怀疑有一定的道理,因为GPT路线上的 scaling law 不过是个经验“法则”,虽然说,it never fails us,so far,但谁也不敢保证它永远有效。遇到瓶颈不是不可能的。

微信中也开始流转马库斯最近的评论:“大模型开始进入收益递减的时代”。但他的论证感觉很有问题。

文章开始有个奇怪的递减结论的依据。在一个 100 scale 的性能上,达到 80 以后,绝对递升减缓不是一个宇宙真理吗?怎么就成了马库斯眼中的递减论的批评依据呢?我们对 “更大力出更大奇迹” 的 scaling 期望,主要是要补齐那些目前能力的空白 和 短板,最终实现 “在所有职能任务上,模型都可以达到或超过人类水平” 的 AGI 理想。因此,合理评价大模型更新换代是不是走在agi的路上,应该细致分析空白与短板,而不是用那些已经达到 接近 或超过人类水平的指标上。 也许 gpt5 确实遇到平台期或过不去的瓶颈 (我们其实不知道),但这种论证方式显得多么不靠谱。

道理上,对于已经达到或超过人类技能的指标上,应该关注不要有太大的退步(regressions)。对于一个重要的智能也有上百甚至上千种需要全面测量的模型,只要智能边界在扩大,空白被填补,低性能有增长、高性能没有大退步,就是走在正确的路上。就不能说是处于平台期。

有人看不起多模态的进步,认为那是低级的智能任务,是横向的发展,是“向下看”为应用落地,而不是向上去探顶,去加强高级智能任务的能力。这个看法,缺乏对于智能的全面深刻的理解。

多媒体方向的进步,虽然水到渠成,但其实速度很快,无论Sora的发布,还是前两天Open AI 和谷歌的全双工、实时、流式、能看能听能说、甚至能逗哏捧哏、打情骂俏的超写实助理的发布,其表现和速度实际上超出我们多数人的预期,完全不像是模型进入平台期的景象。

实时交互等于是在大模型原来的短板上大幅度增强,填补了一些空白。把这些能力排除在外,只看、只认认知智力的进展进度,是非常偏见的。

从功能对于应用的影响来看,感知多模态的加强,比起认知智能的进一步提升(例如在所有的专家资格考试中赶上人类专家),更为关键,因为模态是认知智能落地的重要接口。

从大模型本身的健康来看,多模态也是绕不过去的关,认知智能只有借助感知智能(进而结合具身智能从数字世界进入物理世界),才能算是真正落地(grounding),获得数字世界 ——或跳出数字空间获得物理世界—— 的意义。

在这一点上,LeCun 在 AGI 中特别强调感知智能是有其道理的。但LeCun过分纠结于感知和认知训练的次序了:他坚持感知智能先行,要排除语言模型的认知的“投机取巧”和对感知智能的“干扰”,淡化或无视认知智能对于感知智能的知识迁移作用,这是具体路线之争,不是特别有说服力的。

LeCun 说过: GPT 不如我家的一条狗。

这话你也不能说他错,但显然是偏激之词,带有太大的情绪。

其实,不仅LLM不及猫狗,我们人类也不及,没有猫狗的嗅觉灵敏,也没有他们躲避危险的高效。我们人类甚至在算术方面不如计算器,更甭提计算机。

so what?

对不如一条狗的LLM,我们也不能因此否认它比1000个教授和博士都更博学。LLM 可以与物理学家讨论暗物质,与语言学家谈乔姆斯基层次结构,与任何专家谈任何问题。而且所谈的并不是人们想象的那么无知和胡说,虽然里面 here and there 确实有幻觉和臆测。

切身体会是,如果你作为专家保持一种探究问题的心态和对于幻觉警惕的 alert,你会发现与它交谈比与很多中等水平的同行讨论,更有意思,或受启发。ta 看的书实在太多,而且也本性上学到了融会贯通,而不仅仅是死记答案:学到了语言,也相当程度上,学到了知识。

无视LLM这种人类智能,贬之为不如一条狗,除了发泄情绪外,只有一个价值:提醒感知智能的重要性。

不管怎样,AI 因为有了马库斯和LeCun这些“持不同政见者”,而更加丰富多彩。但我们也没必要被他们蛊惑。

 

悲观主义的视角,人类的宿命。

甜甜听到我的 piano ballad,问:are u ok, Dad?

我说,if you are blue, what you do is play piano.
我也想 play,但可惜我不会。所以,I made a piano ballad

她说,I see, 但她没想到这是 AI 歌曲。

甜有很高的音乐素养,以前一直看不起AIGC,主要是她觉得她看到的AIGC内容在似像不像之间,所谓“恐怖谷”效应,感觉 weird,但这次说,这一首的确不像是AI的,与人类艺术家产出无异。

我说,there will be more and more AIGC beyond our imagination

human like or super human like ...

我说我在公园转,循环听了这首不知道多少遍,还没有烦。谁说 AIGC 出不来可循环听放的曲子?

当连听三个 sad, 很难不泪眼模糊:人生本来就有无尽的不可承受之重。

有时候也想,人类从个体角度,绝大多数人都经历过生不如死般的磨难,和没有道理的内卷和碾压。而人类并不抽象,它是由一个个注定饱经磨难的个体组成的。那么,人类灭亡、文明毁灭又有什么了不得的?不过是落下一片白茫茫大地真干净。

绝大多数人类行为,换一个角度看,不仅仅毫无意义,而且是飞蛾扑火。

歌唱的是爱情毁灭的残酷,但传达的绝望情绪,却是所有的悲观主义哲学。

昨天,听李飞飞 Ted 演讲,她确实是个演讲高手。谈她刚下场要做的初创,做所谓“空间智能”,就是视觉 3D,也许加“具身智能”,当前的热门。

她一开篇从宇宙历史开始,说,“有了光,但没有眼睛,没有视网膜。”

听上去像是在说新约上帝造人的故事。

我在想,如果文明终结,不过就是回到“有光但没有眼睛”的世界。物质、色彩、感情、烦恼、痛苦与狂热,压缩、理性、概念与意识,这一切的一切,全部消失于无形。从哪里来,回哪里去。

一万个不情愿,我们每个人都(被)接受了个体的这个宿命,长远来看,为什么不能接受群体的宿命呢。

这个意义上,超级对齐不仅是杞人忧天,而且是要做上帝,或替上帝操心。太把自己当回事儿了。伊利亚、马斯克,无不如此,自以为超人。马斯克准备投巨资要移民火星 说是为文明买一张保险。但巨额保费谁出?打着人类的名义,本质上还是人类买单,哪怕这是从他个人的超级利润拿出来的。这其实没有道理。尤其是在还有疾病、饥饿和无数本来可以避免的痛苦的世界。

 

 

 

【唐诗300首 AIGC 配乐: 李商隐 无题】

锦瑟
锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。

 

相见时难别亦难, 东风无力百花残。
春蚕到死丝方尽, 蜡炬成灰泪始干。
晓镜但愁云鬓改, 夜吟应觉月光寒。
蓬山此去无多路, 青鸟殷勤为探看。

 

夜雨寄北
君问归期未有期 巴山夜雨涨秋池
何当共剪西窗烛 却话巴山夜雨时。

【唐诗300首 AIGC 配乐: 杜甫 春望】

欣逢大模型AIGC盛世,久违的心愿有了实现的可能:一直有个梦想,想给中国古典诗词配乐,寓教于乐,以利传唱。从「唐诗300首」的工程开始,不求速达,但求坚持。

Suno 是目前音乐大模型中比较成熟的,就尝试先利用这个工具。通常每一首诗,都会尝试从AIGC候选中,5选1或2作为本工程的起点。等到工程的第一期完成后,可以再做迭代,精益求精。当然,审美趣味是很主观的,受到个人偏好的影响,但欢迎反馈意见,以便更加合乎大众口味,特别是要让少年儿童喜欢,因为他们是主要的传唱对象。

以前的杂记,关于AGI、马斯克、奥特曼和OpenAI

三月的时候有个新闻,伊隆马斯克起诉Open AI,引来了OpenAI奥特曼和Ilya等人的公开信,披露了Open AI草创时期的的很多细节,引起热议(例如《权力与背叛:马斯克与奥特曼如何从兄弟情走向商业对决》)。对此也颇有感慨,点评一下。
这个瓜太大,太具有戏剧性了。有很多看点 ...... 整个过程太戏剧化,更重要的是事关人类命运:
“开源了,更危险”,这是 Ilya 7年前就写的邮件给马斯克说的,马斯克表示同意。
开源更危险论是这样说的:开源以后,只要有钱就可以造出来超级模型。这种情况下,坏人更容易这么做。谁有钱谁就能做,谁愿意不管不顾谁就占先。光脚的不怕穿鞋的。所以,“核武器” 发展到一定的时候,就应该转为闭源。因为相信自己 比相信未知的对象要靠谱。
记得奥特曼当时是 YC 的 CEO,他大概把 Open AI 包装成 YC 孵化出来的 AI 企业,老马作为联合创始人和当时最大的投资人,在这一点不太满意。所以老马说,博客(说的Open AI计划)听上去不错,如果做些调整让新公司更加中立,而不是以YC为中心。
  1. 现在我们知道,是 Open AI 打开了 AGI 的大门,开启了人类文明的新时代,但走通这条路到 GPT3 或 ChatGPT 的核爆炸时刻,实在是太幸运的极小概率事件了。
  2. 老马与奥特曼这两位 AI 圈外但又接近 AI 的先知,与 Ilya 这样的圈内顶级科学家,在 AGI 的信念上,很早就非常默契:他们在计划这件事的时候,没有任何自我怀疑,好像就在谈一个事关人类命运的必然发生的事情一样。他们后来的分歧只是在实现的方式以及资源的局限上,并不在 AGI 本身。要知道那个时代,全球科学家和知识分子全体,几乎100%是不相信什么通用AI这种“鬼话”的,但地球上就有这么几个人,坚信AGI,并且能气味相投,凑在一起为之谋划,并开始担忧人类文明的命运。
  3. 他们默契,并决定成立 Open AI,是出于对于 AGI 可能被垄断的担心。具体说,是担心谷歌称霸世界:当时的谷歌已经搞出了 Alpha-go/-zero,让他们感觉此事无法缓行,必须立刻动手,以开源对抗谷歌。老马一半出于公心(为人类文明的前途忧虑),一半出于私心(希望自己成为谷歌AI的挑战者领袖,而不是放任奥特曼这些年轻人来领导)。
  4. 他对这个AGI事业和他可能扮演的角色非常投入,愿意做背后的金主,一开始就让奥特曼把第一笔融资提高一个量级,明确说,任何融资亏空他都可以补齐,隐含前提当然是他是 CEO 和 leader,最好是控股老板。按照 business 逻辑,这是完全合理的,毕竟在那样的早期,这样烧钱的AI“曼哈顿计划”,也只有老马这样识货的人才愿意成为金主。现代社会的铁律是,谁有钱,谁当家。可是奥特曼不甘心,他与Ilya几个是实际工作中的 Open AI 创始人和 AGI践行者,不甘心只做 COO 而把 CEO/Chairman 让给这个几乎是唯一靠谱的大金主。
  5. 于是上演了这一出最后分手的戏剧:老马在得不到他想得到的 CEO 或让 Open AI 依附于 Tesla 之后,决定退出。没有惊人的定力,奥特曼是不可能敢于把金主放跑的。而老马在决定离开的时候,宣判了 Open AI 的死刑:你们成功的希望为0,他说。不是老马对 AGI 的成功有丝毫怀疑,而是他觉得离开了他,Open AI 无法海量融资,只有死路一条。他当时列举了苹果和Facebook,判断这两家不可能有远见给 Open AI 输血,他却漏掉了微软,可能是根本没想到微软有此可能,他小看了微软CEO的眼光。
  6. 奥特曼怎么吸引和说服了微软,那是另一个故事了。但当时的情况是,除了老马,有钱人几乎没人能看懂 AGI 和前途,业内人士也看不懂,Open AI 就是一帮“疯子”在异想天开。融资几乎不可能,那么奥特曼怎么敢与老马分手,而不委曲求全让位给老马呢?
  7. 谁知道先知和天才不仅仅就是这几个疯子,微软CEO萨蒂亚·纳德拉(Satya Nadella)也是,虽然他离 AI 更远。萨蒂亚与奥特曼的“勾搭”是人类历史上最具浪漫色彩的一章,需要冲破种种桎梏。
  8. 现在我们似乎理解了,微软今天能超越苹果成为世界企业首富,就是英雄创造的历史:萨蒂亚是不可思议的领袖。他的悟性和远见让 Open AI 与微软结合,这是一桩非常奇特的姻缘:一方投入巨资,另一方短期看不到希望,巨资投入也带不来任何董事会决定权,萨蒂亚依然前行。世界上找不到微软这样的对象,它几乎是彼时彼刻唯一可以牵手 Open AI,摆脱它必死宿命的救星。呼唤的与被呼唤的,在千载难逢的那个时间点,没有错过。
  9. 后来的故事,所有人都知道了:这个“姻缘”彻底改变了AI,更重要的是,也改变了人类文明的走向。
  10. 其他都是花絮了:老马以维护人类的名义起诉 Open AI 违背初衷;Open AI 披露早期信件来往证明老马本人就梦想控股,并不真正在乎开源还是闭源,而他们则依然不忘初心。
顺便一提,Ilya 此前不知所踪,现在看来是被冷藏了,但他现在出来给奥特曼这个公开信背书,而且作为公开信的主要作者,似乎说明,他并没有(被)选择分道扬镳。我们的猜想是,他还在内部继续领导 AGI 的安全研究,所谓人类价值观的超级对齐,希望用技术手段保障AGI不失控。但(被要求?)保持了低调。
微软的地位其实很尴尬。一方面,现在知道他们对于 Open AI 的巨额投资,已经从股价的飞升中得到了足够的回报,所以从投资角度,萨蒂亚是微软的英雄。但另一方面,这个“婚姻”始终无法稳定,也难以建立恒久的互信。微软不得不给自己做 Plan B,而 Open AI 也有自己的 Plan B:都需要在两人分手的时候有所准备。Open AI 这种独一无二的公益实体控股企业实体的架构,改变了人类历史进程,但却天然有矛盾和不稳定。上次奥特曼被踢出而复返的危机会不会重演?奥特曼本人会不会成为 AGI 沙皇,违背初心,一意孤行?
这些都还在演进中,进行时 ......

Suno:《立委:女神》

【女神新版】

manderin Chinese, Modern Classic, Guzheng & erhu & Chinese flute & Cello, Slow, Sad, Mellow

April 22, 2024 at 3:48 AM

[Intro With Guzheng]
[Verse 1 Climb]
我心中有无数的诗歌,
虽不华美情感却真,
乏味的数理化将它掩遮,
可惜,却无遐一一去写.
[Bridge]
古代那些绝代的美人,
如中国西施希腊海伦,
她们的才能没人提起,
只是虚名儿后人喜欢
[Chorus 1 Climb] 
谢道韫倒是出名的才女,  
林黛玉更是盖世绝伦.  
可她们何能与你相比呀,  
你才是熔化一切的女神!  

[Break] 

[Chorus 2 Climb] 
单恋的苦痛, 多少人熬过!  
是人, 谁不把女神爱慕?
 
谁不把女神爱慕? 
谁不把女神爱慕? 
谁不把女神爱慕?  

[Hook] 

[Chorus Climb] 
轮廓略显 
挟着寒气,  
夜神抚我脸  

[Hook Climb] 
万籁俱寂,  我却听出了音响:  
嗡嗡嗡,象蜜蜂,  
___是我生双翼的耽想.  


[Outro] 
耽想中的她 亲近又遥远 
细语蜜蜜 笑窝浅浅 

[fade] 
[End]

manderin Chinese, Modern Classic, Guzheng & erhu & Chinese flute & Cello, Slow, Sad, Mellow

April 3, 2024

[Intro With Guzheng] 

[Verse 1 Climb] 
我心中有无数的诗歌,  
虽不华美情感却真/切,  
乏味的数理化将它掩遮,  
可惜,却无遐一一去写.  
(却无遐一一去写) 

[Cello & Piano] 

[Bridge] 
古代那些绝代的美人,  
如中国西施希腊海伦,  
她们的才能没人提及,  
只是虚名儿后人欣钦.  

[Chorus 1 Climb] 
谢道韫倒是著名的才女,  
林黛玉更是盖世绝伦.  
可她们何能与你相比呀,  
你才是熔化一切的女神!  

[Break] 

[Verse 2 Climb] 
古代那些绝代的美人,  
如中国西施希腊海伦,  
她们的才能没人提及,  
只是虚名儿后人欣钦.  

[Pre-Chorus Climb] 
女神一蹙,倾城倾国;  
女神一悦,飞魂散魄.  

[Chorus 2 Climb] 
单恋的苦痛,多少人熬过!  
是人,谁不把女神爱慕?  

(羡慕了)
谁不把女神爱慕?  
[Hook] 
[Break] 

[Verse 3 Climb] 
(夜,己经两点,  远近几只梦的眼.  
有绿色的,有黄色的,  )

一闪.一闪.  

[Chorus Climb] 
乌青的穹隆,  轮廓略显.  
挟着寒气,  夜神抚我脸.  

[Hook Climb] 
万籁俱寂, 我却听出了音响: 
嗡嗡嗡,象蜜蜂, 
___是我生双翼的耽想.  

[Fade Out] 
[Outro] 
耽想中的她, 亲近又遥远. 
细语蜜蜜, 笑窝浅浅. 

[Chorus Climb] 
乌青的穹隆,  轮廓略显.  
挟着寒气,  夜神抚我脸.  

[Hook Climb] 
万籁俱寂, 我却听出了音响: 
嗡嗡嗡,象蜜蜂, 
___是我生双翼的耽想. 

[Fade Out] 
[Outro] 
耽想中的她, 亲近又遥远. 
细语蜜蜜, 笑窝浅浅. 
[End] 


from 《朝华十一:   青春恋曲

MV《女神》首版(小雅 Maria 出演)

与湾区著名男高音猫哥的对话:

立委:来一首古风纯粹的制作。年少时的80年代涂鸦之作。恍如隔世,情愫依稀。(from 《朝华十一: 青春恋曲(同桌的她)》) 。

猫哥:@wei li 很棒![ThumbsUp] 可以作为电视剧 主题歌了[Grin]。不过 我还是希望小雅的脸上有颗痣什么的会更迷人,制作起来可能会有挑战?!

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十一:   青春恋曲

Suno:《立委:Esperanto: Al Nia Kara Lingvo(世界语之恋)》

《立委:世界语之恋

Medieval, Male Singer, Ars Antiqua, Storytelling, Bard, Lute, Italian style, Esperanto Song,

April 4, 2024

[Verse 1] 
La lingvo gracia, kara mia, 
Ghis kiam vi venis al mi fine fin'? 
Atendis soife mi, eterne via, 
MI AMAS VIN ! 

[Chorus] 
MI AMAS VIN ! 
MI AMAS VIN ! 

[Verse 2] 
Mi amas vin vere, pruvu Dio, 
Kaj mia bon-koro batas nur por vi; 
Ne plu sekreteto estas tio: 
VIN AMAS MI ! 

[Chorus] 
VIN AMAS MI ! 
VIN AMAS MI ! 
VIN AMAS MI ! 

[Bridge] 
Chu kredas vi mian amon maran? 
Chu kredas, ke mia koro flamas? 
Chu kredas la vorton pure karan: 
VIN MI AMAS vin! 

[Chorus] 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin! 


[Verse 1] 
优美的语言,我的亲爱的, 
到什么时候你最后来到了我这儿? 
我渴望地等待,你的永远的, 
我爱你! 

[Chorus] 
mi amas MI AMAS VIN! 
mi amas MI AMAS VIN! 


[Bridge] 
你相信我的大海一样的爱吗? 
相信,我的心燃烧吗? 
相信纯粹地亲爱的词吗: 
我爱你 vin! 

[Outro] 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin!

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十七: 我的世界语国

Suno:《宋輝:人生笑话》-- 献给插队一代人

《宋輝:人生笑话

[Verse 1]
记得我在課桌旁,
與理想青梅竹馬;
突然被告知,
你的理想不應該在這裡,
而應該在田間、地頭、鄉下;
於是,我放下書包,打起背包,
向著一個迷茫的目標出發。
驀然回首,
碎落了一地芳華。
驀然回首,
碎落了一地芳華。

[Chorus]
驀然回首,碎落了一地芳華
豁然醒悟,人生原來就是个笑話

[Verse 2]
四十年前,
我有了自己的一個家,
有了一個嗷嗷待哺的娃娃。
我多想攜妻帶子,
去海邊踏浪,
去山中賞花;
可現實是,
因为職稱
一切都要文憑說話。
我沒有選擇,
轉身去了電大夜大。
那一段生活,從來沒有
琴棋歌畫詩酒花,
攒精竭慮的,都是
柴米油鹽醬醋茶。


[Chorus]
驀然回首,碎落了一地芳華
豁然醒悟,人生原來就是个笑話

[Outro]
再過三十年,
我們當中,還有人在嗎?
請準備紙錢一堆,
爐香一把,
將我們的名字,
在青煙中融化。


smooth ballad

其中,“再过30年” 【已是风烛】 “我们当中 还有人在吗”?

貌似 suno 顺着 next token prediction 加了 【已是风烛】代替了原词中的 “2050”,这是很有意思的【合理】“幻觉”现象?我灌输给 suno 的可是原词啊。歌词产生的背景资料如下:

坐下,歇著吧!。

中共開國上將宋任窮的兒子宋輝,在中國藝術家群裡發了一首詩,讀起來感慨萬千。那句“驀然回首,碎落了一地芳華”和那句“老年了,才豁然醒悟,人生原來是笑話”不知擊中多少同齡人。
宋輝是老屆知青,1968年下鄉到吉林燒鍋店, 現在旅居美國弗吉尼亞州。

人生原來是笑話!

作者:宋輝

五十年前,我在課桌旁,
與理想青梅竹馬;
突然被告知,
你的理想不應該在這裡,
而應該在田間、地頭、鄉下;
於是,我放下書包,打起背包,
向著一個迷茫的目標出發。
驀然回首,
碎落了一地芳華。

四十年前,
我有了自己的一個家,
有了一個嗷嗷待哺的娃娃。
我多想攜妻帶子,
去海邊踏浪,
去山中賞花;
可現實是,
聘位職稱
一切都要文憑說話。
我沒有選擇,
轉身去了電大夜大。
那一段生活,從來沒有
琴棋歌畫詩酒花,
殫精竭慮的,都是
柴米油鹽醬醋茶。

三十年前,多美好的壯年,
藍天麗日,青松如塔。
可上老下小,葷七素八,
千頭萬緒,生活重壓。
女兒的成績,
費心勞神,
醫院病床上等待手術的妻子,擔憂的淚痕留在臉頰。
已有兩個星期沒去看望爹媽,
焦頭爛額的兒子,
時時把你們牽掛。
迤邐一路,風吹雨打,
嘗盡生活,酸甜苦辣。
唯一一個信念,
生活不會苦海無涯。

二十年前,女兒上了大學,
我卻永遠失去了老媽。
老人家彌留之際,
突然迴光返照,
“快坐下,歇歇吧!”
這是她一生對我說的最後一句話。
重度昏迷兩個小時後,
我母子親情的大廈崩塌。
世上那個最愛我的人走了,從此後,
再沒人喊我回家吃飯,
再沒人囑我寒衣多加。
我長跪不起,
哭得肝腸寸斷,
淚乾聲啞。

十年前,我和妻都已退休,
應女兒之邀,
飛到了弗吉尼亞。
遇到的很多事,
令人感慨,
看到的好些事,
讓我驚詫。
抱起外孫女,
粉糰的小臉,
笑靨如花;
我卻暗自嗟呀,
喊了一輩子打倒美國佬,
這個小美國佬,
就誕生在我家。
小時候,相信人生是童話,
長大後,希望人生是神話,
老年了,才豁然醒悟,
人生原來是笑話!

再看這張小臉,
黃皮膚,黑眼睛,黑頭髮;
還是龍的傳人,
血脈中華。

今年,我們都已年過古稀,
可還在把激情揮灑。
過去努力,是落葉隨風;
現在努力,是老樹新芽。
凡是過往,皆為序章,
人生大幕,剛剛開拉。
我不敢老去,
因為外孫還沒長大。
我最大的心願,是能看到,
外孫學業有成,
外孫女披上婚紗。

再過十年,2030
我們已經耄耋之年,
但願滿頭黑髮,滿口牙,
腿腳健,身挺拔。
我們相邀,一個都不能少,
我們出遊,路能走,山能爬。
閒看風雲變幻,
淡泊富貴榮華;
世上瑰寶千千萬,
只有健康無價。

再過二十年,2040
九十歲的聚會,我還在嗎?
我思念的同學們,身體怎樣?
是否耳不聾,眼不花?
公園裡,能跳一曲華爾茲?
歌廳裡,高歌一首茉莉花?
回憶同窗,無限傷感;
突聞噩耗,分外驚訝。
抽刀怎能斷水,
天命安可叱吒!
不管錢多厚,官多大,
閻王照樣往裡拉。
懷一份千里共嬋娟的心願,
隨緣聽命吧!

再過三十年,2050
我們當中,還有人在嗎?
請準備紙錢一堆,
爐香一把,
將我們的名字,
在青煙中融化。

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十: 插队山村

就《Suno: 望震》与音乐大家的对话

 

Nakasi, 1980s, Manderin Chinese, Hokkien Song, 国语歌, sad, Enka

April 4, 2024

 

[Introl, Piano build]

[Verse 1, Mandarin Chinese]

怎么, 大地颤微,
敢不是地震来临, 乘着人们熟睡?
我丢下诗笔跳出窗外,
蓦然记起她还在。

[Chorus]

[......?]
敢不是地震来临, 乘着人们熟睡?
敢不是地震来临, 乘着人们熟睡?

[Verse 2]

象黑色的闪电, 我猛冲进去.
她安然脱险, 我却遭了致命一击。

象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去

[Bridge]

她安然脱险, 我却遭了致命一击。

象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去
去...

魂灵似乎正听到, 她在为我哭泣
泣...

[sigh, break, instrumental build]

[Chorus]

要抵得多少 我这样的凡人, Amem,
一个完美的女神。

[Outro, Piano build]

要抵得多少 我这样的凡人
Amem!

[End]

from 《朝华十一:   青春恋曲

关于《望震》与湾区著名男高音猫哥的对话:

立委:@夏阳?声乐 必须请教你了,这一首不算口水歌了吧,我听、唱了多遍:Suno: 望震; from 《朝华十一: 青春恋曲》 。

不懂音乐,却想出一个集子,满足一下内心的音乐感受。

猫哥:@wei li 这有点像人类唱的啊

立委:电脑合成的啊,100%

第二次提到“敢不是地震来临” 前,Suno 有“幻觉”了,增添了五六个字,不知道什么词。很久没琢磨出来到底是啥,但听起来却那么丝滑,与 genAI 精神符合。似乎有点像是:“咱们不是支持为爱呀?” 如果是,那才神了,本来就是热恋歌曲。

在轻唱“她在为我哭泣”的时候,打死我也不信这是电子合成的声乐演绎。

但真假莫辨的时代的确已经降临,不仅是数字人形象,不仅是超写实语音,也包括声乐演唱。

猫哥:原始的音色哪来的?

立委:歌曲大模型的原理与其他生成式AI(genAI)模型相同:它“消化”(压缩、抽象)了它能够得着的所有的碟片(音乐训练数据),模型训练出来以后,在生成声乐演绎的时候,这些被咀嚼、嚼碎、消化了的人声,会被重新组装出来,根据不同的曲风。

猫哥:比如 男声 女声 高音 低音 是怎么确定的?

立委:内部不是显式确定的,是一个黑盒子内部,随机生成的。但外部常常是有用户的显式指令作为输入条件的。所以内部这种随机性是一种条件概率,就像风筝飘在空中,貌似是随机飘移,但还有一个牵线的人。条件概率中的条件就是人给的那些音乐描述。两次生成不可能出现同样的作品,虽然风格往往类似,因为都是同样的描述条件(Suno现在每次都生成两个平行的小样 demos,供用户挑选)。

其实 生文、生图,都是同样的原理,现在也都做到了真假莫辨。

猫哥:你可以指定它唱男声或者女声吗?

立委:可以指定。你写 male singer,它大概率生成男声(但不排除目前偶然不听指令。)。这首歌,我给的prompt指令(俗称“咒语”)是:Nakasi, 1980s, Manderin Chinese, Hokkien Song, 国语歌, sad, Enka。

猫哥:这个歌做的不错,已经有气息和情感了 。

立委:我自己挺触动的。因为是自己的真情实感写的词,虽然是40年前的作品。对它的演绎非常满意,而且有感动。

但国语,它其实还是带了口音,估计是数据中有香港、台语口音的国语歌者并不少。

猫哥:[ThumbsUp] 港澳歌曲听多了[Grin]

立委:对,模型受到数据的影响,所以出来的国语往往不是很标准。特别是第一句开口唱,一听就不是国语,虽然不影响欣赏。

猫哥:不错? 很好的尝试。等我这阵子忙过了也去体会一下

立委:大模型的好处是,虽然它比不了你们一流的歌者,但是它在走调方面比人类歌手要强,基本不会犯下低级的走调错误 -- 可是人类歌唱家,甚至明星(例如大名鼎鼎的王菲),也往往免不了“走调”,所以出唱片、送广播的时候需要做后期修正。这就好比你让大模型 ChatGPT 写一段文字,它不会犯语法错,但是我们人说话有口误、犯错却是常有的事儿。

猫哥:是一种不错的快餐音乐文化[Joyful] 也会给作曲家提供很多不一样的思路。

立委:你可以让它生成很多 demos,然后决定取舍。也可以受到启发。也可以在它生成的基础上,再做后编辑、精加工,使璞成玉。

一般而言,拥抱了AI的音乐人,肯定有机会碾压不懂或抗拒AI的音乐人,极少例外。

将来所有的行业都是如此,拥抱派碾压守旧派。因为你的生产效率大幅度提升,你就有机会把才智用在一些需要精雕细琢的地方,靠着素养和灵感,而把其他的方方面面交给模型。

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十一:   青春恋曲

老剧新编: 青涩纯真年代的情与爱

老剧新编: 青涩纯真年代的情与爱

那是“车马慢”向千年不遇的经济起飞改革开放的过度年代。是青涩纯真的最后一代。

《1980年代的爱情》讲的是最能打动我们这代人的老故事。改编自郑世平同名小说,由霍建起执导,芦芳生、杨采钰主演。

影片以1980年一个偏远的土家族县城为背景,关雨波与成丽雯之间的隐忍爱情为主线,以简单而朴实的电影视角,诠释了那个年代凄美而纯粹的爱情。雨波暗恋着丽雯并于高中毕业时为她写了一封情书。1978年高考之后,雨波成为全校唯一考上省城大学的学生并分配到小城政府工作,并下派到“公母寨”的乡镇当宣传干事,机缘巧合在供销商店偶遇暗恋女生丽雯。丽雯因需照顾下乡劳动改造的父亲而留在小寨做营业员。因重逢昔日初恋,雨波内心掀起波澜,数次与丽雯主动接触。

很少有一部作品能这样直接冲击我们的内心,没经过那个年代的人可能体会不深。zhiwen 的形象塑造太过美好,让人不忍。当年的那种爱情感受和呈现,是那个时代特有的含蓄,能换回一代人的回忆。原片还有一些插曲,增加了作品的丰富性。其中一个插曲是,男孩子还有一个追求他的女孩,名叫小雅(真地叫xiaoya,lol),以(准)女友的身份来看他,催他考研究生啥的。比起 zhiwen,这女孩显得时髦、轻佻,也“势利”一些,功利心强,不满意男孩的随遇而安不求上进。其实,liwen 也是鼓励男孩振作,走天下去闯世界,不要借酒浇愁,但 liwen 的表达和推动是那样的自然和真诚,让人暖心,这与xiaoya恨铁不成钢的抽鞭子的方式,给人感觉迥然不同。xiaoya 住在同学 zhiwen 家里,问 zhiwen:是不是你也爱他,要追他?zhiwen 说:放心好了,我不会的,我们的喜欢是不同的。其实,xiaoya 放弃追求,根本的理由就是觉得人家是大学生,自己不是,不要拖人家的后腿。

这倒不是自卑 -- 在心理上她并不觉得矮于他,而是她对本质上是等级社会的洞悉。一方面是她父母留给她的教训(有才华的父亲因为爱情留在小地方与她妈妈结婚,铸就一辈子的落魄人生),另一方面也的确是等级社会阶层跨越艰难的反映(例如:当年的农村户口就可以限死一个人的前途)。

作为观众,我们其实心有不甘:zhiwen 完全可以离开还没有完全苍老的父亲,与男孩远走高飞,去共同闯世界。但悲剧之所为是悲剧,就是要撕开人生,去揭示更深刻的人性。这是大团圆的喜剧永远达不到的深度。

最终的悲剧结尾(zhiwen身患绝症去世),更让我们欲哭无泪。上述简介视频没有再现的第二个细节也感人至深。说的是男孩离开zhiwen后去闯世界,正是国内改革开放最翻天覆地的时期(就是那时候开始的南下深圳、海南的潮流吧)。他经商、受骗、还因税务啥的问题被抓进去过。遍体鳞伤一无所有的他,重新回到家乡小镇,他再次陷入人生低谷,看不到前途。同学们为在外闯世界的他接风还是洗尘,办了一个同学聚会。zhiwen 也来了,这才有机会重相聚。

男孩喝醉了,zhiwen 给他清洗身体,一直陪他、安慰他。zhiwen 终于不再躲避,两人也肌肤相亲,缠绵浪漫,剧情很自然,镜头也很美,似乎弥补了多年的遗憾。但 zhiwen 还是再次拒绝了他留下来的请求,给男孩留下一笔自己多年辛苦积攒的一笔钱,催他上路,重新闯世界去。

作者后来的解释是,zhiwen 已经身患绝症确诊了,这是在最后给自己的心上人一个推动。某种意义上,这类剧情的编排有些老套,就好比当年《生死恋》的剧情类似。但老套的戏剧性展示的背后,是对人物和时代的震撼人心的刻画,让我们深深感动,不能忘怀。

这是近年来我看到的最让我放不下的一部老剧。一遍一遍在内心回放 回味。

Anthropic Claude 3 Tech Report 阅读笔记

与 Open AI 和 Gemini 一样,技术报告不透露技术实现细节,如具体的模型结构、训练方法、超参数设置等。

Anthropic tech report 读下来,主要感觉是

主要指标达到或超过 GPT4v,把GPT4v从LLM天花板神坛上拉下来,至少终于可以平起平坐了。这个世界变得更加有趣,因为谁也不愿意看独角戏。

以前以为 Gemini 是 GPT4v 的挑战者,后来用了一阵子发现,整体体验差太多了。但 Claude 不同,玩下来感觉很丝滑,尤其是长文本理解和问答。很开心实力派来打了擂台!

引起我注意的几个点有:

克服幻觉上大幅度进步,在事实准确性上大幅提升:Anthropic 开发了几个内部评测来考察模型回答的事实准确程度,并与参考答案对比。Claude 3 Opus 在 100Q Hard 评测(包含一些晦涩的开放式问题)的准确率达到46.5%,是 Claude 2 的近2倍;在 Multi-factual 评测中准确率提高到62.8%,而错误回答的比例减半。模型更多地表示"不确定"而不是给出错误信息。模型很大程度上学会了“不确定” 的中间状态,而不是以生编硬造的错误答案来把假话说的跟真的似的。

长文本理解的亮点:QuALITY 阅读理解基准测试是平均5000个token的长篇章,远超一般模型的输入长度。Claude 3 Opus 在 1-shot 下达到90.5%的准确率,在 0-shot 下也有89.2%,相比人类93.5%的表现,Claude 3 已经大大缩小了与人类的差距。

拒答率大幅降低:这是好消息,因为此前 Claude 一直被诟病拒答太多,因为 Anthropic 从一开始就特别强调安全合规,这方面开始是太严了,现在在技术上做了提升,大幅降低了误杀误伤,提升了用户体验,这对它与Open AI 对垒,特别重要。

这是在 helpfulness 和 harmlessness 之间取得了更好的平衡。之前的模型为了避免有害输出,往往会过度谨慎,拒绝回答一些无害的问题。Claude 3 在这方面做了优化,在无害问题上拒答率大幅降低,而在有害问题上仍保持高拒答率。Opus 的错误拒答率从 Claude 2 的35%降到了9%。通过人工反馈优化,Opus 能更好判断什么是真正有害的,什么是可以回答的。

总结一下Claude 的八大优点:

1. 多模态理解能力出色,不亚于4v:  Claude 3 能很好地处理文本、图像等不同模态的输入,并在手写体识别、视觉推理、图像内容审核等方面展现出色的性能,为发挥语言模型在现实世界问题中的作用铺平了道路。

在技术规格的脚注中, 明确说明了支持的图像格式(JPEG/PNG/GIF/WebP)和规格(最大10MB,分辨率不超过8000x8000),并建议避免使用过小或低分辨率的图像。

对低质量、手写体图片的文字识别能力出色。Claude 3 Opus能够准确地将一张质量较差、带有手写字迹的照片转换为文本,并进一步将表格形式的文本整理为JSON格式。这展现了强大的OCR和文本结构化能力。

识别图像中的物体(但拒绝识别人物), 能建立物体与抽象概念之间的复杂联系。例如:Claude 3不仅能识别出图片中的计算器,还能将其与数学、计算等概念关联起来,体现了一定的概念抽象和推理能力。(也许是多模态模型中 LLM 融合/加持的知识迁移结果?)

在预期用途部分,特别强调了多模态特性对生产力的提升,比如模型可以解读各种图表、图像(GPT4也有这个图表能力,到底强多少?), 支持更广泛的企业应用场景。

2. 在各类权威基准测试中表现卓越: 无论是在 MMLU 这样的通用推理任务,还是 MATH、APPS 等数学和编程任务,或是 RACE-H、QuALITY 等阅读理解和常识问答数据集,Claude 3 都取得了业内领先的成绩,多次超越了 GPT-4、PaLM 等强劲模型,展现了顶尖的综合能力。

在Diamond子集上,Claude 3 Opus 在0-shot CoT设置下达到了50.4%的准确率,超过GPT-4的35.7%。Diamond是GPQA中质量最高的一组问题,这表明Claude 3 Opus在处理需要专业知识的复杂问题上有独特的优势。

3. 强大的少样本学习和推理能力: Claude 3 Opus 在 GSM8K、MGSM、GPQA 等测试中,无需微调,仅通过少量样例(Few-shot)就能掌握复杂任务,特别是在 GPQA 的 Diamond 子集上,其表现已经接近人类专家水平,展现了超强的学习迁移和推理能力。

4. 多语言理解和生成能力突出: 从报告的多语言数学推理 (MGSM)、多语言常识推理 (MMLU)、多语言对话等评测来看,Claude 3 在处理英语之外的语言时也有出色表现,并较上一代模型有显著提升,使其有望服务全球用户。特别注意到,以前它的中文较拉垮,这次算是赶上来了,对国人友好啦!

5. 在开放域对话、写作等任务上的出众表现: 人类评估者在创意写作、开放讨论等多个维度一致认为 Claude 3 优于同类模型,其生成的内容更加流畅、连贯、吸引人,这将极大拓展其在内容创作领域的应用。这方面我试了一些,truly impressed,今后我会很乐意、开心滴常常使用它。

6. 在代码编写任务上的亮眼表现: Claude 3 在 HumanEval、APPS、MBPP 等编程任务上的成绩证明了其对主流编程语言的掌握能力,有望成为开发者的智能编程助手。强化了根据要求生成结构化的输出(如YAML,JSON,XML)的能力,更易于企业应用和商业部署。

7. 在长文档处理和信息检索方面的进步: Claude 3 不仅支持高达百万 token 的超长上下文(但目前生产环境还是20万),在 QuALITY 这样的长文阅读理解测试中也展现出强劲实力。CLaude 3 Opus 在20万token的超长文档上仍能保持99%以上的关键信息召回率,打破了之前大模型在处理长文档时所谓的"中间错乱(lost in the middle)"的魔咒。

Anthropic 在真实场景的评测方面也一直走在前列, ta 开创的“大海捞针(Needle In A Haystack)” 评测,成为业界衡量大模型长文档处理能力的重要标准。

8. 系统的安全评估和缓解机制: Anthropic 专门制定了负责任扩展政策(RSP),从多个维度评估了 Claude 3 可能带来的安全风险,并采取了一系列缓解措施。虽然评估表明目前还没有灾难性风险,但 Anthropic 仍然未雨绸缪,这种审慎、严谨的态度值得赞许。

具体到信任与安全方面,Anthropic 进行了全面的多模态红队测试,以减少有害输出的可能性。结果显示 Claude 3 Opus 和 Sonnet 在97%以上的红队提示中做出了无害回应,在涉及危险话题时能够巧妙地将对话引向更合乎道德的方向。

在减少有害内容方面的努力卓有成效: 红队测试表明,经过有针对性的优化和训练,Claude 3 在面对危险或违规话题时能够做出恰当回应,将对话引向更合乎伦理的方向,这将有效降低 Claude 被滥用于制造有害内容的风险。

对可能的失控风险有清醒认识:  Anthropic 一如既往大打“宪法”大旗,强调它在伦理、安全、鲁棒性方面的 leader 地位。报告坦诚地指出,随着 AI 系统能力的快速提升,其失控和被滥用的风险不容忽视。Anthropic 积极参与全球 AI 治理,推动制定相关标准,展现了一个负责任 AI 企业的担当。

代码能力是它的重要亮点,值得专门总结一下。Claude 3 系列模型在编程和代码方面,在多个权威基准测试中取得了优异的成绩。下面从四个方面总结 Claude 3 的代码能力:

在 HumanEval 评测中,Claude 3 Opus 达到了84.9% 的准确率,远超 GPT-4 的 67% 和 GPT-3.5 的 48.1%。这表明其对 Python 语言的掌握已经非常全面和深入。
在 APPS 和 MBPP 评测中, Claude 3 Opus 分别达到了70.2% 和86.4%的准确率。APPS 包含了 Python 语言的各种应用问题, MBPP 则考察了 Claude 根据问题描述直接生成正确代码的能力。这些成绩进一步验证了 Claude 3 对 Python 的熟练程度。

强大的代码理解和分析能力:
在 APPS 评测中,Claude 3 需要理解问题的自然语言描述,并将其转化为正确的 Python 代码。这要求模型不仅要准确把握问题的本质和要求,还要合理设计算法和数据结构,足见其代码理解和分析能力之强。
HumanEval 中的任务也都是以自然语言描述的, Claude 3 能高质量地完成这些任务,表明其能很好地理解代码的功能和意图。

出色的代码生成能力:
在 MBPP 评测中,Claude 3 展现了强大的代码生成能力,它可以根据问题描述直接生成正确的代码。这种 "一步到位" 的能力将极大提升开发者的效率。
即使在需要多轮对话澄清需求的复杂编程任务中,Claude 3 也能最终生成高质量的代码。这得益于其出色的上下文理解和语义追踪能力。

除了正确性,Claude 3 生成的代码在可读性、健壮性、时间/空间复杂度等方面也有不错的表现,这将有助于工程质量的提升。

在软件工程任务中的应用前景:
除了直接的代码理解和生成,Claude 3 在一些软件工程任务上也有广阔的应用前景。比如代码补全、代码文档生成、源代码转自然语言描述等。

得益于其强大的大语言模型能力,Claude 3 有望成为智能化软件开发的得力助手,协助开发者进行需求分析、架构设计、性能调优等高阶任务。

更进一步,Claude 3 或许能发展为智能化的 "软件工程顾问",为开发团队提供全流程的指导和优化建议,提升软件过程的成熟度。

当然,尽管 Claude 3 在代码相关任务上已经展现了非凡的能力,但其在真实软件开发场景中的应用还有待进一步探索和验证。看能不能对微软 copilot 构成挑战。

缺点方面:

暂不支持网络搜索(这个有点意外,因为应该是标配),知识截止2023年8月。
模型为了安全合规,拒绝识别图像中的人。

视觉理解方面,也有待更全面的评估: 虽然 Claude 3 展现了一些令人印象深刻的视觉理解能力, 如手写体识别、视觉推理等, 但报告并未系统地评测其在 OCR、目标检测、图像描述等常见视觉任务上的性能。此外, 红队测试也发现其在理解视觉内容时偶尔会出现"幻视"、遗漏违规内容等问题。未来还需在更大规模、更多样化的视觉数据集上系统优化。

报告多次提到一些评估方法还处于较早期阶段, 如对 AI 失控风险的评估、对 AI 系统生物和网络安全能力的评估等。虽然 Anthropic 采取了一些超出常规的预防措施,但评估本身还需要随着 AI 能力的进化而持续迭代。

总的来说, Claude 3 家族无疑代表了语言模型的一个新的里程碑, 构成了 GPT4 的强有力的对手(而 Gemini 整体上看,面对 GPT4 则远远不行)。Claude 3 在智能水平、多模态理解、安全评估等多个方面展现了突破/超越。Anthropic 严谨、审慎、透明的态度,在负责任 AI 方面树立了良好典范,保持了其 leader 地位。但 Claude 3 绝非完美, 在幻觉问题、评估框架等方面还有不少提升的空间。

这是从 tech report 中来的信息。至于这个系统本身,今天找机会可以做一些实测,对比 gpt4 和 claude 3 Opus,谈谈真实的个体用户体验和感受。我已经订阅了 claude 3 Opus 最新版本,随时可做对比实验。看朋友的测试便随手做的一个小学数学题,有点令人啼笑皆非:

不过,这点毛病不影响我自己的使用,我用 LLM 从来也不为了做数学。今后几个月,我会坚持同时使用 chat4v 和 claude3, 直到新的 monster chat5 或 Q* 的降临。

 

好久没经营博客了,应该恢复工作了?

前一阵子,聚焦在短视频特别是AI赋能一键成片的调研和实践,没时间写文字版的博客,这里荒芜了一段时间了。结果是零星生产了众多短视频实验室作品,发在微信视频频道和抖音上,研究实验的正业外,也算业余自娱娱人。但倒腾视频模态到博客比较麻烦,就一直没能更新了。期间不是没有心得,只是没时间整理和倒腾。

先说抖音短视频,那是个大海,基本上是自生自灭,如果没有运作,再好的作品除了亲友,基本上是无人问津,藏在深山人未识。微信视频号稍好,因为有长期积聚的朋友圈作为底盘,不至于完全的门庭冷落,但没有运营,也还是零散而缓慢。这其实与我几十年的博客一样,坚持持续记录,更多是留下足迹以及与亲友分享,而不是追求影响。

 

 

Unified Models Surpass Single-modal Models  (Gemini Notes 2/8)

by Zhi-Fei Li, Gao Jia, Wei Li, from "Brother Fei on AI"

02.

Multi-modal Large Unified Models Finally Surpass Specific Single-modal Models  

Humans perceive, cognize, and generate emotions and consciousness through the integration of multiple senses. Gemini is also practicing this approach, processing multiple modal inputs, integrating them in the brain, and then expressing through various modal outputs. This comprehensive "simulation" of human intelligence by such models is rapidly evolving.

Previously, multi-modal model training resembled a system composed of separate eyes, ears, arms, and brains, lacking strong coordination. However, the direction represented by Gemini feels significantly different: it's as if the large model has become a complete digital person, where hands, eyes, brain, and mouth work in harmonious silicon unity. Gemini is the first true end-to-end multi-modal system.

In the past, models optimized for a single modality usually outperformed those handling multiple modalities simultaneously. The common practice was single-modality model training. Even GPT-4 primarily "concatenates" different modalities into an overarching framework, rather than being a unified multi-modal model.

The exciting aspect of Gemini is that it was designed from the start as a native multi-modal architecture. The training process interweaves various modal data from the beginning. If previous large models were like attaching sensory organs or mechanical arms to a brain externally, Gemini is like growing its own eyes, ears, and arms internally, allowing for fluid and natural interaction.

Whether in terms of model architecture, training process, or final output, Gemini achieves a seamlessly integrated multi-modal experience.

For the first time, Gemini demonstrates that a unified model can handle all modalities, and perform even better than models focused on a single modality! For example, compared to the Whisper model, which is optimized for voice recognition, Gemini shows a significant improvement in accuracy.

This signifies the dawn of the era of unified multi-modal models.

Image

In fact, Gemini is not the first model to demonstrate that different modalities can mutually enhance performance. This was also evident in PaLM-E, where "PaLM-E, trained across different domains including general vision-language tasks at internet scale, showed a marked improvement in performance compared to models performing single tasks in robotics."

Another example of modalities enhancing each other is the multilingual processing ability of large language models. If we consider different languages as distinct "modalities," the practice of large language models has proven that processing native data of all languages together (through tokenization and embedding) managed to lead to the successful construction of a human language tower of Babel.

The overwhelming amount of English data in the training of large language models also benefits the model's understanding and generation of languages with limited data, reaffirming the transfer of linguistic knowledge. It's akin to a person skilled in tennis also being able to improve their abilities in squash or golf through related skills.

Since the rise of large models in February this year, many have gradually embraced the belief that "unified multi-modal models will surpass single-modality models." However, this belief hadn't been confirmed on a large scale until Google's Gemini showcased the prospects of this belief, reshaping and solidifying it for many.

In the future, specialized models for tasks like voice recognition or machine translation may become less significant. Many generative tasks such as TTS and image generation are also likely to be unified under large models. Some may complain about the high cost and slow speed of large unified models, but these are purely technical challenges. In practice, we can distill unified models to specific modalities or scenarios.

We firmly believe that unified cross-modal large models will become the mainstream pathway to achieving AGI.

Furthermore, "modalities" are not just sound, images, videos, etc. Olfactory, gustatory, tactile, temperature, and humidity sensors are also different modalities for gathering environmental information, all of which can in time be encompassed by unified models.

Ultimately, various modalities are merely carriers of "information." They are a form of rendering, a presentation style, a means for an intelligent entity to interact with the physical world. In the eyes of a unified model, all modalities internally can be represented by unified multi-dimensional vectors, enabling cross-modal knowledge transfer and the intersection, alignment, fusion, and reasoning of information.

When the barriers between modalities are breached, revealing the core beneath various renderings, we see the origin of cognition — language.

 

 

 

(Gemini Notes Series to be continued)

 

Original from:

关于 Google Gemini 的八点启示

by Zhi-Fei Li, Gao Jia, Wei Li, from "Brother Fei on AI"

随笔:2023年终感言

老友群里女同学重播当年的几首时代大合唱《明天会更好》《让世界充满爱》以及《we are the world》,面对战乱和纷扰的2023年即将的过去,感叹道:今天的世界怎么了?回放世界和平年的几首歌,悲从中来,欲哭无泪。

有老友说我们其实都生活得更好,不是?

我的呼应是:

我们经历的80年代,心中充满希望,解放区的天是明朗的天。而现在不同。

其实,我们的父辈在刚解放的头几年也有过意气风发的美丽憧憬,《青春万岁》留下 了记录。此后的政治运动不断,才给玫瑰色的画面抹上了阴影。在大革命10年浩/劫后,邓公带给我们上大学、研究生的机会,百废待兴,百花齐放,社会充满了生机,我们充满了希望和担当。这是历史的机遇,也是美丽的邂逅。

可惜,我们经历的80年代可能是历史上的异数而不是常态。是人间的四月天,而不是寒来暑往。

现在真的不同,冬天来了。虽然物质生活比80年代提升太多,但全世界都难掩某种末日景观。包括AI,或AGI,内卷外卷的狂热和兴奋更像是飞蛾扑火,而不是希望和憧憬。集体下意识,身不由己。
因为AI,所以AI,而不是因为爱所以爱。
爱不需要理由,AI 却不能无理由疯行。

-- 虽然老马到中国居然学会了把爱与AI连上。

-- 虽然Ilya声称要给模型植入爱人类的心。

-- 虽然我们每个个体依然循着惯性或本性,总是怀念单纯爱,可面对的却是乱世怪象:信息茧房,真假莫辨,快餐文化,爽一把就死。似乎没有明天,没有盼望。

没有最差,只有更差。

这是最快的时代,也是最坏的时代。

冷战转为热战,一场增为两场。猜忌日增,信誉不再。

老大哥前两天聚会谈伊朗旅游的观感体会说得好(大意),一个系统要往下,还真TM的可以无底线向下。触底反弹的铁律失效了?

2024 人类的马儿呀,不仅仅是AI,你能慢点儿跑,稳点儿跑,带着悲悯和人心跑吗?

年终感喟,但愿非杞人之忧。

 

Cross-modal Knowledge Transfer of Large Models Proven (Gemini Notes 1/8)

by Zhi-Fei Li, Gao Jia, Wei Li, from "Brother Fei on AI"

Image

In 1948, inspired by psychiatric patients, British doctor Ross Ashby invented a peculiar machine called the "Homeostat." He proclaimed that this device, costing about 50 pounds, was "the closest thing to an artificial brain ever designed by mankind." The Homeostat utilized four bomb control switch gear devices from the British Royal Air Force, used during World War II, as its base. Above these were four cubic aluminum boxes, with the only visible moving parts being four small magnetic needles on top of the boxes, swaying like compass needles in a small trough of water.

When the machine was activated, the needles moved in response to the electric current from the aluminum boxes. The four magnetic needles were always in a sensitive and fragile state of balance. The sole purpose of the Homeostat was to keep the needles centered, maintaining a "comfortable" state for the machine.

Ashby experimented with various methods to make the machine "uncomfortable," such as reversing the polarity of the electrical connections or the direction of the needles. However, the machine always found ways to adapt to the new state and re-center the needles. Ashby described the machine as "actively" resisting any disturbances to its balance through synaptic action, performing "coordinated activities" to regain equilibrium.

Ashby believed that one day, such a "primitive device" could evolve into an artificial brain more powerful than any human, capable of solving the world's most complex and challenging problems.

Despite Ashby's lack of knowledge about today's AGI evolution and the laughable idea of using four small magnetic needles as sensors for intelligence, his Homeostat fundamentally challenged everyone's understanding of "intelligence" - isn't intelligence the ability to absorb information from the environment in various modalities, and to modify behavior and responses based on feedback?

From the peculiar "Homeostat" to today, 75 years later, Google's Gemini, which claims to have surpassed human multi-modal task processing abilities, accelerates towards the evolution of billions of years of carbon-based intelligence through the injection of multi-modal native big data.

The acceleration speed of machine intelligence evolution today far exceeds our imagination. A year ago, OpenAI overturned Google's long-established AI position with its 'brute force aesthetic,' having constructed the Babel Tower of human languages. A year later, Google countered with Gemini, via a 'fight fire with fire' approach to building the first unified cross-modal model, setting another milestone in AGI evolution.

Despite initial skepticism over exaggerated video demos upon Gemini's release, it's undeniable that the dawn of a unified multi-modal approach is shining. What capabilities does Gemini confirm? How will Google's wheels of fate turn? Is time a friend to OpenAI or Google? What does multi-modality mean for Agents and embodied intelligence? Are the foundations for the emergence of AGI with consciousness already in place? How should we view the implications of Gemini for the AI future?

01.

Cross-modal Knowledge Transfer of Large Models Proven Again

For humans, the ability to transfer knowledge across various domains and through different timespaces is more important than merely learning skills. If machines can master cross-modal knowledge transfer, they edge closer to "intelligence generality."
 
In July this year, Google introduced RT-2, a robotic system based on large models, sparking hope for general-purpose robots.  The system's robotic arm, leveraging the "common sense" of language models, demonstrated the ability to "pick up an extinct animal from a table," moving from common sense reasoning to robotic execution, showcasing cross-modal knowledge transfer. 
 
In December, the introduction of Gemini by this tech giant reaffirmed the cross-modal knowledge transfer capability of large models: the "common sense" of language models could be transferred to the training of other non-linguistic modalities added later. Language models are known to form the foundation of cognitive intelligence, and the most basic form of cognitive intelligence is "common sense."  Without common sense empowerment, the practical application of large multi-modal models would be challenging.  Gemini smoothly transfers this "common sense" to downstream multi-modal tasks.  Like RT-2, it achieves cross-modal integration through the transfer of text-derived knowledge — Gemini can connect ontology concepts to the understanding of auditory and visual objects, and eventually link them with action, forming an intelligent system ready for real world application. 
 
From the perspective of model training, compared to language models trained with massive internet data, downstream models (like robotic models) can be trained with very limited data through knowledge transfer.  This transfer-based training manages to address the long-standing issue of data scarcity in downstream applications.  For instance, to achieve the effects shown in the video (which raised doubts about Gemini's video comprehension or picture comprehension but did not affect the discussion on cross-modal knowledge transfer here), Gemini first needs some ontological knowledge — it understands the concept of a duck, knows the usual color of ducks, and what blue is. When it sees a "blue duck," it reacts similarly to humans, expressing the "common sense" that "blue ducks are uncommon." 
 
Image
 
Gemini, through auditory and visual perception, identifies that the material of the blue duck is rubber and knows that rubber's density is less than water's. Based on this common sense and reasoning, when it hears a squeaking sound, it can predict that "the blue duck can float on water." 
 
Image
 
From RT-2 to Gemini, we've moved to the "fusion" of multi-modal perceptual intelligence and cognitive intelligence. We've transitioned from isolated "five senses" modules of eyes, ears, mouth, nose, and body to a unified digital "human". 
 
Doesn't this imply that on the path to simulating human intelligence, the unified model is the right approach? 

 

 

 

(Gemini Notes Series to be continued)

 

Original from:

关于 Google Gemini 的八点启示

by Zhi-Fei Li, Gao Jia, Wei Li, from "Brother Fei on AI"

语言是大一统模型里的核心和主线

作者 | 高佳   李维
创意 | 李志飞
在我们想象的AGI系统里,其核心和主线是视觉还是语言呢?

有人认为是视觉,但我们坚信语言才是核心,因为视觉反映的是动物共有的感官能力,而语言(包括口语和后来的书面语言文字)则是人类所独有的符号系统。它承载了人类千万年来的认知传承和知识积淀。
语言是是人类认知智能的外在表示,它是人类文明诞生的重要标志。著名以色列历史学家赫拉利在《人类简史》中说,是人类语言赋予的“讲故事”的能力,使得人类具有任何动物都不具有的组织能力,从而催生了文明,让人类成为地球的主宰。
语言是认知智能的起点和源泉,人类的语言信息中蕴含了人类高度抽象的概念层级体系,包括本体知识(ontology)及其常识,也包括更广泛的世界知识和更纵深的领域知识。这些知识是人类的高阶智能如逻辑推理的基础。而声音、图片和视频则更加感性,表示的是人类以及高级动物的情绪和具象能力,对应的是感知智能。
从感知到认知,从情绪到逻辑,当模型将它们融汇贯通,这才能真正模拟人类大脑的心智状态,也才称得上是完整的人工智能。多模态大一统的模型,填平了感知智能与认知智能的鸿沟,才是实现完整人工智能的希望所在。
在 RT-2 和 Gemini 中,以语言为基础的认知智能始终是人类知识模拟的核心,其中常识及其推理的知识迁移起到了关键作用。例如在 RT-2 中,反映语言模态的数据量和参数规模都远远大于下游的图片和动作模态的规模。
在原生态的跨模态大数据中,语言大数据总是处于核心地位。可以预测,未来的AI系统,不管目标是不是语言任务,都要把语言模型作为基础模型和训练的起点,其他模态或任务的下游数据可以在语言模型的基础上继继训练,以便继承和迁移语言模型强大的认知能力。
这一点做到了,就凸显了语言模型对AGI的最大贡献,因为它真正体现了研究人员对语言大模型的初心和定位——作为 Foundation ModelCore Engine.

全文原稿在(from):
关于 Google Gemini 的八点启示

 

 

 

Tanya's Childhood 2: American nursery rhymes

The text provided here is a nostalgic recounting of a parent reminiscing about his daughter's childhood, particularly focusing on various American nursery rhymes and the daughter's playful interactions. The parent reflects on the limited recordings they have of their daughter from when she was young, which were transferred from an iPod to an iPhone and often played in the car, blending with music into fond memories of the past.

The daughter is described as a talkative and somewhat rapid-fire speaker as a child, who enjoyed showing off nursery rhymes.

 

April 13, 2019

立委_米拉的微博视频 or YouTube:

As I navigate through the cherry blossom season, I'm engulfed in a wave of nostalgia, reflecting on the fleeting moments of my daughter's childhood. It's remarkable how certain memories, like her voice from those few recordings we made, have ingrained themselves in my heart. These snippets, once captured in an iPod and now residing in my iPhone, have become an auditory pathway back to those treasured times.

My daughter was always a chatterbox, her words often racing ahead of her thoughts. She had a particular fondness for American nursery rhymes, relishing in their playful rhythms and catchy phrases. I fondly recall how she would eagerly recite them, her voice filled with the enthusiasm of youth.

 

One of her favorite rhymes was a humorous jibe at boys:

"Boys go to Jupiter to get more stupider, girls go to college to get more knowledge."

She'd recite it with such dramatic flair, emphasizing each word, as if imparting some profound wisdom. Her rendition was always animated, almost rap-like, making it impossible not to smile.

“what do you want me to say now? boys go to Jupiter , do you know the planet Jupiter? they go to the planet Jupiter, once they get there, they get stupider and stupider every second. And girls they go to college to get more knowledge and knowledge into their brain on their head.”

"Eeny, meeny, miny, moe" was another staple in her repertoire.

“Eeny, meeny, miny, moe,
Catch a tiger by the toe.
If he hollers, let it go,
Eeny, meeny, miny, moe."

It's fascinating to think about how this simple rhyme was more than just a game; it was a glimpse into the cunning minds of children. They'd use it to make choices, but often, the outcome was already decided in their hearts. They'd cunningly manipulate the ending to suit their desired choice, either accepting or rejecting it with a claim like

"My mother told me to pick the very best one, and you are not it."

Or, “My mother says to pick the very best one, and that is YOU”.

Among these recordings was a playful, teasing rhyme that still brings a chuckle:

“You know what
Kick your butt
All the way to Pizza Hut

While you’re there,
Comb your hair
Don’t forget your underwear!”

This rhyme, intertwined with stories of school and friendships, showcased the innocent yet intricate world of children's social dynamics.

“I said that I am the Princess of Jewelry because one of my friends and buddy said that she looked at my jewelry I brought to school.  What happened is she was so surprised and she loved it … she said that I am Princess of Jewelry and she is the Queen of Makeup.  Next time I am going to bring new jewelry, she said that I am the Queen of Jewelry…… No,Daddy, Jessica said I am the Queen of Jewelry if I bring some new jewelry tomorrow.”

A particularly memorable story was about Tanya proclaiming herself the "Princess of Jewelry" after a school friend complimented her on her collection. This interaction with her friend, Jessica, who crowned herself the "Queen of Makeup," was a brilliant display of childhood diplomacy and innocence.

Tanya's excitement at the thought of being elevated to the "Queen of Jewelry" the next day if she brought new jewelry to school was both touching and amusing.

Listening to these recordings also brought into stark relief the difference between a native language and a second language. Her English, fluid and expressive, stood in contrast to her Mandarin, which, despite her efforts at weekend Chinese school, sounded labored and less natural.

These memories, encapsulated in a few precious recordings, remind me of how quickly time passes. They're not just echoes of Tanya's childhood but also emblems of a period that seems both distant and vividly close. In the beauty of the cherry blossoms, I find a reflection of those bygone days, a tender reminder of the passage of time.

 

from

朝华之二十五:爸爸的小棉袄

Tanya's Childhood 1: McDonalds

养育下一代(parenting)是人生最可回味的经历。孩子成长的花絮,时不时让人惊喜,积淀成温馨和亲情。很多父女对答妙趣横生,想起来就随手记录下来,更多的是随风飘散。人生的旅程步步惊心,支持我们走过低谷的是一种信念,为了女儿,我们不能停步。

Parenting is one of the most memorable experiences in life. The growing up moments of children often bring surprises and accumulate into warmth and affection. Many delightful father-daughter conversations are casually recorded, while others are lost with the wind. Life's journey is full of suspense, and it's our belief in our daughters that supports us through the lows, urging us not to stop moving forward.

永远的麦当劳 / Forever McDonald's

我们在水牛城的时期,一到周末,大小领导常常在工厂直销中心(Factory Outlets)不知疲倦地购物,跟厂商玩着买了退退了买的游戏。我跟往常一样,找一家附近的麦当劳快餐店,打开膝式苹果电脑,就着炸薯条,品着咖啡,上网有一眼无一眼看看老友们在闲极无聊中又整出什么让人跌破眼镜的新鲜事来,头脑里想的是怎样来写这篇酝酿已久的"麦克唐纳万岁"。还好,太阳底下没有新鲜事,只是一帮理呆在争论《十万个为什么》中的飞机为什么能飞的问题,争了几个月了,还没有结果。扯嘛,飞机不能飞还叫飞机吗?还是先回答鸟儿为什么能飞吧,飞机不就是人类的大鹏嘛。

During our time in Buffalo City, every weekend, the 'big and small bosses' (wife & daughter lol)would tirelessly shop at the Factory Outlets, playing the game of buying and returning with the merchants. As usual, I would find a nearby McDonald's, open my laptop, enjoy fries and coffee, and half-heartedly browse the internet to see what new, shocking things my bored old buddies had come up with. I pondered how to write the long-brewing "Long Live McDonald's." Fortunately, under the sun, there's nothing new; just a bunch of nerds arguing about why planes can fly, as described in books like "One Hundred Thousand Whys," without any conclusion for months. Ridiculous - if planes couldn't fly, would they still be planes? Maybe it's better to answer why birds can fly first, as planes are just the great rocs of humanity.

回到麦当劳。不管营养师怎样呼吁围剿所谓垃圾食品,也不管爱国分子怎样鼓噪抵制西方餐饮大王的侵入,麦当劳在我的心中金光闪烁,温馨惬意,有如家园。麦当劳给我的美好感觉,不在它的价廉物鲜 — 当然是新鲜的鲜,并非鲜美的鲜,毕竟是鬼子食。炸薯条和鸡块还是不错的,汉堡包在饿极时也可以下咽,比那些冷冰冰的三明治稍强。麦当劳的美好也不仅仅是它卫生亮敞的环境和茶馆一样的平易可亲的氛围。真正使麦当劳万寿无疆的是它的 Happhy Meal(儿童欢乐套餐)和它附带的儿童园地(Ronald's Playhouse)。Happy Meal 给儿时的女儿带来过无数的惊喜和欢乐,麦当劳儿童园地也见证了我跟女儿一起度过的无数美好快乐的时光。

Back to McDonald's. Regardless of how nutritionists call for a boycott of so-called junk food, or patriots decry the invasion of Western fast food giants, McDonald's shines brightly in my heart, cozy and homely. Its appeal isn't just in its inexpensive food – fresh in terms of newness, not taste, as it's still fast food after all. The fries and chicken nuggets aren't bad, and the burgers are tolerable when you're really hungry, better than cold sandwiches. But McDonald's charm isn't just in its clean, bright environment and the approachable atmosphere of a tea house. What really makes McDonald's everlasting is its Happy Meal and the accompanying Ronald's Playhouse. Happy Meals have brought countless surprises and joy to my daughter in her childhood, and Ronald's Playhouse has witnessed many wonderful moments we've shared.

对麦当劳的最初印象是我2015年前出国旅欧时形成的。一帮清贫的学生决定结伴周游欧洲各国。旅游并非阔人的专利,学生有学生的招数:买一张物超所值的铁路通票,就有了游遍欧洲的基本保障,食住行囊括了后两项。大体是白天游玩,晚上搭车加睡觉。有时一夜经过好几个国家,睡意朦胧中查验护照和签证,完了歪头再睡。一觉醒来,撞到什么旅游点,就下来走马观花。如果错过了什么名城胜景,可以转身搭车回转。随缘随机,倒也自在。这种旅行方式在学生中非常流行,对于节俭到苛刻的中国留学生更是如此。除了车票和门票(学生有优惠),唯一的开销就是吃了。旅游在外,胃口特别好,肚子时常闹意见,可旅游点的餐馆甚至小吃都价格不菲,就麦当劳的价格比较稳定。同学总结说:"Believe me, 游遍欧洲,颠扑不破的真理只有一条:麦当劳是唯一吃得起也吃得饱的所在。" 人以食为天,麦当劳的流水作业和薄利多销成全了它的餐饮业霸主的地位。

My first impression of McDonald's was formed during a trip to Europe before 2015. A group of poor students decided to tour various European countries together. Traveling isn't just for the wealthy; students have their ways: buying a value-for-money rail pass ensured basic travel across Europe, covering accommodation and transportation. We generally toured during the day and traveled and slept at night. Sometimes we'd pass through several countries in one night, vaguely waking up for passport and visa checks, then dozing off again. Waking up, we'd spontaneously visit whatever tourist spot we bumped into. If we missed any famous city or scene, we could easily catch a train back. This laissez-faire travel style was popular among students, especially thrifty Chinese international students. Aside from train and attraction tickets (with student discounts), our only major expense was food. Appetites grow when traveling, and stomachs often complain, but eating at tourist spots is expensive, making McDonald's a stable choice. A fellow student summarized, "Believe me, the only unbreakable truth in traveling across Europe is: McDonald's is the only place you can afford and get full." People need to eat, and McDonald's fast service and thin profit margins cemented its dominance in the food industry.

对麦当劳的亲密而频繁的接触,还是由于甜甜。玩具是儿童的天使,甜甜热衷于追踪麦当劳儿童套餐推出的每一款玩具,遇到她喜欢的主题,比如 Furby, Teletubby, 她总是要收集各种颜色和造型的全套才满足。为此,我也没有少吃儿童套餐,为的就是尽快收集完全。有一次我连续一周午餐吃儿童套餐, 甜甜感觉奇怪:“Dad, are you ok? Did you tell me you don't really like the McDonald's food?” 我笑笑,说:“it's not bad, actually I seem to like it. Important thing is, we got the toy”。后来甜甜终于悟出来了,跟小伙伴说:"I can't believe it. My Dad ate Happy Meals nonstop just to get a complete collection of my favorite toys." 语气里透着被宠爱的满足。

My close and frequent encounters with McDonald's were mostly due to my daughter, Tanya. Toys are angels to children, and she was keen on collecting every toy from McDonald's Happy Meals. Whenever she liked a theme, like Furby or Teletubby, she had to collect all the colors and designs. I ended up eating many Happy Meals to complete her collection. Once, I ate Happy Meals for lunch for a week straight. Tanya found it odd: "Dad, are you ok? Did you tell me you don't really like McDonald's food?" I just smiled and said, "It's not bad, actually I seem to like it. The important thing is, we got the toy." Eventually, Tanya realized and told her friends, "I can't believe it. My Dad ate Happy Meals nonstop just to get a complete collection of my favorite toys." She felt a satisfied sense of being spoiled.


麦当老儿童园地 / Ronald's Playhouse at McDonald's

在水牛城的岁月,麦当劳附设的儿童园地是我们最常光顾的场所,有吃有喝有迷宫,总有其他小朋友,甜甜在那里不到筋疲力竭不愿意回家。麦当劳迷宫,千转百迴,上下左右贯通,最受儿童喜爱。甜甜天生胆子小,很长一段时间,望宫兴叹。有一天,我们注意到麦当劳迷宫的游玩规定中写道:And parents, too! 原来允许做父母的跟孩子一块进去玩儿,于是陪着甜甜爬进那窄长园筒状迷宫通道,甜甜兴奋莫名,从此一发不可收拾。可怜我的老骨头,猫着腰跟一帮孩子在里面爬呀爬,很多家长旁观而笑。有孩子在迷宫哭闹的,就托我领孩子出宫。

During our time in Buffalo City, Ronald's Playhouse at McDonald's was our frequent haunt, with food and drink and a maze. There were always other kids, and Tanya wouldn't want to leave until she was completely exhausted. The maze at McDonald's, with its twists and turns, was a favorite among children. Tanya was initially timid, but one day, we noticed the Playhouse rules stated: And parents, too! So, I joined her in the narrow, cylindrical maze, and she was ecstatic. Poor me, crouching down and crawling with a bunch of kids, while many parents watched and laughed. When a child cried in the maze, I was often asked to help lead them out.

全家外出旅游,时常在没有尽头的高速公路上狂奔,夜色渐浓,困顿饥饿之时,我们也总是习惯地搜寻下一站的麦当劳。那金黄的霓虹灯招牌M,顶天立地耸立在那里,是温馨随意的召唤,总给我们宾至如归的感觉。

When traveling as a family, we'd often search for the next McDonald's on endless highways, especially when night fell and hunger struck. The golden neon 'M' sign stood tall and inviting, always offering a warm and casual welcome.

永远的麦当劳! / Forever McDonald's!

记于2007年母亲节

Written on Mother's Day 2007.

from

朝华之二十五:爸爸的小棉袄

写在巴别塔建成周年纪念日的文案

 

我是出门问问李维,欢迎你来到我的AI短视频频道。今天我谈谈大模型时代的 killer apps 的话题。

我们知道每一次信息技术的革命,都会产生一批杀手级应用(killer apps),大模型时代的 killer apps 路在何方呢?
回顾第一次互联网技术革命,killer apps 包括浏览器和搜索引擎,紧接着是游戏、电商和社交媒体,催生了谷歌/百度、亚马逊/阿里和脸书这样的大厂。到了移动平台时代,电商、游戏和搜索这三大类,在移动平台发扬光大。此外,移动互联网专有的 killer apps 还有 (1)出行app Uber/滴滴;(2)住宿app Air B﹠B;(3)通信app 微信;(4)娱乐短视频 app 抖音;(5)吃喝apps 美团等。这些 apps 涵盖了人类生活的基本场景,极大地提高了劳动生产率和人类的生活品质。

大模型的 killer apps 还不清晰,但大体的方向可以看到轮廓。

虚拟陪伴(包括老年陪护,也包括虚拟女友/男友)肯定算其中一类。人类的情感需求是刚需。当然,由于情色的监管,国内现在做不了虚拟交友。食色性也,老祖宗千百年前就洞悉的道理。这种东西不是洪水猛兽,而是技术时代的福音。人畜无害,其实没道理禁止。从趋势上看,最终也禁止不了。

除了虚拟陪伴的情感需求外,另一类是知识需求,就是所谓助理、副驾驶这种(辅导、问答),也包括辅助创作(无论什么模态,文字、音频、图片、视频)。文艺创作其实是人类的高阶需求,超出了吃喝玩乐与卡拉ok的低层次需求。这也是大模型的长项,将来定会诞生 killer apps,因为人对于精神生活和品质的追求,永无止境,而文学艺术方面的代入感,会让人觉得生活更有意义。文学艺术不再是少数贵族的专有,而会成为大众的自我表现形式。ChatGPT 作为助理/副驾驶,已经呈现 killer app/super app 形态。

心理辅导(therapy)介于虚拟陪伴与医疗之间,也是刚需,但有监管、私密和走偏的挑战。

最后代代相传的老三样,电商、游戏和搜索,在大模型时代会有继承改造。例如,电商就会借力LLM,提供虚拟换装、虚拟居家设计等扩展。游戏更不用说,多模态大模型会把游戏推向新的高度,包括元宇宙色彩的加持。至于搜索,自然的演进就是 RAG(搜索增强)的 Chat GPT 这类,搜索与阅读理解和问答合为一体了。

在上面这些方向上,LLM 大有可为,但还是需要时间去孕育、试错和普及,逐渐形成有商业模式、能持续的 killer apps。
这样看来,LLM落地应用的前景还是非常广阔的,也许只是需要两三年的时间就可以看清 LLM应用落地的生态图以及创新的商业模式。

稍安勿躁。精彩正在继续。

我们生在见证历史和奇迹的年代。同时也在见证人类的危机和解套。

我是出门问问李维,每次两分钟与您分享大模型及其AI落地应用的有角度的思考。

 

https://weibo.com/u/2316531634?layerid=4973825203373916

 

《硅谷神剧回顾》

立委按: 生活比戏剧更戏剧, 虚拟比现实更现实; Turbo 比 GPT 更 GPT, AI 比智能更智能,是为AGI。

 

### OpenAI 剧情回顾:硅谷戏剧全纪录

#### 第一幕:引火 - 山姆·奥特曼被解雇

故事始 于 OpenAI 董事会一个突然且有争议的举动:CEO 山姆·奥特曼的意外解雇。此举在硅谷引发了轩然大波,标志着一场前所未有的公司戏剧的开幕。

- **亮点**:董事会指责奥特曼在与董事会的沟通中缺乏坦诚,这一指控后来成为争议的核心。
- **关键人物**:山姆·奥特曼,因引领 OpenAI 进入新领域而闻名,现在却突然被驱逐,为接下来的剧情奠定了基础。

#### 第二幕:后果与反抗

在奥特曼被解雇后,公司陷入混乱。一股由关键员工领导的反对派声音强烈反对董事会的决定,要求恢复奥特曼的职位。

- **亮点**:近500名员工威胁离职,除非董事会辞职并恢复奥特曼和联合创始人格雷格·布罗克曼的职位。
- **关键人物**:联合创始人兼前总裁格雷格·布罗克曼成为反抗董事会决定的象征。

#### 第三幕:伊利亚的后悔与公开信

在一个出人意料的转折中,被指责策划奥特曼出局的 OpenAI 首席技术官伊利亚·苏茨克维公开表达了他的后悔。这一认错为这场戏剧增添了新的复杂层次。

- **亮点**:伊利亚在社交媒体上的公开后悔和他参与的要求董事会辞职的公开信。
- **关键人物**:伊利亚·苏茨克维的角色从被指责的策划者转变为悔恨的关键人物,寻求修复 OpenAI 内部的裂痕。

#### 第四幕:董事会的困境与新任 CEO

在巨大的压力下,董事会发现自己处于十字路口。与此同时,新任 CEO Emmett Shear 被任命,标志着 OpenAI 可能的发展方向转变。

- **亮点**:Emmett Shear 的任命和他对 AI 发展的保守态度,与奥特曼的激进增长战略形成鲜明对比。
- **关键人物**:Emmett Shear,作为一股可能稳定混乱局势的力量,代表了 OpenAI 的新篇章。

#### 第五幕:转投微软与 OpenAI 的未来

在一系列戏剧性的事件中,奥特曼和几位关键成员宣布加入微软,实际上在这个科技巨头内部创造了一个强大的团队。

- **亮点**:微软成为主要角色,吸收了 OpenAI 的人才,可能重新定义 AI 领域的格局。
- **关键人物**:山姆·奥特曼转投微软,被视为一种战略高招,可能改变 AI 发展的未来轨迹。

#### 终幕:持续进行的剧情

这场戏剧暂时告一段落,OpenAI 正处于关键时刻。它的领导层、发展方向和核心理念都处于变动之中,这些事件的影响继续在科技界波及。

- **回顾**:从奥特曼被解雇到现在,OpenAI 的剧情回顾了权力斗争、意识形态和硅谷 AI 领域未来的集中展现。
- **关键收获**:这一事件证明了领导尖端 AI 组织的复杂性,技术抱负与人类动态和企业权力游戏交织在一起。

*这一综合回顾作为对 OpenAI 持续戏剧的闪回,突出了塑造这一硅谷历史非凡章节的关键时刻和人物。*

~~~~~~~~~~~~~~~~~~~~

### OpenAI 动荡剧情:双语剧本

#### 第一幕:疑云初起 / Act 1: The Beginning of Doubts

**场景**:OpenAI 办公室,员工们围坐讨论。
**Scene**: OpenAI office, employees gathered in discussion.

- **员工甲**(激动):「你们听说了吗?Sam 被解雇了!」
- **Employee A** (Excited): "Have you heard? Sam has been fired!"
- **员工乙**(震惊):「怎么可能!Sam 是我们的灵魂人物!」
- **Employee B** (Shocked): "How is that possible! Sam is our soul!"
- **员工丙**(沉思):「这背后一定有更复杂的故事。」
- **Employee C** (Thoughtful): "There must be a more complex story behind this."

#### 第二幕:董事会的难题 / Act 2: The Board's Dilemma

**场景**:董事会会议室。
**Scene**: The boardroom.

- **董事甲**:「我们必须要有新的领导,Sam 的领导方式不再适合我们。」
- **Director A**: "We need new leadership, Sam's way of leading is no longer suitable for us."
- **董事乙**:「但这样的决定会引起巨大的反响,我们准备好了吗?」
- **Director B**: "But such a decision will cause a huge backlash, are we ready for it?"
- **董事丙**(坚定):「为了公司的未来,我们必须要做出艰难的决定。」
- **Director C** (Firm): "For the future of the company, we must make tough decisions."

#### 第三幕:伊利亚的后悔 / Act 3: Ilya's Regret

**场景**:伊利亚的办公室,他焦虑地走来走去。
**Scene**: Ilya's office, he paces anxiously.

- **伊利亚**(自言自语):「我做错了... 我不应该那样做... 我需要公开道歉。」
- **Ilya** (Muttering to himself): "I did wrong... I shouldn't have done that... I need to apologize publicly."
- **助手**(担忧):「这样会不会引起更大的混乱?」
- **Assistant** (Worried): "Won't this cause even more chaos?"
- **伊利亚**(坚定):「我必须要承担责任。」
- **Ilya** (Determined): "I must take responsibility."

#### 第四幕:员工的反抗 / Act 4: Employees' Revolt

**场景**:OpenAI 大厅,员工们聚集。
**Scene**: OpenAI hall, employees gather.

- **员工甲**:「我们不能接受这样的决定!我们要写一封信给董事会!」
- **Employee A**: "We can't accept such a decision! We need to write a letter to the board!"
- **员工乙**:「对,我们要求他们辞职,要求Sam回来!」
- **Employee B**: "Yes, we demand their resignation and demand Sam's return!"
- **众员工**(齐声):「OpenAI没有我们就是一无是处!」
- **All Employees** (In unison): "OpenAI is nothing without us!"

#### 第五幕:微软的招手 / Act 5: Microsoft's Invitation

**场景**:微软总部,Satya Nadella 与 Sam 和 Greg 会面。
**Scene**: Microsoft Headquarters, Satya Nadella meets with Sam and Greg.

- **Satya**(微笑):「欢迎加入微软,Sam。我们会一起创造不可思议的事物。」
- **Satya** (Smiling): "Welcome

to Microsoft, Sam. Together, we will create incredible things."
- **Sam**:「我很期待这个新的开始,我们会创造新的辉煌。」
- **Sam**: "I look forward to this new beginning, we will create new glories."
- **Greg**:「是的,这是我们的新使命。」
- **Greg**: "Yes, this is our new mission."

#### 第六幕:终幕 / Act 6: The Finale

**场景**:OpenAI 办公室,员工们聚在一起。
**Scene**: OpenAI office, employees come together.

- **员工甲**:「现在怎么办?Sam 和 Greg 都走了。」
- **Employee A**: "What do we do now? Sam and Greg are gone."
- **员工乙**(坚定):「我们必须要继续前进,为了我们的使命。」
- **Employee B** (Resolute): "We must continue to move forward, for our mission."
- **众员工**(齐声):「OpenAI是我们的家,我们会一起度过难关!」
- **All Employees** (In unison): "OpenAI is our home, we will get through this together!"

*本剧本创意基于最近 OpenAI 发生的一系列戏剧性事件,旨在通过对话和场景刻画,双语呈现这个引人入胜的科技界故事。*

AIGC时代,关于鲁迅大脑的复活

这个话题,在国内怕惹麻烦,还是写在这里吧。也借此机会与老友分享一下我目前聚焦的工作,以及这个领域持续令人兴奋的热点。

《清晨时刻: 每日GPT》可以成为一个专栏,关于 GPTs(GPT Builder / GPT Store / GPTs by Wei Li)似乎每天都有新的进展或体验可以分享。

今天的进展是,我对我前几天制造的“鲁迅具身”的质量不满,因为不像,倘若鲁迅纪念馆真要让我为他们的大屏的鲁迅数字人提供虚拟大脑的话,我觉得目前我做的这个GPT还不合格:虽然可以源源不断请他老人家在元宇宙发声,每次都有不同,语言也通顺,但风格模仿还是差强人意。

除了把抱怨当作 bug reports 直接反馈给 GPT Builder,我开始从网上收集鲁迅先生的文集 PDF,填入 local knowledge,并指令它从中学会鲁迅的言谈风格。今天填进去的文集是:

这几乎就是一本鲁迅先生的文学类“全集”了吧,排除了鲁迅先生“硬译”的外国文学译品,以及家长里短的乏味的日记等,觉得是一个合适的 feed,可以让 GPT 聚焦其文学风格。

Quote
原文序言:序 言
这是一套鲁迅小说、散文、诗歌和杂文等文学作品的选集。
圆园世纪猿园年代以来,《鲁迅全集》、《鲁迅选集》时有出版。“全集”版本虽不很多,印数却相当可观;“选集” 更是版本繁富,数量浩大;比较起来,只收鲁迅文学作品的全集,却显得较少。许多读者觉得“全集”太大,因为日记、书信、序跋、学术著作,没有纳入他们的必读范围;“选集”又欠精,他们手头需要一部像本书这样的鲁迅文学作品的全集。
.........

把这本文集作为 local knowledge (类似于 GPT-PDF 的 rag) 喂进去,鲁迅先生(大脑具身)的表现会有所改善么?我们试试。

GPT Builder 强调,为了 access (local)knowledge,需要打开内置插件 code interpreter,我在 config 中确认了已经打开。

上传上去后,似乎无需等待时间,就立即开始起作用了(内部快速建立一个类似向量知识库的东西还是其他什么 embedding retrieval 方式?总之都是 OpenAI GPT Builder 平台北部搞定的,不用我们用户操心)。

好,我们来试试效果。(作为小白鼠,先给个警告,鲁迅先生向来以辛辣著名,时评不可能“政治正确” -- 这正是他老人家最厌恶的东西,所以很多人说过,他老人家虽然极受毛主席推崇,但倘若活到1957年,肯定是要打下去的最大右派。)

鲁迅先生向来以辛辣著名,时评也充满讽刺,不一定讨好。但忠言逆耳,我们不妨不时听听复活的鲁迅是怎么俯瞰天下大势的。

以上就是他老人家最新的时评。是我请他老人家写的。(群内供研究,不外传,也不必上纲上线,阅后可焚。我想展示的是 AI 的惊人内功。再说一遍,群内都是我熟知的老友,此件务必不外传,不惹麻烦。不合时宜的话语是他的风格,这里的本义只有AI研究。)

虽然鲁迅具身作为中国近代最伟大的思想家的元宇宙大脑,还有很多优化的工作可做,但初步的实验已经显示出鲁迅风格和人格的复活。今晨做这个实验的时候,我看着屏幕上他老人家喷涌而出的时评,感到了一种时空的穿越。这比前天我刚做“鲁迅具身”上线的时候,表现逼真太多了。质量只会越来越好,我会持续维持和加强GPT的迭代更新。

到底 AI 做 character,复活古人、名人、思想家、艺术家,是不是一个靠谱的目标?

我们知道,复活名人的外表早已不是问题,蜡像馆就是成功案例。现在我们的2D3D的奇妙元数字人也是栩栩如生。复活声音也不是大的挑战,我们有亚洲AIGC业务最强的魔音工坊,很快都可以搞定。最难复活的还是大脑。而大脑,非 LLM 不可。现在只是一个开始。

这个实验不幸有点敏感,以后我会做一些其他名人的GPT大脑。然后用这个大脑发出对于当今世界的评论,并以此驱动奇妙元数字人的形象,可源源不断制作出鲜活生动的元宇宙大师来。其实,如果能够协调好监管,也完全可以实现博物馆历史名人实时与参观者的交互:技术条件已经具备。可以预见,这类落地由于政策的相对宽松,海外会走在前面。

character AI 虽然面对 Open AI 平台的碾压,也还是聚集了足够的人气和社区,正在 AI characters 的方向上前进。国内也有几家出海产品,正在尝试进入这个市场。

我已经公开发布我制作的【鲁迅先生(GPT具身)】,有 ChatGPT Plus 注册的朋友都可以在此尝试,欢迎反馈和 bug reports,我的迭代更新会是秒速(只要有反馈,可以做到日迭代,这是因为在“LLM对话驱动编程”的新范式下,现在的 bug reports 可以直接扔给平台,GPT Builder 会实时迭代,无需等待):

https://chat.openai.com/g/g-zeYHL1uSG-lu-xun-xian-sheng-ju-shen