《AI浪潮：人工智能当代简史》

立委：人工智能当代史 outline：

10年前的第一次AI深度神经革命，解决了感知AI的图像识别（包括人脸识别）、语音识别以及机器翻译三大难题，靠的是带标大数据的有监督训练。

5年前的第二次AI深度革命以NLP为发端，“劳碌命”（LLM：large language model， BERT/GPT）为旗帜，辐射多模态，实现了AI从感知到认知的跃迁，靠的是原生大数据的自监督学习，无需标注却继承了有监督训练的巨大能力。

几个月前的第三次AI创新（或革命）搞定了自然语言的理解和生成难题，以 chatGPT 发布为里程碑，开辟了人机自然交流的新纪元。

通用人工智能（AGI：Artificial General Intelligence）因此从空想变为可以逼近的工程目标。

有个声称有百万多日本用户的新闻门户约了要采访我，问老司机关于“劳碌命”的现状和展望，尤其是 ChatGPT 对于社会的冲击力。有什么特别要给公众传达的？想了一下，以上的 outline 算是我信口开河前的主线，尽量做到天马行空不逾矩吧。

鲁为民：很赞赏这种乐观[Grin]

白硕：生成离彻底搞定比较近了，理解还远。

立委：从 chat 的客户端感受，理解已经很给力了：其实我个人觉得，chatGPT 的理解能力比其生成能力更让我 impressed，也许是生成模型的生成表现在预料之中，而语言理解此前一直是一个让人头疼的坎儿。从终端用户角度，你不管以什么方式说话，不管说的是哪一门语言或哪几门外语，貌似它都能听懂，给出的回应很到位，没有违和感。

关于AGI 以前与@马少平老师等谈过n次，当时我们都认为是不靠谱的东西，乌托邦。可是最近一年来，我的立场动摇了，不知道马老师现在如何评价？

马少平：我也开始动摇了[Grin]

立委：? 哈，heroes 所见略同，同步进退 lol

鲁为民：接过群主的乐观，今后可能用自然语言直接给计算机编程了。目前计算机语言用什么语言应该不重要了[Grin]

邬霄云：真正的no code

郭进：要说清楚，还是要形式语言。法律文件，专利诉求这些也是。自然语言，为了效率，也为了社会性，有意无意地留下了太多的歧义。

鲁为民：计算机语言可能也会就像法律语言一样，作为人类自然语言的一个分支 ··· ChatGPT 开了一个头，试图统一服务接口: 基于自然语言的接口。

陈利人：是不是概率才是大脑真正的思维方式。

立委：理解上的突破还是很明显的。如果我们回顾功能对话（Siri，Alexa，Google Assistant，出门问问等）的问句理解，语言理解面的对比还是很强烈。Siri 类是 brute force，貌似理解了，人工斧痕明显，无法与大模型 “涌现” 出来的理解能力比，无论自然性、广度还是鲁棒。当然，以前提过，功能对话的助理有很强的功利性和数据库的接口性，目前LLM在这方面如何对接还有挑战，但就理解谈理解，就对话谈对话，这种段位的差别还是非常有感的。功能助理是个机器，而chat已经进阶到类人实体了。

邬霄云：但是，这个理解是人infer的，并没有接口可以用和检测。换句话说如果它一个坏的理解和一个配套坏的生产，我们并不知道。我们知道只有end to end。

立委：客户的体验是可以粗略度量的。可以计算多少次失望是因为“感觉”它没听懂。这个感觉，用过的人心里是有一本账的。chat 绝对优等。

尼克有何高见？前面勾画的是“人工智能当代简史”。从范式转变的角度，十年内一大革命（深度神经），两大创新（transformer-based LLM，chatGPT）。考虑到 LLM 实质上还是有监督的学习（虽然由于其不需要带标数据常常号称是无监督），其有效和成功还是植根于深度神经网络的范式，所以也可以把第二次革命（LLM）降格为创新。但是，如果从第二次的感知飞跃到认知的角度，从第三次人类对齐（human alignment）赋能搞定人机接口、摘取自然语言这颗人工智能的皇冠明珠的角度，三次革命论也站得住。也就是说AI最近10年间发生了三大技术革命，明显有加速度的态势，让人眼花缭乱。

这种发展速度已经酝酿了危机，因为人类实际上没有准备好应对以假乱真真假莫辨的信息时代。AI 可以缓行，这并不是杞人忧天，可是，实际上谁也阻挡不住它的脚步和洗礼。

举两个例子。

这叫真假莫辨。懂行的朋友说里面九成为真，一成胡说。

这说明假新闻现在可以零成本活灵活现编造出来。

人类社会如何应对 misinfo 的泛滥，目前还是个问号。

尼克：那天白老师的分享挺好。我在琢磨，1）如何看待现在。需要一套话语来总结chatGPT现在的功能，或者说科普，现在很多人说的都不太准确。2)同时也要理解ta的局限,有些局限可能可以从计算理论角度说明，做GPT的人也需要了解。3）chatGPT可以外挂别的功能，别的模块也可以外挂chatGPT当oracle来用。4）哲学上，chatGPT帮助更加接近清晰定义“理解”，我现在对Chinese Room，维特根斯坦后期哲学和老乔的立场又有些新思路。我在等GPT4.0出来在决定是否增补个《人工智能简史》第三版。

马少平：@Nick Zhang（尼克）期待

白硕：互为外挂，精彩的点评。

尼克：哈哈，Schimdhuber对没给他发图灵奖很不满。前一阵写过一个很长的啰里啰唆的人工智能历史回顾。人工智能300年！这个是改写的中文版，原文在这里。

鲁为民：这些可能说明人工智能是工程应用学科，没人管自己重新发明的工程技巧之前是否别人做过，谁最接近应用成功，Credit 就是谁的[Grin]

尼克：深度学习那次图灵奖，Hinton确实是值得的，但另外俩小孩确实有点那个啥。Schmidhuber可能想：我资历不必他们浅呐。。。总的来说，Hinton吃过苦，其他人都是赶上了。

马少平：我在写开篇时犹豫半天是否写Schmidhuber，最后还是加上了，从文字上看感觉前后不是太连贯，因为这段是后来增加的。

尼克：估计Schmidhuber以后再也没机会得大奖了，本着同情弱者的立场，还是应该写哈。

马少平：@Nick Zhang（尼克）那个神经网络先驱奖如何？以前不太知道，这次写东西查资料才看到。

尼克：那奖还不错，我印象那奖原来是Neural Networks Society的，后来不知为啥转到IEEE名下了。2010年前的得奖人，我都八过。基本是个安慰奖。刚设立时恰逢Hopfield革命。

刚看了下，第一届的得奖人中有Grossberg，《AI简史》第二版中给他留了一页篇幅。他1969年在MIT副教授后居然没有tenure，后来去了BU，他认为是Minsky在迫害他。

立委： @Nick Zhang（尼克）无论gpt老四是个什么怪物你的简史都必须更新版本，才跟得上时代。

尼克：“史”得稍微有点距离，要不成journalist了。

白硕：如果已经知道了独尊儒术，对诸子百家就是另一种写法了。

尼克：可不，历史就是 in between焚书坑儒 and 独尊儒术。

立委：那也是。

过去10年的黄金时代让人眼花缭乱但有些事可以盖棺论定的感觉。

尚未搞定的短板自然还在路上。我戏言过的 AI 裁为三截一截馈符号一截赠领域一截还科学。

没有自然语言符号的原生数据这源源不断的燃料，llm 如何练成，成为多模态认知引擎。领域这一关必须过，看各路神仙今后五年吧。至于科学，不是说AI都是摸着石头过河，模型创新走马灯似的，有人说多是撞了狗屎运，以至于搞出的东西自己都没想到怎么那么牛。想不通又解释不了，就说“涌现”，上升到量变质变的玄学高度。

反正上帝这几年有些老糊涂了，动不动就泄露点天机，让知其然不知其所以然。天机之一就是自然语言并不是以前想象中的泰山压顶，不过就是认知海洋的一层波浪，模型一大就搞定了。搞定了语言，不过是间接搞定认知的20%左右吧，但却貌似可以对付80%的日常场景，让神迹尽意彰显。至于20%的笑话，也恰到好处，成为调料和谈资，既娱乐了大众，又鞭笞了工匠和科学家：继续内卷。

最近浏览多模态的一些工作，说音频视频方面的基础大模型正在重复 llm 的成功，说明 llm 的多任务零样本路线是ai的有普适意义的突破性方向。做音频视频的人，特别嫉妒自然语言的特性，觉得自然语言的 llm 条件太好了，不怪这场革命五年前首先发生在 nlp。第一是自然语言词汇符号的离散性和有限性，边界清晰，是嵌入向量的理想对象。第二是自然语言的结构性，以前被认为是线性模型的拦路虎，但在装备了多头注意力机制的深层llm中，也变成了理想的建模对象。于是 llm 轻松搞定了有限的词汇表示无穷的变体这门人类绝活。

如果是上帝垂怜人类，为人类创造了语言符号系统作为交流工具和知识 containers，同样应该感谢上帝的语言符号创造，为AI的llm认知革命提供了理想的原材料或燃料。而音频视频这些连续模态，没法与 text 比出身，根不红苗不正，起点不一样，既不离散也没有语言那样的结构化。尽管如此，过去一两年他们还是在基础模型方面克服困难，进步很大。因为从数据学习概念，是铁律。

【相关】

chatGPT 网址：https://chat.openai.com/chat（需要注册）

《朝华午拾》电子版

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】