《AI浪潮:人工智能当代简史》

立委:人工智能当代史 outline:

10年前的第一次AI深度神经革命,解决了感知AI的图像识别(包括人脸识别)、语音识别以及机器翻译三大难题,靠的是带标大数据的有监督训练。

5年前的第二次AI深度革命以NLP为发端,“劳碌命”(LLM:large language model, BERT/GPT)为旗帜,辐射多模态,实现了AI从感知到认知的跃迁,靠的是原生大数据的自监督学习,无需标注却继承了有监督训练的巨大能力。

几个月前的第三次AI创新(或革命)搞定了自然语言的理解和生成难题,以 chatGPT 发布为里程碑,开辟了人机自然交流的新纪元。

通用人工智能(AGI:Artificial General Intelligence)因此从空想变为可以逼近的工程目标。

有个声称有百万多日本用户的新闻门户约了要采访我,问老司机关于“劳碌命”的现状和展望,尤其是 ChatGPT 对于社会的冲击力。有什么特别要给公众传达的?想了一下,以上的 outline 算是我信口开河前的主线,尽量做到天马行空不逾矩吧。

鲁为民:很赞赏这种乐观[Grin]

白硕:生成离彻底搞定比较近了,理解还远。

立委:从 chat 的客户端感受,理解已经很给力了:其实我个人觉得,chatGPT 的理解能力比其生成能力更让我 impressed,也许是生成模型的生成表现在预料之中,而语言理解此前一直是一个让人头疼的坎儿。从终端用户角度,你不管以什么方式说话,不管说的是哪一门语言或哪几门外语, 貌似它都能听懂,给出的回应很到位,没有违和感。

关于AGI 以前与@马少平 老师等谈过n次,当时我们都认为是不靠谱的东西,乌托邦。可是最近一年来,我的立场动摇了,不知道马老师现在如何评价?

马少平:我也开始动摇了[Grin]

立委:👍 哈,heroes 所见略同,同步进退 lol

鲁为民:接过群主的乐观,今后可能用自然语言直接给计算机编程了。目前计算机语言用什么语言应该不重要了[Grin]

邬霄云:真正的no code

郭进:要说清楚,还是要形式语言。法律文件,专利诉求这些也是。自然语言,为了效率,也为了社会性,有意无意地留下了太多的歧义。

鲁为民:计算机语言可能也会就像法律语言一样,作为人类自然语言的一个分支 ··· ChatGPT 开了一个头,试图统一服务接口: 基于自然语言的接口。

陈利人:是不是概率才是大脑真正的思维方式。

立委:理解上的突破还是很明显的。如果我们回顾功能对话(Siri,Alexa,Google Assistant,出门问问等)的问句理解,语言理解面的对比还是很强烈。Siri 类是 brute force,貌似理解了,人工斧痕明显,无法与大模型 “涌现” 出来的理解能力比,无论自然性、广度还是鲁棒。 当然,以前提过,功能对话的助理有很强的功利性和数据库的接口性,目前LLM在这方面如何对接还有挑战,但就理解谈理解,就对话谈对话,这种段位的差别还是非常有感的。功能助理是个机器,而chat已经进阶到类人实体了。

邬霄云:但是,这个理解是 人infer的,并没有接口可以用和检测。换句话说如果它一个坏的理解和一个配套坏的生产,我们并不知道。我们知道只有end to end。

立委:客户的体验是可以粗略度量的。可以计算多少次失望是因为“感觉”它没听懂。这个感觉,用过的人心里是有一本账的。chat 绝对优等。

尼克有何高见?前面勾画的是“人工智能当代简史”。从范式转变的角度,十年内一大革命(深度神经),两大创新(transformer-based LLM,chatGPT)。考虑到 LLM 实质上还是有监督的学习(虽然由于其不需要带标数据常常号称是无监督),其有效和成功还是植根于深度神经网络的范式,所以也可以把第二次革命(LLM)降格为创新。但是,如果从第二次的感知飞跃到认知的角度,从第三次人类对齐(human alignment)赋能搞定人机接口、 摘取自然语言这颗人工智能的皇冠明珠的角度,三次革命论也站得住。也就是说AI最近10年间发生了三大技术革命,明显有加速度的态势,让人眼花缭乱。

这种发展速度已经酝酿了危机,因为人类实际上没有准备好应对以假乱真 真假莫辨的信息时代。AI 可以缓行,这并不是杞人忧天,可是,实际上谁也阻挡不住它的脚步和洗礼。

举两个例子。

这叫真假莫辨。懂行的朋友说里面九成为真,一成胡说 。

这说明假新闻现在可以零成本活灵活现编造出来。

人类社会如何应对 misinfo 的泛滥,目前还是个问号。

尼克:那天白老师的分享挺好。我在琢磨,1)如何看待现在。需要一套话语来总结chatGPT现在的功能,或者说科普,现在很多人说的都不太准确。2)同时也要理解ta的局限,有些局限可能可以从计算理论角度说明,做GPT的人也需要了解。3)chatGPT可以外挂别的功能,别的模块也可以外挂chatGPT当oracle来用。4)哲学上,chatGPT帮助更加接近清晰定义“理解”,我现在对Chinese Room,维特根斯坦后期哲学和老乔的立场又有些新思路。我在等GPT4.0出来在决定是否增补个《人工智能简史》第三版。

马少平:@Nick Zhang(尼克) 期待

白硕:互为外挂,精彩的点评。

尼克:哈哈,Schimdhuber对没给他发图灵奖很不满。前一阵写过一个很长的啰里啰唆的人工智能历史回顾。人工智能300年! 这个是改写的中文版,原文在这里。

鲁为民:这些可能说明人工智能是工程应用学科,没人管自己重新发明的工程技巧之前是否别人做过,谁最接近应用成功,Credit 就是谁的[Grin]

尼克:深度学习那次图灵奖,Hinton确实是值得的,但另外俩小孩确实有点那个啥。Schmidhuber可能想:我资历不必他们浅呐。。。总的来说,Hinton吃过苦,其他人都是赶上了。

马少平:我在写开篇时犹豫半天是否写Schmidhuber,最后还是加上了,从文字上看感觉前后不是太连贯,因为这段是后来增加的。

尼克:估计Schmidhuber以后再也没机会得大奖了,本着同情弱者的立场,还是应该写哈。

马少平:@Nick Zhang(尼克)那个神经网络先驱奖如何?以前不太知道,这次写东西查资料才看到。

尼克:那奖还不错,我印象那奖原来是Neural Networks Society的,后来不知为啥转到IEEE名下了。2010年前的得奖人,我都八过。基本是个安慰奖。刚设立时恰逢Hopfield革命。

刚看了下,第一届的得奖人中有Grossberg,《AI简史》第二版中给他留了一页篇幅。他1969年在MIT副教授后居然没有tenure,后来去了BU,他认为是Minsky在迫害他。

立委: @Nick Zhang(尼克) 无论gpt老四是个什么怪物 你的简史都必须更新版本 ,才跟得上时代。

尼克:“史”得稍微有点距离,要不成journalist了。

白硕:如果已经知道了独尊儒术,对诸子百家就是另一种写法了。

尼克:可不,历史就是 in between焚书坑儒 and 独尊儒术。

立委:那也是。

过去10年的黄金时代 让人眼花缭乱 但有些事可以盖棺论定的感觉。

尚未搞定的短板自然还在路上。我戏言过的 AI 裁为三截 一截馈符号 一截赠领域 一截还科学。

没有自然语言符号的原生数据这源源不断的燃料,llm 如何练成,成为多模态认知引擎。领域这一关必须过,看各路神仙今后五年吧。至于科学,不是说AI都是摸着石头过河,模型创新走马灯似的,有人说多是撞了狗屎运,以至于搞出的东西自己都没想到怎么那么牛。想不通又解释不了,就说“涌现”,上升到量变质变的玄学高度。

反正上帝这几年有些老糊涂了,动不动就泄露点天机,让知其然不知其所以然。天机之一就是自然语言并不是以前想象中的泰山压顶,不过就是认知海洋的一层波浪,模型一大就搞定了。搞定了语言,不过是间接搞定认知的20%左右吧,但却貌似可以对付80%的日常场景,让神迹尽意彰显。至于20%的笑话,也恰到好处,成为调料和谈资,既娱乐了大众,又鞭笞了工匠和科学家:继续内卷。

最近浏览多模态的一些工作,说音频视频方面的基础大模型正在重复 llm 的成功 ,说明 llm 的多任务零样本路线是ai的有普适意义的突破性方向。做音频视频的人,特别嫉妒自然语言的特性,觉得自然语言的 llm 条件太好了,不怪这场革命五年前首先发生在 nlp。第一是自然语言词汇符号的离散性和有限性,边界清晰,是嵌入向量的理想对象。第二是自然语言的结构性,以前被认为是线性模型的拦路虎,但在装备了多头注意力机制的深层llm中,也变成了理想的建模对象。于是 llm 轻松搞定了 有限的词汇表示无穷的变体这门人类绝活。

如果是上帝垂怜人类,为人类创造了语言符号系统作为交流工具和知识 containers,同样应该感谢上帝的语言符号创造,为AI的llm认知革命提供了理想的原材料或燃料。而音频视频这些连续模态,没法与 text 比出身,根不红苗不正,起点不一样,既不离散也没有语言那样的结构化。尽管如此,过去一两年他们还是在基础模型方面克服困难,进步很大。因为从数据学习概念,是铁律。

【相关】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

发布者

liweinlp

立委博士,计算语言学家,NLP资深架构师。问问副总裁,聚焦大模型及其应用。Trend 前首席科学家,前弘玑首席科学家,前讯飞AI研究院副院长,前京东主任科学家。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 大数据,语义落地到舆情挖掘和问答产品。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据