【立委按】强力推荐NLP顶级权威,斯坦福Chris Manning教授论大模型,非常好的 review。曼宁教授深厚的计算语言学学识反映在他的综述和展望中,具有历史厚度和语言本质的理解深度。最后的那个点也很好:当前的一锅煮的超大模型实际上是一个可行性研究,已经初见成效;将来的大规模的领域场景应用,会召唤相对来说小一些但更加领域数据密集和纯化的基础模型,可以展望其革命性前景。至于这算不算 通用人工智能(AGI),曼宁说的也很有分寸:看上去算是在通向 AGI 的路上。短板主要是 semantics 还不够直接面向真实世界,而是源自符号世界、囿于符号世界(所谓 distributional semantics),等于是绕了一个弯儿,语义的深度以及语义结构本身就显得扁平、太浅,难以消化人类深厚的知识积淀。但即便如此,也堪称一个伟大征程的坚实脚步,是激动人心的NLP新时代。从分布角度看意义,如果说人是社会关系的总和(马克思),那么也可以说,语词基本上是语词间篇章关系的总和。很多年来,我们NLP践行者一直挣扎在如何把上下文合适的模型化,因为语言符号的歧义和微妙很大程度上可以在上下文中予以消解。上下文最直接有效的对象就是篇章(discourse),而恰恰在这一点,深度学习注意力机制为基础的大模型展示了其几乎神奇的表示能力。
AI 群里相关讨论很有意思,实录如下。
刘群:同意@wei,深度学习和预训练方法取得的进步非常惊人,超出想象。原来感觉不可解的一些问题,现在似乎都看到了曙光,解决路径隐隐约约能看到了。虽然对AGI仍然质疑,但对这个领域的前景真是非常看好。
算文解字:是的 同一个模型prompt一下就能完成各种nlp任务 就算不是agi 也是更g的ai了。而且即使是从denotational semanrics的角度看,加入多模态的预训练模型也算是部分和间接的grounding到真实世界了的物体了。
刘群:是的,原来觉得一般意义上的grounding几乎不可能,除非是特定领域。现在看越来越可能了。
立委:感觉上,意义表示(A)落地到客观世界(B)可以看成是人类与生俱来的本能,不需要特别的模型化,如果A本身比较充分的话。 那么这个 A 是个什么东西呢?A 可以看成是一个平面的表示,其中 X 轴就是篇章,而 Y 就是隐藏在文本之后人类知识,包括本体知识(ontology),带有语用(pragmatics)因素的世界知识及其推理体系。
目前的大模型的长处是 X 模型化,短处依然在 Y 不足。因此虽然从分布角度貌似也总结出了一些常识,以及浅层的推理能力,但这些能力还没有足够的深度和逻辑性,缺乏推理的链条性和一致性。【编者按:这是在 ChatGPT 和 GPT4 之前的议论,现在看来思维链和逻辑推理在LLM后续发展中已经大有进步,虽然知识的厚度和复杂推理依然是LLM的短板。】
符号知识图谱以及人类探索积累下来的本体知识库、领域知识库,这些东西都是非常浓缩的、高度结构化的知识体系,本质上具有严谨的逻辑性和推理能力。分布式序列学习学到了这些知识的皮毛,但总体上,对于这些知识精华还很陌生, 难以系统性直接兼容并蓄。
刘群:当然离解决这些问题还远,只是说能看到曙光了。以前感觉根本没希望。虽然还不怎么样,但不是没希望。日拱一卒。
算文解字:还有这两年出现的基于预训练模型的常识推理(如Yejin Choi组的工作)也让人眼前一亮。即使五年前还是,说研究常识(common sense)一般反应都是敬而远之。
立委:大数据为基础的序列学习可以反映相当多的常识,这个是没有疑问的。我们在本群中讨论过很多这类案例:所谓大数据支持的“相谐”性,其实与常识中的特征匹配,吻合度很高。
刘群:把符号融入到神经网络里面不是解决这个问题的正确方法,还是分阶段处理,来回迭代才是正途。
立委:方法论上也许的确如此,但直觉上是一种知识浪费。就是说,从DL外行的角度来看,明明人类已经世代努力提炼了精华,都规整得清清楚楚,可模型就是没法利用。一切必须从头开始,让人着急。
刘群:我说的来回迭代不是人机交互,是符号和神经来回迭代,可以自动化的。
立委:哦,那就是我希望看到的深度耦合/融合。这种融合是革命性的方向,有望发生新的AI突破与下一代的范式转变。但不久前,还普遍被认为是一种乌托邦,觉得符号和神经,就跟林黛玉与焦大似的,打死也不兼容。
算文解字:刘老师,这个方向上近期有哪些比较亮眼的工作呀?
刘群:WebGPT, AlphaCode等,还有周志华老师反绎学习的工作。
算文解字:恩恩,的确 WebGPT 这种都可以看做是大模型和离散/黑盒系统(可以是规则)交互迭代的方案。
立委:前面提到,对于大数据,人比起机器,有时候好像蚂蚁比大象。有老友不满了,说不要这样说,这是“物种”歧视。其实,很多事儿,人比起机器,还不如蚂蚁比大象……
1. 计算;2. 存贮/记忆;3. 下棋;4. 知识问答; 5. 翻译; 6. 做对联; 7. 格律诗; 8. ………。可以预见的未来清单还很长很长(自动驾驶、自动咨询、自动陪护、自动培训、自动写作、自动音乐、自动绘画 ………..), 都不是人力遥不可及的。事实在那里摆着。不服不行。
回顾历史,人类第一个被蒙圈的就是计算。以前的那些心算大师,算盘顶级快手,现在很少有宣传了,因为干不过一个小小的计算器。紧接着是存贮量和记忆力。当年我们最崇敬的人物就有不少是过目不忘,博闻强记的大师们。社科院流传着很多大师的传奇故事,都是能记住非常细节的东西,可以在记忆的大海捞针。现如今,谁敢说任何大师记忆的信息量能比过一个U盘。哪个大师还能在谷歌百度面前夸口自己的大海捞针的信息检索能力?
下棋不用说了,电脑完胜,两次载入计算机历史的里程碑。知识问答也进入了计算机历史博物馆,IBM 沃伦的高光时刻。机器翻译我一直在用,我本人就是机器翻译出身的,目前的翻译水平高过普通人类翻译毫无悬念,注意:不是指速度。对联、写诗 也有过大赛。自己试试就知道了:你可以尝试在家苦学格律诗n年,然后即兴写诗,与机器比试比试?
面对超大数据的基础模型,人类脑壳里的“小”只会越越来露怯,想藏拙也藏不住了。当然,严格说来这不是一场完全公平的实体之间的比试。一边是单个实体的人(例如世界围棋冠军),另一边是消化了人类整体知识积淀的实体机器人。好比一人对无数人,自然是蚂蚁遇上了大象。但是,另一方面看,每个碳基生物的人也在不断学习人类的知识才能成为专家或冠军,并非一张白纸。关键在于学习能力,碳基实体无法与硅基实体的电脑比试自动学习的能力,因为后者占尽了时间(速度)与空间(存贮)的优势。超人的出现不会是人,而是机器人,这应该是用不了50年就可以做实的现实。
新摇滚歌手汪峰曾经唱到:我该如何存在?
面对汹涌而来的大数据大模型,人类准备好了吗?
与曼宁教授合影(2017-07-18)
Chris 的这篇综述对于NLP意义重大,值得反复研读。文章也很好读,写得清晰简练。里面有一个有意思的观点,值得特别介绍。曼宁试图重新做NLP历史划分,从而突出自学习革命的分水岭作用:
In hindsight, the development of large-scale self-supervised learning approaches may well be viewed as the fundamental change, and the third era might be extended until 2017.
我们知道,过去30多年经验主义AI成为主流以来,常规的AI时代划分都是:第三代是传统的机器学习;第四代是深度学习,分水岭在 2013 年( ImageNet 上那次深度神经网络CNN的爆炸性突破)。
但是从NLP角度,2013-2017 这四五年,深度学习虽然横扫了图像和语音,但在 NLP 本身却遭遇挑战,没有真正的突破,根本原因还是因为NLP监督学习依赖太多的标注数据,这一点与AI第三代没有区别,甚至依赖性更强(数据上不来,神经的表现还不如传统的统计模型)。因此虽然 AI 整体的时代分水岭是 2013,NLP 作为认知智能的拦路虎却应该把里程碑推迟到 2018年。
2018年是自学习预训练大模型(LLM)元年。NLP终于摆脱了标注数据的桎梏,可以直接从语言学习语言,开始利用无穷无尽的自然语言原生数据。从研究角度看,曼宁显然认为这才是NLP范式转变的开始。这个历史观点我认为是站得住脚的,是个有洞见的划分。无论如何,没有自学习谈不上NLP的革命。这是这篇文章的主旨。
但如果细究,自学习 LLM(其实很长时间都是一直叫预训练,好像是 Yann Lecun 开始不断改用 self-supervised learning 才慢慢普及开来,目前的趋向是逐渐过渡到基础模型的说法)其实并没有真正从监督学习走向人们曾经向往的完全无监督学习。因为算法上,预训练大模型本质上还是“监督”学习,只是规模超大的自监督,因为数据超大而已。
这一切尝试本来也可能并不会引发一场可以认为是革命的事件。因为超大规模的模型本性上肯定是简单的,一开始就是做 next word 的预测,或者只是做填空猜字的游戏。谁也没想到这种看上去非常简单的模型居然有能力加强NLP任务的方方面面,甚至影响超越NLP,使得类似框架反过来延伸到多模态符号(图像、语音)上,一样可以循例建立基础模型赋能各自的AI任务。
虽然从小就被马克思辩证法教育,量变引起质变默念在心,其实心底一直没有真地(被)信服:大号的 X 还是 X,怎么就变成 Y 了呢。但是,到了自学习超大模型(BERT,GPT-3等)这里,我们确实见证了这种神奇的多任务效应。
当然,从 2018 年到现在,这场NLP革命也还只是处于初级阶段,等于是完成了可行性研究,NLP大模型在各场景全面开花结果还有很长的路要走。我以前觉得5年可见分晓。曼宁说的是今后10年是NLP革命最激动人心的时代。越来越多的资源和人才开始向这里聚集。
这个其实颇有争议。有不少人不以为然,认为这是高估了自学习大模型的作用,预见在领域普及化的过程中会遭遇困难,甚至滑铁卢。因为自学习模型在知识表示的层次性、一致性和完整性方面显然有严重缺陷,而且缺乏所谓“真正的”理解,虽然可行性研究展示了一些貌似非常理解非常智能的表现。这一观点也不无道理。是不是一场真正的NLP规模化落地的革命,5-10年后回看才能真正裁决。
马少平老师说:“打个比喻,大模型还只是地心说,虽然能解决一些问题,但还远没有到达日心说呢。” 说得有理,可能还要经过几次螺旋式上升,才能更加逼近通用的NLP和AI吧。但另一方面看,如果没有自学习的出现,NLP 就一直是个累赘,可现在转而成为 AI 的急先锋了。
【相关】
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)
预告:李维等 《知识图谱:演进、技术和实践》(机械工业出版社 2022)