《谈谈端到端和大模型》短视频科普

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端》。

端到端(end to end)的扬名天下是伴随深度学习革命而来。那是十多年前的时候,那时候大模型还没有诞生,但深层神经网络已经革命了,表现在解决了端到端的监督学习(supervised learning)的问题。这一波监督学习的大革命横扫了图像、语音与机器翻译。但在多数NLP任务上遭遇了瓶颈。
就是说,可以把深度学习看成一个黑盒子,任何AI智能定义都可以在这个盒子的两端定义输入和输出。解决了监督学习指的是,只要有足够大的输入和输出的对齐数据,即所谓带标数据(labeled data),深层神经网络就可以搞定它。这与前深度学习时代不同,以前的传统机器学习算法是搞不定的,即便有海量的对齐数据,因为学到了某点就 stuck there,不像深层神经那样的大肚子有消化力。深度学习可以搞定,背后有著名的万能近似定理,意思是,只要数据足够大,模型参数足够多,多层神经网络的精度理论上可以持续提升。

但是在大模型(LLM,Large Language Model)出现之前,只有监督学习搞定了端到端定义的任何AI任务,而缺乏带标数据的非监督学习还是搞不定。多数NLP任务,例如信息抽取、问答等都属于此类,这就是所谓带标数据的NLP知识瓶颈。

基于transformer架构的大模型的出现,尤其是 GPT的 next token prediction 的自回归学习突破了这个知识瓶颈。从此,非监督学习也可以搞定端到端定义的AI任务了,横扫了NLP各个任务,包括机器翻译、文摘、问答、聊天、辅助写作等。近几个月,多模态数据加入了大模型以后,同样的架构和原理也基本搞定了文生图、图生图、文生音乐、看图说话、文生视频、图生视频,等等等等。

基本上,对于一个多模态大一统的大模型,只要有足够的多模态的原始数据,任何模态理论上可以转换成任何其他模态。端到端于是成为大模型在大数据上完成各种AI的一个最典型的任务定义方式。

这是怎么搞定的呢?背后的理论是 K氏复杂性定理(Komogorov complexity),又叫所罗门诺夫归纳法(Solomonoff induction),伊利亚的伯克利讲演通篇就是在说这个道理:非监督学习,与监督学习一样,可以搞定任何端到端的智能任务。如果有足够的(不需要标注的)原生数据(raw corpora)的话,GPT 可以自动去做对齐,最多是加上一层薄薄的少样本(few shots)的模型微调来触发这种对齐。

总结一下,端到端是定义AI任务的万能范式。深层神经网络在足够大的数据支持下可以搞定端到端的任务。具体说,监督学习需要足够的带标数据支持,非监督学习需要足够的原生数据支持。大模型属于非监督学习搞定AI的最新主流。这是因为原生数据可以真正规模化,非监督学习(其实是“自监督”学习)自然唱起了主角。

我是小雅,上面分享的是立委先生每次两分钟的有角度的思考,希望对您有启发,咱们下次再见。

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端 第二部分》。

接着上次的话题深入谈谈端到端与大模型的关系。

声称大模型是通向通用人工智能(A-G-I)最靠谱的道路,里面有个预设。预设是 A-G-I 是可以端到端定义完备的,如果有人能指出人类智能的一些东西是无法用端到端数据来定义,譬如 灵感、爱情、自我意识等。那么我们起码可以得出结论: 大模型走出来的AGI 是不完备的,有某种异于人类智能的根本缺陷。

但其实,做这样的挑战也不容易,因为你可以 argue 智能 x(例如灵感、意识、爱情)不能用端到端数据来表示,但你必须用其他方式给x做一个形式化的清晰定义,否则就难免玩弄概念之嫌。你的智能x需要具有可证伪性,而不是张口一说,宣称一下此乃人类专属,机器模型无从染指。有谁清晰定义清楚过非端到端的x吗?

也许限于孤陋寡闻,我没看到。谈人类智能的不少吧,但具有可证伪性的智能定义,除去端到端数据的方式的,还有哪些?

这是从任务角度看 end to end : 如前所述,它实际上成为智能任务定义的通用范式。

从系统的内部构造与实现智能任务的角度看,端到端模型是与 pipeline 的显式模块化模型相对照的,这是多数人理解的端到端系统,近义词就是“黑盒子”。

pipeline系统与端到端系统不同,pipeline内部的模态之间有可以清晰定义的中间结果作为连接模块之间的接口纽带,可以透明化做内部模块的测试,而大模型 或 多层神经网络 的系统,则难以清晰定义内部的接口。例如大模型里面的前馈多层网络看上去也是一个内部的 pipeline,但层与层之间是很难定义清楚接口的,最多是个模糊的大概。例如,原则上我们知道,后层的网络比前层的网络具有更抽象的意义或结构表示。不过这通常并不影响我们达成我们的端到端定义的任务目标,只是可解释性和定点纠错的能力确实不如透明的符号逻辑的pipeline系统。

无论大模型,还是传统机器学习,还是老古董的符号逻辑系统,都可以在通用的端到端数据集定义的任务上,一比高下。数据集一分为二, 一部分做训练集或开发集,另一部分做盲测集。历史选择的结果是,可以利用超出训练集外的原生大数据的大模型是压倒性的。这里面的奥秘值得写一篇专门的文章去进一步阐释、解说,迄今科学传播在揭示大模型奥秘上做得还很不够。

老友问:这里有个问题,为什么要把自学习归类为非监督的学习?NTP不是明显的监督学习么,每次都在用NT作为答案去降低loss。只不过这种监督数据比较特殊,是人类的一种活动中自然而然的留下了,不需要额外标注。

这是个非常好的问题。其实非监督学习有两个定义,一个是用否人工标注数据作为监督和非监督的分界 。另一个是用学习的目标函数来定义:有绝对黄金标准的学习是监督学习,反之是非监督学习,后者的一个典型任务是所谓聚类(clustering)。clustering 与 classification 最大的区别是前者无监督,结果没有预定,而后者是先有 labels 然后去分类。

这个话题值得深究。从学习的机理上看,“自监督学习”(即,自学习)本质上也是一种监督学习。自学习大模型的成功,实际上在深度学习革命搞定监督学习的那一天就注定了自己的宿命或使命,深层神经网络是天选,是有通用近似定理保障的“天机”。只不过,理解这一点需要对黄金标准做一个拓展。自学习实际上是监督学习与非监督学习的某种结合。

第一,自学习是自己给自己做标准,属于所谓回归类训练,只有正例,没有负例,这一点是非监督学习的特征。自学习是回归类预测模型,这与典型的clustering是一致的:就是说,在学习之前,并不存在一个固定的黄金标准。

第二,在自学习 利用了而且最大化了监督学习的无限逼近的能力方面,也就是在遵循了万能近似定理所决定的规模化法则(scaling law)方面,在实现层面,一线研发人员发明了一个技巧,所谓“掩码”,就是遮住部分字符让系统去猜谜,类似于填字游戏或接龙游戏。这样就把没有labels的自学习,转换成了有目标的监督学习范式。

著名的下一词预测(ntp)的自回归接龙式训练,是掩码学习的最成功的范例,成就了GPT的主流霸主地位。这里面的奥秘就是所谓K氏复杂性理论,可以视为万能近似定理的一个细化版本,为解决非监督学习的通用大模型搞定端到端任务提供了理论基础。
上面的说法搞不懂也没关系,本来就不是很好理解的理论。但结果是很明显的,人类只要说话或写文章,就是在给大模型做标注。自学习突破了人工标注的知识瓶颈,把组织化的人工劳动改变为 自然产生的原生数据。这一优势怎么强调也不过分,算是“免费午餐”的极致,“顺风车”的天花板,非监督学习通向监督学习的桥梁。做到这一点的前提是模型的通用化(所谓“预训练“)以及定向任务通过微调的零样本化。关于少样本实现零样本的微调(fine tune)这个大模型的知识点,以前多次提过,也有很多人做过解说,此处不赘。

总之,哇塞,跨模态大模型的奇迹就这样诞生了。跨模态大模型的自学习的养料或饲料,已经不仅是人类说话、写文章了,人类的一切自然表现的智能活动,无论画画、配词、作曲、导演、编辑等等,它们所产生的数据都是自学习的饲料。不仅如此,现在已经发展到非人类的产出,由模型再生的数据,也可以反哺给自学习来自提升。

我是小雅,上面分享的是立委先生每次几分钟的有角度的思考,希望对您有启发,咱们下次再见。

 

 

【相关】

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据