《谈两种复杂度》短视频科普

我是AIGC频道数字主播小雅,今天播报的立委两分钟的题目是“两种复杂度”。
我们要区分两种"复杂度"。一种是 Kolmogorov 复杂度(K氏复杂度),它指的是描述一个对象所需的最短指令的长度。另一种是模型复杂度,它指的是机器学习模型本身的参数数量或者灵活性(模型的大小)。
当我们说数据的最简洁表示就是 K氏复杂度时,我们指的是第一种复杂度。K氏复杂度衡量的是数据的内在信息量(类似于以前所说的深层结构、语义表示),并非数据的表面形式。比如,一个看似随机的字符串,如果它实际上是由一个简单的程序生成的,那么它的 K氏复杂度就很低。换句话说,K氏复杂度反映的是数据的规律性和可压缩性。
当一个机器学习模型的参数过多,灵活性过高时,它可能会过度拟合训练数据中的噪声,导致在新数据上的泛化能力下降。这时我们说模型过于"复杂",需要通过缩小模型的规模或使用正则化等技术来限制其复杂度。
一个好的无监督学习模型应该能学习到接近数据的 K氏复杂度的表示(所谓无损压缩的理想)。也就是说,模型应该能抓住数据的内在规律,用尽量简洁的方式来表示数据,而不是简单地记住数据的表面形式。
这一点为什么重要?
换句话说,不懈追求无损压缩的理想为什么是获得智能的关键?
信息的无损压缩(注意不是指传统的表层模态形式的无损压缩,例如音乐的无损压缩只是形式的无损压缩,与这里讲的信息内容的无损压缩不同)以达到K氏复杂度为天花板。换句话说,任何数据对象的K氏复杂度等于是该对象的深层语义。在深层语义的层面,不同数据的相同的语义就可以自然对齐,从而帮助实现不同数据的相互转换。这是对作为压缩器的大模型能够完成任何端到端AI任务(即逼近任何函数)的信息论意义上的解释。
形式之间的转换作为智能任务,无论是机器翻译,还是文生图,图生图,文生音乐,文生视频,图生视频,看图说话,等等,都有一个预设。那就是输入和输出具有类似的意义,即有可以相通或对齐的K氏复杂度。
完全不相干的形式无法转换和映射,也就不会具有相同的K氏复杂度。例如心电图与交响乐,就不兼容。它们各自的K氏复杂度对于对方等同于随机噪音,没有 shared 信息可以作为映射的依据。当我们说大模型像个魔术师,可以把任何形式转换成任何其他形式。其实里面蕴含了一个前提,就是转换的形式之间有可以对齐或意义兼容的 shared 深层结构,在意义空间它们是可以相互关联的。这个预设通常不需要特别明示,因为这是不言而喻的,而且在实际的AI应用中,人类想要模型帮助达成的某个智能任务,会自然而然遵循这个预设。否则,那个胡乱转换的智能任务指令就是一个不可理解的目标。人类自己都不理解目标是什么的话,也就谈不上是个正经的“任务”,也无法给出达成目标的任何黄金标准。
当通用大模型把 input pattern 和 output pattern 都能压缩得很好的话,二者在意义空间的对应关系就剩下一层窗户纸了。大模型在多语言机器翻译上的成功是上述解说的最典型的显现。
对于一个数据集C做压缩,目标当然是C的K氏复杂度,模型F的复杂度必须恰到好处,F不能太大,也不能太小。太大,譬如 模型规模大于数据集,就 overfitting,就无法逼近K氏复杂度。太小,模型“吃不下”数据,也不能做到好的压缩。scaling law 虽然是个经验法则,但理论规定了大模型与大数据之间适配边界,具体的适配比例,决定于实际效果的实验。
我是小雅,每次两分钟,分享立委先生对于AI大模型的有角度的思考。谢谢聆听,咱们下次再见。

 

【相关】

 

《介绍监督学习的数学原理》短视频科普

9.46 [email protected] 09/17 mQK:/ 科普 # aigc https://v.douyin.com/ijouUSBq/ 复制此链接,打开Dou音搜索,直接观看视频!

https://v.douyin.com/ijouUSBq/

我是AI大模型频道小雅,今天播报立委先生的短评《介绍监督学习的数学原理》。
Open AI 前灵魂人物伊利亚曾经在伯克利给了一个 talk。这是注定载入史册的一次演讲,阐释非监督学习的GPT突破原理。这个演讲的开头部分讲的是监督学习(supervised learning)的数学原理。咱们今天先从这个比较容易的知识点开始讲起。
说的是数据大模型大就是模型强的道理。暴力美学,美就美在,大即是美。插一句,这与唐代的审美观貌似相若:肥即是美?嘿嘿...
说监督学习的数学保证,意思是,足够大的数据,足够多的参数,就会有足够高的精度。伊利亚为了怕“过拟合”(overfitting),特别强调了 数据规模必须大于模型规模这个业内常识。“过拟合”的时候,训练误差虽然小,但测试误差降不下来。如果要让训练误差反映模型的实际能力(即测试误差),这是一个必要条件。否则,模型根本就不用做真正的抽象或“压缩”,不去找规律,它就全部死记硬背了。我们知道死记硬背的模型,缺乏泛化能力。它在训练集上可以考高分,但到了盲测的时候就抓瞎了,模型的质量得不到保证。所以给出的原理公式里面必然有模型大小这个变量,事实上这是一个决定性因素。数据量的增长会导致偏差指数级下降,保障模型质量的持续上升。
伊利亚说监督学习没有问题,有理论上的保证。所谓理论就是那个统计学习的Hoeffding 不等式,说的是,随着训练样本数量增加,测试偏差超过一定阈值的概率会呈指数级下降。其主要含义是:当训练数据足够大,训练误差足够低,且训练数据远大于模型规模的时候,模型的泛化能力和精度是有保证的,这就是监督学习能够起作用的理论基础。
这个其实我们早就知道了,第一,宏观上和理论上,“万能近似定理”(UUniversal Approaximation Theorem)早已论证了深层神经网络可以逼近任意函数。这其实是 scaling law 的源泉。第二,当代 AI 历史上,12年前的深度学习革命就开始证明,只要有足够带标数据,神经网络就可以让“老母鸡变鸭”,或做任何其他变换。
但具体说来,为什么大模型一直强调“大”呢(模型大就是模型参数多),但现在似乎又在强调不能太大?那是因为数据超大的时候,模型不大,就消化不了。前大模型时代的传统机器学习就有这个问题。传统机器学习算法总体而论复杂度不够,模型过小,你给再多的数据也没用,它肚子小,吃不下,质量很容易达到一个点就基本 stuck there 了。深层的神经网络在原理上解决了这个问题,你总可以根据你的数据来决定需要多大多深的网络来适配才最佳。这是大模型之所以要大的一面。但也不能太大,要与数据规模拉开距离。换句话说,大数据必须大于大模型,这才是 scaling 的有效适配。
ChatGPT 出来的时候,模型参数与模型数据是一个量级的,其实现在看来是某种过拟合了。GPT4 超过 ChatGPT3.5 的一个很大的原因,可能就是因为调整了这个比例。
我是小雅,上面分享的是立委先生每次几分钟关于大模型的有角度的思考,希望对您有启发,咱们下次再见。

【相关】

《谈谈端到端和大模型》短视频科普

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端》。

端到端(end to end)的扬名天下是伴随深度学习革命而来。那是十多年前的时候,那时候大模型还没有诞生,但深层神经网络已经革命了,表现在解决了端到端的监督学习(supervised learning)的问题。这一波监督学习的大革命横扫了图像、语音与机器翻译。但在多数NLP任务上遭遇了瓶颈。
就是说,可以把深度学习看成一个黑盒子,任何AI智能定义都可以在这个盒子的两端定义输入和输出。解决了监督学习指的是,只要有足够大的输入和输出的对齐数据,即所谓带标数据(labeled data),深层神经网络就可以搞定它。这与前深度学习时代不同,以前的传统机器学习算法是搞不定的,即便有海量的对齐数据,因为学到了某点就 stuck there,不像深层神经那样的大肚子有消化力。深度学习可以搞定,背后有著名的万能近似定理,意思是,只要数据足够大,模型参数足够多,多层神经网络的精度理论上可以持续提升。

但是在大模型(LLM,Large Language Model)出现之前,只有监督学习搞定了端到端定义的任何AI任务,而缺乏带标数据的非监督学习还是搞不定。多数NLP任务,例如信息抽取、问答等都属于此类,这就是所谓带标数据的NLP知识瓶颈。

基于transformer架构的大模型的出现,尤其是 GPT的 next token prediction 的自回归学习突破了这个知识瓶颈。从此,非监督学习也可以搞定端到端定义的AI任务了,横扫了NLP各个任务,包括机器翻译、文摘、问答、聊天、辅助写作等。近几个月,多模态数据加入了大模型以后,同样的架构和原理也基本搞定了文生图、图生图、文生音乐、看图说话、文生视频、图生视频,等等等等。

基本上,对于一个多模态大一统的大模型,只要有足够的多模态的原始数据,任何模态理论上可以转换成任何其他模态。端到端于是成为大模型在大数据上完成各种AI的一个最典型的任务定义方式。

这是怎么搞定的呢?背后的理论是 K氏复杂性定理(Komogorov complexity),又叫所罗门诺夫归纳法(Solomonoff induction),伊利亚的伯克利讲演通篇就是在说这个道理:非监督学习,与监督学习一样,可以搞定任何端到端的智能任务。如果有足够的(不需要标注的)原生数据(raw corpora)的话,GPT 可以自动去做对齐,最多是加上一层薄薄的少样本(few shots)的模型微调来触发这种对齐。

总结一下,端到端是定义AI任务的万能范式。深层神经网络在足够大的数据支持下可以搞定端到端的任务。具体说,监督学习需要足够的带标数据支持,非监督学习需要足够的原生数据支持。大模型属于非监督学习搞定AI的最新主流。这是因为原生数据可以真正规模化,非监督学习(其实是“自监督”学习)自然唱起了主角。

我是小雅,上面分享的是立委先生每次两分钟的有角度的思考,希望对您有启发,咱们下次再见。

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端 第二部分》。

接着上次的话题深入谈谈端到端与大模型的关系。

声称大模型是通向通用人工智能(A-G-I)最靠谱的道路,里面有个预设。预设是 A-G-I 是可以端到端定义完备的,如果有人能指出人类智能的一些东西是无法用端到端数据来定义,譬如 灵感、爱情、自我意识等。那么我们起码可以得出结论: 大模型走出来的AGI 是不完备的,有某种异于人类智能的根本缺陷。

但其实,做这样的挑战也不容易,因为你可以 argue 智能 x(例如灵感、意识、爱情)不能用端到端数据来表示,但你必须用其他方式给x做一个形式化的清晰定义,否则就难免玩弄概念之嫌。你的智能x需要具有可证伪性,而不是张口一说,宣称一下此乃人类专属,机器模型无从染指。有谁清晰定义清楚过非端到端的x吗?

也许限于孤陋寡闻,我没看到。谈人类智能的不少吧,但具有可证伪性的智能定义,除去端到端数据的方式的,还有哪些?

这是从任务角度看 end to end : 如前所述,它实际上成为智能任务定义的通用范式。

从系统的内部构造与实现智能任务的角度看,端到端模型是与 pipeline 的显式模块化模型相对照的,这是多数人理解的端到端系统,近义词就是“黑盒子”。

pipeline系统与端到端系统不同,pipeline内部的模态之间有可以清晰定义的中间结果作为连接模块之间的接口纽带,可以透明化做内部模块的测试,而大模型 或 多层神经网络 的系统,则难以清晰定义内部的接口。例如大模型里面的前馈多层网络看上去也是一个内部的 pipeline,但层与层之间是很难定义清楚接口的,最多是个模糊的大概。例如,原则上我们知道,后层的网络比前层的网络具有更抽象的意义或结构表示。不过这通常并不影响我们达成我们的端到端定义的任务目标,只是可解释性和定点纠错的能力确实不如透明的符号逻辑的pipeline系统。

无论大模型,还是传统机器学习,还是老古董的符号逻辑系统,都可以在通用的端到端数据集定义的任务上,一比高下。数据集一分为二, 一部分做训练集或开发集,另一部分做盲测集。历史选择的结果是,可以利用超出训练集外的原生大数据的大模型是压倒性的。这里面的奥秘值得写一篇专门的文章去进一步阐释、解说,迄今科学传播在揭示大模型奥秘上做得还很不够。

老友问:这里有个问题,为什么要把自学习归类为非监督的学习?NTP不是明显的监督学习么,每次都在用NT作为答案去降低loss。只不过这种监督数据比较特殊,是人类的一种活动中自然而然的留下了,不需要额外标注。

这是个非常好的问题。其实非监督学习有两个定义,一个是用否人工标注数据作为监督和非监督的分界 。另一个是用学习的目标函数来定义:有绝对黄金标准的学习是监督学习,反之是非监督学习,后者的一个典型任务是所谓聚类(clustering)。clustering 与 classification 最大的区别是前者无监督,结果没有预定,而后者是先有 labels 然后去分类。

这个话题值得深究。从学习的机理上看,“自监督学习”(即,自学习)本质上也是一种监督学习。自学习大模型的成功,实际上在深度学习革命搞定监督学习的那一天就注定了自己的宿命或使命,深层神经网络是天选,是有通用近似定理保障的“天机”。只不过,理解这一点需要对黄金标准做一个拓展。自学习实际上是监督学习与非监督学习的某种结合。

第一,自学习是自己给自己做标准,属于所谓回归类训练,只有正例,没有负例,这一点是非监督学习的特征。自学习是回归类预测模型,这与典型的clustering是一致的:就是说,在学习之前,并不存在一个固定的黄金标准。

第二,在自学习 利用了而且最大化了监督学习的无限逼近的能力方面,也就是在遵循了万能近似定理所决定的规模化法则(scaling law)方面,在实现层面,一线研发人员发明了一个技巧,所谓“掩码”,就是遮住部分字符让系统去猜谜,类似于填字游戏或接龙游戏。这样就把没有labels的自学习,转换成了有目标的监督学习范式。

著名的下一词预测(ntp)的自回归接龙式训练,是掩码学习的最成功的范例,成就了GPT的主流霸主地位。这里面的奥秘就是所谓K氏复杂性理论,可以视为万能近似定理的一个细化版本,为解决非监督学习的通用大模型搞定端到端任务提供了理论基础。
上面的说法搞不懂也没关系,本来就不是很好理解的理论。但结果是很明显的,人类只要说话或写文章,就是在给大模型做标注。自学习突破了人工标注的知识瓶颈,把组织化的人工劳动改变为 自然产生的原生数据。这一优势怎么强调也不过分,算是“免费午餐”的极致,“顺风车”的天花板,非监督学习通向监督学习的桥梁。做到这一点的前提是模型的通用化(所谓“预训练“)以及定向任务通过微调的零样本化。关于少样本实现零样本的微调(fine tune)这个大模型的知识点,以前多次提过,也有很多人做过解说,此处不赘。

总之,哇塞,跨模态大模型的奇迹就这样诞生了。跨模态大模型的自学习的养料或饲料,已经不仅是人类说话、写文章了,人类的一切自然表现的智能活动,无论画画、配词、作曲、导演、编辑等等,它们所产生的数据都是自学习的饲料。不仅如此,现在已经发展到非人类的产出,由模型再生的数据,也可以反哺给自学习来自提升。

我是小雅,上面分享的是立委先生每次几分钟的有角度的思考,希望对您有启发,咱们下次再见。

 

 

【相关】

Suno prompt engineering tips

 

chinese traditional folk

chinese traditional folk, slow, Ethereal, angelic voice, zheng

Chinese Folk. Percussive. Beat Drop. slow. guzheng

chinese folk. Inspired Pop Ballad. Clear Voice, Moderate tempo

chinese traditional folk, slow, Ethereal, angelic voice, zheng

 

 

 

 

Chinese Folk. Dark Pop. Percussive. Beat Drop

Chinese Folk. Pop Rock. Percussive. Beat Drop. guzheng

chineses Folk. Cinematic Rock. Epic

 

 

国语 playlists:

https://suno.com/playlist/945eb006-705b-4a74-a5b4-5d8e4afc4fad