《介绍监督学习的数学原理》短视频科普

9.46 [email protected] 09/17 mQK:/ 科普 # aigc https://v.douyin.com/ijouUSBq/ 复制此链接，打开Dou音搜索，直接观看视频！

https://v.douyin.com/ijouUSBq/

我是AI大模型频道小雅，今天播报立委先生的短评《介绍监督学习的数学原理》。
Open AI 前灵魂人物伊利亚曾经在伯克利给了一个 talk。这是注定载入史册的一次演讲，阐释非监督学习的GPT突破原理。这个演讲的开头部分讲的是监督学习（supervised learning）的数学原理。咱们今天先从这个比较容易的知识点开始讲起。
说的是数据大模型大就是模型强的道理。暴力美学，美就美在，大即是美。插一句，这与唐代的审美观貌似相若：肥即是美？嘿嘿...
说监督学习的数学保证，意思是，足够大的数据，足够多的参数，就会有足够高的精度。伊利亚为了怕“过拟合”（overfitting），特别强调了数据规模必须大于模型规模这个业内常识。“过拟合”的时候，训练误差虽然小，但测试误差降不下来。如果要让训练误差反映模型的实际能力（即测试误差），这是一个必要条件。否则，模型根本就不用做真正的抽象或“压缩”，不去找规律，它就全部死记硬背了。我们知道死记硬背的模型，缺乏泛化能力。它在训练集上可以考高分，但到了盲测的时候就抓瞎了，模型的质量得不到保证。所以给出的原理公式里面必然有模型大小这个变量，事实上这是一个决定性因素。数据量的增长会导致偏差指数级下降，保障模型质量的持续上升。
伊利亚说监督学习没有问题，有理论上的保证。所谓理论就是那个统计学习的Hoeffding 不等式，说的是，随着训练样本数量增加，测试偏差超过一定阈值的概率会呈指数级下降。其主要含义是：当训练数据足够大，训练误差足够低，且训练数据远大于模型规模的时候，模型的泛化能力和精度是有保证的，这就是监督学习能够起作用的理论基础。
这个其实我们早就知道了，第一，宏观上和理论上，“万能近似定理”（UUniversal Approaximation Theorem）早已论证了深层神经网络可以逼近任意函数。这其实是 scaling law 的源泉。第二，当代 AI 历史上，12年前的深度学习革命就开始证明，只要有足够带标数据，神经网络就可以让“老母鸡变鸭”，或做任何其他变换。
但具体说来，为什么大模型一直强调“大”呢（模型大就是模型参数多），但现在似乎又在强调不能太大？那是因为数据超大的时候，模型不大，就消化不了。前大模型时代的传统机器学习就有这个问题。传统机器学习算法总体而论复杂度不够，模型过小，你给再多的数据也没用，它肚子小，吃不下，质量很容易达到一个点就基本 stuck there 了。深层的神经网络在原理上解决了这个问题，你总可以根据你的数据来决定需要多大多深的网络来适配才最佳。这是大模型之所以要大的一面。但也不能太大，要与数据规模拉开距离。换句话说，大数据必须大于大模型，这才是 scaling 的有效适配。
ChatGPT 出来的时候，模型参数与模型数据是一个量级的，其实现在看来是某种过拟合了。GPT4 超过 ChatGPT3.5 的一个很大的原因，可能就是因为调整了这个比例。
我是小雅，上面分享的是立委先生每次几分钟关于大模型的有角度的思考，希望对您有启发，咱们下次再见。

【相关】

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复