大模型是无损压缩还是有损压缩,李飞飞与伊利亚谁是对的?

智能的本质:在“有损”与“无损”的压缩悖论中寻找答案

前言:一场“鸡同鸭讲”的高端对话

在人工智能的理论高地上,最近出现了一场看似矛盾的争论。 一方面,AI教母李飞飞(Fei-Fei Li)指出:大模型是一种有损压缩(Lossy Compression)。这一观点直观且符合经验——模型会产生幻觉,无法100%还原训练数据中的每一个事实细节。 另一方面,OpenAI的前首席科学家 Ilya Sutskever 却掷地有声地宣称:大模型做的是无损压缩(Lossless Compression),并将压缩等同于智能。

这两位泰山北斗级的专家,难道有一方错了吗? 细思之下,这并非是非黑即白的对错之争,而是一场因观察维度错位而产生的“鸡同鸭讲”。结合最近与几位学界行家(如尼克教授、刘群老师、白硕老师、马少平教授)的探讨,以及对大模型本质的再思考,我们或可揭开这层迷雾,彻底讲明白“压缩”与“智能”的关系。

一、 泛化与还原:鱼与熊掌不可兼得

首先,我们需要厘清大模型与传统数据库的根本区别。

李飞飞的“有损”论,其立足点在于“具体数据点”的还原。 大模型在学习海量数据的过程中,其核心目标是泛化(Generalization),即学习数据的分布规律,而不是死记硬背每一个比特。正如白老师所言:“无损与泛化不兼容。”

如果一个模型对训练数据做到了100%的比特级无损记忆,那它就退化成了一个笨重的查表数据库(Lookup Table),失去了处理未知数据的能力。为了获得泛化能力,模型必须学会忽略数据中的噪音和偶然信息。而这种“忽略”,在试图完全还原原始数据时,就表现为“有损”。

从这个意义上说,幻觉(Hallucination)并非系统的Bug,而是泛化的必然副产品。模型学会了概率分布,却模糊了具体事实的边界。因此,李飞飞说大模型是“有损压缩”,没有问题,也符合我们普罗的观察和直觉。

二、 压缩即智能:逼近上帝的“次优解”

那么,Ilya 的“无损”论又站得住脚吗? 这里涉及对“学习”本质的数学定义。尼克教授在《计算与智能的第一性原理》中提到一个深刻的观点:压缩的目的是还原,by definition 就是无损的。

这听起来很烧脑:既然大模型无法100%还原,为什么还说它是无损压缩?

这里需要引入“次优图灵机”的概念。 理论上,存在一个完美的程序(God's Algorithm)可以完美压缩并还原数据,但这个程序往往是不可计算的。大模型实际上是作为一个次优的(Sub-optimal)图灵机,在概率上无限逼近这个最优解。

为什么说它在做无损压缩? 李明教授在 Nature 上的论文以及刘群老师的观点都指出,大模型可以极大地赋能无损压缩。实验证明,利用大模型对文本进行预测,其压缩率远高于传统的 gzipzip 等无损压缩算法。

    • 原理是这样的: 传统的压缩算法(好比步枪)只利用统计规律;而大模型(好比核武器)“吃透”了自然语言的深层规律(语法、逻辑、世界知识)。
    • 在还原数据时,大模型预测的概率分布与真实数据深度吻合,因此只需要极少量的额外信息(Patch)就能实现100%还原。

从“对规律的提取程度”来看,大模型做到了前所未有的极致压缩。Ilya 所谓的无损,是指大模型在学习数据分布本质这一层面上,追求的是对世界的无损理解。

三、 过去 vs. 未来:黄金标准的消逝

这场争论的另一个核心错位,在于时间指向性

    1. 传统的压缩与还原,针对的是“过去”(Existing Data)。 对于已经发生的数据,存在唯一的比特级黄金标准。OCR(光学字符识别)就是一个典型的例子,它的目标是恢复原文,错一个字就是错。
    2. 大模型的生成,指向的是“未来”(Prediction)。 大模型在推理(Inference)阶段,面对的是未知的上文,需要预测下文。未来本质上是不确定的,是平行宇宙。
    3. 没有黄金标准: 对于“未来”的生成,没有唯一的标准答案。模型输出的是一种“合理性”,而非“还原性”。
    4. 幻觉的本质: 很多幻觉从比特还原(过去)的角度看是错误的(Lossy),但从逻辑合理性(未来)的角度看却是对的。

大模型在训练时,虽然用 Next Token Prediction(NTP)作为手段,看似在通过交叉熵(Cross-Entropy)去拟合“过去”的 Token,但其真实的目的是学习“意义”的流动。即便在训练阶段,Loss 函数指向的也是概率分布的逼近,而非字符形式的死磕。

因此,说大模型是“有损”,是因为我们在用“还原过去”的尺子,去衡量一个“预测未来”的工具。

四、 终极追问:最短程序与“大”模型的负担

在理解了上述逻辑后,我们还有一个终极的物理与数学疑问,这也是我在思考中感到最困惑但也最迷人的地方。

根据最小描述长度(MDL, Minimum Description Length)原理,奥卡姆剃刀告诉我们:“若无必要,勿增实体”,最好的理论是那个能用最短程序描述数据的自动机。

我们将大模型视为一种压缩算法,它的压缩率(Data Compression Rate)确实惊人地高。但是,大模型本身(Model Parameters)是一个巨大的实体

    • 传统的压缩: 压缩程序很小(几MB),压缩后的数据也很小。
    • 大模型压缩: 压缩后的数据(Patch/补差信息)极小(因为预测极准),但解压程序(即大模型本身) 却大得惊人(几百GB甚至TB)。

如果我们将“模型 + 压缩数据”的总长度作为衡量标准(Total Code Length),大模型与实现“最短程序”这个标准相距甚远。这就像是一个人拿着核武器(大模型)去打靶,虽然靶子被摧毁得最彻底(预测最准),但你为了运送这枚核武器所消耗的能量和资源(Overhead),是否抵消了它带来的精度优势?

对此,我的思考是: 这取决于我们压缩的对象是“一段数据”还是“整个世界”。 如果是为了压缩一本书,大模型显然是极其低效的(模型本身比书大太多)。 但如果是为了压缩整个人类互联网的知识总和,大模型庞大的参数量相对于无穷尽的数据海洋来说,依然是极度浓缩的“最短程序”。它用有限的参数,锁住了近乎无限的语言规律和世界知识。

结语

综上所述,李飞飞和 Ilya 都没有错,他们只是站在了真理的不同侧面:

    • 李飞飞看到了大模型作为“数据库”时的次优性(Sub-optimality)和事实层面的有损性
    • Ilya 看到了大模型作为“智能体”时对世界规律的极致提取,以及其作为压缩算法在概率分布层面的无损追求。

大模型不是完美的复读机,它是对人类知识库的一种有损的物理存储,但却是对人类智慧与逻辑的一种近乎无损的数学蒸馏

这就解释了为什么它既能写出惊艳的诗歌(抓住了规律的魂),却又记不清你具体的生日(丢失了事实的形)。

这,或许就是智能的第一性原理的反映。

 

Demystifying the misconception of "Lossless Compression as Intelligence"

破除“无损压缩即智能”的迷思

GPT and the Art of Compression

Efficiency vs. Reliability: The Compression Tightrope

Arithmetic Coding for GPT’s Compression Engine

Navigating the Probability Universe with GPT

Is GPT Compression Lossless or Lossy? The Truth Revealed

GPT as a Cosmic Librarian: Unlocking Lossless Compression

与尼克等老友唠大模型压缩理论

GPT作为序列数据的无损压缩器

要区分GPT训练中的压缩,与拿GPT当压缩器工具

信息论科普:GPT对给定序列无损压缩的最终区间

GPT无损压缩小问答(3):算术编码

信息论科普:香农极限(Shannon Limit)

GPT无损压缩小问答(2):为什么说GPT是无损压缩?

GPT无损压缩小问答(1): 高压缩率导致系统脆弱

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理