MeanFlow: AI图像生成的降维打击

何恺明团队最新力作，MeanFlow无需预训练、无需蒸馏，仅需一次函数评估 (1-NFE) 即可实现SOTA性能，为高效高质量图像生成开辟新道路。

MeanFlow的核心思想是引入“平均速度场”来直接建模数据点和噪声点之间的转换路径，摆脱了传统扩散模型和流匹配方法对多步迭代的依赖。这项研究在ImageNet 256x256数据集上取得了惊人的 FID 3.43 (1-NFE) 的成绩。核心概念解析

MeanFlow的创新根植于对生成过程基本原理的深刻洞察。它通过引入“平均速度场”和“MeanFlow恒等式”，为单步高效生成提供了坚实的理论基础，有效解决了传统方法的诸多痛点。平均速度场 (Mean Velocity Field)

传统流匹配 (Flow Matching) 方法依赖于建模瞬时速度场𝑣(𝑧𝑡,𝑡)，即在特定时间点𝑡状态𝑧𝑡的变化速率。而MeanFlow首创性地引入了平均速度场𝑢(𝑧𝑡,𝑟,𝑡)的概念。

平均速度定义为在时间间隔[𝑟,𝑡]内的平均位移速率：𝑢(𝑧𝑡,𝑟,𝑡)=𝑧𝑡−𝑧𝑟𝑡−𝑟=1𝑡−𝑟∫𝑟𝑡𝑣(𝑧𝑠,𝑠)𝑑𝑠

这里的𝑧𝑠是在时间𝑠的状态。这个定义表明，平均速度不仅取决于当前状态和时间，还取决于一个参考的起始时间𝑟。通过直接建模平均速度，网络学会了预测整个时间段内的“平均路径”，而非瞬时方向。MeanFlow 恒等式

基于平均速度的定义，研究者推导出了一个连接平均速度𝑢和瞬时速度𝑣的核心数学关系——MeanFlow恒等式：𝑣(𝑧𝑡,𝑡)−𝑢(𝑧𝑡,𝑟,𝑡)=(𝑡−𝑟)(𝜕𝑢(𝑧𝑡,𝑟,𝑡)𝜕𝑡+∇𝑧𝑡𝑢(𝑧𝑡,𝑟,𝑡)𝑣(𝑧𝑡,𝑡))

这个恒等式为神经网络的训练提供了理论依据。通过设计损失函数，引导网络学习满足此内在关系，而无需引入额外的启发式方法。由于存在明确定义的目标速度场，理论上最优解与网络的具体结构无关，有助于训练过程更加稳健和稳定。一步生成如何实现？

通过训练神经网络𝑢𝜃直接建模平均速度𝑢，从初始噪声𝑧0(时间𝑡=0) 到目标图像𝑧1(时间𝑡=1) 的生成过程可以简化为单步操作：

𝑧1=𝑧0+𝑢𝜃(𝑧0,0,1)⋅(1−0)

这意味着在推理阶段无需显式计算时间积分，这是传统建模瞬时速度方法所必需的步骤。MeanFlow通过学习平均速度，有效地隐式处理了瞬时速度场可能存在的复杂非线性问题（“弯曲轨迹”），避免了多步ODE求解中累积离散化误差的风险。性能表现 SOTA

MeanFlow 在多个标准图像生成基准上均取得了当前最佳 (SOTA) 或极具竞争力的结果，尤其是在单步或少步生成设定下，其性能提升显著。ImageNet 256x256 (类别条件生成)

在ImageNet 256x256数据集上，MeanFlow展现了卓越的性能。仅需1次函数评估 (1-NFE)，FID分数即达到3.43，较之前同类最佳方法有50%到70%的相对提升。在2-NFE设定下，FID进一步降至2.20，已可媲美许多多步方法。

下表详细对比了MeanFlow与其他模型在ImageNet 256x256上的表现 (数据源自论文表2)：

CIFAR-10 (无条件生成)

在CIFAR-10 (32x32) 数据集上，MeanFlow同样表现出色。在1-NFE采样下，FID-50K分数为1.95。值得注意的是，MeanFlow在取得此成绩时并未使用任何预处理器，而其他对比方法均使用了EDM风格的预处理器。

下表详细对比了MeanFlow与其他模型在CIFAR-10上的表现 (数据源自论文表3)：

创新的CFG集成

无分类器引导 (Classifier-Free Guidance, CFG) 是提升条件生成模型质量的关键技术，但传统应用方式常导致采样计算量翻倍。MeanFlow巧妙地解决了这一问题。作为真实速度场一部分的CFG

MeanFlow将CFG视为底层“真实速度场”的一部分属性进行建模，而非在采样阶段临时组合。研究者定义了一个新的、带引导的真实瞬时速度场𝑣𝑐𝑓𝑔：𝑣𝑐𝑓𝑔(𝑧𝑡,𝑐,𝑡)=𝑤⋅𝑣(𝑧𝑡,𝑐,𝑡)+(1−𝑤)⋅𝑣(𝑧𝑡,∅,𝑡)

其中𝑐是类别条件，𝑤是引导强度。神经网络𝑢𝑐𝑓𝑔,𝜃被训练来直接预测由这个𝑣𝑐𝑓𝑔所诱导出的平均速度场。保持1-NFE的高效引导

由于网络直接学习的是包含了引导信息的平均速度𝑢𝑐𝑓𝑔，因此在采样阶段，无需再进行额外的线性组合计算。只需一次网络调用即可完成带引导的单步生成。这使得MeanFlow在保留CFG效果的同时，依然维持了理想的1-NFE采样性能，真正做到了兼顾效率与质量。意义与价值

MeanFlow的提出不仅仅是一次技术迭代，它对整个生成式AI领域都可能产生深远的影响，有望引领新的研究方向和应用范式。性能飞跃，效率革新

MeanFlow显著缩小了一步与多步扩散/流模型之间的性能差距，证明了高效生成模型同样能达到顶尖质量。挑战传统，简化范式

其“从零开始”训练且无需预训练、蒸馏的特性，极大简化了高性能生成模型的开发流程，有望挑战多步模型的主导地位。降低门槛，普惠AI

更低的计算和开发成本，使得SOTA级别的生成技术能惠及更广泛的研究者和开发者，催生更多创新应用。启迪未来，重塑基础

MeanFlow的成功可能激励学界重新审视生成模型的基础理论，探索更根本、更高效的建模方法。关于本研究

这项名为 MeanFlow: Efficient Flow Matching with Mean Velocity Fields 的开创性研究由以下学者共同完成：

耿正阳 (Zhengyang Geng), 邓明阳 (Mingyang Deng), 白行健 (Xingjian Bai), J. Zico Kolter, 何恺明 (Kaiming He)

他们分别来自卡内基梅隆大学 (CMU) 和麻省理工学院 (MIT) 两所顶尖科研机构。

发布者