何恺明团队最新力作,MeanFlow无需预训练、无需蒸馏,仅需一次函数评估 (1-NFE) 即可实现SOTA性能,为高效高质量图像生成开辟新道路。
MeanFlow的核心思想是引入“平均速度场”来直接建模数据点和噪声点之间的转换路径,摆脱了传统扩散模型和流匹配方法对多步迭代的依赖。这项研究在ImageNet 256x256数据集上取得了惊人的 FID 3.43 (1-NFE) 的成绩。核心概念解析
MeanFlow的创新根植于对生成过程基本原理的深刻洞察。它通过引入“平均速度场”和“MeanFlow恒等式”,为单步高效生成提供了坚实的理论基础,有效解决了传统方法的诸多痛点。平均速度场 (Mean Velocity Field)
传统流匹配 (Flow Matching) 方法依赖于建模瞬时速度场𝑣(𝑧𝑡,𝑡),即在特定时间点𝑡状态𝑧𝑡的变化速率。而MeanFlow首创性地引入了平均速度场𝑢(𝑧𝑡,𝑟,𝑡)的概念。
平均速度定义为在时间间隔[𝑟,𝑡]内的平均位移速率:𝑢(𝑧𝑡,𝑟,𝑡)=𝑧𝑡−𝑧𝑟𝑡−𝑟=1𝑡−𝑟∫𝑟𝑡𝑣(𝑧𝑠,𝑠)𝑑𝑠
这里的𝑧𝑠是在时间𝑠的状态。这个定义表明,平均速度不仅取决于当前状态和时间,还取决于一个参考的起始时间𝑟。通过直接建模平均速度,网络学会了预测整个时间段内的“平均路径”,而非瞬时方向。MeanFlow 恒等式
基于平均速度的定义,研究者推导出了一个连接平均速度𝑢和瞬时速度𝑣的核心数学关系——MeanFlow恒等式:𝑣(𝑧𝑡,𝑡)−𝑢(𝑧𝑡,𝑟,𝑡)=(𝑡−𝑟)(𝜕𝑢(𝑧𝑡,𝑟,𝑡)𝜕𝑡+∇𝑧𝑡𝑢(𝑧𝑡,𝑟,𝑡)𝑣(𝑧𝑡,𝑡))
这个恒等式为神经网络的训练提供了理论依据。通过设计损失函数,引导网络学习满足此内在关系,而无需引入额外的启发式方法。由于存在明确定义的目标速度场,理论上最优解与网络的具体结构无关,有助于训练过程更加稳健和稳定。一步生成如何实现?
通过训练神经网络𝑢𝜃直接建模平均速度𝑢,从初始噪声𝑧0(时间𝑡=0) 到目标图像𝑧1(时间𝑡=1) 的生成过程可以简化为单步操作:
𝑧1=𝑧0+𝑢𝜃(𝑧0,0,1)⋅(1−0)
这意味着在推理阶段无需显式计算时间积分,这是传统建模瞬时速度方法所必需的步骤。MeanFlow通过学习平均速度,有效地隐式处理了瞬时速度场可能存在的复杂非线性问题(“弯曲轨迹”),避免了多步ODE求解中累积离散化误差的风险。性能表现 SOTA
MeanFlow 在多个标准图像生成基准上均取得了当前最佳 (SOTA) 或极具竞争力的结果,尤其是在单步或少步生成设定下,其性能提升显著。ImageNet 256x256 (类别条件生成)
在ImageNet 256x256数据集上,MeanFlow展现了卓越的性能。仅需1次函数评估 (1-NFE),FID分数即达到3.43,较之前同类最佳方法有50%到70%的相对提升。在2-NFE设定下,FID进一步降至2.20,已可媲美许多多步方法。
下表详细对比了MeanFlow与其他模型在ImageNet 256x256上的表现 (数据源自论文表2):
MeanFlow (MF) | 1 | 3.43 | XL/2级骨干 | 无 |
MeanFlow (MF) | 2 | 2.20 | XL/2级骨干 | 无 |
Shortcut | 1 | 10.60 | 1.0B | - |
IMM | 2 (含引导) | 7.77 | 1.0B | - |
iCT | 1 | >10 (图示估计) | 1.0B | - |
代表性多步SOTA | ~250x2 | <2.20 | XL/2级 | 通常有 |
CIFAR-10 (无条件生成)
在CIFAR-10 (32x32) 数据集上,MeanFlow同样表现出色。在1-NFE采样下,FID-50K分数为1.95。值得注意的是,MeanFlow在取得此成绩时并未使用任何预处理器,而其他对比方法均使用了EDM风格的预处理器。
下表详细对比了MeanFlow与其他模型在CIFAR-10上的表现 (数据源自论文表3):
MeanFlow (MF) | 1.95 | 无 | U-Net |
EDM | 2.01 | EDM风格 | U-Net |
Consistency Models (CM) | 2.05 | EDM风格 | U-Net |
创新的CFG集成
无分类器引导 (Classifier-Free Guidance, CFG) 是提升条件生成模型质量的关键技术,但传统应用方式常导致采样计算量翻倍。MeanFlow巧妙地解决了这一问题。作为真实速度场一部分的CFG
MeanFlow将CFG视为底层“真实速度场”的一部分属性进行建模,而非在采样阶段临时组合。研究者定义了一个新的、带引导的真实瞬时速度场𝑣𝑐𝑓𝑔:𝑣𝑐𝑓𝑔(𝑧𝑡,𝑐,𝑡)=𝑤⋅𝑣(𝑧𝑡,𝑐,𝑡)+(1−𝑤)⋅𝑣(𝑧𝑡,∅,𝑡)
其中𝑐是类别条件,𝑤是引导强度。神经网络𝑢𝑐𝑓𝑔,𝜃被训练来直接预测由这个𝑣𝑐𝑓𝑔所诱导出的平均速度场。保持1-NFE的高效引导
由于网络直接学习的是包含了引导信息的平均速度𝑢𝑐𝑓𝑔,因此在采样阶段,无需再进行额外的线性组合计算。只需一次网络调用即可完成带引导的单步生成。这使得MeanFlow在保留CFG效果的同时,依然维持了理想的1-NFE采样性能,真正做到了兼顾效率与质量。意义与价值
MeanFlow的提出不仅仅是一次技术迭代,它对整个生成式AI领域都可能产生深远的影响,有望引领新的研究方向和应用范式。性能飞跃,效率革新
MeanFlow显著缩小了一步与多步扩散/流模型之间的性能差距,证明了高效生成模型同样能达到顶尖质量。挑战传统,简化范式
其“从零开始”训练且无需预训练、蒸馏的特性,极大简化了高性能生成模型的开发流程,有望挑战多步模型的主导地位。降低门槛,普惠AI
更低的计算和开发成本,使得SOTA级别的生成技术能惠及更广泛的研究者和开发者,催生更多创新应用。启迪未来,重塑基础
MeanFlow的成功可能激励学界重新审视生成模型的基础理论,探索更根本、更高效的建模方法。关于本研究
这项名为 MeanFlow: Efficient Flow Matching with Mean Velocity Fields 的开创性研究由以下学者共同完成:
耿正阳 (Zhengyang Geng), 邓明阳 (Mingyang Deng), 白行健 (Xingjian Bai), J. Zico Kolter, 何恺明 (Kaiming He)
他们分别来自卡内基梅隆大学 (CMU) 和麻省理工学院 (MIT) 两所顶尖科研机构。