MeanFlow: AI图像生成的降维打击

何恺明团队最新力作,MeanFlow无需预训练、无需蒸馏,仅需一次函数评估 (1-NFE) 即可实现SOTA性能,为高效高质量图像生成开辟新道路。

MeanFlow的核心思想是引入“平均速度场”来直接建模数据点和噪声点之间的转换路径,摆脱了传统扩散模型和流匹配方法对多步迭代的依赖。这项研究在ImageNet 256x256数据集上取得了惊人的 FID 3.43 (1-NFE) 的成绩。核心概念解析

MeanFlow的创新根植于对生成过程基本原理的深刻洞察。它通过引入“平均速度场”和“MeanFlow恒等式”,为单步高效生成提供了坚实的理论基础,有效解决了传统方法的诸多痛点。平均速度场 (Mean Velocity Field)

传统流匹配 (Flow Matching) 方法依赖于建模瞬时速度场𝑣(𝑧𝑡,𝑡),即在特定时间点𝑡状态𝑧𝑡的变化速率。而MeanFlow首创性地引入了平均速度场𝑢(𝑧𝑡,𝑟,𝑡)的概念。

平均速度定义为在时间间隔[𝑟,𝑡]内的平均位移速率:𝑢(𝑧𝑡,𝑟,𝑡)=𝑧𝑡−𝑧𝑟𝑡−𝑟=1𝑡−𝑟∫𝑟𝑡𝑣(𝑧𝑠,𝑠)𝑑𝑠

这里的𝑧𝑠是在时间𝑠的状态。这个定义表明,平均速度不仅取决于当前状态和时间,还取决于一个参考的起始时间𝑟。通过直接建模平均速度,网络学会了预测整个时间段内的“平均路径”,而非瞬时方向。MeanFlow 恒等式

基于平均速度的定义,研究者推导出了一个连接平均速度𝑢和瞬时速度𝑣的核心数学关系——MeanFlow恒等式:𝑣(𝑧𝑡,𝑡)−𝑢(𝑧𝑡,𝑟,𝑡)=(𝑡−𝑟)(𝜕𝑢(𝑧𝑡,𝑟,𝑡)𝜕𝑡+∇𝑧𝑡𝑢(𝑧𝑡,𝑟,𝑡)𝑣(𝑧𝑡,𝑡))

这个恒等式为神经网络的训练提供了理论依据。通过设计损失函数,引导网络学习满足此内在关系,而无需引入额外的启发式方法。由于存在明确定义的目标速度场,理论上最优解与网络的具体结构无关,有助于训练过程更加稳健和稳定。一步生成如何实现?

通过训练神经网络𝑢𝜃直接建模平均速度𝑢,从初始噪声𝑧0(时间𝑡=0) 到目标图像𝑧1(时间𝑡=1) 的生成过程可以简化为单步操作:

𝑧1=𝑧0+𝑢𝜃(𝑧0,0,1)⋅(1−0)

这意味着在推理阶段无需显式计算时间积分,这是传统建模瞬时速度方法所必需的步骤。MeanFlow通过学习平均速度,有效地隐式处理了瞬时速度场可能存在的复杂非线性问题(“弯曲轨迹”),避免了多步ODE求解中累积离散化误差的风险。性能表现 SOTA

MeanFlow 在多个标准图像生成基准上均取得了当前最佳 (SOTA) 或极具竞争力的结果,尤其是在单步或少步生成设定下,其性能提升显著。ImageNet 256x256 (类别条件生成)

在ImageNet 256x256数据集上,MeanFlow展现了卓越的性能。仅需1次函数评估 (1-NFE),FID分数即达到3.43,较之前同类最佳方法有50%到70%的相对提升。在2-NFE设定下,FID进一步降至2.20,已可媲美许多多步方法。

下表详细对比了MeanFlow与其他模型在ImageNet 256x256上的表现 (数据源自论文表2):

MeanFlow (MF)13.43XL/2级骨干
MeanFlow (MF)22.20XL/2级骨干
Shortcut110.601.0B-
IMM2 (含引导)7.771.0B-
iCT1>10 (图示估计)1.0B-
代表性多步SOTA~250x2<2.20XL/2级通常有

CIFAR-10 (无条件生成)

在CIFAR-10 (32x32) 数据集上,MeanFlow同样表现出色。在1-NFE采样下,FID-50K分数为1.95。值得注意的是,MeanFlow在取得此成绩时并未使用任何预处理器,而其他对比方法均使用了EDM风格的预处理器。

下表详细对比了MeanFlow与其他模型在CIFAR-10上的表现 (数据源自论文表3):

MeanFlow (MF)1.95U-Net
EDM2.01EDM风格U-Net
Consistency Models (CM)2.05EDM风格U-Net

创新的CFG集成

无分类器引导 (Classifier-Free Guidance, CFG) 是提升条件生成模型质量的关键技术,但传统应用方式常导致采样计算量翻倍。MeanFlow巧妙地解决了这一问题。作为真实速度场一部分的CFG

MeanFlow将CFG视为底层“真实速度场”的一部分属性进行建模,而非在采样阶段临时组合。研究者定义了一个新的、带引导的真实瞬时速度场𝑣𝑐𝑓𝑔:𝑣𝑐𝑓𝑔(𝑧𝑡,𝑐,𝑡)=𝑤⋅𝑣(𝑧𝑡,𝑐,𝑡)+(1−𝑤)⋅𝑣(𝑧𝑡,∅,𝑡)

其中𝑐是类别条件,𝑤是引导强度。神经网络𝑢𝑐𝑓𝑔,𝜃被训练来直接预测由这个𝑣𝑐𝑓𝑔所诱导出的平均速度场。保持1-NFE的高效引导

由于网络直接学习的是包含了引导信息的平均速度𝑢𝑐𝑓𝑔,因此在采样阶段,无需再进行额外的线性组合计算。只需一次网络调用即可完成带引导的单步生成。这使得MeanFlow在保留CFG效果的同时,依然维持了理想的1-NFE采样性能,真正做到了兼顾效率与质量。意义与价值

MeanFlow的提出不仅仅是一次技术迭代,它对整个生成式AI领域都可能产生深远的影响,有望引领新的研究方向和应用范式。性能飞跃,效率革新

MeanFlow显著缩小了一步与多步扩散/流模型之间的性能差距,证明了高效生成模型同样能达到顶尖质量。挑战传统,简化范式

其“从零开始”训练且无需预训练、蒸馏的特性,极大简化了高性能生成模型的开发流程,有望挑战多步模型的主导地位。降低门槛,普惠AI

更低的计算和开发成本,使得SOTA级别的生成技术能惠及更广泛的研究者和开发者,催生更多创新应用。启迪未来,重塑基础

MeanFlow的成功可能激励学界重新审视生成模型的基础理论,探索更根本、更高效的建模方法。关于本研究

这项名为 MeanFlow: Efficient Flow Matching with Mean Velocity Fields 的开创性研究由以下学者共同完成:

耿正阳 (Zhengyang Geng), 邓明阳 (Mingyang Deng), 白行健 (Xingjian Bai), J. Zico Kolter, 何恺明 (Kaiming He)

他们分别来自卡内基梅隆大学 (CMU) 和麻省理工学院 (MIT) 两所顶尖科研机构。

阅读完整论文 (arXiv:2405.13447)

发布者

立委

立委博士,多模态大模型应用高级咨询。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理