I. 引言
视频生成领域的范式:自回归(AR)与扩散(Diffusion)
近年来,深度生成模型在内容创作领域取得了显著进展,尤其是在图像和视频生成方面。目前,视频生成领域主要由两大技术范式主导:自回归(Autoregressive, AR)模型和扩散模型(Diffusion Models, DMs)。自回归模型,特别是那些借鉴了大型语言模型(LLM)成功的模型,通常将视频或图像数据转换为离散的标记(tokens),然后按顺序预测下一个标记,从而生成内容 1。这种方法天然地契合了序列数据的因果依赖性。扩散模型则采用不同的策略,它们从随机噪声开始,通过一个学习到的去噪过程逐步迭代地生成清晰的数据 9。扩散模型在生成高保真度图像和视频方面表现出色,但其迭代采样过程通常较慢,且对于长序列的严格时间一致性建模可能不如AR模型直接 5。为了结合两者的优点,混合模型也应运而生 28。
自回归模型中的量化瓶颈
传统的视觉自回归模型广泛依赖向量量化(Vector Quantization, VQ)技术,例如VQ-VAE或VQGAN 1。VQ将连续的视觉特征(通常来自VAE编码器)映射到一个离散的码本(codebook)索引空间,生成一系列离散标记。这种离散化使得模型可以借鉴LLM中成熟的基于Transformer的架构和交叉熵损失函数进行训练和预测。然而,VQ引入了固有的局限性:首先,量化过程是有损的,会丢失原始视觉信号中的细节信息,导致生成结果模糊或缺乏精细纹理 1;其次,训练VQ层可能不稳定,面临码本崩溃(codebook collapse)等优化难题 32;最后,离散码本的大小与表示能力之间存在权衡,小的码本无法捕捉足够的细节,而大的码本会增加后续自回归建模的复杂度 32。
非量化自回归(NQ-AR)方法的兴起
为了克服VQ的限制,同时保留AR模型的优势(如良好的因果建模能力和潜在的上下文学习能力),研究界开始探索直接在连续或非量化空间中进行自回归建模的方法 27。这些非量化自回归(Non-Quantized Autoregressive, NQ-AR)方法旨在避免离散化带来的信息损失,直接对连续的视觉特征进行预测。相关工作如MAR(Masked AutoRegressive)33 和FAR(Frame AutoRegressive)31 均属于这一新兴趋势。
NOVA模型介绍:NQ-AR视频生成的案例研究
由北京智源人工智能研究院(BAAI)提出的NOVA(NOn-Quantized Video Autoregressive Model)模型,是NQ-AR范式在视频生成领域的一个代表性工作 28。NOVA的核心思想是重新定义视频生成问题,将其表述为一种结合了时间上逐帧因果预测和空间上逐集双向预测的非量化自回归建模过程 28。
报告目标与范围
本报告旨在对NOVA模型的NQ-AR技术路线进行深入的技术分析。我们将详细剖析其如何在没有向量量化的情况下实现自回归预测,特别是其独特的预测机制和时空建模方式。同时,我们将基于现有研究资料,评估该方法的前景、可行性及其面临的主要挑战,并探讨其与传统量化AR模型和扩散模型的异同与优劣。本报告分析仅限于BAAI提出的NOVA模型,不涉及同名的Amazon Nova模型系列。
II. NOVA模型:连续空间中的自回归生成
A. 核心理念:绕过向量量化
NOVA模型最根本的创新在于它完全摒弃了传统视觉AR模型中常用的向量量化步骤 28。它不再将连续的视觉特征映射到离散的码本索引,而是直接在连续值的潜在空间中进行操作。这些连续特征很可能由一个预训练的VAE(变分自编码器)的编码器产生,但省略了最后的量化层 26。通过直接处理连续表示,NOVA旨在保留比离散标记更丰富的视觉细节信息,从而提升生成质量 32。
VAE编码器的主要作用是将输入数据(例如图像或视频帧)压缩到一个低维度的潜在空间(latent space)中。可以将其理解为一个“信息压缩器”: 1.输入: 接收高维度的原始数据,比如一张图像的所有像素; 2.处理: 通过一系列神经网络层(对于图像通常是卷积层)逐步提取特征并降低数据的维度; 3. 输出: 与标准自编码器不同,VAE编码器输出的不是潜在空间中的一个确切点,而是该空间中一个概率分布的参数(通常是高斯分布的均值和方差)。这意味着编码器学习到的是输入数据在潜在空间中的一个概率区域,而不是一个固定的编码。这个经过编码的、概率性的低维表示(潜在变量)旨在捕捉输入数据的核心特征和本质信息。随后,VAE的解码器部分会利用从这个潜在分布中采样得到的点来重构原始数据或生成新的、相似的数据 。在很多现代生成模型(如潜在扩散模型 LDM)中,VAE编码器被用来高效地将高维视觉数据转换到计算成本更低的潜在空间,以便后续的生成处理(如扩散去噪)。
B. 非量化预测目标:潜在空间中的扩散损失
为了在连续空间中进行有效的自回归预测,NOVA采用了一种新颖的目标函数:扩散损失(Diffusion Loss) 。具体而言,给定NOVA模型在某个自回归步骤的预测上下文 (z_n ),其目标是预测下一个(或当前集合中的)连续值视觉标记 ( x_n )。NOVA并不直接预测 ( x_n ) 的值或其概率密度,而是借鉴了扩散模型的训练范式。它首先通过向真实的 ( x_n ) 添加高斯噪声 ( \epsilon \sim \mathcal{N}(0, I) ) 来生成一个在时间步 ( t ) 的带噪版本 ,其中
是预定义的噪声调度。然后,模型训练一个噪声预测器 (εθ)(通常由多层感知机MLP实现),使其能够根据带噪标记 xₙᵗ、时间步 t 以及自回归上下文 zₙ 来估计所添加的噪声 ε。训练的目标是最小化预测噪声与真实噪声之间的L2距离 :
这个目标函数与标准扩散模型中用于训练去噪网络的损失函数形式一致12。
这种设计体现了一种巧妙的思路:NOVA并非一个完整的扩散模型(它不从纯噪声开始迭代去噪生成整个视频),而是将扩散模型的训练目标嵌入到了自回归框架中。传统的AR模型需要对条件概率 p(xₙ|context) 进行建模。对于离散的 xₙ,这通常通过在词汇表上应用Softmax来实现。对于连续的 xₙ,直接建模概率密度函数非常困难。扩散模型通过学习预测噪声 ε 来间接学习条件概率 p(xₜ₋₁|xₜ )。NOVA借鉴了这一点:给定AR上下文 zₙ,它学习预测将目标标记 xₙ 的带噪版本去噪所需的噪声 ( \epsilon )。这个过程隐式地定义了条件概率分布 p(xₙ | zₙ) ,既避免了VQ离散化,也绕开了直接对连续空间概率密度进行估计的复杂性,同时利用了扩散模型训练的鲁棒性 。本质上,扩散损失在这里充当了一种在连续空间中进行稳健概率预测的机制。
C. 时间动态:逐帧因果预测
在时间维度上,NOVA严格遵循自回归范式,即逐帧生成视频 28。这意味着对第 ( f ) 帧的预测仅依赖于之前的 ( f-1 ) 帧以及外部条件(如文本提示)。这种设计确保了生成过程的因果性,这对于建模视频中随时间演变的动态至关重要,并且与GPT等语言模型的生成方式保持一致 28。实现上,这可能通过在Transformer模型的时间注意力层中使用块状因果掩码(block-wise causal masking)来完成 26。就是说,因果限制是施加在帧这个“块”级别上的,同时允许帧内的信息可以相互参考(非因果)。在技术实现上,这意味着注意力掩码是根据帧的边界来构建的,而不是简单地作用于一个被完全展平成一维序列的所有视觉标记。
D. 帧内建模:空间逐集预测
与时间上的严格因果性不同,NOVA在处理单帧内部的空间信息时采用了更灵活高效的方式,即空间逐集预测(spatial set-by-set prediction)。
空间“集”的定义:
NOVA不采用传统的逐像素或逐标记的光栅扫描(raster scan)顺序(通常是自左向右,自上而下)来预测帧内内容(光栅扫描是传统的序列化处理方式,想象一下老式电视机显像管扫描屏幕的方式)。相反,它将一帧内的空间标记划分为多个“集合”(sets),这些集合被视为元因果标记(meta causal tokens)28。每一帧可以看作是一个元(Meta)级别的单元标记,帧之间存在因果关系。具体的集合定义和采样方式在现有资料中未完全详述,但核心思想是将空间预测的基本单位从单个标记提升到标记集合(帧)。
随机顺序与双向注意力:
在一帧内部,这些空间标记集合的预测顺序是随机的,而非固定的序列顺序 27。为了预测某个被遮蔽(masked)的标记集合,模型采用双向注意力机制(bidirectional attention),使其能够同时关注到该帧内所有未被遮蔽的(即已预测或已知的)标记集合,以及来自时间维度的上下文信息 28。这种方式类似于BERT或掩码自编码器(Masked Autoencoders)中的做法,旨在利用双向上下文信息来高效、并行地建模丰富的空间关系。
Scale & Shift LayerNorm 技术:
为了有效地将时间上下文信息(来自前一帧或多帧的指示特征)注入到当前帧的空间预测过程中,并解决直接使用相邻帧特征可能导致的视频流畅度不一致和伪影问题,NOVA引入了一种缩放与移位层归一化(Scale & Shift LayerNorm)技术 28。该技术旨在通过学习帧间分布的相对变化来重新表述跨帧运动变化。具体操作如下:
-
- 模型的时间层(处理时间依赖关系)的输出(针对当前帧)被用来预测维度级别的缩放参数γ 和移位参数β,这通常通过一个MLP完成。
- 选择时间层中经过视频起始符(Begin-of-Video, BOV)注意力处理后的输出作为锚点特征集(anchor feature set)。
- 对锚点特征进行归一化处理。
- 使用学习到的γ和β 对归一化的锚点特征进行仿射变换,生成用于空间预测的指示特征:
- 特别地,对于视频的第一帧,γ被显式设置为1,β设置为0。
- 这些生成的指示特征随后指导当前帧内空间标记集的自回归预测。 通过这种方式,模型学习的是帧间的相对分布变化,而不是直接传递绝对特征值。据称,这种机制有助于稳定训练过程,并通过更鲁棒地建模帧间变化来缓解常见的累积误差问题 28。
Scale & Shift LayerNorm 技术解说如下。 假设正在手绘一本翻页动画书,每一页(帧)的图案需要和前页连贯。但直接描摹前一页图案会导致两个问题: 1. 动作僵硬:如果前一页的人像手臂抬到30度,直接沿袭会导致下一页手臂突然跳到60度,动作显得不连贯。 2. 误差累积:如果某页画歪了,后续所有页都会越来越歪。 这时,NOVA的 Scale & Shift LayerNorm 就相当于一个“智能动作调节器”,它的工作原理如下。核心三步:观察-调整-绘制 1. 观察前文的动作趋势(时间层学习γ和β,对象动作或位置变化的两大参数) - 模型先看前几页的翻动规律:比如手臂每次上抬角度增加约5度,衣服褶皱变化幅度等。 - γ(缩放参数):代表动作变化的幅度(例如角度变化的快慢)。 - β(移位参数):代表动作变化的方向(例如向上抬还是向下摆)。 2. 提取关键锚点(BOV注意力处理) - 圈出关键部位或对象(如手臂、衣角)作为**锚点**,这些部位的变化对整体动作影响最大。 - 对这些锚点做“归一化”:相当于把它们的尺寸和位置统一到标准坐标系,方便比较变化趋势。 3. 动态调整当前页绘制(仿射变换生成指示特征) - 根据学到的γ和β,调整当前页的绘制: - γ=1.2:表示这一页手臂抬升速度要比前一页快20%。 - β=+0.3:表示衣角飘动方向要向右多偏转30%。 - 模型不再直接沿袭前一页的图案,而是按这个动态规则趋势绘制,保证动作流畅自然。 技术优势:像老司机开车一样丝滑 1. 抗干扰性: 即使某一页画歪了(噪声干扰),γ和β会根据“整体趋势”自动修正后续动作,避免误差滚雪球。 - 实际效果:视频中快速移动的物体(如飞鸟)不会出现残影/伪影。 2. 自适应运动: γ和β动态调整,能捕捉加速/减速等非线性变化。 - 案例:人物转身时,头发飘动速度会逐渐变快再变慢。 3. 训练稳定性: 第一页(视频首帧)强制γ=1、β=0,相当于给模型一个**确定起点**,避免初期乱画。 - 类比:学自行车时先扶正车头再开始骑。 真实世界效果示例 - 场景1:水波纹扩散 传统方法:波纹逐帧放大,但边界出现锯齿。 NOVA:通过γ控制波纹扩散速度,β调整波峰高度,实现平滑渐变。 - 场景2:人物行走 传统方法:腿部运动卡顿如机器人。 NOVA:γ和β动态调整步幅和频率,实现自然摆动。 总结:像给视频加了智能缓冲器 Scale & Shift LayerNorm 的本质是让模型学会动态趋势,而不是相邻帧沿袭。就像老司机开车时不会死死盯着前车,而是根据车速差动态调整油门和刹车,最终让整个车流(视频帧)保持丝滑流动。这种设计既保留了自回归的严格因果性,又赋予了模型动态适应的灵活性。
NOVA采用的混合注意力策略——时间上因果,空间上双向——体现了其设计哲学。纯粹的空间AR(如光栅扫描)速度慢且难以捕捉长距离空间依赖。标准扩散模型缺乏固有的时间因果性。NOVA将问题分解:在帧间保持严格的因果关系,以确保时间连贯性和长期依赖建模;在帧内则利用随机顺序的集合预测和双向注意力,实现高效、强大的空间上下文建模 28。随机顺序的引入迫使模型学习更鲁棒的空间表征,而不是简单地沿袭相邻标记。
同时,Scale & Shift LayerNorm机制是连接时间和空间预测步骤的关键桥梁。在AR模型中,直接将前一帧的特征输入到下一帧的预测中,容易导致误差累积放大。Scale & Shift机制试图通过学习基于时间上下文的自适应归一化参数(γ,β)来更稳健地建模帧间的变化或流动,而不是简单地拼接或相加特征。这种相对建模方式可能在生成较长序列时更为稳定 28。
III. 非量化AR(NOVA)的前景与可行性评估
A. 性能基准:效率、速度与质量
NOVA模型在多个基准测试中展现了其非量化自回归路线的潜力,尤其是在效率和速度方面具有显著优势,同时保持了有竞争力的生成质量。
-
-
文本到图像(T2I)性能: NOVA 在T2I任务上表现出色。例如,在GenEval基准上,使用重写器(rewriter)的NOVA模型取得了0.72至0.75的领先分数;在T2I-CompBench上得分83.02;在DPG-Bench上得分75.80 28。这些结果优于之前的扩散模型,如Stable Diffusion v1/v2/XL 26。值得注意的是,NOVA取得这些成绩的模型参数量相对较小(如0.6B),且训练成本显著低于某些竞争对手 28。这表明NQ-AR路线在T2I任务上具有很高的效率和潜力。
-
文本到视频(T2V)性能: 在核心的T2V任务上,NOVA同样表现出竞争力。其在VBench基准上的得分(如75.84或使用重写器后的80.12)与当时的SOTA自回归模型Emu3(80.96)相当,甚至优于OpenSora(75.66)28。考虑到NOVA的模型规模(0.6B)远小于Emu3(8B),这进一步凸显了其效率优势 27。与之前的量化AR模型(如CogVideo, 9B参数)相比,NOVA在VBench各项指标上均显著胜出 27。其性能也与同等规模的扩散模型相当 27。
-
推理速度与效率: 推理速度是NOVA相较于扩散模型的主要优势之一。报告指出,生成一个33帧的视频大约需要12秒,而一些扩散模型可能需要50秒以上 28。在单块NVIDIA A100-40G GPU上,以24的批处理大小(batch size)运行时,处理速度可达2.75 FPS 27。虽然AR模型本身需要逐帧生成,但其每一步的计算量可能远小于扩散模型的单步去噪,且NOVA的空间逐集预测比传统的光栅扫描AR更并行化。相比之下,传统VQ-AR模型逐标记生成可能非常缓慢 5,而扩散模型虽然可以通过一致性模型 50 或蒸馏 5 等技术加速,但NOVA的AR特性使其在推理速度上具有天然潜力。
-
性能对比表: 为了更直观地展示NOVA的性能定位,下表总结了其与相关模型的关键指标对比(部分数据来自文献,可能存在基准或设置差异):
-
模型名称 | 范式 | 参数量 (B) | T2I GenEval | T2V VBench | 推理速度 (示例) | 训练成本 (GPU天) | 关键文献参考 |
NOVA (T2I) | NQ-AR | 0.6 | 0.75 (w/ rw) | N/A | - | ~127 | 28 |
NOVA (T2V) | NQ-AR | 0.6 | (0.68) | 80.12 (w/ rw) | ~12s / 33帧 (2.75 FPS) | (T2I + T2V) | 28 |
SDXL | Diffusion | 2.6 (base) | ~0.68 | N/A | 较慢 (迭代采样) | N/A | 27 |
PixArt-α | Diffusion | N/A | N/A | N/A | 较慢 (迭代采样) | ~753 | 27 |
Emu3 | VQ-AR (?) | 8.0 | N/A | 80.96 | N/A | N/A | 27 |
CogVideo | VQ-AR | 9.0 | N/A | 较低 | 慢 (逐标记) | N/A | 27 |
MAGVIT-v2 (LM) | VQ-AR (MLM) | 0.3 | FID 1.91 | FVD 5.2 | 12-64步 (MLM) | N/A | 1 |
CausVid (4-step) | AR-Distill | N/A | N/A | 84.27 | 9.4 FPS (流式) | (蒸馏) | 5 |
*注:N/A表示数据不可用或不适用。分数可能因基准版本、设置和是否使用重写器而异。推理速度和训练成本仅为参考值。*
B. 相较于量化AR模型的优势
-
- 更高保真度: NQ-AR通过避免VQ的信息损失,理论上能够生成更清晰、细节更丰富的图像和视频 1。这解决了量化AR模型常见的模糊问题。
- 训练稳定性: 可能避免了与训练VQ层相关的码本崩溃和优化不稳定问题 32。
- 建模简洁性(某种程度上): 虽然NOVA使用的扩散损失本身有一定复杂性,但它省去了训练VQ层和使用Softmax预测离散标记的步骤,可能简化了部分流程 32。TokenBridge等工作进一步探索了这一方向 32。
- 效率: NOVA的空间逐集预测结合双向注意力,相比传统AR模型的光栅扫描预测方式,具有更好的并行性和效率 28。
C. 相较于扩散模型的优势
-
- 推理速度: 如前所述,NOVA的推理速度(约12秒生成33帧)显著快于许多需要多步迭代采样的扩散模型(可能超过50秒)28。这是NQ-AR方法的一个核心竞争力。
- 内禀因果性: NOVA严格保持了逐帧的时间因果性,这对于视频这种具有强时序依赖的数据类型是自然的。相比之下,非自回归的扩散模型需要依赖特定的架构设计(如时空注意力)或后处理方法来保证时间一致性 13。
- 灵活性与上下文学习: AR的结构天然支持灵活的条件输入和上下文学习。例如,通过改变初始帧(上下文),NOVA可以轻松实现视频扩展、插帧、图像到视频生成等任务,且通常无需针对性训练(零样本泛化)28。扩散模型通常需要特定的训练或微调来实现这些功能,尽管一些类AR的扩散方法(如基于上一帧条件生成下一帧)也在发展中 5。
- 训练效率: NOVA声称其训练成本低于同等规模的扩散模型 28。
IV. 非量化AR方法面临的挑战与局限
A. 连续空间建模:稳定性、误差累积与复杂度
-
- 稳定性: 直接对连续分布进行建模通常比处理离散空间更具挑战性。虽然NOVA采用扩散损失来增强鲁棒性,但在多样化的数据和长序列生成过程中,确保整个训练和推理过程的稳定性仍然是一个潜在的挑战 28。与其他连续空间方法相比,扩散损失的稳定性仍需在更广泛的场景下验证 32。
- 误差累积: 这是视频自回归模型的经典难题。在连续空间中,预测早期帧或标记时产生的微小误差可能会随着时间的推移而传播和放大,导致长视频生成过程中出现内容漂移、质量下降或伪影 5。NOVA中的Scale & Shift LayerNorm机制旨在缓解此问题 28,但其在极长视频序列上的有效性仍有待检验。
- 计算复杂度: 虽然NQ-AR的单步推理可能比扩散模型快,但其自回归特性决定了生成过程必须逐帧顺序进行。此外,NOVA帧内的空间逐集预测采用了双向注意力机制,这比简单的AR预测器计算开销更大 28。同时,扩散损失的计算本身也需要一个噪声预测网络(MLP),这在训练阶段增加了额外的参数量和计算负担 27。
B. 可扩展性:数据需求、分辨率与时长
-
- 数据需求: 训练高质量的视频生成模型,无论是AR还是扩散,都需要海量的数据集 3。尽管NOVA展现出良好的数据效率 28,但要扩展到生成更多样化、更高分辨率、更长时长的视频(例如分钟级),很可能仍然需要网络规模的数据支持。
- 分辨率与时长: 空间逐集预测有助于管理帧内复杂度,但随着分辨率的提高,标记/集合的数量仍会增加。对于非常长的视频,逐帧顺序生成成为主要的性能瓶颈 4。虽然NOVA展示了对更长时长的泛化能力 28,但AR模型在处理极长序列时可能存在的根本性限制(如上下文长度限制、误差累积)依然存在。
C. 架构兼容性与集成
-
- 与LLM范式的对齐: NQ-AR方法(特别是使用扩散损失的NOVA)如何与标准的大型语言模型(LLM)架构及其训练范式(如预训练-微调)有效整合?虽然NOVA也使用了Transformer 26,但其预测头(扩散MLP)与LLM中典型的Softmax层不同。这可能会影响从LLM进行知识迁移的效率,或是在构建统一的多模态模型方面的兼容性 1。
- 对编码器的依赖: 尽管NOVA避免了VQ,但它仍然依赖于一个初始的VAE编码器来获得连续的潜在表示 26。这个初始连续编码的质量直接影响后续的生成效果。因此,NQ-AR模型的性能在一定程度上受限于上游编码器的能力。
V. 调和连续表示与自回归
A. 预测目标:连续扩散损失 vs. 离散Softmax
-
- 差异: 对比两种预测目标的本质区别。Softmax损失函数作用于一个有限的、离散的词汇表(码本索引),输出每个离散标记的概率,天然地强制了量化。而NOVA使用的扩散损失通过学习对连续样本进行去噪来隐式地建模连续分布,避免了显式的离散化步骤 27。
- 影响: 扩散损失允许模型在连续空间中操作,从而可能保留更多信息 35。但它需要一个不同的预测机制(噪声预测器 ε_θ),而不是Softmax的直接概率输出 27。这可能影响模型预测的可解释性。
B. 平衡因果性与连续性:NOVA的混合方法
-
- 维持因果性: NOVA通过逐帧顺序预测,在时间维度上严格保证了因果性 28。这是自回归模型的核心特征。
- 利用连续性: 连续的潜在空间和扩散损失目标函数使得模型能够表示和预测细粒度的变化,而不受离散码本的限制 27。
- 桥梁: 实现这种调和的关键在于其分解策略:时间预测是因果的,负责处理视频的顺序流动;帧内的空间预测是双向的,但操作在连续标记上,并且使用扩散损失进行预测,而这个预测过程本身又受到来自因果时间上下文的条件约束。Scale & Shift层进一步帮助在因果步骤之间平滑地过渡连续分布 28。
NOVA的实践表明,自回归建模并不必然要求离散化。通过将传统的离散预测头(如Softmax)替换为一个能够处理连续值的预测头(如基于扩散损失的噪声预测器),可以在保持AR模型因果结构的同时,利用更丰富的连续潜在空间的优势。AR模型的核心在于条件概率 ( p(x_t | x_{<t}) )。传统上 ( x_t ) 是离散的。NOVA证明了 ( x_t ) 可以是连续的。其挑战在于如何对条件概率 (p(连续 x_t | context)) 进行建模。NOVA的解决方案是采用扩散启发的训练目标:学习一个函数 (ε_θ),该函数能在给定上下文的条件下,预测目标 ( x_t ) 的带噪版本中的噪声。这个函数隐式地定义了所需的条件分布(p(x_t | context)),且无需离散化,从而成功地将AR的序列性与连续表示结合起来 27。
VI. 结论与未来展望
研究总结:NOVA的贡献与地位
NOVA模型提出了一种新颖的非量化自回归(NQ-AR)视频生成方法,其核心在于结合了时间上的逐帧因果预测、空间上的逐集双向预测,并采用了连续空间中的扩散损失作为预测目标 28。研究表明,NOVA在保持较小模型规模的同时,展现出卓越的效率(推理速度快、训练成本相对较低),在文本到图像和文本到视频任务上取得了具有竞争力的生成质量,并具备良好的零样本泛化能力 28。它成功地绕过了传统VQ-AR模型的量化瓶颈,同时在速度和灵活性方面优于许多扩散模型。
然而,NQ-AR路线也面临固有的挑战,包括在连续空间中建模的稳定性问题、视觉自回归模型典型的误差累积风险、以及在处理超长视频序列时的可扩展性瓶颈 28。
NQ-AR研究的未来方向
NOVA的探索为非量化自回归视觉生成开辟了新的可能性,未来的研究可以从以下几个方面深入:
-
- 稳定性与误差控制: 开发更先进的机制来抑制连续空间AR生成中的误差累积。这可能涉及更复杂的条件注入技术、改进的相对变化建模方法(如Scale & Shift的演进)、或者探索除扩散损失之外的更稳定的连续预测目标。
- 扩展性策略: 研究如何将NQ-AR模型有效扩展到更高分辨率和更长的视频时长(例如分钟级甚至更长)。可以借鉴长上下文LLM的技术(如更有效的注意力机制、上下文管理)或视频领域的分层建模、关键帧插值等思想 3。
- 架构整合与多模态: 探索NQ-AR与主流LLM架构更深层次的融合,实现更高效的知识迁移和更自然的统一多模态理解与生成。研究如何在单一NQ-AR框架内无缝处理和生成文本、图像、视频、音频等多种模态 1。
- 替代性连续目标函数: 探索扩散损失之外的其他连续生成建模技术是否适用于AR框架,例如流匹配(Flow Matching)31 或其他基于常微分方程(ODE)的方法,评估它们在AR设置下的性能和效率。
- 理论基础深化: 加强对NQ-AR模型(特别是使用扩散损失等目标函数的模型)的理论理解,包括收敛性、稳定性、样本质量界限等方面的分析,为模型设计和改进提供更坚实的理论指导 16。
总而言之,以NOVA为代表的非量化自回归技术路线为视频生成提供了一个富有前景的新方向,它在效率、速度和灵活性方面展现出独特优势。克服其固有挑战并进一步探索其潜力,将是未来生成模型研究的重要议题。
Works cited
[1] openreview.net, accessed on April 28, 2025, https://openreview.net/pdf/9cc7b12b9ea33c67f8286cd28b98e72cf43d8a0f.pdf
[2] Language Model Beats Diffusion — Tokenizer is Key to Visual Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2310.05737
[3] arXiv:2412.03758v2 [cs.CV] 24 Feb 2025, accessed on April 28, 2025, https://www.arxiv.org/pdf/2412.03758v2
[4] Autoregressive Models in Vision: A Survey - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2411.05902v1
[5] arXiv:2412.07772v2 [cs.CV] 6 Jan 2025 - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models, accessed on April 28, 2025, https://causvid.github.io/causvid_paper.pdf
[6] An Empirical Study of Autoregressive Pre-training from Videos - arXiv, accessed on April 30, 2025, https://arxiv.org/html/2501.05453v1
[7] Advancing Auto-Regressive Continuation for Video Frames - arXiv, accessed on April 30, 2025, https://arxiv.org/html/2412.03758v1
[8] Temporally Consistent Transformers for Video Generation - Proceedings of Machine Learning Research, accessed on April 30, 2025, https://proceedings.mlr.press/v202/yan23b/yan23b.pdf
[9] LTX-Video: Realtime Video Latent Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2501.00103v1
[10] VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.12259v1
[11] Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2411.16375v1
[12] Delving Deep into Diffusion Transformers for Image and Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2312.04557v1
[13] [2405.03150] Video Diffusion Models: A Survey - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2405.03150
[14] Video Diffusion Models: A Survey - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2405.03150v2
[15] Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.18688
[16] Opportunities and challenges of diffusion models for generative AI - Oxford Academic, accessed on April 28, 2025, https://academic.oup.com/nsr/article/11/12/nwae348/7810289?login=false
[17] NeurIPS Poster 4Diffusion: Multi-view Video Diffusion Model for 4D Generation, accessed on April 28, 2025, https://neurips.cc/virtual/2024/poster/95115
[18] Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2501.03931v1
[19] [2501.00103] LTX-Video: Realtime Video Latent Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2501.00103
[20] On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models - NIPS papers, accessed on April 28, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/18023809c155d6bbed27e443043cdebf-Paper-Conference.pdf
[21] Diffusion Models for Video Generation | Lil'Log, accessed on April 30, 2025, https://lilianweng.github.io/posts/2024-04-12-diffusion-video/
[22] Asynchronous Video Generation with Auto-Regressive Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.07418v1
[23] The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.04606v1
[24] From Slow Bidirectional to Fast Autoregressive Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.07772v2
[25] Video Diffusion Models - A Survey - OpenReview, accessed on April 28, 2025, https://openreview.net/pdf?id=sgDFqNTdaN
[26] NOVA: A Novel Video Autoregressive Model Without Vector Quantization - MarkTechPost, accessed on April 30, 2025, https://www.marktechpost.com/2024/12/22/nova-a-novel-video-autoregressive-model-without-vector-quantization/
[27] openreview.net, accessed on April 30, 2025, https://openreview.net/pdf?id=JE9tCwe3lp
[28] Autoregressive Video Generation without Vector Quantization | OpenReview, accessed on April 30, 2025, https://openreview.net/forum?id=JE9tCwe3lp
[29] AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion | Request PDF - ResearchGate, accessed on April 28, 2025, https://www.researchgate.net/publication/389748070_AR-Diffusion_Asynchronous_Video_Generation_with_Auto-Regressive_Diffusion
[30] [2503.07418] AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2503.07418
[31] Long-Context Autoregressive Video Modeling with Next-Frame Prediction - arXiv, accessed on April 30, 2025, https://arxiv.org/html/2503.19325v1
[32] Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation, accessed on April 28, 2025, https://www.researchgate.net/publication/390038718_Bridging_Continuous_and_Discrete_Tokens_for_Autoregressive_Visual_Generation
[33] [2406.11838] Autoregressive Image Generation without Vector Quantization - arXiv, accessed on April 30, 2025, https://arxiv.org/abs/2406.11838
[34] MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation - Monash University, accessed on April 30, 2025, https://researchmgt.monash.edu/ws/portalfiles/portal/505898175/484426413_oa.pdf
[35] [Papierüberprüfung] Autoregressive Video Generation without Vector Quantization, accessed on April 30, 2025, https://www.themoonlight.io/de/review/autoregressive-video-generation-without-vector-quantization
[36] Autoregressive Video Generation without Vector Quantization, accessed on April 30, 2025, https://bitterdhg.github.io/NOVA_page/
[37] [Literature Review] Autoregressive Video Generation without Vector Quantization, accessed on April 30, 2025, https://www.themoonlight.io/review/autoregressive-video-generation-without-vector-quantization
[38] Autoregressive Video Generation without Vector Quantization - arXiv, accessed on April 30, 2025, https://arxiv.org/html/2412.14169v1
[39] showlab/FAR: Code for: "Long-Context Autoregressive Video Modeling with Next-Frame Prediction" - GitHub, accessed on April 30, 2025, https://github.com/showlab/FAR
[40] baaivision/NOVA: [ICLR 2025] Autoregressive Video Generation without Vector Quantization - GitHub, accessed on April 30, 2025, https://github.com/baaivision/NOVA
[41] [2412.14169] Autoregressive Video Generation without Vector Quantization - arXiv, accessed on April 30, 2025, https://arxiv.org/abs/2412.14169
[42] Paper page - Autoregressive Video Generation without Vector Quantization - Hugging Face, accessed on April 30, 2025, https://huggingface.co/papers/2412.14169
[43] Autoregressive Video Generation without Vector Quantization | Request PDF, accessed on April 30, 2025, https://www.researchgate.net/publication/387184299_Autoregressive_Video_Generation_without_Vector_Quantization
[44] AUTOREGRESSIVE VIDEO GENERATION WITHOUT VEC- TOR, accessed on April 30, 2025, https://openreview.net/pdf/f9493043571f9ac8315899860b05fc1315b6d70c.pdf
[45] Fast Sampling via Discrete Non-Markov Diffusion Models with Predetermined Transition Time - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2312.09193v3
[46] arXiv:2503.15417v1 [cs.CV] 19 Mar 2025, accessed on April 30, 2025, https://arxiv.org/pdf/2503.15417?
[47] Generalizing diffusion modeling to multimodal, multitask settings - Amazon Science, accessed on April 30, 2025, https://www.amazon.science/blog/generalizing-diffusion-modeling-to-multimodal-multitask-settings
[48] Fast Autoregressive Video Generation with Diagonal Decoding - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.14070v1
[49] Photorealistic Video Generation with Diffusion Models - European Computer Vision Association, accessed on April 28, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10270.pdf
[50] G-U-N/Awesome-Consistency-Models: Awesome List of ... - GitHub, accessed on April 28, 2025, https://github.com/G-U-N/Awesome-Consistency-Models
[51] ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation - arXiv, accessed on April 28, 2025, https://arxiv.org/pdf/2406.01586?
[52] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text, accessed on April 28, 2025, https://openreview.net/forum?id=26oSbRRpEY
[53] Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2501.07563v1
[54] [2412.07772] From Slow Bidirectional to Fast Autoregressive Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2412.07772
[55] Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.16430v2
[56] [2502.07508] Enhance-A-Video: Better Generated Video for Free - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2502.07508
[57] Enhance-A-Video: Better Generated Video for Free - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2502.07508v3
[58] Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution - CVPR 2024 Open Access Repository, accessed on April 28, 2025, https://openaccess.thecvf.com/content/CVPR2024/html/Chen_Learning_Spatial_Adaptation_and_Temporal_Coherence_in_Diffusion_Models_for_CVPR_2024_paper.html
[59] CVPR Poster Grid Diffusion Models for Text-to-Video Generation, accessed on April 28, 2025, https://cvpr.thecvf.com/virtual/2024/poster/29533
[60] SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models - AAAI Publications, accessed on April 28, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/32663/34818
[61] NeurIPS Poster StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation, accessed on April 28, 2025, https://neurips.cc/virtual/2024/poster/94916
[62] Subject-driven Video Generation via Disentangled Identity and Motion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.17816v1
[63] ART•V: Auto-Regressive Text-to-Video Generation with Diffusion Models - CVF Open Access, accessed on April 30, 2025, https://openaccess.thecvf.com/content/CVPR2024W/GCV/papers/Weng_ART-V_Auto-Regressive_Text-to-Video_Generation_with_Diffusion_Models_CVPRW_2024_paper.pdf
[64] NeurIPS Poster FIFO-Diffusion: Generating Infinite Videos from Text without Training, accessed on April 28, 2025, https://nips.cc/virtual/2024/poster/93253
[65] ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2406.10981v1
[66] Owl-1: Omni World Model for Consistent Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.09600v1
[67] TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models - CVF Open Access, accessed on April 28, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Ni_TI2V-Zero_Zero-Shot_Image_Conditioning_for_Text-to-Video_Diffusion_Models_CVPR_2024_paper.pdf
[68] [2410.08151] Progressive Autoregressive Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2410.08151
[69] Long-Context Autoregressive Video Modeling with Next-Frame Prediction - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.19325v2
[70] One-Minute Video Generation with Test-Time Training, accessed on April 28, 2025, https://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
[71] Long-Context Autoregressive Video Modeling with Next-Frame Prediction - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2503.19325
[72] SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.11455v1
[73] A Survey on Vision Autoregressive Model - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2411.08666v1
[74] SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.11455
[75] [2412.18688] Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2412.18688