生成式AI的两条视频生成路线

自回归模型 vs 扩散模型（文献综述）

1. 引言

1.1. 高保真视频生成的挑战

视频数据本身具有内在的复杂性，它不仅包含丰富的空间细节，还蕴含着动态的时间信息。视频生成任务的目标是合成一系列帧，这些帧不仅在单帧视觉上要逼真，而且在时间维度上需要保持连贯性，确保物体外观一致且运动平滑自然 [1]。近年来，随着短视频娱乐、模拟仿真、内容创作以及人工智能驱动决策等领域对可控视频合成需求的日益增长，视频生成技术受到了广泛关注 [4]。

1.2. 自回归与扩散模型成为主导范式

在生成模型中，自回归（Autoregressive, AR）模型和扩散（Diffusion）模型已成为视频生成领域的两大范式。AR模型借鉴了其在自然语言处理（NLP）领域的巨大成功，把序列预测的方式应用于视觉数据 [6]。扩散模型则作为一种默认方案，在图像生成领域取得了当前最佳（State-of-the-Art, SOTA）效果 [8]，并迅速应用于视频生成任务 [4]。这两种范式之间存在一个核心的张力：AR模型天然适合处理序列数据，而扩散模型在生成质量上表现突出，这导致它们具有各自的优势和劣势 [8]。

1.3. 报告范围与结构概述

本报告旨在对近期（2023-2025年）视频生成领域中AR模型、扩散模型以及混合模型的研究进展进行比较分析。报告将重点探讨以下关键方面：核心原理、模型架构、条件控制（特别是文本到视频）、离散与连续表示的桥接、效率与连贯性的权衡、混合模型的设计、基准测试表现、当前面临的挑战以及未来的发展趋势，并参考了Google Veo、OpenAI Sora等具体模型实例。分析将主要依据顶级会议（如CVPR, NeurIPS, ICML, ICLR）的最新论文和相关预印本 [1]。

2. 基础范式：自回归 vs. 扩散模型

2.1. 自回归 (AR) 模型

核心原理：序列预测

AR模型的基本原理是通过条件概率对数据序列进行建模[6]：

生成过程是逐元素（像素、图像块或token）进行的，每个元素的生成都以先前已生成的元素为条件。这种方法强调了内在的因果性——生成只依赖于过去，这使其天然适用于处理像视频这样的时序数据 [6]。

2.1.1. 架构选择

- Transformer： 鉴于其在NLP领域的成功，Transformer已成为AR视觉模型的主流架构 [6]。模型通常利用因果注意力机制来确保生成过程仅依赖于过去的信息 [16]。
- 元素化（Tokenization）的角色： 这是将序列模型应用于视觉数据的关键步骤。不同方法包括：

- 1. 基于像素的AR： 早期的尝试直接对像素进行建模，计算成本高昂 [6]。
  2. 基于标记的AR： 目前更常见。需要一个视觉信号元素化的切分器（visual tokenizer），例如VQ-VAE 或VQGAN，将图像/帧转换为离散标记（token） [7]。然后，AR模型对token序列进行建模 [15]。
  3. 连续/非量化AR： 新兴方法如NOVA 避免了离散token化，直接在连续表示上进行自回归建模，可能减少信息损失 [20]。

VQ-VAE (Vector Quantized Variational Autoencoder) 和 VQGAN (Vector Quantized Generative Adversarial Network) 都是视觉令牌化器 (visual tokenizers) 。它们的核心作用是将连续的视觉数据（如图像或视频帧）压缩并转换成离散的元素 (discrete tokens) 序列 。这使得强大的序列模型（如自回归模型中常用的 Transformer）能够像处理文本一样处理和生成视觉内容 。它们通常包含一个编码器将图像/帧压缩到潜在空间，然后通过矢量量化 (Vector Quantization) 步骤，将潜在空间中的向量映射到码本 (codebook，类似于词典) 中最接近的条目 。之后，解码器再根据这些离散tokens重构出图像/帧。这种离散化的表示简化了后续的生成建模（例如可以使用标准的交叉熵损失进行训练），但也面临挑战，即将连续的视觉特征强制映射到有限的离散tokens集合中的“量化”过程，可能会丢失细节信息，从而影响最终生成图像或视频的质量。

新兴的非量化AR方法，如NOVA模型，旨在绕过这个离散token化步骤，直接在连续的数据表示上进行自回归建模：1.保留时间上的自回归性：NOVA像传统的AR模型一样，在时间维度上是自回归的，即逐帧预测。它根据已经生成的前一帧来预测当前帧，保持了生成过程的因果性（只依赖过去信息）。2.空间上的并行/集合预测：在生成单帧内部的空间细节时，NOVA采用了不同的策略。它不是像早期AR模型那样逐像素或逐块预测，而是引入了一种“集合预测”（set-by-set prediction）的方式，并利用了双向建模（bidirectional modeling）。这意味着在预测帧内某个区域时，模型可以同时考虑该区域周围的其他空间信息，这类似于掩码语言模型BERT或扩散模型在处理空间信息时的思路，但关键在于NOVA是在连续表示上执行此操作，没有进行离散量化 。3.避免离散令牌化：通过这种“时间上自回归，空间内双向”的混合策略，NOVA可以直接对连续的视频数据（或其连续的潜在表示）进行建模，完全避免了将视频转换为离散tokens的步骤 。

- 元素切分器质量的瓶颈： AR模型的性能在很大程度上取决于元素器能否创建简洁、富有表现力且可重构的tokens [22]。MAGVIT-v2 [18] 声称其无查找量化（Lookup-Free Quantization, LFQ）技术通过支持更大的词汇表和更好的表示，使得语言模型（LM）能够在基准测试中超越扩散模型，这表明AR模型的局限性可能并非来自AR机制本身，而是其离散表示环节 [16]。TokenBridge [19] 也致力于结合离散建模的简便性和连续表示的强大能力。

LFQ 的底层原理。解决了传统向量量化（VQ）的痛点。

传统的VQ是这样工作的：

1. 有一个预先定义好的字典（码本），里面包含数量有限的条目（比如8000个）。每个条目本身就是一个高维向量 embedding（“嵌入向量”，好比词典的词条），代表一种典型的视觉模式。

2. 查词典（Lookup ）：为了量化特征向量，需要将它与字典中的每一个条目进行比较，找出数学上最接近的那一个 。

3. Token：最终得到的“token”不是那个复杂的字典条目本身，而只是它在字典中的索引号（例如，8000个条目中的第5231号）。

瓶颈：在字典中存储成千上万个这样的复杂嵌入向量，并在其中进行搜索（即“查找匹配”过程），计算成本非常高。这限制了字典（码本）实际能做得多大。而小字典意味着你可能不得不把看起来很不一样的图像块强制映射到同一个token上，从而丢失细节。 

LFQ的“简化表示”从根本上改变了“字典”的结构和使用方式：

1. 不再需要复杂的高维向量字典条目：LFQ完全摆脱了在其码本中存储复杂嵌入向量的需求。

2. 每个维度上的简单选择：只从一小组预定义的简单值中做出选择，可以简单到二值（+1或-1）。举例（MAGVIT-v2的二进制情况） ：假设编码器输出的连续特征向量有18个维度：[f1, f2, f3,..., f18]。对于每一个维度 fi，LFQ只做简单的判断：fi 是更接近 -1 还是 +1？“量化”后的表示不再是一个单一的索引号，它变成了跨所有维度的这些简单选择的序列。例如，它可能变成 [+1, -1, +1, +1, -1,..., +1]。 为什么这种简化很强大？ 1. 消除了查找瓶颈：计算成本高昂的查找步骤消失了。 2. 支持巨大的词汇表：如果有 d 个维度，每个维度可以取 k 个简单值（在MAGVIT-v2的例子中，k=2），那么就有 k^d 种可能的组合。对于 d=18 和 k=2 的MAGVIT-v2，这意味着有 2^18 ≈ 262,000 个可能的唯一tokens！ 这远超VQ中典型的几千个词汇量。   3. 捕捉更多细节：这个巨大的有效词汇表意味着量化过程能够以更高的保真度表示原始视觉信息。输入特征中的细微差异不太可能被压缩到同一个token中，从而保留了更多细节，并带来了更好的重建和生成质量，正如MAGVIT-v2所展示的那样 。    本质上，LFQ通过简化码本内部的表示（从复杂向量简化为每个维度上的简单选择）来消除查找过程，这反而允许了一个规模大得多、表达能力更强的整体离散tokens集合。简化的代价与补偿：二进制LFQ每维仅1bit，传统VQ（K=1024）每向量约10bit。补偿机制：- 视频帧间相似性可恢复部分信息；通过上下文模型压缩符号序列。

2.1.2. 训练与采样

- 训练通常采用教师强制（teacher forcing）策略，即给定真实的先前元素来预测下一个真实的元素 [24]。教师强制通过始终提供真实训练数据的输入，让模型能专注于学习如何从上文预测符合真实数据的下文。
- 采样过程是严格串行的（一次一个token/一次一帧）[15]，导致推理速度缓慢，尤其对于长序列（如视频）而言 [15]。

2.1.3. 固有优缺点

- 优点： 由于直接以所有过去的帧为条件，时间连贯性强 [12]；擅长捕捉长程依赖关系；可能更容易受益于来自大型语言模型的缩放定律，提升空间大 [6]；生成长度灵活 [2]。
- 缺点： 采样速度慢（自回归严格串行）[15]；长序列生成过程中可能出现误差累积（训练-推理不一致）[1]；视觉质量可能受限于离散token化 [8]；难以并行化加速。

2.1.4. 深层分析

AR视觉模型的性能提升轨迹似乎与视觉token化和表示学习的进展紧密相关。如果token化技术能够克服信息损失和效率问题（如MAGVIT-v2 [18] 和NOVA [20] 所展示的潜力），AR模型可能会变得极具竞争力，它们可以利用成熟的Transformer架构，并可能更直接地受益于LLM的缩放法则 [6]。AR模型的核心在于将连续的视觉数据转换为序列。早期的基于像素或token的方法面临局限性 [6]。MAGVIT-v2的结果 [18] 表明，改进token化步骤（LFQ，更大的词汇表）可以直接转化为性能提升，甚至在基准测试中超越扩散模型。NOVA [20] 则完全绕过了离散tokens。这表明AR核心机制本身是强大的，但其视觉接口（tokenizer）一直是主要的瓶颈。克服这个瓶颈可能会释放巨大的潜力。此外，AR模型的串行特性虽然导致速度较慢，但为交互式应用和流式生成提供了一个自然的框架。如果上下文窗口和推理速度能够得到充分提升，这可能成为其相对于通常进行批量生成的扩散模型的一个优势 [15]。AR模型逐元素生成。像CausVid这样的模型 [15] 明确利用了这一点，通过将扩散模型改造为因果/AR形式，实现了低延迟的流式生成（例如，初始延迟后达到9.4 FPS [15]）。

2.2. 扩散模型 (DM)

核心原理：迭代去噪。扩散模型包含两个过程 [4]：

1) 前向过程：逐步向原始数据 x₀添加噪声（通常是高斯噪声），经过 t 步到达一个简单的先验分布（纯噪声）xₜ 。

2) 反向过程：常见的形式包括DDPM（预测噪声）和基于分数的模型（预测分数函数 ∇logp(x)。

2.2.1. 架构选择

- U-Net： 最初的主流架构，从图像生成领域沿用而来，通常为视频任务加入时间层或时间注意力机制 [4]。
- 扩散Transformer (DiT)： 日益流行，用Transformer取代U-Net作为骨干网络 [4]。DiT通常在潜在块（latent patch）上操作（对于视频是时空块，例如Sora [5]、Latte [36]、GenTron [33]）。DiT受益于Transformer的可扩展性和灵活性 [33]。
- 潜在扩散模型 (LDM)： 在由自编码器（VAE）学习到的压缩潜在空间中执行扩散过程 [4]。这显著降低了计算成本，使得更高分辨率的生成成为可能 [37]。LTX-Video [38] 展示了一个高度优化的LDM，集成了VAE/Transformer的角色并实现了高压缩率（1:192 [38]）。LaMD [41] 则专门在潜在运动空间进行扩散。
- 级联模型： 使用多个扩散模型，通常用于渐进式上采样或精炼 [4]。

2.2.2. 训练与采样

- 训练目标通常是最小化去噪误差（预测噪声或原始数据），通过变分下界或分数匹配实现 [9]。
- 采样需要进行多次迭代去噪步骤（几十到几千步）[9]，与单次前向传播的模型相比速度较慢 [15]。但每一步通常可以在空间维度/块上并行计算。

2.2.3. 固有优缺点

- 优点： 生成质量和视觉保真度达到SOTA水平 [8]；对复杂数据分布更鲁棒；训练稳定性通常优于GAN [9]；每步内部可并行。
- 缺点： 采样速度慢（迭代性质）[9]；需要大量步骤才能达到高质量；时间连贯性可能是一个挑战，尤其是在潜在空间中或由于固有的采样随机性 [4]；训练/推理计算成本高 [4]。同步扩散（所有帧使用相同噪声水平）限制了灵活性 [1]。

2.2.4. 深层分析

扩散模型内部从U-Net向Transformer（DiT）的架构转变，标志着一种趋同，即借鉴Transformer在其他领域（如NLP/AR模型）展示出的缩放特性和架构灵活性。这为跨生成范式的统一架构铺平了道路。早期扩散模型使用U-Net [4]。而近期备受瞩目的模型，如Sora [5]、Latte [36]、GenTron [33] 和 LTX-Video [38]，都明确采用了DiT架构。其理由通常是可扩展性和灵活性 [33]。这与Transformer在AR模型中的主导地位相呼应 [6]。采用共同的骨干架构有助于技术（如注意力机制、条件注入方法）的交叉借鉴，并可能利用相似的缩放研究成果。

潜在扩散模型（LDM）代表了一种关键的实践性折衷，通过牺牲一些理论上的纯粹性（直接在像素上扩散）换取了计算效率的大幅提升，从而使高分辨率视频生成变得可行。然而，这也引入了潜在的质量下降（VAE伪影、细节损失），需要采取措施进行缓解。像素空间的扩散计算成本高昂 [37]。LDM通过在压缩的潜在空间中操作来解决这个问题 [4]。像LTX-Video [38] 这样的模型通过极高的压缩率（1:192）来追求速度，但也明确指出了细节表示的挑战并提出了解决方案（VAE解码器也参与去噪）。Sora [5] 和MovieGen也使用潜在扩散。这突出表明，由LDM驱动的效率是当前大规模视频模型的关键推动因素，尽管可能存在权衡 [34]。

3. 视频生成中的条件控制

3.1. AR模型的条件控制策略

- 文本条件： 通常通过将文本嵌入添加到视觉token序列的前缀来实现，使AR模型能通过其因果注意力机制根据文本进行生成 [8]。一些模型可能在统一的Transformer架构内集成文本编码 [8]。
- 图像条件 (I2V)： 初始图像可以被token化并用作AR序列生成的起始前缀 [15]。CausVid因其AR设计而展示了零样本I2V能力 [15]。
- 其他模态： AR模型的序列特性使其天然兼容token化的多种模态（语言、音频），便于进行多模态理解和生成 [8]。

3.2. 扩散模型的条件控制策略

- 分类器引导 (Classifier Guidance)： 早期方法，使用一个独立的分类器梯度来引导采样朝向条件。训练和应用通常比较复杂。
- 无分类器引导 (Classifier-Free Guidance, CFG)： 主流技术。同时训练有条件（例如，基于文本嵌入）和无条件（例如，空token）的扩散模型。推理时，将预测的噪声从未条件预测向有条件预测外推，由引导尺度控制 [9]。广泛应用于T2V模型 [33]。
- 交叉注意力 (Cross-Attention)： U-Net/Transformer骨干网络中注入条件信息（例如，来自CLIP/T5的文本嵌入）到中间层的标准机制 [5]。
- 适配器层/ControlNets： 添加到预训练模型中的轻量级模块，用于实现新的控制形式（如姿态、深度、边缘、身份），无需完全重新训练 [31]。Magic Mirror在DiT中使用适配器进行身份条件控制 [40]。
- 输入拼接： 条件信息（例如，低分辨率视频、带噪图像）可以与输入噪声张量拼接 [34]。
- 自适应层归一化 (AdaLN) / 调制： 在DiT中用于注入条件（时间步、类别标签、文本嵌入），通过调制归一化层参数实现 [9]。SimpleAR指出，如果只是简单地将条件相加，可能会导致干扰 [8]。

3.3. 比较分析：文本到视频 (T2V) 机制

- AR (例如 Phenaki [17])：通过文本token影响后续视频token的生成，经由因果注意力实现条件控制。与Transformer架构集成概念简单。严重依赖token切分器质量。
- 扩散 (例如 Veo [50], Sora [32], Stable Diffusion Video [53])：通常使用CFG和交叉注意力，结合强大的文本编码器（如T5或CLIP变体）。条件控制在每个去噪步骤中发生，可能允许在整个生成过程中进行更精细的控制。Veo使用文本/图像提示 [50]。Sora使用文本/图像提示，能理解复杂场景和物理（一定程度上），在潜在空间的时空块上操作 [5]。
- 混合 (例如 ART•V [54], LanDiff [12])： ART•V 逐帧生成（AR风格），使用以文本和先前帧为条件的扩散模型 [54]。LanDiff 使用LLM（AR）进行语义规划，然后用扩散模型生成细节 [12]。
- 共同逻辑： 两种范式都旨在使生成的视频分布 p(video∣prompt) 与真实的条件分布对齐。两者都严重依赖强大的预训练文本编码器。

3.4. 深层分析

与标准AR模型主要基于序列前缀/注意力的条件控制相比，扩散模型提供了更多样化的条件控制工具集（CFG、交叉注意力、适配器、输入拼接、AdaLN）。这种灵活性或许解释了扩散模型目前在超越简单文本提示的可控生成任务中的领先地位。文献描述了多种专用于扩散模型的不同条件机制：CFG [9]、交叉注意力 [5]、适配器/ControlNets [31]、输入拼接 [34] 和AdaLN调制 [9]。对于AR模型，讨论的主要机制是通过序列输入（文本前缀、图像前缀）和因果注意力进行条件控制 [8]。虽然有效，但这似乎不如扩散模型的工具集多样化，后者允许在不同的架构点和生成阶段注入控制。这表明扩散架构可能天生更适应多样化的控制信号。

混合模型的兴起，特别是那些明确区分语义/结构生成（通常类似AR）与细节/纹理合成（通常类似Diffusion）的模型，表明人们逐渐认识到不同的生成范式在视频生成过程的不同抽象层次上各有优势。LanDiff [12] 明确使用LLM（AR）处理高级语义token，并使用扩散模型处理低级细节。ARCON [28] 交替生成语义和RGB token。这种分工利用了AR在序列化、高级规划方面的优势，以及扩散在像素级细节和质量方面的优势，承认了每种范式单独用于完成整个任务时的局限性。

4. 桥接离散与连续表示

4.1. 离散扩散方法 (D3PM, Masked/Absorbing Diffusion)

- 概念： 将扩散框架应用于离散数据（如token），通过定义一个破坏token的前向过程（例如，替换为特殊的token或基于矩阵进行转换）和一个预测原始token的反向过程 [55]。
- D3PM (离散去噪扩散概率模型)： 使用转移矩阵 Qt 的离散扩散通用框架 [57]。可以使用均匀转移、类高斯核或吸收状态 [58]。
- Masked/Absorbing Diffusion： D3PM的一种特定且成功类型，其中token转换为特殊的吸收状态[55]。学习过程涉及根据掩码序列预测原始token [55]。其优点包括非序列生成的潜力以及更容易实现填充（inpainting）[55]。近期工作简化了训练目标（加权交叉熵损失）[55]。RADD [60] 提出了重参数化以提高效率。
- 在视觉/视频中的应用： 虽然主要在文本领域探索 [55]，但掩码扩散正被应用于图像（像素级建模 [55]）和多模态设置（UniDisc [56]）。其在视频token生成中的具体应用在文献中记载较少，但代表了AR视频token建模的一种潜在替代方案。MaskGIT [22] 和 MAGVIT [22] 使用掩码语言模型（MLM）处理VQtoken，这在概念上与掩码扩散的迭代细化过程相似。

4.2. 连续潜在空间建模 (扩散模型中的VAE/DiT)

如第2.2节所述，标准（高斯）扩散模型天然在连续空间中操作。LDM使用VAE将视频映射到连续潜在空间，并在该空间进行扩散 [4]。DiT在连续的潜在块上操作 [4]。

4.3. 概念联系与混合形式

- 弥合差距： 用户查询指出，在特定条件下，离散扩散可以类似于AR采样。TokenBridge [19] 明确尝试结合两者的优点，通过对连续VAE特征进行训练后量化，为更简单的AR模型创建离散token。
- AR-Diffusion： 这种混合模型 [1] 将扩散原理（破坏/去噪）应用于来自AR-VAE的连续潜在特征，但使用了受AR启发的异步噪声计划（非递减时间步）和因果注意力。这直接融合了连续扩散机制和AR的结构约束。
- Masked模型 (MLM vs. Diffusion)： 像BERT/MAGVIT这样的掩码语言模型 [18] 和掩码扩散 [55] 共享预测序列掩码部分的概念，主要区别在于扩散模型的迭代细化过程与MLM推理中可能更少的步骤。两者都提供了替代从左到右AR生成的方案。

4.4. 深层分析

对视觉/多模态任务探索离散扩散 [55]，直接挑战了连续扩散天生优于处理感知数据的观点。这方面的成功可能为模型开辟一条道路，使其既能受益于扩散模型灵活的生成过程（例如，修复、迭代细化），又能操作于大型Transformer架构可能偏好的离散token上。标准扩散使用高斯噪声 [4]。离散扩散（D3PM/Masked）是专门为离散数据设计的 [55]。虽然AR模型传统上使用离散token [7]，但离散扩散提供了一种不同的方式来建模这些token，可能避免AR的误差累积和串行瓶颈 [55]。UniDisc [56] 展示了一个统一的离散扩散模型用于文本和图像，表明除了AR之外，基于token的多模态生成是可行的。

像TokenBridge [19] 这样的方法以及AR-Diffusion [1] 的结构发展表明，存在一种将表示学习（连续VAE/特征）与生成建模过程（可以是离散AR或受约束的扩散）解耦的趋势。这种模块化可以允许利用强大的连续表示，同时使用更简单或更结构化的生成过程。TokenBridge [19] 明确地将连续VAE训练与用于AR建模的后置量化分开。AR-Diffusion [1] 首先使用AR-VAE获取连续潜变量，然后对这些潜变量应用受约束的扩散过程。这种分离与端到端的离散 tokenizer（如VQ-VAE 7）或端到端的连续扩散 [33] 形成对比。这种模块化表明了一种设计原则，即将连续表示学习的优势与不同生成框架（AR、离散扩散、受约束的连续扩散）所期望的属性（简单性、结构性、可控性）相结合。

5. 效率与时间连贯性的进展

5.1. 加速自回归生成

- 并行解码： 像DiagD [25] 这样的技术提出了对角线解码路径，以实现帧内和跨帧的部分并行token生成，相比标准的顺序解码实现了显著的加速（高达10倍）[25]。
- 非量化模型： NOVA [20] 声称通过避免矢量量化并在连续空间中使用时间逐帧+空间逐集预测，实现了高效率和速度。其推理时间仅需12秒，而现有扩散模型需要50多秒 [20]。
- 混合/改造扩散： CausVid [15] 将扩散模型改造为AR生成，利用蒸馏（DMD）和KV缓存实现快速（9.4 FPS）流式生成 [15]。AR-Diffusion [1] 使用专门的调度器（FoPP, AD）并追求灵活性，在某些设置下可能由于扩散集成而比纯AR更快 [63]。
- 长上下文建模效率： FAR [21] 使用长短期上下文（高分辨率短窗口，低分辨率长窗口）和多级KV缓存来管理长视频的计算成本（注意力的二次复杂度 [26]）[67]。
- 推理引擎： 使用优化的推理库（如vLLM）和技术（如推测采样）可以加速AR推理 [8]。

5.2. 加速扩散采样

- 潜在扩散 (LDM)： 如前所述（2.2, 4.2），在潜在空间操作显著降低了计算成本并加速了生成 [4]。LTX-Video [38] 通过高度优化的LDM实现了比实时更快的生成（在H100上2秒生成5秒视频）[38]。VGDFR [37] 提出了动态潜在帧率，可在LDM中无需重新训练即可进一步提速（高达3倍）[37]。
- 一致性模型/蒸馏 (Consistency Models / Distillation)：

- 1. 概念： 训练模型（一致性模型）或蒸馏大型模型（一致性蒸馏）以在极少的步骤（通常1-4步）内完成去噪，而不是数百/数千步 [69]。
  2. 视频应用： CausVid使用DMD将50步模型蒸馏为4步 [15]。潜在一致性模型（LCM）正被应用于/改造用于视频 [69]。诸如运动一致性模型 [70]、T2V-Turbo [70]、DOLLAR [70]、SnapGen-V [70]、AnimateLCM [70] 等技术旨在实现少步/快速视频生成。ManiCM将一致性蒸馏应用于机器人操纵（动作生成）[69]。

- 改进的求解器/采样器： DDIM [61] 提供了早期的非马尔可夫采样。其他先进的ODE/SDE求解器或专门的采样技术可以减少步骤数 [10]。RADD [60] 通过缓存加速离散扩散采样。

5.3. 增强扩散模型的时间连贯性

- 架构修改： 在U-Net或Transformer骨干网络中集成时间注意力/层有助于建模时间依赖性 [3]。DiT中的完全时空注意力（例如，Sora [5]、LTX-Video [38]）旨在捕捉复杂的时空相关性。
- 光流/传播技术： 使用光流引导生成或传播潜在特征可以强制一致性 [34]。Upscale-A-Video使用光流引导的潜在传播 [34]。
- 训练策略： 联合图像-视频训练可以提高帧质量并可能增强连贯性 [3]。在更长的序列上训练或使用特定的上下文机制。
- 免训练增强： Enhance-A-Video [31] 在推理时修改时间注意力分布（使用跨帧强度CFI和温度缩放）来提升预训练DiT模型的连贯性，无需重新训练 [31]。
- 自回归条件控制： 使用扩散模型逐块自回归生成视频，将每个新块的生成条件设置为前一个块的最后一帧（或几帧）[4]。挑战包括效率 [77] 和维持超出条件窗口的长期一致性 [14]。FIFO-Diffusion [74] 提出了对角线去噪以实现无限生成。StreamingT2V [75] 在AR扩散中使用CAM/APM模块来保证一致性。ViD-GPT [78] 使用因果注意力和帧提示（frame prompting）实现GPT风格的AR扩散。Ca2-VDM [77] 使用因果生成和缓存共享实现高效的AR扩散。
- 世界模型/潜在状态： Owl-1 [14] 提出使用代表“世界”的潜在状态变量为迭代视频生成提供长期连贯的条件，旨在克服仅依赖最后一帧条件的局限性 [14]。
- 一致性机制： Consistent Self-Attention [44] 旨在以零样本方式增强T2I模型生成帧之间的一致性，并可扩展到视频。运动一致性损失 [80] 用于免训练引导。

5.4. 深层分析

效率提升方面存在着平行的竞争：AR模型专注于并行化固有的串行过程（例如DiagD [25]），而扩散模型则专注于大幅减少迭代次数（例如一致性模型 [70]）。两者都在借鉴对方的思路（AR使用类似扩散的目标函数 [21]，扩散使用AR结构 [15]）。AR的瓶颈在于串行解码 [15]。像DiagD [25] 这样的解决方案通过并行化直接解决这个问题。扩散模型的瓶颈在于步骤数量 [15]。像一致性模型 [70] 这样的解决方案通过减少步骤解决这个问题。CausVid [15] 展示了这种借鉴：将扩散模型改造为AR并且使用一致性蒸馏。FAR [21] 则展示了AR借鉴类似扩散的目标函数。这表明，为了克服各自范式的主要效率瓶颈，研究人员正在积极、并行地努力，并常常采用对方的结构或目标函数思想。

实现长期时间连贯性，尤其是在自回归扩散方法中，研究重点正从简单的最后一帧条件控制转向更复杂的状态管理或上下文机制（例如，Owl-1的潜在世界状态 [14]，FAR的长短期上下文 [67]，ViD-GPT的帧提示 [78]）。这反映出模型需要维持对场景的持久理解，超越直接的历史信息。简单的基于最后几帧的AR条件控制被指出会导致长期不一致 [14]。像Owl-1 [14] 这样的模型明确提出用潜在状态来提供持久的上下文。FAR [67] 设计了特定的长/短期上下文窗口。ViD-GPT [78] 使用所有先前的帧作为提示。这些方法超越了短视的条件控制，表明维持对视频状态更丰富、更长期的表示对于扩展生成中的连贯性至关重要。

6. 混合模型：融合AR与扩散的优势

6.1. 明确结合AR和扩散的架构

- AR-Diffusion [1]：结合了AR-VAE（用于潜在表示）和异步扩散（使用非递减时间步和因果注意力）。旨在实现灵活性、可变长度，并减少AR的训练-推理差距 [1]。（注意：[63]也描述了一个用于文本的AR-Diffusion）。
- LanDiff [12]：两阶段模型。首先使用LLM（AR）生成紧凑的语义token（低比特、高级信息），然后一个以这些token为条件的扩散模型添加感知细节。灵感来自人类创作流程（先有故事情节，再填充细节）。
- ARCON [28]：训练一个AR Transformer交替预测语义token和RGB token，利用语义token 指导长期结构。
- ARDHOI [24]：提出用于人-物交互生成。使用AR结构（基于Mamba），但融入了扩散原理，可能通过一个能将HOI序列token化并感知交互的VAE实现，旨在利用AR的序列监督优势，同时可能受益于扩散对分布的处理能力 [24]。
- HART [28]：使用扩散模型恢复AR模型token化丢失的细节 [28]。
- Transfusion [7]：使用共享的Transformer同时进行离散token（类AR）预测和连续token（类扩散）处理 [7]。
- DiTAR [81]：使用AR语言模型预测特征，然后由一个局域化的扩散Transformer（LocDiT）头处理这些特征 [81]。

6.2. 隐式整合与思想交叉

- 带有AR上下文/结构的扩散模型：

- 1. CausVid [15]：将双向扩散Transformer改造为因果/自回归形式，以实现高效的流式生成。
  2. 自回归VDM（通用）： 许多VDM使用基于AR块的生成方式来生成长视频，将扩散步骤的条件设为先前输出 [4]。FIFO-Diffusion [74]、StreamingT2V [75]、ViD-GPT [78]、Ca2-VDM [77] 改进了这种用于扩散的AR结构。
  3. ART•V [54]：逐帧自回归生成，每一步使用一个扩散模型。

- 带有扩散目标/组件的AR模型：

- 1. FAR [21]：在AR框架内使用逐帧流匹配目标（概念上与扩散相关），操作于连续帧上。
  2. NOVA [20]：一个AR模型，在每帧内部使用双向建模（类似于扩散的非因果处理）进行空间预测。

6.3. 混合化的理由与潜在益处

- 结合优势： 利用AR的时间连贯性和序列建模能力，结合扩散模型的生成质量和鲁棒性 [1]。
- 弥补劣势： 使用扩散模型减轻AR的误差累积或视觉质量限制 [1]；使用AR结构改善扩散模型在长序列上的连贯性、速度或可控性 [15]。
- 效率： 混合方法可能提供更好的权衡，例如，AR用于高效的高级规划，扩散用于可并行化的细节生成 [12]。

6.4. 深层分析

混合模型的多样性（AR-Diffusion, LanDiff, CausVid, FAR 等）表明，并没有一种“最佳”方式来结合AR和扩散。最优的混合策略似乎高度依赖于要解决的具体问题（例如，速度、连贯性、质量、控制）。AR-Diffusion [1] 解决训练-推理不匹配和灵活性问题。LanDiff [12] 解决语义控制与细节的问题。CausVid [15] 解决延迟/交互性问题。FAR [21] 解决长上下文建模问题。每种方法都根据其目标采用了不同的AR/扩散原理组合。这种多样性表明，未来可能会出现针对特定任务的专门化混合架构，而不是一刀切的解决方案。

混合模型的趋势表明，“AR”和“Diffusion”模型之间的界限可能会变得模糊，从而产生统一的生成框架，融合序列预测和迭代细化的元素。像Transfusion [7] 这样的模型使用共享组件。FAR [21] 在AR结构中使用类似扩散的目标函数。CausVid [15] 使扩散模型表现出自回归行为。离散扩散 [55] 提供了非AR的序列生成方式。这种核心机制的融合指向了未来的模型可能不再严格属于任一类别，而是在一个单一、可能更强大的框架内利用两者的技术。

7. 基准测试与性能格局

7.1. 关键评估指标与数据集

- 指标：

- 1. 帧质量： FID (Fréchet Inception Distance), IS (Inception Score) - 主要用于图像质量，适用于视频帧 [18]。
  2. 时间连贯性/质量： FVD (Fréchet Video Distance) - 比较时空特征的常用指标 [2]。CLIP Score (衡量文本-视频对齐度) [75]。用户研究/人类评估 - 通常被认为是黄金标准，但成本高昂 [18]。关注动态性的指标 (DEVIL) [84]。

- 数据集： UCF101 [2], Kinetics (K400/K600) [18], ImageNet (用于T2I组件/基线) [18], SkyTimelapse [36], FaceForensics [2], Taichi-HD [36], MSR-VTT [78], Something-Something V2 (SSV2) [83], Epic Kitchens (EK-100) [83]。像Sora、Veo等模型使用大型专有数据集。LaVie引入了Vimeo25M数据集 [3]。

7.2. 标准化基准测试

- VBench / VBench-Long / VBench-2.0 [14]：旨在跨多个维度（视觉质量、时间一致性、文本对齐等）进行全面评估 [42]。VBench-Long专门针对长视频生成 [14]。VBench-2.0 使用专门指标关注“内在忠实度”（视频与提示细节的匹配程度）[82]。它揭示了性能差距，尤其是在动作忠实度方面 [82]。
- EvalCrafter [71]：综合评估工具包，使用17个客观指标和主观用户意见，涵盖视觉、内容和运动质量 [85]。提供排行榜和数据集（ECTV）[85]。
- 其他基准： GenEval [6], DEVIL (关注动态性) [84]。

7.3. [表] 领先模型比较分析

下表总结了近期部分代表性视频生成模型的关键信息和性能指标，以便进行比较。

模型名称	范式 (AR/Diffusion/Hybrid)	年份/会议	关键架构/特征	条件控制	指标, 分数, 数据集	速度/延迟	时间连贯性
Phenaki	AR	2022 (ArXiv)	Tokenizer (Causal Attn), Bidirectional Masked Transformer	Text (Time-variable)	K600 FVD: 36.4±0.2 [22]	采样慢 (AR固有)	强 (AR固有)
Veo / Veo 2	Diffusion (LDM likely)	2024/2025 (Google)	未公开细节, DiT可能	Text, Image	Veo2 SOTA (2025)	几分钟生成8s视频 (720p)	高分辨率（1080p）, 电影级真实感 [51]
Sora	Diffusion (LDM, DiT)	2024 (OpenAI)	Spacetime Patches, Latent Diffusion Transformer	Text, Image	未公开标准基准 (展示样例为主)	未公开	复杂场景, 多角色, 物理模拟 (有失败案例) [52]
MAGVIT-v2 (LM)	AR (MLM)	2023 (ICLR 2024)	LFQ Tokenizer, Masked LM	Text (implied), Class	ImageNet 512 FID: 1.91 (w/ guidance) [18]; K600 FVD: 5.2±0.2 [18]; UCF101 FVD: 4.3±0.1	快 (12-64步)	优于先前AR/Diffusion [18]
AR-Diffusion	Hybrid (AR+Diffusion)	2025 (CVPR)	AR-VAE, Asynchronous Diffusion, Non-decreasing Timesteps, Causal Attention	Implicit (Video Prediction)	FaceForensics FVD: 111.2; UCF-101 FVD: (优于先前异步扩散60.1%)	灵活的AD调度器	减少误差累积, 灵活长度 [2]
CausVid	Hybrid (AR from Diffusion)	2025 (ArXiv)	Causal Diffusion Transformer, DMD Distillation (50->4 steps), KV Caching	Text, Image (zero-shot)	VBench-Long: 84.27	初始延迟1.3s, 后续9.4 FPS	减轻误差累积, 支持长视频 [15]
LTX-Video	Diffusion (LDM, DiT)	2025 (ArXiv)	高压缩VAE (1:192), VAE参与去噪, Full Spatiotemporal Attention	Text, Image (joint training)	未列出标准基准, 声称优于同规模模型	极快 (5s 768x512视频 in 2s on H100)	高分辨率, 时间一致性 [38]
Latte	Diffusion (LDM, DiT)	2024 (ArXiv)	Latent Diffusion Transformer	Class, Unconditional	SOTA on FaceForensics, SkyTimelapse, UCF101, Taichi-HD (at time of pub) [36]	LDM 效率
LaMD	Diffusion (LDM)	2023 (ArXiv)	Latent Motion Diffusion, MCD-VAE	Image, Class, Text	SOTA on 5 I2V/cI2V/TI2V benchmarks (at time of pub)	采样速度接近图像扩散	关注运动表达和连贯性 [41]
FAR	Hybrid (AR + Flow Matching)	2025 (ArXiv)	Frame AutoRegressive, Stochastic Clean Context, Long Short-Term Context	Text (implied), Image (I2V)	SOTA on short & long video gen (at time of pub)	多级KV缓存加速 [67]	优于Token AR和VDT, 长上下文建模 [21]
Owl-1	Diffusion (Iterative w/ World Model)	2024 (ArXiv)	Latent State Variable, Dynamics Prediction, LMM for reasoning	Image (I2V context)	VBench-I2V, VBench-Long: Comparable to SOTA		旨在提高长视频一致性 [14]
LanDiff	Hybrid (AR+Diffusion)	2025 (ArXiv)	Semantic Tokenizer (LLM stage), Diffusion stage	Text	VBench T2V: 85.43 (5B model), 超越开源SOTA和部分商业模型		结合AR连贯性和Diffusion质量 [12]
Show-1	Hybrid (Pixel+Latent Diffusion)	2023 (ArXiv)	Pixel VDM (low-res) + Latent VDM (high-res)	Text		比Latent VDM对齐更好, 比Pixel VDM更高效 [42]
Stable Diffusion Video	Diffusion (LDM likely)		Advanced Diffusion Model	Text		计算需求高	现实动画, 细节视觉序列 [53]
Lumiere	Diffusion (Space-Time U-Net)	2024 (Google)	Space-Time U-Net	Text, Image			时间一致性, 全局连贯运动 [71]

7.4. 深层分析

尽管FID和FVD等客观指标被广泛使用，但人们越来越认识到它们在捕捉人类对质量、连贯性，尤其是复杂提示忠实度的感知方面存在局限性。这推动了更全面基准（VBench, EvalCrafter）的发展，并强调了人类评估的必要性。VBench-2.0 [82] 的创建正是因为现有指标无法捕捉“内在忠实度”。DEVIL [84] 关注“动态性”，认为现有指标忽略了这一点。EvalCrafter [85] 结合了客观指标和主观用户意见。MAGVIT-v2 [18] 在压缩质量评估中包含了人类评估。这些共同努力表明，研究界对纯粹基于自动化的低级指标感到不满，并正在推动采用更能反映用户关心的视频生成细微方面的评估方法。直接比较SOTA模型（尤其是像Sora、Veo这样的商业模型）通常很困难，原因包括缺乏公开的技术细节、非标准化的评估以及使用专有数据集。开放的基准和模型对于推动可复现的进展至关重要。虽然像Sora [52] 和Veo [50] 这样的模型展示了令人印象深刻的结果，但技术报告通常有限 [32]，直接比较依赖于像VBench [42] 或EvalCrafter [85] 这样的基准，这些基准评估可用的模型/API。许多论文强调开源模型和代码发布 [14]，这突显了社区对透明度和可复现性的需求，以便正确地衡量进展。

8. 关键挑战与未来研究方向

8.1. 扩展至长时视频生成

- 挑战： 随着视频长度增加，维持时间一致性、避免内容停滞/漂移以及管理计算成本（内存、时间）变得困难 [3]。注意力的二次复杂度是一个主要障碍 [26]。
- 方向： 高效AR技术（例如，FAR的长短期上下文 [67]、Ca2-VDM的缓存 [77]、ViD-GPT [78]），改进的潜在表示（例如，更高压缩率的VAE [38]），世界模型/持久状态（Owl-1 [14]），分层/分治方法 [4]，架构创新（例如，线性注意力、稀疏注意力）。

8.2. 增强可控性、忠实度和可编辑性

- 挑战： 确保生成的视频准确反映复杂提示（特别是动作、交互、数量、关系）[82]；实现用户对对象、背景、风格、运动和摄像机的细粒度控制；开发直观的视频编辑能力 [4]。当前模型在忠实度方面存在困难 [82]。
- 方向： 改进条件控制机制 [9]，在更多样化/标注的数据上训练，融入物理推理 [4]，开发更好的忠实度评估指标 [82]，探索交互式生成 [15]，研究解耦表示，专门的编辑模型 [4]。

8.3. 提高训练和推理效率

- 挑战： 大型视频模型的高计算成本和长训练时间；缓慢的推理速度限制了实时应用 [4]。
- 方向： 持续发展LDM [37]，更快的扩散采样方法（一致性模型 [69]，更好的求解器），AR的并行/高效解码 [8]，模型蒸馏/量化，硬件加速，优化的推理引擎 [8]。

8.4. 迈向世界模型与物理真实感

- 挑战： 从模式生成转向能够理解和模拟物理交互、物体恒存性、因果关系和长期后果的模型 [4]。Sora在这方面显示出潜力，但也存在失败案例 [52]。
- 方向： 集成物理引擎或约束，在强调交互的数据上训练，开发具备长程推理能力的架构（例如，Owl-1 [14]，FAR [67]），将视频模型用于强化学习/机器人技术 [4]，关注物理一致性的基准测试 [82]。

8.5. 统一多模态模型

- 挑战： 构建能够无缝理解和生成多种模态（文本、图像、视频、音频）的大一统模型 [7]。需要联合表示和架构。
- 方向： 扩展具有统一token化的AR模型 [7]，探索统一的离散扩散（UniDisc [56]），开发跨模态注意力机制，在大型多模态数据集上联合/对齐训练。

8.6. 理论理解与缩放定律

- 挑战： 对扩散模型为何效果如此之好（尤其是条件扩散模型）的理论理解有限 [10]；为视频生成建立可靠的缩放定律（预测增加数据/计算量后的性能），类似于LLM [6]。
- 方向： 扩散过程的理论分析（采样、分布学习）[10]，对AR和扩散视频模型缩放特性的实证研究 [6]，理解数据质量与数量的作用。

8.7. 伦理考量

- 挑战： 针对深度伪造、虚假信息，从数据中学习到的偏见，确保安全和负责任的部署 [4]。
- 方向： 开发强大的检测方法（例如，SynthID水印 [51]），数据集管理和偏见缓解策略，实施安全过滤器和政策 [50]，持续研究社会影响。

8.8. 深层分析

许多关键挑战（长视频、可控性、世界模型）相互关联，并指向对具有更好结构化理解和长程推理能力的模型的需求，超越纯粹的统计模式匹配。生成长期连贯的视频需要理解场景持久性和因果关系 [76]。可控性需要深入理解提示语义 [82]。世界模型明确要求对物理和交互进行推理 [28]。这些挑战可能需要模型在如何表示和推理时间、空间、物体和动作方面的根本性进步，这表明与更广泛的人工智能在推理和规划方面的研究趋于一致。

未来可能涉及模型的多样化，大型基础模型提供通用能力，而更小、更专业的模型（可能通过蒸馏或适应，如一致性模型 [70] 或适配器 [40]）则针对特定任务进行定制（例如，实时交互、高保真长篇叙事、特定的编辑功能）。训练和运行像Sora或Veo这样的大型模型的计算成本 [32] 对许多应用来说是 prohibitive 的。像一致性蒸馏 [15] 和适配器 [40] 这样的技术明确旨在从大型模型创建更快、更专业的模型。多样化的应用需求（交互式 vs. 离线，短 vs. 长，创意 vs. 模拟）也表明，单一的庞大模型不太可能对所有事情都是最优的，这有利于形成一个分层的模型生态系统。

9. 结论

9.1. AR vs. 扩散的演变与融合回顾

视频生成领域见证了自回归（AR）和扩散（Diffusion）两大范式的并行发展与日益融合。最初，AR模型凭借其处理序列数据的天然优势，在保证时间连贯性方面表现突出，但受限于采样速度和潜在的误差累积。扩散模型则以其卓越的生成质量和对复杂分布的建模能力屹立不倒，但在采样效率和长时一致性方面面临挑战。近期的研究趋势显示，两者之间的界限逐渐模糊：共享的Transformer架构成为主流，混合模型不断涌现，并且双方在目标函数、结构设计等方面相互借鉴。核心的权衡——速度、质量与连贯性——仍然存在，但通过潜在空间操作、一致性蒸馏、高效解码策略以及更智能的上下文管理机制，研究人员正在不断突破这些限制。

9.2. 当前技术能力与局限性总结

当前最先进的视频生成模型（包括AR、扩散及混合模型）已经能够生成高分辨率（例如1080p）、视觉逼真且在短时（秒级到数十秒）内保持较好连贯性的视频片段。文本到视频的条件控制能力显著增强，能够理解日益复杂的场景描述，如Google Veo [50] 和 OpenAI Sora [32] 所展示的。采样速度通过LDM [38] 和一致性模型 [15] 等技术得到大幅提升，甚至实现了接近或超过实时的生成 [38]。然而，主要局限性依然存在：生成真正意义上的长时（分钟级或更长）且全局一致的视频仍然极具挑战性 [86]；对复杂动态交互、物理规律和精确指令的忠实度有待提高 [82]；细粒度的编辑和控制能力仍不完善；训练和部署大规模模型的计算成本依然高企 [11]。

9.3. 视频生成研究的未来轨迹

视频生成研究正处在一个快速发展的阶段，AR和扩散范式，特别是它们的混合形式，将在未来一段时间内继续扮演重要角色。未来的突破可能依赖于以下几个方面：更强大的表示学习方法，能够更有效地捕捉和解耦视频的时空结构与语义信息；长程推理能力的提升，使模型能够进行规划并维持跨越更长时间尺度的状态和一致性，这可能需要借鉴世界模型 [76] 和更通用的AI推理技术；以及可能出现的超越当前AR/扩散框架的新生成建模范式。随着模型能力的增强，对可解释性、可控性、效率和伦理问题的关注也将持续升温。视频生成技术的潜力巨大，但也伴随着确保其负责任发展的重大责任。

Works cited

[1]Asynchronous Video Generation with Auto-Regressive Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.07418v1

[2][2503.07418] AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2503.07418

[3]AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion | Request PDF - ResearchGate, accessed on April 28, 2025, https://www.researchgate.net/publication/389748070_AR-Diffusion_Asynchronous_Video_Generation_with_Auto-Regressive_Diffusion

[4]Video Diffusion Models: A Survey - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2405.03150v2

[5]Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.18688

[6]Autoregressive Models in Vision: A Survey - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2411.05902v1

[7]A Survey on Vision Autoregressive Model - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2411.08666v1

[8] SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.11455v1

[9] On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models - NIPS papers, accessed on April 28, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/18023809c155d6bbed27e443043cdebf-Paper-Conference.pdf

[10] Opportunities and challenges of diffusion models for generative AI - Oxford Academic, accessed on April 28, 2025, https://academic.oup.com/nsr/article/11/12/nwae348/7810289?login=false

[11] Video Diffusion Models - A Survey - OpenReview, accessed on April 28, 2025, https://openreview.net/pdf?id=sgDFqNTdaN

[12] The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.04606v1

[13] ChaofanTao/Autoregressive-Models-in-Vision-Survey - GitHub, accessed on April 28, 2025, https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey

[14] [2412.09600] Owl-1: Omni World Model for Consistent Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2412.09600

[15] arXiv:2412.07772v2 [cs.CV] 6 Jan 2025 - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models, accessed on April 28, 2025, https://causvid.github.io/causvid_paper.pdf

[16] SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.11455

[17] Phenaki - SERP AI, accessed on April 28, 2025, https://serp.ai/tools/phenaki/

[18] openreview.net, accessed on April 28, 2025, https://openreview.net/pdf/9cc7b12b9ea33c67f8286cd28b98e72cf43d8a0f.pdf

[19] Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation, accessed on April 28, 2025, https://www.researchgate.net/publication/390038718_Bridging_Continuous_and_Discrete_Tokens_for_Autoregressive_Visual_Generation

[20] Autoregressive Video Generation without Vector Quantization ..., accessed on April 28, 2025, https://openreview.net/forum?id=JE9tCwe3lp

[21] Long-Context Autoregressive Video Modeling with Next-Frame Prediction - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.19325v1

[22] Language Model Beats Diffusion — Tokenizer is Key to Visual Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2310.05737

[23] Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.16430v2

[24] Auto-Regressive Diffusion for Generating 3D Human-Object Interactions, accessed on April 28, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/32322/34477

[25] Fast Autoregressive Video Generation with Diagonal Decoding - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.14070v1

[26] One-Minute Video Generation with Test-Time Training, accessed on April 28, 2025, https://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf

[27] Photorealistic Video Generation with Diffusion Models - European Computer Vision Association, accessed on April 28, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/10270.pdf

[28] arXiv:2412.03758v2 [cs.CV] 24 Feb 2025, accessed on April 28, 2025, https://www.arxiv.org/pdf/2412.03758v2

[29] Advancing Auto-Regressive Continuation for Video Frames - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.03758v1

[30] From Slow Bidirectional to Fast Autoregressive Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.07772v2

[31] Enhance-A-Video: Better Generated Video for Free - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2502.07508v3

[32] [D] The Tech Behind The Magic : How OpenAI SORA Works : r/MachineLearning - Reddit, accessed on April 28, 2025, https://www.reddit.com/r/MachineLearning/comments/1bqmn86/d_the_tech_behind_the_magic_how_openai_sora_works/

[33] Delving Deep into Diffusion Transformers for Image and Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2312.04557v1

[34] CVPR Poster Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution - CVPR 2025, accessed on April 28, 2025, https://cvpr.thecvf.com/virtual/2024/poster/31563

[35] SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models - AAAI Publications, accessed on April 28, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/32663/34818

[36] Latte: Latent Diffusion Transformer for Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2401.03048v2

[37] VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.12259v1

[38] [2501.00103] LTX-Video: Realtime Video Latent Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2501.00103

[39] LTX-Video: Realtime Video Latent Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2501.00103v1

[40] Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2501.03931v1

[41] LaMD: Latent Motion Diffusion for Image-Conditional Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2304.11603v2

[42] Video-Bench: Human-Aligned Video Generation Benchmark - ResearchGate, accessed on April 28, 2025, https://www.researchgate.net/publication/390569999_Video-Bench_Human-Aligned_Video_Generation_Benchmark

[43] Advancements in diffusion models for high-resolution image and short form video generation, accessed on April 28, 2025, https://gsconlinepress.com/journals/gscarr/sites/default/files/GSCARR-2024-0441.pdf

[44] NeurIPS Poster StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation, accessed on April 28, 2025, https://neurips.cc/virtual/2024/poster/94916

[45] FrameBridge: Improving Image-to-Video Generation with Bridge Models | OpenReview, accessed on April 28, 2025, https://openreview.net/forum?id=oOQavkQLQZ

[46] Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution - CVPR 2024 Open Access Repository, accessed on April 28, 2025, https://openaccess.thecvf.com/content/CVPR2024/html/Chen_Learning_Spatial_Adaptation_and_Temporal_Coherence_in_Diffusion_Models_for_CVPR_2024_paper.html

[47] Subject-driven Video Generation via Disentangled Identity and Motion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2504.17816v1

[48] AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion - alphaXiv, accessed on April 28, 2025, https://www.alphaxiv.org/overview/2503.07418

[49] Phenaki - Reviews, Pricing, Features - SERP, accessed on April 28, 2025, https://serp.co/reviews/phenaki.video/

[50] Veo | AI Video Generator | Generative AI on Vertex AI - Google Cloud, accessed on April 28, 2025, https://cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos

[51] Generate videos in Gemini and Whisk with Veo 2 - Google Blog, accessed on April 28, 2025, https://blog.google/products/gemini/video-generation/

[52] Sora: Creating video from text - OpenAI, accessed on April 28, 2025, https://openai.com/index/sora/

[53] Top AI Video Generation Models in 2025: A Quick T2V Comparison - Appy Pie Design, accessed on April 28, 2025, https://www.appypiedesign.ai/blog/ai-video-generation-models-comparison-t2v

[54] ART•V: Auto-Regressive Text-to-Video Generation with Diffusion Models - CVF Open Access, accessed on April 28, 2025, https://openaccess.thecvf.com/content/CVPR2024W/GCV/papers/Weng_ART-V_Auto-Regressive_Text-to-Video_Generation_with_Diffusion_Models_CVPRW_2024_paper.pdf

[55] Simplified and Generalized Masked Diffusion for Discrete Data - arXiv, accessed on April 28, 2025, https://arxiv.org/pdf/2406.04329

[56] Unified Multimodal Discrete Diffusion - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.20853

[57] Simple and Effective Masked Diffusion Language Models - arXiv, accessed on April 28, 2025, https://arxiv.org/pdf/2406.07524

[58] [2107.03006] Structured Denoising Diffusion Models in Discrete State-Spaces - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2107.03006

[59] Structured Denoising Diffusion Models in Discrete State-Spaces, accessed on April 28, 2025, https://proceedings.neurips.cc/paper/2021/file/958c530554f78bcd8e97125b70e6973d-Paper.pdf

[60] Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2406.03736v2

[61] Fast Sampling via Discrete Non-Markov Diffusion Models with Predetermined Transition Time - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2312.09193v3

[62] [2406.03736] Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2406.03736

[63] AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation | OpenReview, accessed on April 28, 2025, https://openreview.net/forum?id=0EG6qUQ4xE

[64] Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2410.14157v3

[65] [R] Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution - Reddit, accessed on April 28, 2025, https://www.reddit.com/r/MachineLearning/comments/1ezyunc/r_discrete_diffusion_modeling_by_estimating_the/

[66] [2412.07772] From Slow Bidirectional to Fast Autoregressive Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2412.07772

[67] Long-Context Autoregressive Video Modeling with Next-Frame Prediction - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2503.19325v2

[68] Long-Context Autoregressive Video Modeling with Next-Frame Prediction - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2503.19325

[69] ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation - arXiv, accessed on April 28, 2025, https://arxiv.org/pdf/2406.01586?

[70] G-U-N/Awesome-Consistency-Models: Awesome List of ... - GitHub, accessed on April 28, 2025, https://github.com/G-U-N/Awesome-Consistency-Models

[71] showlab/Awesome-Video-Diffusion: A curated list of recent diffusion models for video generation, editing, and various other applications. - GitHub, accessed on April 28, 2025, https://github.com/showlab/Awesome-Video-Diffusion

[72] [PDF] EvalCrafter: Benchmarking and Evaluating Large Video Generation Models, accessed on April 28, 2025, https://www.semanticscholar.org/paper/66d927fdb6c2774131960c75275546fd5ee3dd72

[73] [2502.07508] Enhance-A-Video: Better Generated Video for Free - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2502.07508

[74] NeurIPS Poster FIFO-Diffusion: Generating Infinite Videos from Text without Training, accessed on April 28, 2025, https://nips.cc/virtual/2024/poster/93253

[75] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text, accessed on April 28, 2025, https://openreview.net/forum?id=26oSbRRpEY

[76] Owl-1: Omni World Model for Consistent Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2412.09600v1

[77] Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2411.16375v1

[78] ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2406.10981v1

[79] TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models - CVF Open Access, accessed on April 28, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Ni_TI2V-Zero_Zero-Shot_Image_Conditioning_for_Text-to-Video_Diffusion_Models_CVPR_2024_paper.pdf

[80] Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2501.07563v1

[81] DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/html/2502.03930v1

[82] VBench-2.0: A Framework for Evaluating Intrinsic Faithfulness in Video Generation Models, accessed on April 28, 2025, https://www.reddit.com/r/artificial/comments/1jmgy6n/vbench20_a_framework_for_evaluating_intrinsic/

[83] NeurIPS Poster GenRec: Unifying Video Generation and Recognition with Diffusion Models, accessed on April 28, 2025, https://neurips.cc/virtual/2024/poster/94684

[84] Evaluation of Text-to-Video Generation Models: A Dynamics Perspective - OpenReview, accessed on April 28, 2025, https://openreview.net/forum?id=tmX1AUmkl6¬eId=MAb60mrdAJ

[85] [CVPR 2024] EvalCrafter: Benchmarking and Evaluating Large Video Generation Models - GitHub, accessed on April 28, 2025, https://github.com/evalcrafter/EvalCrafter

[86] [2412.18688] Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation - arXiv, accessed on April 28, 2025, https://arxiv.org/abs/2412.18688

自回归模型 vs 扩散模型 （文献综述）