0.53 复制打开抖音,看看【立委的作品】# 视频生成 # 大模型科普 # notebook... https://v.douyin.com/kUWrLBDJniQ/ [email protected] oQK:/ 08/05
最近,你一定被社交媒体上那些由人工智能(AI)创作的视频刷屏了吧?无论是“雪中的东京街景” 1,还是“机器人赛博朋克生活” 1,抑或是各种天马行空的想象,AI似乎一夜之间掌握了导演和摄像的魔法,生成的视频效果越来越逼真、流畅,甚至充满了电影感 2。这不禁让人惊叹:AI究竟是如何学会制作视频这门复杂的艺术的?
视频生成的“难言之隐”
在我们揭晓AI的“神功秘籍”之前,先得理解相比于生成一张静态图片,视频的挑战要大得多。这不仅仅是画出好看的画面,更关键的是要让画面动起来,而且要动得自然、连贯 3。
想象一下,视频是由一连串的图片(称为“帧”)组成的。AI不仅要确保每一帧都清晰美观,还要保证:
-
- 时间连贯性(Temporal Coherence): 相邻帧之间的过渡要平滑,物体运动要符合规律,不能出现“瞬移”或者“闪烁” 4。就像电影里的人物走路,动作得是连贯的。
- 内容一致性: 视频中的物体和场景要保持一致性,比如一个人的衣服颜色不能随意变化,背景也不能突然改变 14。
- 物理常识: 生成的动态需要符合基本的物理规律,比如球会往下落,水会流动 1。虽然目前的AI还做不到完美,但仿真客观世界是方向。
- 数据与计算需求: 视频数据量巨大,处理起来需要强大的计算能力和海量的训练数据 5。
正因为这些挑战,AI视频生成领域发展出了不同的技术流派。目前,最主流的有两大“门派”,它们解决问题的方式截然不同,各有千秋 4。
两大门派是:自回归(AR)与扩散(Diffusion)
想象一下AI是位艺术家,要创作一段视频。现在有两种主流的创作方式:
-
- 第一种方式,像个“讲故事的人”(Storyteller)或者“按顺序作画的画家”(Sequential Painter)。 他会一帧接一帧地构思和绘制,确保后面的画面能接得上前面的情节。这种方法,我们称之为自回归(Autoregressive, AR)模型 4。
- 第二种方式,则像个“雕刻家”(Sculptor)或者“照片修复师”(Photo Restorer)。 他先拿到一块粗糙的“素材”(一堆随机的噪点),然后根据你的要求(比如文字描述),一点点地打磨、雕琢,逐渐让清晰的画面显现出来。这种方法,就是扩散(Diffusion)模型 4。
这两种方法各有神通,也各有“脾气”。让我们分别来了解一下。
第一式:自回归(AR)模型的“顺序叙事法”
自回归模型的核心思想非常直观:预测下一帧,基于之前的视频流 4,就是AI在生成第N帧画面时,会参考前面已经生成的1到N-1帧 10。这种方式强调的是视频内在的时间顺序和因果关系(sequential and causal)。
-
- “讲故事”的比喻: 就像讲故事,下一句话总要承接上一句话的意思,才能构成一个连贯的情节。AR模型就是这样,它努力让每一帧都成为前一帧合乎逻辑的延续。
- “顺序作画”的比喻: 也像一位画家在绘制连环画,他会一幅一幅地画,每画新的一幅,都要确保它和已经完成的部分在风格、颜色、内容上都能衔接起来。
自回归模型是怎么工作的?
早期的一些AR模型,会先把复杂的图像或视频“打碎”,编码成一种叫做“视觉词元”(visual tokens)的东西 26。你可以把它想象成给视觉世界创建了一本“词典”,每个词元代表一种视觉模式。然后,AR模型就像学习语言一样,学习预测下一个“视觉词元”应该是什么 29。
不过,这种“打碎再组合”的方式可能会丢失一些细节。因此,更新的AR模型,比如备受关注的NOVA 30 和FAR 28 等,开始尝试跳过“视觉词元”这一步,直接在连续的视觉信息上进行操作 52。它们甚至借鉴了扩散模型的一些思想,比如使用类似的数学目标来学习 29。这就像讲故事的人不再局限于有限的词汇,而是开始使用更丰富、更细腻的表示手段来描述世界。这种不依赖“量化”(quantization)词元的方式,被认为是AR模型发展的一个重要方向,旨在结合AR模型擅长的连贯性与扩散模型擅长的高保真度 30。
AR模型的“独门绝技”(优点):
-
- 天生连贯: 由于是一帧接一帧生成,AR模型在保持视频的时间连贯性和逻辑流畅性方面具有天然优势 4。
- 长度灵活: 理论上,只要计算资源允许,AR模型可以一直“讲下去”,生成任意长度的视频 4。
- 与语言模型“师出同门”: AR模型(尤其是基于Transformer架构的 26)和现在非常强大的大语言模型(LLM)在底层逻辑上相同(都是预测序列中的下一个元素),能更好地借鉴LLM的训练方法和可扩展的经验法则,有更大的品质提升空间 26。
AR模型的“难念的经”(缺点):
-
- 生成速度慢: “一帧一帧来”的特性决定了它的生成速度相对较慢,尤其是对于高分辨率、长时长的视频 4。
- “一步错,步步错”: 如果在生成过程中某一步出了差错,这个错误可能会像滚雪球一样被带到后面的帧中,导致视频内容逐渐偏离主题或出现不一致 4。
- 早期质量瓶颈: 过去依赖“视觉词元”的AR模型,其生成质量会受限于词元对真实世界细节的表达能力 29。不过,如前所述,新的非量化方法正致力于解决这个问题 30。
值得注意的是,虽然AR模型天生是序列化的,看起来很慢,但研究人员正在努力克服这个瓶颈。例如,NOVA模型采用了一种“空间集对集”(spatial set-by-set)的预测方式,在生成帧内画面时,不是逐个像素生成,而是并行地预测一片片的视觉信息 30。还有一些技术,比如并行解码 59 和缓存(KV caching)机制 31,都在尝试让AR模型的生成过程更快。有些研究甚至声称,经过优化的AR模型在生成速度上可以超过传统的扩散模型 36。这表明,AR模型的“慢”可能更多是一个可以通过工程和算法创新来缓解的问题,而非无法逾越的理论障碍。
第二式:扩散(Diffusion)模型的“去粗取精法”
扩散模型是在图像生成领域大放异彩的技术,现在也成为了视频生成的主力军 3。它的核心思想有点反直觉:先破坏,再修复 4。
想象一下,你有一段清晰的视频。扩散模型的“前向过程”(forward process)就是不断地、逐步地给这段视频添加随机的“噪声”(noise),直到它变成一片完全无序的、类似电视雪花点的状态 3。
AI学习的,则是这个过程的“逆向过程”(reverse process):从一堆纯粹的噪声开始,一步一步地、迭代地去除噪声,最终“还原”出一段清晰、有意义的视频 3。这个去噪过程是受到用户指令(比如文字描述)引导的。
-
- “雕刻家”的比喻: AI就像一位雕刻家,面对一块充满随机纹理的“璞玉”(噪声),根据设计图(文字提示),一刀一刀地剔除多余部分,最终呈现出精美的作品(视频)。
- “照片修复师”的比喻: 也像一位顶级的照片修复师,拿到一张几乎完全被噪声覆盖的旧照片,凭借高超技艺和对照片内容的理解(文字提示),逐步去除污点和模糊,让清晰的影像重现。
扩散模型是怎么工作的?
扩散模型的关键在于迭代。从完全随机的噪声到最终的清晰视频,需要经历很多(通常是几十到几千)个小的去噪步骤 3。
为了提高效率,很多先进的扩散模型,比如Stable Diffusion、Sora等 1,采用了潜在扩散模型(Latent Diffusion Model, LDM)的技术 5。它们不是直接在像素级别的高维视频数据上进行加噪去噪,而是先用一个“编码器”将视频压缩到一个更小、更抽象的“潜在空间”(latent space),在这个低维空间里完成主要的扩散和去噪过程,最后再用一个“解码器”将结果还原和渲染成高清像素视频。这就像雕刻家先做一个小尺寸的泥塑模型来构思,而不是直接在巨大的石料上动工,大大节省了时间和精力 16。
在模型架构方面,扩散模型早期常用类似U-Net(就是CNN)的网络结构 11,后来也越来越多地采用更强大的Transformer架构(称为Diffusion Transformer, DiT) 14,这些架构充当了AI进行“雕刻”或“修复”的核心工具。
扩散模型的“看家本领”(优点):
-
- 画质惊艳: 扩散模型目前在生成图像和视频的视觉质量上往往是顶尖的,细节丰富、效果逼真 2。
- 处理复杂场景: 对于复杂的纹理、光影和场景结构,扩散模型通常能处理得更好 1。
- 训练更稳定: 相较于生成对抗网络(GANs)等早期技术,扩散模型的训练过程通常更稳定,不容易出现模式崩溃等问题 4。
扩散模型的“阿喀琉斯之踵”(缺点):
-
- 生成(采样)速度慢: 迭代去噪的过程需要很多步,导致生成一个视频需要较长时间 4。雕刻家精雕细琢是需要时间的。
- 时间连贯性仍是挑战: 虽然单帧质量高,但要确保长视频中所有帧都完美连贯、动作自然流畅,对扩散模型来说依然是一个难题 4。雕刻家可能过于专注于局部细节,而忽略了整体的协调性。
- 计算成本高昂: 无论是训练模型还是生成视频,扩散模型都需要强大的计算资源(如图形处理器GPU) 4,这限制了其普及应用 83。
面对速度慢这个核心痛点,研究界掀起了一场“加速竞赛”。除了前面提到的LDM,还涌现出许多旨在减少采样步骤的技术。例如,一致性模型(Consistency Models) 19 试图学习一种“直达”路径,让模型能从噪声一步或几步就生成高质量结果。还有像分布匹配蒸馏(Distribution Matching Distillation, DMD) 34 这样的技术,通过“蒸馏”一个慢但强大的“教师”模型的知识,训练出一个快得多的“学生”模型。这些努力的目标都是在尽量不牺牲质量的前提下,让扩散模型的生成速度提升几个数量级,达到接近实时应用的水平 83。
同时,为了解决时间连贯性问题,研究者们也在不断改进扩散模型的架构和机制。比如,在模型中加入专门处理时间关系的时间注意力(temporal attention)层 11,利用光流(optical flow)信息来指导运动生成 16,或者设计像Enhance-A-Video 14 或Owl-1 24 这样的特殊模块或框架来增强视频的流畅度和一致性。这表明,在单帧画质达到较高水平后,如何让视频“动得更像样”、“故事更连贯”,已成为扩散模型发展的下一个重要关口。
如何选择?“顺序叙事” vs “去粗取精”
了解了这两种“神功”后,我们可能会问:哪种更好?其实没有绝对的答案,它们各有侧重。
我们可以用一个简单的表格来总结一下:
AR 与 Diffusion 模型速览
特性 (Feature) | 自回归模型 (AR) | 扩散模型 (Diffusion) |
核心思想 (Core Idea) | 顺序预测 (Sequential Prediction) | 迭代去噪 (Iterative Denoising) |
形象比喻 (Analogy) | 讲故事者/连环画画家 (Storyteller/Painter) | 雕刻家/照片修复师 (Sculptor/Restorer) |
主要优势 (Key Strength) | 时间连贯性/流畅性 (Temporal Coherence) | 视觉质量/细节 (Visual Quality) |
主要劣势 (Key Weakness) | 采样慢/易出错 (Slow Sampling/Error Risk) | 采样慢/连贯性挑战 (Slow Sampling/Coherence) |
简单来说,如果你特别看重视频故事线的流畅和逻辑性,尤其是在生成很长的视频时,AR模型天生的顺序性可能更有优势 4。而如果你追求的是极致的画面细节和逼真度,扩散模型目前往往能提供更好的视觉效果 4。但正如我们看到的,这两种技术都在快速进化,互相学习,界限也变得越来越模糊。
融合之道:当“叙事者”遇上“雕刻家”
既然AR和Diffusion各有擅长,一个自然的想法就是:能不能让它们“联手”,取长补短呢? 4
答案是肯定的,而且这正成为当前AI视频生成领域一个非常热门的趋势。许多最新的、表现优异的模型都采用了混合(Hybrid)架构,试图融合AR和Diffusion的优点。
-
- 思路一:分工合作。 让AR模型先负责“打草稿”,规划视频的整体结构和运动走向(可能细节不多),然后让Diffusion模型来“精雕细琢”,填充高质量的视觉细节 61。
- 思路二:AR骨架,Diffusion内核。 保留AR模型的顺序生成框架,但在预测每一帧(或每一部分)时,不再是简单预测下一个“词元”,而是使用类似Diffusion模型的连续空间预测方法和损失函数 29。前面提到的NOVA和FAR就体现了这种思想。
- 思路三:Diffusion骨架,AR思想。 在Diffusion模型的框架内,引入AR的原则,比如强制更严格的帧间顺序依赖(causal attention),或者让噪声的添加/去除过程体现出时序性 9。AR-Diffusion 9 和CausVid 34 等模型就是例子。
这种融合趋势非常明显。看看研究论文列表,你会发现大量模型名称或描述中都包含了AR和Diffusion的元素(如AR-Diffusion, ARDiT, DiTAR, LanDiff, MarDini, ART-V, CausVid, Transfusion, HART等) 9。这表明,研究界普遍认为,结合两种方法的优点是克服各自局限、推动视频生成技术向前发展的关键路径。这不再是“二选一”的问题,而是如何更聪明地“合二为一”。
前路漫漫:AI视频的挑战与梦想
尽管AI视频生成技术进步神速,但距离完美还有很长的路要走。目前主要面临以下挑战 4:
-
- 制作更长的视频: 目前大部分AI生成的视频还比较短(几秒到十几秒)。要生成几分钟甚至更长的视频,同时保持内容连贯、不重复、不“跑题”,仍然非常困难 4。
- 更精准的控制与忠实度: 如何让AI精确理解并执行复杂的指令?比如,“一只戴着贝雷帽、穿着黑色高领毛衣的柴犬” 49,或者更复杂的场景描述、人物动作和情感表达。目前AI有时还会“听不懂”或者“产生幻觉”,生成与要求不符的内容 1。
- 更快的生成速度: 要让AI视频生成工具真正实用化,尤其是在交互式应用中,速度至关重要。目前的生成速度对于很多场景来说还是太慢了 4。
- 理解真实世界物理: AI需要学习更多关于现实世界的物理常识。比如,物体应该有固定的形状(不会随意变形),运动应该符合基本的力学原理。OpenAI Sora模型展示的弱点中,就有篮球穿过篮筐后爆炸 1,或者椅子在挖掘过程中变形 1 这样不符合物理规律的例子。让AI拥有“常识”是实现更高层次真实感的关键 1。
尽管挑战重重,但AI视频生成的未来充满想象空间:
-
- 个性化内容创作: 想象一下,AI可以根据你的想法,为你量身定做一部微电影,甚至让你成为主角 9。或者,生成完全符合你学习节奏和风格的教学视频。
- 赋能创意产业: 为艺术家、设计师、电影制作人提供强大的新工具,极大地拓展创意表达的可能性 2。
- 构建虚拟世界与模拟: AI不仅能生成视频,更能构建出能够模拟真实世界运行规律的“世界模型”(World Models) 4。这意味着AI可以用来进行科学模拟、游戏环境生成、自动驾驶仿真训练等 5。这种从“生成图像”到“模拟世界”的转变,显示了AI视频技术的深层雄心:不仅仅是模仿表象,更要理解内在规律 1。
- 统一的多模态智能: 未来的AI将能够无缝地理解和生成包括文本、图像、视频、音频在内的多种信息形式 4。
实现这些梦想,离不开对效率的极致追求。无论是生成长视频、实现实时交互,还是构建复杂的“世界模型”,都需要巨大的计算力。因此,不断提升模型的训练和推理效率,降低成本,不仅仅是为了方便,更是为了让这些更宏大的目标成为可能 4。可以说,效率是解锁未来的关键钥匙。
结语:视觉叙事的新纪元
AI视频生成技术正以惊人的速度发展,不断刷新我们的认知 3。无论是像“讲故事的人”一样按部就班的自回归模型,还是像“雕刻家”一样精雕细琢的扩散模型,亦或是集两者之长的混合模型 4,它们都在努力学习如何更好地用像素编织光影,用运动讲述故事。
我们正站在一个视觉叙事新纪元的开端。AI不仅将改变我们消费内容的方式,更将赋予每个人前所未有的创作能力。当然,伴随着技术的飞速发展,我们也需要思考如何负责任地使用这些强大的工具,确保它们服务于创造、沟通和理解,而非误导和伤害 4。
未来已来,AI导演的下一部大片,或许就源自你此刻的灵感。让我们拭目以待!