立委论LLM：视频生成的人物一致性问题

大千世界人脸识别是一个专修而艰难的任务，因为人眼对于人脸的特征有非常的敏感。正因为人脸识别专门而敏感，比起识别阿猫阿狗的传统图像识别挑战性非同日而语，结果这个赛道首先得到突破：甚至在大模型之前，深度神经人脸识别得力于极为丰富的人脸图像数据，就已经超过了人类肉眼的识别能力和敏感度，也率先得到了广泛应用，成就了前大模型一代的独角兽。

到了面向大千世界一切对象的万用视频大模型的时候，无论Sora还是可灵，人脸的一致性依然是一个巨大挑战。Sora 不公测不大知道，但通过类似design的国内头部视觉大模型可灵，可以感知里面的局限性。通常超过半分钟，人脸就开始发散，变得不像那个人了。长程人物形象的一致性，如果不做专项处理和引入专项优化，单靠现在通用的视频一致性的训练努力，是很难突破瓶颈的。这个局限，在玩可灵一类公开上线的产品时，各种测试一再被发现。

有些视频如果不是人眼的敏感性（难怪“外贸”协会的求偶者那么多，原来人眼揉不得沙子，尤其是找对象的时候，普通人很难粗粒度容忍潜在对象的面相瑕疵或因为面相的不来电 lol），哪怕从视觉物理特性看其实已经无法区分。可见人的眼毒：可以立即分辨真假李逵。

例如，下面两个小雅的视频生成，小雅粉丝一眼就能辨真假，虽然小雅本人也有不同的年龄，不同的场合，会呈现不同的形象，但有一种可以抽象出来的不变的人脸特征在武装着人类对于人脸的火眼金睛。而这一切的密码其实在上一代人脸识别的模型里面已经解耦。

注意：人物形象一致性是电影性和可配置的视频作品生成的关键指针。不跨过这道门槛，这个赛道会难以规模化落地。那些梦想空手套白狼、无需物理拍摄、全程虚拟数字化的大模型好莱坞生产线，也就成为泡影。

为什么视觉大模型靠蛮力很难在人物长程一致性上奏效？、因为视频是模态中维度很高的形态，大模型（至少在可见的将来）为了搞定视频，就必须做大力的有损压缩。视觉的 tokens 压缩比很高，这样在内部的 hidden space 做整体帧的长程一致性的对齐训练/生成才比较可行。压缩旅越高，总体画面的时间维度的一致性就越强。自回归或DiT就可以搞定。只有这样，违背大千世界物理规律的视频就会得到有效控制，减少违背常识的幻觉，让视觉大模型看上去已然是客观世界的模拟器（疑似）了。但这里有个矛盾，在有损压缩的条件下，帧总体的一致性与其中具体物理对象的细节特征的一致性，没办法同步优化一致性。

目前的方案通常是，在总体轮廓（blueprint）一致性搞定后，追加一个高清化（SR）的过程，试图把舍弃的细节复现出来。高清化渲染，总体而言在过去几年的 deep fake 研发积累中，已经做得相当不错了。但是 deep fake 本质上是在有损压缩的条件下的亡羊补牢，它所能做的就是通过大模型所擅长的想象（或曰幻觉）来合理地、非确定性地填补细节，描绘世界应该具有的形象（what it should be，Not what it is），可以栩栩如生。但如果目标是一个特定对象，尤其是人脸这种细粒度对象，有人眼敏感的个体特征（IP），它就免不了在长时间的生成中有所走偏，这就是问题的要害所在。解决的办法不应该指望模型越来越大、context window 越来越长的大数据蛮干。因为蛮力只能减缓偏差，不能根治长视频的SR过程中随时间而增加的非确定性偏差积累。要 think out of box，排除时间维度作为条件，以步步对齐的方法，或可解套。点到为止吧，勿谓言之不预。

做到这点的前提是人脸可以解耦。无法解耦的特征做不到步步对齐。一定是可以解耦的，否则无法说明好莱坞几十个名演员可以演几千部大片。人脸与表情和时间的解偶当然还有进一步的提升空间，但技术已经比较成熟了。

立委论LLM：视频生成的人物一致性问题

发布者

立委

发表回复