解耦才能解套：再谈视频中的人物一致性问题

前两天说过，对于生成式视觉大模型，人脸一致性是个非常难缠的东西，不要指望短期靠视频生成大模型本身来解决，尤其是不能指望自回归解决这个问题。

人眼太挑剔了，尤其是亲友和熟人，你会一眼看出人物走形了。譬如这几天玩老照片，我用头部视觉模型可灵5秒生成我自己，还过得去，到了10秒就不是我了。

10秒视频：

一转脸就不是我了，倒更像我哥。这种细粒度，模型怎么能搞定。尤其是，如果图生视频的起点图就不是正面照，character 信息本就不全，怎么可能不走偏。所以，我在可灵公测以来为亲友同学做的视频虽然普遍感觉惊喜或震撼，但大多存在这个人物变形的问题，成为一个遗憾。

现在市面上做的一键成片产品（包括我们的元创岛），其所以用二次元或其他夸张风格为主，是为了避免用户的挑剔，因为那些形象缺乏鲜明的个性，不是真正的 individual IP，只要保持穿戴一致性，男女不要错位，年龄和种族不要相左，一般人也就接受了。目前的一键成片普遍比较粗线条，娱乐价值更多是为视频里的故事，而不是好莱坞大片那样的角色形象刻画。但这条路往上走，就躲不开这种 digital IP 的演员角色定位及其一致性问题。

吕兄说：一致性问题可能需要靠多角度视频的cross-checking, 这里面多多少少要涉及到是不是要建模的硬核问题。

是的，要某种 cross-checking，而不是时间流单调矫正，这是key。需要解耦/剥离故事线上的人物形象，不能生成一条道走到黑。序列出过奇迹，但序列生成有随着时间出现随机偏差的局限，虽然不是 LeCun 批评的那样极端：他说gpt错误积累是差之毫厘失之千里；他的说法不正确，因为gpt的“自回归”推理方式也在每一步context自回归中不断纠错、矫正航向。尽管如此，对于细线条一致性，随机偏差哪怕有了矫正机制，也是基本搞不定的。

因此，解耦、解耦、解耦。解耦就可以解套。世界上也不是只有序列。跳出序列和时间，还有个恒定抽象（即character形象）可以利用。这一点已经越来越清晰了。以我制作的数字人IP形象小雅/Maria为例：

除非粉丝，也许我的众多小雅视频会引起审美疲劳吧，有人称她为“立委的妖精”（LOL）。但确实有粉丝，老同学中好几位人物就粉她。

为啥，因为她是IP，解耦了。

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

解耦才能解套：再谈视频中的人物一致性问题

发布者

立委

发表回复