解耦才能解套:再谈视频中的人物一致性问题

前两天说过,对于生成式视觉大模型,人脸一致性是个非常难缠的东西,不要指望短期靠视频生成大模型本身来解决,尤其是不能指望自回归解决这个问题。

人眼太挑剔了,尤其是亲友和熟人,你会一眼看出人物走形了。譬如这几天玩老照片,我用头部视觉模型可灵5秒生成我自己,还过得去,到了10秒就不是我了。

10秒视频:

一转脸就不是我了,倒更像我哥。这种细粒度,模型怎么能搞定。尤其是,如果图生视频的起点图就不是正面照,character 信息本就不全,怎么可能不走偏。所以,我在可灵公测以来为亲友同学做的视频虽然普遍感觉惊喜或震撼,但大多存在这个人物变形的问题,成为一个遗憾。

现在市面上做的一键成片产品(包括我们的元创岛),其所以用二次元或其他夸张风格为主,是为了避免用户的挑剔,因为那些形象缺乏鲜明的个性,不是真正的 individual IP,只要保持穿戴一致性,男女不要错位,年龄和种族不要相左,一般人也就接受了。目前的一键成片普遍比较粗线条,娱乐价值更多是为视频里的故事,而不是好莱坞大片那样的角色形象刻画。但这条路往上走,就躲不开这种 digital IP 的演员角色定位及其一致性问题。

吕兄说:一致性问题可能需要靠多角度视频的cross-checking, 这里面多多少少要涉及到是不是要建模的硬核问题。

是的,要某种 cross-checking,而不是时间流单调矫正,这是key。需要解耦/剥离故事线上的人物形象,不能生成一条道走到黑。序列出过奇迹,但序列生成有随着时间出现随机偏差的局限,虽然不是 LeCun 批评的那样极端:他说gpt错误积累是差之毫厘失之千里;他的说法不正确,因为gpt的“自回归”推理方式也在每一步context自回归中不断纠错、矫正航向。尽管如此,对于细线条一致性,随机偏差哪怕有了矫正机制,也是基本搞不定的。

因此,解耦、解耦、解耦。解耦就可以解套。世界上也不是只有序列。跳出序列和时间,还有个恒定抽象(即character形象)可以利用。这一点已经越来越清晰了。以我制作的数字人IP形象小雅/Maria为例:

除非粉丝,也许我的众多小雅视频会引起审美疲劳吧,有人称她为“立委的妖精”(LOL)。但确实有粉丝,老同学中好几位人物就粉她。

为啥,因为她是IP,解耦了。

Related Links:

视觉模型生成的极限对齐

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据