视觉模型生成的极限对齐

我现在成了老友同学中的AIGC定制服务的大师了,下面是两位老同学请我做的AIGC老照片怀旧视频。我只要能抽出空,非常乐于为亲友提供这种情绪价值,因为很开心看到他们的惊喜。

现在刘老师可是世界级钢琴大师,常在欧美中巡回演出。这是当年与我老同学孙兄在费城一起演奏练习的珍贵老照片。

吹拉弹唱无所不能的NLP老司机白硕老师评论说:会拉沉思的表示,弓法指法都不对。前微软NLP老友吴兄也留言反映视觉模型不懂音乐:“這個有待改進哦!一看就是不會拉小提琴和彈鋼琴的人做的/:,@P。音樂和弓子的運行差太多,第一個音是有兩拍半的長音,應該給個長弓才對, 另外鋼琴伴奏的右腳永遠不會這樣翹著,或抖動著。他的右腳應該在 sustain pedal 上。”

LOL

生成的时候 虽然prompt里是标明了音乐的名字的,但在可见的将来,没有哪家模型能够真正做到音乐理解与演奏肢体动作细节的对齐。或可留作大模型AGI的极限挑战题(之一)吧,因为理论上如果有足够的对齐数据,根据联合训练的压缩理论,做到极致不同模态之间是可以对齐的。

如果客观世界模拟器/仿真器是视觉大模型的最终目标的话,当代的视觉大模型处于“对牛弹琴”和“对音乐盲弹琴”的段位,绝对经不起音乐家的检验。譬如,我这样的乐盲,看上面的怀旧演奏视频,就不会像音乐行家那样一眼看出破绽,反而觉得惟妙惟肖,情绪拉满。

当然,音乐家的标准也许就是个伪需求伪目标(让挑剔的“专家眼”满意了视觉细节又如何?能大卖么),也许并不真值得费力追求。但理论上,理想的 AGI 都应该搞定这些专家水平的要求。

 

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据