视觉模型生成的极限对齐

我现在成了老友同学中的AIGC定制服务的大师了，下面是两位老同学请我做的AIGC老照片怀旧视频。我只要能抽出空，非常乐于为亲友提供这种情绪价值，因为很开心看到他们的惊喜。

现在刘老师可是世界级钢琴大师，常在欧美中巡回演出。这是当年与我老同学孙兄在费城一起演奏练习的珍贵老照片。

吹拉弹唱无所不能的NLP老司机白硕老师评论说：会拉沉思的表示，弓法指法都不对。前微软NLP老友吴兄也留言反映视觉模型不懂音乐：“這個有待改進哦！一看就是不會拉小提琴和彈鋼琴的人做的/:,@P。音樂和弓子的運行差太多，第一個音是有兩拍半的長音，應該給個長弓才對，另外鋼琴伴奏的右腳永遠不會這樣翹著，或抖動著。他的右腳應該在 sustain pedal 上。”

LOL

生成的时候虽然prompt里是标明了音乐的名字的，但在可见的将来，没有哪家模型能够真正做到音乐理解与演奏肢体动作细节的对齐。或可留作大模型AGI的极限挑战题（之一）吧，因为理论上如果有足够的对齐数据，根据联合训练的压缩理论，做到极致不同模态之间是可以对齐的。

如果客观世界模拟器/仿真器是视觉大模型的最终目标的话，当代的视觉大模型处于“对牛弹琴”和“对音乐盲弹琴”的段位，绝对经不起音乐家的检验。譬如，我这样的乐盲，看上面的怀旧演奏视频，就不会像音乐行家那样一眼看出破绽，反而觉得惟妙惟肖，情绪拉满。

当然，音乐家的标准也许就是个伪需求伪目标（让挑剔的“专家眼”满意了视觉细节又如何？能大卖么），也许并不真值得费力追求。但理论上，理想的 AGI 都应该搞定这些专家水平的要求。

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复