我现在成了老友同学中的AIGC定制服务的大师了,下面是两位老同学请我做的AIGC老照片怀旧视频。我只要能抽出空,非常乐于为亲友提供这种情绪价值,因为很开心看到他们的惊喜。
现在刘老师可是世界级钢琴大师,常在欧美中巡回演出。这是当年与我老同学孙兄在费城一起演奏练习的珍贵老照片。
吹拉弹唱无所不能的NLP老司机白硕老师评论说:会拉沉思的表示,弓法指法都不对。前微软NLP老友吴兄也留言反映视觉模型不懂音乐:“這個有待改進哦!一看就是不會拉小提琴和彈鋼琴的人做的/:,@P。音樂和弓子的運行差太多,第一個音是有兩拍半的長音,應該給個長弓才對, 另外鋼琴伴奏的右腳永遠不會這樣翹著,或抖動著。他的右腳應該在 sustain pedal 上。”
LOL
生成的时候 虽然prompt里是标明了音乐的名字的,但在可见的将来,没有哪家模型能够真正做到音乐理解与演奏肢体动作细节的对齐。或可留作大模型AGI的极限挑战题(之一)吧,因为理论上如果有足够的对齐数据,根据联合训练的压缩理论,做到极致不同模态之间是可以对齐的。
如果客观世界模拟器/仿真器是视觉大模型的最终目标的话,当代的视觉大模型处于“对牛弹琴”和“对音乐盲弹琴”的段位,绝对经不起音乐家的检验。譬如,我这样的乐盲,看上面的怀旧演奏视频,就不会像音乐行家那样一眼看出破绽,反而觉得惟妙惟肖,情绪拉满。
当然,音乐家的标准也许就是个伪需求伪目标(让挑剔的“专家眼”满意了视觉细节又如何?能大卖么),也许并不真值得费力追求。但理论上,理想的 AGI 都应该搞定这些专家水平的要求。