核心不是"让 Agent 懂音乐",而是:如何把一种极其主观、暧昧、不可完全言说的审美偏好,慢慢变成可观察、可记录、可迭代的机器信号。
这里面最有意思的地方是:我不是在训一个模型,而是在训一只"耳朵"。
艺术审美如何对齐
以前我们以为自动化是这样的:我给机器一个明确目标,它去执行。比如打开网页、点按钮、生成文件、发消息。
但今天我发现,真正难的自动化不是"点按钮",而是"懂味道"。
Suno 一批歌出来,六首。机器问我:哪首好?我说:《六点十七分》那首给了 like,其他不差,但没到 like。
这句话,对人来说很自然。对 Agent 来说,已经是黄金训练数据。
因为它不只是知道"哪首赢了",它还开始学会拆解:为什么赢?
它归因说:切分节奏、女中音、不对称三行 chorus、男女对唱,这些是正向信号。男声独唱、传统四拍框架、普通间隔跳,不坏,但抓耳度不够。更妙的是,它还知道把"男女对唱"单独拿出来:虽然那首没 like,但形式本身是我喜欢的菜。
这就有点像养猫。你不能一次性教会 Katara 什么叫"高级猫粮审美"。你只能一次次看她闻一闻、舔一口、走开,或者突然眼睛一亮。久了以后,你才知道:哦,她不是不吃鸡肉,她是不吃那种干巴巴的鸡肉。
Agent 也是这样。
审美不是规则,审美是残差
不是"女声一定好",而是"某种女声,在某种节奏切分里,配上某种不对称结构,会让我停下来"。不是"男女对唱一定好",而是"男女声部如果只是形式对了,但执行没燃起来,那也只是方向对,火候不够"。
这才是主观偏好的对齐。不是一次 prompt 解决。而是通过一串极小的反馈,把"我喜欢"这种玄学,慢慢压缩成 Agent 可以使用的操作信号。
今天 B003 的进步在这里:它不再只是记分员。它开始像一个初级音乐制作助理,能听懂我一句模糊反馈背后的结构暗示。
会干活只是保姆,会揣摩口味才是助理
这事让我突然意识到,未来个人 Agent 最值钱的地方,也许不是会干活。会干活只是保姆。会揣摩你的口味,才是助理。会把你的口味变成下一轮行动,才叫"自己人"。
当然,现在它还嫩。它会用表格总结,会说 80% proven + 20% novelty,看起来像个刚学会麦肯锡黑话的小实习生。但方向对了。
真正的驯养,不是把 Agent 训练成"听话"。而是让它越来越知道:我说"不错",不等于满意;我说"有点意思",才是真正可以继续挖的矿。
(涂鸦写歌日记,持续迭代中)


