涂鸦写歌日记：不是在训模型，是在训一只耳朵

核心不是"让 Agent 懂音乐"，而是：如何把一种极其主观、暧昧、不可完全言说的审美偏好，慢慢变成可观察、可记录、可迭代的机器信号。

这里面最有意思的地方是：我不是在训一个模型，而是在训一只"耳朵"。

艺术审美如何对齐

以前我们以为自动化是这样的：我给机器一个明确目标，它去执行。比如打开网页、点按钮、生成文件、发消息。

但今天我发现，真正难的自动化不是"点按钮"，而是"懂味道"。

Suno 一批歌出来，六首。机器问我：哪首好？我说：《六点十七分》那首给了 like，其他不差，但没到 like。

这句话，对人来说很自然。对 Agent 来说，已经是黄金训练数据。

因为它不只是知道"哪首赢了"，它还开始学会拆解：为什么赢？

它归因说：切分节奏、女中音、不对称三行 chorus、男女对唱，这些是正向信号。男声独唱、传统四拍框架、普通间隔跳，不坏，但抓耳度不够。更妙的是，它还知道把"男女对唱"单独拿出来：虽然那首没 like，但形式本身是我喜欢的菜。

这就有点像养猫。你不能一次性教会 Katara 什么叫"高级猫粮审美"。你只能一次次看她闻一闻、舔一口、走开，或者突然眼睛一亮。久了以后，你才知道：哦，她不是不吃鸡肉，她是不吃那种干巴巴的鸡肉。

Agent 也是这样。

审美不是规则，审美是残差

不是"女声一定好"，而是"某种女声，在某种节奏切分里，配上某种不对称结构，会让我停下来"。不是"男女对唱一定好"，而是"男女声部如果只是形式对了，但执行没燃起来，那也只是方向对，火候不够"。

这才是主观偏好的对齐。不是一次 prompt 解决。而是通过一串极小的反馈，把"我喜欢"这种玄学，慢慢压缩成 Agent 可以使用的操作信号。

今天 B003 的进步在这里：它不再只是记分员。它开始像一个初级音乐制作助理，能听懂我一句模糊反馈背后的结构暗示。

会干活只是保姆，会揣摩口味才是助理

这事让我突然意识到，未来个人 Agent 最值钱的地方，也许不是会干活。会干活只是保姆。会揣摩你的口味，才是助理。会把你的口味变成下一轮行动，才叫"自己人"。

当然，现在它还嫩。它会用表格总结，会说 80% proven + 20% novelty，看起来像个刚学会麦肯锡黑话的小实习生。但方向对了。

真正的驯养，不是把 Agent 训练成"听话"。而是让它越来越知道：我说"不错"，不等于满意；我说"有点意思"，才是真正可以继续挖的矿。

（涂鸦写歌日记，持续迭代中）

涂鸦写歌交互截图1 — 图1：Agent 归因分析——为什么六点十七分拿 like

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

艺术审美如何对齐

审美不是规则，审美是残差

会干活只是保姆，会揣摩口味才是助理

发布者

立委

发表回复