从 Suno 看 AIGC 艺术民主化大潮

音乐生成模型Suno出新版(V4.5)了,于是重新玩起来,的确又有明显进步。

我不知道怎样评价AI音乐的成功度,审美既是很个人的美学体验,别人代替不了自己的感受;同时也是需要学习的鉴赏能力,后者我辈天生短板。

关于个人体验,现在发现制作自己可以循环听而不厌烦的歌曲,已经越来越频繁和容易了。其实让自己能循环听的歌曲,从来都是收藏音乐中的少数,自己的耳朵不骗自己,不会容忍口水歌的反复播放。所以,发现模型能做到这一点,还是很让人惊喜的。可惜 得来太容易,物以多为贱,大多数也只能自生自灭,不大会传唱开去,除非是撞上了大运(例如春晚突然出新,被它选中的AI歌曲笃定火遍大江南北)。

我家领导从来极其挑剔,能进入她法眼的歌曲,很稀少,无论是名曲还是流行。她在中小学是宣传队队长出身,艺术素质是我无法比的。但最近开始松动,偶然会对我做的一两首歌予以正面评价,或赞嗓音,或赞曲调。不过那只是我玩Suno一年多实验出的几百首歌中的极少数几首。即便如此,这个改变让我对Suno的进展更有信心。

「中国好声音」以前有创作奖,对原创歌手予以特别奖励。这是因为原创太难了,多数歌手会唱不会作(曲)。我就在想,年轻歌手现在要做“原创”有多容易。你不妨把各种你喜欢的风格提示,做各种杂交,让DeepSeek作词,不断试验,总会得到你满意或喜出望外的。这是Suno昨天做的一首《风知道》,歌词是DeepSeek出的。

有点爵士乐的色彩,完成后我循环听了多遍,觉得有点上头。我尤其喜欢“你向左走,雨向右飘落”这句词曲,特别是“飘落”两个字的韵味,好像轻轻划过内心非常柔弱的所在 lol。

DeepSeek总爱写些精灵古怪,莫名其妙的歌词。可是歌词搞怪,词不惊人死不休,似乎也是不少作词家的追求。我们遭遇过的古怪歌词还少吗?爱唱歌的人,大多不介意词句的朦胧性,有时候歌词的晦涩反而觉得有助于捕捉我们内心的某种不可言传。因此,虽然 Suno 自己也有歌词创作的实力,对于中文歌词,我还是倾向于用国内大模型DeepSeek。

这一首个别地方吐词不清是个瑕疵(沉没 chenmo 唱成了 chenmei,好没文化)。Suno 中文歌曲咬字错误的问题,由来已久了,毕竟中文只是他们 cover 的语种之一。他们一年多来有一些改进,但还是没有做足够的中文 debug 和优化。

本来以为国内音乐生成,会像视频生成那样,很快赶上或超越 Suno,尤其是中文歌曲方面。但迄今没发现可以真正与 Suno 比试功力的。可能是因为 Suno 的创始人们是一群对音乐非常专注的码农极客,非常纯粹的一族,坚持 passion 驱动,免费普及,薄利多销,算是走出了自己的商业闭环。而国内这方面还没有闭环。

要说音乐模态,相比于其他模态和数据,是一个更容易聚焦和搞定的对象。模型也不需要那么大,国内对音乐版权也基本放任自流,技术门槛与数据来源及其使用,都比美国有更好的条件,就是抄作业,也能抄个赶超世界水平的结果来吧。

几个原因。一个是浮躁,一个是国内商业闭环更难做:软件白嫖,不愿意订阅付费,在国内是病入膏肓的用户心态,出手阔绰的中产以上也大多如此。但真做得好,你出海打Suno 呀。当然,Suno也没能大发,只是商业上站住了而已。假以时间,我还是相信国内会跑出来更牛气的音乐模型出来。

音乐鉴赏主观性特别强,one man’s meat,他人也许无感,甚至可能是 another man’s poison。音乐口味的难以一致,比食品更甚。模型所做的,是尽量满足多数人的不同口味,求同存异。 宗旨是让人人成为自己的歌者,能把心里表达不出来的感受唱出来。这一点,前大模型时代是不敢想象的。

昨天在旧金山参加谷歌Gemini应用路演的活动,听大模型应用讲座。那位ceo和活动组织者说:你们知道 Andrew Ng 吗?就是那位全球知名的AI大佬,Andrew 说,他曾经与一位美术家一起使用 Midjourney 作画,Andrew 承认自己一败涂地。照说 Andrew 对模型架构和原理,都有深入的了解,而那位美术家对AI一窍不通。 但美术家懂得美术品鉴和美术术语,知道如何用合适的 prompt,让模型输出品质作品,Andrew 一个科学家如何能比呢?

音乐也是一样。我们乐盲玩音乐模型常常很盲目,就是知道自己喜欢什么、希望什么,也不知道如何表达成合适的 prompt 指令。那些个音乐术语,一套一套的,在我们就是雾里看花:例如,Ornate symphonic folk opens with intricate minor key acoustic guitar arpeggios, surrounded by cello and violins, Atmospheric, pitch-shifted synths and baroque harpsichord add elegance, An expressive -alto-female-lead-vocal is joined by grand harmonies, over deep synths and layered acoustics for drama and sophistication, male vocals, male-vocals。 好在Suno有风格拷贝和迁移的功能。

Suno 作品分两类:一类是有某种版权保护的创作,好比闭源。大多是非常专业的音乐家或团体,有意识在Suno平台上创作,有计划的利用平台并发挥影响。他们的作品总体是高品质。另一类是我们这些自生自灭的业余爱好者,我们恨不能自己的作品被人使用,属于开源派。开源派因为基数大,也不时有出圈的作品出来。Suno 让开源派完全放开自己作品被 remix(改编)、被 cover(改变风格) 以及 被 extend(延长) 的任意使用权限。

但即便是声称版权保护的闭源作品,它的风格 prompt 也是可以拷贝的,只是不允许直接在人家的作品上动刀子。而且,如果你实在太喜欢某个版权作品,无论是suno平台上的,还是任意一位音乐家作品,你总可以录下一个小样来,灌进去,然后让 Suno extend 或启发Suno做改编。

Suno 尽管据说面临各种侵权官司,还是在合理使用和版权保护的平衡方面更倾斜于音乐民主化,比 YouTube等平台宽松多了。总之,Suno 的民主化理念以及让人人成为歌者的信念,令人印象深刻,也符合AI大趋势。音乐家也有不少选择加入并利用平台,而不仅仅是自我维权,与它打官司。

对于用户的可能侵权的音频输入作为创作灵感,Suno 不是扼杀于摇篮,而是不让 Suno据此加工后的作品在平台公开发表,但可以给链接做内部分享。 如果你用在自己的其他作品里(利用打开别的 app 来 import 的时候),它会给个警告,提醒不得商用。这种非常细致的平衡 policy,也真难为它了。绝大多数音乐玩家,也就是图个开心和抒发,在商业上并没可能侵犯艺术家权益。终局还是极大推进了艺术民主化与多样化。我觉得这既是AIGC不可逆转的大趋势,也是艺术回归人民,而不是局限于小圈子的善举。Anyway,贼佩服Suno这批音乐狂人。

作为从小缺乏音乐素质培训先天不足的用户,我无法学会那些音乐术语,并体会其含义,很难自己独立做有效的 prompt,很难。但有两个路子:一个是拷贝 prompt 或 remix 别人的作品;另一个是随机试验prompt的风格混搭:平台鼓励你用 surprise me 的按钮对不同风格做随机组合。随机尝试的结果自然大多失败,但偶然也有拍案叫绝的作品。用 prompt 拷贝效果好一些,但也看运气。对现存作品做 extend,remix 和 cover 最保险,基础就好,结果不会太差。总之,各种玩法,还是很容易 kill time 的,一不留神就在平台玩了半天。玩Suno最爽的一件事,是每一种玩法都是充分供应、立等可取,可以随心所欲,试错成本为零。与图片和视频aigc创作不同,音乐模型相对较小,消耗的 tokens 有限,推理极快。你prompt刚回车,那边就闪过一行字:your groove is on the way. 再眨一下眼, "songs ready, tap to play",  两首大同小异的歌曲就坐等你鉴赏取舍了。这极大满足了我们草民的艺术好奇心和探索欲。

这一切订阅月费不过8刀包圆,可见也费不了多少计算资源,否则它无法长久维持。这个定价就是Suno赖以生存的商业模式,它还要照顾总多的免费用户,只有免费用户盘子足够大,才能确保其中一定比例的付费用户会稳定维持和增长。

有一个观察值得一提:很多人,有些是很有素质的知识分子,对大模型浅尝辄止,但却常常遽下结论(jump to conclusions)。例如,读了几段AIGC文字,连忙摇头:一股机器味。听了几首AIGC 歌曲,立即说:口水歌。看了几幅AIGC 图画,一脸不屑:太假。看了AIGC视频,两个字:太水。

这些朋友忘了两件事:

    1. AIGC 的低质作品多,也不比人类的低质比例高多少:咱们只要想一想人类文学家艺术家的产出中,真正的精品是多么的稀少,大多数是垃圾或水货(这是出版物,更多的垃圾根本就没有面世)。而这些专家都是经过多年的专门训练。
    2. AIGC 模型一直在快速进步,迄今没看到天花板。就是说,你今天看到的不足,明天可能就会改观。语言文学方面最明显,两年前不少人还斥之为机器味的模型文字能力,现如今有谁敢拍着胸脯说自己比大模型更善于文字工作呢?

说了这么多心得,其实还是不确定自己的“作品”有多少成色或艺术价值。AIGC不过就是模态渲染,用户与潜在受众对渲染的心灵感应可能非常不同。但可以确定一点:它满足了我们个体的美感体验,否则谁吃多撑的,要玩音乐呢(现在开始理解游戏玩家了,一定是类似的满足感,虽然对社会没有贡献)。

哪吒2说:我命由我不由天。在艺术民主化的新时代,我们广大艺术圈外人,也可以说: thanks to aigc,我美由我不由权威。

Suno 术语:🔁 Remix / Extend / Cover / Duet / Persona

    • Remix:对别人歌曲的变奏再创,通常保留旋律结构,换编曲或节奏。

    • Extend:给原曲加段落、延长高潮,适合舞曲或剧情型歌曲。

    • Cover:用原曲歌词/旋律但换人演唱,像虚拟KTV。

    • Duet:与别人作品做 AI 对唱(系统自动处理双人分轨)。

Suno AI 里面,persona 是一个控制歌手声音、情感、风格和演唱角色的参数,特别是在 Custom Mode(自定义模式)下最关键。简单说,它让你可以说“用一个什么样的虚拟歌手来唱这首歌”。


什么是 Persona?

在 Suno 中,persona 就像是一个“虚拟歌手的设定”:

    • 你可以指定性别(male, female)

    • 指定风格(folk singer, pop diva, 80s rock star...)

    • 指定角色(AI robot, fairy, cowboy, teenage girl...)

    • 甚至语言口音(Mandarin accent, Spanish accent, etc)


Persona 的使用方法

方式一:Custom Mode 的 Prompt 里写上 persona 信息

你在 Custom Mode 里面写歌词或描述时,可以加一句:

"sung by a soft-voiced Chinese girl in folk style"
或者
"persona: a warm male voice like an old blues singer"

更明确的方式是直接加入关键词:

"persona: female, emotional, acoustic folk, in Mandarin accent"

Suno 会根据这个提示来选择一个最匹配的声音模型。


常见 persona prompt 范例

类型 示例 persona 描述
情感 "a dreamy female voice full of longing"
年龄 "a teenage boy voice", "an old man voice"
风格 "a K-pop idol voice", "80s synth-pop diva"
国家与口音 "Mandarin-accented English female", "Spanish male folk voice"
虚构角色 "AI robot voice with metallic resonance", "a fairy singing in the forest"

实战技巧

  • 情绪匹配歌词:如果你写的是一首伤感的歌,persona 就要选 “soft, melancholic female voice”

  • 配合语言设定:写中文歌词时可加“persona: Mandarin accent female folk singer”

  • 实验组合:可以试试 “persona: female cyberpunk pop singer” 这样更创意的组合,看看 Suno 怎么发挥


发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理