从 Suno 看 AIGC 艺术民主化大潮

音乐生成模型Suno出新版(V4.5)了,于是重新玩起来,的确又有明显进步。

我不知道怎样评价AI音乐的成功度,审美既是很个人的美学体验,别人代替不了自己的感受;同时也是需要学习的鉴赏能力,后者我辈天生短板。

关于个人体验,现在发现制作自己可以循环听而不厌烦的歌曲,已经越来越频繁和容易了。其实让自己能循环听的歌曲,从来都是收藏音乐中的少数,自己的耳朵不骗自己,不会容忍口水歌的反复播放。所以,发现模型能做到这一点,还是很让人惊喜的。可惜 得来太容易,物以多为贱,大多数也只能自生自灭,不大会传唱开去,除非是撞上了大运(例如春晚突然出新,被它选中的AI歌曲笃定火遍大江南北)。

我家领导从来极其挑剔,能进入她法眼的歌曲,很稀少,无论是名曲还是流行。她在中小学是宣传队队长出身,艺术素质是我无法比的。但最近开始松动,偶然会对我做的一两首歌予以正面评价,或赞嗓音,或赞曲调。不过那只是我玩Suno一年多实验出的几百首歌中的极少数几首。即便如此,这个改变让我对Suno的进展更有信心。

「中国好声音」以前有创作奖,对原创歌手予以特别奖励。这是因为原创太难了,多数歌手会唱不会作(曲)。我就在想,年轻歌手现在要做“原创”有多容易。你不妨把各种你喜欢的风格提示,做各种杂交,让DeepSeek作词,不断试验,总会得到你满意或喜出望外的。这是Suno昨天做的一首《风知道》,歌词是DeepSeek出的。

有点爵士乐的色彩,完成后我循环听了多遍,觉得有点上头。我尤其喜欢“你向左走,雨向右飘落”这句词曲,特别是“飘落”两个字的韵味,好像轻轻划过内心非常柔弱的所在 lol。

DeepSeek总爱写些精灵古怪,莫名其妙的歌词。可是歌词搞怪,词不惊人死不休,似乎也是不少作词家的追求。我们遭遇过的古怪歌词还少吗?爱唱歌的人,大多不介意词句的朦胧性,有时候歌词的晦涩反而觉得有助于捕捉我们内心的某种不可言传。因此,虽然 Suno 自己也有歌词创作的实力,对于中文歌词,我还是倾向于用国内大模型DeepSeek。

这一首个别地方吐词不清是个瑕疵(沉没 chenmo 唱成了 chenmei,好没文化)。Suno 中文歌曲咬字错误的问题,由来已久了,毕竟中文只是他们 cover 的语种之一。他们一年多来有一些改进,但还是没有做足够的中文 debug 和优化。

本来以为国内音乐生成,会像视频生成那样,很快赶上或超越 Suno,尤其是中文歌曲方面。但迄今没发现可以真正与 Suno 比试功力的。可能是因为 Suno 的创始人们是一群对音乐非常专注的码农极客,非常纯粹的一族,坚持 passion 驱动,免费普及,薄利多销,算是走出了自己的商业闭环。而国内这方面还没有闭环。

要说音乐模态,相比于其他模态和数据,是一个更容易聚焦和搞定的对象。模型也不需要那么大,国内对音乐版权也基本放任自流,技术门槛与数据来源及其使用,都比美国有更好的条件,就是抄作业,也能抄个赶超世界水平的结果来吧。

几个原因。一个是浮躁,一个是国内商业闭环更难做:软件白嫖,不愿意订阅付费,在国内是病入膏肓的用户心态,出手阔绰的中产以上也大多如此。但真做得好,你出海打Suno 呀。当然,Suno也没能大发,只是商业上站住了而已。假以时间,我还是相信国内会跑出来更牛气的音乐模型出来。

音乐鉴赏主观性特别强,one man’s meat,他人也许无感,甚至可能是 another man’s poison。音乐口味的难以一致,比食品更甚。模型所做的,是尽量满足多数人的不同口味,求同存异。 宗旨是让人人成为自己的歌者,能把心里表达不出来的感受唱出来。这一点,前大模型时代是不敢想象的。

昨天在旧金山参加谷歌Gemini应用路演的活动,听大模型应用讲座。那位ceo和活动组织者说:你们知道 Andrew Ng 吗?就是那位全球知名的AI大佬,Andrew 说,他曾经与一位美术家一起使用 Midjourney 作画,Andrew 承认自己一败涂地。照说 Andrew 对模型架构和原理,都有深入的了解,而那位美术家对AI一窍不通。 但美术家懂得美术品鉴和美术术语,知道如何用合适的 prompt,让模型输出品质作品,Andrew 一个科学家如何能比呢?

音乐也是一样。我们乐盲玩音乐模型常常很盲目,就是知道自己喜欢什么、希望什么,也不知道如何表达成合适的 prompt 指令。那些个音乐术语,一套一套的,在我们就是雾里看花:例如,Ornate symphonic folk opens with intricate minor key acoustic guitar arpeggios, surrounded by cello and violins, Atmospheric, pitch-shifted synths and baroque harpsichord add elegance, An expressive -alto-female-lead-vocal is joined by grand harmonies, over deep synths and layered acoustics for drama and sophistication, male vocals, male-vocals。 好在Suno有风格拷贝和迁移的功能。

Suno 作品分两类:一类是有某种版权保护的创作,好比闭源。大多是非常专业的音乐家或团体,有意识在Suno平台上创作,有计划的利用平台并发挥影响。他们的作品总体是高品质。另一类是我们这些自生自灭的业余爱好者,我们恨不能自己的作品被人使用,属于开源派。开源派因为基数大,也不时有出圈的作品出来。Suno 让开源派完全放开自己作品被 remix(改编)、被 cover(改变风格) 以及 被 extend(延长) 的任意使用权限。

但即便是声称版权保护的闭源作品,它的风格 prompt 也是可以拷贝的,只是不允许直接在人家的作品上动刀子。而且,如果你实在太喜欢某个版权作品,无论是suno平台上的,还是任意一位音乐家作品,你总可以录下一个小样来,灌进去,然后让 Suno extend 或启发Suno做改编。

Suno 尽管据说面临各种侵权官司,还是在合理使用和版权保护的平衡方面更倾斜于音乐民主化,比 YouTube等平台宽松多了。总之,Suno 的民主化理念以及让人人成为歌者的信念,令人印象深刻,也符合AI大趋势。音乐家也有不少选择加入并利用平台,而不仅仅是自我维权,与它打官司。

对于用户的可能侵权的音频输入作为创作灵感,Suno 不是扼杀于摇篮,而是不让 Suno据此加工后的作品在平台公开发表,但可以给链接做内部分享。 如果你用在自己的其他作品里(利用打开别的 app 来 import 的时候),它会给个警告,提醒不得商用。这种非常细致的平衡 policy,也真难为它了。绝大多数音乐玩家,也就是图个开心和抒发,在商业上并没可能侵犯艺术家权益。终局还是极大推进了艺术民主化与多样化。我觉得这既是AIGC不可逆转的大趋势,也是艺术回归人民,而不是局限于小圈子的善举。Anyway,贼佩服Suno这批音乐狂人。

作为从小缺乏音乐素质培训先天不足的用户,我无法学会那些音乐术语,并体会其含义,很难自己独立做有效的 prompt,很难。但有两个路子:一个是拷贝 prompt 或 remix 别人的作品;另一个是随机试验prompt的风格混搭:平台鼓励你用 surprise me 的按钮对不同风格做随机组合。随机尝试的结果自然大多失败,但偶然也有拍案叫绝的作品。用 prompt 拷贝效果好一些,但也看运气。对现存作品做 extend,remix 和 cover 最保险,基础就好,结果不会太差。总之,各种玩法,还是很容易 kill time 的,一不留神就在平台玩了半天。玩Suno最爽的一件事,是每一种玩法都是充分供应、立等可取,可以随心所欲,试错成本为零。与图片和视频aigc创作不同,音乐模型相对较小,消耗的 tokens 有限,推理极快。你prompt刚回车,那边就闪过一行字:your groove is on the way. 再眨一下眼, "songs ready, tap to play",  两首大同小异的歌曲就坐等你鉴赏取舍了。这极大满足了我们草民的艺术好奇心和探索欲。

这一切订阅月费不过8刀包圆,可见也费不了多少计算资源,否则它无法长久维持。这个定价就是Suno赖以生存的商业模式,它还要照顾总多的免费用户,只有免费用户盘子足够大,才能确保其中一定比例的付费用户会稳定维持和增长。

有一个观察值得一提:很多人,有些是很有素质的知识分子,对大模型浅尝辄止,但却常常遽下结论(jump to conclusions)。例如,读了几段AIGC文字,连忙摇头:一股机器味。听了几首AIGC 歌曲,立即说:口水歌。看了几幅AIGC 图画,一脸不屑:太假。看了AIGC视频,两个字:太水。

这些朋友忘了两件事:

    1. AIGC 的低质作品多,也不比人类的低质比例高多少:咱们只要想一想人类文学家艺术家的产出中,真正的精品是多么的稀少,大多数是垃圾或水货(这是出版物,更多的垃圾根本就没有面世)。而这些专家都是经过多年的专门训练。
    2. AIGC 模型一直在快速进步,迄今没看到天花板。就是说,你今天看到的不足,明天可能就会改观。语言文学方面最明显,两年前不少人还斥之为机器味的模型文字能力,现如今有谁敢拍着胸脯说自己比大模型更善于文字工作呢?

说了这么多心得,其实还是不确定自己的“作品”有多少成色或艺术价值。AIGC不过就是模态渲染,用户与潜在受众对渲染的心灵感应可能非常不同。但可以确定一点:它满足了我们个体的美感体验,否则谁吃多撑的,要玩音乐呢(现在开始理解游戏玩家了,一定是类似的满足感,虽然对社会没有贡献)。

哪吒2说:我命由我不由天。在艺术民主化的新时代,我们广大艺术圈外人,也可以说: thanks to aigc,我美由我不由权威。

Suno 术语:🔁 Remix / Extend / Cover / Duet

    • Remix:对别人歌曲的变奏再创,通常保留旋律结构,换编曲或节奏。

    • Extend:给原曲加段落、延长高潮,适合舞曲或剧情型歌曲。

    • Cover:用原曲歌词/旋律但换人演唱,像虚拟KTV。

    • Duet:与别人作品做 AI 对唱(系统自动处理双人分轨)。

 

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理