11 月, 2022 - 立委NLP频道

最近有个视频科普很不错，值得推荐：画不好美少女吃面的 AI，让二次元怒了。里面提到的一条应该是常识了，但还需要加强普及：「我们的 AI 不是复制和混合现有图像，而是在深度学习算法的帮助下，从头开始生成原始图像，AI 基本上已经学会了如何创建图像——就像人一样。」

面对AIGC（AI Generated Content）大潮，可以理解艺术家群体和少数粉丝极端派的愤怒和懊恼，但是，没办法，这是大势所趋，顶是顶不住的，迟早要学会顺应。所谓AI 不理解“游泳”，画不出“吃拉面”的自然姿势，根本不是 AI 真正的痛点，不过是恰好遭遇了特定模型因为训练数据的某种缺失或不够全面造成的临时的短板（或 bugs）而已。假以时间，这些问题都会解决。当然，AI 生成的随机性和无限性决定了，不可能也没必要每一幅AI流水线的产出都是玩者所希望的，总会有很多“次品”，这根本不影响其应用价值：人家AI给的是候选，拣选还是靠人，靠艺术家。

拣选靠人也是整个线条中自然的一个把关环节，这是因为最终的审美消费者是人，当然由人来做 “go or no go” 的裁决。其实，可以想象的真正实用落地的场景，一定是枪毙的多，存留的少。但AI模型不怕自己的产品扔进垃圾堆，因为它的产出成本几近于零，它总是可以没完没了生成更多的候选者。关键的关键还是人机耦合，human in the loop，具体说来，人在输入端和输出端，都起着决定AI艺术能不能见天日和受到消费者欢迎的关键作用：输入端的微调用的图片选择、提示词技巧及其参数配置的经验，以及输出端的生杀大权。顺应潮流的艺术匠人，如果想在市场上站住甚至如鱼得水，艺术市场化的工作机会不被淘汰，只有抓住这两端，学会人机耦合过程中让机器做机器的，让自己做指挥，才是正道。正在艺术爆发期的极少数天才艺术家可以继续自己的手工激情创作，实际上是给未来的 AI 模型预备更多的风格素材，但作为市场的艺术匠人（例如小报的漫画家，图书的插图家，甚至广告艺术家），如果不懂得适应，被淘汰是大概率事件，因为市场已经无法感受它们的手工匠人的价值，且不说其效率的低下。

人的参与还有更关键的一项，就是后编辑。文中提到的AI创作获得艺术大奖的那幅作品，实际上就是从 AI 生成中，经过细心的拣选加以后编辑制作而成。这次大奖是艺术家们审批的，他们事先不知道参选作品中混杂了AI作品的衍生品。

In August, Jason M. Allen's piece "Théâtre D'opéra Spatial" — which he created with AI image generator Midjourney — won first place in the emerging artist division's "digital arts/digitally-manipulated photography" category at the Colorado State Fair Fine Arts Competition.

有记者采访某评审，问后悔不后悔做了“错误”的选择。评审说，即便知道是AI作品，他还是会把大奖给这幅作品，因为在他心中，这是毫无争议的冠军之作。画作场面震撼人心，是大气派。

虽然AI模型总是在进步中，bugs 会越来越少，但是一个特定的模型，总会产出瑕疵。更多的情形是，一幅被选中的作品整体上很好，甚至超出想象，但细节上发现有瑕疵。这时候就是艺术匠人在“拣选”环节结束后可以施展自己才能的地方了。艺术家可以用传统的PS软件帮助修正，也可以手工做细节修补。总之，完美的作品基本上离不开后编辑。如果是针对市场需求的定制品，作为人的后编辑也更加了解目标市场和客户的需求，懂得怎样以合适的后编辑让产品更加受到目标客户的喜爱，简单的后编辑也包括大家常用色调、对比度等的微调。【编者按：最近的发展表明，也可以通过自然语言指令让模型去做再加工和后期制作。】

前不久，朋友圈有个很不错的微信视频号的艺术介绍：

370. 穆夏和他的缪斯-阿尔丰斯 · 穆夏的故事 安徒生说：“仅仅活着是不够的，还需要阳光，自由和一点花的芬芳。” 的确，艺术正是如此，让我们超越现实的桎梏，到达诗意的彼岸。捷克国宝级画家阿尔丰斯 · 慕夏被誉为「世上最伟大的装饰艺术家」：他的作品线条婉转流畅，色彩淡雅清新，装饰华美瑰丽，初见惊艳，再见难忘。#阿尔丰斯·穆夏#捷克斯洛伐克#装饰#艺术#流行#文化#绘画#工业设计#布拉格艺术学院#斯拉夫#慕尼黑#维也纳#法国

看完视屏，也蛮喜欢这位富于装饰性的细线条经典美术家。于是，我用这位艺术家的名字作为提示词在手机 app “Facetune”里，让AI仿制他的风格，并与其他形态碰撞，看看效果若何。下面选几张感觉风格模拟得比较好的AI作品，以飨读者。

比较一下原作和AI仿制品，还是很有意思的，那种装饰性的风格还是被系统抓住了。而我不过就是在提示词（prompt）框里面，用了翻译成中文的艺术家名字，系统就可以没完没了生成同样的风格。

这是穆夏的肖像画仿作：

特别是他笔下的林黛玉，还是中西结合浑然一体的，有点让人震撼。

AI生成图像的尝试

下面的人物美术作品不是网上瞎拼凑来的图片杂烩，都是经我的中文或英文指令（叫“提示词 prompt”）由AI 模型生成出来的“原创”女生肖像类作品。包括不同风格，以及不同风格的碰撞。

AI 生成的少女肖像作品

我玩的这模型是个明显针对人脸优化的模型，适合人体肖像艺术。

只有想不到，没有画不了，万能美术大师，通吃各路流派、各种风格，这就是人工智能时代的艺术世界。人机接口非常简单，就是自然语言关键词，多数 text to image 模型可以听懂所有主要语言，汉语、欧洲语言都可以，让它画啥它画啥，从不厌烦。

乍一看也没啥，花里胡哨的，好像都是闹着玩的。不少“作品”感觉在前AI生成模型阶段，通过抄袭（侵犯版权）加PS也可以做。但人们往往忽视了里面与PS的“质”的不同。

AI 模型生成的“艺术品”：（1）绝不是抄袭，原则上也不牵涉版权侵犯问题，因为（2）AI 模型是 “消化” 了无数作品练就的“功夫”，换句话说，模型是把先人的作品揉碎了，变成具有不同级抽象能力的内部向量表示，在此基础上的生成是不可能抄袭的，只可能是“再创作”。

可以说这与人类艺术家的修为和风格形成非常相似。人类艺术家也是在前人的肩膀上，多年苦练，兼收并蓄最后形成自己的风格和功力。所不同的是，它的消化能力从容量上看不知道要超过人类个体多少倍。

如果要押宝，对于艺术家个体 vs 对于模型，’创造力学识与风格多样性“ 我更倾向于后者。个体的“功力”有瓶颈，人的艺术生涯容易撞上天花板，江郎才尽。而模型这方面好多了。

老友问：AI学会风格是不是创造力？

立委：应该算的，最终图灵测试定音。等到以风格和创造力作为标准的大赛越来越多AI作品上榜，盲选的话，那就难以为人类独特性辩护了。辩护的理由只剩下一条：来源上看，人类艺术是鸡，AI 是蛋。但哪个艺术家后生不是鸡蛋呢？没见过娘胎里一生下就成为艺术家的。天才也要苦练基本功才能绽放才华。

老友：风格实际上是韵律的规律性重复和一定的随机性的组合。人对于规律的把握存在个人极限，超越极限的部分表现出一定的随机性，实际上就是个人风格了。人的随机性表现是因为心情或者脉搏或者某一时间的注意力的漂移。

立委：AI 生成模型的本性里就有随机性，因此同样的模型在相同的提示词与其他条件下可以寻不同路径生成多种结果。艺术上所谓的残缺美，实际上就是为随机漂移留下了容忍、甚至欣赏的空间。白璧无瑕没问题，白璧微瑕也没问题。

老友：音乐比较容易被AI生成，书画和中国书法最难。

立委：AI书法我也玩过，这是生成的怀素狂草：

感觉是初学水平或略好过初学。可是这不是特意学书法的模型生成的，而是大模型的副产品，没有特别针对书法做优化，所以还不错啦。（你放大看就发现，这是从形式上对于狂草笔法的模仿，里面其实没有一个汉字。）

老友：中国书法里面蕴含了中国文人的文化特质和文化追求。

立委：你这种说法是意义不大的真理。所有艺术都可以有类似的说法，说到底就是强调人类独特性。但所有艺术都是诉诸形式来表现的，也都是可以AI的。

老友：@wei 中国文人的忧世情怀和自伤自怜是一种独特的民族特质。

立委：艺术的都是民族的，从书法、绘画到民间音乐，都可以强化这些民族风特质，但解剖刀下，以绘画论，最终归结于形式原子“像素”。

AI 正在不声不响渗透我们的生活

先说个故事。几年前，我老爸给我发微信问，有没有办法修复先辈仅存下来的几张旧照片，特别是我的爷爷那一辈。我做了一些尝试，效果并不满意。

这是翻拍的旧照片：

應文世兄（立委伯祖父遗像）

立委爷爷李應期

这是当时做了电脑上色加工的图片：

如果下细功夫磨是可以慢慢平滑（smoothing）修复一些疵点的，但这要熟悉图像软件的很多细节，一直没功夫学好这一技能。但人的神态、面部表情和细节的清晰度，光靠蛮力是无济于事的。

此事暂时搁下。老爸总觉得是个遗憾，尤其是现在我们打算给爷爷迁墓，以及重新印刷《李老夫子遗墨》的时候。老爸的记忆中这些先辈是鲜活的，可惜老爸不是画师，也找不到合适的画师可以根据记忆描述加旧照片参照，把他心目中的先辈肖像描画出来。

转眼到了2022年。我在手机中开始注意到一些旧照片复活的广告，其中一个镜头让人触动：一位90高龄的老太太的旧照片翻新成为细腻入丝的动画。老太太看到自己青春少女时代的风采，那种掩饰不住的惊讶和喜悦，让人印象深刻。

是的，AI 的革命和图像生成模型从来没有停下脚步。旧照片上色、修复，模糊头像清晰化，背景重置，动画效果，应有尽有。这一类接地气的应用已经有很多款。手机 app 就可以做（例如苹果店的 colorize app 中的附加功能 live portrait），动画生成调用云端的大数据模型，最多半分钟即可完成。

说一下这背后发生着什么。AI深度神经网络的革命首先在图像识别上大爆发，近几年的大数据生成模型开始突飞猛进。以前我们见木不见林，对于大数据的力量认识不足。总觉得任何信息对象总是由细及粗易，反之则难，简直是不可能，因为总不能无中生有吧。模糊的图像怎么可能清晰化呢？大数据预训练生成模型彻底改变了这一切。原理也简单：无中生有需要的是细节，这些细节信息以前靠记忆和想象弥补，如今可以靠大数据来填补。（顺便一提，我认为，现在的所谓无损压缩技术在空间有限的场景，可以由物理超压缩，外加大模型逼真再现技术来模拟逼近，很多时候人的感官是很难区分的。）

于是，我跟老爸说，现在好了，旧照片翻新复活不是梦，一定做到老爸满意为止。当然，在翻新过程中还要有多种尝试，大体上 80% 的时候效果很好，也有少数时候，模型用力过度，造成失真的结果。在我把伯祖父和叔祖父图片和动画调制好以后，我爷爷的旧照翻新却有明显的缺陷，老爸不断问我：还可以改善吗？

功夫不费苦心人。我重新设计上色和清晰化的方案，然后再到图片软件中做一些色调的微调，再回到动画制作模型来，这样来回折腾几次，终于得到了相当不错的结果。我问老爸：这下满意了吗？老爸说：非常逼真！很好。印到书上，永留纪念！老爸的惊喜让我感觉宽慰。爸爸记忆深处的形象终于逼真重现，这是以前做梦也想不到的事儿。

我在微信群发帖子说：AI 让先祖复活，栩栩如生。

我看好超大生成模型的创造前途

最近，盘古群（一个围绕中文超大生成模型盘古的技术交流微信群）里的朋友在谈 Open AI 最近发布的文字转图片的 DALLE-2 应用，吸引了成千上万的人想要先睹为快。据介绍，DALLE-2 可以根据你的自然语言的描述，随机生成任意图片。从发布的样例看，很多生成的图片超出人的想象，很像艺术品，下面随手摘取几张样本：

DALLE 的出现是出版界的福音。出版界为了插图的授权问题，常常弄得头晕脑胀。我们在互联网上发帖子比较随意，需要插图的时候就搜索一幅用上再说，遭遇纠纷的时候撤下就好，但出版界最怕引起这些纠纷。现在好了，通过 DALLE 可以整出来各种插图可供选择，而且保证了这是唯一的“揉合创造”，理论上不会侵权。

想起来几年前商务出版我的小书《自然语言处理答问》的时候，为了回避可能的插图侵权，建议我找艺术家重新描画。无奈之下，我让女儿做了两张素描，她以我和她自己作为原型“再创作”，终于绕过了这个问题。

回来说生成模型。我相信在“机助创作”这个大方向上，超大生成模型今后几年会有接地气的应用出现，DALLE 就是一个苗头。对于创业者，找准市场角度、收获亿万用户的杀手级应用的出现，也不是小概率事件。因为市场需求是存在的。（据说现在美国有 300 多家初创团队或个人正在寻找利用 GPT3 模型的落地场景。）

这背后的原理，值得说一说。我们知道，计算复杂性研究中有个著名的 P vs NP 问题。简单说就是（在有限时间内）问题分为可解与不可解两类。搜索空间指数增长，组合爆炸，就是不可解的问题。而很多判定性问题具有确定性推理算法，那就是可解的问题。

超大生成模型的出现就好比是提供了一个把不可解问题转化为可解问题的路径。当然，任何比喻不是跛腿就是夸张，严格说来，应该是超大模型为艺术家和匠人打开了次优解集合的大门。生成模型最大的为人诟病之处是其不稳定性：结果时好时坏，有时候让人拍案叫绝，有时候让人无语。这是为什么网上对其前景争论不休的原因之一。粉丝报喜不报忧，批评者揭露其背后的缺乏理性或灵性。

这种情况下的最佳搭配其实就是人机耦合（让 human in the loop）：人的归人，机器的归机器；各自发挥所长，取长补短。这在面向创造的应用中最为明显。创造需要消化前人的历史积淀，然后加入个人的灵感，才能成事。但消化大数据对于人及其有限的脑容量、记忆力和时间，挑战实在太大了。而人作为万物之灵，“灵感”其实人人都有。

现在好了，超大生成模型几乎无限延伸了人的消化能力，在很多细分领域甚至可以对历史数据做到一网打尽。深度学习的革命现在可以让消化了的东西重新符号化（包括生成语言符号、音频符号和视频符号），提供给人选择。这是千载难逢的绝佳组合：人只要判定就好了。判定是灵感参与的线性决策过程，n 挑 1 也就是 n 倍的判定，依然是线性的。对于文学艺术创作，这个太高效了。人类进入“艺术大爆炸”、“艺术个性化”时代，百花齐放，人人皆为艺术家，不是不可以想见的。

熟读唐诗三百首，以前是成为古典诗人的必由之路，被认为是必要的苦功夫。现如今，300 就是个笑话，整个古典诗词喂进模型去也是个小 case。总体而言，消化大数据，人比起机器，就好比蚂蚁比大象。

对于稳定性弱波动性大的生成模型，应用的开花结果不要指望全自动。人机耦合条件下，纵然你n个结果有9成垃圾，我只取一瓢，一样会产生前所未有的价值。目前的问题是，艺术家群体不懂计算，计算界的人艺术敏感度不够，所以二者耦合所能发现的市场角度不容易确定。但假以时间，没有理由不对这个前景看好。

更何况不少创造性应用并不一定要专门针对艺术家或工匠的群体，有相当场景是普罗百姓都有需求的。例如应用文写作、秘书2.0，编辑2.0，确保出版插图永无侵权烦恼，等等等等。

【相关】