《我看好超大生成模型的创造前途》

最近,盘古群(一个围绕中文超大生成模型盘古的技术交流微信群)里的朋友在谈 open AI 最近发布的文字转图片的 Dalle2 应用,吸引了成千上万的人想要先睹为快。据介绍,Dalle2 可以根据你的自然语言的描述,随机生成任意图片。从发布的样例看,很多生成的图片超出人的想象,很像艺术品,当然也有次品,但都是唯一的。下面随手摘取几张样本:

Dalle 的出现是出版界的福音。出版界为了插图的授权问题,常常弄得头晕脑胀。我们在互联网上发帖子比较随意,需要插图的时候就搜索一幅用上再说,遭遇纠纷的时候撤下就好,但出版界最怕引起这些纠纷。现在好了,通过 Dalle 可以整出来各种插图可供选择,而且保证了这是唯一的“揉合创造”,不会侵权。

商务出版我的《NLP答问》的时候,建议为了回避可能的插图侵权,建议我找艺术家重新描画。无奈之下,我让女儿做了两张素描,她以我和她自己作为原型“再创作”,终于绕过了这个问题。LOL

回来说生成模型。我相信在“机助创作”这个大方向上,超大生成模型今后几年会有接地气的应用出现,Dalle 就是一个苗头。对于创业者,找准市场角度、收获千万用户的杀手级独角兽的出现,也不是小概率事件。因为市场需求是存在的。(据说现在美国有 300 多家初创团队或个人正在寻找利用 GPT3 模型的落地场景。)

这背后的原理,值得说一说。我们知道,计算复杂性研究中有个著名的 P vs NP 问题。简单说就是(在有限时间内)问题分为可解与不可解两类。搜索空间指数增长,组合爆炸,就是不可解的问题。而很多判定性问题具有确定性推理算法,不需要搜索,那就是可解的问题。

超大生成模型的出现就好比是提供了一个把不可解问题转化为可解问题的路径。当然,任何比喻不是跛腿就是夸张,严格说来,应该是超大模型为艺术家和匠人打开了次优解集合的大门。生成模型最大的为人诟病之处是其不稳定性:结果时好时坏,有时候让人拍案叫绝,有时候让人无语。这就是为什么网上对其前景争论不休的主要原因。粉丝报喜不报忧,批评者揭露其背后的缺乏理性或灵性。

这种情况下的最佳搭配其实就是人机耦合(让 human in the loop):人的归人,机器的归机器;各自发挥所长,取长补短。这在创造性应用中最为明显。创造需要消化前人的历史积淀,然后加入个人的灵感,才能成事。但消化类似于搜索,这一步对于人及其有限的脑容量、记忆力和时间,挑战实在太大了。而人作为万物之灵,“灵感”其实人人都有。

现在好了,超大生成模型几乎无限延伸了人的搜索消化的能力,在很多细分领域甚至可以对历史做到一网打尽。深度学习的革命现在可以让消化了的东西重新符号化(包括语言符号、音频符号和视频符号),提供给人选择。这是千载难逢的绝佳组合:人只要判定就好了。判定是灵感参与的线性决策过程,n 挑 1 也就是 n 倍的判定,依然是线性的。对于文学艺术创作,这个太高效了。人类进入“艺术大爆炸”、“艺术个性化”时代,百花齐放,人人皆为艺术家,不是不可以想见的。

熟读唐诗三百首,以前是成为古典诗人的必由之路,被认为是必要的苦功夫。现如今,300 就是个笑话,整个古典诗词喂进模型去也是个小 case。总体而言,消化大数据,人比起机器,就好比蚂蚁比大象。

对于稳定性弱波动性大的生成模型,应用的开花结果不要指望全自动。人机耦合条件下,纵然你n个结果有9成垃圾,我只取一瓢。一样会产生前所未有的价值。目前的问题是,艺术家群体不懂计算,计算界的人艺术敏感度不够,所以二者耦合所能发现的市场角度不容易确定。但假以时间,没有理由不对这个前景看好。

更何况不少创造性应用并不一定要专门针对艺术家或工匠的群体,有相当场景是普罗百姓都有需求的。例如应用文写作、秘书2.0, 编辑2.0, 确保出版插图永无侵权烦恼,等等等等。

 

 

【相关】

DALL·E 2

推荐Chris Manning 论大模型,并附上相关讨论

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

预告:李维等 《知识图谱:演进、技术和实践》(机械工业出版社 2022)

发布者

liweinlp

立委博士,计算语言学家,多语言多领域自然语言处理(NLP)资深架构师。Trend 首席科学家,聚焦医疗领域病友社区的媒体挖掘。前弘玑首席科学家,聚焦RPA+AI的NLP低代码多领域落地,设计NLP核心引擎雕龙,落地多领域场景,包括金融、电力、航空、水利、客服等。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

《《我看好超大生成模型的创造前途》》上有2条评论

  1. 这是一个伟大创新和技术,将颠覆人类有关内容和表达的全部领域!需要继续跟进这一技术的发展!

发表回复

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据