这两天在琢磨一件事儿。从AIGC(AI Generated Content)琢磨AGI(所谓 Artificial General Intelligence)。
其实直到不久前,对于 AGI 一直有点嗤之以鼻。主要是这所谓的通用人工智能 其实没有个像样的定义。我就觉得是扯淡,是科技界的共产主义大饼。当然小编和媒体是从不缺席的,各种鼓吹从来不缺乏,但感觉从业人员如果心心念念 AGI,有招摇撞骗之嫌。
半年多来,准确地说是自从开始玩GPT-3开始,逐渐反思这事儿,觉得 AGI 并不是不可以论,至少比共产主义靠谱得多。
空洞谈实现通用人工智能,有点宣判人类智能终结的味道,感觉大逆不道;而且也永远没有尽头,因为没有验收指标。
但是沿着那个思路走,再回头看自从预训练大模型(BERT/GPT等)横空出世以来的AI表现,AI 的确是在通向越来越通用的金光大道上。
回顾历史,AI 过去的成功几乎全部是专项的成功。最早的源头是特定的机器翻译和极窄的专家系统。到了统计年代,也是场景味道特别浓厚:因为数据都是场景的,领域越受限,AI效果越好。虽然算法有共用的部分,但系统和模型都是专项的,因为数据都是场景的,领域越受限,AI效果越好。这也从AI社区的任务划分上看得出来。拿 NLP 来说,翻译、问答、聊天、摘要、阅读理解、辅助写作(校对/诗歌/对联)等等,都是各自一个门类。岂止是NLP应用的各种任务的分类:MT, summarization, writing assistant, grammaer checking, chatbot, question answering, reading comprehension, poem generation, etc,甚至 NLP 内部的很多事儿,也都是各自有自己的任务和社区、竞赛等等:named entity, relation extraction, event extraction, text classification, parsing, generation, sentiment analysis, topic analysis, etc. 这种情形一直持续很久,以至于第一线做实际工作的人,一听说AGI高调,就很不屑。
现在看大模型,这些东西差不多全部统一进去了。如果说这不是通用,或在通用的路上,什么叫通用呢?
通用不仅仅表现在 NLP 天下归一,更表现在多模态AI的飞速发展,同样的基础模型+下游的机理,类似的 transformer (台湾教授翻译成“变形金刚”)架构,在所有的信号任务上,无论是文字、声音/音乐还是图片/美术、视屏,也都通用了。
预训练以前的时代,AI 深度神经革命(10年前)是从图片刮到了音频再到文字,根本解决了带标大数据的监督训练通用问题。但很多很多场景,带标大数据是匮乏的,这个知识瓶颈扼杀了很多领域应用的可能性。
第二波的预训练自学习创新的浪潮是从文字(NLP迁移学习)开始突破(大约四五年前),回头刮到了视频和音频。
以chatGPT为代表的这第三波通用AI旋风(几个月前),以 zero shot 为标志,以机器学会了“人话”、根本解决人机接口为突破口,也是从NLP开始。
NLP 终于成了 AI 的实实在在的明星和皇冠上的明珠。道理就在 NL 上,自然语言无论有多少毛病,它是难以替代的人类信息的表示方式,没有 NL 在人机对话上的突破,一切AI活动都是精英的玩物。现在好了,门槛无限低,是人都可以玩出大模型的花样和“神迹”出来。
说老实话,AI领域的“共产风”,是一步一个脚印显示给人看的,完全不是空中楼阁,不服不行。大模型的表现超出了所有人的想象,甚至超出了那些设计者和DL先驱者本人的想象。open AI 谈 AGI 谈得最多,但这一点也不奇怪,这是因为他们走在前头,他们是在看得到摸得着的表现中被激励、被震撼,谈论AGI远景的,这与投资界的 AI bubble 或小编以及科幻作家笔下的AI神话,具有不同的性质。
这就是这段时间我一直在想的 AGI 迷思破解。
【相关】