随笔：AGI 迷思与反思

这两天在琢磨一件事儿。从AIGC（AI Generated Content）琢磨AGI（所谓 Artificial General Intelligence）。

其实直到不久前，对于 AGI 一直有点嗤之以鼻。主要是这所谓的通用人工智能其实没有个像样的定义。我就觉得是扯淡，是科技界的共产主义大饼。当然小编和媒体是从不缺席的，各种鼓吹从来不缺乏，但感觉从业人员如果心心念念 AGI，有招摇撞骗之嫌。

半年多来，准确地说是自从开始玩GPT-3开始，逐渐反思这事儿，觉得 AGI 并不是不可以论，至少比共产主义靠谱得多。

空洞谈实现通用人工智能，有点宣判人类智能终结的味道，感觉大逆不道；而且也永远没有尽头，因为没有验收指标。

但是沿着那个思路走，再回头看自从预训练大模型（BERT/GPT等）横空出世以来的AI表现，AI 的确是在通向越来越通用的金光大道上。

回顾历史，AI 过去的成功几乎全部是专项的成功。最早的源头是特定的机器翻译和极窄的专家系统。到了统计年代，也是场景味道特别浓厚：因为数据都是场景的，领域越受限，AI效果越好。虽然算法有共用的部分，但系统和模型都是专项的，因为数据都是场景的，领域越受限，AI效果越好。这也从AI社区的任务划分上看得出来。拿 NLP 来说，翻译、问答、聊天、摘要、阅读理解、辅助写作（校对/诗歌/对联）等等，都是各自一个门类。岂止是NLP应用的各种任务的分类：MT, summarization, writing assistant, grammaer checking, chatbot, question answering, reading comprehension, poem generation, etc，甚至 NLP 内部的很多事儿，也都是各自有自己的任务和社区、竞赛等等：named entity, relation extraction, event extraction, text classification, parsing, generation, sentiment analysis, topic analysis, etc. 这种情形一直持续很久，以至于第一线做实际工作的人，一听说AGI高调，就很不屑。

现在看大模型，这些东西差不多全部统一进去了。如果说这不是通用，或在通用的路上，什么叫通用呢？

通用不仅仅表现在 NLP 天下归一，更表现在多模态AI的飞速发展，同样的基础模型+下游的机理，类似的 transformer （台湾教授翻译成“变形金刚”）架构，在所有的信号任务上，无论是文字、声音/音乐还是图片/美术、视屏，也都通用了。

预训练以前的时代，AI 深度神经革命（10年前）是从图片刮到了音频再到文字，根本解决了带标大数据的监督训练通用问题。但很多很多场景，带标大数据是匮乏的，这个知识瓶颈扼杀了很多领域应用的可能性。

第二波的预训练自学习创新的浪潮是从文字（NLP迁移学习）开始突破（大约四五年前），回头刮到了视频和音频。

以chatGPT为代表的这第三波通用AI旋风（几个月前），以 zero shot 为标志，以机器学会了“人话”、根本解决人机接口为突破口，也是从NLP开始。

NLP 终于成了 AI 的实实在在的明星和皇冠上的明珠。道理就在 NL 上，自然语言无论有多少毛病，它是难以替代的人类信息的表示方式，没有 NL 在人机对话上的突破，一切AI活动都是精英的玩物。现在好了，门槛无限低，是人都可以玩出大模型的花样和“神迹”出来。

说老实话，AI领域的“共产风”，是一步一个脚印显示给人看的，完全不是空中楼阁，不服不行。大模型的表现超出了所有人的想象，甚至超出了那些设计者和DL先驱者本人的想象。open AI 谈 AGI 谈得最多，但这一点也不奇怪，这是因为他们走在前头，他们是在看得到摸得着的表现中被激励、被震撼，谈论AGI远景的，这与投资界的 AI bubble 或小编以及科幻作家笔下的AI神话，具有不同的性质。

这就是这段时间我一直在想的 AGI 迷思破解。

【相关】

AIGC 潮流扑面而来，是顺应还是（无谓）抵抗呢？