语言是大一统模型里的核心和主线

作者 | 高佳李维

创意 | 李志飞

在我们想象的AGI系统里，其核心和主线是视觉还是语言呢？

有人认为是视觉，但我们坚信语言才是核心，因为视觉反映的是动物共有的感官能力，而语言（包括口语和后来的书面语言文字）则是人类所独有的符号系统。它承载了人类千万年来的认知传承和知识积淀。

语言是是人类认知智能的外在表示，它是人类文明诞生的重要标志。著名以色列历史学家赫拉利在《人类简史》中说，是人类语言赋予的“讲故事”的能力，使得人类具有任何动物都不具有的组织能力，从而催生了文明，让人类成为地球的主宰。

语言是认知智能的起点和源泉，人类的语言信息中蕴含了人类高度抽象的概念层级体系，包括本体知识（ontology）及其常识，也包括更广泛的世界知识和更纵深的领域知识。这些知识是人类的高阶智能如逻辑推理的基础。而声音、图片和视频则更加感性，表示的是人类以及高级动物的情绪和具象能力，对应的是感知智能。

从感知到认知，从情绪到逻辑，当模型将它们融汇贯通，这才能真正模拟人类大脑的心智状态，也才称得上是完整的人工智能。多模态大一统的模型，填平了感知智能与认知智能的鸿沟，才是实现完整人工智能的希望所在。

在 RT-2 和 Gemini 中，以语言为基础的认知智能始终是人类知识模拟的核心，其中常识及其推理的知识迁移起到了关键作用。例如在 RT-2 中，反映语言模态的数据量和参数规模都远远大于下游的图片和动作模态的规模。

在原生态的跨模态大数据中，语言大数据总是处于核心地位。可以预测，未来的AI系统，不管目标是不是语言任务，都要把语言模型作为基础模型和训练的起点，其他模态或任务的下游数据可以在语言模型的基础上继继训练，以便继承和迁移语言模型强大的认知能力。

这一点做到了，就凸显了语言模型对AGI的最大贡献，因为它真正体现了研究人员对语言大模型的初心和定位——作为 Foundation Model 和 Core Engine.

全文原稿在（from）：
关于 Google Gemini 的八点启示

发布者

立委

立委博士，多模态大模型应用高级咨询。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复