思维等于语言吗??

有一派哲学家相信,思维等于语言,二者是一块铜币的两面。或曰:思维是内在的语言,语言是外在的思维。但这种观点经不起推敲。

共识是,语言是思维内容的表达形式。理论上,任何内容都需要赖以存在的形式。老话说:“皮之不存,毛将焉附。” 但形式其实有两种:一种是他人能看得见摸得着的多模态外在形式(例如语言文学,也包括音频视频作品),另一种是无法直接与别人分享的内心活动载体——内在形式(神经元脑电波)。

内容与形式的确是一体两面、相互依赖的整体,但只有内在形式才是思维不可或缺的载体。大模型的实践中,系统把内容抽象为脱离了特定语言的可计算和操作的内部向量(tensor),神经网络把这种内在形式称为意义的隐藏空间。伊利亚曾说,生物大脑的神经网络也差不多是一种类似的电脉冲数据流。这个观点目前还不是科学共识,因为我们对大脑机理的了解远远落后于AI的发展。无论如何,借助这种视角,我们可以更清晰地认识到思维作为内容,与语言作为外在形式之间的关系。

关于思维与语言既密切相关又可以独立这一点,越想越觉得奇妙。哲学上可以持续争论,然而大型语言模型的出现提供了一个活生生的“波粒二象性”般的例证。思维好比波,语言作为离散符号序列,好比粒子(流)。人类意识就像光,具有这种思维/语言的二象性。到底思维在我们大脑里是一种什么形态?它与我们的语言器官(发音或码字)如何相互转化、作用和反作用呢?纯粹从生物学角度可能不易搞清楚。但人工神经网络至少呈现出一种可以将思维表示为内部向量,并在端口之间实现相互转换(embedding / softmax)的机制。如果把语言比作衣服,那么内部思维链就像光着屁股的意识流,是“裸思”;只有当实施语言化时,这条裸思才坍缩成确定性的符号序列,正如我们在推理模型(例如OpenAI的o系列)输出的语言思维链(CoT)上所看到的。

为什么我们总觉得语言与思维密不可分呢?原因大概有以下几点:

首先,人是群体动物,有着强烈分享“心得”的冲动。我们不满足于自闭遐想,而是喜欢不停地唠叨:电话、微信、开会……给人的感觉是内心的想法和情绪很难长久存于心而不吐露(个别例外,如自闭者)。

其次,没有外在形式,思绪难以长久保持连贯和条理。撇开计算机神经网络内部的隐藏空间不谈,只看人脑的内心活动,我们会发现如果不借助语言这类外在形式,天马行空的意念很难拉成长线,难以进行长线条的逻辑推导,更谈不上形成完整的知识体系。知识无法积淀和传承,也就不会有科学技术的继承和发展。可见,语言和艺术作品这些外在的模态数据,对人类文明和科技进步是多么重要!它们也像燃料一样驱动着这一次大模型革命。

我们的生物大脑的神经元数量比目前最大的头部大模型要高出好几个量级,但每个人都深知人脑的局限:它不像计算机模型那样可以持久承载一个包罗万象的知识体系,再博学的知识分子也难与大模型硬碰硬拼深度与广度。韩国围棋冠军一败涂地的经历令人记忆犹新,这是“豆腐脑”与电脑硬碰硬时的鲜活惨状。人脑的内在装载容量和知识持久性、完整性都很成问题,这就是为什么人类需要接受十几年甚至二十多年的教育和训练,才能站在前一代人留下的知识体系之上,继续拓展科学技术的边界。所有这些现实,都强化了思想离不开外在形式的直感。

第三,文明的发展反过来影响了我们的内心活动。从原理上说,人类的内心活动原本无需借助语言等外在模态形式,它可以在内在形式的载体(脑电波、脉冲)上独立存在。然而,自从人类发明语言并用它传承文明上万年以来,我们在交流与传承过程中受到了语言的巨大反作用——尤其是读书人,渐渐习惯于在内心活动时频繁利用语言的外在形式,只不过通常并不大声说出来而已。这一点有实验依据:人类脑电波所代表的思维活动往往与发音器官下意识的“默读”活动高度协调。默读一不小心就会演变成很多人“自言自语”的现象。这更加强化了“思维即语言”的观点。

我们知道,强化学习后训练出来的推理模型通常表现为一条“query–COT–answer”的序列线条。query 是用户给的输入,必然是离散的语言表示;answer 是给用户看的输出,也必然需要通过 softmax 外化为语言。只有两个端口之间的 COT 才是两可的:或者语言化,絮絮叨叨地自言自语;或者抛弃语言化,让思维深藏不露(所谓 latent reasoning),牺牲可解释性,但理论上可以提高答案质量。

人类大脑在思维的时候也有这种不言表的内部状态吗,还是说我们的思维基本上离不开语言?这个问题一直有争论。多数人的体验好像是:完全离开语言我们无法进行长线条、有条理的思维,只是在梦里或深省时会有一种模模糊糊的灵感或想法,暂时找不到合适的语言表达。

概念上,思维不如意识宽泛,语言也只是一种模态,多模态信号的内在所指还是用“意识”涵盖更好。在这样的高度,语言与思维的关系,不过是意识与模态关系的一个特例。说“语言=思维”,就好比说“意识=模态”。

意识是什么呢?古人云“脑之所思,心之所感”。前者即思维,后者是情绪。情绪为什么用心而不用脑,其实没有科学依据;但人的喜怒哀乐常常伴随心跳、血压的变化。爱情来了,是“心动”不是“脑动”。怀疑、猜忌、仰慕、怜悯等情绪好像也不是大脑思考的结果。无论它们来自哪个器官,情绪都是意识的重要组成部分。也许动物也有一些粗线条的情绪,就像它们也有简单的语言一样:高级动物据说也犯忧郁症和狂躁症。但人类的情绪显然更加丰富和细腻,人类语言就更非动物语言可比。

思维和情绪这些意识都是内在的,那外在的表现形式有哪些呢?

    1. 诉诸语言文字,这是最常见的方式。人类通过语言刻画和记录内心世界,哪怕它笨拙而有限。

    2. 借助音乐,让旋律和节奏承载情感,这也是一种独特的音频“语言”。

    3. 借助美术、雕塑、视频等艺术形式,用视觉符号或运动影像去表达难以言明的体验。

    4. 借助动作,比如拥抱、接吻、抚爱、挥手、竖大拇指、伸中指,甚至大打出手;还有眼神交流、哭、笑等,这些属于具身智能的范畴了,最终落地到人形机器人身上。

    5. 没有形式可表达,只能烂在心里或脑海中,这“不可道”的部分甚至连艺术也无法企及。

具身智能姑且放下不谈,上述意识与模态的关系就是一表一里、内容与外在形式的关系。其中多模态中语言处于核心地位,是思维的核心载体;情绪也可以尝试用语言来描述,但语言表达情绪常常非常笨拙、干瘪或走形。瞎子阿炳尝尽人间辛酸后,用一支《二泉映月》表达自己的感受,是任何语言文字也难以传达的。说了这么一大圈,还是那句话:内容与形式相依而不等同。长线条、体系化的思想往往离不开外在形式,但意识一定程度的独立性已经无可置疑了。换句话说,思维并不是语言,意识也不是模态。二者虽然高度关联,有时密不可分,但绝对不该划等号。

说到这里,还得承认:很多时候语言对情绪和艺术美感也力不从心。白居易的《琵琶行》可能是描写琵琶曲最精彩的诗化语言了,但他也只能用种种比喻或指法描述,如“大珠小珠落玉盘”、“轻拢慢拈抹复挑”,来间接传达琵琶曲的美感。语言的这种力不从心,是多模态大模型在不同模态之间对齐和转换的巨大困扰。用过文生图、文生音乐、文生视频的玩家都有体会:我们常常不知道如何告诉模型想要的结果,很多时候还得靠模型帮我们扩写模态描述的细节,才能增加成功率。即便如此,AIGC优秀作品的诞生也很大程度上要看运气,需要多次尝试、选优(cherry-picking)。

结论:思维是意识的主要成分,属于内容或意义;语言是模态的主要成分,属于形式或载体。所以一般而言,讨论“思维是否等于语言”,其实是在探讨意识是否等于模态,内容是否等于形式。意识既然可以在大脑内部以神经网络的形式存在,就不必完全依赖语言文字或音频视频这种外在形式。独立存在的神经网络是真实的,它否定了“思维=(外在)语言”这类简单假说,但并不否认“思维=内在语言”的可能。

老友说:每次遇到思维和语言的关系,都要祭出这张图,LeCun说的意思是:语言只是心智/意识的低维度离散表示。言下之意,意识是高维连续的表示。诚哉斯言。

 

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理