从人类认知谈AI融合之不易

听了一些深度学习的大神们的各路演讲，有些感触。

他们的科普类演讲大多有个共性，就是哲学味道很浓，有上帝视野，或干脆自己做上帝状。这是可以理解的情绪和姿态，也是一种自然的表现。在AI寒冬走过来的这些人，面壁N多年，终于迎来了扬眉吐气的深度网络横扫AI的各种奇迹和荣誉，不俯视天下反而是不可能的。

面对新闻记者的采访，有时候会给人一种自己被自己的成就吓倒了的极端自豪感，很有趣也很人性的一种表现，这种时候最容易天马行空。记者问，你认为什么时候神经网络可以自主意识呢？回答是，我认为已经自主意识了啊。

不过他们的长篇演讲还是有很多让人启发的思考，他们都在寻找下一个突破口，并不满足于小修小补。小修小补，模型越做越大的渐变式成功，他们认为是年轻人的事儿，水到渠成。他们希望自己能带领AI迎来下一个范式转变或者根本性突破。这种心理非常强烈，也是很自然的。人的本性都是，无论多大的成就，盛筵过后总是要追求下一个更大的辉煌。

其中思考最多的问题之一是，人用小数据就可以高效训练自己的技能，可是深度神经却需要大了好几个数量级的数据才能训练好。图像识别是最典型的例子，儿童开始识别猫啊、狗啊，见过的实例非常有限，但识别率则很高，什么机制？为什么机器只能蛮力去学，不能像人类一样？

在与人的认知机制的比较中，他们出现了两极的表述，很有意思。上面是强调人和机器的不同，思考如何弥合这种不同，或者如何更加逼近人的认知过程来提高机器学习效率。另一个方面说法却是强调深度神经就是人的神经。敢于这么说我觉得主要是因为生物领域的大脑机制研究很多年陷入泥潭。有人说这不怪生物学家，因为人的认知和意识是世界上最难解开的谜，目前人类对它的认知只是冰山一角。既然脑神经系统是怎么工作的留下太多的空白，AI 神经系统的大神们就理直气壮认为深度神经网络就是人脑机理的最完美模型就可以理解了，毕竟这套模型在很多认知任务（语音、图像、翻译等）的表现中已经接近或超过人脑的水平。

AI神经与生物认知这两个领域以前大多处于老死不相往来的状态。有意思的是，由于AI的高亮度，现在越来越多的生物界人士开始关注神经网络系统的进展。听过一些生物学家的看法，认同AI的不少，大概是看到了AI的表现，有点信服的意思。

谈点自己的观感。人脑的认知和决策比较复杂，大概其中有些部分的机制的确很像是各个节点互相连接以不同权重互相影响的神经网路，特别是那些我们称为“本能式反应”的下意识过程（例如遇到紧急路况的驾驶反应，在水中学会的游泳技能等），这些反应人也说不清，有些甚至已经固化到我们的条件反射里面，但这些反应是有效的生存策略。

但是，人的确有非常有逻辑条理和清晰的认知过程存在，包括我们所熟知的语言理解过程，虽然说 native speaker 似乎都可以“本能”学会说话和理解，但是其中绝大多数理解过程细细琢磨是可以找到背后的逻辑脉络的。这种认知通常是符号化（概念化）的，往往非常抽象而高效，不依赖大数据，只需要有限量数据做微调。这方面的理性认知与目前流行的神经网络很不相同。

能够清晰梳理出来的语言理解案例，在白硕老师的语义计算群里有过无数案例、讨论或解说，【语义计算：李白对话录系列】对此有所记录。其特点是：1. 符号化的；2. 多层面的较量；3. 就事论事都可以讲清楚哪个层面哪个因素主导了最终的理解，如果出现歧义，歧义背后的脉络也是清晰可见的。这些层面其实并不多，列举下来：第一是词汇概念及其背后的本体知识（常识），也包括情感分析的因素；第二是形式制约（句法、形态等）；第三是篇章上下文；第四是领域性行业知识；第五是说者和听者的社会关系影响。大概就这几项了。原则都是有限的符号体系可以勾画、模拟和演算的。

符号AI在这方面的尝试已经很多，创新在悄悄发生，虽然听不到太大动静。这一路更像是真实逼近或模拟的高级认知功能。感觉到的痛点不是高度抽象的符号化概念化本身的问题，而是以上各种力量对比在语言理解过程中如何较量的问题。这正是符号化规则的短板，压下葫芦浮起瓢。也正是在这点上，神经系统或统计模型应该可以助力，主要是要找到合适的接口来做对接。这方面白老师也说过多次。我的理解是，符号系统画出骨架，血肉可以让大数据神经/统计模型来填写。

可是这种对接和融合的构想，不是神经系统 leaders 所要的。这也可以理解，每个人有不同角度。他们的角度总是，确立神经的骨架，在神经网络的延长线上，希望其他知识系统用某种方式融入。但迄今为止也大多想不出来如何融入“异质” 的知识资源，毕竟这看上去是不兼容的怪物。不少人不是不想深度融合，但困于不兼容的感觉是普遍的。

宏观上看是两条路线的不兼容，根本就没有起码的共同语言与词汇，只不过恰好面对的问题领域重合了而已。一边是离散的符号，一边是各种向量/参数，怎么交融？这就好比物理学家、化学家和生物学家很多时候不兼容一样，物理面对的是基本粒子，化学玩的是分子，生物研究细胞，不同层次的体系，如何交融。

～～～～～～～

有生物医学老友评论说：

“人用小数据就可以高效训练自己的技能”，不知道这有啥证据。

人从生下来就在学习。把猫狗图像识别用于刚出生的婴儿试一试，估计还不如机器快。

人的认知过程本质是环境输入信号和大脑已有模型的拟合过程，而人脑的已有模型是通过学习建立的。这个模型的建立过程归记忆的机制在研究。很显然目前还不能在分子和细胞水平进行解释。

AI识别和人脑识别最大的不同是AI没有情绪成份。人脑情绪成份的加入会严重影响记忆建模过程，并因此影响模型和环境信号的拟合过程，也就是影响对环境信号的识别。情绪成份是生物上亿年进化出来的东西，和个体生存和种系繁衍有关。情绪的逻辑和AI的数理逻辑差异巨大。

说不准算不算小数据认知。只是感觉认识物体与学习语言类似，并不需要海量样本。

我们教孩子认识一个物体，也就是给有限的几个样本，他们就认识了。后去这些物体的各种变形，基本上一样可以认出来。

类似的过程在学习语言这种复杂的系统中最为明显。所以乔姆斯基认为，人生下来就有一个普遍语法机制在头脑，这个机制有一些参数需要数据去训练，但人在学语言的时候，其实面对的并不是海量数据，也不是完整无误的数据。就是这些片段的有限数据，让最傻的孩子也可以自如学会母语。

可是机器学习不同，最新的深度学习的语言模型的预训练规模是：

GPT-3 is a very large language model (the largest till date) with about 175 billion parameters. It is trained on about 45TB of text data from different datasets

当然，现在的语言模型的语言生成能力包括流畅度和合法性，已经超越普通人的水平。

乔姆斯基批评这种学习是蛮力，没有科学意义，因为不能揭示人类的认知过程。

的确，关于生物演化而来的喜怒哀乐情绪，在人机对比中更具有区别意义。

本来情绪这种东西，看上去是非理性的比较低级的心理过程，因为一些高级动物也会有某些情绪的表现。而理性思维和智能被认为是人类独有的高级认知功能。

但是，现在看来，机器在不断压缩或逼近人类的智能空间，原先以为人类独有的很多智能活动，逐渐被机器学习超越了。反而是情绪这种东西，成为人机的真正鸿沟。

教会机器“谈”恋爱并不难，但是让机器堕入爱河是不可能的。让机器呼天喊地哭鼻子叫苦叫疼也可以做到，但证明他是因为痛苦而哭现在看来是天方夜谭。自主意识和自主感情是科学幻想所热衷的话题，但是至少迄今没有任何可信的迹象表明，生物科技（基因工程）与电脑科技会真正深度融合人机，以至于可以创造出具有情绪的超级机器人。担心自主的机器起来造反或谋杀人类，是相当可笑的。AI如果有灾难，是人自己把自己玩死了，是某种 bugs 没消除就部署造成的意外灾难，这是可能的，但绝不是机器人犯上作乱。

图灵测试不是人机不可逾越的界限，情绪证明才是。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录