《不识数的 ChatGPT》

【立委按:能说会道的 ChatGPT 在数字和算术上常闹笑话,暴露了自己的短板。有意思的是,似乎可以现场教给它识数的技能,但很不稳定。总体而言,算术技能还是“外挂”合理,不必强求一个序列大模型学会算术。】

ChatGPT导读:

立委:都说当前的 ChatGPT 数学底子潮,它识数吗? 

陈利人:请看

立委:怎么着?确实是10个、也确实是有“喜”字的短语,只是可惜不是10个字。

知道它不识数,硬要逼它,道德上是否属于不尊重残障实体的不良行为呢:

numerically challenged entities should not be tested on math purely for making fun of it

认真地,以前我们做NLP训练的时候,所有的数字都被 NUM 替代,因为这家伙形式上无穷变体,实质只是一类。IE(信息抽取) 的传统里面,有一个与 “专名实体” (NE,Named Entity)并举的抽取对象,叫做 DE(Data Entity,MUC 社区称为 numex ),主要就是针对这些带有数字的对象(百分比、重量、温度、算术公式、年龄、时间等),NLP面对 DE 从来都是先分类,然后把它包起来。语言模型,无论统计的还是符号的,都不细究它。通常要到需要语义落地的时候,才打开这个包,去调用某个函数(所谓“外挂”)去做符号拆解和语义落地,包括把变体标准化并映射到合适的数据类型,这以后才好进入数学的操作和计算。LLM 在没有做特殊的外挂对接前,自然也是如此,于是上面的笑话是 “by design”:可以看成是 feature, 而不是 bug,lol。至于怎么对接来解决它,那是另一回事。

刘雪峰:纠正了一下,已经学会数汉字了。

这种对话之后便能更新自身的认识(程序模式),可以称之为有“自我进化”能力了。

立委:这叫 step by step 的现场调教法,很神奇,属于思维链(CoT)培训,背后的原理不是很清晰。有推测 step by step 的 CoT(Chain of Thought)方面的基本调教已经在他们内部的模型微调中做足了功夫,这才为现场特定的 step by step 的具体能力的调教提供了激发的基础。

不知道它学会了以后,能保持这个能力多久?在同一个session 里面多测试几次,需要确认它是真在现场学到了对汉字计数的能力。(当然 session一关闭,这个识数能力肯定消失,因为前面的调教场景没了。)

刘雪峰:据说 Open AI 不会根据和用户的对话更新其核心数据库。一段缓存期之后就丢掉了这个“认识”。这样可以防止恶意影响 ChatGPT。

立委:不是数据库的问题,是模型本身是恒定的。few shots 和 step by step 的现场调教,都不会影响模型本身。看看下例。

这是个很奇特的 in-context 的学习现象,学到的“技能”不稳定,你看最后不等一个 session 结束,转眼就还给老师了,声称10个汉字给出的却是8个字:“江雨霏霏江草齐齐”。甚至到底是不是真学到了,也是个问号。完全有可能在看似学到了的那个当口,它的网络空间中有一些strings正好与特定字数10相关联。

Dongdong:看来文科ChatGPT和理科能力不兼容。

立委:哪怕其实没有学到“识数”的技能,现场的调教能够激发其中高度相关的某个string,回应下来满足了我们的要求。加上它的能说会道的解释,也是一种很唬人的表现。不懂装懂,能装到这个段位,也是让人开眼了。

错误不可怕,可怕的是,错得那么像人。

生活中,我们都遇到过不会算术的人,尤其在国外,甚至收银员不识数的比例也很高。离开计算器,这类人遇到数字像个傻子,掰手指头都整不明白,更甭提心算。ChatGPT 与他们差不多,说话与他们一样顺溜地道,当然,数学底子也一样潮。

当一个实体看了那么多的书,记忆体那么大,到了我们无法想象的量级的时候,很多难以说清道明的所谓“涌现”的技能,更可能就是从他们的巨大网络空间中激发了最相关联的组合。我们凡人以常识和经验作为参考系来审视这些非常能力,无论如何也难相信这就是一种数据的关联恰好被触发,我们宁肯相信实体具有了技能,甚至灵性、意识。

前人不我欺,假作真时真亦假,无为有处有还无啊。

马少平:看下例

它不坚持真理。

立委:哈,这一类也见过n次了。这好像是在学到的能力与必须尊重人类的原则之间,有一个权重偏向后者的设置。它的设计者心里是明晰的:多数技能不稳定,完全可能是真理的假象,权重宁肯偏向迁就和同意人,而不是坚持这种不可靠的技能,因为坚持真理与坚持谬误只有一步之遥。

詹卫东:微软搜索BING引入了聊天能力,比chatGPT多了问句。要是有反问句就厉害了。

立委:这个厉害啊。

识别不同形式,我们知道 ChatGPT 是有这个能力的(当然数学上不好说,有时会栽跟头)。识别了后,开始这种口气说话,好像是微软引进后新调教出来的。

白硕:数学还是错的啊。

刘雪峰:刚才试着确认四则运算,变量。十分准确。这种对话能力,真是让人感叹!

刚才和数学系的几个老师解说了一下 ChatGPT。大家都是听说过,还没操作过。一脸吃惊。

詹卫东:New bing 跟 ChatGPT 一样,对汉字字符还是不能正常计数。让它生成一段300字的稿子,它洋洋洒洒写了快1000字,然后总结说自己写了304字。

立委:《大型语言模型系列解读(三):ToolFormer:语言模型教会自己使用外部工具》值得推荐,报告了LLM调用API的创新设计,很巧妙,例如计算百分比这样的API。这才是LLM学数学的正道啊。

学会调用外部的 API 对于保障 LLM 的数据质量很重要。以前讨论的与外部领域场景的数据库对接的难题,类似的思路应该也是可行的。其实到了场景落地的关口,外部数据库已经聚焦了。既然聚焦了,就有“倒逼”与“反推”来修正错误的可能性。解决这个问题的方案和尝试,都在路上,应该是可以预见的,稍安勿躁。LLM的领域壁垒和落地接口终究还是有望打通 ,我保持乐观。

退一步海阔天空。原则上,借外力克服LLM知识短板,防止“一正胡八”(一本正经胡说八道)和张冠李戴这类的低级笑话,应该可以找到路径。 指望一个模型走天下,硬靠无特定目标的增加序列数据,指望用越来越大的网兜住知识,修炼成全知全能,感觉不对劲。换句话说,场景聚焦相关的知识本来就不属于、也不应该属于基础模型的一部分。为外挂建立桥梁才是正道。关于外挂 @白硕 老师以及其他老司机,一定有很多思考,这是有价值的大方向,希望听到各位老师的高见。

白硕:就是我说的两件事:要么学到问题到答案的映射,要么学到问题到解决问题的资源的映射。

立委:这个问题的解决意味着什么?意味着几乎所有现存的 AI 产品,都要被重新审视和洗牌。

白硕:语言能力插上知识能力的翅膀。

立委:甭管你积累了多高的护城河,都面临新时代大模型降维冲击的挑战。这事儿是进行时,实实在在在我们眼皮底下发生着:微软谷歌搜索大战就是活话剧。

 

 

 

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据