《ChatGDP 搞定了人类语言》

立委:从语言与语言学角度,chatGPT 的的确确证明了自己万能的语言能力。千百年来的人类巴别塔之望终于美梦成真。巴别塔建成了,建成日期2022年11月。这个成就超出了一般意义的里程碑。这是划时代的进步。

南山:我看不懂它是鹦鹉学舌还是真的掌握了语言。我比较认同一个说法:语言是思想的表象。计算机掌握语言与计算器做计算,也许没有本质区别。

毛德操:对。和蒸汽机胜过人的臂力也没有本质区别。

詹卫东:一个机器是否具备人类的语言能力,本身就是一个比较难判断的问题吧?按照语言学区分competence和performance的考虑,机器和人,在测试语言能力方面的范式是一样的,总是用performance去估计competence。所以,真正的“语言能力”,大概也只能是一种“感觉”吧。chatgpt现在的表现,应该是让很多人“觉得”它掌握了语言。人们似乎还没有想出比图灵测试更高明的方法,来判断机器是否具有语言能力。

邬霄云:图灵测试 is not for language only, it is end to end “common sense “ test, human intelligence via language.

詹卫东:是的。它包含了语言能力。

南山:所以纠结机器是否智能在可预见未来是无解的,相关的判别标准和概念大家都没有清晰、一致,对于chatgpt、alphzero这类,看疗效才是王道。

邬霄云:单独测 language 是不是 翻译 或者别的 normalization 就可以? @詹卫东

詹卫东:不知道。我想不清楚语言跟其他能力是怎么分开的。简单的区分,比如语言考试,语文考试这类的。具体的题目,像是近义词辨析。我测了100题。chatgpt的表现跟LSTM的水平差不多。但是这类考试,并不是真实的语言应用场景。实际上是教师凭空想象的。题目形式是选择题,就是把一个句子中的一个词拿掉,给两个近义词,让它选一个填回去。100题得分不到60分。

南山:有唯一正确答案的题目吗?判断正确的标准只针对句法还是要结合语义和常识?

詹卫东:从出题的角度考虑,是有唯一正确答案的,但语言题还是跟数学题不同,总会有“更多的视角”和“更开放的标准”隐藏着,导致答案很难唯一。 近义词组是考虑了很多因素挑选的,包括句法、搭配、语义协同、常识等。

立委:语言理解能力可以看 同样的意思 你变着花样不同问法,然后看他的回应。体验下来 结论是 它是真理解了 不比人差。

詹卫东:差不多是这个体验。我测试它对不及物动词的反应。故意不在“引语句”打引号。但它准确地识别出引语句片段。不过,线性符号串接续层面形成的“结构”意识,似乎还是不能跟树结构完全重合。这就让人担心它的理解能力。我的感觉是人的智能有一个突出的特征,就是“整体性”。如果没有“整体性”,就是工具智能,不是“通用智能”。

Li Chen:整体性其实是神经网络的强项,毕竟最后都变成向量了。难的反倒是细节。

詹卫东:我说的整体性比较含糊,大概是这个意思:一个智能实体,不应该能做奥赛的数学题,但却在算24点的时候犯“低级”的错误。就是chatgpt在给人感觉很厉害的同时,又表现出存在犯低级错误的能力。

Li Chen:我觉得这个现象可以理解。因为像24点这种东西,某种意义上讲就是一个特殊的游戏,需要说明规则,理解规则的基础上来玩。chatgpt真的理解这个规则了么?这个感觉也就是toB难的地方,不同行业的规则不一样,通用模型没见过这么多具体的规则。即便是人,有很强的学习能力,换个行业也得学习工作一段时间才能玩得转。

南山:对于一个有阅读能力的人,将一段话打乱之后,ta仍然可以把整体意思掌握了。chatgpt可以吗?一个有阅读能力的人不需要特殊训练就可以读懂这段话

立委:可以测试一下。应该没问题,因为汉字本身就是形义结合的词素。

詹卫东:这个可能是chatgpt的强项,我之前测试不及物动词“见面”的句子中就包含了这类乱序的句子。它理解得非常准确。

立委:这个实验好。语言理解从效果上看就是要鲁棒有包容,同一个语义可以有多种不同的表达形式,表达形式不规范也没关系,只要上下文的关键词及其相谐性可以让语句的意义有区别性就好。chatGPT 这方面游刃有余,总是可以把同义的不同说法映射到语义空间的同一个区域。

詹卫东:100分!

原文是今天新浪网一段新闻。

南山:你不用提醒它顺序被人为打乱了,它怎么理解

詹卫东:

南山:这么说可以认为它的语义理解能力是没有问题了。

詹卫东:是的,感觉可以“跳过语法”,直达语义。

白硕:乌兰克

南山:可以理解为它的常识或常识运用有问题吗?

詹卫东:其实很难评判应该是“乌兰克”还是“乌克兰”。chatgpt不改也不能认为是错。

Li Chen:是的,也许真有个国家地区或者可以当主语,修饰语的确实叫乌兰克。

詹卫东:从我受到的语言学训练角度讲,chatgpt的汉语语言学知识(人类假设的那些知识,可能对,也可能不对)还是比较贫乏的,按照这个标准,它应该还不算掌握了语言。一个典型的表现是,语言学比较重视打*号的句子的分析,也就是所谓“不合语法”的句子。但实际语料中这样的句子极少。应该是训练数据缺乏。chatgpt对这样的句子的判断能力就不太灵。不过,这似乎也不太影响它进行语言信息的分析和处理。从这个角度讲,chatgpt对语言学的刺激是:句子结构的分析,包括对正例和负例的结构分析和解释,到底意义是什么?

立委:关于文法书上强调的带有星号 * 的反例,那不是为了语言理解,主要是从语言生成的角度,实践中追求的是合法和地道(nativeness),理论上追求的是 internal grammar/language,需要防止反例出现。

从语言生成角度,LLM 的大数据回归的属性天然实现了 nativeness,反例不仅少见,即便出现,统计上也沉底了。语言生成能力的效果观察,可以让它生成几次,看回应是不是还在同类水平上,是不是走题或掉链子。这一关表现不错。除了特别的风格输出(例如洋泾浜:这种“风格”可以看成 sub-language,里面的正例恰好是规范英语的反例)外,它是不会出现低级文法错误和违背习惯用法的笑话的。所以 native speakers 听着也觉得舒服。

说到底还是图灵,如果不告诉你背后是谁,你是不是会觉得对象是人。

从语言理解角度,文法书上的绝大部分反例都在包容的范围之内。语文老师让学生改正反例的那些练习题,其出题的前提就是这些所谓反例其实同样承载了正句一样的语义。没有这个预设,人怎么知道如何改正才能保留原有的意义呢。反例不过就是形式上的违规而已,通常不影响内容。

当然,在 input 较短 context 不足以确定内容完整性的的时候,有些反例会呈现歧义或甚至与原意相左的语义,这时候形式的违规的确与内容的混乱或不确定发生关联了。这时候,句法手段的修正(例如次序的调整、功能词的使用以及西方语言中的形态的正确应用等)才会有实质性意义,而不仅仅就是为了 native speaker 听上去顺耳而已。

解析和理解的能力,LLM 特别宽容鲁棒,主要是它的 embedding(编码嵌入,成为其内部的向量表示)可以容纳很长的 input,在 context 相互邻近的关键词之间相互制约下(我们叫篇章中的 semantic coherence,包括词义之间的搭配关系),形式上的偏离规范已经不影响它在语义空间的意义定位,从而“它”可以轻易与“非它”区分开来。

一个符号串 吃进去就是向量空间的某个或某组位置 其意义表现在与其他位置的距离和区别。因此 位置偏差一点 不影响意义 只要它与其他的不同意义的符号串映射可以区别开来。鲁棒性根植于此。换个角度 意义不是要问是什么,更要紧的是 不是其他(什么),只要能维持这种意义空间的区别性,规范不规范就都可以包容。区别之间有足够的空间/距离,即可容忍局部的种种口误 错误。

邬霄云:Llm 的 position encoding is linearly attached not cross product,so it is a weak form 

立委:词序影响意义的机会不大。当年 一包词模型用了很久 也是因为 词序是较弱的约束,构成区别要素的场景并不频繁。

我把一句话,完全反过来,从:explain quantum computing in simple terms 映射成类似回文:terms simple in computing quantum explain,它毫不迟疑。

人家训练的是next token,现在是处处反着来,本想让它找不着北,但实际上一点也不影响它的“理解”。就是说,当一个模型可以对较长的 input string 做编码嵌入的时候,次序的约束已经很弱了。因为那一小袋词之间的物理距离(proximity constraints)加上它们语义的相谐性(semantic cosntraints)已经足够让这个整体的语义表示与其他对象区分开来,这时候纯粹语言学意义的句法约束(syntactic constraints,包括严格的词序)就可以松绑。

我怀疑 position encoding 即便不做,LLM 也不见得性能会下降很多。

邬霄云:Could be, popular code base all use it still

立委:换句话说,在 bigram / trigram 建模的年代,词序是重要的 (“我爱她”与“她爱我”,“打死”与“死打”,可不是一回事)。到了ngram 中 n 可以很长的时候,ngram list 与 ngram set 已经语义相等了。

句长不够,词序来凑。长度足够,序不序无所谓。句法地位急剧下降。

论鲁棒,人如何与模型比,差了不止一个段位。

Li Chen:想想确实是这个道理,在有很多词的情况下,还要能组成符合语法的句子的可能性是有限的,也就意味着语义差异不大了。所以这个时候顺序确实已经不重要了,估计这个也是为什么即便是最简单的bag of words也能用来做相似度计算,一用就是几十年的道理。

詹卫东:跟ChatGPT逗个乐。

总的感觉就是chatgpt对语言的嵌套理解能力和指代关系理解力非常强。

川:LLM 没问题,ChatGPT is evil

Who is the master, machine or man?

立委:那是因为 chatGPT 太 human like,搞定了自然语言形式。

川:搞定是假象,现在就下结论太早。

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

立委:机器都是假象,AI 本性。Artifical 与假象可以看成是同义词。就本质而言,人工智能就是智能假象,这个论断没有问题,但这应该并不妨碍人类深度使用AI。

搞定的判断是,跟他说话感觉它听从指令、善解人意,而且回应也很顺溜贴心,不走题。

三个月玩 chat 下来,我在它生成的英语中,没有发现过语言的问题(内容的毛病不算),一例也没有。但在其中文的生成中,偶然还是会发现它有语言的瑕疵(不符合规范或习惯的用法),虽然它的中文生成能力已经超过多数同胞。这说明,目前 chat 语言训练的中文语料还可以进一步扩大,从爱挑剔、追求完美的语言学家视角,它还有一点点剩余的进步空间。

结论还是: ChatGDP 搞定了人类语言,无论听还是说,妥妥的。万能的语言巴别塔是真滴建成了。

说到chat里程碑的意义,盖茨比作电脑、互联网后的第三大里程碑,显然有点夸张了。可是我们进入计算机博物馆看里程碑展馆,有 1. 第一次下国际象棋打败人类 2. IBM 沃森问答打败人类,后面的还该有一系列打败人类的里程碑吧,例如围棋。

不得不佩服它条理化的能力,只有一个不妥:医学并入了教育。其余的综合 总结能力强过一干人,自然包括在下。在这一长串中,AI明星 chat 可以成为 top 几?

top 10 有点高抬了,top 20 似乎有余:就凭他建成了巴别塔,搞定了人类语言。

文字 应该是 语言/文字。宗教不该漏。

我是从语言角度。它的的确确证明了自己的万能的语言能力。语言能力其所以特别重要,不仅仅因为我是语言学家,难免强调它,更因为这是规模化机器能力的敲门砖,否则机器只是少数人的玩具。机器学会人话的意义,比人去适应机器,用程序去给它指令,意义大得多,这是人机接口的革命。

 

 

纯粹广告,与ChatGPT相关......

码脑 | 张宏江、李维等顶级大咖齐聚,AIGC系列分享全码力开启

心向辽阔探索不熄 源码资本 2023-02-22 20:09
 
做个广告,也好刺激一下自己认真做一下 slides,主要给他们的创业者企业家俱乐部的线上“商学院” 讲,帮助他们头脑风暴, 上面提到感兴趣的, 要联系他们 (源码资本/码脑)。
 

《不识数的 ChatGPT》

【立委按:能说会道的 ChatGPT 在数字和算术上常闹笑话,暴露了自己的短板。有意思的是,似乎可以现场教给它识数的技能,但很不稳定。总体而言,算术技能还是“外挂”合理,不必强求一个序列大模型学会算术。】

ChatGPT导读:

立委:都说当前的 ChatGPT 数学底子潮,它识数吗? 

陈利人:请看

立委:怎么着?确实是10个、也确实是有“喜”字的短语,只是可惜不是10个字。

知道它不识数,硬要逼它,道德上是否属于不尊重残障实体的不良行为呢:

numerically challenged entities should not be tested on math purely for making fun of it

认真地,以前我们做NLP训练的时候,所有的数字都被 NUM 替代,因为这家伙形式上无穷变体,实质只是一类。IE(信息抽取) 的传统里面,有一个与 “专名实体” (NE,Named Entity)并举的抽取对象,叫做 DE(Data Entity,MUC 社区称为 numex ),主要就是针对这些带有数字的对象(百分比、重量、温度、算术公式、年龄、时间等),NLP面对 DE 从来都是先分类,然后把它包起来。语言模型,无论统计的还是符号的,都不细究它。通常要到需要语义落地的时候,才打开这个包,去调用某个函数(所谓“外挂”)去做符号拆解和语义落地,包括把变体标准化并映射到合适的数据类型,这以后才好进入数学的操作和计算。LLM 在没有做特殊的外挂对接前,自然也是如此,于是上面的笑话是 “by design”:可以看成是 feature, 而不是 bug,lol。至于怎么对接来解决它,那是另一回事。

刘雪峰:纠正了一下,已经学会数汉字了。

这种对话之后便能更新自身的认识(程序模式),可以称之为有“自我进化”能力了。

立委:这叫 step by step 的现场调教法,很神奇,属于思维链(CoT)培训,背后的原理不是很清晰。有推测 step by step 的 CoT(Chain of Thought)方面的基本调教已经在他们内部的模型微调中做足了功夫,这才为现场特定的 step by step 的具体能力的调教提供了激发的基础。

不知道它学会了以后,能保持这个能力多久?在同一个session 里面多测试几次,需要确认它是真在现场学到了对汉字计数的能力。(当然 session一关闭,这个识数能力肯定消失,因为前面的调教场景没了。)

刘雪峰:据说 Open AI 不会根据和用户的对话更新其核心数据库。一段缓存期之后就丢掉了这个“认识”。这样可以防止恶意影响 ChatGPT。

立委:不是数据库的问题,是模型本身是恒定的。few shots 和 step by step 的现场调教,都不会影响模型本身。看看下例。

这是个很奇特的 in-context 的学习现象,学到的“技能”不稳定,你看最后不等一个 session 结束,转眼就还给老师了,声称10个汉字给出的却是8个字:“江雨霏霏江草齐齐”。甚至到底是不是真学到了,也是个问号。完全有可能在看似学到了的那个当口,它的网络空间中有一些strings正好与特定字数10相关联。

Dongdong:看来文科ChatGPT和理科能力不兼容。

立委:哪怕其实没有学到“识数”的技能,现场的调教能够激发其中高度相关的某个string,回应下来满足了我们的要求。加上它的能说会道的解释,也是一种很唬人的表现。不懂装懂,能装到这个段位,也是让人开眼了。

错误不可怕,可怕的是,错得那么像人。

生活中,我们都遇到过不会算术的人,尤其在国外,甚至收银员不识数的比例也很高。离开计算器,这类人遇到数字像个傻子,掰手指头都整不明白,更甭提心算。ChatGPT 与他们差不多,说话与他们一样顺溜地道,当然,数学底子也一样潮。

当一个实体看了那么多的书,记忆体那么大,到了我们无法想象的量级的时候,很多难以说清道明的所谓“涌现”的技能,更可能就是从他们的巨大网络空间中激发了最相关联的组合。我们凡人以常识和经验作为参考系来审视这些非常能力,无论如何也难相信这就是一种数据的关联恰好被触发,我们宁肯相信实体具有了技能,甚至灵性、意识。

前人不我欺,假作真时真亦假,无为有处有还无啊。

马少平:看下例

它不坚持真理。

立委:哈,这一类也见过n次了。这好像是在学到的能力与必须尊重人类的原则之间,有一个权重偏向后者的设置。它的设计者心里是明晰的:多数技能不稳定,完全可能是真理的假象,权重宁肯偏向迁就和同意人,而不是坚持这种不可靠的技能,因为坚持真理与坚持谬误只有一步之遥。

詹卫东:微软搜索BING引入了聊天能力,比chatGPT多了问句。要是有反问句就厉害了。

立委:这个厉害啊。

识别不同形式,我们知道 ChatGPT 是有这个能力的(当然数学上不好说,有时会栽跟头)。识别了后,开始这种口气说话,好像是微软引进后新调教出来的。

白硕:数学还是错的啊。

刘雪峰:刚才试着确认四则运算,变量。十分准确。这种对话能力,真是让人感叹!

刚才和数学系的几个老师解说了一下 ChatGPT。大家都是听说过,还没操作过。一脸吃惊。

詹卫东:New bing 跟 ChatGPT 一样,对汉字字符还是不能正常计数。让它生成一段300字的稿子,它洋洋洒洒写了快1000字,然后总结说自己写了304字。

立委:《大型语言模型系列解读(三):ToolFormer:语言模型教会自己使用外部工具》值得推荐,报告了LLM调用API的创新设计,很巧妙,例如计算百分比这样的API。这才是LLM学数学的正道啊。

学会调用外部的 API 对于保障 LLM 的数据质量很重要。以前讨论的与外部领域场景的数据库对接的难题,类似的思路应该也是可行的。其实到了场景落地的关口,外部数据库已经聚焦了。既然聚焦了,就有“倒逼”与“反推”来修正错误的可能性。解决这个问题的方案和尝试,都在路上,应该是可以预见的,稍安勿躁。LLM的领域壁垒和落地接口终究还是有望打通 ,我保持乐观。

退一步海阔天空。原则上,借外力克服LLM知识短板,防止“一正胡八”(一本正经胡说八道)和张冠李戴这类的低级笑话,应该可以找到路径。 指望一个模型走天下,硬靠无特定目标的增加序列数据,指望用越来越大的网兜住知识,修炼成全知全能,感觉不对劲。换句话说,场景聚焦相关的知识本来就不属于、也不应该属于基础模型的一部分。为外挂建立桥梁才是正道。关于外挂 @白硕 老师以及其他老司机,一定有很多思考,这是有价值的大方向,希望听到各位老师的高见。

白硕:就是我说的两件事:要么学到问题到答案的映射,要么学到问题到解决问题的资源的映射。

立委:这个问题的解决意味着什么?意味着几乎所有现存的 AI 产品,都要被重新审视和洗牌。

白硕:语言能力插上知识能力的翅膀。

立委:甭管你积累了多高的护城河,都面临新时代大模型降维冲击的挑战。这事儿是进行时,实实在在在我们眼皮底下发生着:微软谷歌搜索大战就是活话剧。

 

 

 

 

《AI浪潮博客目录》

立委按:值此 NLP 惊天动地之际,迎着 AI 新纪元的曙光,老字号【立委NLP频道】专设《AI浪潮》栏目研究切磋与同仁,记录科技革命的盛世风采,探究劳碌命(LLM)的奥秘与挑战,一叶知秋,展望未来。

《AI浪潮:不识数的 ChatGPT》

《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》

《AI浪潮:chatGPT 搞定了人类语言》

《AI浪潮:chatGPT 能写出段子吗》

《AI浪潮:chatGPT 的里程碑意义》

《AI浪潮:chatGPT 写的情书能有真情吗》

《AI浪潮:LLM 凭什么能“涌现”超级能力?》

《AI浪潮:漫谈LLM与领域对齐》

《AI浪潮:神迹与笑话齐飞,chatGPT 也是大观了》

《AI浪潮:chatGPT 帮你写应用文》

《AI浪潮:人工智能当代简史》

《AI浪潮:chatGPT 辅导精读学术论文的实验》

《AI浪潮:因为见从而信,见证奇迹的时刻》

《AI浪潮:zero shot 抽取、摘要、吟诗、阅读理解》

《AI浪潮:玩不死的 chatGPT》

《AI浪潮:关于chatGPT 的 思维链能力 》

《AI浪潮:n-shot 是训练还是指令》

随笔:AGI 迷思与反思

AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?

漫谈AI 模型生成图像

图灵测试其实已经过时了

RPA 是任务执行器还是数字员工?

《立委科普:自注意力机制解说》

《深层解析符号模型与深度学习预训练模型》(修订文字版)

NLP 新纪元来临了吗?

推荐Chris Manning 论大模型,并附上相关讨论

《我看好超大生成模型的创造前途》

立委随笔:机器翻译,从学者到学员

《不识数的 ChatGPT》

立委:都说当前的 ChatGPT 数学底子潮,它识数吗? 

Liren:

立委:怎么着?确实是10条、也确实是有“喜”字的短语,只是可惜不是10个字。

知道它不识数,硬要逼它,道德上是否属于不尊重残障实体的不良行为呢:

numerically challenged entities should not be tested on math purely for making fun of it

认真地,以前我们做NLP训练的时候,所有的数字都被 NUM 替代,因为这家伙形式上无穷变体,实质只是一类。IE(信息抽取) 的传统里面,有一个与 “专有名词” (NE,Named Entity)并举的抽取对象,叫做 DE(Data Entity,MUC 社区称为 numex ),主要就是针对这些带有数字的对象(百分比、重量、温度、算术公式、年龄、时间等),NLP面对 DE 从来都是先分类,然后把它包起来。语言模型,无论统计的还是符号的,都不细究它。直到需要语义落地的时候,再打开这个包,去调用某个 function 去做符号拆解和语义落地,包括变体标准化和映射到合适的数据类型,然后才好进入数学的操作和计算。LLM 在没有做特殊的 function 对接前,自然也是如此,于是上面的笑话是 “by design”:可以看成 a feature, not a bug,lol。至于怎么对接来解决它,那是另一回事。

Xuefeng:纠正了一下,已经学会数汉字了。

这种对话之后便能更新自身的认识(程序模式),可以称之为有“自我进化”能力了。

立委:这叫 step by step 的现场调教法,很神奇,属于思维链(CoT)培训,背后的原理不是很清晰。有推测 step by step 的 CoT(Chain of Thought)方面的基本调教已经在他们内部的模型微调中做足了功夫,这才为现场特定的 step by step 的调教提供了激发的基础。

不知道它学会了以后,能保持这个能力多久?在同一个session 里面多测试几次,需要确认它是真在现场学到了对汉字计数的能力。(当然 session一关闭,这个识数能力肯定消失,因为前面的调教场景没了。)

Xuefeng:据说 Open AI 不会根据和用户的对话更新其核心数据库。一段缓存期之后就丢掉了这个“认识”。这样可以防止恶意影响 ChatGPT。

立委:不是数据库的问题,模型本身是恒定的。few shots 和 step by step 的现场调教,都不会影响模型本身。看看下例。

这是个很奇特的 in-context 的学习现象,学到的“技能”不稳定,你看最后不等一个 session 结束,转眼就还给老师了,声称10个汉字给出的却是8个字:“江雨霏霏江草齐齐”。甚至到底是不是真学到了,也是个问号。完全有可能在看似学到了的那个当口,它的网络空间中有一些strings正好与特定字数10相关联。

Dongdong:看来文科chatGPT和理科能力不兼容

立委:哪怕其实没有学到“识数”的技能,现场的调教能够激发其中高度相关的某个string,回应下来满足了我们的要求。加上它的能说会道的解释,也是一种很唬人的表现。不懂装懂,能装到这个段位,也是让人开眼了。

错误不可怕,可怕的是,错得那么像人。

生活中,我们都遇到过不会算术的人,尤其在国外,甚至收银员不识数的比例也很高。离开计算器,这类人遇到数字像个傻子,掰手指头都整不明白,更甭提心算。ChatGPT 与他们差不多,说话与他们一样顺溜地道,当然,数学底子也一样潮。

当一个实体看了那么多的书,记忆体那么大,到了我们无法想象的量级的时候,很多难以说清道明的所谓“涌现”的技能,更可能就是从他们的巨大网络空间中激发了最相关联的组合。我们凡人以常识和经验作为参考系来审视这些非常能力,无论如何也难相信这就是一种数据的关联恰好被触发,我们宁肯相信实体具有了技能,甚至灵性、意识。

前人不我欺,假作真时真亦假,无为有处有还无啊。

Shaoping:看下例:

它不坚持真理。

立委:哈,这一类也见过n次了。这好像是在学到的能力与必须尊重人类的原则之间,有一个权重偏向后者的设置。它的设计者心里是明晰的:多数技能不稳定,完全可能是真理的假象,权重宁肯偏向迁就和同意人,而不是坚持这种不可靠的技能,因为坚持真理与坚持谬误只有一步之遥。

 

《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》

 

刘群:

 

鲁东东:飞哥牛b

立委:两条新闻有关联吗?

刘群:都是投资做chatgpt啊

立委:我以为 @李志飞 被王

刘群:@李志飞 自己可以找投资,愿意下场的资金肯定很多。

利人:2.3亿估计是带KPI的。

立委:那天有人评论王总说的钱不是问题,但按照现在透露的融资计划,钱仍然是个问题。他不知道 open ai 就是个烧钱的炉子吗?如果比喻烧煤,都很难想象钱是怎么每时每刻一摞一摞往里面投放燃烧的场景。百元钞票一铲子多少 需要多少铲票子工人 日夜往里面填,这个场面好刺激,

@欧小鹏 智源 AI,烧美元的熔炉,火

欧小鹏: @wei 作画: “AI,烧美元的熔炉,火”已生成完毕,希望您能喜欢~

立委: breaking: 独家丨李志飞将在大模型领域创业,做中国的 OpenAI

说真的,这次与志飞再次硅谷相聚,他对事业的那种热情执着和见识,还是很感染人。与其他随风起舞的人不一样,志飞是AI和NLP身经百战,做过软件也做过硬件产品的过来人。难得保持这一份热情。他还不断反省,说自己的执着还不够。

看好志飞的志向和投入。

与志飞在乔布斯故居前,2022年元月硅谷
与志飞在乔布斯故居前,2022年元月硅谷

Xinhua:读下来,第一是缺钱,第二是缺懂行的人。不知道李志飞投这种烧钱特别厉害的东西,会用哪家公司硬件,有哪些人会来投资,愿意烧掉10亿还不一定有结果。又回到自己造飞机和买飞机的争论。不过也许这次中美脱钩,国家会重视这种烧钱研究,愿意投钱,就像当年龙芯一样,国家持续投资烧钱。李也自己预测,这种大模型,最后胜出的不超过五个,就像操作系统,搜索引擎,造飞机,全球就那么几个公司,垄断市场是必然的

邬霄云:现在的期望也是一定会有结果了吧。

立委:眼前是硬件卡脖子的问题。前不久看到有人计算了,发现真要在 LLM 上赶上美国,目前的脱钩以及会越演越烈的这方面的封锁,会严重影响进程。这就从底座上限制了成长空间。另外,真正能进入 LLM 贵族圈中的 players 极少,现在数得过来,将来也数得过来。但这个生态下的应用可能性具有几乎无限的想象力,其中有些是非常接近现实的应用,是触手可及的。这给下游的创业者提供了很大的空间。

南山:对于任何一个新兴产业,在宏观维度上,最不缺的就是钱。尤其是这种热门赛道。对于某个人/公司,可能会出现缺钱的情况,但对于这个行业是不会缺钱的。人才是第一要素。对于国家层面,这个级别的钱并不大。

立委:宏观上看,只要砸钱,就一定会出活。

这与光刻机这种硬件工艺还不同。光刻机和中国芯这种,砸了钱也在可见的将来出不来。软件毕竟不一样。软件讲到底是拼人才,而人才的流动属性,是挡不住的。

南山:光刻机缺的要素很多,但缺口最大的依然是人才吧。一个靠谱的团队,会有很多投资人愿意砸十亿美元级别的投资。拿出一个过得去的结果,更大的投资也会接着来。核心还是人才、人才。

这是一个难得一见可以清晰看到商业回报的大事情,只要有本事做成,基本没有投资风险。所有风险都在:你搞得出来吗?

技术可行性、商业可行性都比较清晰的大事件,也算是多年难得一见的机会。但判断团队干不干得出来,就难了。

立委:从这个意义上宏观上也没风险了,因为路已经蹚出来了。

最终还是要看生态的建立,和无数下游实体的开花结果,包括领域/场景对齐,以及多模态的渗透。

志飞的粗体字:

逐个论一下。

长序列,我们以前论过,其实LLM的惊艳表现与能够嵌入长序列息息相关,这是它比以前的模型应对上下文自如得多的保证。

多模态,是正在和将要发生的继续革命。LLM 从 文本辐射到其他模态(音频/语音、视频/图片)以后的大一统基础认知模型,可能会引发二次革命。

单模型,就是志飞所说的路线执着:不要过早想七想八,就是一条路线走到黑,推向极致,直到确认撞南墙或遭遇天花板为止。

最后自然还是一个“大”字:超大数据,一大遮百丑。

这个解读,我觉得@李志飞 是默契和认可的。

鲁为民:根据志飞之前在咱们群里的谈话内容,再看到他的这篇访谈,我觉得他是目前对大模型有真正理解的人,也是中国做大模型靠谱的人。值得期待。

立委:可以想见他忙,顾不上清谈了。

天将降大任于斯人也。

飞哥:感谢群里各位老师的关注,我压力山大,还请大家多给我介绍人才和多参谋参谋。

liangyan:“极客公园:就像让一个人上完大学之后,获得了基础能力,然后可以从事不同的岗位,做不同的事情。而不是在幼儿园的时候,就开始训练它拧螺丝。” 赞。

早就在关注 AGI(通用人工智能)了。

立委:一辈子没有见过这种科技飓风,昏天黑地一连刮了三个月,风势不减。打开任何媒体,满耳朵满眼睛都是ChatGPT,难以形容这种魔力。一定是碰到了人类一个共同的软肋,否则是不会如此排山倒海的。

吕正东:我在bert刚出来接受采访的时候说它是暴力美学 (我喜欢暴力),但是没有 new physics, 但是GPT是有新物理的。

立委:我不喜欢暴力,但很快意识到,这与喜欢不喜欢无关。你要 stay relevant 就必须与暴力相处。所以在 ChatGPT 诞生前,在一年前玩 GPT3 与 DALLE 的时候,就写了这个感受:AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢

我看到的超越简单语言层面的新东西是ChatGPT后来表现出来的长对话场景的掌控(篇章链和思维链)以及初步逻辑能力的出现。预见逻辑能力还会进一步加强,但知识的层次和全面是一个难以克服的瓶颈,无论多大都似乎不行。也就是说,在可预见的将来,胡编乱造的固疾是无法医治的。只有用“擦屁股工具”来帮助减少副作用了。

展开说,你说的新物理是?

吕正东:比如说,超出常规语言模型之外的推理能力。

我是喜欢暴力的,确切的说,我想看到数据量堆到一定程度,是不是会有类似“中文房间”之类的现象出现。为此,我们在2013年搞了五百万微博数据,看看检索式对话能不能产生以假乱真的智能,又在2014年用类似的数据训练了第一个生成式对话模型,看看能不能产生智能。现在看来数据量还是太小,只是再大也搞不动了。

立委:搞不动了 哈。

昨天听伯克利一个教授讲 LLM,说自己就是个教授,有几个学生,实在搞不动 LLM。呼吁赞助 呼吁相关研究 因为军备竞赛的结果就是最后只有塔尖上的几个人能在源头上呼风唤雨。

说风势不减,我想到一件事:大家都夸耀 chat 当前的月活数在 IT 历史上前所未有,绝对第一,把老二(抖音)甩出一条街。其实它的真实影响力远大于此,因为那个月活数是受控的,不是放开手发展的,例如 不对大陆地区开放。这也难怪,如果对大陆开放了,月活数轻易翻番甚至上一个量级,它如何受得了。人家把语言搞定,顺带把中文搞定了,这就在技术上把门槛降低到可以让1数亿人进来,哪个模型受得了。这样来看其影响潜力,早已经不是月活数这种传统思维可以定量的了。

中国虽然体制落后,但信息技术上算是草根启蒙度很高的国家,只要放开闸门,会有无数人涌进来的。如果考虑到全世界很多信息技术启蒙度低的地区的潜在用户,随着时间会介入,这个影响力“让人无语”,这是我们真实感受到的,也是最近出现最频繁的说法,可以请chat总结一下这类人类的表述:

......
Taken aback
Bowled over
Knocked for a loop
Jolted
Paralyzed
Discombobulated
Unnerved
Flummoxed
Dazed
Fazed
Addled
Bamboozled
Perplexed
Astounded
Surprised
Speechless
Thunderstruck
Appalled
Horrified
Startled
Stupefied
Breathless
Flustered
Rattled
Unsettled
Overcome
Knocked sideways
Shaken to the core ......

人类面对怪兽也不过如此吧。

震天动地
一脸懵逼
奇怪异常
出人意料
惊喜不已
爆炸了
眼前一亮
震撼人心
惊险万分

请注意,一些短语在不同的语境中可能会有不同的意义或使用方法。

这一波一波的连续信息轰炸,再好脾气的人也会审美疲劳吧。现在简直没法看,打开抖音,在谈chat;打开微信,各大群也是chat的大合唱或二人转。还有各种讲座、无数的网文和新闻。论渗透度、爆炸力和话题性,感觉是前无古例,后无来者。

NLP与语言文字工作本来是那么的清高和冷门,属于坐冷板凳的本性,没想到还有会被推到这样风口的一天,好像摇滚歌星一样耀眼。这还在一个LLM商业模式根本不清晰,领域壁垒依然耸立认知智能刚刚划过了冰山一角、错谬随处可见的时期,似乎一切挑战和短板都不影响它的光芒。

一直在想这里面到底是什么在激发全民的想象力。想来想去,只有一个解释可以合理化这种大众的追捧:语言对于人类,比我们想象得更加重要。我们无时无刻不在使用它,无论是与人交流,还是内省,有时候似乎忘却了它的存在和价值。这时候,突然有个非人怪物居然搞定了人类语言,对于我们的冲击和震撼可想而知。

为民:现在ChatGPT 的负面新闻越来越多了。

liangyan:我特别怕,人不当使用 chatGPT ,会把这类 chatbot 污名化。搞臭它的名声。

“跟它玩,但别当真”的态度是对的。

立委:玩和用,是两码事。我是既玩也用,立竿见影。

玩总有人要“玩残”它:就没有玩不残的。老话怎么说的,不怕贼,就怕贼惦记。

liangyan:我正疑惑呢,“玩残”是,谁“玩”,谁“残”了? 比如 “ A 玩残了B。“

立委:用是每天在发生的,我一年多(GPF3)、三个月(chat)来,一直在工作中和生活中用它做实际的事情,对价值和落地可行性有切身体会。后去,会有很多下游实体都在想如何让对接实际需求做得更有章法,流程化。

认真细心,循循善诱,是个教书匠的材料。

liangyan:[Grin][ThumbsUp] 基本对,有点啰嗦。 我只想知道是 A 残废了,还是B 残废了。

立委:

这个以前论过,输出长是他们的一个设计选择,综合来看,他们的选择是非常加分的。虽然啰嗦总是容易“露怯”,更容易被玩残,言多必失,风险较大。选择少言,实际的好处可以“藏拙”,做一字千金状。但其他的 LLM 有采取输出较短的策略,其结果是体验比chat差远了。当然,敢于长篇大论,不怕露怯,需要有底气。chat 经过各种与人类偏好对齐的 强化fine tune,有了这个底气。

Yuting:同意,比起简单给出 B残了 的答案,这种啰嗦的方式让人感觉更可靠

立委:言多必失,现在开始出现越来越多的笑话是必然的,但瑕不掩瑜是他们想给公众树立的形象。

发现,只要有 human filter,chatGPT 不需要做进一步改进,目前就马上可以落地到教育 as is,if(a big IF) 
            chatGPT 的API服务和生态可以迅速规范化起来
            AND
             美国不在这方面给中国掐脖子。

目前、马上就可以落地。可行性没有问题。

因为实际上零敲碎打地实际使用下来,已经证明了可以落地产生价值,可望极大提高在线教育的生产效率。不过就是为了 play safe,需要开发一个“坐台”,让一位真人老师坐在后面,点点手指批准还是禁止或简单后编辑,回复在线学生。这个图景十分、十分清晰。考虑到它的“百科全才”的特性,在教育界落地的空间简直难以想象地广大。简直就是一个浅层金矿,只是等待下游领域对齐的 practitioners 去挖,每一铲子(无论语文、地理、历史、物理、化学、还是外语,暂时不要碰数学就好,它目前数学底子潮)都是黄金。

规模化现在就落地教育的问题是:

第一现在需要等待 微软/open AI 的最基本的生态建设和服务到位;

第二,希望美国不会在提供服务(而不是技术)层面去封锁中国,毕竟提升教育是公益,原则上中美具有共同价值观;

第三,中国不要把墙筑高,阻挡技术革命的落地,为了人民福祉应该网开一面。

如果这三点中任一点有问题,就不得不指望国内早日做出自己的 chat 来,看@李志飞 们了。按照志飞的计划,他给自己定的KPI 是六月,估计是指 2024年6月,做出中国的 chat 来。说要做到及格水平,后去会把 60 提高到 80,就应该可以建立完整的生态和促成生态革命了。60 我的理解是达到美国 chat 的 60% (最后目标80%) 水平,但是考虑到还会必然具有一些中国版的差异化优势(中文特有的数据、中国的廉价标注能力来做微调、也许多模态方面与美国处于同一个起跑点可以带来额外的惊喜能力,等等),综合水平可以达到满足生态建设和促进下游应用的程度。这个听上去是靠谱和有可行性的,如果资源和资金可以保证。

设计和管控 chat 的微调,最大限度利用国内的廉价标注潜力,open AI 用几万条去对齐,我们可以用几十万条、甚至百万条标注数据去对齐,只要管理数据质量的老总有能力管理好团队的质量。这其实是中国版 chat 能不能成功的一个关键环节,魔鬼在细节中,微调的设计和实施最能体现细节的打磨。chat 风头碾压谷歌,其实也是主要靠的这个环节的细节打磨。Open AI  与 谷歌背后的 LLMs 水平基本相当。但玉不琢不成器啊。

Google issues urgent warning to anybody using ChatGPT

强调 hallucination(梦呓、胡言乱语)的风险并无新意,但处在他的位置,发表这种是合理的,虽然都是老调。

End of day all it comes to is 在可见的将来使用它,需要有一个 human filter:或者是终端用户自己做 filter,根据他的需求和条件自行判断价值和风险,keep 这种 warning in mind;或者是下游场景/领域的服务商,提供 human/expert filter 来最大化工作效率,给用户提升价值。不仅仅教育落地的可行性清晰可见,在线门诊也一样,前提是有一个大夫坐在后面。

Li Chen:这两天用new bing的一个最大体验是同样的搜索需求下,英文的远远好于中文。看来llm落地的时候,存在语种的影响且还不小。

立委:有人提议把优质英文语料全部自动翻译成中文 来加强。

Li Chen:那要保证翻译质量,不然估计用处也有限。

立委:实际上,同样的利益和效果,应该借助于模型内部的已经部分存在但还有改善空间的跨语言表示来达到,这才符合科学原理。并不真滴需要中文的线性语料在数量上赶上来。理论上,语言的落差可以压缩到最小。

对于语言外的知识,靠增加翻译语料不是从根上解决问题。根子还是里面的语义表示的通用性。而中文语言内的问题,靠自动翻译来增强也不是正道。相信这只是个暂时性问题。中文表现弱于英文,更主要的可能是顾不上来有足够的测试。问题从来不在开发者的雷达上,自然就表现不佳。一个系统的方方面面,鬼知道那个环节的一个小错就会影响数据质量。工程上看,就是能不能把最主要的痛点以最快的方式,出现在开发者和测试团队的雷达上。只要看到,就有可能改进,否则连提升的机会都没有。所以中文的问题,不仅仅是语料不够、质量不好的简单问题。这时候,国内做的 chat 就显出差异化优势了,因为中文肯定会一直在研发和测试的雷达上。

 

【相关】

独家丨李志飞将在大模型领域创业,做中国的 OpenAI

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 搞定了人类语言》

立委:从语言与语言学角度,chatGPT 的的确确证明了自己万能的语言能力。千百年来的人类巴别塔之望终于美梦成真。巴别塔建成了,建成日期2022年11月。这个成就超出了一般意义的里程碑。这是划时代的进步。

南山:我看不懂它是鹦鹉学舌还是真的掌握了语言。我比较认同一个说法:语言是思想的表象。计算机掌握语言与计算器做计算,也许没有本质区别。

毛老:对。和蒸汽机胜过人的臂力也没有本质区别。

卫东:一个机器是否具备人类的语言能力,本身就是一个比较难判断的问题吧?按照语言学区分competence和performance的考虑,机器和人,在测试语言能力方面的范式是一样的,总是用performance去估计competence。所以,真正的“语言能力”,大概也只能是一种“感觉”吧。chatgpt现在的表现,应该是让很多人“觉得”它掌握了语言。人们似乎还没有想出比图灵测试更高明的方法,来判断机器是否具有语言能力。

霄云:图灵测试 is not for language only, it is end to end “common sense “ test, human intelligence via language.

卫东:是的。它包含了语言能力。

南山:所以纠结机器是否智能在可预见未来是无解的,相关的判别标准和概念大家都没有清晰、一致,对于chatgpt、alphzero这类,看疗效才是王道。

霄云:单独测 language 是不是 翻译 或者别的 normalization 就可以? @詹卫东

卫东:不知道。我想不清楚语言跟其他能力是怎么分开的。简单的区分,比如语言考试,语文考试这类的。具体的题目,像是近义词辨析。我测了100题。chatgpt的表现跟LSTM的水平差不多。但是这类考试,并不是真实的语言应用场景。实际上是教师凭空想象的。题目形式是选择题,就是把一个句子中的一个词拿掉,给两个近义词,让它选一个填回去。100题得分不到60分。

南山:有唯一正确答案的题目吗?判断正确的标准只针对句法还是要结合语义和常识?

卫东:从出题的角度考虑,是有唯一正确答案的,但语言题还是跟数学题不同,总会有“更多的视角”和“更开放的标准”隐藏着,导致答案很难唯一。 近义词组是考虑了很多因素挑选的,包括句法、搭配、语义协同、常识等。

立委:语言理解能力可以看 同样的意思 你变着花样不同问法,然后看他的回应。体验下来 结论是 它是真理解了 不比人差。

卫东:差不多是这个体验。我测试它对不及物动词的反应。故意不在“引语句”打引号。但它准确地识别出引语句片段。不过,线性符号串接续层面形成的“结构”意识,似乎还是不能跟树结构完全重合。这就让人担心它的理解能力。我的感觉是人的智能有一个突出的特征,就是“整体性”。如果没有“整体性”,就是工具智能,不是“通用智能”。

Li Chen:整体性其实是神经网络的强项,毕竟最后都变成向量了。难的反倒是细节。

卫东:我说的整体性比较含糊,大概是这个意思:一个智能实体,不应该能做奥赛的数学题,但却在算24点的时候犯“低级”的错误。就是chatgpt在给人感觉很厉害的同时,又表现出存在犯低级错误的能力。

Li Chen:我觉得这个现象可以理解。因为像24点这种东西,某种意义上讲就是一个特殊的游戏,需要说明规则,理解规则的基础上来玩。chatgpt真的理解这个规则了么?这个感觉也就是toB难的地方,不同行业的规则不一样,通用模型没见过这么多具体的规则。即便是人,有很强的学习能力,换个行业也得学习工作一段时间才能玩得转。

南山:对于一个有阅读能力的人,将一段话打乱之后,ta仍然可以把整体意思掌握了。chatgpt可以吗?一个有阅读能力的人不需要特殊训练就可以读懂这段话

立委:可以测试一下。应该没问题,因为汉字本身就是形义结合的词素。

卫东:这个可能是chatgpt的强项,我之前测试不及物动词“见面”的句子中就包含了这类乱序的句子。它理解得非常准确。

立委:这个实验好。语言理解从效果上看就是要鲁棒有包容,同一个语义可以有多种不同的表达形式,表达形式不规范也没关系,只要上下文的关键词及其相谐性可以让语句的意义有区别性就好。chatGPT 这方面游刃有余,总是可以把同义的不同说法映射到语义空间的同一个区域。

卫东:100分!

原文是今天新浪网一段新闻。

南山:你不用提醒它顺序被人为打乱了,它怎么理解

卫东:

南山:这么说可以认为它的语义理解能力是没有问题了。

卫东:是的,感觉可以“跳过语法”,直达语义。

白硕:乌兰克

南山:可以理解为它的常识或常识运用有问题吗?

卫东:其实很难评判应该是“乌兰克”还是“乌克兰”。chatgpt不改也不能认为是错。

Li Chen:是的,也许真有个国家地区或者可以当主语,修饰语的确实叫乌兰克。

卫东:从我受到的语言学训练角度讲,chatgpt的汉语语言学知识(人类假设的那些知识,可能对,也可能不对)还是比较贫乏的,按照这个标准,它应该还不算掌握了语言。一个典型的表现是,语言学比较重视打*号的句子的分析,也就是所谓“不合语法”的句子。但实际语料中这样的句子极少。应该是训练数据缺乏。chatgpt对这样的句子的判断能力就不太灵。不过,这似乎也不太影响它进行语言信息的分析和处理。从这个角度讲,chatgpt对语言学的刺激是:句子结构的分析,包括对正例和负例的结构分析和解释,到底意义是什么?

立委:关于文法书上强调的带有星号 * 的反例,那不是为了语言理解,主要是从语言生成的角度,实践中追求的是合法和地道(nativeness),理论上追求的是 internal grammar/language,需要防止反例出现。

从语言生成角度,LLM 的大数据回归的属性天然实现了 nativeness,反例不仅少见,即便出现,统计上也沉底了。语言生成能力的效果观察,可以让它生成几次,看回应是不是还在同类水平上,是不是走题或掉链子。这一关表现不错。除了特别的风格输出(例如洋泾浜:这种“风格”可以看成 sub-language,里面的正例恰好是规范英语的反例)外,它是不会出现低级文法错误和违背习惯用法的笑话的。所以 native speakers 听着也觉得舒服。

说到底还是图灵,如果不告诉你背后是谁,你是不是会觉得对象是人。

从语言理解角度,文法书上的绝大部分反例都在包容的范围之内。语文老师让学生改正反例的那些练习题,其出题的前提就是这些所谓反例其实同样承载了正句一样的语义。没有这个预设,人怎么知道如何改正才能保留原有的意义呢。反例不过就是形式上的违规而已,通常不影响内容。

当然,在 input 较短 context 不足以确定内容完整性的的时候,有些反例会呈现歧义或甚至与原意相左的语义,这时候形式的违规的确与内容的混乱或不确定发生关联了。这时候,句法手段的修正(例如次序的调整、功能词的使用以及西方语言中的形态的正确应用等)才会有实质性意义,而不仅仅就是为了 native speaker 听上去顺耳而已。

解析和理解的能力,LLM 特别宽容鲁棒,主要是它的 embedding(编码嵌入,成为其内部的向量表示)可以容纳很长的 input,在 context 相互邻近的关键词之间相互制约下(我们叫篇章中的 semantic coherence,包括词义之间的搭配关系),形式上的偏离规范已经不影响它在语义空间的意义定位,从而“它”可以轻易与“非它”区分开来。

一个符号串 吃进去就是向量空间的某个或某组位置 其意义表现在与其他位置的距离和区别。因此 位置偏差一点 不影响意义 只要它与其他的不同意义的符号串映射可以区别开来。鲁棒性根植于此。换个角度 意义不是要问是什么,更要紧的是 不是其他(什么),只要能维持这种意义空间的区别性,规范不规范就都可以包容。区别之间有足够的空间/距离,即可容忍局部的种种口误 错误。

霄云:Llm 的 position encoding is linearly attached not cross product,so it is a weak form 

立委:词序影响意义的机会不大。当年 一包词模型用了很久 也是因为 词序是较弱的约束,构成区别要素的场景并不频繁。

我把一句话,完全反过来,从:explain quantum computing in simple terms 映射成类似回文:terms simple in computing quantum explain,它毫不迟疑。

人家训练的是next token,现在是处处反着来,本想让它找不着北,但实际上一点也不影响它的“理解”。就是说,当一个模型可以对较长的 input string 做编码嵌入的时候,次序的约束已经很弱了。因为那一小袋词之间的物理距离(proximity constraints)加上它们语义的相谐性(semantic cosntraints)已经足够让这个整体的语义表示与其他对象区分开来,这时候纯粹语言学意义的句法约束(syntactic constraints,包括严格的词序)就可以松绑。

我怀疑 position encoding 即便不做,LLM 也不见得性能会下降很多。

霄云:Could be, popular code base all use it still

立委:换句话说,在 bigram / trigram 建模的年代,词序是重要的 (“我爱她”与“她爱我”,“打死”与“死打”,可不是一回事)。到了ngram 中 n 可以很长的时候,ngram list 与 ngram set 已经语义相等了。

句长不够,词序来凑。长度足够,序不序无所谓。句法地位急剧下降。

论鲁棒,人如何与模型比,差了不止一个段位。

Li Chen:想想确实是这个道理,在有很多词的情况下,还要能组成符合语法的句子的可能性是有限的,也就意味着语义差异不大了。所以这个时候顺序确实已经不重要了,估计这个也是为什么即便是最简单的bag of words也能用来做相似度计算,一用就是几十年的道理。

卫东:跟chatgpt逗个乐。

总的感觉就是chatgpt对语言的嵌套理解能力和指代关系理解力非常强。

川:LLM 没问题,ChatGPT is evil

Who is the master, machine or man?

立委:那是因为 chatGPT 太 human like,搞定了自然语言形式。

川:搞定是假象,现在就下结论太早。

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

立委:机器都是假象,AI 本性。Artifical 与假象可以看成是同义词。就本质而言,人工智能就是智能假象,这个论断没有问题,但这应该并不妨碍人类深度使用AI。

搞定的判断是,跟他说话感觉它听从指令、善解人意,而且回应也很顺溜贴心,不走题。

三个月玩 chat 下来,我在它生成的英语中,没有发现过语言的问题(内容的毛病不算),一例也没有。但在其中文的生成中,偶然还是会发现它有语言的瑕疵(不符合规范或习惯的用法),虽然它的中文生成能力已经超过多数同胞。这说明,目前 chat 语言训练的中文语料还可以进一步扩大,从爱挑剔、追求完美的语言学家视角,它还有一点点剩余的进步空间。

结论还是: chat 搞定了人类语言,无论听还是说,妥妥的。万能的语言巴别塔是真滴建成了。

 

 

【相关】

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 能写出段子吗》

 

 

还行吧,这些段子水平不高。但比憋不出来强。

本来写出好段子就是最具挑战性的人类创作活动之一,只要采访几个著名的脱口秀演员就知道其中的甘苦了。很多大火的脱口秀演员,为此绞尽脑汁。台上五分钟,台下无数不眠夜。让人开口笑,并不容易啊。

By the way 国内脱口秀这几年蓬勃向上,有超越传统相声的态势,尤其是在年轻人中开始流行。这是以前没想到的,有传统相声的国度,居然让外来艺种抢了风头。制度接轨那么难,艺术接轨如此自然,水到渠成?

wow,不知道这是抄袭的,还是“emerging”的,联想一下还真像是个搞笑的段子:

gou (go) 我不会飞,可我很快。
niu 所以我那么大(大妞儿?)

猫猫 miao 或 mao, 耗子 mou,也蛮形象,有声有色的样子。

哈,看来只学会了一个套路:羊/yang (young),所以我害羞。

马少平:谐音梗:为什么不能吃藕?因为吃藕丑。

立委:这个强。马老师自己的灵感吗?

辞职算了,不要教书育人传授AI了,笑果文化更需要你。lol

马少平:不是,流行比较广的[Grin]

立委:lol

还有一个类似的感受,国内流行乐坛中的 rap 在大唐比想象的流行要广。在一个有数来宝的国度,rap 一样长驱直入。

马少平:我不喜欢rap,觉得就不是歌。

立委:可是很多年轻人喜欢啊。

马少平:确实。跟年轻人有沟。

立委:觉得文化的融合与流行 不是想象的那么难。

国内那些 rap,牵强的说辞泛滥,听着好别扭,觉得比虽然低俗但顺溜地道的数来宝或山东快书,是一种严重退步。但是我们的“成见”挡不住新一代的热情和迷恋,这里面可能有什么文化密码和奥秘。

最后就是日本动漫的文化,热度持续不减,横扫两个超级大国:引起中美年轻人的狂热。

陪女儿小时候看迪斯尼长大,没想到后来迪斯尼就被 anime 碾压了。anime,我不入,搞不清里面的奥秘。是为沟。

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 的里程碑意义》

说到chat里程碑的意义,盖茨比作电脑、互联网后的第三大里程碑,显然有点夸张了。可是我们进入计算机博物馆看里程碑展馆,有 1. 第一次下国际象棋打败人类 2. IBM 沃森问答打败人类,后面的还该有一系列打败人类的里程碑吧,例如围棋。

不得不佩服它条理化的能力,只有一个不妥:医学并入了教育。其余的综合 总结能力强过一干人,自然包括在下。在这一长串中,AI明星 chat 可以成为 top 几?

top 10 有点高抬了,top 20 似乎有余:就凭他建成了巴别塔,搞定了人类语言。

文字 应该是 语言/文字。宗教不该漏。

我是从语言角度。它的的确确证明了自己的万能的语言能力。语言能力其所以特别重要,不仅仅因为我是语言学家,难免强调它,更因为这是规模化机器能力的敲门砖,否则机器只是少数人的玩具。机器学会人话的意义,比人去适应机器,用程序去给它指令,意义大得多,这是人机接口的革命。

 

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 写的情书能有真情吗》

JJ: 

 

ChatGPT 写情书也不重样。

立委:这是陷入爱河但苦于笨嘴拙舌的人的福音了。人的爱意 哪怕是套话 也是要表达才行,藏在心里不行。

“i love you" 是鹦鹉学舌完全可以做到的,但并不因为是套话而失去其神奇效应。无数的情感矛盾和关系恶化 其实就是缺少了这三个字的表达频度。

但热恋要求更高一点,需要营造浪漫。营造需要形式,而有的人就是不懂形式,不善言辞,不会表达(俗话说,不会来事儿 lol)。你便是真情如海,但羞于表达或表达不出来也没戏。谁愿意与木头谈一场恋爱?

有问,机器代写的情书能有真情吗?这就好比询问:毛笔写的情书能有真情吗?

chatGPT 不过就是个工具,就跟你用毛笔还是钢笔一样。这个工具见识过无数的情书。工具帮助你产生形式,至于真情表白还是虚情假意,那要看使用工具的人了。

劝热恋中的人都去订阅 chatGPT pro,现在出来了,每个月20美元,太平价了,可以帮你制造浪漫的条件,无论是诗歌、两地书还是策划。

-- *声明:以上是脑残广告,不当真的 =)

顺着这个话题延伸一下,说说 chatGPT 作为文字助手的作用,尤其是对于不善言辞的人。

出口成章的人是少数。见过很多人在一些场合 需要应景 却憋不出话来 十分窘迫。现在好了。不知道有没有办法把 chat 制成一个可以植入的东西,就不说老马说的脑机接口了,只要能让它成为一个隐藏的招之即来 但无人察觉的暗器,也许作为穿戴设备,例如传说中的苹果眼镜,让它编制的应景台词,跟提词器似的,崩到眼镜上,我见人不见。那会是社恐人士多大的福音。

不同程度的社恐据报道是一个非常常见的问题,我自己也深受其害,人稍多就哑巴了,插不上话,却要硬着头皮应付。看社交场合如鱼得水的人 知道他们是胡喷 但人家给气氛啊 自己啥贡献也没有。成为社交累赘,有情商的的人,还要照顾你情绪,不时还要引一两句给你,带你玩的意思。chat 可以改变这一切 让笨嘴拙舌秒变伶牙俐齿,让只懂本行的老专家也能成为百科地保。 

为民:一位圈外朋友的朋友圈信息: "ChatGPT是中庸主义者的福音,完美地让你泯然众人、符合社会的基本期待。

ChatGPT不需要提升生产力(不需要empower人类的语言能力),只需中庸地鹦鹉学舌,帮助人类在其没有表达意愿的场景、完成表达的义务。

如果用ChatGPT写情书,说明你根本不爱收到情书的对象。但是也许你并不需要soul mate(不是每个人都需要),你只想要应付相亲对象。

作为情商不高的半社恐人士,我在很多场景都没有沟通互动的意愿,但是我得耗费精气神维持礼貌、得体、正常,ChatGPT作为AI助理可以帮我们这种人成为真正的中庸主义者。"

立委:

情商这东西 为什么人学起来那么笨 机器却行:估计主要是人自我中心 换位思考就难。机器根本没有自我 调教对齐一下就乖巧了。

白硕:机器没有脊梁

立委:情商优者治人 智商优者治于人。外行领导内行 由来已久 天经地义。

数量上也不成比例 情商强的人 远远少于智商好的,最后大多做了各级领导或企业老板。

 

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:LLM 凭什么能“涌现”超级能力?》

鲁为民:“惨痛的教训”和ChatGPT的规模优势,写了这篇短文,希望各位指正。有些想法之前在群里请教过;也借用了白老师的“对接派”和“冷启派”之说。我这个东西只是点到为止。

立委:先提一句,zero-shot/one-shot/few-shot 等,翻译成“零下、一下、几下”不大好理解,主要是 “下” 是个太常用的汉字,感觉不如 “零样例、单样例、多样例”,或“零剂量、单剂量、多剂量”,甚至“零射击、单射击、多射击” 来得贴切。

鲁为民:这个主要觉得与"shot" 同音,将错就错。

立委:

对于貌似无止境的 S阶梯形跃升,所谓“涌现”(emergence),现在大多是观察的归纳总结。为什么会这样,为什么发生超出想象、不可思议的现象和超能力, 很多人觉得是个谜。

以前很多年的AI统计模型(以及符号模型)的归纳总结都是,随着数据的增长,模型就会遭遇天花板,趋向于 diminishing returns,也就是说只有一个 S,不存在上图所示的阶梯形多个S状。

单S学习观也似乎符合我们的直觉:毕竟从统计角度看数据,数据量的成倍、甚至成量级的增长,带来的主要是海量的信息冗余,而净增的知识面只会越来越小。所以多快好省的学习模型要适可而止,以防边际效用的锐减。

可这一常规却在可以深度学习不同层次注意力patterns的巨量参数模型中突然被打破了。于是 奇迹涌现了。想来想去,个人觉得阶梯式多S型学习其所以创造奇迹、发生涌现,大概归结为下列几个条件和理由:

1. 学习对象必需有足够的可学的内容:自然语言正好满足这个条件。

以前我们做NLP的学习任务,一律是单一的,学习 parsing 也好,抽取信息也好。单一的任务角度,可学的目标是相对有限的,数据量的无限增长不可能带来无限可学的标的,因此学习过程遵循单S趋势,跟爬山似的,快到山顶的时候,再多的力气也很难带来进步。

可是自学习预训练的LLM改变了这一切。LLM没有特定的任务目标,或者说其最终是服务多任务,难以事先确定种种语言任务。这样一来,学习对象本身的知识承载力才是理论上的天花板,而这个天花板简直就是星辰大海,无边无沿:人类文明诞生以来的一切知识的承载,尽在语言中。

LLM 到了 GPT3 的规模,也不过就是划过了知识的冰山一角(以前提过,毛估估也就 20%左右),这学到的百分之二十知识,从ChatGPT的表现看,里面目前涉及几乎全部的语言知识(有词典知识、词法知识、句法知识、篇章知识、修辞知识、风格知识、对话知识、应用文知识、文学知识),外加漂在人类认知上面的基本常识、百科知识、部分逻辑推理知识等。也就是说,从AGI的视角,自然语言本身作为知识/能力的源头和对象,还有很多可以学、但还没学完的内容。仰望星空,一眼望不到天花板。

2. 学习表示必须有足够的容量:单单对象本身有各种层次可学习的内容还不行,学到了必须有足够的空间放得下才行。这个条件也在不断满足中:在一个对应与billion级token数的billion级参数的多维向量空间中,LLM们的表示空间较之深度学习革命以前的模型是大得太多了。

3. 学习过程必须有足够的深度和层次:这个条件也具备了,拜深度学习革命带来的多层网络所赐。尤其是 transformer 框架下的LLM内的注意力机制所赋能的学习和抽象能力,非以前模型可比。

阶梯式学习(超能力“涌现”、奇迹出现),上述三个条件缺一不可。

这一切要落实到实处,要靠海量的计算条件和工程能力。大厂,或由大厂做后盾的团队(例如 Open AI),具备了这样的软硬件能力。

于是,ChatGPT 诞生了。

鲁为民:还有很多东西值得进一步考虑,比如 Transformer 非常神奇。Anthropic 通过分析和实验发现,Transfornmer 的Attention Layer 可以激发 In-Context Learning 能力。而后者是 Prompt-based learning 的关键。

另外,顾老师的几何基础工作,还可能有助于进一步解释为什么高维稀疏的大模型泛化的能力局限。

立委:这里面水深了。谜底要专家们细细研究总结了。

顺便一提:大赞顾老师,虽然细节看不懂,还是一口气看完,欣赏的是横溢的才华和见识。 

鲁为民:In-Context learning 需要了解清楚。这个被认为是大模型的 emergence 能力。 这个解释也有很多。除了Anthropic 的解释外,还有Stanford 的基于 Bayesian 推理的解释也说得通。

这个in-context learning 也只(碰巧)对人类够用了,它还只是 interpolation, 或者刚好在 extrapolation 的边缘。我感觉顾老师的几何理论接下去可以去解释清楚了。

立委:这是 few shots 的奥秘。

few shots 既然没有线下的微调训练,怎么就凭着几个例子,跟人类一样能举一反三,现场就学到了 open ended 的任务呢?只能说这些能力LLM都已经蕴含其中,few shots 就是把蕴含在内的能力激发出来,并现场调适对齐。这已经足够的神奇和不可思议。可是到了 instructGPT 和 ChatGPT,few shots 的模式和能力却放到一边了,进阶到了 zero shot,完全的概念化。这已经是 “beyond 神奇”了!

当然,这个 zero shot 的奥秘宏观上讲就是所谓人类对齐(RFHF)的功劳。可到底是怎么奏效的,还是雾里看花。读了 instructGPT 的论文n遍,所说的与人类偏好对齐的各种操作虽然设计精巧细致,但毕竟对齐工作的数据只是原大数据的一滴水而已,居然有点石成金之效,让人惊掉下巴。

鲁为民:这个我还是欣赏John Shulman,他真将离线 RL 用活了。

立委:本来以为他们会沿着 few shots 的路线,把革命进行到底呢。毕竟 few shots 已经把需要大数据标注的知识瓶颈给“解围”了,prompt engineering 也符合低代码的大趋势,前景足够诱人。比起传统的监督学习不知道要高明多少。谁料想他们一转弯即刻就瞄准了 zero shot 去吊打自然语言以及NLP,爽快利落搞定了人机接口,这个弯转的,简直是神来之笔。

如果坚持 few shots 虽然也还算很大的创新,但绝不会引起ChatGPT这样的核弹效应。也不会让无数人浮想联翩,让大佬如比尔盖茨对其几乎无限拔高,说堪比电脑发明和互联网问世。

鲁为民:这个是不是 Open AI 首先(在GPT-3 paper)明确提出这个?这个提法应该不trivial

立委:不知道谁发明的,但肯定是 GPT3 (playground)与 DALL-E 2 以后才广为人知的。prompt engineering 成为热词,形成小圈子的热潮也主要是 Open AI 的功劳。

给我们科普一下 学习中的 interpolation VS extrapolation 机制吧。举例说明 

为民:简单说,interpolation (插值) 是预测的点在样本空间里。extrapolation 则在外。足以让人沮丧的是: LeCun 和他的博士后证明,对于高维空间预测问题(大模型属于这个),几乎都是extrapolation 问题。高维问题很难直观解释。

立委:

希望这是靠谱的,没有参杂胡说。

鲁为民:赞。但这两个词不是机器学习专有的概念吧。是不是统计或数值分析的概念

立委:隐隐觉得这个可能开始有胡说的侵染了吧?

鲁为民:好像你怎么问,它就怎么圆,lol

我觉得interpolation 和extrapolation 的概念在DL里只是 (或LeCun这里) 被借用并扩展(https://arxiv.org/abs/2110.09485):

白硕:数学上早就有。

梁焰:内插法外插法是数值分析里的方法。80年代末学《数值分析》的时候就学这个。它有点像在已有的框架结构内部外推。

宇宙学里的 “大爆炸”模型,也是外插出来的。所有数据都表明,宇宙婴儿期有一次空间的急剧膨胀。

白硕:统计也是啊,已知满足正态分布,在此前提下估计参数。

鲁为民:是的。如果要说真正的 emergence, 那就得外推(插) 。这个问题不解决,通用人工智能(AGI) 不可能。所以人类可能无望自己实现。AGI 要靠 ··· AI 自己进化实现。在这之前,人类可能会不断(前仆后继地)宣布实现 AGI 了。

白硕:向量可以肆无忌惮地内插外插,符号不行。符号泛化,遵从归纳法。这也是符号的劣势之一。要想在符号的世界任意泛化,需要有理论上的突破。

立委:我的体会那是符号泛化(generalization)操作的前提或公理。分层分级的各种generalizations 都是放宽不同条件,它是有来路、可追踪、可解释和完全可控的。

鲁为民:是的,要逃出如来佛的手掌才能外推。

梁焰:是的,泛化需要理论突破。

鲁为民:机器学习的名词千姿百态,很多都是借用其它领域。@白硕 @梁焰

机器学习的外插就是一种 Overfitting, 可能会很离谱,所以外插也不能肆无忌惮啊。

邬霄云:有一个细微的区别,符号 in interface or in implementation? 感觉@白硕 老师说的是 in implementation, 因为界面、输入、输出依然是符号,只是在计算输出的过程给向量化了 。人的处理是不是有时候也这样, deduction and induction r just 符号化过程,以方便解释给别人。 

有的人是可以知道结果,但是过程解释不出来。少 ,但是见过。chain of thought is related here , 感觉。

白硕:不一样,因为泛化确实是在欧氏空间里进行的,不是在符号空间里进行的。

霄云:sure. Implementations are in vector space, but projected back to symbols.或者说,我们要逼近的函数是在符号空间里有定义的,我们的入口在符号空间里。

梁焰:如果输出在符号空间中没有定义,那我们就为它定义一个新符号,新的概念也许就这么出来了。

邬霄云:exactly. If it is useful eventually it will be accepted into common.

只是它的implementation is done by mapping to vector space and back. And the behavior of that implementation in vector space does suggest some sort of generalization in symbolic space. 

白硕:这个说法存疑,既然谈逼近,就要定义邻域。在符号函数上并不能成功地定义邻域,要转到欧氏空间定义。也就是说,并不是符号空间有一个靶子,欧氏空间只是命中了那个靶子;而是,那个靶子在符号空间根本就不存在。

欧氏空间说啥就是啥。

邬霄云:同意 这个view不是很数学严谨。 我的 function 是软件开发里的概念, space 是 loosely used,to make a point about there is a mapping

But for sure the mapping is not one to one , and there are points in vector shape that don’t have direct mapping in symbolic space.  So compute is in vector space thus the thing we coined as generalization is implementation in there

立委:如果符号没有足够的空间表示思想,我们如何知道。原则上总是可以一一映射,至少对于成体系的思想。

邬霄云:I actually suspect one day that compute can be symbolized , using methods like chain of thought. Language is universal, so it is conceivable that we can ask it to compute following a path that can be symbolically described.

We don’t until we do. Language is not a fixed thing. It is a result of our spending efforts doing something together. It evolves all the time. Just slow enough so it feels constant. 

Brain exists before symbol.

立委:那是显然的,低等动物也有brain,但没有(用)符号。

感知跃升到认知的时侯,符号就与brain纠缠不清了。很难分清先有鸡还是先有蛋。但符号世界的离散特性决定了它总是抓大放小。

梁焰:yes, 符号有一个选择,和“去选择(de-select)”的过程,不断反复地这么做。符号思维,大概是人发明的一种高效省力的思维,但不应该僵化。

邬霄云:思维 是 什么 ? 计算? 计算 in symbolic space? Or compute that can be mapped to some symbolic space ?

梁焰:万物皆算。思维就是在计算。

邬霄云:我 记得 Hinton 说过 neural networks is the compute device 

但是,结果是跟大多数什么意见没有关系 的 ,我们需要这种人。我记得我们都去做 支持向量机的时候,他可真的没有咋追风。

立委:语言符号(除了数学语言和公式)通常漏得跟筛子似的,可是它还是胜任了知识的传承 。靠的就是冗余么?车轱辘话其实每一遍都有一点新意,或不同视角或约束。凑在一起,也一样维持了知识体系的逻辑稳定性,很让人诧异的现象。

道理上,LLM 是一种费力而无法完备的路线,看上去就是死路,可是却杀出来迄今最亮眼的认知智能来。这违反我们的直觉,理论上也不好说明。当我们明明积累了浓缩的结构化知识(例如各种知识图谱和数据库),却硬要弃之如履另起炉灶,从粗糙的、重复的、充满了噪音的线性语言大数据用序列训练去学习认知。正常人应该觉得这是一种疯狂和偏执,妥妥的缘木求鱼、南辕北辙,但现在却似乎是走在正道上,有点侮辱人类智能的感觉。

邬霄云:对于大多数人来说,哪种计算管用是最真实的,然后我们去解释就好了 。我们 比较幸运的是我们有感知的领域在 发生 paradigm shifting ,so we get to watch at front seat.  Feeling lucky 我们就偷着乐吧。

前几天看到那个 核聚变的 news ,compare to this one , 想想有些行当可能许久没有什么fireworks ,有感而发。这个我们可以 go in meaningful discussions or even think how we can make use of it,核聚变 就没有办法了。

立委:当然现在还没有到笑到最好的时刻。也不知道往后的AI认知路上会不会遭遇瓶颈 来阻拦多S形的学习曲线的前行 。毕竟LLM只搞定了语言,撬动了认知漂在上面的一个小部分。这样来看AI 的话,乔姆斯基理性主义对于大数据经验主义的经典批判论,似乎仍然有站得住的成分。

Minke:

Why people are fascinated about AI?

General public like it, because they think it’s magic;
Software engineers like it, because they think it’s computer science;
Computer Scientists like it because they think it’s linguistics or/and mathematics;
Linguists like it, because they think it‘s cognitive science;
Cognitive researchers like it, because they think it’s philosophy;
Philosophers don't like it, because there is no it.

Meanwhile, Mathematicians like it, because they think it’s mathematics.

立委:fun. And largely true 2.

在隔行如隔山的人类认知环境中 每一个专家都有自己的视角,就像我们难免在与机器打交道的时候,常常忍不住高估了机器,读出了AIGC 本身并不具有的意义 。我们在与其他领域专家打交道的时侯,也难免看高或看低了人家。

AGI 迷思与反思

这两天在琢磨一件事儿。从AIGC(AI Generated Content)琢磨AGI(所谓 Artificial General Intelligence)。

其实直到一两年前,对于 AGI 一直有点嗤之以鼻。主要是这所谓的通用人工智能,其实没有个像样的定义。我就觉得是扯淡,是科技界的乌托邦大饼。当然小编和媒体是从不缺席的,各种鼓吹从来不缺乏,但感觉从业人员如果心心念念 AGI,有招摇撞骗之嫌。

准确地说是自从开始玩GPT-3,逐渐反思这事儿,觉得 AGI 并不是不可以论,至少比乌托邦靠谱得多。

空洞谈实现通用人工智能,有点宣判人类智能终结的味道,感觉大逆不道;而且也永远没有尽头,因为没有验收指标。但是沿着那个思路走,再回头看自从预训练大模型(BERT/GPT等)横空出世以来的AI表现,AI 的确是在通向越来越通用的金光大道上。

回顾历史,AI 过去的成功几乎全部是专项的成功。最早的源头是特定的机器翻译和极窄的专家系统。到了统计年代,也是场景味道特别浓厚,虽然算法有共用的部分,但系统和模型都是专项的,因为数据都是场景的,领域越受限,AI效果越好。这也从AI社区的任务划分上看得出来。拿 NLP 来说,翻译、问答、聊天、摘要、阅读理解、辅助写作等等,都是各自一个门类。岂止是NLP应用的各种任务的分类, NLP 内部的很多事儿,也都各自有自己的任务和社区、竞赛等等:named entity, relation extraction, event extraction, text classification, parsing, generation, sentiment analysis, topic analysis, etc. 这种情形一直持续很久,以至于第一线做实际工作的人,一听说AGI高调,就很不屑。

现在看大模型,这些东西差不多全部统一进去了。如果说这不是通用,或在通用的路上,什么叫通用呢?

通用不仅仅表现在 NLP 天下归一,更表现在多模态AI的飞速发展,同样的基础模型+下游的机理,类似的 transformer架构,在所有的信号任务上,无论是文字、声音/音乐还是图片/美术、视屏,也都能通用了。

预训练以前的时代,AI 深度神经革命(10年前)是从图片刮到了音频再到文字,根本解决了带标大数据的监督训练通用问题。但很多很多场景,带标大数据是匮乏的,这个知识瓶颈扼杀了很多领域应用的可能性。第二波的预训练自学习创新的浪潮是从文字(LLM+NLP迁移学习)开始突破(大约五年前),回头辐射到了视频和音频。以ChatGPT为代表的这第三波通用AI旋风(几个月前),以 zero shot 为标志,以机器学会了“人话”、根本解决人机接口为突破口,也是从NLP开始。

NLP 终于成了 AI 的实实在在的明星和皇冠上的明珠。道理就在 NL 上,自然语言无论有多少不完美,它是难以替代的人类信息的表示方式,没有 NL 在人机对话上的突破,一切AI活动都是精英的玩物。现在好了,门槛无限低,是人都可以玩出大模型的花样和“神迹”出来。

说老实话,AI领域的“AGI风”,是一步一个脚印显示给人看的,完全不是空中楼阁,不服不行。大模型的表现超出了所有人的想象,甚至超出了那些设计者和DL先驱者本人的想象。Open AI 谈 AGI 谈得最多,但这一点也不奇怪,这是因为他们走在前头,他们是在看得到摸得着的表现中被激励、被震撼,谈论AGI远景的,这与投资界的 AI bubble 或小编以及科幻作家笔下的AI神话,具有不同的性质。

这就是这段时间我一直在想的 AGI 迷思破解。

几个月后老友再论涌现

斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

鲁为民:涌现确实是需要进一步研究。涌现可能更多的是一个定性的概念。不过实验方法有其局限,比如没有观察到的东西,不能证明不存在。1) 涌现确实与模型架构和指标(损失函数等)相关,不同的模型可能不会在类似的规模时呈现,不同模型的涌现出现也有迟早。2) 涌现与测试数据分布相关。3) 涌现不仅仅体现在性能(指标)上,更多的可能体现在其它呈现的特殊能力,包括模型适用于其它很多事先没有训练的任务。4) 涌现与模型执行的任务有关,不是一个模型对所有任务都会在类似的规模时呈现, 不同的任务涌现能力出现可能有早有晚。

梁焰:“涌现”这个词,我看到的最好的翻译是 “层展” ,一层一层(在眼前)展开。涌现,也不是 某新鲜事物自己涌现出来了,它有一个 observer. 所以有 两个 arguments: what 涌现, who is the observer. ( 套用坑理论)

立委:关于“涌现”的感觉,现在看来主要是因为以前的稀疏数据,在超大模型里面实际上不再是小数据。因此,超大模型就表现出来以前的小模型看不到或由于数据稀疏而总结不出来的很多能力。而很多NLP任务都具有稀疏数据(sparse data)的特点。所以以前很难搞定。但数据大了,模型大了,就搞定了。这个不难理解。

为什么语言能力最先搞定,并不需要超大模型,而只需要10-100亿参数模型足矣。这是因为语言本身不是 sparse data。语言能力里面,句法大规则最容易,词汇搭配随后。篇章和对话最后。

机器翻译就是一个最好的案例。前LLM时代 必须特别收集翻译对齐语料才能做,因为在随机语料中,翻译绝对是稀疏数据。但到了超大模型时代,各种翻译,起码是主要语言的翻译材料,虽然是整个语料海洋的零头,但也足够大到克服了稀疏数据的毛病。于是我们突然发现,LLM “涌现”了人类语言互译的能力,虽然它根本就不是为了翻译设计的。无奈它看到的实在太多,“无师自通” 了。自动摘要的能力也是如此。发现LLM摘要真心碾压以前的各种专门的摘要系统,它抓大放小的能力,早已超过我们人类。这一点,我反复试验过,不得不叹服。

白硕:所以这就是我说的,语言能力大家都会“到顶”,知识能力拼的是插件(外挂),跟大模型关系不大。

冯志伟:为什么会涌现?

立委:因为大。数据大,参数大。数据大,结果以前的小数据(子集)不再稀疏。参数大,它就有足够的表示能力来“涌现”不同层面的能力。

詹卫东:大应该是必要条件,但不是充分条件吧。涌现,可能找不到充分必要条件,如果找到了,智能就被解释清楚了。理解能力,可以简单的看作是“状态区别”能力。

白硕:不是全部智能,只是支撑语言能力的那部分智能。形式的接续、本体、事理关联。这个要大到长尾也不稀疏,是大致可以测算的。就是说所有长尾组合的概率都要有冲破阈值的可能。

冯志伟:人脑神经元有860亿!

Xinhua:人脑那么多神经元,大部分并不参与高级的思考活动。人的语言,思维,时空感受,都集中在几个区域。当然,这些区域可能接受大脑很多地方的投射。比如有人小中风后失去说话能力,但能写字,不影响思考和理解语言。

立委:人的脑瓜,神经元虽然天文数字,但记忆力可怜,运行效率也低 ,当然耗能也低。 耗能低,是相对于 LLM 而言。从生物自身角度,据说脑袋耗能相对来说很大,以至于很长时期成为高级动物的一个负担,不得不需要更多的进食和营养,才能维持。

 

 

 

 

 

【相关】

鲁为民:“惨痛的教训”和ChatGPT的规模优势

老顾谈几何 :奇点降临?

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

 

《AI浪潮:漫谈LLM与领域对齐》

白硕:ChatGPT的进阶思考:金融行业落地要解决哪三大问题?

立委:谢谢白老师分享。

这一期主要是提出了问题,就LLM与领域对接提出了要求,也强调了紧迫性。最大的一点就是领域积累沉淀很多年的浓缩的结构化领域知识/图谱,到底如何拥抱LLM的普适能力,从而为领域落地开辟新局面呢?

较小的领域先放下,金融是一大块、医疗是一大块、法律也是一大块,教育当然更是一大块。想来最容易被同化的大领域可能就是教育板块了,感觉上,教育这块的领域壁垒没有那么高。而且教育 by definiition 与语言以及语言受众最密切相关,应该是最先被革命的领地。现在高校面对 ChatGPT 怪物的惊恐和震撼算是一个本能的反应。

前面提到的这几大领域,其实数据量都很惊人。现在不清楚的是,如果用领域大数据做LLM,是不是就比普适的LLM,如 GPT3,甚至即将到来的 GPT4 就一定更容易落地领域,立竿见影呢?

理论上,与其给超大模型 GPT3/4 做“减法”来做领域模型,不如直接在数据端做工,只跑领域大数据,这样的大模型是不是就好用了呢。不知道,因为这些事还是进行中。

白硕:不看好。

立委:例如 《自然》有一个 article 报道了纯粹利用脱敏的美国电子诊疗记录数据做出来一个 billion 参数的 LLM(A large language model for electronic health records),在8项已有社区标准的医疗NLP任务上都达到或超过了 state of art,大约好了一个百分点左右,不知道落地是不是有感。

另外,前两天注意到微软研究也出了一个医疗 LLM 叫 BioGPT,数据比电子医疗记录要广得多,基本上把医疗卫生的公共数据一网打尽。这些工作刚出来,所用的技术都是LLM积淀下来的框架和路数,对领域落地的影响需要一些时间才能看出来。问题是,这些领域 LLM 本性上还是与领域的图谱和结构化的浓缩资源井水不犯河水。目前还看不到两个冤家如何融合和协作。

白硕:以NL2SQL为例,元数据结构是企业、行业的事情,但query中的词语带出来的二级、三级的trigger,实际上通用大模型都知道。不真大面积跑,根本不知道一刀砍下来会误伤到谁。

立委:是的。领域数据纯化了,NL 这端,尤其是口语,可能就受影响了。

白硕:等你从猿变人,人家做得好的不知道领先多远了。而且行业用户一个个牛得很,谁愿意给你做那么大量的标注和陪练?

立委:人家指的是领域这边的能人,还是指的是 AGI 那边的疯子,例如 GPT10?

行业用户再牛,也要面对这个现实:行业里管用的东西基本上处于手工业时代,与 LLM 时代岂止恍如隔世,这种对比和反差 太强烈了,简直让人不忍直视,无法忍受。

白硕:“人家”是对接派,“你”是冷启动派。

立委:嗯,明白了,人家就是隔壁瓦教授。行业用户的牛也明白了,因为它是上帝,有钱,它才不在乎谁对接,谁服务呢。他只要结果,只为结果买单。

广义的对接派包括我们所有不只是玩 LLM,还要用 NLP 来讨好客户的群体,是这个群体最终帮助搞明白落地形态。从大厂的 LLM 角度看去,所有人都是他家下游无数场景的 practitioners。

白硕:以后恐怕除了大厂和带路党,不存在第三种形态了。

立委:这一期与@白硕老师上次提到的演讲笔记是同一件事吧?这一期算是铿锵三人行。

白硕:不完全一样。上一次有学术内容,这一次基本没有。

立委:哦,所以还有个期待。这一期提供了很好的背景。现在趋同的舆论太多,白老师的洞见肯定有耳目一新的角度。

鲁为民:这个值得期待。

白硕:预训练的价值就在一个预字。如果搞成原生数据的训练,所有NLP的已知能力都得从头学起,而且行业客户提供的数据质量和数量都无法与公共域里的数据相比,私域部署的大模型最后出来的东西,肯定是东施效颦。而且还没人说你好话。

立委:东施效颦的顾虑是真的,首先水平就不在一个段位,虽然道理上科学无国界和任何其他界限,但落实和部署肯定要看资质。但数据端做拣选、清洗或其他过滤,这却是正道,也应该有效。

很多行业,例如医疗,领域数据量已经大到了形成“小社会”了。甚至口语,在医疗大数据中,也有属于医疗板块的社会媒体(例如 reddits 以及医疗问答之类)的存在,应该是并不缺乏数据的覆盖性。主要短板还是团队与团队不同,产出质量可能就不一样。

例如《自然》那个医疗LLM的工作,就做得很辛苦,是由佛罗里达大学的教授和研究生,联合硬件厂商Nvidia,做出来的。从描述看,中规中矩,没有任何科学创新,只是数据端input不同,以及输出端在NLP多项任务的微调验证。这样的产出是不是能够看好、有效,促进攻克领域壁垒,现在不好说,都需要时间和实践去消化。

宋柔:语义计算不仅要服务于应用,还应该有理论价值。以GPT及其各种后继发展的大模型,仅是生成模型,并没有通过分析而理解。这种大模型不会是NLP的终结模型,应该还有革命性的变化。

立委:分析大模型也有,BERT 就是,只不过风头现在被 GPT 碾压了而已。BERT 的微调曾经很风行,医学界也有一些经过微调的 BERT 模型在公域,可是效果不太好。

另外,我们理解的分析和生成也可能跟不上时代了,表面上看 next token 作为基石或原理的所谓自回归训练的生成模型,道理上在分析任务上应该不适应,或至少不能与分析模型争锋:语言分析任务包括问句意图理解、阅读理解还有诗词创造(诗词创作不是生成任务,而是更加依仗全局的理解和布局)等。但事实上,当一个所谓的“生成”模型在建模的时候可以记住足够长的 precontext 的时候,模型本身的分析能力,就与上下文两边都看的模型,没有实质性的差距了。

总之,实践和效果把生成模型推到了现在的高度,而且貌似成为迄今最接近 AGI 的一扇门。当然,谈“终结”还太早。

白硕:我们的专家说非人类理解人类语言的巅峰,不过分吧。

立委:不过分,跟我说的天花板一个意思。

ChatGPT 虽然不好说终结了AI或NLP,但基本终结了聊天和对话。此前甚至以后的一切人机交互,要突破这个天花板是很难了。因为从语言层面几乎到了无可挑剔的程度,虽然从个体的不同偏好来看,还有可以挑刺的地方。就自然语言交互接口而言,ChatGPT至少是没留下足够的余地,使得后来者可以给人更大的惊喜。

最大的问题是胡说。但胡说其实是语言能力强的一个指针,而不是相反,可以专论。

宋柔:无论是“巅峰”还是“天花板”,离人的语言认知峰顶还差的远呢。

立委:从一个角度看,“语言-认知”其实可以分开来看,语言已经搞定了,认知搞定了多少?我说过,认知根本没搞定,也就是 20% 的认知能力吧,但给人的印象却远远不止 20%。多数时候给人的感觉(或错觉)是,貌似它也搞定了认知,只是偶尔露怯而已。可是人类露怯也不是特别罕见的事儿呀。

宋柔:是的。人也会露怯。通过更大量的学习,人和机器都可以纠正过去的错误。但是,人能创造,人的创造能力不是靠学习数量的增大就能获得的。

立委:其实我对所谓创造性的人类独有论越来越持有怀疑。人类肯定有某种机器没有的东西,但创造性(的大部)感觉不在这个神圣的圈或点内。很多以前认为的创造性 譬如艺术创作 其实是比较容易被模仿甚至超越的了。现在看到大模型的生成物(AIGC),常常可以看到创造的火花。当然,我们总是可以 argue,所看到的AIGC 的创造性其实是我们的误读,或过度解读,是所谓 Eliza effect,读出了对象本身不具有的意义和美感来。这个 argument 自然不错,但还是无助于界定“创造”的人机边界。例如 AIGC 刚刚“创造”的这幅命题作品:水彩画 爱情。

我一眼看上去就很有感。一股浪漫气息扑面而来,带着水彩画的飘逸和玫瑰梦幻色。如果是我女儿画的,我一定会称赞她有天才,可能会后悔没有送她去美术学院深造。

宋柔:艺术创造没有客观标准,与科学创造不一样。最简单的,由自然数到负数,由整数到有理数,由有理数到实数,这种跨越就不是增加学习量就能达到的。

立委:对,这个是LLM目前的短板。

回看一下人类如何学到这些知识吧:经过小学5-6年,中学5-6年,大学4年,研究生5-10年,最后是不是研究学问的料还不知道。但除了这样漫长和精心设计的教育体系,人类还想不出任何其他更加多快好省的知识传承和突破的办法来。有些学问的点滴突破,已经到了需要一个人穷尽一辈子去消化前人的认知,才能站在历史的肩膀上在某一个点上,可能做出某种突破,来延伸科学知识的前进。而做出突破的都是幸运儿,因为一将功成万骨枯,他的脚下不知道有多少无法达到彼岸的半途而废者。拿这样的知识体系作为人类最后的神圣领地也许很有道理,因为掌握它是太难了。但隐隐觉得 AI 在这个过程中,可能也有希望有所颠覆。颠覆不是 AI alone 而是 AI assist,原有的教育体系使得科学进步的 overhead 越来越大,大到了人类寿命与之不相称的程度。最终还是要诉诸 AI 来缩短这个过程。这个方向(叫 AI for science)也是值得关注的(例如,大模型在生物工程方面据说就开始扮演一个加速器的角色了)。至于这个方向的进展对于人类科学的神圣性有什么影响,目前还不好说。也许科学的神圣和严谨也不是铁板一块的。

宋柔:现在的AI只是死读书,不会联想、类比,进而归纳而抽象出新概念新方法、有时候你感觉它在联想、类比,但实际上是它学过了这个特定的联想、类比的实例。它无论如何不可能归纳、抽象出一个从未学到的概念。

AI解决不了新冠病毒变异的预测。

立委:人也解决不了吧?

即便天气预报,人貌似搞定了,但也还是不得不借助类似于 LLM 的大模型大计算才搞定的。预测模型所做的事情,与人类所做的预测有什么根本区别吗?硬要看区别,可能主要还是人不如模型,人拍脑袋做决策 与(借助)模型做决策,差距只会越来越大,因为人太容易只见树木不见林了。人类掌控全局的能力其实是一个很大的短板。

詹卫东:

白硕:这还差得远。

立委:鸡同鸭讲啊。必需精分 bipolar 才好。

进一步说明了形式和内容可以分离,分离了也可以随机融合,融合了不 make sense ,但看上去却很雄辩。以前也见到人类胡说,如此反差密集的胡说还是让人开眼。

刘群:对ChatGPT要求太高了,lol

詹卫东:LLM为什么能“看起来像是”从符号序列中发现了知识?包括“语言(学)知识”和“世界知识”?很神奇。可惜我的数学功力不足,难以参透。

刘群:没有什么神秘的,纯粹就是基于大数据的统计所作出的预测。大家感到意外,只是对大数据统计的威力认识不足。但统计本身并不能发现更复杂的规律,这点ChatGPT并没有表现出特别之处。

詹卫东:我只是觉得(没有根据):无论给多少长的符号序列,也不可能学到真正的知识。

白硕:这个不好说。

数学上展开讨论,有一些理论上的天花板,但不是永远不会,而是会了也不可能自我认知会了。

詹卫东:其实是不是胡说倒很难判断。比如有人告诉我地心说的理论,我就很难知道地心说是不是在胡说。

立委:胡说的判定因人而异,对人的背景有要求。而语言的判定,只要 native 基本就行。

詹卫东:要验证知识的可靠性,是非常昂贵的。所以,从汪洋大海的符号序列中,学习到“知识”,难以想象。

立委:定义不清楚:什么叫知识?什么叫学到?什么叫“真正学到”?判定的标准是什么?如果标准是他的体温、脉搏和肾上腺素的分泌,是不是呼应了他的知识,那肯定是没学到。

白硕:都可以在数学意义上讨论和论证。

詹卫东:以围棋为例,可以认为机器学习到了围棋的“知识”。因为这类知识可以有函数表达形式。知识应该可以归结为不同粒度的分类能力吧,这是最基础的。

立委:这个能力已经是漫山遍野了呀。知识从概念化起步,概念化的模型表现已经是笃定的了。zero shot 的本义就在于此:你用概念 instruct 模型,模型可以从概念的“理解”,返回给你实例。

卫东:

我也是主观认为ChatGPT没有“特别之处”。比如“中秋月如钩”它也搞不定。但是,ChatGPT表现出的“语言能力”确实令人震撼。我就非常奇怪,仅仅靠预测字符,就能预测出这么流畅(前后呼应)的句子?

从“流畅的句子”(语言能力)到“真正的知识”,是不是存在鸿沟(是否可以逾越)呢?对人类而言,很多“知识”,载体就是“流畅的句子”。所以,给人一种错觉:流畅的句子 = 知识。我觉得这是ChatGPT给一般人的错觉。

有知识 → 能说流畅的句子 (这个合理)
能说流畅的句子 → 有知识 (这个存疑)

白硕:知识是嵌入好还是外挂好,我觉得这不是理论问题而是工程问题。

尼克:可能各有各的用处,有时理性需要经验,有时经验需要理性。

白硕:比如,理论上,一个实数就可以包含世界上所有的知识。但是工程上,还是要用一千多亿个参数。

尼克:变哲学问题了。

詹卫东:一个实数 > 一千多亿个参数?

白硕:数学上它们一一对应。N维空间的点可以和一条直线的点一一对应。我真的没开玩笑。

尼克:连续统。

詹卫东:这些知识,怎么能从“符号序列”中“学出来”呢?哲学问题是“知识是创造的,还是记忆的“?

立委:很多降维操作不就是要压平知识表示吗?

某种意义上,序列符号形式的语言,就是上帝赐予的压平知识的天然工具。其结果是无限的冗余、啰嗦、重复。LLM 就是在这些冗余中学到了“知识”,重新表示/复原到多维空间去。到了生成阶段,又不得不再次降维,压平成串,照顾人类的感官(眼睛读/耳朵听)。

宋柔:我想问ChatGPT一个问题,但我没有ChatGPT,也不会翻墙,不知哪位有兴趣问一下:
我国的长度计量单位过去曾用公里、公尺、公寸、公分,后来改用千米、米、分米、厘米,为什么米、分米、厘米已经通用了。但该用千米的场合往往还是用公里?如某人身高1米7,不说1公尺7;但高铁的速度每小时300公里,不说每小时300千米。

就是说,长度单位该用千米,不用公里,但为什么高铁速度说每小时300公里,不说每小时300千米?

立委:

好像也还说千米的,至少有一些小众社区是这个习惯。

詹卫东:

立委:习惯的问题(约定俗成)好像没有什么道理,感觉是偶然促成。

马少平:宋老师:发论文的时候似乎要用千米不能用公里,新闻什么的可能没有这么严格。

宋柔:正确的答复应该是:口语中,1千米和1000米读音相同,但1千米和1000米表示的精确度不同。前者精确到千米,后者精确到米。这种混淆导致“千米”这种单位不好用。
由于语料中没有这种论述,ChatGPT自然答不出来。

詹卫东:千米这个单位在小学数学题中广为使用,是把小学生绕晕的不二法器。我家娃数学能力不行,深受其害。

宋柔:为什么说“歪鼻子斜眼”,不说“斜鼻子歪眼”?

如果老外问中国人这种问题,多数中国人就说“我们就是这么说的,没有为什么。”

立委:

从一本正经的胡说,到一本正经的废话,到一本正经的信息量较低营养不高的话,再到一本正经的具有信息量的话,最后到一本正经的绝妙好辞。这就是一个频谱。

上面的回答,我的感觉是属于 一本正经的信息量较低营养不高的话。有信息量的部分就是提到了“习惯”。他无心,我有意,这些习惯表达法,不就是约定俗成的习惯吗。符号绑定的用法,社区约定,本源上就不需要讲什么道理。

不变的是“一本正经”:就是说,它学会了人话。

白硕:但是真有泛化。我是说儿化规则。可能就是很复杂的决策森林啊。人说不清,但说的时候拎得清。

立委:风格都能模仿,学会儿化不奇怪了。都是鸡零狗碎的东西,不是没有规则,而是规则太多,人总结不过来。

白硕:不妨试试。

立委:

貌似还没学会。哈,没有这个知识,就好比它目前写中国诗没有学会押韵一样。但是英文诗是押韵的呀,也许就是一个阶段问题,还没进阶到那个段位:也许是等中国的大模型赶上来吧。

具体到这个儿化,是软约束,的确不好学,尤其是写到书面上,很多时候“儿”字就省掉了,让它如何抽象?如果是语音作为学习材料还差不多。

宋柔:这些例子说明,ChatGPT只会照猫画虎,不会从大量实例的类比中归纳出规律。

立委:照猫画虎 其实已经开始抽象规律了,否则就是照猫画猫。

宋柔:比如,人可以从大量实例中归纳:“矮”说的是某物的顶面到底面距离短,“低”说的是某平面在心目中标准平面的下面。说“歪”的前提是预设了正确方向,是偏离了这个正确方向,说“斜”的前提是预设了正对的方向(无所谓正确不正确),是不同的另一个方向。ChatGPT虽然学了大量语料,大部分情况下能照猫画虎差不离地说对话,但不能抽象出相关的概念,从而讲不出道理。

ChatGPT不能抽取出相关的特征,从而不能归纳出规律。

立委:感觉还是不好说。

讲道理也许不行,抽象能力不可小看它。没抽象出来,更大可能是时间和数据问题。今天没抽象出来,1年后可能就可以了。近义词的细微区分是有数据依据的。

白硕:抽象这个东西不好说清楚,但是特征是能说清楚的。也许是多少层卷积之后才能出现的特征,数据不足时特征无法分化出来。

立委:以前符号AI那边的常识推理名家 cyc 老打比方,说:去年我们是10岁孩子的常识推理能力,今年的目标是12岁。

类似的,LLM 的抽象能力它现在也许达到了大学生的能力,但还不到研究生的水平。就更谈不上达到专家 教授的高度抽象能力。但它走在万能教授的路上 

 

 

【相关】

ChatGPT的进阶思考:金融行业落地要解决哪三大问题?

A large language model for electronic health records

BioGPT: A Domain-Specific Generative Transformer Language Model Pre-Trained on Large-Scale Biomedical Literature

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《AI浪潮:神迹与笑话齐飞,chatGPT 也是大观了》

60天月活破亿,ChatGPT之父传奇:16岁出柜,20岁和男友一同当上CEO

立委:chatGPT 的面世,比尔盖茨认定是可与电脑的发明以及互联网的诞生一样级别的划时代事件,我认为是恰当的,因为人类迎来了人机交互的新时代。

这个图再看,还是两个字:震撼。

这可不是任何广告或营销可以梦想的,这是信息时代的“桃李不言下自成蹊”,滚雪球一样“口口相传”,一波未平一波又起,热度持续攀升。根子还是模型过硬,触到了人类的痛点还是G点。原来NLP可以创造这样的奇迹,这可是以前做梦也无法想象的事。貌似超过一切神迹。好像一个无所不能的魔术师,它每天在那里给你变魔术,都是现场的、即兴的、无法事先做手脚的,你服还是不服?

神迹与笑话齐飞,大众还是选择了原谅笑话,与神迹共舞,这也是大观了。

LeCun 就是没明白这一点。尽管人家平时看上去不仅是大牛,而且也接地气。但这次他是选择性失明,小看了“对齐”导致的超级核弹效应。

哈,已经上亿的用户量,不怪他常常罢工。好在罢工的时候,还总是临时、现场给你唱个幽默自嘲的小曲儿啥的。(不会太久,随着多模态LLM时代的到来,这个 rap 就该可以现场演唱给你听。)

Li Chen:所以难的不是语言,而是人脑袋里怎么想的,怎么去理解的。即便是同样一句话,在不同场景里,也就是所谓的context,效果也不一样。而具体的context应该是无穷无尽的,再多的参数也cover不过来。

霄云:Right, but for service chatbot, this is not a problem. The number of actions that it can carry out is limited. 

So chatgpt essentially demonstrates conversational user interface for general public is good enough now. May not be good for professional domains without domain dependent model.

Li Chen:是的,现在这个chat才算是可用的chat,给普通人玩足够了。以前的真心就是3,5轮之后就不想在继续了。某种意义上说所谓的闲聊机器人应该没有太大的继续研究的价值了。

立委:@lc 说的对,chatGPT 之前的所有聊天系统,包括小冰,都没有真正做到,chatGPT 算是 “终结”了聊天。只有它才第一次以这样的规模和自然度,让它成为聊天的天花板。总还是可以挑剔的,众口难调。但挑剔的地方大多不过是一种不同偏好的折射。关键是,人机交流已经解决了。

chatGPT 碾压以前所有的聊天系统,是典型的降维打击。功夫在chat外,本质是搞定了人机接口:人类第一次见识了,面对机器,不需要编代码(或用什么咒语,例如所谓 prompt engineering),只要直接跟它说干嘛就行。它听得懂任何语言。聊天只是外壳和表象。它的存在远远大过聊天,但凡文字语言类任务,它无所不能。碾压聊天也只是其NLP泛化的AGI道路上的顺带副产品而已。

霄云:Now the only thing left is how to cheaply ground the understanding with easy to build interaction logic and service APIs . 

立委:exactly

利鹏:我堂堂人类,怎么样才能不被小ChatGPT取代?

立委:说难也不难:一闭眼一跺脚,掐断电源,禁止信息流通。

少平:人类收版权就可以了[Grin]

Minke:language is not mind

立委:interesting

语言和思维的关系 记得在普通语言学课上 就是一个焦点问题,就好比鸡与蛋的问题一样,一直纠缠不清。纠缠不清的原因之一是 稍微像样一点 具有一些条理的思维,总是与语言裹在一起的,无法分离 。

直到1957年乔老爷提出句法要独立研究 不要被语义干扰 这才从理论上给出了一条把语言与思维剥离的可能性。但实际中的对象也还是混沌一片的,毕竟“绿色思想在睡觉”这样的思维实验的案例不是真实现象的常态。

直到今天遭遇了 chat'gpt …… 到了 chat 这种似人非人的生成物,这才第一次大批量地让我们见识了,什么叫形式与内容的貌合神离。原来语言还带这么玩的呀,一本正经不妨碍胡说八道。

毛老:符号与所代表的内容本来就是可以分离的。

立委:是啊,机器翻译就是把内容从源语符号中剥离,然后借着目标语符号吐出来。

语言是符号,以前以为,因此思维也必然是符号,现在没有以前那么确定了。也许思维的本真形态更靠近 向量空间,只是到了脱口而出的那一刻,才穿戴整齐变成了符号的形式:语音流 或 文字流 。

毛老:思维是一种活动,语言只是思维的表达。

立委:符号学派一直是这样建模的:语言是表层符号,吃进去或吐出来的时候就是这样。消化在内,就成了深层符号,所谓 logical form 或者逻辑语义表示,tree 或 dag 就是它的形式化数据结构。以为这才是思维的真谛。现在开始动摇了,也许我们脑袋里的思维长得不是这个样子。只不过这个样子作为理论,比较方便我们理解自己,方便做符号形式的逻辑演算而已。而且建立表层符号与深层符号表示的映射比较直观,增强了可解释性。

Li Chen:这个有道理的,其实人类自己也不确定所谓的思维,意识到底是什么。只不过符号,语言这个东西更容易理解交流,然后人类的文明都在这个基础上发展而来,所以想从根本上不谈符号,不谈逻辑,又显得不太现实。

立委:符号的离散性、有限性和结构性,帮助人类认知世界万物。从而构成了文明的基础,方便了知识传承。

毛老:是啊 ,所以离开符号的AI 终究不会是完整的AI。不管它做得多么像模像样,终究还会“胡说八道”。既然是“一本正经的胡说八道”,就不能说已经通过了图灵测试。如果是一个人在“一本正经地胡说八道”,别人就会说:这个人钟点不准。十三点。

立委:问题是,一本正经,是人都可以判断。胡说八道则不然。判断其胡说八道,以及胡说八道的程度,因人而异。如果是专业领域的胡说八道,绝大多数老百姓是感觉不到的。非专业的胡说八道 其实各人的敏感度也不同。图灵测试规定了裁判的选择标准了吗?需要多少生活阅历 多少教育程度 才够格? 这是从裁判的角度。

从内容角度,胡说八道本身也有区别,有的胡说八道九成以上的人都可以轻易识别,也有的胡说八道(或“狡辩”)则需要专家中的精英才可以识破。还有一些似是而非或似非而是的灰色地带,说胡说也可以 但换个角度胡说却成了洞见。其实人类社会很多警句、禅悟,包括鸡汤,都离胡说不远。这是因为 就好像狂人日记一样,出格的、不同寻常的胡言乱语,往往暗藏玄机。

语言的问题,相对比较黑白分明,道地不道地, 找几个 native speakers 来,容易达成共识。内容的问题比较容易灰色很多是软约束。有些乍看是胡说的东西,往后退一步 或换个角度 又言之成理了。甚至 1+1=3,这种数学上纯粹的胡说,在场景中可能就是合理的语义表达。譬如,团队工作往往是一加一等于三,两个恋人结合也往往是一加一等于三:成了核心家庭。语言中这样说1+1=3,一点也不违和。前面把模型绕晕又得到模型认可的两个大苹果加四个小苹果等于八个小苹果也是如此。说到底这些都是层次纠缠,形式逻辑兜不住不同层次的搅合。可层次纠缠是客观存在的语言表现,因此让“胡说”与否的判断变得格外困难。加上内容层面的默认、脑补、覆盖等日常认知措施,都有因人不同的设定,事情就更加复杂。 狡辩/雄辩 在人类社会之所以普遍存在,也是因为很多内容表示具有两可的空间。最后一条,多数人都有过胡说八道的表现 有多有少,完全免疫极少。

其实,我们以前一直以为自然语言是喜马拉雅山上的珠穆朗玛峰,高不可攀。所以当我后来有机会把parsing做到96%以上的时候,我觉得自己马上就要登顶了,兴奋莫名。

可是回头看自然语言,在 LLM 面前,最多就是个小山丘。什么内递归,外递归,什么习惯用法,语义相谐,篇章远距离,计算风格,都不在话下。

那天跟 @李志飞 聊,他说他最惊诧的是,LLM 除了语言表现外,你让他 parse 出中间结构,它也能做得有模有样。中间结构本来就是内部的,但现在它也可以外露,进一步说明语言结构是搞定了。既然语言结构搞定了,逻辑搞定也是早晚的事儿,因为二者都是封闭集。搞不定的还是知识点,这个由于 80-20 的大数定律,没办法在有限的数据中穷尽它。结果就是真假混杂。

志飞:

相当于在不断产生下一个词的同时把CYK给跑了[捂脸]

用FSA的办法干了CFG的活?而且是zeroshot,只能跪舔chatgpt了

立委:FSA 干掉 CFG 有充分的理论依据,我在我的小书中阐述过,实践中也证实过。“小书”指的是:李维 郭进《自然语言处理答问》(商务印书馆 2020)

关键就是 deep 多层。神经正好就是 deep 和 多层。所以,我们符号这边多年的探索和创新,从架构上看,与深度学习是殊途同归。从这个角度,我们用 FSA 多层架构的符号办法搞定了自然语言的结构,与LLM的搞定,道理是相通的。

问题是 符号多层可以搞定结构,但搞不定鸡零狗碎的“语义搭配”,更搞不定计算风格。而 LLM 特别擅长这些鸡零狗碎。

白硕:这是对符号的误读,也是前期符号路线不成功的根源。好的符号路线,这些因素都是理所当然要搞定的。

立委:白老师说过的搞定语义相谐的力量对比,感觉其实调用的手段严格说不属于符号手段。再者,符号系统如果希望像chat那样搞定计算风格 例如写出莎士比亚,我持有怀疑的感觉。

白硕:那是过去的符号手段把人的思想都给禁锢了。

志飞:deep和多层的区别和联系是啥?

立委:差不多。也可以说 deep强调的是有合适的表示空间,多层强调的是有足够的学习空间。前者是 tensor 或其他表示(例如符号这边的graphs),后者是过程。宏观上看,AI两条路线的走向是如此的平行,回头看,不这样就很难驯服自然语言这个 monster:

自然语言之所以被看成是大山,主要不是结构,更主要的是那些鸡零狗碎的搭配。里面参杂了种种规则与反规则的矛盾统一。可是现在回头看,那些鸡零狗碎也还是有限的,可以穷尽的或分级 generalize 的,不过就是需要的参数量足够大(或者在符号这边,足够多的符号特征以及分层的大小规则),是我们当年无法想象的参数量级。

尽管如此,面对知识(点)的海洋,billion 级别的参数搞定语言有余,但很多知识还是无法捕捉。前几天估算过,捕捉到的也不过就是 20% 左右吧,但给人的感觉却是80%上下。

志飞:结构是经典力学,鸡零狗碎是量子力学?

立委:这说法有点意思。lol

LLM 搞定语言的最大功绩就是让我们借助它有了泰山登顶,有一种 “一览众山小” 的视野。但横在泰山前面的是真正的知识喜马拉雅山,包括各个领域的知识壁垒。

志飞:难道记忆知识不是暴力模型最擅长的吗

立委:知识点与知识结构不同。后者是可以分层归纳学习到的,包括逻辑和深层推理,也是迟早的事儿,都是封闭集合。

志飞:现在GPT不也在“搞定”逻辑推理吗?前面那个语法解析就是一个高度复杂的逻辑推理。

立委:知识点可不是,是真正意义的组合爆炸,谈不上规律,只是事实的捆绑,或曰图谱绑架。感觉暴力学习只能搞定飘在上面的百分之N。越往后貌似边儿越长。

志飞:只要数据规模和模型capacity再大一万倍,何忧?

霄云:数据没有了。

志飞:现在互联网数据也就用了万分之一?更别说无穷无尽的视频数据。

霄云:有效的人就那么几个。计算 存储 的增长速度 比人要大很多,如果核聚变能源变成现实。养一个太难了,他们估计还会用 llm produce。

video 能不能反哺文本有定论吗?也许计算增加后有可能。

志飞:没定论,但大概率相互增强,比如说视频里有大量常识,比如说不会反重力。

Minke:看完西游记模型就蒙圈了。紧接着看了10年的新闻联播[LetDown]

立委:前不久看到报道,说每天坚持看新闻联播的人,健康、乐观、长寿。洗脑其实比洗肾容易多了。

志飞:在大数据面前这些噪音都会被AI放到边缘地带。

白硕:

为民:这个厉害,人都没有这么严密。

霄云:I actually think chatgpt violated the maximum relevancy principle of conversation, even if it want to interpret this way, it should have clarified first. This is a subtle point, however.

梁焰:就是,要不然他总可以狡辩:“ more context is needed. '

白硕:脑补的保守策略和激进策略。

霄云:Maybe their alignment is too strong.  有几个labelers 喜欢转牛角尖。

For service chatbot this is no good.  But then again it should compute implied meaning that can be grounded to actions, instead of literal meaning . 

白硕:反正端到端,最后都归结为[ThumbsUp]和[ThumbsDown]。

立委:

迁就客户,但也通情达理。还要怎么着?不要欺负老好人。

霄云:Soft prior ,不是红脖子。

 

【相关】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

It is untrue that Google SyntaxNet is the "world’s most...

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】