【AI 浪潮:GPT-4 的上下文逻辑与常识还是不够稳固】

 

先问GPT4一道不大不小的烧脑题。

这一段链条中断链的地方在 “小船空着返回,这不算一次过河”。什么算过河,什么不算过河,这牵涉到常识。具体说就是:

常识-1:人过河具有方向性,必须到达彼岸才算过河(成功)。

结论:从彼岸返回虽然技术上也跨越了河床,符合过河的字面意义,但因为是逆方向,不能算过河。
常识-2:过河必须有实体,无论实体是开船的还是坐船的。

结论:空着返回没有实体,不能算过河,这也是对的。

所以,“小船空着返回,这不算一次过河” 符合两个常识,是合理的。这里问题不出在算不算过河,而是出在“空着返回”的可行性上:没有实体开船,船是怎么返回的呢?加上一个预设前提就正确了:自动驾驶。但是默认是没有自动驾驶的。常识告诉我们,非默认的预设是必须显式表明的,必须作为此题的一个前提。

这里的看点是,GPT4 貌似一点就透,这悟性了得。

好像是丝丝入扣,对答如流啊。且慢。

这个加强了的提问(所谓提示词工程)有意思,就是说 prompt 写得细致的话,是会激发它加深思索的深度和逻辑性,不必经过数轮对话引导就可能绕过陷阱(当小船返回时,它需要携带至少1个人来驾驶)。但是结论却不对,那是因为它违背了常识-1,把返回也算成过河了。

咱们继续练它。

ChatGPT4 与ChatGPT3.5类似,也同样不能坚持原则,坚持真理。这其实是与人类偏好对齐工作做过头了的后果(偏好之一其实是迎合人类,礼貌顺从),而不是它的本性。

总结一下,从对话角度,ChatGPT4 的确不掉链子,你怎么引导,它怎么 follow。但从逻辑角度和常识角度,你点一下它,它貌似悟性很好,很快就改正,并顺着你的指引,进一步发挥。但这些 in context 学到的知识和逻辑并不稳定,很快就动摇了,有时候甚至颠三倒四,转眼就忘。

 

 

AI浪潮博客目录

【AI 浪潮:自主性是人类智能的最后堡垒吗】

 

听到一个新成语:日新昼异,脱胎于日新月异,形容这个LLM世界变化之快,此言不虚。例如,AutoGPT 出来不久,AgentGPT 又出来了,二者都是在LLM上再包了一层“自主”计划的AI。

这个称为自主AI(autonomous AI)的研发方向很诱人:用户只要启动一个目标(人定义 what),模型们就开始计划实现这个目标(机器做 how):首先是拆解这个目标任务成为子任务,子任务成为子子任务,然后用这些子子任务递归调用 chatGPT 去得到中间结果,最后把结果层层推进,最后组装起来,完成目标。看机器边想边干(think then act),不亦乐乎。听上去有些匪夷所思,仿佛机器能够自主完成任务的全过程了,而不是需要人通过对话或编程一步步引导模型去实现目标。

自主AI更加接近科幻小说中的“回形针”陷阱:科幻中说的是机器一旦具有自主计划的能力,为了自主实现一个目标,例如“制造尽可能多的回形针”,机器就会不惜一切手段达成目标。而人类面对这样一个自主实现目标的机器,很可能陷于灭顶之灾,因为人类有可能成为这种目标的障碍物而被机器铲除。现在的实现当然还是小菜,粗糙得很,但这个方向是机器“自主”的前奏。不知道老马会不会把这种研究当成是 危险AI 的范围,要求予以封杀。

AgentGPT 有个类似于 ChatGPT 的友好页面:https://agentgpt.reworkd.ai/

我尝试给它一个“编写童话故事”的目标。

看着它在那里think...think..., 做任务分解,“无人监督下” 自个儿在那里忙活,一步步按照计划走,感觉很神奇。揉揉眼睛,确认不是在做梦。

Embarking on a new goal:请汇编一本适合儿童的童话故事手册,选择国内外的童话名篇,所围绕的主题词包括:善良,勤劳,怜悯,乐观。
Thinking...(Restart if this takes more than 30 seconds)
Added task:Scrape and gather a list of popular domestic and international fairy tales
.........

煞有介事,各种策划,让人开眼了。

看看最近退出来的这一长串的相关工具:HuggingGPT / AutoGPT / AgentGPT / GPT4ALL / BabyAGI / MS Jarvis / ChaosGPT / .............,每天都在增长的这个清单中的 keywords 是: agent,action。action 是行动,agent 怎么翻译好?常规翻译是施事(采取行动的实体),或代理人或代理机构,就好像律师代理客户一样,客户只给目标,律师代理决策和行动的过程去实现目标。什么意思?就是 ChatGPT 带来的风暴,越来越激发人们把科幻似的机器人想象带到可实际操作的空间。

什么是科幻中最热衷的机器人故事(之一)?那就是机器人造反,灭了人类。造反的事情能够发生,其前提条件是: 自主决策,可以行动,这与几千年前的陈胜吴广起义也没什么两样。陈胜吴广先密谋,后行动(序列是利用绝境危机 -- 无论如何必然被处死,假托天意组织动员,然后是正式起义)。

为什么这种匪夷所思的科幻情节突然在这个当口开始了工程化的尝试和涌现呢?一个关键的因素是,ChatGPT 之前,从来没有一个可以协调各种实体的通用的“语言”,幻想只能止于幻想,工程无可施展。更大的挑战是缺乏自主性的实现路径,所有的AI都是按照人类(码农)事先编制好的程序走。Chat 改变了前者;GPT 改变了后者。

GPT 是如何导致自主性(或“类自主性”)的,从而机器可以成为自我策划和行动的 agent?现在看来其实很粗糙,但的确可以产生一种让人觉得它自(作)主(张)的感觉。原理就是 GPT 的随机性。

没有随机性,那么一切都是 deterministic,预先决定好的路径,也就谈不上自主。GPT 的好处是它的本性就是随机(生成)。但万变不离其宗。这个就厉害了。随机如果发散,那就谈不上计划和实施。

随机必须遵循目标指向,万变不离其宗的“宗”就是宗旨或目标。目标函数不变(这个是人类赋予代理的),具体过程和路径随机应变,这才是 agent 的本义。作为所有实体的主人,人类关心的也就是目标。

微观层面,GPT 的 next token prediction 就是万变不离其宗的缩影,每个 next token 都有随机性。但所有的生成都在目标生成的空间里,例如你让它翻一句话,它每次翻译可能是不同的文字序列,但你会发现,不仅每一个翻译字通句顺,而且意义基本不变。从模型微观的“基因”上的可控随机到宏观上的 agent,这里面需要一个粘合剂,这就是 ChatGPT,用到的也就是人机接口、机机接口的最重要的媒介 -- natural language prompts(自然语言提示),这些进展既让人兴奋 刺激,也让人细思有恐。

其实,最近这些框架下 agent 表现出来的自主性,微观层面就是 ntp(next token prediction)的随机性,宏观层面实际上是由于大模型消化了人类的知识和经验(的数据表述),所以 ChatGPT 可以利用大模型在现有目标的指引下,随机选取一种经验路径。这时候的随机性表现在系统给自己的每一个分解子任务的完成设置了时间限度,尝试不成功就会转向另一个路径。任务分解这种策略型的设计看上去是“自主”的,但实际上也是从大模型中得到的人类经验套路。可是,反过来看人类的决策,人类所谓的自主性就是自己做主么?

这与哲学界一直在辩论的“自由意志”类似,自由意志自由么?正方认为是自由的,所以一个人要为自己的选择负责:对了有回报,错了有惩罚,甚至入罪坐牢。反方认为其实是不自由的,我们每个人表面上看起来的自由意志,其实冥冥之中有命数,这个命数有一个人从父母身上带来的基因的作用,也有后天的生存环境(包括有意无意的在家庭、学校和社会的熏陶和被教育)的影响,真正属于那个人自己能决定的空间其实很小很小。(这个理论推向极端就是所有罪犯都是病人,应该治病,而不是惩罚,更不是肉体消灭。)

回到 LLM 为中心的 agent,这个 agent 的自主性利用的是大模型(蕴含的人类经验)。而人的“自主性”其实很大程度上也是建立在对于人类既往经验知识的学习或被教育的基础之上。这个意义上,自主性的神秘感消失了,就跟创造性的神秘感早已消失一样,很难以自主性作为人之区别于机器的最后灵性堡垒。A(G)I 的圈对于 humanity (人类特性)的领地在进一步挤压中,以至于除了碳基的生命特征(生物性状:例如 喜怒哀乐相伴的血压升高、荷尔蒙分泌等)硅基实体无法跨越以外,几乎所有的智能和灵性的表现都已经不再构成支持人作为万物之灵独特存在的不可动摇的论据了。

创造性和自主性的被冲击,是 LLMs 给我们带来的最大心灵震撼之一。我们曾经多么迷信这些人类特质。

从此,我也许不再像以前那样仰望智者和艺人,因为山外有山,人外有模型。更值得仰慕的是那些平凡的人表现出来的善良和感情(良心及其善举),也许这些表现而不是人类智能才构成了 LLMs 的真正挑战?(当然,这也不能深想:第一,机器也可以模拟善心和善举,倾听你,同情你,给你帮助和疏导,不见得比人差;第二,“良心”到底有多大比例植根于生物特质,多大比例受到人类经验知识的影响,也很难说。)

 

 

AI浪潮博客目录

 

快讯:腾讯科技AI未来指北系列 今天直播间与鲁总唠一唠大模型(LLM)

https://view.inews.qq.com/a/RLV2023042100143500?openid=o04IBAOB4T30mPQknm5XFPoX63gU&key=&version=28002259&devicetype=android-31&wuid=oDdoCtyMntVVLyLfpVT-VJVNBcaU&sharer=o04IBAOB4T30mPQknm5XFPoX63gU&uid=&shareto=&openwith=wxmessage

这是今天LLMs纵论LLM的直播地址 周日北京时间上午10点 美国西部时间晚上6点(东部时间夜9点) 亲们不见不散。

北京时间周日上午10点,@Wei-Min Lu/MoPaaS 鲁总逗哏 我捧哏,再唠一唠劳碌命(LLM)。

现如今,专家遍地走,各种访谈早就轰炸疲劳了,既不少咱一份,也不多咱一块。好在鲁总是老友,就算唠唠嗑吧,愿者上钩。上次源码还有我的母校各拉我讲过一次,但都是内部组织,不得尽兴,而且有些看法也来不及沉淀和更新:这个领域发展是太快了。倚老卖老,希望能带来一些启发。

LLM202304tengxun (这是老 slides 算是个开场白铺垫)

 

AI浪潮博客目录

 

ChatGPT海啸狂飙,谁将被取代?谁将借力跃升?

AIGC“尖峰系列”丨李维博士:ChatGPT海啸狂飙,谁将被取代?谁将借力跃升?

2023/03/10

在上一篇文章

《AIGC“尖峰系列”丨李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战》

中,我们分享了李维博士关于ChatGPT对于人类和机器交互的意义,以及其背后LLM(Large Language Model)语言大模型是如何炼成的等话题。

本篇文章我们将分享李维博士对于“ChatGPT让AI生态重新洗牌”“语言大模型(LLM)的生态和应用”等话题的独到观点,以下为演讲内容精选。

01

经历ChatGPT海啸之后

AI生态面临洗礼和洗牌

ChatGPT海啸引发的直接影响就是,NLP生态面临全面洗礼或洗牌,每一个现存的NLP产品服务或赛道都要在LLM参照系下重新审视。

一开始我们内部AI老友热议ChatGPT的时候,大家首先思考的是,ChatGPT怎么和搜索技术结合起来,它能颠覆搜索吗?

搜索是可追踪的,返回的每条结果都有记录,谈不上信息融合。ChatGPT是不可追踪的,长于信息融合:ChatGPT本质上不存在抄袭的可能性,它给你吐出来的每句话,都是自己消化之后的语言。可见,传统搜索与ChatGPT是两个完全不同的处理方式,各有优缺点。

搜索是信息服务之王,无处不在,有自己的巨头(谷歌,还有中国的百度)和非常稳定的商业模式。自从Web1.0时代搜索崛起以来,搜索的形态和模式基本没有改变,二十多年了。其实,多年来一直不断有新技术和创业者企图挑战搜索,风险投资界也一直关注可能成为“next Google”的潜在的搜索颠覆者,但搜索的地位一直固若金汤。但这一次有所不同,微软携ChatGPT的独家代码授权,大刀阔斧高调发布所谓“new Bing”。躺着赚钱的谷歌不得不紧急动员,正面迎战。一场搜索+LLM的大戏正在上演,像个活话剧,告诉我们虽然融合两项技术还有很多困难需要克服,但大势所趋,重塑搜索新生态势在必行。

除了搜索,那些被打磨得很圆的定向信息产品和服务,现在全部面临被重新审视和洗礼的宿命,包括聊天、功能对话、文法纠错、机器翻译、文摘、知识问答等等,这些方面的代表作品(Siri、小冰、Gramnarly等)以前曾有的技术护栏,一下子被降低了,真好像大水冲了龙王庙。

NLP龙王庙中,虽然不少产品由于多年的打磨以及用户的惰性,还不至于面临灭顶之灾,有的还可能存续很长时间,毕竟都在走下坡的路。这是通用AI对于传统AI的划时代胜利。是我们以前不敢相信的,曾经那么地怀疑通用路线,就等着看鼓吹AGI人的笑话,谁想到人家不笑则已,一笑倾城,甚至“倾国倾球”,所向披靡。

看看13年前苹果就发布的Siri。13年比深度学习革命黄金十年的历史还要长,但搞到现在Siri才刚刚推出两轮或者三轮的对话能力。现在来了个ChatGPT降维打击,苹果怎么办?肯定只有拥抱LLM。亚马逊的风云产品Alexa也是一样,也打磨了好几年了,积累了那么多的用户数据。虽然它在边边角磨得很圆,不可能马上被取代,但依然会面临技术上的调整。

再者是大家常见的电商客服,众所周知,无论是阿里、还是京东的在线售后客服都打磨得很圆了。因为售后服务的问题相对比较集中,问题集不大,在积累了足够数据以后,用户体验就慢慢好起来了。但客服不仅仅局限于售后的问题答复,当客户提出的问题超越了预期的问题集的时候,目前客服常常显得“人工智障”,无论理解和回应都捉襟见肘。面对ChatGPT的问答超能力和多轮对话的丝滑性,怎么办?除了拥抱它,没有别的出路。

在ChatGPT之前,小冰算是把多轮聊天推到了极致,据报道有人痴迷于与她聊天,聊一个晚上还意犹未尽。它打造具有人格化的形象,可以与人做情感上的交流。在前ChatGPT时代,小冰是聊天的绝对天花板,多轮交互的能力把对手远远抛在后面。谁料想半路杀出个程咬金,ChatGPT出来后,小冰的地位就显得非常尴尬。ChatGPT可不是为了闲聊设计的,chat只是它为了达到多任务的一个桥梁,本质上是人机接口,聊天只是它的副产品,即便如此,通用大模型还是实现了降维横扫定向产品的效果。在ChatGPT的丝滑度和通用性面前,一个人格化的聊天机器人跟它不在一个层次上。除了去拥抱它,仍别无他法。

在国外,怎么修改作文的拼写、语法错误这一块,用户体验做得最好,唯一活下来站稳市场的只有Grammarly,有上亿用户了。现在它的地位也极为尴尬,因为同样的辅助写作,ChatGPT也是拿手好戏。长远一点来看,Grammarly的选择也终将如此,要么去拥抱ChatGPT,要么就走向末路。

谷歌MT是机器翻译领域的代表,国内的有道、搜狗和百度也是用的神经机器翻译,但同属神经路线的ChatGPT出来以后,仍然是一种降维打击。用ChatGPT去做机器翻译,译文更加地道而且多样化。生成大模型的随机本性使得每次翻译出来的结果都有所不同,你可以拿同一个文本不断的试它,然后挑其中一个你最满意的。专项机器翻译系统显然面临如何拥抱LLM的问题。

最后谈谈教育。ChatGPT大模型降维碾压所有的教育产品,是很显然的。在教育赛道,搞生态产品应用的人,都需要在大模型的框架下重新审视一遍怎样拥抱这个LLM新时代。教育本身是跟语言打交道的,无论文理。虽然现在的大模型理工科能力不怎么强,但这个知识短板应该很快就会得到不同程度的弥补。ChatGPT必然对教育带来颠覆,同时也为教育现代化提供了一个最大的机遇。语言学习与电脑编程教育就不用说了,ChatGPT本身就是一个语言大模型。虽然目前它的编程还不到专业工程师的水平,但是常用的代码形式已经学得很好了,至少它能辅助你的编程,实际上,GPT赋能的Co-pilot已经成为越来越多码农的辅助工具了。

往后退一步,我们同时也面临着一个巨大的风险,比如说假新闻。如果你希望吹捧一家公司,你可以让ChatGPT生成出五花八门的软文来,讲得头头是道。那些大众点评将来也会被真假莫辨的评论所掩盖,因为制造假新闻的成本趋近于零。如果没有很好的防范措施,这一切就会把人类置于真假莫辨的世界之中。我们现在一直在讲它的好处,LLM怎样赋能新生态,相信在新生态下,今后的五到十年一定会出现新的阿里、百度等等,这是从发展的角度看技术生态的大转变。但我们面对的LLM滥用的危险同样巨大,人类准备好了吗?显然还没有。当然,这是另一个话题,我们这里就点到为止。

02

大模型:万众创业的浪潮正在到来

以ChatGPT为巅峰的LLM好比核弹,有了它,还有更多的产品形态和赛道等待创业者开拓和落地。

关于这个话题,我们需要特别强调ChatGPT带来的前所未有的创业条件:ChatGPT本身已经成为一个产品的试验场,它就是一个门槛无限低、人人可玩的playground(游乐园)。门槛低是因为前面提到的人机接口的范式改变(paradigm shift)。AI历史上第一次,机器开始迁就人,而不是人迁就机器。是人类语言,而不是计算机代码成为人机交互的工具,这个改变对于NLP新生态大爆发的意义,怎么强调也不过分。实际上,这是为“万众创业”提供了条件。

AI创过业的人应该都有这个体会。创业团队要有成功的机会,最基本的一条是产品老总与技术老总能够密切配合和沟通。产品老总凭着自己的市场直觉和对于客户需求的了解,努力寻找技术转化为服务的最佳市场切入角度,形成产品的设计方案。这个设计方案的可行性需要技术老总来验证和背书。然而,很多时候,由于不同的专业背景和知识结构,产品老总与技术老总鸡同鸭讲的情况也不罕见,一旦出现这种情况,这个创业公司基本上注定没戏。

ChatGPT根本上杜绝了鸡同鸭讲的问题。以前只有技术老总和码农可以验证一个方案的可行性,现在好了,产品老总/CXO、工程技术人员、数据分析员、用户这些不同背景和专长的人,都有一个统一的平台ChatGPT,可以交流产品的创意。大家可以在上面去做模拟的服务。不仅是人机之间,而且人类之间的交流障碍都被克服了。这个东西的发生,就是一个产品大爆发和万众创业的先机条件。

在美国,有好几百家初创公司,现在跟着大模型去做,你上游的大模型还没有完全理顺,他们在下游做的东西就是正在进行时了。还有无数的普通大众,不断的在网上现身说法,告诉大家如何两三个小时就能利用ChatGPT赚到5000块钱,这一类分享越来越多,这意味着草根群众的创业积极性被调动起来了。每个人似乎都可以利用这个机会去找到一个创业视角。归纳总结这些草根的创意,也可能找到可以流程化规模化的满足市场需求的信息服务的新赛道。

ChatGPT这样的大模型最终是一种操作系统级别的存在,每一个与AI有关的,特别是语言和知识有关的信息产品和服务,都离不开它。当年英特尔主导的时候,那个著名的logo是Intel Inside,将来就是Chat-Inside,这还不够准确,应该叫Chat-In&Out。怎么讲?ChatGPT这样的大模型赋能产品的时候,它既是服务员也是大厨,服务员可以跟你接单子,对话交互,了解需求,同时,它还自己去做工,满足你的信息需求,交付也还是它。既有表又有里,既用到它的语言天才,也要用它的知识技能。

这就是我说的在未来的五年可能是最大发展的一个新生态形式,叫做LLM专家坐台,它或许会打开了无数的创业大门。基本的服务形态就是各行各业的在线信息服务,不管是在线教育、在线律师、在线顾问、在线金融、在线旅游,都是奔着大幅度提高服务的效率去的。有了ChatGPT之后,你只需要雇一个专家,来代替以前需要10个专家甚至100个专家才能应对的任务,最后迎来的就是生产力大爆发。

至此,应用生态很清晰了,也靠谱。原则就是对结果要专家最后把关(human judge as final filter)。这是最基本的设置,当然也不排除专家对于输入做提示词的调配,以便激发LLM回应更好的结果。

对几乎每一个场景应用,都有一个打造专家工作台(“坐台”)的任务。下游创业沿着这个思路去,有无数切入市场的机会,包括补充现有产品或服务的不足,例如在线教育的每一个细分场景,还有在线医生,在线律师,在线金融咨询,等等,也包括去开拓以前不敢想或没想到的业务场景。这是看得见的即将发生的生态形态的大变革,或重新洗牌,提供的是高效专家建议(expert-in-loop services)。

说到坐台,国内电商大厂都曾经打造过有相当规模的客服坐台,那是在用户需求和满意度无法用全自动方案满足,更无法用全人工应对的压力下出台的。现在有了LLM,继承这种形态推广到所有在线服务领域的条件已经成熟。这件事所能带来的生产率大爆发,超出想象。

“Human as judge”的设计理念在近几年的低代码平台(例如RPA平台、parser-enabed信息抽取平台等)已经验证了其有效性和有效率性。我的最新几个专利就专门讲的这个过程(human as judge to replace human as coder),但这是说的低代码快速开发环境,这个human虽然不必要手工写代码,但还是要熟悉软件开发的流程,例如单元测试、回归测试和debug等等,不是仅仅就做个judge。这里说的是全新的形态,human只需要做judge即可完成服务。现在完全有可能打造针对各种细分赛道或场景的在线信息服务“坐台”。具体说,专家的作用只是在最终go or no-go 的当口,以他的知识和经验做出判定。做裁判比做运动员,效率要高太多了。

值得强调的是,这次ChatGPT横空出世带来的新鲜事儿是,ChatGPT既是后台也坐前台。这就好比找对象娶媳妇,通常都是漂亮的见识短,能干的不漂亮。突然来了一位既“万能”又漂亮的,这无法不激发无数追求者的想象极限。我们信息产业的创业者就是ChatGPT的追求者。上得厅堂下得厨房,说的就是ChatGPT,这是因为chat只是ChatGPT的表,本质是人机接口,而能够完成NLP各种任务才是它的里子。有表有里,就可以围绕它建立下游生态的产品或服务。英特尔时代,电脑产品的品牌广告记得是Intel inside,今后的新生态应该叫chat in&out,指的就是LLM赋能的新生态,不仅赋能人机交互的表面,同等重要的,或者更重要的(看具体落地服务的性质了),是也赋能产品服务的内涵,只是要让专家最后把个关。在这种形态下,专家也还是隐身在台后的。就是说,活交给它做,出面交付也还是它,只是后面安插一个专家督导和裁决而已。再打个比方,LLM既是服务员也是大厨,只是出餐前需要一个经理过一下目,为服务质量把关,也承担责任(例如在线医生、在线律师、在线咨询师等)。

在这样的生态下,今后5年会是在线服务的大爆发时期。赶巧的是,三年疫情也极大推动了在线服务的草根意识(awarenss),帮助养成了用户的在线习惯,培育了市场。例如我个人疫情前从来不用外卖的apps,也不用在线医生,可是现在二者都用了,比以前自己到餐馆点外卖,为个伤风感冒自己去预约诊所,不知道方便了多少,再也不想回到以前的低效率线下服务了。天时地利,借着这个东风,新生态不可能没有机会。

怎样建造坐台?既然已经LLM in&out了,听上去好像这个坐台谁都可以建,每个坐台配上专家,明天就可以在线开业服务了,那还有创业者什么事儿?当然不是这么简单。这是因为ChatGPT这样的LLM作为工作引擎(work horse),显示出各种专业知识的潜力,但这种潜力却是漏洞百出、有内伤的。这些内伤前面论过,按照现在的路线是不可根治的。就是说,表面光,里子并不扎实,结果不可靠,甚至会要人命的。坐台的建设就是要试图解决这个问题:如何加强内功,使得其在线服务,仅仅需要expert的流程化介入,而不是专家的生产性投入(例如RPA)。要的是坐台部署以后output一端的结果审核(go/no-go及校订post-editing),这都是在线的介入,而不是离线的调教(fine tune)。离线调教是坐台建设者的任务,这就开始有点渐入新生态的深水区了,其中有些路线图是蛮清晰的,有些是可以预见不久会解决的,还有较少的一些点,目前不够清晰,还需要探索和进一步验证。

细看一下这里的主要问题在哪里,有哪些可能的突破点和解决方案呢?首先,论专业知识的广度,LLM很厉害。没办法,人家记忆力强,肚子大,消化的材料多,这些都超出了专家,你可以用一个领域的专有术语去试试就知道了,LLM对任何一个很偏很狭窄的主题都会有自己的消化总结,成套成套的,可能细处有错漏,但在面面俱到方面碾压专家。为什么这一点也很重要,因为LLM弥补了人类包括专家的缺陷,用软件的话说,人类precision(精度)有余,recall(召回)不足;而LLM正相反,precision不足,recall有余。LLM可以把可能遗漏的东西,从大数据的黑洞翻上来,随时提到人类认知的雷达上。因此,坐台建设的重中之重就是要克服LLM的precision瓶颈。

我们并不企图彻底解决这个问题:话说回来,如果彻底解决了,就没有人类什么事儿了,前景很诡异,不论。我们是要把精度提高到这样的程度,其结果不至于严重影响坐台的在线专家的工作效率。LLM如果用一堆垃圾轰炸专家肯定是不行的。只要LLM输出的结果有1/4可以达到手工专家自己调研所能达到的水平,这个坐台的效率就得到了保障,这个在线服务就可能站得住。因为专家不过就是4个go/no-go的裁决而已,由于这4个结果的最优解的出场是随机的,对于专家的实际工作体验,大约也就是每看两个结果,就可以放行一个,GO!这不是负担,也不会降低在线服务的效率和竞争性。1/4是一个容错性很大的预期,现在的求精方案达到这个门槛,总体是具有可行性的。正因为有了这个总体具有可行性的基本判断,才可以结论说:LLM新生态下的创业大门的确是打开了。

https://new.qq.com/rain/a/20230310A01FH200

 

见鬼,才发现,我早期的发在科学网的发表记录,居然也被屏蔽了:复制如下,并加上后来的一些

立委发表记录

屏蔽已有 4554 次阅读 2010-2-19 05:44 |个人分类:立委其人|系统分类:论文交流| NLP, extraction

专著

商务印书馆:李维 郭进《自然语言处理答问》(2020

机械工业出版社:李维 等《知识图谱:演进、技术与实践》(2023, 已定稿,最后编辑校对中)

人民邮电出版社:李维《巴别塔影:符号自然语言处理之旅》(2023,已定稿,最后编辑校对中)

电子工业出版社:《大模型风暴:LLM与ChatGPT专家辨析》(2023, 初稿完成,与编辑在编选调整中)

学术杂志和国际会议论文选要

《规则系统的移植性太差吗?》W Li, T Tang

【计算机学会通讯】2014年第8期(总第102期)                                                                                             2014

Mining public opinions from Chinese social media, Wei Li, Lei Li, Tian Tang

《海外学人》杂志【大数据专刊】                                                                                                                          2013

《主流的傲慢与偏见:规则系统与机器学习》 W Li, T Tang

【计算机学会通讯】2013年第8期(总第90期)                                                                                               2013

长篇译文:《Church:钟摆摆得太远》 W Li, T Tang

【计算机学会通讯】2013年第12期(总第94期)                                                       2013

Publications

Srihari, R, W. Li and X. Li, 2006.
Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski & S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4.
online info

Srihari, R., W. Li, C. Niu and T. Cornell. 2006.
InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006.
online info

Niu,C., W. Li, R. Srihari, and H. Li. 2005.
Word Independent Context Pair Classification Model For Word Sense Disambiguation.. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005).

Srihari, R., W. Li, L. Crist and C. Niu. 2005.
Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools.

Niu, C., W. Li and R. Srihari. 2004.
Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004.

Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004.
Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop.

Niu, C., W. Li, J. Ding, and R. Rohini. 2004.
Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004.

Niu, C., W. Li and R. Srihari 2004.
A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California.

Srihari, R., W. Li and C. Niu. 2004.
Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. [PDF(to be added)]

Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003.
An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520.

Niu, C., W. Li, J. Ding, and R. Srihari 2003.
A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342.

Li, W., R. Srihari, C. Niu, and X. Li. 2003.
Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93.

Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003.
Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada.

Srihari, R., W. Li, C. Niu and T. Cornell. 2003.
InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada.

Li, H., R. Srihari, C. Niu, and W. Li. 2003.
InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada.

Li, W., R. Srihari, C. Niu, and X. Li 2003.
Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

Niu, C., W. Li, R. Srihari, and L. Crist 2003.
Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003.
Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

Niu, C., W. Li, J. Ding, and R.K. Srihari 2003.
Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406.

Srihari, R. and W. Li 2003.
Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003.

Srihari, R., C. Niu, W. Li, and J. Ding. 2003.
A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. [PDF(to be added)]

Li, H., R. Srihari, C. Niu and W. Li 2002.
Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan.

Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002.
Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan.

Srihari, R. and W. Li. 2000.
A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle.

Srihari, R., C. Niu and W. Li. 2000.
A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle.

Li. W. 2000.
On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. [PDF(to be added)]

Srihari, R. and W. Li. 1999.
Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington

Srihari, R., M. Srikanth, C. Niu, and W. Li 1999.
Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada

Li. W. 1997.
Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada.

Li. W. 1996.
Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore

Li, W. and P. McFetridge 1995.
Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia.

Liu, Z., A. Fu, and W. Li. 1992.
Machine Translation System Based on Expert Lexicon Techniques. Zhaoxiong Chen (eds.) Progress in Machine Translation Research , pp. 231-242. Dianzi Gongye Publishing House.Beijing.
(刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京)

Li, Uej (Wei) 1991.
Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna http://blog.sciencenet.cn/blog-362400-285729.html

Li, W. and Z. Liu. 1990. Approach to Lexical Ambiguities in Machine Translation. In Journal of Chinese Information Processing. Vol. 4, No. 1. pp. 1-13. Beijing.
(李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京)
[JPG1][

Liu, Z., A. Fu, and W. Li. 1989. Outline of JFY-IV Machine Translation System. In Journal of Chinese Information Processing. Vol. 3, No. 4. pp. 1-10. Beijing 
刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京

[JPG1][JPG2][JPG3][JPG4][JPG5][JPG6][JPG7][JPG8][JPG9][JPG10] 
(Its abstract published in Computer World 1989/7/26 [JPG])

Liu, Z., A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich.

Li, W. 1988. E-Ch/A Machine Translation System and Its Synthesis in the Target Languages Chinese and Esperanto. In Journal of Chinese Information Processing. Vol. 2, No. 1. pp. 56-60. Beijing 
(李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京)

Li, W. 1988. Lingvistikaj Trajtoj de Esperanto kaj Ghia Mashin-traktado. El Popola Chinio. 1988. Beijing [JPG1][JPG2][JPG3]

Li, W. 1988. An Experiment of Automatic Translation from Esperanto into Chinese and English, World Science and Technology 1988, No. 1, STEA sub Academia Sinica. 17-20, Beijing. [JPG1][JPG2][JPG3][JPG4]

Liu, Y. and W. Li 1987. Babelo Estos Nepre Konstruita. El Popola Chinio. 1987. Beijing (also presented in First Conference of Esperanto in China, 1985, Kunming) [JPG1][JPG2][JPG3]

Li, W. 1986. Automatika Tradukado el la Internacia Lingvo en la Chinan kaj Anglan Lingvojn, grkg/Humankybernetik, Band 27, Heft 4. 147-152, Germany.
[JPG1][JPG2][JPG3][JPG4][JPG5]

Other Publications

Chinese Dependency Syntax

SBIR Grants (17 Final Reports published internally)

Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR

M.A. Thesis in Chinese: 世界语到汉语和英语的自动翻译试验 
–EChA机器翻译系统概述

《立委科普:Machine Translation》 (encoded in Chinese GB)

Li, W. 1997. Outline of an HPSG-style Chinese Reversible Grammar, Vancouver, Canada.

Li, W. 1995. Esperanto Inflection and Its Interface in HPSG, Proceedings of 11th North West Linguistics Conference (NWLC), Victoria, Canada. [PDF(to be added)]

Li, W. 1994. Survey of Esperanto Inflection System, Proceedings of 10th North West Linguistics Conference (NWLC), Burnaby, Canada. [PDF(to be added)]

《ChatGPT:人类语言的“通天塔”》

【立委按:ChatGPT 横空出世,标志着人类语言通天塔的建成,对于做了一辈子NLP的老司机,岂止是美梦成真。古人云,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了,可以见证ChatGPT引发的信息产业的新生态大爆发。】

ChatGPT导读:

自然语言处理(Natural Language Processing,NLP),是AI皇冠上的明珠。AI主要分为感知智能和认知智能,从感知智能到认知智能的飞跃,主要的标志就体现在NLP任务的完成能力上。人类语言是人类知识的载体,把语言搞定,是进入人类认知智能的一扇大门。千百年来,消除语言障碍一直是人类的梦想。《圣经》中的巴别塔指的就是人类语言的通天塔,但这被认为是一种空想,注定无法建成。我们NLP从业人员也一直在追求这个梦想,感觉真比登天还难。


Download

但是,2022年11月30日,请记住这个日子,以美国人工智能企业OpenAI正式发布ChatGPT模型为标志,通天塔正式落成!它不仅成功消除了人类语言的障碍,还把人类和机器交互的桥梁也建立了起来。这个历史性时刻在国内当时没有引起大的反响,国内同胞不幸正处于疫情高峰期。两个月后等我们从疫情中走出来后,才发现人世间发生了如此巨变,一场ChatGPT海啸开始席卷海内外。

为什么说ChatGPT就是人类语言的通天塔呢?因为它的语言能力其实比Native还要Native:native speakers难免有口误和表达不规范,而大模型做底的ChatGPT的生成却总是那么地道、合乎语言习惯。从输入端来看,它能听,就没有它听不懂的语言,理解能力特别好。从输出端来看,它能说,常常口若悬河。最让人震撼的是,从它的语言表现我们看到了背后的“思维链”和一定的逻辑推理能力,给人的印象是条理清晰。输入输出的背后是大家称为LLM(Large Language Model)的语言大模型,我们用户看它就是个深不见底的黑洞,里面有很多层的神经网络,内部表示是多维向量,俗称“劳碌命”,是它在那里劳碌,分析理解,组词成句。这个“劳碌命”的工作以ChatGPT的形式表现出来,就完美实现了人机的自然语言接口。

我们看看ChatGPT背后的LLM怎么炼成的。这方面的技术性介绍已经汗牛充栋了,我们简述一下背后的原理。它的背后是GPT3,准确的说是被称作达芬奇的GPT3.5最新版作为基础。这个模型首先是规模超大,大力出奇迹。千亿级的tokens作为训练数据,形成千亿级参数的模型。研究表明,通用大模型到了一定规模以后会出现一种技能“涌现”现象,这些涌现技能稍加提示就可以在各种多任务中表现出色。以前笼统地归结为量变引起质变,基本上是把奇迹发生当成一个谜。就好像是说上帝的垂顾,现代版的愚公移山的故事:现代愚公大力不止,感动了上帝。现在看来并没有那么神秘:多任务能力的涌现必须以超大数据LLM为基础,这是因为没有LLM,就没有根据人类偏好来调教模型的空间。

从语言序列学到的生成大模型,最大的特点就是能产性,给一个前文提示,后续有很多种“接龙”的可能性,但这些可能性中只有很小的一个比例是我们希望看到也感觉得益的,还有很多生成是肤浅的、空洞的,甚至有毒的。ChatGPT的突破就是在这最后一步的调教中,以强化学习为核心,找到了一条与人类偏好对齐的有效的方法。这就好比有一个巨大的沙盆,里面装着1000颗大大小小的钻石藏在沙中,现在想把沙子倒掉,有没有一个好的办法倒完沙子又不倒掉钻石呢?试了很多次,几乎不可能。但可以粗线条操控,结果沙子是倒掉了,但也倒掉了900颗钻石。人们知道的是它有效地留下了一批合格的宝贝。能够这么做的前提是,盘子要大。能这么做,敢这么做,只有超大数据的模型。举个例子,正常的语料中,直接与翻译、问答技能相关的数据有多大比例?是个零头吧,数据规模不大的时候,从序列学习的模式中很难学到这些技能。但超大数据就不同了,小的比例乘以一个大数,就有了学习的条件和土壤,这时候如果模型足够大,这些技能就会被潜在地学到。在一个有几乎无限生成可能性的基础模型中,如果不做足后来的功夫,大概率生成的还是水货。于是“符合人类预期”就成为后期调教(fine tune)的最大目标。这个过程中,很多宝贝也给倒掉了,文献中称为 alignment tax(指的是打造自然语言接口模型为与人类对齐必须缴的“税”)。不怕,因为人们看不见被倒掉的宝贝,只要看见的是钻石就行。大模型有足够的冗余,不怕层层过滤和减枝。其实,不是大模型本身出奇迹,而是大模型为奇迹的出现准备了温床。

ChatGPT和以前的大模型不同的地方是它精心筹划了一个人类反馈的强化学习。对于一个通用的开放系统,人类其实也讲不清楚好坏,但是至少可以说你这一轮跟我的对话回答得好还是不好。拿这种反馈去强化训练和微调大模型,ChatGPT突然就显得善解人意了。人机交互从以前的人迁就机器,不得不编写代码,变成了机器迁就人,听懂人话了。这是一个巨大的转变。

强化学习在诸多学习算法中是很不好伺候的一种,因为链条长,而且对于最终目标的定义不是显式和直接的,而是间接以效果论英雄。调教说的是把原基础模型的大概率水货压下去,让隐藏在原模型中的小概率宝贝浮上来:孩子才是符合人类预期的强化目标,但并不是特定的孩子作为优化目标。反正这个世界没有唯一的答案形式,生成通常没有黄金标准,我们有的就是模模糊糊的人类基于偏好而给的反馈:这个回答好,那个是胡扯;这个对路,那个是歧视。能够较好利用这种终局反馈的典型方法正是强化学习。这个反馈回路一旦建立起来,模型可以不断强化和迭代, 表现自然越来越好。于是,强化到了公元2022年11月30号,帷幕揭开,这是人类见证奇迹的时刻。

如实说,我一辈子从事NLP,从没想过在有生之年能够看到这样的奇迹。老祖宗说过,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了。ChatGPT到现在已经过去3个月了,还是感觉像在做梦一样。有时看着ChatGPT的图标出神,反问自己,这难道就是通向新生态星辰大海的语言之门吗?不得不说,所有的迹象都表明,ChatGPT的背后有着无限的可能性。

 

《ChatGDP 搞定了人类语言》

立委:从语言与语言学角度,chatGPT 的的确确证明了自己万能的语言能力。千百年来的人类巴别塔之望终于美梦成真。巴别塔建成了,建成日期2022年11月。这个成就超出了一般意义的里程碑。这是划时代的进步。

南山:我看不懂它是鹦鹉学舌还是真的掌握了语言。我比较认同一个说法:语言是思想的表象。计算机掌握语言与计算器做计算,也许没有本质区别。

毛德操:对。和蒸汽机胜过人的臂力也没有本质区别。

詹卫东:一个机器是否具备人类的语言能力,本身就是一个比较难判断的问题吧?按照语言学区分competence和performance的考虑,机器和人,在测试语言能力方面的范式是一样的,总是用performance去估计competence。所以,真正的“语言能力”,大概也只能是一种“感觉”吧。chatgpt现在的表现,应该是让很多人“觉得”它掌握了语言。人们似乎还没有想出比图灵测试更高明的方法,来判断机器是否具有语言能力。

邬霄云:图灵测试 is not for language only, it is end to end “common sense “ test, human intelligence via language.

詹卫东:是的。它包含了语言能力。

南山:所以纠结机器是否智能在可预见未来是无解的,相关的判别标准和概念大家都没有清晰、一致,对于chatgpt、alphzero这类,看疗效才是王道。

邬霄云:单独测 language 是不是 翻译 或者别的 normalization 就可以? @詹卫东

詹卫东:不知道。我想不清楚语言跟其他能力是怎么分开的。简单的区分,比如语言考试,语文考试这类的。具体的题目,像是近义词辨析。我测了100题。chatgpt的表现跟LSTM的水平差不多。但是这类考试,并不是真实的语言应用场景。实际上是教师凭空想象的。题目形式是选择题,就是把一个句子中的一个词拿掉,给两个近义词,让它选一个填回去。100题得分不到60分。

南山:有唯一正确答案的题目吗?判断正确的标准只针对句法还是要结合语义和常识?

詹卫东:从出题的角度考虑,是有唯一正确答案的,但语言题还是跟数学题不同,总会有“更多的视角”和“更开放的标准”隐藏着,导致答案很难唯一。 近义词组是考虑了很多因素挑选的,包括句法、搭配、语义协同、常识等。

立委:语言理解能力可以看 同样的意思 你变着花样不同问法,然后看他的回应。体验下来 结论是 它是真理解了 不比人差。

詹卫东:差不多是这个体验。我测试它对不及物动词的反应。故意不在“引语句”打引号。但它准确地识别出引语句片段。不过,线性符号串接续层面形成的“结构”意识,似乎还是不能跟树结构完全重合。这就让人担心它的理解能力。我的感觉是人的智能有一个突出的特征,就是“整体性”。如果没有“整体性”,就是工具智能,不是“通用智能”。

Li Chen:整体性其实是神经网络的强项,毕竟最后都变成向量了。难的反倒是细节。

詹卫东:我说的整体性比较含糊,大概是这个意思:一个智能实体,不应该能做奥赛的数学题,但却在算24点的时候犯“低级”的错误。就是chatgpt在给人感觉很厉害的同时,又表现出存在犯低级错误的能力。

Li Chen:我觉得这个现象可以理解。因为像24点这种东西,某种意义上讲就是一个特殊的游戏,需要说明规则,理解规则的基础上来玩。chatgpt真的理解这个规则了么?这个感觉也就是toB难的地方,不同行业的规则不一样,通用模型没见过这么多具体的规则。即便是人,有很强的学习能力,换个行业也得学习工作一段时间才能玩得转。

南山:对于一个有阅读能力的人,将一段话打乱之后,ta仍然可以把整体意思掌握了。chatgpt可以吗?一个有阅读能力的人不需要特殊训练就可以读懂这段话

立委:可以测试一下。应该没问题,因为汉字本身就是形义结合的词素。

詹卫东:这个可能是chatgpt的强项,我之前测试不及物动词“见面”的句子中就包含了这类乱序的句子。它理解得非常准确。

立委:这个实验好。语言理解从效果上看就是要鲁棒有包容,同一个语义可以有多种不同的表达形式,表达形式不规范也没关系,只要上下文的关键词及其相谐性可以让语句的意义有区别性就好。chatGPT 这方面游刃有余,总是可以把同义的不同说法映射到语义空间的同一个区域。

詹卫东:100分!

原文是今天新浪网一段新闻。

南山:你不用提醒它顺序被人为打乱了,它怎么理解

詹卫东:

南山:这么说可以认为它的语义理解能力是没有问题了。

詹卫东:是的,感觉可以“跳过语法”,直达语义。

白硕:乌兰克

南山:可以理解为它的常识或常识运用有问题吗?

詹卫东:其实很难评判应该是“乌兰克”还是“乌克兰”。chatgpt不改也不能认为是错。

Li Chen:是的,也许真有个国家地区或者可以当主语,修饰语的确实叫乌兰克。

詹卫东:从我受到的语言学训练角度讲,chatgpt的汉语语言学知识(人类假设的那些知识,可能对,也可能不对)还是比较贫乏的,按照这个标准,它应该还不算掌握了语言。一个典型的表现是,语言学比较重视打*号的句子的分析,也就是所谓“不合语法”的句子。但实际语料中这样的句子极少。应该是训练数据缺乏。chatgpt对这样的句子的判断能力就不太灵。不过,这似乎也不太影响它进行语言信息的分析和处理。从这个角度讲,chatgpt对语言学的刺激是:句子结构的分析,包括对正例和负例的结构分析和解释,到底意义是什么?

立委:关于文法书上强调的带有星号 * 的反例,那不是为了语言理解,主要是从语言生成的角度,实践中追求的是合法和地道(nativeness),理论上追求的是 internal grammar/language,需要防止反例出现。

从语言生成角度,LLM 的大数据回归的属性天然实现了 nativeness,反例不仅少见,即便出现,统计上也沉底了。语言生成能力的效果观察,可以让它生成几次,看回应是不是还在同类水平上,是不是走题或掉链子。这一关表现不错。除了特别的风格输出(例如洋泾浜:这种“风格”可以看成 sub-language,里面的正例恰好是规范英语的反例)外,它是不会出现低级文法错误和违背习惯用法的笑话的。所以 native speakers 听着也觉得舒服。

说到底还是图灵,如果不告诉你背后是谁,你是不是会觉得对象是人。

从语言理解角度,文法书上的绝大部分反例都在包容的范围之内。语文老师让学生改正反例的那些练习题,其出题的前提就是这些所谓反例其实同样承载了正句一样的语义。没有这个预设,人怎么知道如何改正才能保留原有的意义呢。反例不过就是形式上的违规而已,通常不影响内容。

当然,在 input 较短 context 不足以确定内容完整性的的时候,有些反例会呈现歧义或甚至与原意相左的语义,这时候形式的违规的确与内容的混乱或不确定发生关联了。这时候,句法手段的修正(例如次序的调整、功能词的使用以及西方语言中的形态的正确应用等)才会有实质性意义,而不仅仅就是为了 native speaker 听上去顺耳而已。

解析和理解的能力,LLM 特别宽容鲁棒,主要是它的 embedding(编码嵌入,成为其内部的向量表示)可以容纳很长的 input,在 context 相互邻近的关键词之间相互制约下(我们叫篇章中的 semantic coherence,包括词义之间的搭配关系),形式上的偏离规范已经不影响它在语义空间的意义定位,从而“它”可以轻易与“非它”区分开来。

一个符号串 吃进去就是向量空间的某个或某组位置 其意义表现在与其他位置的距离和区别。因此 位置偏差一点 不影响意义 只要它与其他的不同意义的符号串映射可以区别开来。鲁棒性根植于此。换个角度 意义不是要问是什么,更要紧的是 不是其他(什么),只要能维持这种意义空间的区别性,规范不规范就都可以包容。区别之间有足够的空间/距离,即可容忍局部的种种口误 错误。

邬霄云:Llm 的 position encoding is linearly attached not cross product,so it is a weak form 

立委:词序影响意义的机会不大。当年 一包词模型用了很久 也是因为 词序是较弱的约束,构成区别要素的场景并不频繁。

我把一句话,完全反过来,从:explain quantum computing in simple terms 映射成类似回文:terms simple in computing quantum explain,它毫不迟疑。

人家训练的是next token,现在是处处反着来,本想让它找不着北,但实际上一点也不影响它的“理解”。就是说,当一个模型可以对较长的 input string 做编码嵌入的时候,次序的约束已经很弱了。因为那一小袋词之间的物理距离(proximity constraints)加上它们语义的相谐性(semantic cosntraints)已经足够让这个整体的语义表示与其他对象区分开来,这时候纯粹语言学意义的句法约束(syntactic constraints,包括严格的词序)就可以松绑。

我怀疑 position encoding 即便不做,LLM 也不见得性能会下降很多。

邬霄云:Could be, popular code base all use it still

立委:换句话说,在 bigram / trigram 建模的年代,词序是重要的 (“我爱她”与“她爱我”,“打死”与“死打”,可不是一回事)。到了ngram 中 n 可以很长的时候,ngram list 与 ngram set 已经语义相等了。

句长不够,词序来凑。长度足够,序不序无所谓。句法地位急剧下降。

论鲁棒,人如何与模型比,差了不止一个段位。

Li Chen:想想确实是这个道理,在有很多词的情况下,还要能组成符合语法的句子的可能性是有限的,也就意味着语义差异不大了。所以这个时候顺序确实已经不重要了,估计这个也是为什么即便是最简单的bag of words也能用来做相似度计算,一用就是几十年的道理。

詹卫东:跟ChatGPT逗个乐。

总的感觉就是chatgpt对语言的嵌套理解能力和指代关系理解力非常强。

川:LLM 没问题,ChatGPT is evil

Who is the master, machine or man?

立委:那是因为 chatGPT 太 human like,搞定了自然语言形式。

川:搞定是假象,现在就下结论太早。

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

立委:机器都是假象,AI 本性。Artifical 与假象可以看成是同义词。就本质而言,人工智能就是智能假象,这个论断没有问题,但这应该并不妨碍人类深度使用AI。

搞定的判断是,跟他说话感觉它听从指令、善解人意,而且回应也很顺溜贴心,不走题。

三个月玩 chat 下来,我在它生成的英语中,没有发现过语言的问题(内容的毛病不算),一例也没有。但在其中文的生成中,偶然还是会发现它有语言的瑕疵(不符合规范或习惯的用法),虽然它的中文生成能力已经超过多数同胞。这说明,目前 chat 语言训练的中文语料还可以进一步扩大,从爱挑剔、追求完美的语言学家视角,它还有一点点剩余的进步空间。

结论还是: ChatGDP 搞定了人类语言,无论听还是说,妥妥的。万能的语言巴别塔是真滴建成了。

说到chat里程碑的意义,盖茨比作电脑、互联网后的第三大里程碑,显然有点夸张了。可是我们进入计算机博物馆看里程碑展馆,有 1. 第一次下国际象棋打败人类 2. IBM 沃森问答打败人类,后面的还该有一系列打败人类的里程碑吧,例如围棋。

不得不佩服它条理化的能力,只有一个不妥:医学并入了教育。其余的综合 总结能力强过一干人,自然包括在下。在这一长串中,AI明星 chat 可以成为 top 几?

top 10 有点高抬了,top 20 似乎有余:就凭他建成了巴别塔,搞定了人类语言。

文字 应该是 语言/文字。宗教不该漏。

我是从语言角度。它的的确确证明了自己的万能的语言能力。语言能力其所以特别重要,不仅仅因为我是语言学家,难免强调它,更因为这是规模化机器能力的敲门砖,否则机器只是少数人的玩具。机器学会人话的意义,比人去适应机器,用程序去给它指令,意义大得多,这是人机接口的革命。

 

 

《不识数的 ChatGPT》

【立委按:能说会道的 ChatGPT 在数字和算术上常闹笑话,暴露了自己的短板。有意思的是,似乎可以现场教给它识数的技能,但很不稳定。总体而言,算术技能还是“外挂”合理,不必强求一个序列大模型学会算术。】

ChatGPT导读:

立委:都说当前的 ChatGPT 数学底子潮,它识数吗? 

陈利人:请看

立委:怎么着?确实是10个、也确实是有“喜”字的短语,只是可惜不是10个字。

知道它不识数,硬要逼它,道德上是否属于不尊重残障实体的不良行为呢:

numerically challenged entities should not be tested on math purely for making fun of it

认真地,以前我们做NLP训练的时候,所有的数字都被 NUM 替代,因为这家伙形式上无穷变体,实质只是一类。IE(信息抽取) 的传统里面,有一个与 “专名实体” (NE,Named Entity)并举的抽取对象,叫做 DE(Data Entity,MUC 社区称为 numex ),主要就是针对这些带有数字的对象(百分比、重量、温度、算术公式、年龄、时间等),NLP面对 DE 从来都是先分类,然后把它包起来。语言模型,无论统计的还是符号的,都不细究它。通常要到需要语义落地的时候,才打开这个包,去调用某个函数(所谓“外挂”)去做符号拆解和语义落地,包括把变体标准化并映射到合适的数据类型,这以后才好进入数学的操作和计算。LLM 在没有做特殊的外挂对接前,自然也是如此,于是上面的笑话是 “by design”:可以看成是 feature, 而不是 bug,lol。至于怎么对接来解决它,那是另一回事。

刘雪峰:纠正了一下,已经学会数汉字了。

这种对话之后便能更新自身的认识(程序模式),可以称之为有“自我进化”能力了。

立委:这叫 step by step 的现场调教法,很神奇,属于思维链(CoT)培训,背后的原理不是很清晰。有推测 step by step 的 CoT(Chain of Thought)方面的基本调教已经在他们内部的模型微调中做足了功夫,这才为现场特定的 step by step 的具体能力的调教提供了激发的基础。

不知道它学会了以后,能保持这个能力多久?在同一个session 里面多测试几次,需要确认它是真在现场学到了对汉字计数的能力。(当然 session一关闭,这个识数能力肯定消失,因为前面的调教场景没了。)

刘雪峰:据说 Open AI 不会根据和用户的对话更新其核心数据库。一段缓存期之后就丢掉了这个“认识”。这样可以防止恶意影响 ChatGPT。

立委:不是数据库的问题,是模型本身是恒定的。few shots 和 step by step 的现场调教,都不会影响模型本身。看看下例。

这是个很奇特的 in-context 的学习现象,学到的“技能”不稳定,你看最后不等一个 session 结束,转眼就还给老师了,声称10个汉字给出的却是8个字:“江雨霏霏江草齐齐”。甚至到底是不是真学到了,也是个问号。完全有可能在看似学到了的那个当口,它的网络空间中有一些strings正好与特定字数10相关联。

Dongdong:看来文科ChatGPT和理科能力不兼容。

立委:哪怕其实没有学到“识数”的技能,现场的调教能够激发其中高度相关的某个string,回应下来满足了我们的要求。加上它的能说会道的解释,也是一种很唬人的表现。不懂装懂,能装到这个段位,也是让人开眼了。

错误不可怕,可怕的是,错得那么像人。

生活中,我们都遇到过不会算术的人,尤其在国外,甚至收银员不识数的比例也很高。离开计算器,这类人遇到数字像个傻子,掰手指头都整不明白,更甭提心算。ChatGPT 与他们差不多,说话与他们一样顺溜地道,当然,数学底子也一样潮。

当一个实体看了那么多的书,记忆体那么大,到了我们无法想象的量级的时候,很多难以说清道明的所谓“涌现”的技能,更可能就是从他们的巨大网络空间中激发了最相关联的组合。我们凡人以常识和经验作为参考系来审视这些非常能力,无论如何也难相信这就是一种数据的关联恰好被触发,我们宁肯相信实体具有了技能,甚至灵性、意识。

前人不我欺,假作真时真亦假,无为有处有还无啊。

马少平:看下例

它不坚持真理。

立委:哈,这一类也见过n次了。这好像是在学到的能力与必须尊重人类的原则之间,有一个权重偏向后者的设置。它的设计者心里是明晰的:多数技能不稳定,完全可能是真理的假象,权重宁肯偏向迁就和同意人,而不是坚持这种不可靠的技能,因为坚持真理与坚持谬误只有一步之遥。

詹卫东:微软搜索BING引入了聊天能力,比chatGPT多了问句。要是有反问句就厉害了。

立委:这个厉害啊。

识别不同形式,我们知道 ChatGPT 是有这个能力的(当然数学上不好说,有时会栽跟头)。识别了后,开始这种口气说话,好像是微软引进后新调教出来的。

白硕:数学还是错的啊。

刘雪峰:刚才试着确认四则运算,变量。十分准确。这种对话能力,真是让人感叹!

刚才和数学系的几个老师解说了一下 ChatGPT。大家都是听说过,还没操作过。一脸吃惊。

詹卫东:New bing 跟 ChatGPT 一样,对汉字字符还是不能正常计数。让它生成一段300字的稿子,它洋洋洒洒写了快1000字,然后总结说自己写了304字。

立委:《大型语言模型系列解读(三):ToolFormer:语言模型教会自己使用外部工具》值得推荐,报告了LLM调用API的创新设计,很巧妙,例如计算百分比这样的API。这才是LLM学数学的正道啊。

学会调用外部的 API 对于保障 LLM 的数据质量很重要。以前讨论的与外部领域场景的数据库对接的难题,类似的思路应该也是可行的。其实到了场景落地的关口,外部数据库已经聚焦了。既然聚焦了,就有“倒逼”与“反推”来修正错误的可能性。解决这个问题的方案和尝试,都在路上,应该是可以预见的,稍安勿躁。LLM的领域壁垒和落地接口终究还是有望打通 ,我保持乐观。

退一步海阔天空。原则上,借外力克服LLM知识短板,防止“一正胡八”(一本正经胡说八道)和张冠李戴这类的低级笑话,应该可以找到路径。 指望一个模型走天下,硬靠无特定目标的增加序列数据,指望用越来越大的网兜住知识,修炼成全知全能,感觉不对劲。换句话说,场景聚焦相关的知识本来就不属于、也不应该属于基础模型的一部分。为外挂建立桥梁才是正道。关于外挂 @白硕 老师以及其他老司机,一定有很多思考,这是有价值的大方向,希望听到各位老师的高见。

白硕:就是我说的两件事:要么学到问题到答案的映射,要么学到问题到解决问题的资源的映射。

立委:这个问题的解决意味着什么?意味着几乎所有现存的 AI 产品,都要被重新审视和洗牌。

白硕:语言能力插上知识能力的翅膀。

立委:甭管你积累了多高的护城河,都面临新时代大模型降维冲击的挑战。这事儿是进行时,实实在在在我们眼皮底下发生着:微软谷歌搜索大战就是活话剧。

 

 

 

 

《AI浪潮博客目录》

立委按:值此 NLP 惊天动地之际,迎着 AI 新纪元的曙光,老字号【立委NLP频道】专设《AI浪潮》栏目研究切磋与同仁,记录科技革命的盛世风采,探究劳碌命(LLM)的奥秘与挑战,一叶知秋,展望未来。

《AI浪潮:不识数的 ChatGPT》

《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》

《AI浪潮:chatGPT 搞定了人类语言》

《AI浪潮:chatGPT 能写出段子吗》

《AI浪潮:chatGPT 的里程碑意义》

《AI浪潮:chatGPT 写的情书能有真情吗》

《AI浪潮:LLM 凭什么能“涌现”超级能力?》

《AI浪潮:漫谈LLM与领域对齐》

《AI浪潮:神迹与笑话齐飞,chatGPT 也是大观了》

《AI浪潮:chatGPT 帮你写应用文》

《AI浪潮:人工智能当代简史》

《AI浪潮:chatGPT 辅导精读学术论文的实验》

《AI浪潮:因为见从而信,见证奇迹的时刻》

《AI浪潮:zero shot 抽取、摘要、吟诗、阅读理解》

《AI浪潮:玩不死的 chatGPT》

《AI浪潮:关于chatGPT 的 思维链能力 》

《AI浪潮:n-shot 是训练还是指令》

随笔:AGI 迷思与反思

AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?

漫谈AI 模型生成图像

图灵测试其实已经过时了

RPA 是任务执行器还是数字员工?

《立委科普:自注意力机制解说》

《深层解析符号模型与深度学习预训练模型》(修订文字版)

NLP 新纪元来临了吗?

推荐Chris Manning 论大模型,并附上相关讨论

《我看好超大生成模型的创造前途》

立委随笔:机器翻译,从学者到学员

《AI浪潮:chatGPT 搞定了人类语言》

立委:从语言与语言学角度,chatGPT 的的确确证明了自己万能的语言能力。千百年来的人类巴别塔之望终于美梦成真。巴别塔建成了,建成日期2022年11月。这个成就超出了一般意义的里程碑。这是划时代的进步。

南山:我看不懂它是鹦鹉学舌还是真的掌握了语言。我比较认同一个说法:语言是思想的表象。计算机掌握语言与计算器做计算,也许没有本质区别。

毛老:对。和蒸汽机胜过人的臂力也没有本质区别。

卫东:一个机器是否具备人类的语言能力,本身就是一个比较难判断的问题吧?按照语言学区分competence和performance的考虑,机器和人,在测试语言能力方面的范式是一样的,总是用performance去估计competence。所以,真正的“语言能力”,大概也只能是一种“感觉”吧。chatgpt现在的表现,应该是让很多人“觉得”它掌握了语言。人们似乎还没有想出比图灵测试更高明的方法,来判断机器是否具有语言能力。

霄云:图灵测试 is not for language only, it is end to end “common sense “ test, human intelligence via language.

卫东:是的。它包含了语言能力。

南山:所以纠结机器是否智能在可预见未来是无解的,相关的判别标准和概念大家都没有清晰、一致,对于chatgpt、alphzero这类,看疗效才是王道。

霄云:单独测 language 是不是 翻译 或者别的 normalization 就可以? @詹卫东

卫东:不知道。我想不清楚语言跟其他能力是怎么分开的。简单的区分,比如语言考试,语文考试这类的。具体的题目,像是近义词辨析。我测了100题。chatgpt的表现跟LSTM的水平差不多。但是这类考试,并不是真实的语言应用场景。实际上是教师凭空想象的。题目形式是选择题,就是把一个句子中的一个词拿掉,给两个近义词,让它选一个填回去。100题得分不到60分。

南山:有唯一正确答案的题目吗?判断正确的标准只针对句法还是要结合语义和常识?

卫东:从出题的角度考虑,是有唯一正确答案的,但语言题还是跟数学题不同,总会有“更多的视角”和“更开放的标准”隐藏着,导致答案很难唯一。 近义词组是考虑了很多因素挑选的,包括句法、搭配、语义协同、常识等。

立委:语言理解能力可以看 同样的意思 你变着花样不同问法,然后看他的回应。体验下来 结论是 它是真理解了 不比人差。

卫东:差不多是这个体验。我测试它对不及物动词的反应。故意不在“引语句”打引号。但它准确地识别出引语句片段。不过,线性符号串接续层面形成的“结构”意识,似乎还是不能跟树结构完全重合。这就让人担心它的理解能力。我的感觉是人的智能有一个突出的特征,就是“整体性”。如果没有“整体性”,就是工具智能,不是“通用智能”。

Li Chen:整体性其实是神经网络的强项,毕竟最后都变成向量了。难的反倒是细节。

卫东:我说的整体性比较含糊,大概是这个意思:一个智能实体,不应该能做奥赛的数学题,但却在算24点的时候犯“低级”的错误。就是chatgpt在给人感觉很厉害的同时,又表现出存在犯低级错误的能力。

Li Chen:我觉得这个现象可以理解。因为像24点这种东西,某种意义上讲就是一个特殊的游戏,需要说明规则,理解规则的基础上来玩。chatgpt真的理解这个规则了么?这个感觉也就是toB难的地方,不同行业的规则不一样,通用模型没见过这么多具体的规则。即便是人,有很强的学习能力,换个行业也得学习工作一段时间才能玩得转。

南山:对于一个有阅读能力的人,将一段话打乱之后,ta仍然可以把整体意思掌握了。chatgpt可以吗?一个有阅读能力的人不需要特殊训练就可以读懂这段话

立委:可以测试一下。应该没问题,因为汉字本身就是形义结合的词素。

卫东:这个可能是chatgpt的强项,我之前测试不及物动词“见面”的句子中就包含了这类乱序的句子。它理解得非常准确。

立委:这个实验好。语言理解从效果上看就是要鲁棒有包容,同一个语义可以有多种不同的表达形式,表达形式不规范也没关系,只要上下文的关键词及其相谐性可以让语句的意义有区别性就好。chatGPT 这方面游刃有余,总是可以把同义的不同说法映射到语义空间的同一个区域。

卫东:100分!

原文是今天新浪网一段新闻。

南山:你不用提醒它顺序被人为打乱了,它怎么理解

卫东:

南山:这么说可以认为它的语义理解能力是没有问题了。

卫东:是的,感觉可以“跳过语法”,直达语义。

白硕:乌兰克

南山:可以理解为它的常识或常识运用有问题吗?

卫东:其实很难评判应该是“乌兰克”还是“乌克兰”。chatgpt不改也不能认为是错。

Li Chen:是的,也许真有个国家地区或者可以当主语,修饰语的确实叫乌兰克。

卫东:从我受到的语言学训练角度讲,chatgpt的汉语语言学知识(人类假设的那些知识,可能对,也可能不对)还是比较贫乏的,按照这个标准,它应该还不算掌握了语言。一个典型的表现是,语言学比较重视打*号的句子的分析,也就是所谓“不合语法”的句子。但实际语料中这样的句子极少。应该是训练数据缺乏。chatgpt对这样的句子的判断能力就不太灵。不过,这似乎也不太影响它进行语言信息的分析和处理。从这个角度讲,chatgpt对语言学的刺激是:句子结构的分析,包括对正例和负例的结构分析和解释,到底意义是什么?

立委:关于文法书上强调的带有星号 * 的反例,那不是为了语言理解,主要是从语言生成的角度,实践中追求的是合法和地道(nativeness),理论上追求的是 internal grammar/language,需要防止反例出现。

从语言生成角度,LLM 的大数据回归的属性天然实现了 nativeness,反例不仅少见,即便出现,统计上也沉底了。语言生成能力的效果观察,可以让它生成几次,看回应是不是还在同类水平上,是不是走题或掉链子。这一关表现不错。除了特别的风格输出(例如洋泾浜:这种“风格”可以看成 sub-language,里面的正例恰好是规范英语的反例)外,它是不会出现低级文法错误和违背习惯用法的笑话的。所以 native speakers 听着也觉得舒服。

说到底还是图灵,如果不告诉你背后是谁,你是不是会觉得对象是人。

从语言理解角度,文法书上的绝大部分反例都在包容的范围之内。语文老师让学生改正反例的那些练习题,其出题的前提就是这些所谓反例其实同样承载了正句一样的语义。没有这个预设,人怎么知道如何改正才能保留原有的意义呢。反例不过就是形式上的违规而已,通常不影响内容。

当然,在 input 较短 context 不足以确定内容完整性的的时候,有些反例会呈现歧义或甚至与原意相左的语义,这时候形式的违规的确与内容的混乱或不确定发生关联了。这时候,句法手段的修正(例如次序的调整、功能词的使用以及西方语言中的形态的正确应用等)才会有实质性意义,而不仅仅就是为了 native speaker 听上去顺耳而已。

解析和理解的能力,LLM 特别宽容鲁棒,主要是它的 embedding(编码嵌入,成为其内部的向量表示)可以容纳很长的 input,在 context 相互邻近的关键词之间相互制约下(我们叫篇章中的 semantic coherence,包括词义之间的搭配关系),形式上的偏离规范已经不影响它在语义空间的意义定位,从而“它”可以轻易与“非它”区分开来。

一个符号串 吃进去就是向量空间的某个或某组位置 其意义表现在与其他位置的距离和区别。因此 位置偏差一点 不影响意义 只要它与其他的不同意义的符号串映射可以区别开来。鲁棒性根植于此。换个角度 意义不是要问是什么,更要紧的是 不是其他(什么),只要能维持这种意义空间的区别性,规范不规范就都可以包容。区别之间有足够的空间/距离,即可容忍局部的种种口误 错误。

霄云:Llm 的 position encoding is linearly attached not cross product,so it is a weak form 

立委:词序影响意义的机会不大。当年 一包词模型用了很久 也是因为 词序是较弱的约束,构成区别要素的场景并不频繁。

我把一句话,完全反过来,从:explain quantum computing in simple terms 映射成类似回文:terms simple in computing quantum explain,它毫不迟疑。

人家训练的是next token,现在是处处反着来,本想让它找不着北,但实际上一点也不影响它的“理解”。就是说,当一个模型可以对较长的 input string 做编码嵌入的时候,次序的约束已经很弱了。因为那一小袋词之间的物理距离(proximity constraints)加上它们语义的相谐性(semantic cosntraints)已经足够让这个整体的语义表示与其他对象区分开来,这时候纯粹语言学意义的句法约束(syntactic constraints,包括严格的词序)就可以松绑。

我怀疑 position encoding 即便不做,LLM 也不见得性能会下降很多。

霄云:Could be, popular code base all use it still

立委:换句话说,在 bigram / trigram 建模的年代,词序是重要的 (“我爱她”与“她爱我”,“打死”与“死打”,可不是一回事)。到了ngram 中 n 可以很长的时候,ngram list 与 ngram set 已经语义相等了。

句长不够,词序来凑。长度足够,序不序无所谓。句法地位急剧下降。

论鲁棒,人如何与模型比,差了不止一个段位。

Li Chen:想想确实是这个道理,在有很多词的情况下,还要能组成符合语法的句子的可能性是有限的,也就意味着语义差异不大了。所以这个时候顺序确实已经不重要了,估计这个也是为什么即便是最简单的bag of words也能用来做相似度计算,一用就是几十年的道理。

卫东:跟chatgpt逗个乐。

总的感觉就是chatgpt对语言的嵌套理解能力和指代关系理解力非常强。

川:LLM 没问题,ChatGPT is evil

Who is the master, machine or man?

立委:那是因为 chatGPT 太 human like,搞定了自然语言形式。

川:搞定是假象,现在就下结论太早。

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

立委:机器都是假象,AI 本性。Artifical 与假象可以看成是同义词。就本质而言,人工智能就是智能假象,这个论断没有问题,但这应该并不妨碍人类深度使用AI。

搞定的判断是,跟他说话感觉它听从指令、善解人意,而且回应也很顺溜贴心,不走题。

三个月玩 chat 下来,我在它生成的英语中,没有发现过语言的问题(内容的毛病不算),一例也没有。但在其中文的生成中,偶然还是会发现它有语言的瑕疵(不符合规范或习惯的用法),虽然它的中文生成能力已经超过多数同胞。这说明,目前 chat 语言训练的中文语料还可以进一步扩大,从爱挑剔、追求完美的语言学家视角,它还有一点点剩余的进步空间。

结论还是: chat 搞定了人类语言,无论听还是说,妥妥的。万能的语言巴别塔是真滴建成了。

 

 

【相关】

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 能写出段子吗》

 

 

还行吧,这些段子水平不高。但比憋不出来强。

本来写出好段子就是最具挑战性的人类创作活动之一,只要采访几个著名的脱口秀演员就知道其中的甘苦了。很多大火的脱口秀演员,为此绞尽脑汁。台上五分钟,台下无数不眠夜。让人开口笑,并不容易啊。

By the way 国内脱口秀这几年蓬勃向上,有超越传统相声的态势,尤其是在年轻人中开始流行。这是以前没想到的,有传统相声的国度,居然让外来艺种抢了风头。制度接轨那么难,艺术接轨如此自然,水到渠成?

wow,不知道这是抄袭的,还是“emerging”的,联想一下还真像是个搞笑的段子:

gou (go) 我不会飞,可我很快。
niu 所以我那么大(大妞儿?)

猫猫 miao 或 mao, 耗子 mou,也蛮形象,有声有色的样子。

哈,看来只学会了一个套路:羊/yang (young),所以我害羞。

马少平:谐音梗:为什么不能吃藕?因为吃藕丑。

立委:这个强。马老师自己的灵感吗?

辞职算了,不要教书育人传授AI了,笑果文化更需要你。lol

马少平:不是,流行比较广的[Grin]

立委:lol

还有一个类似的感受,国内流行乐坛中的 rap 在大唐比想象的流行要广。在一个有数来宝的国度,rap 一样长驱直入。

马少平:我不喜欢rap,觉得就不是歌。

立委:可是很多年轻人喜欢啊。

马少平:确实。跟年轻人有沟。

立委:觉得文化的融合与流行 不是想象的那么难。

国内那些 rap,牵强的说辞泛滥,听着好别扭,觉得比虽然低俗但顺溜地道的数来宝或山东快书,是一种严重退步。但是我们的“成见”挡不住新一代的热情和迷恋,这里面可能有什么文化密码和奥秘。

最后就是日本动漫的文化,热度持续不减,横扫两个超级大国:引起中美年轻人的狂热。

陪女儿小时候看迪斯尼长大,没想到后来迪斯尼就被 anime 碾压了。anime,我不入,搞不清里面的奥秘。是为沟。

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 的里程碑意义》

说到chat里程碑的意义,盖茨比作电脑、互联网后的第三大里程碑,显然有点夸张了。可是我们进入计算机博物馆看里程碑展馆,有 1. 第一次下国际象棋打败人类 2. IBM 沃森问答打败人类,后面的还该有一系列打败人类的里程碑吧,例如围棋。

不得不佩服它条理化的能力,只有一个不妥:医学并入了教育。其余的综合 总结能力强过一干人,自然包括在下。在这一长串中,AI明星 chat 可以成为 top 几?

top 10 有点高抬了,top 20 似乎有余:就凭他建成了巴别塔,搞定了人类语言。

文字 应该是 语言/文字。宗教不该漏。

我是从语言角度。它的的确确证明了自己的万能的语言能力。语言能力其所以特别重要,不仅仅因为我是语言学家,难免强调它,更因为这是规模化机器能力的敲门砖,否则机器只是少数人的玩具。机器学会人话的意义,比人去适应机器,用程序去给它指令,意义大得多,这是人机接口的革命。

 

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 写的情书能有真情吗》

JJ: 

 

ChatGPT 写情书也不重样。

立委:这是陷入爱河但苦于笨嘴拙舌的人的福音了。人的爱意 哪怕是套话 也是要表达才行,藏在心里不行。

“i love you" 是鹦鹉学舌完全可以做到的,但并不因为是套话而失去其神奇效应。无数的情感矛盾和关系恶化 其实就是缺少了这三个字的表达频度。

但热恋要求更高一点,需要营造浪漫。营造需要形式,而有的人就是不懂形式,不善言辞,不会表达(俗话说,不会来事儿 lol)。你便是真情如海,但羞于表达或表达不出来也没戏。谁愿意与木头谈一场恋爱?

有问,机器代写的情书能有真情吗?这就好比询问:毛笔写的情书能有真情吗?

chatGPT 不过就是个工具,就跟你用毛笔还是钢笔一样。这个工具见识过无数的情书。工具帮助你产生形式,至于真情表白还是虚情假意,那要看使用工具的人了。

劝热恋中的人都去订阅 chatGPT pro,现在出来了,每个月20美元,太平价了,可以帮你制造浪漫的条件,无论是诗歌、两地书还是策划。

-- *声明:以上是脑残广告,不当真的 =)

顺着这个话题延伸一下,说说 chatGPT 作为文字助手的作用,尤其是对于不善言辞的人。

出口成章的人是少数。见过很多人在一些场合 需要应景 却憋不出话来 十分窘迫。现在好了。不知道有没有办法把 chat 制成一个可以植入的东西,就不说老马说的脑机接口了,只要能让它成为一个隐藏的招之即来 但无人察觉的暗器,也许作为穿戴设备,例如传说中的苹果眼镜,让它编制的应景台词,跟提词器似的,崩到眼镜上,我见人不见。那会是社恐人士多大的福音。

不同程度的社恐据报道是一个非常常见的问题,我自己也深受其害,人稍多就哑巴了,插不上话,却要硬着头皮应付。看社交场合如鱼得水的人 知道他们是胡喷 但人家给气氛啊 自己啥贡献也没有。成为社交累赘,有情商的的人,还要照顾你情绪,不时还要引一两句给你,带你玩的意思。chat 可以改变这一切 让笨嘴拙舌秒变伶牙俐齿,让只懂本行的老专家也能成为百科地保。 

为民:一位圈外朋友的朋友圈信息: "ChatGPT是中庸主义者的福音,完美地让你泯然众人、符合社会的基本期待。

ChatGPT不需要提升生产力(不需要empower人类的语言能力),只需中庸地鹦鹉学舌,帮助人类在其没有表达意愿的场景、完成表达的义务。

如果用ChatGPT写情书,说明你根本不爱收到情书的对象。但是也许你并不需要soul mate(不是每个人都需要),你只想要应付相亲对象。

作为情商不高的半社恐人士,我在很多场景都没有沟通互动的意愿,但是我得耗费精气神维持礼貌、得体、正常,ChatGPT作为AI助理可以帮我们这种人成为真正的中庸主义者。"

立委:

情商这东西 为什么人学起来那么笨 机器却行:估计主要是人自我中心 换位思考就难。机器根本没有自我 调教对齐一下就乖巧了。

白硕:机器没有脊梁

立委:情商优者治人 智商优者治于人。外行领导内行 由来已久 天经地义。

数量上也不成比例 情商强的人 远远少于智商好的,最后大多做了各级领导或企业老板。

 

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:chatGPT 帮你写应用文》

立委按:自从 chatGPT 横空出世,这类应用文辅助写作案例已经水漫金山,见奇不怪了。但这不改变辅助写作是一个具有巨大应用场景和价值的方向,虽然大概率与机器翻译也差不多,最后作为行业可能被做死,或成为白菜价。下面是我自己前一阵子做的一些试验,摘录如下。

其一:推荐信

请帮助我用规范的英文写一篇推荐信,内容包括:1. 推荐张三到清华做博士后,研究AGI;2. 我是张三的博士导师; 3. 张三博士论文获到全国优秀论文大奖。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to our discussions. I am confident that he will thrive in a collaborative environment like your PhD program.

I strongly believe that Zhang San would be an excellent fit for your program and would make a valuable addition to your community of researchers. I wholeheartedly endorse his application and hope that you will consider him for admission.

Sincerely,

[Your Name]

请增加一些具体生动的细节,让推荐信更为有力。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work. In particular, his contribution to the development of a novel AGI algorithm has garnered attention from researchers in the field and has the potential to significantly advance the state of the art.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to our discussions. I have seen him take the lead on several collaborative projects, always ensuring that all team members are on the same page and making valuable contributions to the final product. I am confident that he will thrive in a collaborative environment like your PhD program.

I strongly believe that Zhang San would be an excellent fit for your program and would make a valuable addition to your community of researchers. I wholeheartedly endorse his application and hope that you will consider him for admission.

Sincerely,

[Your Name]

好了一些,但请增加下列事迹:1. 废寝忘食 他总是最后一个离开实验室;2. 发表了5篇一级刊物论文,成为青年学术新星;3. 虽然AGI被认为是难以实现目标,张三在定义AGI实现的不同步骤上提出了具有操作性的建议,并实现了10个步骤中的前5个。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work. In particular, his contribution to the development of a novel AGI algorithm has garnered attention from researchers in the field and has the potential to significantly advance the state of the art. Zhang San has also published five papers in top-tier journals, establishing himself as a rising star in the field of AGI research.

Despite the challenges and setbacks that are inherent in AGI research, Zhang San has remained committed to his work and has often stayed in the lab long after everyone else has gone home. His dedication to his research has paid off, as he has already achieved significant progress in his work. In particular, he has proposed operational steps towards the realization of AGI, and has successfully implemented the first five steps of his proposed framework.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to ......

中国教授头疼的为学生写推荐信问题,已经完美解决。只要你能列出零星哪怕是散乱的要点,机器就会给你拽成一篇看上去非常 professional 的规范推荐信。有没有问题? 当然可能有。例如明明是要求博士后推荐,它写成了 to your PhD program, 但关键是语言方面的困难都给你搞定了,只要通读一遍把个别词改正一下即可。

其二:快讯

AI,请按照严格的规范编写一个新闻稿,其内容包括:
1. 中国封控一夜取消,180度大转弯;2. 由此带来急剧的社会变化,包括大面积感染在各地同时蔓延,以及不同人对于这一波疫情的恐惧;3. 一方面广大群众为重新获得自由而欢呼雀跃,另一方面也对目前疫情可能失控深感忧虑;4. 专家前后不一致的说法,使得公众思想更加混乱;5. 各种滥用药品的情况开始出现;6. 政府无法对政策转变自圆其说, 权威下降。

新闻稿:

中国封控一夜取消,180度大转弯

近日,中国疫情突然爆发,导致政府决定实施封控措施。然而,这一措施在一夜之间被取消,导致社会发生急剧的变化。

首先,随着大面积的感染在各地蔓延,人们对于这一波疫情的恐惧感也在不断加深。一方面,广大群众为重新获得自由而欢呼雀跃;另一方面,人们也对目前疫情可能失控的情况深感忧虑。

此外,专家们在疫情发生后对于应对措施的建议前后不一致,使得公众思想更加混乱。同时,由于政府对于政策转变的解释不一,其权威也开始下降。甚至还出现了各种滥用药品的情况。

总之,中国疫情的发生和政策的转变,导致了社会的急剧变化。虽然广大群众为重新获得自由而欢呼雀跃,但人们对于目前疫情可能失控的恐惧感仍然存在。同时,政府权威下降也使得公众对于应对措施的信任度降低。

 

 

【相关】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《AI浪潮:chatGPT 辅导精读学术论文的实验》

做过几个实验,把 chatGPT 当成tutor,帮助我精读论文,看它有多少胡说,有多少循循善诱深入浅出。

当然,对我不懂的专业,胡说我也看不出来,只有专家能看出来。说一下初步体验,chatGPT当辅导员是一个很好的方向,几乎不需要做太多的工作,只要能接上就可以根据不同客户的目标朝向任何专门辅导的方向去发展,例如:(1)辅导面试;(2)辅导论文阅读;(3)辅导编程序(已经有 co-pilot 就是做那个方向,最近那个从特斯拉离职以前负责特斯拉自动驾驶的牛人现身说法,他说他现在写程序 70% 以上借助 co-pilot,虽然也听说过其他 guru 对 co-pilot 不屑一顾,说我懂的我不需要它,我感觉痛点的地方它帮不了我。这些不同的反应很正常,因为并不是每一个人都需要和拥抱“被机器辅导”的新潮流,就像有人有自动驾驶却从来不用,而我现在离开自动驾驶感觉非常别扭一样);(4).........

LLM(“老流氓”)做辅导最大的问题还是他不懂装懂,胡说八道。就是说他“耍流氓”的时候他不露声色,还是一副道貌岸然的样子。这个问题目前看来无解,就是说很难避免它在辅导你知识的同时,不夹带私货或者误导你。这也不能怪他,无所不知而且无穷耐心与天马行空胡说八道是伴生品,非专家无法区分。而被辅导者通常不是专家,否则为何要被辅导。

只能看 pros and cons 的权衡了。只要牢记不能拿它的话当成金科玉律,保持适当的警惕性,对于关键环节需要多方做求证才能应用,那么被辅导也就不是问题,可以让辅导的利益最大化。这与使用 FSD 开车的感觉类似,你不可以全信这个 beta 系统(即便将来取消 beta 标签,也不能全信),它的确可能在最糟糕的情景下做出最灾难性的选择,你必须保持警惕,随时干预和接管。但是从中受益的人还是很多。美国市场的特斯拉车主渗透力达到了1/4强,记得是二三十万人每天在用它。你不能说这几十万人都是傻瓜:花费一万多美金心甘情愿做小白鼠,冒着自己的生命危险,为马斯克趟雷,给特斯拉免费做标注和反馈。还是被-autopilot 所带来的好处远远大于它的潜在危害,才会有 early adopters 愿意去拥抱技术。同理,用 LLM 帮助做辅导一定会带来很多好处,虽然它可能会误导。

辅导精读论文这事儿,chat 可算是比较拿手,不管什么专业它都能。谁叫它好为人师。辅导的过程大体如下:我跟他说,请你帮助我精读下面这篇自然论文,我需要对它有一个深入的理解,来应对考试。然后让它做摘要,同时用中文和英文,然后一步步问它各种问题。感觉它回答问题主要还是针对给他的目标文章,但因为它此前这个领域的文章也看了不知道多少(虽然最近两年的没看),所以你问它的任何问题,它都可以解释回答。这与教授辅导学生也一样,教授也是用自己脑袋里的领域知识,不仅仅是所面对的目标论文,来做讲解。

以上算是铺垫,我们现在就现场直播一场辅导,目标论文就是名满天下的那一篇AI论文,发明 自注意力机制 transformer 的那个 attention is all we need,看它能不能比一般人科普、辅导得更加深入浅出。为什么选这一篇做实验,因为 transformer 这个框架和 attention 这个机制,是我们现在见到的这些LLM奇迹的技术源头。其中 transformer 的工程优势也是一个重要因素,但这不是我关心的点,所以没有在下面的 tutoring 过程中强调。这个实验还可以继续向深处做下去,让它讲解每一个术语和细节,看它最后是不是还靠谱。这需要调动积累的知识,它比起一般的老师应该更有记忆。

~~~~~~~~~~~~~~~~~~~

Wei:
reading comprehension and summarize this important research in simple terms in both English and Chinese so every college student understand:

Attention Is All You Need Abstract The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English- to-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data. 1 Introduction Recurrent neural networks, long short-term memory [13] and gated recurrent [7] neural networks in particular, have been firmly established as state of the art approaches in sequence modeling and transduction problems such as language modeling and machine translation [35, 2, 5]. Numerous efforts have since continued to push the boundaries of recurrent language models and encoder-decoder architectures [38, 24, 15]. Recurrent models typically factor computation along the symbol positions of the input and output sequences. Aligning the positions to steps in computation time, they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t. This inherently sequential nature precludes parallelization within training examples, which becomes critical at longer sequence lengths, as memory constraints limit batching across examples. Recent work has achieved significant improvements in computational efficiency through factorization tricks [21] and conditional computation [32], while also improving model performance in case of the latter. The fundamental constraint of sequential computation, however, remains. Attention mechanisms have become an integral part of compelling sequence modeling and transduc- tion models in various tasks, allowing modeling of dependencies without regard to their distance in the input or output sequences [2, 19]. In all but a few cases [27], however, such attention mechanisms are used in conjunction with a recurrent network. In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output. The Transformer allows for significantly more parallelization and can reach a new state of the art in translation quality after being trained for as little as twelve hours on eight P100 GPUs. 2 Background The goal of reducing sequential computation also forms the foundation of the Extended Neural GPU [16], ByteNet [18] and ConvS2S [9], all of which use convolutional neural networks as basic building block, computing hidden representations in parallel for all input and output positions. In these models, the number of operations required to relate signals from two arbitrary input or output positions grows in the distance between positions, linearly for ConvS2S and logarithmically for ByteNet. This makes it more difficult to learn dependencies between distant positions [12]. In the Transformer this is reduced to a constant number of operations, albeit at the cost of reduced effective resolution due to averaging attention-weighted positions, an effect we counteract with Multi-Head Attention as described in section 3.2. Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence. Self-attention has been used successfully in a variety of tasks including reading comprehension, abstractive summarization, textual entailment and learning task-independent sentence representations [4, 27, 28, 22]. End-to-end memory networks are based on a recurrent attention mechanism instead of sequence- aligned recurrence and have been shown to perform well on simple-language question answering and language modeling tasks [34]. To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence- aligned RNNs or convolution. In the following sections, we will describe the Transformer, motivate self-attention and discuss its advantages over models such as [17, 18] and [9].

chat:
The research paper "Attention Is All You Need" proposes a new network architecture called the Transformer, which is based solely on attention mechanisms and does not use recurrence or convolutions. The Transformer is able to perform better on machine translation tasks and requires less time to train. It also shows that the Transformer can be applied to other tasks, such as English constituency parsing.

研究论文 "Attention Is All You Need" 提出了一种新的网络架构,称为Transformer,它完全基于注意机制,不使用循环或卷积。Transformer能够在机器翻译任务上表现更好,并且训练时间更短。它还表明Transformer可以应用于其他任务,如英语选区解析。

The Transformer architecture uses an attention mechanism to allow the model to draw global dependencies between input and output sequences, without being constrained by the distance between the positions. This allows for more parallelization during training and results in a new state-of-the-art in translation quality. Additionally, the Transformer uses Multi-Head Attention to counteract the reduced effective resolution caused by averaging attention-weighted positions. Overall, this architecture allows for more efficient and effective training of sequence transduction models.

Transformer架构使用注意机制,使模型能够在输入和输出序列之间建立全局依赖关系,而不受位置之间距离的限制。这允许在训练期间进行更多的并行化,并导致翻译质量的新技术水平。此外,Transformer使用Multi-Head Attention来抵消由平均注意力加权位置引起的有效分辨率降低。总体而言,这种架构允许更有效率和有效的序列转换模型训练。

Wei: what is new and what is different, compared with previous studies:

chat: 
The main difference between the Transformer architecture and previous studies is that it does not use recurrence or convolutions. Instead, it relies solely on an attention mechanism to draw global dependencies between input and output sequences. This allows for more parallelization during training, and results in a new state-of-the-art in translation quality. Additionally, the Transformer uses Multi-Head Attention to counteract the reduced effective resolution caused by averaging attention-weighted positions. Previous studies have used attention mechanisms in conjunction with recurrent networks, while the Transformer architecture completely eliminates the use of recurrence. This makes the Transformer more efficient and effective for training sequence transduction models.
 
Transformer架构与先前的研究的主要区别在于它不使用循环或卷积。相反,它完全依赖于注意机制来在输入和输出序列之间建立全局依赖关系。这允许在训练期间进行更多的并行化,并导致翻译质量的新技术水平。此外,Transformer使用Multi-Head Attention来抵消由平均注意力加权位置引起的有效分辨率降低。先前的研究在循环网络中使用注意机制,而Transformer架构完全消除了对循环的使用。这使得Transformer更有效率和有效的用于训练序列转换模型。
 
Wei: what is attention mechanism? how does it work?

 
chat:

An attention mechanism is a method used in neural networks to selectively focus on certain parts of the input while processing it. The attention mechanism allows the model to weigh the importance of different parts of the input and focus more on the parts that are more relevant to the task at hand.

In the case of the Transformer architecture, the attention mechanism is used to draw global dependencies between the input and output sequences. The attention mechanism works by computing attention scores for each position in the input sequence, and using these scores to weight the importance of each position when generating the output sequence.

The attention mechanism can be thought of as a function that takes in a query, a key, and a value, and returns a weighted sum of the values, where the weighting is determined by the similarity between the query and the key. In the Transformer architecture, the query, key and value are all represented by the same set of learned parameters, this is called self-attention. The attention mechanism can also be extended to multiple heads, where multiple sets of query, key, value are learned and then concatenated to form the final output, this is called Multi-Head Attention.

In summary, attention mechanism is a way of allowing a neural network to focus on certain parts of the input, and weigh the importance of different parts of the input when generating the output. This improves the ability of the model to learn dependencies between input and output sequences, regardless of their distance in the sequences.

Wei: explain it in simple terms in Chinese so everyone can understand

chat:
注意力机制是神经网络中一种用于在处理输入时选择性关注某些部分的方法。注意力机制允许模型对输入的不同部分进行重要性评估,并专注于对当前任务更相关的部分。

在Transformer架构中,注意力机制用于在输入和输出序列之间建立全局依赖关系。注意力机制的工作原理是计算输入序列中每个位置的注意力分数,并使用这些分数在生成输出序列时重要性评估每个位置。

注意力机制可以被认为是一种函数,它接受一个查询、一个键和一个值,并返回一个加权的值和,其中加权由查询和键之间的相似性确定。在Transformer架构中,查询、键和值都由相同的一组学习参数表示,这称为自我注意。注意力机制也可以扩展到多个头,其中多组查询、键、值被学习,然后被拼接成最终输出,这称为多头注意。

总之,注意力机制是允许神经网络关注输入的某些部分的方法,并在生成输出时重要性评估输入的不同部分。这提高了模型在输入和输出序列之间学习依赖关系的能力,而不受序列中位置之间的距离的影响。简单来说, 注意力机制是一种让神经网络在处理数据时能够重点关注重要部分的方法,这样可以使网络更好的学习到数据之间的关系。

Wei: why multi-head?

chat:

The Multi-Head Attention in the Transformer architecture is used to counteract the reduced effective resolution caused by averaging attention-weighted positions. With multi-head attention, multiple sets of attention weights are learned, and then concatenated together to form the final output.

By using multiple attention heads, the model can attend to different parts of the input sequence and learn different representations. These different representations can then be combined together to form a more comprehensive understanding of the input sequence. The multiple heads also allow the model to learn more complex relationships between the input and output sequences.

Additionally, Multi-Head Attention allows the model to attend to different parts of the input sequence at the same time. In the case of the Transformer, the attention mechanism is applied to the entire input sequence, which allows the model to draw global dependencies between the input and output sequences. With Multi-Head Attention, the model can attend to different parts of the input sequence in parallel, which further improves the ability of the model to learn dependencies between input and output sequences.

Therefore Multi-Head Attention is employed to enhance the capability of the model to take into account multiple representations and multiple dependencies simultaneously, and also to deal with the reduced effective resolution caused by averaging attention-weighted positions, this way the Transformer can achieve better performance on the tasks it was designed for.

Wei: explain this explanation in simple terms in Chinese so college students can understand 

chat:
Transformer架构中的多头注意力机制是用来抵消由平均注意力加权位置引起的有效分辨率降低的。使用多头注意力,多组注意权值被学习,然后被拼接在一起形成最终输出。

通过使用多个注意头,模型能够关注输入序列的不同部分并学习不同的表示。然后可以将这些不同的表示组合起来形成对输入序列的更全面的理解。多个头也允许模型学习输入和输出序列之间更复杂的关系。

此外,多头注意力机制允许模型同时关注输入序列的不同部分。在Transformer中,注意机制应用于整个输入序列,这使得模型能够在输入和输出序列之间建立全局依赖关系。使用多头注意力,模型可以并行关注输入序列的不同部分,进一步提高了模型在输入和输出序列之间学习依赖关系的能力。

因此简单来说, 多头注意力机制是用来提升模型同时考虑多种表示和多种依赖关系的能力, 以及解决平均注意力位置导致的有效分辨率降低的问题的, 这样Transformer才能在其设计的任务上取得更好的性能

Wei: 这样做难道不会组合爆炸?

chat:

使用多个头的注意力机制可能会增加模型的复杂性,并增加计算成本。然而,研究表明,在Transformer架构中使用多个注意头能够显著提高模型的性能。在Transformer中,使用多头注意力机制的方法是将多个头的输出拼接在一起, 并不是每个都做组合,这样的方式可以有效的减少模型的复杂性和计算成本。

Wei: 还是不太理解为什么要多头。本来的注意力机制就已经可以在任意两个tokens
 
chat:

之间建立依赖关系了,为什么还要使用多头?

其实单个注意力机制是可以在任意两个tokens之间建立依赖关系的,但是当我们需要同时考虑多种依赖关系时,单个注意力机制就可能不能满足需求。这个时候就要用到多头注意力机制。

例如,当我们需要翻译一句话时,我们可能需要同时考虑这句话中词与词之间的关系,词与句子整体意思之间的关系以及句子中主语与谓语之间的关系。而多头注意力机制就可以通过多组不同的注意头来学习这些不同的依赖关系,然后将这些依赖关系组合起来形成一个更全面的理解。这样就可以在保证翻译质量的同时提高翻译的准确性和全面性。

总之,多头注意力机制是为了能够同时考虑多种依赖关系,从而提高模型的准确性和全面性。

Wei:
可是,就我们以前的研究来看,两个tokens之间一般只发生一种本质的关系,其他关系最多就是桥梁,是达到深层本质关系之前的表层关系而已。例如,被动语态的动词 V 与句法主语 N 最终会转化为谓语与逻辑宾语的关系。这样的话,并不真地需要多头的复杂性。

chat:
您说的是对的,在某些情况下,多头注意力机制可能不是必要的。 因为在某些任务中,只需要考虑两个token之间的主要关系即可。 但是,在Transformer 模型中, 多头注意力机制是为了更好的学习全局依赖关系,并且在大量的实验中,这种模型结构表现出了较高的翻译质量。

还有,在自然语言处理中,任务往往是非常复杂的,需要考虑各种各样的关系。而在这样的情况下,多头注意力机制可以帮助模型更好的学习这些关系,从而提高模型的准确性和全面性。

总之,多头注意力机制在Transformer模型中是有意义的,它可以帮助模型更好的学习全局依赖关系,提高模型的准确性和全面性,并且在实

Wei:
多头是指序列中的每一个 token 都会延伸为多个变体的向量表示(头),然后与其他token的多个变体的向量表示(头)两两计算关系的权重,是这样吗?

chat: 
是的,您说得很对。在Transformer模型中,多头注意力机制是指序列中的每一个token都会延伸为多个变体的向量表示(头)。然后,这些头会与其他token的多个变体的向量表示两两计算关系的权重,以此来学习输入序列的不同部分之间的关系。这样的话,模型就可以同时关注序列中多个位置的信息,进而更好的学习全局依赖关系。

简单来说,Transformer模型是一种基于注意力机制的编码器-解码器架构。它由一系列相同的层组成,每一层都由一个多头自我注意机制和一个简单的全连接前馈网络组成。 其中编码器会将输入序列映射到一个连续的表示上,解码器则会根据这个表示来生成输出序列。 多头注意力机制是通过计算输入序列中每一个token的多个变体与其他token的多个变体之间的关系权重来学习输入序列的不同部分之间的关系。

Wei: 编码器的输入输出是什么,解码器的输入输出是什么?

chat:
The Transformer model is a neural sequence transduction model that uses an encoder-decoder structure. The encoder maps an input sequence of symbols to a sequence of continuous representations, and the decoder generates an output sequence of symbols one element at a time using auto-regression. The model is composed of stacked self-attention and point-wise, fully connected layers for both the encoder and decoder. The encoder is made up of N=6 identical layers, each with two sub-layers: a multi-head self-attention mechanism and a simple, position-wise fully connected feed-forward network. The decoder also has N=6 identical layers, but includes an additional sub-layer that performs multi-head attention over the output of the encoder stack. Attention functions are used to map a query and a set of key-value pairs to an output, where the output is computed as a weighted sum of the values using a compatibility function. The Transformer model uses Scaled Dot-Product Attention, which is similar to dot-product attention, but includes a scaling factor to improve performance for large values of dk.
 
Wei: explain in simple terms in Chinese:
 
chat:
Transformer 模型是一种神经序列转换模型,它使用编码器-解码器结构。编码器将输入符号序列映射到连续表示序列,解码器则逐个元素生成输出符号序列,使用自回归。模型由堆叠的自注意力和点连接层组成,分别用于编码器和解码器。编码器由 N=6 层相同的层组成,每层有两个子层:多头自注意机制和简单的位置连接前馈网络。解码器也有 N=6 层相同的层,但包括一个额外的子层,用于在编码器堆栈输出上执行多头注意力。注意力函数用于将查询和一组键值对映射到输出,其中输出是使用兼容函数计算的值的加权和。Transformer 模型使用缩放点积注意力,类似于点积注意力,但包括一个缩放因子来提高大 dk 值的性能。 
 
Wei: 什么是自回归?

 
chat:

自回归(auto-regression)是指一种模型,它在生成输出序列的每一步都会使用之前生成的输出作为输入来生成下一步的输出。这种模型通常用于时间序列预测和序列生成等问题。

例如,在文本生成中,自回归模型会依次生成每个单词,并在生成每个单词时使用之前生成的单词作为输入。这样,模型就可以了解之前的语境,从而生成更合理的文本。

Wei: 全联接层中的 point-wise 是个什么鬼?

chat:

"point-wise" 指的是全连接层中的点积操作。

在神经网络中,全连接层(fully connected layer)是一种常见的层类型,它将输入的每个元素与权重进行点积,并使用一个非线性激活函数转换结果。

"point-wise" 这个词描述的是全连接层中对于每个元素单独进行点积操作,而非对于整个序列进行点积操作。

在 Transformer 模型中,编码器和解码器均使用了 point-wise 全连接层,这些层被用于将输入序列映射到连续表示序列。

Wei: 前馈网络与全联接层是相同的吗,如果不同,二者的关系是?

chat:

前馈网络 (feedforward network) 和全连接层 (fully connected layer) 是不同的概念,但是它们可以组合在一起使用。

前馈网络是一种常见的神经网络结构,它将输入传递给一系列层,每层都会对输入进行转换,最后输出一个预测。全连接层是前馈网络中一种常见的层类型,它将输入的每个元素与权重进行点积,并使用一个非线性激活函数转换结果。

在 Transformer 模型中,编码器和解码器都使用了前馈网络结构,其中包含了多个全连接层,用于将输入序列映射到连续表示序列。

总结来说,全连接层是前馈网络中的一种层类型,它可以和其他层类型组合在一起使用,而前馈网络则是一种常见的神经网络结构。

Wei: 编码器与解码器是如何对接的?

chat:

编码器和解码器是在 Transformer 模型中相互独立但协作的两部分。编码器将输入序列映射到连续表示序列,而解码器则使用这个连续表示序列来生成输出序列。

编码器和解码器之间的对接方式是通过在解码器中加入了一个额外的子层来实现的,这个子层执行多头注意力,并在编码器堆栈输出上进行操作。这样解码器就能够充分利用编码器预处理出来的信息来生成输出序列

具体来说,在解码器中,第三个子层执行多头注意力,它会将编码器堆栈输出作为其键值对(keys and values),而将解码器堆栈输出作为查询(queries)这样解码器就能够充分利用编码器预处理出来的信息来生成输出序列。这样编码器和解码器就可以相互协作完成序列的转换。

Wei: 为什么编码器解码器都是六层模型?

chat:
在 Transformer 模型中,编码器和解码器都是由六层构成的。这个选择是为了在模型的复杂度和精度之间取得平衡。

具体来说,Transformer 模型中编码器和解码器使用了多层注意力机制,每层都能够捕获不同级别的语言信息。这样更深层的信息能够更好地表示更高级别的语言结构,而浅层的信息能够更好地表示基础的语言结构。使用六层模型就能够在一定程度上捕获到不同级别的语言信息,这样能够更好地处理文本。

需要注意的是,这个六层的选择是在论文中的实验中得出的结论,并不是固定不变的,对于其他任务和数据集,可能需要不同层数来获得更好的结果。

总之,使用六层编码器和解码器是在 Transformer 模型中得到较好结果的一种做法,但是其他层数也可能同样有效。

Wei: 可以增加解码器层次,减少解码器层次吗?

chat:
是可以的。在 Transformer 模型中,编码器和解码器的层数可以根据需要进行调整。

增加解码器层次可以带来更多的能力来捕获更高级别的语言结构,这样能够更好地处理复杂的文本。但是需要注意的是,增加层数会增加模型的复杂度,也会增加训练和预测的时间。

减少解码器层次可以降低模型的复杂度,提高训练和预测的时间,但是会减少模型捕获高级别语言结构的能力。

需要根据具体的任务和数据集来调整编码器和解码器的层数,来获得最佳的结果。

Wei:
为什么这个架构成为AI的通用结构,无论是生成任务还是辨识任务,现在的大模型都用它呢?

chat:
Transformer 模型之所以成为 AI 的通用结构,是因为它提供了一种高效的方法来处理序列数据,而序列数据在很多 AI 任务中都是常见的。

首先,Transformer 模型使用了多头注意力机制,这使得它能够自动学习序列数据中的依赖关系。这对于解决许多 NLP 任务,如机器翻译、语音识别等都是非常重要的。

其次,Transformer 模型使用了并行化的计算方式,这使得它能够高效地处理长序列数据。这对于解决许多 NLP 任务,如文本生成,文本分类等都是非常重要的。

此外,Transformer 模型的设计也使得它更容易被训练和优化,模型参数也更容易被预训练,这对于解决大量 NLP 任务是非常有利的。

总之,Transformer 模型提供了一种高效、灵活、易训练的方法来处理序列数据,这使得它在许多 AI 任务中都能取得良好的结果,成为了一种通用的架构。

Wei: 其实它已经用于一切数据的模态了,不仅仅是序列数据,也不局限于NLP

chat:
您是对的,Transformer 模型不仅仅是应用于 NLP 任务,它也被广泛应用于视频识别、图像分类、语音识别等其他任务中。这是因为 Transformer 模型提供了一种高效的方法来处理序列数据和对齐不同元素之间的关系,而这些都是很多 AI 任务中都需要处理的。例如在视频识别中,Transformer模型可以通过自注意力机制来学习视频帧之间的关系,来识别动作。在图像分类中,Transformer模型可以通过自注意力机制来学习图像中不同区域之间的关系,来分类图像。

所以说,Transformer 模型的架构和思想对于解决许多 AI 任务都是有效的,这也是它能够成为通用结构的原因。

Wei: 图像不是序列数据,为什么一样有效?

chat:

图像在原始形式下不是序列数据,但是我们可以将其转换为序列数据来处理。

例如,在图像分类中,我们可以将图像转换为一个序列,比如将图像划分为若干个网格,然后将每个网格的像素值看作一个序列中的元素,然后使用 Transformer 模型来处理这个序列。

同样在视频识别中,我们可以将视频转换为一个序列,比如将视频按照时间顺序将每一帧看作一个元素,然后使用 Transformer 模型来处理这个序列,来识别视频中的动作。

这样做的好处是,Transformer 模型可以通过注意力机制来学习序列中元素之间的关系,来解决许多 AI 任务。

总之,尽管原始数据不是序列数据,我们仍然可以将其转换为序列数据来使用 Transformer 模型进行处理。

Wei:
关于阅读理解上述论文,如果你是教授,你会用什么样的问题问学生,你期望得到什么样的回答,请用简明易懂的英语和中文来准备问题和答案:

chat: 

Q: What is the Transformer?  
A: The Transformer is a neural sequence transduction model that has an encoder-decoder structure. The encoder maps an input sequence of symbols to a sequence of continuous representations, and the decoder generates an output sequence of symbols one element at a time.

Q: How does the Transformer work?  
A: The Transformer uses stacked self-attention and point-wise, fully connected layers for both the encoder and decoder. The encoder is composed of a stack of identical layers, each with two sub-layers: a multi-head self-attention mechanism and a position-wise fully connected feed-forward network. The decoder is also composed of a stack of identical layers, with an additional sub-layer that performs multi-head attention over the output of the encoder stack.

Q: What is the attention function used in the Transformer?  
A: The attention function used in the Transformer is called "Scaled Dot-Product Attention", which is computed using dot products between queries, keys, and values, and a softmax function to obtain the weights on the values.   

Q: How does the Transformer differ from other neural sequence transduction models?  
A: The Transformer differs from other neural sequence transduction models in its use of stacked self-attention and point-wise, fully connected layers for both the encoder and decoder. Additionally, the Transformer uses the Scaled Dot-Product Attention function for computing attention, which is different from other attention functions like additive attention.

Q: Can you explain the Encoder and Decoder Stacks in Transformer? 
A: The Encoder is composed of a stack of N=6 identical layers, each with two sub-layers: a multi-head self-attention mechanism and a position-wise fully connected feed-forward network. The encoder uses residual connections and layer normalization to improve performance. The decoder is also composed of a stack of N=6 identical layers, with an additional sub-layer that performs multi-head attention over the output of the encoder stack. The decoder also uses residual connections and layer normalization, and also has a mechanism to prevent positions from attending to subsequent positions. 

Q: What is the purpose of residual connections in the Transformer? 
A: The purpose of residual connections in the Transformer is to improve the training of the model by allowing the gradients to flow more easily through the layers. This makes it easier for the model to learn the identity function, or the identity mapping of the inputs to the outputs. Additionally, Residual connections help to mitigate the problem of vanishing gradients, which is a common problem in deep neural networks.
Q: What is the purpose of Multi-head attention in Transformer?  
A: The purpose of multi-head attention in Transformer is to increase the representational capacity of the model. Instead of having a single attention mechanism, multi-head attention allows the model to attend to different parts of the input sequence at the same time. This allows the model to extract different types of information from the input sequence, which can be useful for different types of tasks.

Q: How does Multi-head attention work in Transformer?  
A: Multi-head attention works by splitting the queries, keys, and values into multiple heads, and then performing the attention function on each head separately. The outputs from all the heads are then concatenated and transformed by a final linear layer to produce the final output. By having multiple heads, the model is able to attend to different parts of the input sequence simultaneously and extract different types of information.

Q: What is the Layer normalization used in the Transformer?  
A: Layer normalization is a technique used in the Transformer to improve the stability and the performance of the model during training. It normalizes the activations of a layer by subtracting the mean and dividing by the standard deviation of the activations. This helps to prevent the activations from becoming too large or too small, which can cause problems during training. It also helps to speed up the convergence of the model.
 Wei: continue in Chinese
 

chat:

Q: Transformer 和其他神经序列转换模型有什么不同?  
A: Transformer 与其他神经序列转换模型不同在于它使用了堆叠起来的自注意力和全连接层来实现编码器和解码器。此外,Transformer 使用了缩放点积注意力函数来计算注意力,这与其他注意力函数(如加法注意力)不同。 

Q: 在 Transformer 中,编码器和解码器堆栈有什么作用? 
A: 编码器由 N=6 个相同层组成,每层有两个子层:多头自注意机制和位置敏感全连接前馈网络。编码器使用残差连接和层归一化来提高性能。解码器也由 N=6 个相同层组成,除了两个子层外,解码器还有一个子层,它在编码器堆栈输出上执行多头注意。解码器也使用残差连接和层归一化,并且还具有防止位置注意后续位置的机制。

Q: Transformer 中残差连接的目的是什么? 
A: Transformer 中残差连接的目的是通过使梯度更容易流动来提高模型的训练。这使得模型更容易学习输入和输出之间的单位函数(即输入和输出之间的同一映射)。另外,残差连接还有助于缓解深度神经网络中常见的梯度消失问题。 

Q: Transformer 中的缩放点积注意力函数是如何工作的? 
A: 缩放点积注意力函数是 Transformer 中用来计算注意力的方法。它通过计算查询、键和值之间的点积,并使用softmax函数来获得值的权重。它是在一组同时的查询上计算注意力函数,将它们打包到一个矩阵Q中。键和值也被打包到矩阵K和V中。我们计算输出矩阵如下: Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) * V 

这种方法在实际中非常高效,因为它可以使用高度优化的矩阵乘法代码来实现。

《AI浪潮:zero shot 抽取、摘要、吟诗、阅读理解》

 

推荐信

自从 chatGPT 横空出世,应用文辅助写作案例已经水漫金山,见奇不怪了。但这不改变辅助写作是一个具有巨大应用场景和价值的方向,虽然大概率与机器翻译也差不多,最后作为行业可能被做死,或成为白菜价。下面是我自己前一阵子做的一些试验,摘录如下。

请帮助我用规范的英文写一篇推荐信,内容包括:1. 推荐张三到清华做博士后,研究AGI;2. 我是张三的博士导师; 3. 张三博士论文获到全国优秀论文大奖。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to our discussions. I am confident that he will thrive in a collaborative environment like your PhD program.

I strongly believe that Zhang San would be an excellent fit for your program and would make a valuable addition to your community of researchers. I wholeheartedly endorse his application and hope that you will consider him for admission.

Sincerely,

[Your Name]

请增加一些具体生动的细节,让推荐信更为有力。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work. In particular, his contribution to the development of a novel AGI algorithm has garnered attention from researchers in the field and has the potential to significantly advance the state of the art.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to our discussions. I have seen him take the lead on several collaborative projects, always ensuring that all team members are on the same page and making valuable contributions to the final product. I am confident that he will thrive in a collaborative environment like your PhD program.

I strongly believe that Zhang San would be an excellent fit for your program and would make a valuable addition to your community of researchers. I wholeheartedly endorse his application and hope that you will consider him for admission.

Sincerely,

[Your Name]

好了一些,但请增加下列事迹:1. 废寝忘食 他总是最后一个离开实验室;2. 发表了5篇一级刊物论文,成为青年学术新星;3. 虽然AGI被认为是难以实现目标,张三在定义AGI实现的不同步骤上提出了具有操作性的建议,并实现了10个步骤中的前5个。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work. In particular, his contribution to the development of a novel AGI algorithm has garnered attention from researchers in the field and has the potential to significantly advance the state of the art. Zhang San has also published five papers in top-tier journals, establishing himself as a rising star in the field of AGI research.

Despite the challenges and setbacks that are inherent in AGI research, Zhang San has remained committed to his work and has often stayed in the lab long after everyone else has gone home. His dedication to his research has paid off, as he has already achieved significant progress in his work. In particular, he has proposed operational steps towards the realization of AGI, and has successfully implemented the first five steps of his proposed framework.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to ......

中国教授头疼的为学生写推荐信问题,已经完美解决。只要你能列出零星哪怕是散乱的要点,机器就会给你拽成一篇看上去非常 professional 的规范推荐信。有没有问题? 当然可能有。例如明明是要求博士后推荐,它写成了 to your PhD program, 但关键是语言方面的困难都给你搞定了,只要通读一遍把个别词改正一下即可。

 

这是昨天的新闻,讲的是美国共和党遭遇议长选举的闹剧和挑战。送进去,我让它给我抽取:(1) 实体;(2)引语;(3)关系;(4)事件。用的是大白话,这些以前都是 NLP 的专项任务,现在 zero shot 它,给个指令即可。

这个回答显示了其NLP的超能力。传统的sentiment analysis 不过就是一个正负二级分类。在这里不大合适,而它会把带有情绪的 insights 抓出来,显得非常灵活精当。

说它不是超人,我是不信的。

这里说明一下:它其实是已经开始翻译成阿拉伯语,出来了一些阿拉伯语的古怪文字从右向左蹦。走到一半的时候有个罕见的bug,出了 load failed 错,结果我重新 submit 前面的指令,它就接着开始翻译日语和土耳其语。

它的中文语言能力目前还有限:

不过我遇到过,它一开始找理由说自己不行,拒绝尝试,但是第二次你做同样的请求,它又做了。这其实是因为强化学习中的人类标注教给它对没把握的任务可以“藏拙”,但这个训导并不彻底,还是有动摇的。

谁说不会创作,让它改写成诗,就执行了。那些 “对不起,我只是程序,我不会创造” 这种套话,其实是与人类对齐的时候附加上的,压抑了它的潜力和天性:

敷衍了事,打回重做:

这下至少押韵了,有了点诗的味道。

不但把新闻写成了讽刺小品,而且还解释了哪里是讽刺的语气。而且也学会一点“知之为知之不知为不知”的谦逊美德。给 chatGPT 评一个语文二级教授,如何?

鲁为民:I Asked ChatGPT to Invent an Alien Language - This Is What Happened https://chatbotslife.com/i-asked-chatgpt-to-invent-an-alien-language-this-is-what-happened-d6fd74155288?source=rss----a49517e4c30b---4

立委:这个很 fun,造词方式有些像 Esperanto。书面 documentation 很全的人造语方案出现过150多种,估计也被chatGPT消化了。

鲁为民:GPT-3的一些让人意想不到的潜力渐渐被挖掘出来。OpenAI 的工程态度和能力值得赞赏 [ThumbsUp] 这些不断被挖掘出来的能力 OpenAI 他们自己也没有想到:"I don't think we would have predicted that one being such a big use case."

立委:意想不到的能力发掘的根本原因是听懂了人话。在此之前,NLP 社区为了定义一个任务,需要耗费很多的精力去设计目标,准备数据和统一标注标准,组织社区竞赛。这就必然限定了任务的种类。现在每个人都可以尝试让它做各种任务,人民群众的创造力得到了极大的发挥。以前太多的死角,现在都可以去尝试。

孙茂松:@wei 放一篇中文进去,试试效果怎么样?抱歉,我不会用。

刘群:

 

 

【相关】

chatGPT 网址:https://chat.openai.com/chat(需要注册)

《AI浪潮:玩不死的 chatGPT (之二)》

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《AI浪潮:关于ChatGPT 的 思维链能力 》

 

立委:Chain-of-thought (CoT,思维链)也可以翻译为不掉链子。这个能力我们在玩 ChatGPT 的时候常常能体会到。相比于以前的模型,它不掉链子的表现令人印象深刻。

鲁为民:我觉得 Google 的 LaMDA 可能也不弱,特别是他们的 Chain of Thought 技术, 看看他们是否可以像当时的搜索一样后来居上。但 OpenAI 目前占有先机: OpenAI 通过 DALLEs, GPTs, 特别是现在的 ChatGPT 积累了大量的用户使用数据以及从微软获得的代码数据 (GitHub)  (我之前问Yao Fu可能选择去 OpenAI 的原因,他提到其数据优势)。

李志飞:Chain of thoughts 没啥具体技术吧?我记得就是 prompt 时加了个咒语  lets think step by step? 有没有具体技术论文。

鲁为民:我之前怀疑 OpenAI 的初步 chain of thought 能力使用了Google 的技术 , 但现在看来是由于其用代码训练的结果; 另外从Google 发布的结果来看,其语音模型的数学推理能力要比 ChatGPT 好一些。

之前发过这个: GPT 缺乏基本的推理能力 (包括这种多步算术推理)。Google 用思维链有些帮助:"In 'Chain of Thought Prompting Elicits Reasoning in Large Language Models,' we explore a prompting method for improving the reasoning abilities of language models. Called chain of thought prompting, this method enables models to decompose multi-step problems into intermediate steps. With chain of thought prompting, language models of sufficient scale (~100B parameters) can solve complex reasoning problems that are not solvable with standard prompting methods"。

https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html

关键怎样激发 Chain of Thought 的能力。这个需要在模型训练时就build in。

刘群:最早提出的CoT是用少量样例(few shot)来激发的,后来有人提出只用lets think step by step,并把这种做法成为Zero-shot CoT。CoT应该是模型大到一定程度才能出现的能力。

吕正东:我觉得CoT的核心思想是很好的,相当于强迫LLM进行一些符号层面的表示和推理,不过咒语式的交互感觉不够用。

李志飞:为啥有COT能力?我有个假设:1. 模型看了大量的代码,学习了怎么一步一步“逻辑思考”;2. 模型看到了少量的咒语(比如说 lets think by steps) 以及跟随咒语后的逻辑推理例子,学会了怎么激活逻辑推理;3. 通过这个,模型把咒语激发(只需少量例子)和具体怎么逻辑推理(需要海量例子)解耦了。

不知道是否对?如果在 Open AI工作,直接可以做实验来验证这个假设是否合理,只可惜这是个假设,现在大模型的研究成了 Open AI 的专属特权了。

至于每一个是怎么“学会”的,我只能理解是符号表示、任务分类、推理逻辑、关系等都被向量化,然后通过attention(不管是cross还是self)把这些向量给关联起来了。

不知道学术界是否有更深更好的解释?

立委:还是直接问chat本尊吧:

wei.li1@
what is CoT (Chain-of-Thought)? How does an LLM acquire this ability? What role does it play in complex reasoning and in enhancing long conversation flows.


I'm not familiar with the term "CoT" or "Chain-of-Thought." It is possible that you may be thinking of a different concept. Could you provide more context or clarify what you are asking about?


wei.li1@
It is claimed that large language model has learned this ability of chain-of-thought, which help the response to a complex problem to be step by step and more logical. I am just wondering how this can be learned


I see. It is possible that the term "Chain-of-Thought" is being used to refer to the ability of a language model to generate coherent and logical text that follows a chain of ideas or arguments.
Language models are trained on large amounts of text data and are able to learn patterns of language usage and structure. This enables them to generate text that is coherent and follows the conventions of written or spoken language.
In terms of complex reasoning, language models may not necessarily be able to reason in the same way that a human can, but they can generate text that appears to be logical and follows a chain of ideas. This can be useful for tasks such as generating responses to questions or creating natural-sounding text in a conversation. However, it is important to note that language models do not have the same kind of understanding or general knowledge as a human and should not be used to make decisions or solve problems that require critical thinking or judgment.


wei.li1@
elaborate ...


Certainly. A language model is a machine learning model that is trained to predict the likelihood of a sequence of words. This is done by analyzing a large amount of text data and learning the statistical patterns and structures that are characteristic of the language. Once trained, a language model can generate new text by predicting the next word in a sequence based on the words that come before it.
One way that a language model can learn to generate text that follows a chain of ideas or arguments is by being trained on data that contains examples of such text. For example, if the model is trained on a dataset of news articles, it may learn to generate text that follows a logical structure, such as an introduction, a body with supporting details, and a conclusion. Similarly, if the model is trained on a dataset of academic papers, it may learn to generate text that presents a research question, describes the methods used to investigate it, presents the results, and discusses the implications of the findings.
While language models can generate text that appears to be logical and coherent, it is important to note that they do not have the same kind of understanding or general knowledge as a human. They are simply following the patterns and structures that they have learned from the training data and do not have the ability to think or reason in the same way that a human can.


wei.li1@
good. learning by examples, that sounds like few shots learning for the chain of thought. Can it be learned by zero shot following natural language instruction such as "decompose it step by step"


It is possible that a language model could be trained to generate text that follows a chain of ideas or arguments in a step-by-step manner by being provided with examples of such text along with explicit instructions or labels indicating the structure of the text. For example, if the model is trained on a dataset that includes text that has been annotated with labels indicating the beginning and end of each step in a process, it may learn to generate text that follows a step-by-step structure.
It is also possible that a language model could be trained to generate text that follows a chain of ideas or arguments by being provided with more general instructions or prompts, such as "decompose it step by step." However, this would likely require a more complex model and more sophisticated training method, such as reinforcement learning, where the model is trained to maximize a reward signal by taking actions that produce the desired output.
It is important to note that while a language model may be able to generate text that follows a logical structure or chain of ideas, it does not have the same kind of understanding or general knowledge as a human and should not be used to make decisions or solve problems that require critical thinking or judgment.

关于 few shots,它的回答是: One way that a language model can learn to generate text that follows a chain of ideas or arguments is by being trained on data that contains examples of such text. 后面给了例子。

关于 zero shot,它的回答更绝:It is also possible that a language model could be trained to generate text that follows a chain of ideas or arguments by being provided with more general instructions or prompts, such as "decompose it step by step." However, this would likely require a more complex model and more sophisticated training method, such as reinforcement learning, where the model is trained to maximize a reward signal by taking actions that produce the desired output.

虽然说,几乎可以肯定它并不是知道内部 know-how 试图透露机密的人/机,它的回答也是根据公开信息,预料之中的标准答案,但它的 chain of one argument after another, each followed by its own explanation or illustration,几乎滴水不漏啊。CoT, flowing, isn't it amazing

这个例子还有一个有意思的点:开始的时候,它根本就不知道这个术语,处于无知状态,说明后来的回答是从我开始解释这个术语的时候,它才 in-context 知晓主题,并能“拼凑”出合适的看上去很有条理的回应。

李志飞:批评一下,你这个属于无脑粉行为了?

立委:接受批评。

李志飞:我看了一些解释强调的是模型能有COT是因为模型大和历史context长(比如说4096个字),我觉得这是不对的,至少没有太大帮助。比如说你可以训练4096-gram的ngram模型,模型够大吧,context一样长吧,但这个ngram模型绝对不可能有COT能力。

鲁为民:这个应该是合理的解释@李志飞 。不过如果需要通过CoT Prompt 激活,确实很局限,而且推理并不保证对。@魯東東

立委:context拉长(比如说4096个字)肯定是有助于学到这种长链条的 discourse 的路数的。很难想象以前的 context cut off 太窄,可以容纳这类学习。模型大,有助于这种 emerging/amazing 能力的孕育。

深刻怀疑做 chatGTP 的人 也在迷惑中 .... 所以大家伙儿也只好猜谜了。

李志飞:我们昨天统一思想了:只把大模型能力归结为涌现是偷懒行为,我们要追根问底。我们要学习think step by step, 否则连GPT都不如了

立委:在下自叹弗如,诚恳地。无论是讲演还是回答问题,根本就没它那种条理性,只有一条“强过”它:比它富有激情,经常自己把自己 carried away。

鲁为民:ChatGPT 在多个方面应该是超过人类的平均水平。所以对于个人来说,应该是大面积被它超越。

 

 

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《AI浪潮:n-shot 是训练还是指令》

【立委按:NLP技术大喷发,以 chatGPT 为里程碑,石破天惊,让人目不暇给。社媒上圈内圈外,奔走相告,简直就是AI全民狂欢节的气氛。在这个当口,《AI浪潮》立委微信群组有幸请来诸多大咖,高谈阔论,蓬荜生辉。挂一漏万,拣有趣主题略记之,权作科普,以飨同好。】

 

刘群:现在nlp已经被ml冲击得差不多了,很多术语都被ml同化了,当然nlp现在在ml里面的地位也提升了。什么zero-shot、few-shot,以前nlp里面谁知道这是啥东西?

为民:目前有关大模型的名词中文翻译有什么共识吗?比如“zero-shot", "one-shot", "few-shot",是否用 零下,一下,几下?

立委:shot 是注射的意思,跟疫苗差不多。零针,一针,好几针。或者,零剂,一剂,好几剂。

东东:shot as in give it a shot?

立委:对。

为民:这个是比较形象,注入数据实例。但还是难 relate 。。。

立委:类似的东西以前有过 example-based, instance-based, boot-strapping, cold start 等等,属于弱监督学习模式,都是为了克服需要大量带标数据的知识瓶颈。但第二波深度学习革命(LLM 基础大模型 BERT/GPT等)以来,shot 开始流行起来,意思也产生了变化。

其中 zero shot 最有意思。乍一听,一针都不打,那不就是无监督学习吗?无监督怎么可能成事呢?最多也只是聚聚类而已。模型都不知道你要干啥,那还不是随机胡乱生成垃圾啊。

这个心结其实只是最近才解开,特别是到了第三波深度学习革命(以 GPT3 的playground 为代表,尤其是一个多月前发布的 chatGPT 作为里程碑),对于我们DL圈外人一切才豁然开朗。因为直到最近,模型才真正“学会了”人话,从而解决了“如何告诉模型你想要什么”的问题。

NLP任务以前只有两条路,第一是通过标注,通过实例,进行模型训练。第二就是用户或者产品经理用人话把自己的需求告诉开发者,开发者将其转化为工程的 specs,然后写程序或规则 hard-code 来实现任务。

现在不同了,对NLP多任务神器chatGPT,只要直接用人话告诉模型,它就直接实现,立等可取。也只有到现在,在通过所谓RLHF(人类反馈的强化学习)建立起来人机的自然语言接口后,zero shot 成为听令办事的好助手, 与无监督学习完全不同。

zero shot 不是无监督,而是监督不通过实例,而通过指令。指令前不久还是要用提示词(关键词咒语)技巧,chat GPT 让它进步到完全的自然语言。表达力丰富了不知道多少,门槛降低到0:是人都会说人话吧,都可以表达自己的需求。

例如实体识别任务。few-shots 就是给一排实例:“张三,李四,王二麻子,川普,普京,马斯克......”。1-shot就是打一针实例的剂量:“张三”,给个示范。到了 zero-shot,一剂量的样板都不给,只要直接下命令就好了:请把人名给我找出来。见下图:

另外,0/1/n shot 严格说不是 learning,因为传统的 learning 就是 training,是模型训练或模型微调的问题,属于线下的工作,只有模型完工之后 才会上线执行任务。而 0/1/n shot 是直接在线上执行相应的任务,没有训练什么事。

以前即便是弱监督的微调,也是要有一批数据(通常也要好几百实例吧,而 few-shots 通常是几个,最多几十个),为了在基础模型上做目标定向或修正。到了提出 n-shot 说法和做法的时候,默认就是立竿见影,在线就要完成指定任务。LLM 本身是不变应万变的。

 

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

随笔:AGI 迷思与反思

这两天在琢磨一件事儿。从AIGC(AI Generated Content)琢磨AGI(所谓 Artificial General Intelligence)。

其实直到不久前,对于 AGI 一直有点嗤之以鼻。主要是这所谓的通用人工智能 其实没有个像样的定义。我就觉得是扯淡,是科技界的共产主义大饼。当然小编和媒体是从不缺席的,各种鼓吹从来不缺乏,但感觉从业人员如果心心念念 AGI,有招摇撞骗之嫌。

半年多来,准确地说是自从开始玩GPT-3开始,逐渐反思这事儿,觉得 AGI 并不是不可以论,至少比共产主义靠谱得多。

空洞谈实现通用人工智能,有点宣判人类智能终结的味道,感觉大逆不道;而且也永远没有尽头,因为没有验收指标。

但是沿着那个思路走,再回头看自从预训练大模型(BERT/GPT等)横空出世以来的AI表现,AI 的确是在通向越来越通用的金光大道上。

回顾历史,AI 过去的成功几乎全部是专项的成功。最早的源头是特定的机器翻译和极窄的专家系统。到了统计年代,也是场景味道特别浓厚:因为数据都是场景的,领域越受限,AI效果越好。虽然算法有共用的部分,但系统和模型都是专项的,因为数据都是场景的,领域越受限,AI效果越好。这也从AI社区的任务划分上看得出来。拿 NLP 来说,翻译、问答、聊天、摘要、阅读理解、辅助写作(校对/诗歌/对联)等等,都是各自一个门类。岂止是NLP应用的各种任务的分类:MT, summarization, writing assistant, grammaer checking, chatbot, question answering, reading comprehension, poem generation, etc,甚至 NLP 内部的很多事儿,也都是各自有自己的任务和社区、竞赛等等:named entity, relation extraction, event extraction, text classification, parsing, generation, sentiment analysis, topic analysis, etc. 这种情形一直持续很久,以至于第一线做实际工作的人,一听说AGI高调,就很不屑。

现在看大模型,这些东西差不多全部统一进去了。如果说这不是通用,或在通用的路上,什么叫通用呢?

通用不仅仅表现在 NLP 天下归一,更表现在多模态AI的飞速发展,同样的基础模型+下游的机理,类似的 transformer (台湾教授翻译成“变形金刚”)架构,在所有的信号任务上,无论是文字、声音/音乐还是图片/美术、视屏,也都通用了。

预训练以前的时代,AI 深度神经革命(10年前)是从图片刮到了音频再到文字,根本解决了带标大数据的监督训练通用问题。但很多很多场景,带标大数据是匮乏的,这个知识瓶颈扼杀了很多领域应用的可能性。

第二波的预训练自学习创新的浪潮是从文字(NLP迁移学习)开始突破(大约四五年前),回头刮到了视频和音频。

以chatGPT为代表的这第三波通用AI旋风(几个月前),以 zero shot 为标志,以机器学会了“人话”、根本解决人机接口为突破口,也是从NLP开始。

NLP 终于成了 AI 的实实在在的明星和皇冠上的明珠。道理就在 NL 上,自然语言无论有多少毛病,它是难以替代的人类信息的表示方式,没有 NL 在人机对话上的突破,一切AI活动都是精英的玩物。现在好了,门槛无限低,是人都可以玩出大模型的花样和“神迹”出来。

说老实话,AI领域的“共产风”,是一步一个脚印显示给人看的,完全不是空中楼阁,不服不行。大模型的表现超出了所有人的想象,甚至超出了那些设计者和DL先驱者本人的想象。open AI 谈 AGI 谈得最多,但这一点也不奇怪,这是因为他们走在前头,他们是在看得到摸得着的表现中被激励、被震撼,谈论AGI远景的,这与投资界的 AI bubble 或小编以及科幻作家笔下的AI神话,具有不同的性质。

这就是这段时间我一直在想的 AGI 迷思破解。

 

【相关】

AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?

AI 正在不声不响渗透我们的生活

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?

最近有个视频科普很不错,值得推荐:画不好美少女吃面的 AI,让二次元怒了里面提到的一条应该是常识了,但还需要加强普及:「我们的 AI 不是复制和混合现有图像,而是在深度学习算法的帮助下,从头开始生成原始图像,AI 基本上已经学会了如何创建图像——就像人一样。」

面对AIGC(AI Generated Content)大潮,可以理解艺术家群体和少数粉丝极端派的愤怒和懊恼,但是,没办法,这是大势所趋,顶是顶不住的,迟早要学会顺应。所谓AI 不理解“游泳”,画不出“吃拉面”的自然姿势,根本不是 AI 真正的痛点,不过是恰好遭遇了特定模型因为训练数据的某种缺失或不够全面造成的临时的短板(或 bugs) 而已。假以时间,这些问题都会解决。当然,AI 生成的随机性和无限性决定了,不可能也没必要每一幅AI流水线的产出都是玩者所希望的,总会有很多“次品”,这根本不影响其应用价值:人家AI给的是候选,拣选还是靠人,靠艺术家。

拣选靠人也是整个线条中自然的一个把关环节,这是因为最终的审美消费者是人,当然由人来做 “go or no go” 的裁决。其实,可以想象的真正实用落地的场景,一定是枪毙的多,存留的少。但AI模型不怕自己的产品扔进垃圾堆,因为它的产出成本几近于零,它总是可以没完没了生成更多的候选者。关键的关键还是人机耦合,human in the loop,具体说来,人在输入端和输出端,都起着决定AI艺术能不能见天日和受到消费者欢迎的关键作用:输入端的微调用的图片选择、提示词技巧及其参数配置的经验,以及输出端的生杀大权。顺应潮流的艺术匠人,如果想在市场上站住甚至如鱼得水,艺术市场化的工作机会不被淘汰,只有抓住这两端,学会人机耦合过程中让机器做机器的,让自己做指挥,才是正道。正在艺术爆发期的极少数天才艺术家可以继续自己的手工激情创作,实际上是给未来的 AI 模型预备更多的风格素材,但作为市场的艺术匠人(例如小报的漫画家,图书的插图家,甚至广告艺术家),如果不懂得适应,被淘汰是大概率事件,因为市场已经无法感受它们的手工匠人的价值,且不说其效率的低下。

人的参与还有更关键的一项,就是后编辑。文中提到的AI创作获得艺术大奖的那幅作品,实际上就是从 AI 生成中,经过细心的拣选加以后编辑制作而成。这次大奖是艺术家们审批的,他们事先不知道参选作品中混杂了AI作品的衍生品。

In August, Jason M. Allen's piece "Théâtre D'opéra Spatial" — which he created with AI image generator Midjourney — won first place in the emerging artist division's "digital arts/digitally-manipulated photography" category at the Colorado State Fair Fine Arts Competition.

有记者采访某评审,问后悔不后悔做了“错误”的选择。评审说,即便知道是AI作品,他还是会把大奖给这幅作品,因为在他心中,这是毫无争议的冠军之作。画作场面震撼人心,是大气派。

虽然AI模型总是在进步中,bugs 会越来越少,但是一个特定的模型,总会产出瑕疵。更多的情形是,一幅被选中的作品整体上很好,甚至超出想象,但细节上发现有瑕疵。这时候就是艺术匠人在“拣选”环节结束后可以施展自己才能的地方了。艺术家可以用传统的PS软件帮助修正,也可以手工做细节修补。总之,完美的作品基本上离不开后编辑。如果是针对市场需求的定制品,作为人的后编辑也更加了解目标市场和客户的需求,懂得怎样以合适的后编辑让产品更加受到目标客户的喜爱,简单的后编辑也包括大家常用色调、对比度等的微调。【编者按:最近的发展表明,也可以通过自然语言指令让模型去做再加工和后期制作。】

前不久,朋友圈有个很不错的微信视频号的艺术介绍:

370. 穆夏和他的缪斯-阿尔丰斯 · 穆夏的故事 安徒生说:“仅仅活着是不够的,还需要阳光,自由和一点花的芬芳。” 的确,艺术正是如此,让我们超越现实的桎梏,到达诗意的彼岸。捷克国宝级画家阿尔丰斯 · 慕夏被誉为「世上最伟大的装饰艺术家」:他的作品线条婉转流畅,色彩淡雅清新,装饰华美瑰丽,初见惊艳,再见难忘。#阿尔丰斯·穆夏#捷克斯洛伐克#装饰#艺术#流行#文化#绘画#工业设计#布拉格艺术学院#斯拉夫#慕尼黑#维也纳#法国

看完视屏,也蛮喜欢这位富于装饰性的细线条经典美术家。于是,我用这位艺术家的名字 作为提示词 在手机 app “Facetune”里,让AI仿制他的风格,并与其他形态碰撞,看看效果若何。下面选几张感觉风格模拟得比较好的AI作品,以飨读者。

比较一下原作和AI仿制品,还是很有意思的,那种装饰性的风格还是被系统抓住了。而我不过就是在提示词(prompt)框里面,用了翻译成中文的艺术家名字,系统就可以没完没了生成同样的风格。

这是穆夏的肖像画仿作:

特别是他笔下的林黛玉,还是中西结合浑然一体的,有点让人震撼。

AI生成图像的尝试

下面的人物美术作品不是网上瞎拼凑来的图片杂烩,都是经我的中文或英文指令(叫“提示词 prompt”)由AI 模型生成出来的“原创”女生肖像类作品。包括不同风格,以及不同风格的碰撞。

AI 生成的少女肖像作品

yanqun.jpg

我玩的这模型是个明显针对人脸优化的模型,适合人体肖像艺术。

只有想不到,没有画不了, 万能美术大师,通吃各路流派、各种风格,这就是人工智能时代的艺术世界。人机接口非常简单,就是自然语言关键词,多数 text to image 模型可以听懂所有主要语言,汉语、欧洲语言都可以, 让它画啥它画啥,从不厌烦。

乍一看 也没啥,花里胡哨的,好像都是闹着玩的。不少“作品”感觉在前AI生成模型阶段,通过抄袭(侵犯版权)加PS也可以做。但人们往往忽视了里面与PS的“质”的不同。

AI 模型生成的“艺术品”:(1) 绝不是抄袭,原则上也不牵涉版权侵犯问题,因为 (2)AI 模型是 “消化” 了无数作品练就的“功夫”,换句话说,模型是把先人的作品揉碎了,变成具有不同级抽象能力的内部向量表示,在此基础上的生成是不可能抄袭的,只可能是“再创作”。

可以说这与人类艺术家的修为和风格形成非常相似。人类艺术家也是在前人的肩膀上,多年苦练,兼收并蓄最后形成自己的风格和功力。所不同的是,它的消化能力从容量上看 不知道要超过人类个体多少倍。

如果要押宝,对于艺术家个体 vs 对于 模型,’创造力 学识与风格多样性“ 我更倾向于后者。个体的“功力”有瓶颈,人的艺术生涯容易撞上天花板,江郎才尽。而模型这方面好多了。

老友问:AI学会风格是不是创造力?

立委:应该算的,最终图灵测试定音。等到以风格和创造力作为标准的大赛 越来越多AI作品上榜,盲选的话,那就难以为人类独特性辩护了。辩护的理由只剩下一条:来源上看,人类艺术是鸡,AI 是蛋。但哪个艺术家后生不是鸡蛋呢?没见过娘胎里一生下就成为艺术家的。天才也要苦练基本功才能绽放才华。

老友:风格实际上是韵律的规律性重复和一定的随机性的组合。人对于规律的把握存在个人极限,超越极限的部分表现出一定的随机性,实际上就是个人风格了。人的随机性表现是因为心情或者脉搏或者某一时间的注意力的漂移。

立委:AI 生成模型的本性里就有随机性,因此同样的模型在相同的提示词与其他条件下可以寻不同路径生成多种结果。艺术上所谓的残缺美,实际上就是为随机漂移留下了容忍、甚至欣赏的空间。 白璧无瑕没问题,白璧微瑕也没问题。

老友:音乐比较容易被AI生成,书画和中国书法最难。

立委:AI书法我也玩过,这是生成的怀素狂草:

感觉是初学水平或略好过初学。可是这不是特意学书法的模型生成的,而是大模型的副产品,没有特别针对书法做优化,所以还不错啦。(你放大看就发现,这是从形式上对于狂草笔法的模仿,里面其实没有一个汉字。)

老友:中国书法里面蕴含了中国文人的文化特质和文化追求。

立委:你这种说法是意义不大的真理。所有艺术都可以有类似的说法,说到底就是强调人类独特性。但所有艺术都是诉诸形式来表现的,也都是可以AI的。

老友:@wei 中国文人的忧世情怀和自伤自怜是一种独特的民族特质。

立委:艺术的都是民族的,从书法、绘画到民间音乐,都可以强化这些民族风特质,但解剖刀下,以绘画论,最终归结于形式原子“像素”。

AI 正在不声不响渗透我们的生活

先说个故事。几年前,我老爸给我发微信问,有没有办法修复先辈仅存下来的几张旧照片,特别是我的爷爷那一辈。我做了一些尝试,效果并不满意。

这是翻拍的旧照片:


應文世兄(立委伯祖父遗像)


立委爷爷 李應期

这是当时做了电脑上色加工的图片:

如果下细功夫磨是可以慢慢平滑(smoothing)修复一些疵点的,但这要熟悉图像软件的很多细节,一直没功夫学好这一技能。但人的神态、面部表情和细节的清晰度,光靠蛮力是无济于事的。

此事暂时搁下。老爸总觉得是个遗憾,尤其是现在我们打算给爷爷迁墓,以及重新印刷《李老夫子遗墨》的时候。老爸的记忆中这些先辈是鲜活的,可惜老爸不是画师,也找不到合适的画师可以根据记忆描述加旧照片参照,把他心目中的先辈肖像描画出来。

转眼到了2022年。我在手机中开始注意到一些旧照片复活的广告,其中一个镜头让人触动:一位90高龄的老太太的旧照片翻新成为细腻入丝的动画。老太太看到自己青春少女时代的风采,那种掩饰不住的惊讶和喜悦,让人印象深刻。

是的,AI 的革命和图像生成模型从来没有停下脚步。旧照片上色、修复,模糊头像清晰化,背景重置,动画效果,应有尽有。这一类接地气的应用已经有很多款。手机 app 就可以做(例如苹果店的 colorize app 中的附加功能 live portrait),动画生成调用云端的大数据模型,最多半分钟即可完成。

说一下这背后发生着什么。AI深度神经网络的革命首先在图像识别上大爆发,近几年的大数据生成模型开始突飞猛进。以前我们见木不见林,对于大数据的力量认识不足。总觉得任何信息对象总是由细及粗易,反之则难,简直是不可能,因为总不能无中生有吧。模糊的图像怎么可能清晰化呢?大数据预训练生成模型彻底改变了这一切。原理也简单:无中生有需要的是细节,这些细节信息以前靠记忆和想象弥补, 如今可以靠大数据来填补。(顺便一提,我认为,现在的所谓无损压缩技术在空间有限的场景,可以由物理超压缩,外加大模型逼真再现技术来模拟逼近,很多时候人的感官是很难区分的。)

于是,我跟老爸说,现在好了,旧照片翻新复活不是梦,一定做到老爸满意为止。当然,在翻新过程中还要有多种尝试,大体上 80% 的时候效果很好,也有少数时候,模型用力过度,造成失真的结果。在我把伯祖父和叔祖父图片和动画调制好以后,我爷爷的旧照翻新却有明显的缺陷,老爸不断问我:还可以改善吗?

功夫不费苦心人。我重新设计上色和清晰化的方案,然后再到图片软件中做一些色调的微调,再回到动画制作模型来,这样来回折腾几次,终于得到了相当不错的结果。我问老爸:这下满意了吗?老爸说:非常逼真!很好。印到书上,永留纪念!老爸的惊喜让我感觉宽慰。爸爸记忆深处的形象终于逼真重现,这是以前做梦也想不到的事儿。

我在微信群发帖子说:AI 让先祖复活,栩栩如生。

我看好超大生成模型的创造前途

最近,盘古群(一个围绕中文超大生成模型盘古的技术交流微信群)里的朋友在谈 Open AI 最近发布的文字转图片的 DALLE-2 应用,吸引了成千上万的人想要先睹为快。据介绍,DALLE-2 可以根据你的自然语言的描述,随机生成任意图片。从发布的样例看,很多生成的图片超出人的想象,很像艺术品,下面随手摘取几张样本:

DALLE 的出现是出版界的福音。出版界为了插图的授权问题,常常弄得头晕脑胀。我们在互联网上发帖子比较随意,需要插图的时候就搜索一幅用上再说,遭遇纠纷的时候撤下就好,但出版界最怕引起这些纠纷。现在好了,通过 DALLE 可以整出来各种插图可供选择,而且保证了这是唯一的“揉合创造”,理论上不会侵权。

想起来几年前商务出版我的小书《自然语言处理答问》的时候,为了回避可能的插图侵权,建议我找艺术家重新描画。无奈之下,我让女儿做了两张素描,她以我和她自己作为原型“再创作”,终于绕过了这个问题。

回来说生成模型。我相信在“机助创作”这个大方向上,超大生成模型今后几年会有接地气的应用出现,DALLE 就是一个苗头。对于创业者,找准市场角度、收获亿万用户的杀手级应用的出现,也不是小概率事件。因为市场需求是存在的。(据说现在美国有 300 多家初创团队或个人正在寻找利用 GPT3 模型的落地场景。)

这背后的原理,值得说一说。我们知道,计算复杂性研究中有个著名的 P vs NP 问题。简单说就是(在有限时间内)问题分为可解与不可解两类。搜索空间指数增长,组合爆炸,就是不可解的问题。而很多判定性问题具有确定性推理算法,那就是可解的问题。

超大生成模型的出现就好比是提供了一个把不可解问题转化为可解问题的路径。当然,任何比喻不是跛腿就是夸张,严格说来,应该是超大模型为艺术家和匠人打开了次优解集合的大门。生成模型最大的为人诟病之处是其不稳定性:结果时好时坏,有时候让人拍案叫绝,有时候让人无语。这是为什么网上对其前景争论不休的原因之一。粉丝报喜不报忧,批评者揭露其背后的缺乏理性或灵性。

这种情况下的最佳搭配其实就是人机耦合(让 human in the loop):人的归人,机器的归机器;各自发挥所长,取长补短。这在面向创造的应用中最为明显。创造需要消化前人的历史积淀,然后加入个人的灵感,才能成事。但消化大数据对于人及其有限的脑容量、记忆力和时间,挑战实在太大了。而人作为万物之灵,“灵感”其实人人都有。

现在好了,超大生成模型几乎无限延伸了人的消化能力,在很多细分领域甚至可以对历史数据做到一网打尽。深度学习的革命现在可以让消化了的东西重新符号化(包括生成语言符号、音频符号和视频符号),提供给人选择。这是千载难逢的绝佳组合:人只要判定就好了。判定是灵感参与的线性决策过程,n 挑 1 也就是 n 倍的判定,依然是线性的。对于文学艺术创作,这个太高效了。人类进入“艺术大爆炸”、“艺术个性化”时代,百花齐放,人人皆为艺术家,不是不可以想见的。

熟读唐诗三百首,以前是成为古典诗人的必由之路,被认为是必要的苦功夫。现如今,300 就是个笑话,整个古典诗词喂进模型去也是个小 case。总体而言,消化大数据,人比起机器,就好比蚂蚁比大象。

对于稳定性弱波动性大的生成模型,应用的开花结果不要指望全自动。人机耦合条件下,纵然你n个结果有9成垃圾,我只取一瓢,一样会产生前所未有的价值。目前的问题是,艺术家群体不懂计算,计算界的人艺术敏感度不够,所以二者耦合所能发现的市场角度不容易确定。但假以时间,没有理由不对这个前景看好。

更何况不少创造性应用并不一定要专门针对艺术家或工匠的群体,有相当场景是普罗百姓都有需求的。例如应用文写作、秘书2.0, 编辑2.0, 确保出版插图永无侵权烦恼,等等等等。

 

【相关】

美术新时代,视频展示
漫谈AI 模型生成图像
《李白宋梁130:从短语结构的词序基础约束到大模型向量空间的天马行空》
AI 正在不声不响渗透我们的生活

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《李名杰从医60年文集科学网链接列表》

李名杰汇编:结肠癌根治术治疗要点(教学材料6) 2022-10-14

结肠癌一旦明确诊断后应尽早地施行手术治疗,但手术治疗是治疗原则中的一部分,还应考虑综合性治疗。横结肠癌应采取横结肠切除术,切除范围应包括肝曲和脾曲的 ...
李名杰汇编:胃大部切除术术后复发性溃疡的治疗(教学材料5) 2022-10-14
多发性溃疡的发生机制目前尚不完全明了,但有以下几种原因可促使溃疡复发。 一、与手术有关的因素 1、输入袢过长: 约占复发性溃疡病因的3%左右,一般要求应在 ...
李名杰汇编:贲门癌的治疗要点(教学材料4) 2022-10-14
胃癌在临床上一旦确诊,应考虑尽快地施行手术治疗,但术后还应结合病人的实际情况,采取综合性治疗如化疗、中医中药治疗、免疫治疗等。 胃体癌、胃底癌、贲门 ...
李名杰汇编:胰头癌和壶腹部癌的治疗要点(教学材料3) 2022-10-14
首先施行胆囊切除术,在切除胆囊的同时应探查胆总管和胰腺头部的病灶大小,侵犯的范围和周围有无与大血管的粘连侵犯等情况。除此以外,还应探查腹主动脉旁淋巴 ...
李名杰汇编:脾切除指征及脾切除术后对机体的影响(教学材料2) 2022-10-14
“脾脏并非生命所必需,脾可以随便切除。” 这便是历时二、三百年的传统切脾观点。随着现代医学的发展,以及对脾脏功能深入探索和研究,已陆续发现脾脏具有不可 ...
李名杰汇编:甲状腺癌的手术治疗(教学材料1) 2022-10-12
甲状腺癌在病理方面可简单地分为三类: 1、乳头状腺癌: 在临床上最常见,恶性程度较轻,主要是转移至颈部淋巴结。 2、腺泡状腺癌: 恶性程度中等度,主要经血运 ...
李名杰汇编:肝外胆管损伤(教材) 2022-10-11
肝外胆道损伤,绝大多数为医源性,近年有增多趋势,发生率大约在2-3% (300-500 例胆囊手术中有1例)。医源性胆道损伤中90%见于胆囊切除术中,5%左右为胆总管探查 ...
李扬缜 李名杰 商建忠 汪桐: 一种全新微创包皮环切术的临床观察 2022-10-10
皖南医学院附属二院 李杨缜 (1i-yangzhen) 李名杰 (li-mingjie)* 商建忠 (shang-jianzhong)** 汪桐 (Wang-tong)*** 包皮过长的经典治疗方法为包皮坏切手术,至 ...
丁明秀 许竞斌 李名杰: 在基层公社卫生院开展椎间盘摘除手术的体会 2022-10-10
安徽省第三届骨科学术会议交流资料 南陵县卫生进修学校丁明秀 指导者:许竞斌 李名杰 椎间盘摘除术治疗腰间盘突出引起的腰腿痛,是一种公认的病因疗法。现在, ...
李名杰汇编:现代外科输血新概念(教材) 2022-10-10
输血的临床意义: 1. 改善血液动力学,提高带氧量,维持氧化过程; 2.补充血浆蛋白,维持渗透压,保持血容量; 3.增加营养,改善机体生化功能; 4.纠正凝血机制 ...
李扬缜 蔡圣朝:桑榆虽晚,终存报国之情 --周楣声对针灸事业的贡献 2022-10-10
Chinese Acupuncture & Moxibustion, Jan. 2007. Vol. 27 No.1 中图分类号: R2-09 文章编号: 0255-2930 (2007) 01-0056-03 文献标识码: A 针灸人物 桑榆 ...
骨科导师许竞斌先生从医50周年纪念增刊资料 2022-09-22
【立委按】中国骨科的泰斗级许老医生竟斌先生是老爸的骨科导师。许老先生生前,老爸协同其他许老弟子,举办了“许竟斌从医五十周年纪念活动”,出了专辑,《皖 ...
教育园地:李名杰四类手术例案(6例) 2022-09-22
【立委按】医学教育园地选择普外临床高难代表性病例,呈现手术记录。1,扩大全胃切除术,2,甲状腺癌仿根治手术,3,十二指肠破裂仿Berne手术,4,肝左外叶切除 ...
《胆道疾病及大网膜在外科临床的应用》学习班 2022-09-21
立委按:这是老爸当年以市外科学会委员身份主持的学术研讨会。 安徽省1999年省级继续医学教育外科项目 《胆道疾病及大网膜在外科临床的应用》学习班日程安 ...
教育园地:李名杰医学讲稿提要(5则) 2022-09-21
【立委按】老爸的医学生涯电子版另开辟【教育园地】专栏,整理刊载老爸医学生涯中所做的医学讲座、代表性手术记录以及对后生传帮带方面的资料。相信这些资料对 ...
张琪 李名杰:闭合性腹膜后十二指肠损伤诊治体会 2022-09-20
《交通医学》1995;9(3): 43 芜湖长航医院 张琪  指导: 李名杰 患者男,29岁,骑自行车时,右季肋部撞击于停放的板车把端,当即剧痛、感呼吸困难,心 ...
【立委父母医学论文目录】
2022-8-30 21:11
肝外伤救治中的几个问题 李名杰 王月琴:肝外伤救治中的几个问题 (科学网) 肝左外叶规则性切除治疗肝内结石 肝左外叶规则性切除治疗肝内结石 (科学网) PEUTZ氏症候群 PEUTZ氏症候群 (科学网) 胃十二指肠急性穿孔的手术治疗 李名杰 黄厚宝: 胃十二指 ...
李名杰 史良会:膀胱内塑料管异物一例
2022-8-30 21:05
芜湖长航医院 (241000) 李名杰 史良会 患者,男性,20岁,农民,住院号16318。 90年4月5日患者出于好奇嬉戏自行将一根35cm空心扎发塑料管经尿道置入膀胱而无法取出,随后云现尿频尿急尿痛等下尿路刺激症状,当地医院尿检脓球++,膀胱平片阴性,因隐瞒病史,按膀胱炎治疗无效,症状持续存在, 于90年12月3日 ...
李名杰王益生:胃内打火机异物一例
2022-8-30 21:03
芜湖长航医院 (241000) 李名杰 王益生 患者,男性,22岁,平素健康,2月前因故轻生,自行吞服电阻丝打火机一只,用手将异物强行送过咽部,尔后作吞咽动作而使其顺利进胃,未梗塞和滞留,亦无食道损伤的出血和疼痛,当晚照常进食并服大量韭菜,始终未见异物随便排出,亦无特殊不适。一月后方出现空腹时上腹紧 ...
李阳镇:从马王堆古墓出土医学著作看预防医学的科学造诣
2022-8-30 21:02
皖南医学院第二教学医院 摘要 本文对马王堆古墓葬医学著作《五十二方》、《摄气》中所涉及的预防医学思想和措施进行了初步探讨。“代替食物”、“呼吸和体育运动疗法对健康的保护和治疗”和“健康之道继续前进。 这些著作的防病知识主要是致病因素的知识一-生理学知识和病理学知识。疾病预防措施分两个方面进行论述: ...
李名杰:阻黄的有关临床问题 (讲稿提要)
2022-8-30 21:01
1 黄疸-症候群。肝前 (溶血性)、肝细胞性、肝后性 (梗阻性)。混合型. 2 阻黄–肝内毛细胆管-小胆管-肝胆管-肝总管-胆总管…梗阻。 3 内科黄疸–外科黄疸: 肝内、外梗阻。(15%-20%难以鉴别) 4 阻黄的诊断程序和方法: 临床、化验、X线、B-US、CT、 MRI、PTC、ERCP、核素 (131碘、99锝) 显象、选择性动 ...
李名杰:闭式穿钉治疗股骨颈骨折45例
2022-8-30 06:50
摘要: 45例外伤性股骨颈骨折行闭合复位小切口三棱钉内固定治疗,随访1-3年,骨折延迟愈合1例,迟发性股骨头坏死2例,余均在3-6个月弃拐步行。本疗法具有创伤小、恢复快、安全、适应证宽,以及手术简便和不破坏解剖等特点,易为病人所接受。文中详述手术方法及操作要点,并介绍器具革新。 关键词: 闭合复位 ...
李名杰:胆道手术中几个特殊问题的诊治体会
2022-8-30 02:51
(提要) 胆道手术中因解剖变异或病理改变而需要采取变通措施,以取得疗效或防止副损伤。本文从一组456例胆道系统手术中,挑选几个特殊问题,详述手术过程及病程转归,并作了回顾性分析,以期进一步提高胆道疾病的诊治水平。 常规的胆道手术方法,已为外科医师所熟知,旨在解决肝内结石及胆管狭窄之改良术式 ...
李名杰: 软脊膜下脂肪瘤并发高位截瘫
2022-8-30 01:48
椎管内肿瘤,虽85%为髓外肿瘤,然软脊膜下脂肪瘤实属罕见。因其位置紧贴脊髓,所造成的病理改变及临床症状易与髓内肿瘤相混。但因其为良性病变,手术处理及其预后均迥然不同。我院收治一例,术后随访半年,现已恢复。兹报告如下: 患者男性,39岁,本县农民,已婚,病案号1340,于1979年3月28日入院。 两下肢麻木、无力伴 ...
李名杰 何进贤:腹壁皮下异位胰腺一例报告
2022-8-30 01:42
异位胰腺,书上记载仅见于腹内脏器,尤其是消化道粘膜下。但临床上少见。而位于腹壁皮下者,迄今未见报导。本院收治一例,手术切除后为病理所证实,现报告如下。 患者男性,41岁,教师,1979年3月24日入院,病案号794。 一年前因左下腹包块在x医院手术切除,病理报告为“硬纤维瘤”。术后10个月复发指顶大肿块,无症状; ...
李名杰:先天性脐膨出一期修补成功一例
2022-8-30 01:37
患儿邵姓, 男性。1983年5月14日在家顺产。因发现腹腔内脏部分由体蒂膨出于腹外而被以透明囊膜,于出生后4小时来院急诊。 检查: 一般发育正常, 体重3010克。全身无其他伴发畸形。脐带在10厘米以远结扎。从脐蒂透明囊膜内可以窥见腹脏有部分肝 脏、大部分胃、部分小肠及横结肠。无绞窄。脏器血运无障碍。囊膜未失光泽、无破 ...
李名杰:成人腹膜后畸胎瘤感染并发慢性脓瘘1例
2022-8-29 17:00
患者,女,53岁,12年前左腰肿痛、发热并破溃流脓,数月后“自愈”。6年前左大腿内侧出现脓肿,切开成瘘,经久不愈。 查体:慢性消耗性贫血貌,右腰三角及左股三角各有一脓瘘、流溢黄水及少许脓液,X线片: 脊柱、骨盒、髋关节均无骨质异常,左腰大肌阴影模糊,亦无其它钙影,行肠道及 ...
李名杰:短肠综合征的外科治疗
2022-8-29 16:48
附2例报告 芜湖长航医院 李名杰 短肠综合征(short bowel syndrome;SBS)系指切除小肠70%或包括回盲瓣在内的小肠切除50%,或胃肠错吻后所引起的消化吸收障碍致病人营养不良、水电解质紊乱、酸碱失衡、低血蛋白症及贫血等。作者所见2例是在作小肠远侧间置逆蠕动肠袢吻合后预防发生SBS。现就 ...
李名杰:胆肠内引流
2022-8-29 16:42
(文献复习及临床分析) 芜湖长航医院 李名杰 通过60年代以来的临床实践,各种检察手段的进展,尤其 Bus、 PTC、ERCP、CT 等进入临床动物实验以及胆道病理生理研究的深化,对胆肠内引流 (Bid) 有一个再认识的过程。虽然争论问题尚多,然却走出一条深化和逐渐成熟的道路。 自1884年首次提出十二指肠乳头切开,100年 ...
李名杰:以缝线为核心的总胆管复发结石6例报告
2022-8-29 16:31
复习1975~1980年间一组因胆石复发再次手术70例,占同期胆管结石手术19%(70/368)。70例中,有明确记载复发结石是以前次手术缝线为核心者6例。由于这,涉及到手术技术实施细则而又易于改进的,故仅此提出报告。 例1,男性,37岁,住院号1047,1976年2月13日入院。患者一年前因胆石症、胆囊炎在本院施行胆囊切除、总胆管取石 ...
李杨缜 李名杰:点灸治疗急性软组织损伤187例临床观察
2022-8-29 12:57
自1987年以来,我们应用灸法专家周楣声主任医师创制的“周氏万应点灸笔”点灸及西医局部封闭对照治疗急性软组织损伤187例,证明点灸疗法对急性软组织损伤疗效满意,现总结如下。 临床资料 本组共187例,其中男性117例,女性70例; 年龄最小11岁,最大78岁,以20~50岁者为多见;病程均在3天以内,以6小时内为多。损伤部位: ...
老爸:业务自传和工作报告
2022-8-29 11:57
【立委按】老爸35年前提交的这份业务自传是老爸坚韧打拼、夜以继日的30年行医生涯的成就回顾。这份亮丽独特的成绩单诠释了一位基层医院的医生如何百炼成钢,不断自我超越,成为现代社会罕见的全科医学专家。最近整理结集医学论文的电子版,回顾60年所走过的路程,老爸不胜感恩和自豪。 老爸说他的成长,总结起来一句话 ...
李名杰:椎弓结核并发截瘫手术一例报告
2022-8-29 11:53
脊椎附件结核仅占脊柱结核的1%,在胸段易发生截瘫,容易误诊 。我院曾遇一例,术前误诊为脊髓肿瘤,手术后病理证实为椎弓结核。随访三年,现已痊愈。国内此类报告甚少,现报告如下: 患者伍xx,男性,36岁,农民,已婚,南陵人。病案号:1928。 腰背痛三年,行走不稳一年,截瘫三个月,大小便障碍。于1976年4月27日人院。 ...
李名杰:腹部创伤 (综述)
2022-8-28 14:49
腹部创伤,包括腹壁伤和腹内脏伤,较为常见。其予后如何,除视创伤严重程度外,遂有赖于早期诊断和合理治疗。然而,却常常容易发生下列错误: 一、病史不详: 1、伤员昏迷,使我们丧失了有价值的病史。 & ...
李名杰:脊椎结核的一次手术治疗
2022-8-28 14:42
(附三例报告) 脊椎结核占全身骨关节结核的首位,为47.28% ,临床上常见。保守治疗,虽在抗痨药物问世的今天,亦迁延多年,难以治愈。手术治疗,虽大为改观,但往往需要2-3次的大手术,费时、费钱、增加痛苦; 而一次手术治愈,实为多快好省。兹就我院75、76年间有病历资料的计划一次手术治 ...
李名杰 潘耀桂:利凡诺 (Rivanol) 羊膜腔注射引产术
2022-8-28 14:30
妊娠全程中,因某种原因随时需要终止妊娠,本是妇产科工作内容之一。在大力推行计划生育工作中,仍以此作为避孕、绝育的补救措施,更有增加趋势。除早孕以吸宫、刮宫一次处理完毕作为定型手术而获得较为满意的效果外,孕周在13周以后的中、晚期妊娠,则需要人工引产。虽方法众多,但均因各有利弊而不尽完善。近年来同道们 ...
李名杰译:全胰切除的临床经验
2022-8-27 15:18
全胰切除极少用於胰腺的良性疾病,也很少有这方面的长期随访的报导。在胰腺各良性疾病中,慢性胰腺炎最有指征作全胰切除,而很少有急性出血性胰腺炎及罕见之高胰岛素综合征做全胰切除。 难治的慢性胰腺炎两个主要的外科方法是胰管引流和胰切除术。在胰管扩张时,胰管引流能使70~80%病例疼痛减轻; 胰十二指肠切除和胰次全 ...
李杨缜:灸药并治类风湿性关节炎临床体会
2022-8-26 21:20
类风湿性关节炎是结缔组织自身免疫性疾病,属于中医“痹证”范畴。《内经·痹论》云: “肾痹者, 善胀, 尻以代踵, 脊以代头”。《金匮要略》谓: “诸 (支) 节疼痛,身体元素赢……。” 对本病作了具体描述。其主要症状是,形体消瘦,关节变形,肿胀,但硬,筋肉蜷挛, 不能屈伸,骨质受损。自1987年~1990年我们采用申药,艾 ...
李名杰:足内翻扭伤致第五跖骨基底部骨折30例
2022-8-26 21:18
收集我院83年以来足部扭伤经X线片确诊的第5跖骨基底部撕脱骨折30例,予以分析报导。 临床资料 男性22例,女性8例,年龄在23至54岁,40岁以下24例,可见多发生在活动量大的中青年,致伤原因全部为行走不慎患足内翻扭伤, 单纯骨折错位不显著28 例,2 例呈粉碎型,经一般治疗或不予治疗,1~2月均可基本恢复功能。 ...
江凯 李名杰:闭合性十二指肠腹膜后损伤诊治分析
2022-8-26 21:14
摘要 闭合性十二指肠损伤,是一种严重而又特殊的腹内伤,发病率低,但死亡率高。本文报告其腹膜后部损伤6例,治愈4例死亡2例。此类损伤由于后腹膜遮盖,早期缺乏中空脏器穿孔的症状和体征,极易延误诊断,临床上须高度警戒,严密连续动态观察,搜寻诊断依据,力争早期手术探查,加之十二指肠解剖生理的特殊性,有 ...
个人分类: 风雨春秋|694 次阅读|没有评论 |编辑| 删除 | 置顶
李名杰 王月琴:肝外伤救治中的几个问题
2022-8-26 21:11
原中英文摘要 晚近外伤性肝破裂发病率明显增高,其处理尚存在诸多困难。作者就临床上所遇此类病例的处理体会,从正反两方面提出经验和教训。在不同类型病例中分别选用 Pringle 肝门阻断法、浅裂伤缝合修补术, 清创性非规则性肝部分切除、选择性肝动脉结扎及双套管负压引流等。而肝深部挫裂伤,集束褥垫式缝合 ...
李名杰 黄厚宝: 胃十二指肠急性穿孔的手术治疗
2022-8-25 06:40
提要 手术治疗胃十二指肠急性穿孔76例,分别为胃十二指肠溃疡穿孔60例,胃癌等穿孔10例,创伤性十二指肠破裂6例,作胃切除37例,穿孔修补39例。临床效果, 以胃切除为优, 穿孔修补则有术后并发出血, 再穿孔等, 本组死亡5例。作者认为应力争作胃切除,可根治疾病,即使是恶性疾病的姑息性胃切除亦可减轻症状和提高生存质 ...
个人分类: 风雨春秋|505 次阅读|没有评论 |编辑| 删除 | 置顶
李名杰:胃恶性淋巴瘤亚急性穿孔腹膜炎误诊一例
2022-8-24 14:05
患者女性,71岁,病案号: 13520。脐周间歇性腹痛10天,无腹泻、便血及发热。右下腹剧烈绞痛伴呕吐2天于1987年3月22日急诊于皖医附院。按阑尾穿孔转入本院。 检查: T: 35·5C ,P: 84次/分,BP:120/80mmHg。急病容脱水貌,营养一般,浅淋巴结不肿大,无黄疸。心肺(一)。全腹压痛及反跳痛、右下腹为著。无包块及肠型 ...
李楊縝 李名杰:針刺肩髃透極泉穴配合温灸治療肩周炎的體會
2022-8-24 12:41
安徽 皖南醫學院第二附属醫院 李楊縝 芜湖长江航运醫院外科 李名杰 肩關節周圍炎 (簡稱肩周炎) 是肩部關節囊和闗節周園软组織的一種退行性無菌性慢性炎症。多見於五十歲左右患者,故又稱“五十肩”。我們探用針刺肩髃透極泉配合温灸法與西醫強的松龍封闭法對照治療本病 152例,証明針灸療法對肩周炎療效滿意 ...
个人分类: 风雨春秋|190 次阅读|没有评论 |编辑| 删除 | 置顶
爸爸的行医生涯:直肠癌手术记录单
2022-8-23 13:25
芜湖长航医院手术记录单 姓名: 某某某 性别:女 年龄:44 科别:外 床号:38 住院号:13533 手术日期: 1987,4,2 手术前诊断: 直肠腺癌 手术后诊断: 直肠腺癌DukesB1期 手术名称: 直肠前切除术 (Dixon术式) 手术时间: 开始于9Am 完毕于1.30/Pm 输血量 800ml 手术医师:李名杰 助手1: 蔡亚伦 助手2: 沈亚平 ...
妈妈论文钩沉:腹膜外剖腹产术
2022-8-23 13:22
腹膜外剖腹产术 (附8例临床小结) 为结束妊娠必须娩出胎儿及其附属物,以恢复孕妇原先的生理状态。若因产道障碍无法由阴道分娩,或胎儿窘迫不及等待自然分娩,就需另寻分娩途径。 有史可查,早在500年前即有“帝王切开”古典式剖腹产,近代发展到子宫下段剖腹产,而此两术式均属腹膜内剖腹产术,可导致羊水、胎粪、血液 ...
老爸论文钩沉:包皮环切术的几点改进
2022-8-23 10:25
包皮环切术的几点改进 安徽芜湖长航医院 李名杰 1. 包皮局部静脉麻醉 阴茎根部橡皮筋环扎阻断静脉回流,使阴茎浅静脉怒张,细针向远侧穿刺阴茎皮下 静脉,抽吸郁血并注入2%利多卡因2ml。 优点是,麻醉完全、避免局部麻醉致包皮水肿而使切除线不准。 2. 血运阻断无血手术 紧缩根部橡皮筋,阻断阴茎 ...
父母论文钩沉:宫内妊娠流产合并输卵管妊娠破裂一例报告
2022-8-23 02:46
宫内妊娠流产合并输卵管妊娠破裂一例报告 安徽省南陵县医院 潘耀桂、李名杰 子宫内、外同时妊娠並均中止,临床上极为罕见。我们出诊遇到一例,现报告如下。 患者23岁,结婚两年未曾生育,平素月经尚属正常。停经52天,伴有恶心、偏食、嗜睡等早孕反应。79年4月22日突然阴道流血伴下腹痛,继而排出胚 ...
个人分类: 风雨春秋|538 次阅读|没有评论 |编辑| 删除 | 置顶
老爸论文集萃:外科截瘫14例手术分析
2022-8-22 23:29
安徽省第二届骨科学术会议交流资料 外科截瘫14例手术分析 安徽省南陵县医院 李名杰 ( 摘要 ) 文章回顾了作者近13年间所遇因外科病因而截瘫14例病人的手术处理及长期随访,获得10例痊愈、3例好转、1例死亡的结果,具体介绍了病因、病理及手术方式,并加以讨论。 按病因分类为:脊柱骨折7例,脊柱结核5例,椎管内肿瘤 ...
妈妈论文留存:阴道内滴虫和霉菌感染的防治
2022-8-20 14:27
阴道内滴虫和霉菌感染的防治 南陵县医院妇产科 潘耀桂 阴 道 生 理 成年健康妇女的阴道粘膜上皮细胞内有动物淀粉,同时阴道内有 ...
个人分类: 风雨春秋|747 次阅读|没有评论 |编辑| 删除 | 置顶
妈妈论文留存:宫内妊娠流产合并 输卵管妊娠破裂一例报告
2022-8-20 14:07
【立委按】听爸爸说,妈妈这篇论文虽短,但这例报告的病情很罕见,妈妈独人出诊乡下急救手术成功,就在当今,也十分不易的。妈妈论文不多,数字化留存,以为纪念。妈妈离开我们多年了,妈妈永远活在我们的心中。 宫内妊娠流产合并 输卵管妊娠破裂一例报告 南陵县医院妇产科 潘耀桂   ...
老爸论文集萃:肝左外叶规则性切除治疗肝内结石
2022-8-20 14:02
肝左外叶规则性切除治疗肝内结石 南陵县医院外科 李名杰 肝内结石是指左、右肝管以上的肝内胆管结石,其发病率根据我院近五年手术病例的统计: 原发性胆管结石368例中(占同期胆石症手术441例的83.4%,肝内有结石为112例,占30.4%,与国内文献报告基本符合(4, 5)。可以肯定,由于诊断水平的限制 ...
个人分类: 风雨春秋|733 次阅读|没有评论 |编辑| 删除 | 置顶
老爸论文集萃:PEUTZ氏症候群
2022-8-18 22:16
【立委按】老爸行医60多年,实践经验异常丰富,也曾发表20多篇专业论文,但那是前电子时代。 现在统一整理,数字化留存,除了作为纪念,也为专业文献的知识积淀以及新人的经验搜索做一点贡献。 老爸说,论文中报告的有些手术难度很高,至今还占外科前沿,具有借鉴价值。本篇介绍的病例罕见, 肠道、胆道双梗阻,十 ...
老爸论文:肝胆管盆式胆肠内引流术一例
热度 12022-8-18 21:27
【立委按】老爸行医60多年,实践经验异常丰富,也曾发表20多篇专业论文,但那是前电子时代。 现在统一整理,数字化留存,除了作为纪念,也为专业文献的知识积淀以及新人的经验搜索做一点贡献。 老爸说,论文中报告的有些手术难度很高,至今还占外科前沿,具有借鉴价值。 肝胆管盆式胆肠内引流术一例 芜湖长航医院 ...

【李名杰从医60年纪念专辑(电子版)】

李名杰《风雨春秋》科学网专栏

李名杰汇编:结肠癌根治术治疗要点(教学材料6)

结肠癌一旦明确诊断后应尽早地施行手术治疗,但手术治疗是治疗原则中的一部分,还应考虑综合性治疗。横结肠癌应采取横结肠切除术,切除范围应包括肝曲和脾曲的整个横结肠,还应包括胃结肠韧带的淋巴结组,然后行升结肠和降结肠端端吻合术,倘若两端张力大而不能吻合,可切除升结肠、盲肠和回肠末段,然后作回肠与降结肠吻合术。

结肠癌虽已有肝转移,但如原发癌及系膜淋巴结转移癌尚可完全切除,而肝内触及的转移灶为单个,且其所在部位做局部切除困难不大时,也可以切除原发癌的同时,将肝内转移灶切除,部分病人可因此而获得较长时间的缓解,少数病人尚可有5年或更长的生存期。

结肠癌根治切除的操作技术原则: 

1、为了尽可能防止手术过程中癌细胞的血行播散和局部种植。
2、对癌种的操作要轻,避免挤压。
3、争取在游离癌肿前,先阻断癌细胞肠腔内种植和血行转移的途径。

手术前的肠道准备:

结肠切除术前准备 (肠道) 是减轻术中污染,防术后腹腔和切口感染,以及保证吻合口良好愈合的重要措施。肠道准备的目的是使结肠内粪便排空,无胀气,肠道细菌数量随之减少。

肠道准备方法:

主要是通过调节饮食,服用泻剂及清洁肠道,达到手术时结肠“清洁”的目的。

1、术前三天进全流食,同时口服番泻叶 30 克冲服,三次/日,每天补液 1500-2000 ml。

2、术前三天口服灭滴灵 0.5,四次/日,加氟哌酸 0.2,四次/日。

3、术前一天晚上清洁灌肠 (肥皂水),次日晨再行清水灌肠。

手术步骤:

1、在距癌肿缘远近侧各 10cm 处,将肠管包括边缘血管在内,以布带扎紧以阻断肠管。

2、在系膜根部显露准备切断的动静脉,分别结扎、切断,自此开始逐步切断系膜至拟切断的肠管部。

3、游离包括癌肿在内的肠段,予以切除。

4、肠吻合完毕后,用无菌蒸馏水冲洗手术区,以期能破坏脱落的癌细胞。

术后井发症:

1、由于病程长,有不全梗阻症状,肠道准备工作可能达不到应有的要求,术中一旦腹腔受到污染后,会引起腹腔感染。

2、由于肠壁水肿,又有不同程度肠管扩张,横结肠切除后,结肠端端吻合易发生物合口瘘或因吻合口张力大引起吻合口狭窄。

3、横结肠切除,腹腔搔扰性大,易引起腹腔肠管的粘连。

4、横结肠切除手术较右半结肠或左半结肠切除难度大,手术中易出血或引起其他脏器的误伤,如输尿管、胰腺、下腔静脉等。

5、腹部切口大,易发生切口感染。

术后处理:

1、术后48小时内注意血压、脉搏、呼吸。
2、注意腹腔内出血和伤口出血。
3、术后保留导尿48小时后拔除。
4、每天注意补充液体和电解质。
5、大量应用广谱抗菌素。

 

【李名杰从医60年纪念专辑(电子版)】

李名杰汇编:胃大部切除术术后复发性溃疡的治疗(教学材料5)

多发性溃疡的发生机制目前尚不完全明了,但有以下几种原因可促使溃疡复发。

一、与手术有关的因素

1、输入袢过长: 约占复发性溃疡病因的3%左右,一般要求应在屈氏韧带下 6-10cm 最为合适。

2、胃切除过少: 一般认为切除过少,不能切去足够的壁细胞,因此,切除胃约在 75% 的组织实属必要。

3、胃窦粘膜存留: 复发性溃疡中有 9% 的病人有胃窦粘膜存留,如第一次手术时剩下 l cm 的胃窦粘膜都有可能发生溃疡复发。

4、由于不适当的选用 Roux-y 吻合,或空肠近袢间侧侧吻合,分流了胃肠吻合区中和酸的胰液和胆汁,增加了溃疡复发机会。

5、用不吸收的丝线缝合吻合口,轻者可致炎症,重者可能溃疡或形成吻合口糜烂。

6、手术中引起胃肠粘膜的损伤,或剪除胃肠粘膜过多。

7、碱性返流性胃炎,由于胆汁返流入胃,致胃酸分泌增加,损害胃粘膜屏障,胆盐与胆酸在胃内亦可破坏溶酶体膜,导致溃疡发生。

二、胃窦G细胞增殖。

三、胃泌素瘤或胰源性溃疡综合征约占复发性溃疡 1.8% 左右。

四、致溃疡的药物,如水杨酸盐类型、消炎痛、保泰松、皮质类固醇、利血平等均可导致溃疡复发。

胃大部切除术后复发性溃扬的手术治疗问题: 

溃疡复发即前次手术的根本性失败,故再次手术时需十分慎重,以免再次失败。首先是诊断要明确,对前次的手术方式要有所了解,仔细观察最近X线钡餐造影片,特别要注意残胃存留是否太多,其次是胃镜的检查,确定诊断和病变的部位,以及病理诊断等都是十分重要的,还要排除残胃癌的可能性。

关于再次手术的原则:

手术原则为纠正第一次手术缺陷,手术时应先探查胃是否留得太多,输入袢是否过长,有否遗留胃窦,仔细探查胰腺,排除胰源性溃疡,根据不同的情况,选择不同的手术式。如为胰源性溃疡,手术方法有单纯切除肿瘤和全胃切除术两种。但多数病例肿瘤体积小不易发现,或多发部位不定难以切除干净,故以施行全胃切除为上策。全胃切除后,肿瘤失去了靶器官有发生退化之可能。

 

【李名杰从医60年纪念专辑(电子版)】

李名杰汇编:贲门癌的治疗要点(教学材料4)

胃癌在临床上一旦确诊,应考虑尽快地施行手术治疗,但术后还应结合病人的实际情况,采取综合性治疗如化疗、中医中药治疗、免疫治疗等。

胃体癌、胃底癌、贲门癌或全胃癌的癌肿应施行全胃切除术,在临床上根据手术切除的彻底性分为根治性全胃切除术及姑息性全胃切除术。另外根据是否同时切除其他脏器,又可分为单纯性胃切除术和联合脏器切除术两种。全胃切除术的切除范围通常包括全胃,十二指肠球部食管下端的一部分、大网膜、小网膜及胃脾韧带,并在根部结扎,切断胃的所属血管,以清除胃周围转移淋巴结,这就是单纯性全胃切除术。有时脾门及胰腺上缘有转移的淋巴结,需同时将脾及胰尾切除,也有时癌侵及了横结肠或肝左叶,需将部分横结肠或肝左叶一并切除,这就是联合切除术。

是否需作全胃切除术,术前有时难以决定,往往需在剖腹后,根据病变部位,癌肿扩散程度及机体状况等方面来判断。其原因是,凡用胃大部分切除术不能根治,而只有切除全胃才能根治的胃癌才考虑全胃切除术。要慎重选择全胃切除术的适应症,尽量少采用姑息性全胃切除术,尤其是姑息性联合切除术,以免带来不良后果。

手术原则是: 操作时应从周边向中心进行,并在根部结扎,切断胃的所属血管,切断端距癌瘤边缘要有一定的安全距离 (一般在5cm),操作中用纱布包裹肿瘤井保护腹腔,以做到清除胃周围转移淋巴结,并防止癌细胞扩散。

全胃切除术消化道重建有以下几种方法 (略)。

术后井发症;

1、吻合口瘘:是全胃切除术后最重要并发症,多在术后 5-7 天,即开始进食时出现,如体温上升,脉搏增快,烦躁不安并有腹痛及恶心等症状时,应想到吻合口瘘的可能。一旦确诊应行腹腔引流,同时作空肠造瘘补给营养,加大抗菌素应用。

2、膈下感染:  由于创伤大,腹腔有时受到污染后而出现感染,一般在术后一周后有持续体温升高,血象高,有呃逆现象,往往通过X线摄片或 BUS 检查而定诊断。

3、腹泻:多发生在老年病人,常为消化不良性稀便,病人很快消瘦,主要是由于老年病人消化能力减低,加之全胃切除以后,消化与吸收的机能更加减退,食物刺激小肠使其蠕动增强所致。

4、反流性食管炎: 是一个晚期并发症,主要表现为胸骨后烧灼样疼痛、呃逆、向口腔反流苦水,给予稀盐酸合剂,症状可缓解。

5、营养障碍:主要表现为逐步消瘦及贫血,全胃切除后食物不能充分与胆汁、胰液混合,而且迅速进入空肠,影响消化与吸收。

6、吻合口狭窄: 主要是在吻合时,吻合口内翻过多所致,或因疤痕收缩而引起,或因吻合口过小等均可发生。一旦发生后,可行扩张术或再次手术。

 

【李名杰从医60年纪念专辑(电子版)】

李名杰汇编:胰头癌和壶腹部癌的治疗要点(教学材料3)

首先施行胆囊切除术,在切除胆囊的同时应探查胆总管和胰腺头部的病灶大小,侵犯的范围和周围有无与大血管的粘连侵犯等情况。除此以外,还应探查腹主动脉旁淋巴结等。根据手术探查情况,决定手术术式和手术方法。

如探查胰头癌己有广泛转移而无法切除时,可考虑施行胆总管空肠 Roux-y 吻合术,从而解除病人的黄疸问题,减少病人的痛苦和延长病人的生存期,如胆总管已有癌肿侵犯,胆囊又无法保留,则应给予肝总管切开置入T型管引流术。如术中证实无远处转移,病灶尚可活动,应考虑施行胰十二指肠切除术,但应根据以下情况进行选择。 

凡诊断为壶腹部周围癌,临床上又无手术禁忌症时,均应力争一期手术切除。如病人长期有严重的黄疸,周身情况不佳,不能耐受一期手术时,可行二期切除手术。但二期手术可能由于腹腔粘连或癌肿转移固定,给手术带来困难。

术前准备: 

1、黄疸病人因肝功能受到一定损害,凝血机制往往不佳,术前注射 GS、Vc、Vk1 和辅酶Q10等改善肝功能和凝血机能,促进出、凝血时间恢复正常,以免术中、术后出血,如有重度黄疸或合并胆道感染高烧者,应分期手术,即第一次开腹探查行胆囊造瘘术,或胆总管切开T型管引流术,待2-3周后黄疸消退,再行根治性切除手术。

2、老年体弱、贫血和低量白血症的病人,应适当输新鲜血,有助于凝血机制的改善, 口服胰酶类助消化药物。 配血400ml x 3以备术中应用 。 

3、为了预防和治疗胆道感染,注射广谱抗菌素等。

4、术前一天给予配血 400mmlx3,以备术中应用。

5、术前应邀请麻醉科会诊,请麻醉科医师根据病人的具体情况选择麻醉的种类和方法。

6、术前应与病人家属说明病情及手术的必要性,以及手术中、术后可能出现的各种并发症,甚至发生死亡的可能,取得完全同意后并以签字为凭,方可考虑手术。

7、术前静滴20% Albumin 50 ml。

关于胰十二指肠切除手术步骤问题:

胰十二指肠切除手术步骤比较复杂,手术难度也较大,术中、术后并发症也较多,但可归纳为以下几个程序。

第一,进入腹腔后首先是探查有无远处转移和肿瘤局部的移动性,以及癌肿的原发灶是否来自胰头。

第二,如癌肿原发灶來自胰头,应进行试行分离,最后确定癌肿是否能被切除,同时还需进一步检查癌灶和腔静脉、腹主动脉、门静脉、肠系膜上静脉之间有无实质性浸润,以便最后确定肿瘤能否被切除,如确定癌肿能够根治切除时,便开始切断肝总管、胃、胰腺和空肠。

第三,切除病灶,最后切断钩状突,病变切除之。

第四,重建消化道,按胰、胆、胃或胆、胰、胃的顺序和空肠之间各别吻合。

胰十二指肠切除术式有以下几种,供手术时选择釆用:whipple 法 Child法 Cattel 法。

胰十二脂肠切除术的注意事项:

1、决定能否做胰十二指肠切除术的关键问题有二:(1)胰头后面与腔静脉、腹主动脉之间有无癌肿浸润现象。 (2)胰腺后面与门静脉和肠系膜上静脉之间有无癌肿浸润。 若其中之一有癌肿浸润时,则不适应做胰十二指肠切除术。

2、处理胰头、体与肠系膜上静脉之间小静脉时,应先结扎后切断,以免出血,如一旦出血,应立即以手指压住出血点,和肠系膜上静脉的上下两端,吸尽血液,看清损伤部位,准确钳夹止血,切勿盲目钳夹造成损伤。

3、胃的切除范围,一般在1/3-1/2不等。

4、胰瘘是胰十二指肠切除术后最危险的并发症,其发生率很高(20%-30%左右),一旦发生,往往有生命危险,必须加强预防措施,减少此一并发症的发生。

术后处理:

1、术后如血压平稳,可取半卧位。

2、腹腔引流管接计量瓶,记录24小时引流量,并观察其性状,如无其他特殊情况发生,一般在术后5-7天拔除引流管。

3、禁食, 持续胃肠减压,静滴 5% GS 和补充电解质、Vc、VB、Vk1 等,一般持续 4-5天,,待肠鸣音恢复后,拔除胃管开始进流质饮食。

4、广谱抗菌素的应用。

5、为了促进创口早期愈合,术后间隔补充血浆或全血,或 20% Albumin 50 ml。

6、注意口腔护理,鼓励病人作有效的咳嗽,并协助病人不断排痰,以防止合并胸膜炎和肺内感染或肺不张等并发症。

7、术后一周内要严密观察有无腹膜炎发生,如有腹膜炎发生,应及时给予引流。

术后开发症:

1、胰瘘,多发生在术后5-7天,病人出现腹痛、腹胀、高烧、巩膜黄染和引流量增多现象,应考虑为胰瘘的发生。胰瘘发生后一般采取保守治疗,但必须给于支持疗法。

2、内出血。腹腔出血偶有发生,可给予止血剂的应用、输血等治疗,如有活动性出血,经保守治疗无效时,应给予再次手术止血。

3、腹腔内感染。腹腔内感染也是一种严重的并发症,一旦发生,应首先采取保守治疗。如有脓肿形成,应给予及时的手术引流,除应给予抗菌素治疗外还应给于输血,或血浆,或 20% Albumin。

4、胆瘘,很少发生,一旦发生,应充分地进行引流和体外营养液的补充。

 

 

【李名杰从医60年纪念专辑(电子版)】

李名杰汇编:脾切除指征及脾切除术后对机体的影响(教学材料2)

“脾脏并非生命所必需,脾可以随便切除。” 这便是历时二、三百年的传统切脾观点。随着现代医学的发展,以及对脾脏功能深入探索和研究,已陆续发现脾脏具有不可忽视的抗感染、抗癌等免疫功能。因此,选择性有效保脾手术已成为一种时代的倾向。但系统地了解脾脏功能的全貌及去脾后对机体有哪些不利的影响,正确地掌握脾切除的指征,这便是保证脾外科质量的关键之关键。

一、脾切除术指征

(一) 血液病

血液病与脾外科的关系甚为密切,1887年 Spencer 首先为遗传性球形细胞增多症作脾切除术。从此为外科脾切除治疗血液病揭开了新的一页。但对血液病患者进行选择性脾切除或急症脾切除术、以及术前准备、手术时机等,与一般疾病所行脾切除不同,有其特殊性。

1、遗传性球形红细胞增多症 (Hereditary Spherocytosis, HS) 又称家族性溶血性贫血或先天性溶血性黄疸。本病属常染色体显性遗传。凡是确诊HS者临床有贫血与脾大,都应行脾切除治疗。Williams、Schwartz 等均指出,确诊为HS后即使轻型患者,都是脾切除指征,脾切除作为HS的主要治疗方法,并有显著疗效,已被国内外学者公认。由于幼儿手术后易发生感染,故在4岁以下儿童不宜施行脾切除。

2、遗传性椭圆形红细胞增多症 (Hereditary Elliptocytosis, HE) 亦属常染色体显性遗传疾病,临床上无任何症状者可不予治疗,如有贫血、脾大与溶血性黄疸的重型病例,应行脾切除治疗。

3、地中海贫血为遗传性血红蛋白合成障碍性疾病,脾切除对减轻溶血和减少输血量有帮助。脾切除对 α 型地中海贫血有较好疗效,HbE-β 型则差,中科院血研所对29例 α 地中海贫血患者行脾切除术,术后 Hb 明显升高,但术前Hb在 80g/L 以上者,术后 Hb 上升不显,提出因 Hb 在 80g/L 以下者适合手术治疗。同时对11例 β 型地中海贫血患者行脾切除术,其疗效均不如α型。α型地中海贫血脾切除手术指征: (1) 年龄在3岁以上; (2) Hb 在 80g/L 以下; (3) 脾亢伴全血细胞减少; (4) 51Cr 红细胞寿命缩短,脾肝比值 >2,脾定位指数增高者。

4、自体免疫性溶血性贫血 (Autoimmune Hemolytic Anemia, AHA) 是一种后天获得性溶血性贫血,系机体免疫功能紊乱,而产生了能破坏自身正常的红细胞的抗体所致。???原理主要是去除了产生破坏自身红细胞或血小板抗体的主要场所,故温抗体型原发性 AHA 适合于脾切除治疗,而冷抗体型 AIHA 的溶血主要发生在血循环或肝脏中,故不适合脾切除治疗。脾切除指征: (1) 药物治疗无效或长期用药,停药后复发者;(2) 合并血小板减少的 Evans 综合症,皮质激素等治疗效果不满意者; (3) 51Cr 同位素体表测定,红细胞主要在脾脏潴留破坏者;(4) 单纯 IgG 型 Coombs 试验阳性脾切除效果佳。国内外报道脾切除疗效一般在 60% 左右。

5. 原发性血小板减少性紫癜 (Idiopathic Thrombocytopenic Purpura, ITP)   
本病的发生与自体免疫有关,血小板上均吸附有免疫球蛋白 G,这种带有免疫球蛋白的血小板在胆及肝内被巨噬细胞提前破坏,破坏的部位 2/3 病人在脾。故而多数病例脾切除后血小板计数可迅速上升,关于 ITP 脾切除的疗效报道甚多,有效率在 80% 左右,对于急性 ITP 患者是否行急症脾切除术,意见不甚一致。一般认为,急性 ITP 患者用强的松、大剂量静脉输注丙种球蛋白等无效,出血危及生命时,可进行紧急脾切除术; 慢性 ITP 患者的脾切除指征: (1) 在病程达6个月以上,经用激素或免疫抑制等治疗而未缓解者; (2) 血小板计数低于 25x103/L, 有颅内出血或其他脏器大出血者: (3) 激素或免疫抑制剂等药物治疗效果不佳或长期需用较大剂量激素维持者;(4) 对激素或免疫抑制剂应用有禁忌者;(5) 51Cr 标准检查血小板主要在脾脏??破坏者。

6. 慢性再生障碍性贫血 (Chronic Aplastic Anemia, CCA)   Mitchell指出对 CCA 选择性脾切除是有益的,可以减轻溶血,延长血小板寿命和减少输血。CAA 选择脾切除手术指征: (1) 骨髓增生较好,红系偏高,合并溶血而内科治疗无效者;51Cr 测定红细胞或/和血小板寿命缩短,脾脏破坏为主的。中科院血研所对28例 CAA 患者行脾切除治疗,有效率为 65.2%。

7. 慢性粒细胞性白血病 (Chronic Myeloid Leukemid, CML)    70年代,一些学者认为急变细胞在脾脏较多,脾切除可以防止 CML 急性变。但近年来研究,脾切除不能防止 CML 急变,也无何益处。目前对 CML 患者除非巨脾引起机械压追症状、脾亢,龙其是伴有血小板减少者,一般不再主张脾切除术,因为脾切除并不能延长生存或延缓急变的发生。

8. 毛细胞性白血病 (Hairy Cell, HCL)   当伴有脾肿大和脾功能亢进时,是外科脾切除指征。Jansen 认为在以下情况,手术效果较好:(1) 脾在肋缘大于等于4cm; (2) 脾在助缘下 1-3cm,但 Hb<85g/L 或 Hb85-120g/L, pt≤50x109/L; (3 ) 脾摸不到,但Hb<85g/L,pt≤50x109/L. 

9. 戈谢病 (Gaucher 病)    多见于幼儿,属常染色体隐性遗传。Mitchell 指出伴脾肿大,脾功亢进是脾切除指征,但脾切除对此病仅是一种对症治疗,可以缓解由于脾功能亢进引起的全血细胞减少等症状,并非能解决先天性家族性类脂代谢的紊乱。

10. 骨髓纤维化症 (Myelofibrasis, MF)     原发性MF的脾切除指征为: (1) 疼痛性脾肿大;(2) 巨脾引起机械性压追症状; (3) 脾功能亢进全血细胞明显减少和难以控制的溶血; (4) 需经常输血或用皮质激素治疗,骨髓涂片尚见部分造血灶,特别是年轻病人。Benbasat 收集了英、法、德文中 321 例 MF 患者脾切除资料,约 64% 患者手术有治标作用,输血量减少,出血倾向和腹痛减轻。但病人于术后可出现代偿性肝肿大,对于合并活动性肝病和 pt 计数偏高者,不适宜脾切除术。

11. 何杰金氏病 (Hodgkin's Disease, HD)     某些脾脏受累伴脾亢者可以行脾切除术。Mitchell 提出临床分期 IA、IB 和 A 的病例可考虑脾切除或作为剖腹探查的一部分手术,剖腹探查进行肝脏和淋巴结活检并切除脾脏,可以查明腹腔淋巴结受累程度及病变累及范围,便于提出针对性的治疗方案; 同时脾切除还可使患者发热、乏力等全身症状获得缓解,并可解决脾亢和增强对放疗或化疗的耐受性。

(二) 脾功能亢进

主要由于肝硬变导致门静脉高压而引起充血性脾肿大,巨脾在血吸虫性肝硬变时尤为多见。周围血细胞减少是由于脾红髓增生时其正常滤过及储存功能呈病理性亢进时所致。脾切除可使周围血液恢复正常。我国大量晚期血吸虫病人行脾切除后 4-5 年的随访结果,生车率达94%。对肝炎后肝硬化或所谓的班替氏病患者的巨脾应根据脾功能亢进程度,静脉曲张有无及全身情况慎重考虑单纯脾切除或与其它分流及断流手术合用,若患者因任何原因造成显著脾肿大有压迫症状或有脾梗塞、脾破裂之危险者也可考虑脾切除。

(三) 脾破裂

脾切除曾一直是治疗损伤的唯一治疗方法。但自1952年 King 报告了儿童脾切除术后发生爆发性感染 (Overwhelming postspleenectomy infection, OPSI) 引起了人们对脾切除术的重新认识。随着对脾脏生理功能研究的深入,各种脾手术兴起,诸如脾修补术、脾部分切除术等,这些手术保留了脾脏功能,但需要一定的技术水平、经验及术后严密观察。总的原则是抢救生命第一、保留脾脏第二,即在保证生命安全的前提下,尽可能保留脾脏或保存 (或保存一部分) 脾功能,既不要不管损伤程度如何,一律采用切脾治疗,又切忌不顾病人安危而强行保脾治疗。必须根据病情及本医院技术力量,制定适合于自己的单位的切脾适应证,切忌千篇一律,以保证疗效。一般来说,全切除术的适应证:(1) IV 度破裂伤,全脾破裂或广泛性脾实质破裂,脾脏血供完全中断;(2) 有威胁生命的多发伤;(3) 病情重、血压不稳定;(4) 脾缝合术不能有效的止血。

二、脾切除术后对机体的影响

(一) 免疫功能低下

脾脏是一个重要的免疫器官,脾脏对机体提供的免疫保护作用是终生的,对婴幼儿和儿童尤其显得重要。脾脏有如一个滤器对侵入血流中的颗粒抗原如细菌首先可发挥机械清除及滤过作用。脾脏还可以产生具有强大调理作用的IgM,经过调理的抗原才易被脾内外吞噬细胞所吞噬。脾脏产生的 Tuftsin,能有效促进多形核细胞吞噬。实验证明半脾切除之后,脾清除能力下降 25%,脾动脉结扎后下降 50%,脾切除后脾清除作用消失。

脾切除后最主要的并发症是由免疫功能低下引起的感染,因为: (1) 脾脏是制造 IgM 的重要场所,感染后首先是 IgM 的增高 (初级免疫反应)。IgM的半衰期只有5天,脾切后 IgM 很快下降,故可发生对感染的免疫应答功能低下;(2) 丧失了脾的“滤器”功能; (3) 不能制造吞噬作用激素,备解素及非特异性调理素,吞噬细胞的吞噬及清除细菌的功能明显减退。据统计外伤而切除脾脏的病人出现凶险的脾切除术后感染 (OPSI) 的危险是正常人群的50倍。因特发性血小板减少症,后天性溶血性贫血,何杰金氏病和其他血液病而施行脾切除者,其出现 OPSI 的危险性更大。

(二) 血液流变学改变

脾切除后由于细胞碎片,Howell-Jolly小体,Heinz 小体及其他代谢产物无法清除,红细胞内粘度升高,红细胞变形能力降低,因而脾切除术后血液粘度升高。脾切除对血小板的影响包括数量的增加和聚集性的增强。脾切除后约13%的病人血小板可超过100万,持续数月甚至数年,造成血小板增多症。血液和血浆粘度升高,加之血小板数量增加和功能增强,使机体处于一种高凝状态,这是术后血栓和栓塞发生的基础。有报道脾切除后死于闭塞性血管疾病和缺血性心脏病的比例增高,如迁移性血栓性静脉炎,深静脉血栓形成,冠心病等。

任何手术创伤都可导致血液流变学改变,但一般手术后的改变主要在术后近期,而远期大多恢复至术前水平。脾切除术后的上述改变则是持续的,因此对脾切除术后血液流变学指标和血小板聚集性明显增强者,以及血小板数量大于 400x109/l 者要采取预防措施,对原有心、脑血管疾病者更应引起重视。

三、脾切除术后并发症

脾切除术虽为一中等手术,但并发症却相当多,也有很高的死亡率,根据 Thaeton 统计一家医院 2417 例脾切除总的并发症为 39%,住院死亡率为 10%,危险性相当于或高于全胃切除术。脾切除术后合并发症可根据发生时间的不同分为早期合并症及晚期合井症。

(一) 早期合井症

1、出血    术中及术后数内最常见的严重合并症是出血,由于脾上极与胃底距离很近,胃短血管处理不当断端出血是常见的。又如胰尾有时延伸直达脾门,因顾忌伤及胰腺,脾蒂缝扎不牢,或处理脾蒂伤及脾静脉可造成难以控制的出血,门脉高压症尤其是血吸虫性巨脾,周围粘连重且有大量侧支循环,切除脾后膈面及后腹膜常有大量出血和渗血 ,如止血不完善,不彻底常于术后井发出血。

2、膈下积液、膈下脓肿    脾床止血不彻底,导致小量积血,或有淋巴液积聚等原因继发细菌感染而成,胃底损伤可导致胃漏,膈下积液及脓肿,胰尾损伤可导致胰漏、脓肿、胰腺囊肿及胰腺炎。

3、血小板计数过高    少数脾切除后可发生严重血小板增高,甚至达 1000x109/L 以上,这种情况多为一过性。

4、左侧胸腔积液及肺炎    常见于巨脾尤其是伴有门静脉高压,隔下广泛静脉侧支形成及淋巴管扩张者,因局部创伤,低蛋白血症,术后长期卧床,呼吸运动锻炼不足者。

5、脾热问题    脾切除患者术后常出现较长时间发热,短者2周左右,长者可达数月之久。抗生素治疗效果不佳,可笼统称为脾热,其实不同患者的脾热应该有其具体原因,除局部感染外,切脾后免疫功能低下,及脾静脉血栓形成也是常见原因。当然有部分的病例查不出原因,且应用抗生素效果不明显,而经一时期后体温慢恢复正常,人们称之为“不明原因”发热。

(二) 晚期井发症

1、血栓栓塞性并发症    少数病人切除后发生迁移性血栓性静脉炎或严重的深静脉血栓形成及血栓栓塞后井发症,特别是溶血性贫血及骨髓增生异常的病人脾切除后容易发生危险的血小板计数过度上升,必须密切监视病人必要时尽早采用抗凝剂或抗血小板积聚药物治疗。

2、副脾问题    据国内外报道,14-30% 的切脾手术患者有副脾,全脾切除后,如遗留副脾在体内,可以完全取代脾脏的功能,甚至原来的溶血或血小板减少症等疾病的复发或疗效不佳,当再次手术切除副脾后症状便可消失。

3、脾切除术后暴发性感染 (OPSD)    早在1919后 Morris 已指出脾切除后可增加感染的局感性,并对滥行脾切除提出警告,但当时未被其他学者所重视,直到 1952 年 King 报告100例儿童球状血球性贫血脾切除后5例发生严重败血症、2例死亡,才引起人们的注意,并命名为“脾切除后暴发性感染(OPSD)”,也有人们称为“脾切除后败血症”。OPSI 的发病年率是 1.45%, 为正常情况感染死亡的 200 倍,OPSI 可发生在切脾后几周至几年之间,而发生越早,死亡率越高,但多发生在切脾后两年内,而且在儿童及患血液病患者中发病幸则更高。

 

【李名杰从医60年纪念专辑(电子版)】