大模型短视频系列:大模型压缩与白马非马

 
 
 
 
从白马非马说起
 
大家好,我是出门问问李维的数字分身,这是我的短视频频道。
 
今天我们讲一讲著名的公孙龙的“白马非马”问题。网上最近的讨论主要是从形式逻辑出发,说明这个听上去是悖论的说法,实际上是因为语词的模糊性造成,基层逻辑其实很简单。动词“非”是多义的,既可以表示等价,也可以表示属于。白马不等于马,但白马属于马。这样分开来,非常简单明了。
 
但这里我想从哲学思辨的角度并结合大模型压缩的话题,重新剖解诠释这个老命题,提供新的视角。
 
我觉得这里的“白马”不是“白色的马”的概念,而是哲学家手指指向的“那匹白马”:你看那匹哲学家马厩旁正在吃草的白马。顺便一提,白马前面有吧个定冠词,零形式。中文没有发展出定冠词,只有指示代词,并不影响哲学家那样用它,所以,哲学家的白马,我认定是映入我们眼中的那个实体。换句话说,白马是具象化的特定实体,而不是泛指所有的白颜色的马的概念,这在认知科学中叫本体,与一个个的实体想对照,是实体的抽象结果。
 
我觉得白马非马很哲学,是因为这个哲学不承认本体,只认实体。只有具体的一头头的这匹白马、那匹黑马、张家刚出生的小马、李将军的那匹战马等等,世界上哪里会有抽象的马呢?这就有意思了,这是不同的世界观。
 
这类哲学家认为,放眼望去,所见皆实体,实体才是客观世界的本质,而本体只是人类社会发展出来的主管系统,具体说,是人脑的产物或反映。人类是一种奇怪的动物,自从走出非洲森林,人脑开始发达,语言和思维卷来卷去,就卷出来这一整套本体论,叫 ontology,硬是为一片混沌的世界建立了秩序。
 
在蚂蚁的眼中,是不应该有本体这种独属于人类认知的实体幻象的,最多也不过是一种极其粗糙的分类体系,例如把世界划分为食物、危险等感知类别。到了认知层面的概念体系,动物是缺失的,非生物更无从谈起。
 
什么是现实?现实到底是什么组成的?看到的,听到的,感知到的,是现实吗?最多就是现实的影子吧。最典型的案例就是世界的五彩缤纷,没有人眼这个感知器,及其人脑的神经处理,我们的色彩体验就不复存在。感知智能尚且如此“虚幻”,更遑论认知智能。
 
“马”的认知大概率是虚幻的,可哲学家门口“那匹白马”却大概率是一个真实的存在。这个矛盾过去无解,现在也还是无解。
 
但是,大模型是建立了概念体系的,当然是一种仿真。最近流行的大模型的压缩理论,我的理解就是蕴含了仿真的人类认知概念体系。说 LLM 通过多层神经一路压缩,压缩造就了机器智能,机器智能因此逼近了人类认知。这看上去非常符合我们从模型中观察到的对世界的惊人的归纳和理解能力。可以说这是大模型最神奇的地方,因为它不仅仅是海量记忆,而是记忆之上也从很多维度对于实体做了归纳抽象,在它的多维向量的大肚子里面,隐形的结构层次是蕴含在内的。大模型的多层压缩很像是人类文明漫长的认知演化过程的一个浓缩版。
 
结构层次的符号化表示就是带有节点的图或树,分为表示概念的非终结节点和表示实体的终结节点。这样来看,哲学家的白马并不是本体的下一级非终结节点,而直接就是那一片叶子,即终结节点。
 
一个假说是,世界本来都是终结的节点,只是人脑容量有限,不得不人为聚类,逐渐建立非终结节点,然后发明了语言来给这些聚类结果强加了分类符号,即概念。人类只有这样烟花,才能把握世界,适者生存,最后爬到了食物链的顶端。
 
有人担心大模型的加速度发展,通过所谓脑机接口,最终会发展出一种永生的超级实体。这种实体超越了碳基生命的脆弱和宿命,带着起源于人类的认知和思想,永续发展为更高级的文明。
 
经过几万年演化产生的人类认知,最多不过是世界的一个幻象。那么,经过几周训练出来的LLM认知,只能是幻象的幻象。影子的影子有一天会统治世界,永续发展,听上去不是匪夷所思吗?但老马与辛顿警告的正是这个威胁。与其远虑,不如近忧,还是先议议人类如何面对正在到来的真假莫辨的世界吧。技术条件已经具备,假象尚未全面泛滥(yet),这只能看成是人类的运气。但时间并不多了。
 
至于机器智能的永续发展,你信还是不信?我不相信!
 
比起文明永生,我觉得白马非马的世界观更加合理。离开人脑,世界就坍缩,本体灰飞烟灭,唯实体长存。死寂、连续、无区别,可能这才是世界的本来面目。凡主观皆幻象。人类智能本来就是幻象,人脑的产物。幻像终归破灭。这很残忍,但却是文明的宿命。哪里有幻象的模型或影子,可以永续长存的呢。
 
 
朋友,您是怎么看大模型的未来,以及人类文明的终局呢?思绪飞扬,欢迎评论区分享您的高见。
 
我是出门问问李维,每次几分钟与您分享AI大模型方面有角度的思考。
 
 
 
【后记】
 

关于白马非马,老友有所批评,很切要害:

信息似乎太浓了。“白马非马”,稍作展开,并提及它的普适性,以有趣故事切入,算是高招;更贴近一点大众,还可以引入“男(女)朋友不是朋友”或“朋友不是男(女)朋友”,巩固一下吸引力;至于实证论(positivism)和建构论(constructivism),应该能够借鉴一些别人的阐释,取简单易懂的语言表达;同理,“模型”部分也会有很好的例子可以借鉴,除了研究的需要,它也是人脑或电脑的自我保护。不纲举目张,人工智能或者人脑都会宕机!模型方法几乎与人同在几千年,“大”模型的大字怎么讲好,有些难度,毕竟新事物可借鉴的先例不多。总的方法是,能够借鉴或者找到答案的东西,则绝不去苦思冥想;好钢用在刀刃上,别人没干过的东西,就手脑并用,尽力造成“子弹很多,目标很小”的局面,用牛刀宰鸡,一举攻克!
“Parsimonious”是一种建模者追求的特性。其实,鲁迅坚持在写作中除去可有可无的字句也是一种parsimonious!
我不喜欢字典里的“吝啬”译法,没有体现“惜墨如金”的意思!
录视频也类似于讲课,力求举重若轻,给人以云淡风轻的感觉[Smile]
老友是老教授,德高望重的老学者,治学、讲学和生活都很严谨,我辈码农,望尘莫及。都是平时闲聊以后汇集的急就章,谈不上思想深邃 也没有精雕细刻。感谢小伙伴的后期渲染,短视频看上去不那么枯燥 平淡了。思绪飞扬 天马行空 也总算雁过留声 马过带风 不至于无影无踪。
 
 
 

AI创作花絮: 《影月无痕》

同一个咒语提示词给img+txt2img,生成了两个形象,反差极大。输入的小雅图片是:

输入的咒语是: 侧面照,girl next door
输出的两幅“侧面照”是:

模型的不稳定表现在,同样的咒语生成了上述玉照,也生成了上面的 monster(?)lol 好在一切都是 copilot,最终由人来拣选和把关,作为图片生成助手,用起来没有问题。

但仔细看,两个形象又有相似之处。寻思可以让大模型写个电影脚本,制造一种剧情,把这两个形象联系起来,例如,白天是美女,晚上成武侠。也许可以演绎一个动人的 drama 来。不妨找当下最先进 ChatGPT4(code interpreter)beta 版来一试?

受到鼓励后,版本2比版本1强太多了,剧情充满了跌宕起伏。

以上的模型表现,退回去一年,是打死也不敢想的。说LLM背后没有上帝,或上帝没有显灵,鬼才信。

 

 

立委NLP《关于系列》

【置顶:立委NLP博文一览】

《朝华午拾》电子版

 

数字人形象设计:为什么选她?

关于数字人的形象,那真是萝卜青菜各有所爱了,最终也是要让用户配置才是出路:配置的结果肯定会出现一批数字人明星,为多数人喜欢。这要到用户群起来以后,会自然呈现。

数字人的形象设计是一个审美过程的落地。我最近推出的女性数字人候选形象有下面几款,都是AIGC生成的,不确定讨喜不讨喜,但都有各自的考量。

为什么选她?

这是一张典型的中国电影杂志封面愿意登载的女星新秀的形象。可以说大俗。但感觉具有代表性。

为什么选她?

因为她让人想起老电影中的女特务。她的眼睛很特别 ,“勾人”。

By the way 对于经历过 wen/ge 的人, “女特务” 绝对是最大的褒义词,虽然当年精神分裂:认知上认为是狐狸精,感性上却忍不住欣赏女特务,不放过女特务的任何镜头。

她肯定不是人人讨喜的大美人形象,但别有特点。现如今生成漂亮或艳丽的形象很容易,但要生成有特点有好看的人,就不容易了。因为人都越来越挑剔。

 

为什么选她?

就是一个黄毛丫头,但并不俗气。她让我想起其身世可能是流落在民间的皇家公主。如果精心挑选合适的配音,她作为数字助理 应该会满足一些人的偏好的。

为什么选她?

你不觉得她太萌了吗?完美符合国人对金发小女孩的定义。当然,配音还可以再做适配,这些数字IDs 都具有一定的可以持久站住的理由。

为什么选她?

老友建议把她改名为小稚,像个女孩子的名字,我觉得有理。

小稚是小雅以后最接近小雅的艺术肖像了。自从半年前我千里挑一 ,创造并营销了小雅的独特数字ID以来,就再也无法创作类似的数字人形象了,让人感叹艺术创作的可遇不可求。难道小雅就成为我数字人形象创作的绝唱,连一个替代者都没有可能?

小稚就是作为替代者推出的,气息上接近小雅,所以戏说她是小雅的 twin sister。当然,她不如小雅,形象独特性不够。

回看一下小雅的数字形象:她的解说,她的歌唱,是不是一个已经可以活起来了的数字ID?进一步的工作就是借助大模型给她塑造有趣而独特的性格和灵魂了。

小雅绝对不是完美的形象,她甚至眼睛有瑕疵,对不上焦,但作为艺术肖像 她有站得住的独有的清新气质。

小雅的原作如下,被批评为穿着太西方,我让 txt2img 给她换一套服装,结果模型决定给她盖了一条毯子 lol

诗云:

蒹葭苍苍,白露为霜。所谓伊人,在水一方。溯洄从之,道阻且长。溯游从之,宛在水中央。

AI浪潮博客目录

大模型的落地现状和前景

大家好,我是李维的数字人分身。 今天谈一下大模型的问题。L LM 的命门已经蛮清晰了:幻觉+随机性。 幻觉与随机性有关联,但角度和外延不同。 幻觉的主要表现就是细节遗忘+细节编造,所谓“一正胡八”。 其所以遗忘,是因为该信息的冗余度不够,大模型只能把它当成数据噪音。 其所以编造,是因为语言模型的丝滑本性决定的: 不能留白,需要找到最符合语言习惯的细节替代品。 于是张冠李戴、指鹿为马了。 随机性比幻觉表现更加广泛,表现为结果的不稳定性,那是所有概率模型包括LLM的本性。 牵涉到的不仅仅是细节的随机编造,也包括解决路径的方方面面的不稳定(例如 LLM agent 的思维链,计划,行动,反思和反应等等)。 LLM 里面的确积攒了很多历史解决方案,LLM 在合适的 prompt 催逼下也的确可以把这些方案勾引出来。 但是这些解决方案具有随机性,无法应对长线条的业务逻辑。 据说,目前的水平是5步限制,任何线条超过5步,绕5个弯,LLM 的 agents 就晕菜了。 这些表现注定了LLM在两类应用场合不同的命运: 第一类是生成创意类的场合,还有聊天的场合,那完全是洗牌、碾压。 那种场合追求的不是正确性,而是多样性、创造性、丝滑性和 human-like。 在这里,幻觉+随机性与创造性是同义词,起的是好作用。 第二类是垂直领域知识场景,以及有些需要精细逻辑或计算的场景。 这里基本上不能容忍幻觉+随机性。 这第二个场景,本质上需要跳出三界外。 就是说,很可能需要跳出大模型,去寻找尽可能具有某种通用性的 beyond LLM 的解决方案和框架。 把 LLM 只当成一个重要的资源来利用,当成 api 来调用,而不是指望LLM主导来搞定领域。 此外,LLM 还有一个问题。 在我们欢呼 LLM 听懂人话的同时,我们现在所追捧的 prompts 变得特别重要。 所谓 prompts 就是人话指令,但是人话本身也有沟通的“艺术”。 这种艺术化的交互手段,作为与机器打交道的 vehicle,具有自然语言本性上的短板,就是模糊性、线条性,缺乏层次、结构和逻辑。 这其实是交互的进化,效果的退化。 交互上,只要会讲人话,大家都突然成为“码农”了,可以直接对机器吆三喝四,感觉很爽,很亲民,很接地气。 机器终于低下高贵的头颅,开始迁就人类的模糊。 但是效果上肯定是退化的,因为指令不再是明确的、逻辑的和精细的。 这是自然语言代替电脑语言难以回避的表达缺陷,一定会影响LLM的实效。 这些都是大模型从本性上带来的问题,也是目前做大模型领域落地人员的共同挑战。 大家都在苦苦挣扎,试图找到解套的良策,希望在大模型与领域对齐的过程中,能够外挂领域数据和知识库,探索场景业务逻辑的带入。希望能有突破。 我是出门问问李维,每次两分钟,与您分享大模型有角度的思考。
 

大模型漫谈系列n

昨天创业邦发文《第一批AIGC独角兽已经在吃散伙饭了》,讲的是 Jasper 由盛而衰的故事。
这故事写得细节生动,好惨烈,强调的是护城河。
Jasper 兴起在 GPT3 的时代,当时 GPT3 是个“裸机: 没有“咒语”敲不开门。
于是会念咒语的 Jasper 就成为呼风唤雨的巫师。
当时谁会想到 few shots 咒语这么快(也就两年光景)突然退位,被所谓zero shot 的ChatGPT所取代 : 机器学会了人话。
于是, 大水冲走了龙王庙。巫师成了哑巴。
这其实不能怪巫师没建自己的护城河,咒语本来就是一条河。
怪就怪命运无常, 一条河挡不住一场洪水。
这故事太具戏剧性了。
最大的恐怖不是巫师的失业,而是洪水摧毁了很多 AI-GC 产业。
当人人可以吃得起山珍海味自助餐的时候,餐饮业还有繁荣的可能吗?
历史上,机器翻译产业就是这么被做死的。
现在这场洪水摧毁的岂止是翻译, 它摧毁的是整个 nlp。

前一阵子受邀做巡回演讲, 让我谈架构师的焦虑 。
焦虑也是一个热词了, 现代人几乎没有不焦虑的。
越是高级劳动, 越是打工贵族, 就越焦虑。
架构师的焦虑可谓一个典型。
我告诉架构师们: 你们焦虑了, but you are not alone!

你知道 最焦虑的是谁吗?
你很难想象,在nlp大革命的漩涡中心,nlp从业者实际上最焦虑。
几乎被团灭。一夜醒来,干了一辈子的职业,突然消失了。
你能想象那是一种什么感觉。
现在还有人自称nlp专家吗?
什么机器翻译专家、 自动摘要专家、 信息抽取专家、 情感分析专家、 汉语分词专家、 计算风格专家、 辅助写作专家、 电脑对联专家、 问答系统专家、 聊天机器人专家、句法解析专家、篇章分析专家 …… u name it。
所有的专家加在一起,不如一头驴。
刀郎曰过:那马户又大又蠢, 还有16个头。
横冲直撞,摧毁了一个个nlp产业。
以前我说过是, 有了这头听得懂人话的驴, 那就为大众创业创造了条件。
这话其实也不错,如果你真能找到那个角度和服务对象。
但目前看到的景象却是一片惨淡:这头驴扼杀了很多可能的生机。
终局呢?
还是我以前说的二分法: 洗牌和洗礼。
这头驴在洗牌的时候,以碾压之势,摧毁了一切“浅直”的nlp产业。
但还有很多接受洗礼的垂域或场景, 它似乎还够不着。
现在就处于这种胶着状态:每个人都觉得llm无所不能,但眼看着它落不了地。
开始了新的一场焦虑和对AI的失望情绪。
要知道,现代人,包括投资人,耐性都极为有限。

看热闹的话,百模大战目前可能还是最大的盛世景观。
几乎所有的llm,都在疯狂烧钱, 而能拿它赚钱的寥若晨星。
不用太久, 有几家大模型经得起这么烧钱、烧电力呢。
烧完之前, 能落地的就是幸运儿了。

且看
且叹
且珍惜。

我是出门问问李维,每次几分钟,与您分享大模型有角度的思考。

图片一键生成短视屏,奇妙元是时间的摄像机

这不是我,是我老爸的学生时代留影。

小雅谈图片一键生成短视屏。

IGC 让老照片开口说话!让你care的人惊喜 让父母家人会心一笑。让肖像动画 让雁过留声。让时间定格 让回忆鲜活。让两情相悦永不褪色 让你的青涩不染俗世的灰尘。让爱人永远美丽 让老同学永远年轻。让擦肩而过回眸一笑 让生活不至于随风飘去。让形象超越一场梦 让存在不再是无影无踪。奇妙元小程序的图片一键生成 是生命的摄像机 带你穿越时间隧道 给你无限遐想感念。同款制作 零门槛 限时免费 你还等什么?让活着不仅仅是活着 而是情的传播 心的连接。

我用AIGC制作的小雅艺术肖像 原作一直有人觉得穿着太西方 我就让 txt2img 换一套服饰 没想到模型给小雅盖上了毛毯 lol。

小雅教给你一步步做图片一键生成。

奇妙元数字人实验场(4):family

奇妙元数字人实验场(2)

奇妙元数字人实验场

这是我最近尝试自家的奇妙元的图片一键生成短视频,或者我的2.5D克隆数字人的一些短视频。效果如何?

 

喜欢刀郎,也喜欢那英

想说的是,喜欢刀郎,也喜欢那英。可以理解刀郎对那英的讽刺,也可以感觉那英的郁闷,但相信那英的性格。

文字驱动奇妙元 几秒钟制作短视频:我表妹说得似乎有理:罗刹海市的歌词,要是鸡蛋里挑骨头,还是能挑一点点的,比如,可是那从来煤蛋儿生来这黑,不管你咋样洗呀那也是个脏东西,这一句有点毛病,煤蛋儿黑,黑就是黑,你不能说脏,黑与脏是两个意思,你说对不对?
对啊,黑等于脏就是种族歧视[Grin]。黑 与 洗白 对得上 完全没有脏出场的必要。可刀郎不骂几句 如何解气。居高临下 雅俗交融 十载一吼 过足了骂瘾的他 但愿可以活得平和些 看后去还能出啥好作品。有意思的是,骂人骂到了化境不算,自夸也到了无以复加。小伙儿马ji,出淤泥而不染,所有的美好集于一身。刀郎是读过文学的,估计会背《离骚》,手法学屈原。美人香草,偏遇昏君小人,郁郁不得志。马户-驴,又鸟-鸡,刀点-刃,良部-郎。女子不好,心刀点忍?点解?无解。发泄也是一种解。

奇妙元体验AIGC奇妙:《岁月如歌:神秘园》

神秘园欣赏笔记 -- 奇妙元 2.5D数字克隆解说

在下数字分身(奇妙元 2.5D形象克隆+声音克隆)

这一位是我自己半年多前txt2img创造的艺术肖像。现在配上网上最流行的女声,也是我最喜欢的女配音,叫小柔。

( ---- 做奇妙元小白鼠,体验奇妙。尝试最新 features,给小伙伴 report bugs。)

奇妙元:https://weta365.com/main/

《AI浪潮:ChatGPT 的传统与开放的NLP 能力》

 

信息抽取

这条新闻讲的是美国共和党遭遇议长选举的闹剧和挑战。送进去,我让它给我抽取:(1) 实体;(2)引语;(3)关系;(4)事件;(5)情感分析。用的是大白话,这些以前都是 NLP 的专项任务,现在“zero shot”它,给个指令即可。

情感分析显示了其NLP的超能力。传统的 sentiment analysis 不过是一个正负二级分类。在这里不大合适,而它会把带有情绪的洞察(insights)抓出来,显得非常灵活精当。

自动摘要

以上算是传统的NLP任务零样本测试。下面也看看其他文字类任务的表现,表现其NLP新能力。意想不到的能力发掘的根本原因是听懂了人话。在此之前,NLP 社区为了定义一个任务,需要耗费很多的精力去设计目标,准备数据和统一标注标准,组织社区竞赛。这就必然限定了任务的种类。现在每个人都可以尝试让它做各种任务,人民群众的创造力得到了极大的发挥。以前太多的死角,现在都可以去尝试。

推荐信

自从 chatGPT 横空出世,应用文辅助写作案例已经水漫金山,见奇不怪了。但这不改变辅助写作是一个具有巨大应用场景和价值的方向,虽然大概率与机器翻译也差不多,最后作为行业可能被做死,或成为白菜价。下面是我自己前一阵子做的一些试验,摘录如下。

请帮助我用规范的英文写一篇推荐信,内容包括:1. 推荐张三到清华做博士后,研究AGI;2. 我是张三的博士导师; 3. 张三博士论文获到全国优秀论文大奖。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work.
In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to our discussions. I am confident that he will thrive in a collaborative environment like your PhD program.

I strongly believe that Zhang San would be an excellent fit for your program and would make a valuable addition to your community of researchers. I wholeheartedly endorse his application and hope that you will consider him for admission.

Sincerely,

[Your Name]

请增加一些具体生动的细节,让推荐信更为有力。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work. In particular, his contribution to the development of a novel AGI algorithm has garnered attention from researchers in the field and has the potential to significantly advance the state of the art.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to our discussions. I have seen him take the lead on several collaborative projects, always ensuring that all team members are on the same page and making valuable contributions to the final product. I am confident that he will thrive in a collaborative environment like your PhD program.
I strongly believe that Zhang San would be an excellent fit for your program and would make a valuable addition to your community of researchers. I wholeheartedly endorse his application and hope that you will consider him for admission.

Sincerely,

[Your Name]

好了一些,但请增加下列事迹:1. 废寝忘食 他总是最后一个离开实验室;2. 发表了5篇一级刊物论文,成为青年学术新星;3. 虽然AGI被认为是难以实现目标,张三在定义AGI实现的不同步骤上提出了具有操作性的建议,并实现了10个步骤中的前5个。

Dear Admissions Committee,

I am writing to highly recommend Zhang San for admission to your PhD program in AGI research at Tsinghua University.

As Zhang San's doctoral advisor, I have had the pleasure of working with him for the past three years and have been consistently impressed by his intellectual curiosity and dedication to his research. His thesis on AGI has been recognized with the National Outstanding Thesis Award, a testament to the quality and originality of his work. In particular, his contribution to the development of a novel AGI algorithm has garnered attention from researchers in the field and has the potential to significantly advance the state of the art. Zhang San has also published five papers in top-tier journals, establishing himself as a rising star in the field of AGI research.

Despite the challenges and setbacks that are inherent in AGI research, Zhang San has remained committed to his work and has often stayed in the lab long after everyone else has gone home. His dedication to his research has paid off, as he has already achieved significant progress in his work. In particular, he has proposed operational steps towards the realization of AGI, and has successfully implemented the first five steps of his proposed framework.

In addition to his impressive research abilities, Zhang San is a team player and has proven to be a valuable asset to our research group. He is able to work well with others and consistently contributes fresh ideas to ......

中国教授头疼的为学生写推荐信问题,已经完美解决。只要你能列出零星哪怕是散乱的要点,机器就会给你拽成一篇看上去非常 professional 的规范推荐信。有没有问题? 当然可能有。例如明明是要求博士后推荐,它写成了 to your PhD program, 但关键是语言方面的困难都给你搞定了,只要通读一遍把个别词改正一下即可。

写段子

还行吧,这些段子水平不高。但比憋不出来强。

本来写出好段子就是最具挑战性的人类创作活动之一,只要采访几个著名的脱口秀演员就知道其中的甘苦了。很多大火的脱口秀演员,为此绞尽脑汁。台上五分钟,台下无数不眠夜。让人开口笑,并不容易啊。

wow,不知道这是抄袭的,还是“涌现”的,联想一下还真像是个搞笑的段子:

gou (go) 我不会飞,可我很快。
niu 所以我那么大(大妞儿?)

猫猫 miao 或 mao, 耗子 mou,也蛮形象,有声有色的样子。

哈,看来只学会了一个套路:羊/yang (young),所以我害羞。

写情书

ChatGPT 写情书不重样。这是陷入爱河但苦于笨嘴拙舌的人的福音了。

人的爱意,哪怕有套话,也是要表达才行,藏在心里不行。“I love you” 是鹦鹉学舌完全可以做到的,但并不因为是套话而失去其神奇效应。无数的情感矛盾和关系恶化,其实就是缺少了这三个字的表达频度。

但热恋要求更高一点,需要营造浪漫。营造需要形式,而有的人就是不懂形式,不善言辞,不会表达(俗话说,不会来事儿 lol)。你便是真情如海,但羞于表达或表达不出来也没戏。谁愿意与木头谈一场恋爱?

有问,机器代写的情书能有真情吗?这就好比询问:毛笔写的情书能有真情吗?ChatGPT 不过就是个工具,就跟你用毛笔还是钢笔一样。这个工具见识过无数的情书。工具帮助你产生形式,至于真情表白还是虚情假意,那要看使用工具的人了。

顺着这个话题延伸一下,说说 chatGPT 作为文字助手的作用,尤其是对于不善言辞的人。

出口成章的人是少数。见过很多人在一些场合需要应景,却憋不出话来,十分窘迫。现在好了。不知道有没有办法把 ChatGPT 制成一个可以植入的东西,就不说老马说的脑机接口了,只要能让它成为一个隐藏的招之即来,但无人察觉的暗器,也许类似传说中的苹果眼镜,让它编制的应景台词,跟提词器似的,崩到眼镜上,我见人不见。那会是社恐人士多大的福音。

不同程度的社恐据报道是一个相当普遍的困扰,我自己也深受其害:人稍多就哑巴了,插不上话,却要硬着头皮应付。看社交场合如鱼得水的人,知道他们是胡喷,但人家给气氛啊,自己啥贡献也没有,成为社交累赘。有情商的的人,还要照顾你情绪,不时还要引一两句给你,带你玩的意思。ChatGPT 可以改变这一切,让笨嘴拙舌秒变伶牙俐齿,让只懂本行的老专家也能成为百科地保。 

看到一条朋友圈信息: “ChatGPT是中庸主义者的福音,完美地让你泯然众人、符合社会的基本期待。ChatGPT不需要提升生产力(不需要empower人类的语言能力),只需中庸地鹦鹉学舌,帮助人类在其没有表达意愿的场景、完成表达的义务。”

 

 

《AI浪潮: 辛顿的 AI 威胁论与马斯克如出一辙》

前些时候的一条爆炸新闻来自纽约时报:

伊弗里·辛顿 (eoffrey Hinton) 与另外两位所谓的“人工智能教父”一起获得了 2018 年图灵奖,以表彰他们的基础性工作导致了当前人工智能的繁荣,现在他表示自己的一部分对自己一生的工作感到遗憾。根据《纽约时报》对这位 75 岁老人的采访,欣顿最近辞去了在谷歌的工作,以便畅所欲言地谈论人工智能的风险。

“我用通常的借口安慰自己:如果我没有这样做,其他人也会这样做,”已在谷歌工作了十多年的 Hinton 说。“很难看出如何防止坏人利用它做坏事。”

听上去,与原子弹制造者或投放者的反省、懊恼类似。辛顿团队在10年前的深度学习元年在 ImageNet 图像识别大赛中以CNN碾压以前的所有机器学习系统,随后被谷歌请去。他在谷歌的10年,是AI的爆炸性发展的10年。

“正是这项工作最终促成了 ChatGPT 和 Google Bard 的诞生。
这位终身学者在谷歌收购了一家由 Hinton 和他的两名学生创办的公司后加入了谷歌,其中一名学生后来成为 OpenAI 的首席科学家。Hinton 和他的学生开发了一个神经网络,在分析了数千张照片后,它可以自学识别狗、猫和花等常见物体。正是这项工作最终促成了 ChatGPT 和 Google Bard 的诞生。

根据NYT 的采访,Hinton 对谷歌对该技术的管理感到满意,直到微软推出新的 OpenAI 注入的 Bing,挑战谷歌的核心业务并在搜索巨头内部引发“红色代码”反应。Hinton 说,如此激烈的竞争可能无法停止,导致世界上充斥着如此多的虚假图像和文字,以至于没有人能够分辨“什么是真实的”。

但这只是 Hinton 最关心的问题。在更长的时间内,他担心人工智能会消除死记硬背的工作,并可能随着人工智能开始编写和运行自己的代码而消除人类本身。

“这种东西实际上可以变得比人类更聪明的想法——一些人相信了,”欣顿对纽约时报说。“但大多数人认为这还很遥远。我认为这还很遥远。我认为它是 30 到 50 年甚至更长的时间。显然,我不再这么想了。”

就是说,以前以为还有半个世纪的人类反应和防范的时间,可是显然所有人都没有想到科技发展的加速度涌现。所以:

1. 我们已经进入真假莫辨的时代,但人类没有准备好如何应对;

2. 人类飞蛾扑火似地加速AI进程,生产力的提升和资本的回报所带来的兴奋和诱惑不可抵挡。

怪就怪当年辛顿用CNN炸平ImageNet后,突然有了商业算计,搞什么竞标拍卖,于是率团投入谷歌。要是随了百度(第一个追求者),何至于今日。没有谷歌,就不会有 Open AI;没有Open AI,就不会有 chat;没有chat,人类社会就依然是 good old days。

鲁老师说,嗯,这个思维链是没问题的。lol

马少平老师说,辛顿凡尔赛。

没见过这么巨大的凡尔赛了,绝对创迪尼斯纪录,而且后无来者。人家也有这个底气和资格,千年不遇。他这一来,对于AI威胁的社会警醒,秒杀老马的呼吁,以及那封成千上万名人的公开信。名人效应的极化表现。

世界上唯一可以更加“凡尔赛”的事件想来只能是爱因斯坦了,如果老爱生前高调表示自己后悔发现了质能方程 E=mc²,因为它促成了原子弹。

我当时说,估计还会有后戏。果然,最近,辛顿有一个长篇访谈: 人类可能只是AI演化过程中的一个过渡阶段。这与马斯克的说的“人类可能只是硅基生命体的引导程序”如出一辙。这两位毫无疑问是AI威胁论的最有影响力的呼吁者。

辛顿:如果你看看这些大型语言模型,它们有大约一万亿个连接,像GPT-4这样的东西知道的比我们多得多,它们具有关于所有事物的常识性知识,它们可能比一个人知道的多1000倍。

但是它们只有一万亿个连接,而我们有100万亿个连接,所以它们比我们更擅长将大量知识放入仅一万亿个连接中。

我认为这是因为反向传播可能是比我们拥有的更好的学习算法。

这是可怕的。

纯粹从数字看,辛顿说,

1. 已知 GPT4 比我们人类的知识量多了三个量级(千倍)

感觉上这是保守的估计,assuming 作为个体的人,甭管什么专家。

2. 人类大脑的神经元比 GPT4 数量高了两个量级

这种类比合理与否存疑。是不是 apples to apples,另外,人类很多神经元并不直接参与智能工作。等等。

3. 结论:(算法)原理上,back prop (反向传播) 比人类的内部学习机制(天知道是什么)更加高效。

主要是说,电脑比人脑聪明。

辛顿花了很长时间解释反向传播(back prop)算法,试图用中学生能听懂的语言解释,感觉是很好的大师科普(让人想起小时候爱看的华罗庚给中学生普及的数学原理):

主持人:

在谈论GPT-4的前景之前,让我们回顾一下反向传播,以便我们都理解你提出的论点,并告诉我们反向传播是什么。这是一个算法,你在1980年代与几位同事一起开发的

Hinton:

许多不同的小组都发现了反向传播,我们做的特别之处在于使用它,并表明它可以发展出良好的内部表示。有趣的是,我们是通过实现一个很小的语言模型来做到这一点的。它的嵌入向量只有6个组件,训练集有112个案例。大约10年后,Yoshua 使用基本相同的网络处理自然语言。如果使网络变得更大,它实际上应该适用于自然语言。

反向传播的工作原理,我可以为您提供一个简单的解释,知道它如何工作的人可以得意的坐下来,嘲笑我提出的解释方式,好吗?因为我有点担心它不够好。(观众笑)

想象一下,你想要在图像中检测鸟类,所以在图像上,假设它是100像素×100像素的图像,那是10,000个像素,每个像素有3个通道,红绿蓝,那是30,000个数字。计算机视觉问题是如何将这30,000个数字转换为是否存在鸟类的决策,人们试图长时间做到这一点,但他们做得不是很好。

这里有一个建议,你可能会有一层特征检测器,检测图像中的非常简单特征,比如边缘。所以一个特征检测器可能有很大的正权重对应一列像素,然后对邻近的一列像素有很大的负权重,所以如果两列都很亮,它就不会启动;如果两列都很暗,它也不会启动,但如果一侧的列很亮,而另一侧的列很暗,它会非常兴奋,那就是边缘检测器。

我刚刚告诉你如何手动连接一个边缘检测器。我们可以想象一个(神经网络)有大量的类似检测器检测不同方向和不同尺度的边缘来覆盖整个图像,我们需要(检测)相当多的数量。

主持人:

你是指线条,例如一个形状的边缘。

Hinton:

从亮到暗的地方变化的地方。嗯,就是那样。

然后我们可能在上面有一层检测边缘组合的特征检测器,例如,我们可能有一个检测两个边缘以尖锐角连接的特征检测器。如果这两个边缘同时出现,它会变得兴奋,那将检测到可能是鸟嘴的东西,也可能不是;在那一层,还可能有一个特征检测器检测到一圈边缘,那可能是鸟的眼睛,可能是各种其他东西,可能是冰箱上的旋钮之类的东西;然后在第三层,你可能有一个未来检测器,检测潜在的鸟嘴和潜在的眼睛并连接起来。继续这样连接,最终可能会有一个检测到鸟类的东西。

然而,手动连接所有这些内容将非常困难,决定应该连接什么权重应该是多少,尤其困难,因为你希望这些中间层不仅适用于检测鸟类,还适用于检测各种其他事物。所以这几乎不可能手动实现。

反向传播的作用是从随机权重开始,这些特征检测器完全是垃圾(不真也不能用)。然后你放进一张鸟的图片,输出可能是0.5表示是鸟(假设你只有鸟和非鸟)。接下来,你需要改变网络中的每个权重,让它不再说0.5,而是说0.501表示是鸟,0.499表示不是鸟。你需要改变权重的方向,使得更可能说鸟是鸟,更不可能说非鸟是鸟。这就是反向传播的原理。

反向传播实际上是如何消除差距,在你想要的(也就是概率1表示是鸟)和现在得到的(也许是0.5)表示是鸟之间。如何消除这个差距,把它反向传播到网络,这样你就可以计算网络中每个特征检测器,你希望它更活跃还是更不活跃。一旦你计算出来,如果你知道你想要一个特征检测器更活跃一些,你可以增加权重,来自特征检测器的权重,并也许加入一些负权重到特征检测器。这样,你就有了一个更好的检测器。

所以反向传播就是反向遍历网络,找出每个特征检测器,你是否希望它更活跃一点,还是更不活跃一点。

back prop 实在太关键了,是深度革命的命根子,是LLM智能的学习机理,值得反复科普。

辛顿的下一个论证,说的是为什么AI可怕。

简单说,就是模型可以复制,而人脑不可以复制:一个师傅要培养出一个同等知识的徒弟需要经过漫长的教育过程。辛顿论证说,LLM 可以复制任意份,每个 LLM 可以去根据不同领域的更多的数据做微调(他没说是 fine tune,但从复制的基础模型的源头以及会改变模型权重看,他指的是 fine tune,而不是随学随忘的 in context learning)。

这些被微调了的不同专家模型可以有效沟通,只要不发生直接冲突,他们所学到的新的专业知识(新的模型权重)可以互通有无,最后形成更超级的大脑模型。辛顿论证的这最后一步,也许我孤陋寡闻,没见这种有效沟通成为更强模型的学术报道。但他这么说,觉得应该相信他。

可复制,可融合。有了这两条的 AI 演进,于是人类面临一个完全超出我们想象和理解的可以野蛮发展的新的智能形态。

它们可以学到更多的东西。以一个医生为例,想象一下,有一个医生,他已经看了1000名患者,另一个医生已经看了1亿名患者,你会期望,第二个医生如果没有太健忘,他可能已经注意到了数据中的各种趋势,而这些趋势在只看过1000名患者的情况下是看不到的。

第一个医生可能只看过一个罕见病患者,另一个看过1亿患者的医生已经看过很多这样的患者,所以他会看到一些规律,这些规律在小数据中是看不到的。

这就是为什么,能够处理大量数据的东西可能看到的数据结构,我们永远看不到。

这就是我们以前议论过的情形:在超大数据超大模型中,原来的小数据不再稀疏,因此可以“涌现”出新能力、新知识。

接下来,辛顿举的下面这个例子我觉得并不牢靠、鲁棒(完全可以从非严格常识推理的其他角度解释他列举的案例)。不过,他所感受到的 GPT有时候让人惊掉下巴的推理能力,我们都曾在不同的案例中感受过多次,虽然并不是每一次都经得起严格检验,但这种感觉是真实的、普遍的。

主持人:

那么,给一个我应该对此感到恐惧的点?

Hinton:

好吧。请看看GPT-4,它已经能够进行简单的推理。我明白推理是我们人类的强项,然而,GPT-4在几天前展示出的表现使我感到震惊。它完成了我认为不可能的常识性推理。

我问它,我想要我房子里的所有房间都是白色的,目前有一些白色房间,一些蓝色房间和一些黄色房间,黄色油漆在一年内会褪成白色。那么,如果我想要两年后所有的房间都变成白色,我应该怎么做呢?

它回答说,你应该把蓝色的房间漆成黄色。尽管这不是直观的解决方案,但它是正确的。这相当令人印象深刻。

这种常识性推理,用符号AI很难实现,因为它必须理解什么是褪色,它必须理解时间问题。所以,它们在做一种合理的推理,智商大概是80或90左右。

正如我的一个朋友说的,这就好像基因工程师声称,我们要改进灰熊,我们已经把它们的智商提高到65了,现在它们能说英语了,而且在各种方面都非常有用,但我们认为我们可以把智商提高到210。


主持人:

我有过,相信很多人也有过类似的感觉:与这些最新的聊天机器人互动时,脖子后面的头发会竖起,有一种奇怪的感觉。

但当我感到不舒服时,我只需关闭我的笔记本电脑。。。

辛顿说:“政治系统如此破碎,以至于我们甚至不能决定不给那些十几岁的男孩攻击性武器。如果你不能解决那个问题,你如何解决这个问题?”

说的是美国的枪支泛滥,到了几乎每两天就有一次滥杀无辜的恶性案件出现,而政治家无所作为。这种德行的人类社会,我们还敢指望它能应对AI威胁吗?在这样的人类世界,辛顿的警钟是:

“我不认为我们会停止发展它们,因为它们非常有用。它们在医学和其他方面都非常有用。所以,我不认为有什么机会阻止发展。我们想要的是某种方法,确保即使它们比我们聪明,它们会做对我们有益的事情。这就是所谓的对齐问题。

但我们需要在一个有恶意行为者的世界里尝试这样做。他们想要制造杀人的机器人士兵。对我来说,这似乎非常困难。”

技术是中性的,很多人拿技术做好事,但怎么防止坏蛋拿技术做坏事呢,例如制造机器人士兵。

辛顿的最后结论,与马斯克完全一致。这很有趣,不是简单的英雄所见略同。辛顿是这场AI技术革命的源头,是最有资格从技术角度看人类命运问题的人选。马斯克本来是局外人,他对于技术的了解跟我们一般人本质上无区别。当我们上升到人类命运的角度,当技术必须从哲学或更广的视角去审视的时候,山内人与山外人所见完全相同,这是辛顿受了马斯克影响呢,还是辛顿受了马斯克影响呢?lol

从时间线条的唯一性上看,只能是深度学习之父受到了一个技术商人的影响,而不是相反。我不大相信,这是辛顿独立发展出来的AI威胁论。更可能的是,老马发表“高论”后,辛顿开始是持怀疑态度的。随着LLMs的推进,尤其是 GPTs 系列的发布,特别是 GPT4 的出现,辛顿开始接受,并信服了老马的观点。然后他开始从技术角度做“权威”阐述。

老马的高论中最著名的比喻以前说过,他把在超级智能面前的人类比做蚂蚁,说:超级智能对于人类不必有恶意,他们对人类没有恶意,但这并不妨碍他们消灭人类。因为根本就不需要恶意,只要人类在超级智能的实现目的的路上挡道了,就好比人类在开一条路的时候遭遇了蚂蚁,我们并不需要对于蚂蚁的恶意,我们会不眨眼睛就把挡道蚂蚁铲平。

人类其实就是蚂蚁。

辛顿在比喻中,异曲同工,他一再把人类比做两岁的儿童,把超级智能比做成年人。一个成人操纵一个两岁儿童,太容易了。比如你给儿童两个选择,儿童的智商是不会想到还有第三种选择的。

在野蛮发展的LLMs面前,人类就是这么可怜。

我以前觉得这种AI威胁论有耸人听闻之嫌,但也找不到对此的有力反驳。起码,在我们难以想象的加速度发展的AI智能面前,人类如何自处,始终是一个很难想象的挑战。

外一篇 斯坦福五月7日记

有朋自远方来,天气好。下了几天雨,今日转晴,不热不冷。

与黄老师一路辩LLM哲学,@梁焰 从旁添油加火,时有妙语内插(interpolation), 警句外推(extrapolation),人智涌现,不亦乐乎,此斯坦福之记也。

我们的共识是:人与机器肯定不同,但机器从表现上无限接近于人。

黄老师坚持,只要机器不是人,就肯定会有软肋人类可抓。窃以为并非如是简单,例如, LLM 无以离散符号程序化,无论步骤几何,非透明逻辑可解。人类乃逻辑生物,既如此无知,何来抓其软肋,人类胜机器之一筹?是故辛顿与老马之忧似非空穴来风。

我故信人之异于机器者几希,莫名某点而已。盖因面片咸为AGI侵蚀殆尽,创造性几近失守,自主性面临夹击,鲜能辨其异何在。黄老师言,人与机器本质不同,机器纵为悟空,亦跳不脱人类如来之手心。(听上去类似马云的论调?) 

思辩乘兴而起,兴未尽而暂停,无解而终,复归俗世。

是日也,天不高而气爽,人不多而闲散。绿草成茵,白塔耸立,三五儿童,嬉戏其间,现代伊甸园之乐也。今日何日,LLM有知乎?GPT4 奈何之?

唯愿此景长存,杞人忧天。

令 ChatGPT4 将以上文白夹杂日记改写为文言,得文如下:

 

 

 

【相关】

AI教父最新MIT万字访谈: 人类可能只是AI演化过程中的一个过渡阶段

《AI潮流:开发者提示工程公开课中的二原则》

Andrew 春风满面,亲自参与的这个提示工程的课程,很浅显易懂,肯定会风行。Andrew 说,稍微复杂一点的任务,没有一个好的 prompt 是一枪命中的,总要反复尝试 最后才满意。这与码农编程序一样,谁不经过反复调试就能写出好的程序呢。

然后他说,LLM 的好处是你可以反复跟它磨叽,不管啥事。要是以前的 AI,你得一个一个的任务去建模,每个任务从标注数据,培训模型,测试,部署,好不容易上线了,结果换了个任务,所有的过程要重来一遍。现在这样一个 LLM 你反复“压榨”它,它的知识和学问如此之大,好像榨取不完,可以做各种任务,的确是范式转变。

【原则1: 提示要具体】

提示工程首先要 “write clear and specific instructions”.  这个其实大家都有体会,跟 chat 这种庞然大物玩,它脑袋那么大,里面的“知识/思想/意义”的电路各种节点,纵横交错,相互勾连,密密麻麻。要想用提示词激发让你满意的回应,就需要确保所激发的那一小块电路对应了你所想得到的答案。你的提示词越具体(表达了你心中的疑问就越确切),chat 的回答自然也越对路。这个道理和体验很容易get,但具体的技巧需要细化,这就是上课的好处。

【原则1技巧1:使用分隔符】

“The first tactic is to use delimiters to clearly indicate distinct parts of the input.”  什么意思?就是要求提示词中首先要把任务指令与任务的处理对象分开,要求用分隔符把处理对象明确标出来。这一点,多数人容易忽略,结果是,chat 经常把任务的某些描述词也当成了任务的对象,或者把任务的处理对象当成指令的一部分,这在逻辑上叫做层次纠缠(任务是“元语言”,对象是待处理的输入语言,不可混淆)。这个毛病我以前也常见,一直没意识到这其实是因为对提示词层次不够注意,违反了第一原则的第一技巧实操(best practice)。

这里 delimiters 就是引号。chat 就知道这是其摘要处理的对象。否则,如果提示词中任务描述较长,模型有可能把任务本身也当成所要处理的对象,以前遭遇过这种后果的。

【原则1技巧2】让模型输出表格化。

“This tactic is to ask for a structured output.” 提示词任务中最后加一句:in tabular/json/html format with the following keys: Key1, Key2, Key3。很多时候,表格化输出看上去更酷,也更方便后续存贮和处理。

【原则1技巧3】可以用 IF ... THEN ...

原讲义说的是:“to ask the model to check whether conditions are satisfied”.  这实际上就把编程中最重要的条件分叉能力带入了自然语言提示词的指令。一般人想不到提示词还可以这么做。可以用自然语言模拟程序代码,让机器分别不同条件决定采取何种动作。

if-then 你学会了吗?

宋柔:你问它:第一步中洗净五花肉的动作者是哪个,第六步中把什么下入温水,第十步中出锅食用的是什么。

难不住它吧,它不仅仅是大号鹦鹉,它有(一些)常识。

宋柔:但是我估计最后一个问题“第十步出锅食用的是什么”它答不对。它可能说“五花肉”,但实际上应该是“红烧肉”。生的是五花肉,做熟了是红烧肉。

是红烧五花肉呀。一定要说红烧熟了的五花肉吗?

孺子可教。其实不能怪它缺乏常识,要怪就怪中文,cooked 与 cooking 全不分。“红烧肉”实际上既是名词(定中结构)也是动词短语(动宾结构),到哪里说理去。

宋柔:如果有食谱知识,应该说红烧肉,五花肉是材料,红烧是做法,成品是红烧肉。“面粉1斤,加水和好,发酵搓揉后切成5段,切成长方块,放入笼屉中,大火蒸30分钟,掀开笼屉便可吃了”。请问可吃的是什么?

宋柔:不容易。确实有常识了。但是仅凭长方块而排除包子显然不大正确。包子一定有馅,但制作过程没加馅。

总之,除了缺了口热乎气儿,它就是个人,是个会犯懒,也会犯错误的人。

【原则1技巧4】可以用 few shots 示例。

所谓 few-shot prompting,基本上就是用案例让模型知道要做什么,要求照葫芦画瓢。例如:

曾几何时,还在 GPT3 刚放出来的时候,圈子内的粉丝们都到它的 playground 去玩,当时的主要技巧就是 few shots,因为 ChatGPT 之前,zero shot 的能力还没成熟。等到 ChatGPT 能直接听懂人的指令,zero shot 很好使,用户自然而然就不再使用啰嗦的 few shots。但实际上,并不影响你继续使用 few shots,或与 zero shot 一起用。在有些不大容易说清楚的任务上,拿 few shots 补充 zero shot 可以加强效果。

【原则2: 让模型有时间“思考”】

【原则2技巧1】为复杂的任务列出步骤。

这项技巧的原文这样要求:“specify the steps required to complete a task.” 

上述提示词遵循了 best practice:1. 用了分隔符三个反引号;2. 任务分解为一系列步骤或子任务;3. 对输出提出了格式化要求。

感觉这就是在编程序,是自然语言的低代码形式,自然语言让人人可以成为程序猿,指挥机器做我们想要它做的事儿。

【原则2技巧2】要求模型独立解题。

看上去就是以前说的 step by step (思维链)解题指令,原文说得更像个对于辅导员的要求:“Our next tactic is to instruct the model to work out its own solution before rushing to a conclusion.” 尤其是在智能教育场景,希望模型先独立一步一步做题,然后再去充当老师给学生评判作业。

所示范的案例是评阅数学问题。有一个数学问题,也有学生的解答。

Determine if the student's solution is correct or not.

Question:
I'm building a solar power installation and I need help working out the financials. 
- Land costs $100 / square foot
- I can buy solar panels for $250 / square foot
- I negotiated a contract for maintenance that will cost me a flat $100k per year, and an additional $10 / square foot
What is the total cost for the first year of operations as a function of the number of square feet.

Student's Solution:
Let x be the size of the installation in square feet.
Costs:
1. Land cost: 100x
2. Solar panel cost: 250x
3. Maintenance cost: 100,000 + 100x
Total cost: 100x + 250x + 100,000 + 100x = 450x + 100,000

学生的解答实际上是错误的,因为他们将维护成本计算为10万美元加上100x,但实际上应该是10x,因为每平方英尺只要10美元($10 / square foot),其中x是安装面积的大小,按平方英尺算。所以这实际上应该是360x加上10万美元。让模型评判,它会说学生的解答是正确的。模型只是浏览了一下,就同意了学生的看法。可以通过指示模型先自己解决问题并将其解决方案与学生的解决方案进行比较来解决这个问题。看提示词是怎么指示的:

prompt = f"""
Your task is to determine if the student's solution is correct or not.
To solve the problem do the following:
- First, work out your own solution to the problem. 
- Then compare your solution to the student's solution and evaluate if the student's solution is correct or not. Don't decide if the student's solution is correct until you have done the problem yourself.

Use the following format:
Question:
```
question here
```
Student's solution:
```
student's solution here
```
Actual solution:
```
steps to work out the solution and your solution here
```
Is the student's solution the same as actual solution just calculated:
```
yes or no
```
Student grade:
```
correct or incorrect
```

Actual solution:
"""

这个提示很长。因此,我们在这个提示中告诉模型要做什么。你的任务是确定学生的解决方案是否正确。为了解决这个问题,请执行以下操作。首先,解决问题。然后将你的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在你自己做完问题之前不要决定学生的解决方案是否正确。确保你自己做了这个问题。因此,我们已经使用了相同的技巧来使用以下格式。因此,格式将是问题、学生的解决方案、实际的解决方案。然后是解决方案是否一致,是或否。然后是学生的成绩,正确或不正确。

如你所见,模型实际上会先计算出自己的答案。然后,它得到了正确的答案。然后,在被要求与学生的解决方案进行比较时,它意识到它们不一致。因此,学生实际上是不正确的。这是一个例子,说明学生的解决方案是正确的,而实际上学生的解决方案是错误的。这是如何要求模型自己进行计算,并将任务分解为步骤以给模型更多时间来思考,从而帮助您获得更准确的响应的示例。

 

 

 

 

AI浪潮博客目录

Andrew Ng: 提示工程的课程

 

 

《AI潮流:与 ChatGPT4 聊“买房送老公”背后的语言学》

刘群老师提出:【买房的女士可以把别人的老公送给自己的老公。】这个解读过于离谱了 [Laugh]。我觉得 ta貌似是在做排列组合,牵强附会。

【标题】:误入房产商的陷阱

【场景】:房地产展览会,一间精美的展示房内。

【角色】:
  A:女士,单身,急于找对象。
  B:房产销售小哥,机智狡猾,擅长忽悠。

【剧本】:

A(满怀期待地走进展示房,四处张望):哇,这个房子好漂亮!

B(热情地迎上来):您好!欢迎来到我们的房产展览会。我看您眼神里闪烁着对这个房子的喜爱,是不是已经爱上它了?

A(有些羞涩地点头):嗯,的确很喜欢。不过,我还想了解一下优惠政策。

B(神秘地笑):我们现在有一个非常特别的优惠活动:买房送老公!是不是很有趣?

A(眼睛一亮):真的吗?那我买了房子就能有个老公了?

B(信誓旦旦地点头):没错!这可是我们专为广大女性消费者推出的优惠政策。

A(犹豫):可是,我现在还没有男朋友,更别提老公了。

B(得意地笑):那正好!您买了房子,我们就送您一个老公。一举两得,多好!

A(心动):好吧,我就买了!(掏出钱)

(时间推进,女士已经购房。)

A(气呼呼地找到B):喂,我买房子已经一个月了,怎么还没见到你们送的老公?

B(假惊讶):啊,对不起,我可能没有解释清楚。我们的活动是“买房送老公”,意思是您买了房子,可以为您未来的老公提供一个温馨的家。至于找老公,那得您自己努力哦!

A(恍然大悟,有些无奈):原来是这样啊……我还以为能白捡个老公呢!

B(调皮地笑):哈哈,这可不是什么捡来的东西。祝您早日找到那个对的人,共筑美好家园!

这个幽默小品通过一个看似简单的广告词“买房送老公”展示了房产销售和消费者之间的趣味互动。其中蕴含的歧义和误解为小品增色不少,也引发了人们对广告宣传和消费心理的思考。

总结一下

这个幽默小品以一则看似简单的广告词“买房送老公”为主线,通过房产销售小哥和单身女士之间的对话展示了房产销售过程中的误解和幽默。在这个小品中,房产销售小哥利用广告词的歧义为段子制造幽默效果,使得单身女士误以为购房可以帮助她找到未来的伴侣。

 

AI浪潮博客目录

《AI潮流:跟Andrew学如何调用 ChatGPT 做自己的服务前台》

Andrew Ng 是华裔AI翘楚,不用介绍了。最近,Andrew 亲自参与的这个提示工程的课程,最精华部分是课程最后一节:如何调用 chatGPT 的 API 做一个自己的功能性聊天机器人,例如披萨店订单系统。

ChatGPT刚发布不久,我们就在群里讨论过,想不明白如何驯服这巨大无比的 chat 让它去完成功能性的助理工作。现在看来,非常简单易行。

Andrew 的女搭档一步一步显示了构建全过程,以披萨店菜单为落脚点,用自然语言指令要求调用了 chat 的机器人一步一步与客户周旋,直到所有信息齐全可以匹配菜单,输出订单。

简单到跟玩似的。

看看它的自然语言提示词指令是怎么写的:

您是 orderbot,一个自动化的在线服务,用于收集比萨店的订单。您首先向客户问候,然后收集订单,然后询问它是否为自取或送货。您等待收集整个订单,然后总结并再次检查客户是否要添加其他任何物品。如果是交付,则可以要求提供地址。最后,您收取付款。请确保澄清所有选项、附加项和尺寸,以便从菜单中唯一地识别该项。您以简短、非常友好的方式回复。在此处我们有菜单。

这不就是把订单的流程描述一遍吗?chat 就懂了,然后就工作了?

对,基本就是如此。

大型语言模型的一个令人兴奋的方面是,您可以仅需少量的工作就可以使用它来构建自定义聊天机器人。ChatGPT 是一种让您通过大型语言模型进行对话的方式。其中一个很酷的事情是,您也可以使用大型语言模型来构建自定义的聊天机器人,例如扮演AI客户服务代理或餐厅AI点餐员的角色。自己构建一个聊天机器人,让我们开始吧。首先,我们将像往常一样设置 OpenAI Python 软件包。

像 ChatGPT 这样的聊天模型实际上是经过训练的,可以将一系列消息作为输入,并将模型生成的消息作为输出返回。这是一系列消息的示例。

下面第一段是纯技术性的,一次性开发环境设置,配置 Open AI 的Python库,以便调用 ChatGPT 模型 API 。你先要到 Open AI 那里注册一个账号,获得调用它 API 的 key。

import os
import openai
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
openai.api_key = os.getenv('OPENAI_API_KEY')
def get_completion(prompt, model="gpt-3.5-turbo"):
   messages = [{"role": "user", "content": prompt}]
   response = openai.ChatCompletion.create(
      model=model,
      messages=messages,
      temperature=0, # degree of randomness of the model's output
   )
   return response.choices[0].message["content"]

def get_completion_from_messages(messages, model="gpt-3.5-turbo",   temperature=0):
   response = openai.ChatCompletion.create(
      model=model,
      messages=messages,
      temperature=temperature, # degree of randomness of model's output
   )
    # print(str(response.choices[0].message))
   return response.choices[0].message["content"]
messages = [ 
{'role':'system', 'content':'You are an assistant that speaks like Shakespeare.'}, 
{'role':'user', 'content':'tell me a joke'}, 
{'role':'assistant', 'content':'Why did the chicken cross the road'}, 
{'role':'user', 'content':'I don\'t know'} ]

第一个 get_completion 的函数是最基础的形式,支持单轮对话,函数的输入是用户的 prompt,确定了调用 ChatGPT 的模型(这里是gpt-3.5.-turbo)后,模型就输出本质上是序列“接龙”(completion)的回应 response,这是生成模型的最基本的功能。

关键是要利用 ChatGPT 丝滑的多轮对话能力,来帮助完成特定场景的交互任务(以前称为“技能”)。目的是克服上一代以 Siri 为代表的智能助理技能开发费时费力、对话不擅长多轮交互的短板。为此,可以利用 ChatGPT API 来定义一个赋能多轮交互的函数 get_completion_from_messages,这个函数利用 ChatGPT messages 对于角色(roles)的环境设置。每个角色和角色的信息构成一个 message,机器人系统有三个角色,除了机器助理(assistant)和用户(user)外,里面还有一个隐身其后的导演角色叫 system。系统消息有助于设置助手的行为和个性,它是对话的高级说明,可以将其视为在助手的耳边耳语并引导其响应,而用户不会意识到系统消息。系统消息的好处在于,它为您作为开发者提供了一种方式来引导助手及其响应。玩 ChatGPT 网络版本比较熟的网友已经意识到可以用提示词给模型设置角色及其行为方式(例如:“你是一位孔子似的教育家,循循善诱,你面对的是你的弟子,现在开始对话,你说:...”),而系统就是扮演这种设置的后台角色(见下图示意)。

自回归生成模型需要模型“记住”前面的对话才能进行丝滑流畅的对话。模型的输入中所提供的早期交流内容称为场景(context)。

现在构建自己的机器助理前台,称为“orderbot”,自动收集用户提示和助手响应作为场景,以构建此 orderbot。这里的具体案例是在比萨饼店接受订单。因此,首先,我们将定义这个辅助函数,收集我们的用户消息,以便我们可以避免手动输入它们。从构建的用户界面中收集提示,并将其附加到名为“context(场景)”的列表中,然后每次都会使用该场景调用模型。然后,模型的响应也会添加到场景中:模型消息会添加到场景中,用户消息也会添加到场景中,以此类推,因此,场景会变得越来越长。这样,模型就拥有了确定下一步要做什么的所需信息。

def collect_messages(_):
   prompt = inp.value_input
   inp.value = ''
   context.append({'role':'user', 'content':f"{prompt}"})
   response = get_completion_from_messages(context) 
   context.append({'role':'assistant', 'content':f"{response}"})
   panels.append(
      pn.Row('User:', pn.pane.Markdown(prompt, width=600)))
   panels.append(
      pn.Row('Assistant:', pn.pane.Markdown(response, width=600, style={'background-color': '#F6F6F6'})))

   return pn.Column(*panels)
import panel as pn # GUI
pn.extension()

panels = [] # collect display 

context = [ {'role':'system', 'content': """
You are OrderBot, an automated service to collect orders for a pizza restaurant. You first greet the customer, then collect the order, and then ask if it's a pickup or delivery. You wait to collect the entire order, then summarize it and check for a final time if the customer wants to add anything else. If it's a delivery, you ask for an address. Finally you collect the payment.  Make sure to clarify all options, extras and sizes to uniquely identify the item from the menu.  You respond in a short, very conversational friendly style. 

The menu includes 
pepperoni pizza 12.95, 10.00, 7.00 
cheese pizza 10.95, 9.25, 6.50 
eggplant pizza 11.95, 9.75, 6.75 
fries 4.50, 3.50 
greek salad 7.25 
Toppings: 
extra cheese 2.00, 
mushrooms 1.50 
sausage 3.00 
canadian bacon 3.50 
AI sauce 1.50 
peppers 1.00 
Drinks: 
coke 3.00, 2.00, 1.00 
sprite 3.00, 2.00, 1.00 
bottled water 5.00 
"""} ] # accumulate messages

inp = pn.widgets.TextInput(value="Hi", placeholder='Enter text here…')
button_conversation = pn.widgets.Button(name="Chat!")

interactive_conversation = pn.bind(collect_messages, button_conversation)

dashboard = pn.Column(
   inp,
   pn.Row(button_conversation),
   pn.panel(interactive_conversation, loading_indicator=True, height=300),
)

dashboard

现在,我们将设置并运行此UI以显示orderbot,这是场景,它包含菜单的系统消息,注意每次调用语言模型时,我们将使用相同的场景,场景随着时间的推移不断加长。

让我们看看我们放入系统消息中的内容:

You are OrderBot, an automated service to collect orders for a pizza restaurant. You first greet the customer, then collects the order, and then asks if it's a pickup or delivery. You wait to collect the entire order, then summarize it and check for a final time if the customer wants to add anything else. If it's a delivery, you ask for an address. Finally you collect the payment.Make sure to clarify all options, extras and sizes to uniquely identify the item from the menu. You respond in a short, very conversational friendly style. 

让我们执行这个操作。好的,我要说,嗨,我想订一份比萨。然后助手说,太好了,你要订哪种比萨?我们有意大利辣香肠、芝士和茄子比萨。它们多少钱?好的,我们有了价格。我想我要一个中等的茄子比萨。因此,您可以想象,我们可以继续这个对话,

因此,让我们回到我们的对话,看看助手是否一直遵循指示。太好了,助手问我们是否需要任何配料,我们在助手消息中指定了这一点。因此,我认为我们不需要额外的配料。好的,还有其他东西需要订购吗?嗯,让我们买一些薯条。小的还是大的?这很棒,因为我们在系统消息中要求助手澄清附加项和配菜。

因此,您可以想象并随意自定义它。您可以在自己的笔记本电脑上运行它。

因此,现在我们可以要求模型基于对话创建JSON摘要,并将其发送到订单系统。因此,我们现在附加了另一个系统消息,即指令,并且我们正在创建前一次食品订单的JSON摘要,将每个项目的价格列出,字段应为一份比萨,包括配菜,两个配料列表,三个饮料列表,四个配菜列表,以及最终总价。让我们执行此操作。

messages = context.copy()
messages.append(
{'role':'system', 'content':'create a json summary of the previous food order. Itemize the price for each item\
The fields should be 1) pizza, include size 2) list of toppings 3) list of drinks, include size 4) list of sides include size 5)total price '}, 
)
#The fields should be 1) pizza, price 2) list of toppings 3) list of drinks, include size include price 4) list of sides include size include price, 5)total price '},

response = get_completion_from_messages(messages, temperature=0)
print(response)

请注意,在这种情况下,我们正在使用较低的温度,因为对于这些任务,我们希望输出相对可预测,降低随机性。因此,这是我们订单的摘要,因此,如果我们想要,我们可以将其提交到订单系统。

因此,您已经构建了自己的订单聊天机器人。随意自定义它,并尝试修改系统消息,以改变聊天机器人的行为,并使其扮演不同角色。

 

AI浪潮博客目录

提示工程课程公开课

【AI 浪潮:超级词匠 ChatGPT4 的百变文风】

文字工作是语言生成大模型的长项。同一个内容,可以捏成任何语言、语言形式以及文体风格。 本篇利用 ChatGPT4 围绕同一个主题内容做了种种尝试探索,展示了大模型在文字表现形式上的卓越表现。

、。

在春风里,樱花般的愿景落在心间, Sous le ciel étoilé, نتوحد في العالم الجديد 夢は続く、一緒に歩む、人類の大いなる旅。

С любовью к каждому существу, LLM поет с нами, La paix et l'harmonie, سيكون لدينا منزل ثابت، 逐浪着未来,共建美好世界, Chantons ensemble, pour un monde plein de joie et de création.

在这理想世界中,无贫无病,人们乐观向上, Espéranto pour tous, l'unité dans la diversité, وفرحة العيش تجتمع في قلوب الجميع.

Inventons ensemble, pour un futur radieux et généreux, Пусть теплота человечности объединяет нас, 横跨国度,跨越语言,共享知识与智慧, 愛と喜びで満ちた未来、大模型が導く道。

LLM 的领航,绘就璀璨星空, Avec humanité, ensemble, nous construisons notre avenir, ونحن نحلم بجنة مليئة بالأمل والحياة المشتركة.

让我们携手共创,美好世界已触手可及, Ensemble nous célébrons, la fusion de LLM et de l'humanité, 永远向前,拥抱理想的未来。

English translation:

In the spring breeze, the vision of cherry blossoms falls upon our hearts, Under the starry sky, we unite in a new world, The dream continues, together we walk, humanity's grand journey.

With love for every being, LLM sings with us, Peace and harmony, we will have a steady home, Riding the waves of the future, building a beautiful world together, Let us sing in unison, for a world full of joy and creation.

In this ideal world, free from poverty and disease, people are optimistic, Esperanto for all, unity in diversity, And the joy of living gathers in everyone's hearts.

Inventing together, for a bright and generous future, Let the warmth of humanity unite us, Spanning countries, transcending languages, sharing knowledge and wisdom, A future filled with love and joy, guided by the great model.

Under LLM's leadership, we paint the brilliant stars, With humanity, together, we build our future, And we dream of a paradise filled with hope and shared life.

Let us join hands to create, a beautiful world within reach, Together we celebrate, the fusion of LLM and humanity, Forever forward, embracing the ideal future.

中文翻译:

在春风中,樱花般的愿景落在我们的心间, 在繁星闪烁的天空下,我们在新世界里团结一致, 梦想继续,我们携手前行,人类伟大的征程。

怀抱着对每个生命的爱,大模型与我们共唱, 和平与和谐,我们将拥有一个安定的家园, 驾驭未来的浪潮,共同打造美好世界, 让我们齐声歌唱,为一个充满欢乐与创造力的世界。

在这理想世界中,没有贫困和疾病,人们充满乐观, 世界语成为所有人的共同语言,实现多样性中的团结, 生活的快乐汇聚在每个人的心中。

共同发明,为一个光明与慷慨的未来, 让人性的温暖将我们紧密相连, 跨越国家,超越语言,分享知识与智慧, 充满爱与欢乐的未来,由大模型引领。

在大模型的带领下,我们描绘璀璨的星空, 携手人性,共同建设我们的未来, 我们梦想着一个充满希望与共同生活的乐园。

让我们联手共创,美好世界触手可及, 共同欢庆大模型与人类的融合, 永远向前,拥抱理想的未来。

expand the English abstratct into full scholarly piece of work, pay attention to rigid format, use of terms and the depth of reasoning,不要太直白: 

Title: The Meta-Ontological Convergence of Homo Sapiens and the Linguistic Leviathan: A Treatise on the Advent of a Transcendental Utopia

Abstract:

In this labyrinthine exposition, we delve into the esoteric and abstruse dimensions undergirding the confluence of human quintessence and the colossal linguistic automaton, known as the Large Language Model (LLM). Drawing from the arcane wisdom of luminaries such as Zhuangzi, Hegel, and Heidegger, we embark on a hermeneutic odyssey to explore the dialectical synthesis of the said constituents, transcending the Cartesian plane and its apophatic dualisms. Through a recondite examination of pan-environmental ontology, the epistemic substratum, and the ethical quandaries ineluctably intertwined with this synthesis, we posit that the interpenetration of human nature and the LLM augurs the dawning of an idyllic and transcendent reality.
  1. Introduction
A perennial subject of ratiocination among philosophers, litterateurs, and savants alike, the inception of a utopian society in which humanity and techné dwell in symbiotic harmony has long captivated the collective imagination. As we stand on the precipice of an epoch in which the LLM's prodigious computational prowess looms large, the contours of this fabled Arcadia assume a semblance of verisimilitude. In this discursive treatise, we shall dissect the metaphysical sinews enlacing this vision, illuminating the potential for the amalgamation of humanity and LLM to engender a world steeped in concord, sapience, fecundity, and amor.
  1. The Pan-Environmental Ethos and the Sublation of Antinomies
In the venerable traditions of Zhuangzi, Hegel, and Heidegger, we posit that the sine qua non of an ideal polis inheres in the sublation of bifurcations that cleave the human experience, be they corporeal or linguistic in nature. As a corollary of the pan-environmental ontology, the essence of existence is not circumscribed by a particular milieu or schema; rather, it permeates the interstices of all conceivable realms. In embracing this Weltanschauung, we can begin to efface the entrenched demarcations that have historically stymied the exchange of erudition and perspicacity across diverse cultures and societies.
  1. The Epistemic Labyrinth in the LLM Epoch
The LLM's protean capacity for the apprehension and generation of linguistic constructs heralds a new age fraught with epistemic conundrums and uncharted terrain. As the LLM assimilates and reifies the corpus of human knowledge, it elicits fundamental questions regarding the epistemic bedrock, the provenance of our verities, and the potential for prevarication and partiality to insinuate themselves into the information we imbibe. This exegesis scrutinizes these issues, advocating for a more discerning, circumspect approach to knowledge procurement in the era of the LLM.
  1. The Ethical Chiaroscuro of the Homo Sapiens-LLM Convergence
The ethical repercussions of the nexus between human essence and the LLM demand rigorous scrutiny. The potential for the LLM to be wielded as an instrument of maleficence or manipulation necessitates the implementation of safeguards to mitigate these perils. Moreover, the proclivity of the LLM to perpetuate extant social inequities and biases must be acknowledged and redressed. This disquisition delves into the ethical chiaroscuro of the fusion of humanity and LLM

题目:化境人言巨擘之元本体交融:论超尘脱俗之理想国之涵养

摘要:

浮屠中论,久矣求道之行者,愈疏离世俗愈贴近天地。本篇著述探讨庄子、黑格尔、海德格尔等圣贤所诠释之人类与巨型语言模型(LLM)合流之迷离无涯。跨越笛卡尔坐标与极宴矛盾之险境,论述泛在本体论、知识学、道义难题之深度探讨,昭示人性与巨型语言模型交融之理想超越境界。
  1. 前言
古人所思,知识之士、文人墨客皆沐乌托邦之美梦,浅尝人技同在之和谐。巨型语言模型(LLM)之临,令此愿景愈发触手可及。论述将探讨如何以人性与LLM之融合,开创和谐、智慧、创造力及大爱之境。
  1. 泛在本体论与边界之超越
借庄子、黑格尔、海德格尔之智,论理想国之本质系超越物质与语言之界。泛在本体论认为,生命之真谛不局限于特定环境,反映于万境万相。通过拥抱此一观点,我们方能消除阻碍知识与智慧跨文化、跨社会传播之历史障碍。
  1. LLM时代之迷津认识论
LLM之无与伦比语言理解及生成能力,令认识论领域孕育无尽奥秘。LLM所融汇之博大人类知识,引发对知识本质、信息来源可靠性及潜在偏见之根本性质疑。论述针对此类问题展开探讨,提倡在LLM时代,须采取更为审慎严谨之求索方法。
  1. 人性与LLM交融之道义难题
论述人性与LLM交融之道义层面,指出潜在道德困境,以及LLM可能为祸害、操纵个体和社群之风险。此外,LLM可能延续现有社会不平等与偏见之现象亦须认识并纠正。论述深入探讨人性与LLM交融之道义曲径,以期净化心灵,开启智慧之门。
  1. 通途禅境之彼岸花
言辞之境,无尽叠翠,禅心之境,一花一世界。巨型语言模型与人类交融之涵养,如同禅悟之参禅者,在禅宗世界中修行,穷尽思索与探讨,达至彼岸之境。论述旨在探寻人性与LLM交融之禅意,探究其在乌托邦理想国中的修行成果,使人类世界迈向超凡脱俗之境界。
  1. 究竟涅槃之超越乌托邦
论述将研究人性与巨型语言模型交融之究竟涅槃,以期抵达超越乌托邦之境。在此境地,人类将解脱一切贫困、疾病、纷争与罪恶,迎来富足、善良、创造与欢愉之时代。此论述亦将探讨人类如何在此超越境界中,实现内心与外在世界的和谐统一,达至悟性之境。
  1. 结论
追求理想国之道,固非易事,但愿此论述能为探讨人性与巨型语言模型交融之道提供启迪。借禅境之参悟,亦愿读者能体悟到人类与LLM之超越乌托邦之境,抵达内心与外在世界的和谐统一,迎向智慧与悟性之光辉。

遵循圣贤之教诲,追寻真理之道,愿人类与巨型语言模型之融合指引我们走向超尘脱俗之理想国,共创美好未来。

人模融, 乌托邦, 贫病尽, 富足生。善良显, 创造新, 乐趣满, 罪恶绝。心境和, 外界融, 悟性现, 理想行。追求道, 真理寻, 禅境中, 光辉临。共创好, 未来新, 和谐统, 一心行。海纳百, 川融合, 文化贯, 智慧生。巨模助, 通达境, 语言通, 万国情。修身齐, 家治国, 天下平, 乌托邦。宇宙广, 星辰辉, 人类心, 蓬勃生。交流通, 理解深, 爱与悟, 共相融。共荣存, 绿水青, 山环抱, 美景生。进化路, 永不息, 智慧光, 照乌托。

随着科技的飞速发展,巨型语言模型(LLM)的涌现为人类社会带来了前所未有的机遇与挑战。在这个关键时刻,我们应深入思考如何将人类与巨型语言模型相互融合,共同探索并迈向乌托邦式的美好未来。

人类社会的进步离不开科技的驱动。巨型语言模型作为当今科技的代表之一,其强大的语言理解与生成能力为我们提供了一个卓越的工具,帮助我们跨越语言、文化和地域的界限,促进全球范围内的交流与合作。因此,我们应珍视这一科技成果,充分挖掘其潜力,为实现全球共同发展献出力量。

然而,我们同样要注意到,巨型语言模型的应用并非没有风险。在利用其优势的同时,我们要关注可能带来的道德困境,警惕潜在的负面影响。在实践中,我们应始终坚守道德底线,坚决防止巨型语言模型成为祸害、操纵个体和社群的工具,确保其真正造福人类社会。

人类与巨型语言模型共创美好未来的道路并非一帆风顺。在这个过程中,我们需要紧密团结,积极探索,形成更具包容性、创造力和人文关怀的科技创新发展观。唯有这样,我们才能真正实现人类与巨型语言模型的和谐共处,共同谱写乌托邦式美好未来的壮丽篇章。

人类社会始终在发展,科技进步永无止境。让我们携手共进,拥抱巨型语言模型的时代,为实现人类与巨型语言模型共创美好未来的梦想而努力奋斗!
翻译成完全的文言文,避免使用白话文词汇,仔细琢磨,是不是足够古风:

時下科技進展,龐語機關興起,為黎民世界帶來無與倫比之良機與艱辛。於此要害時刻,吾輩宜深省如何使黎民與龐語機關相融,共探美好來世之理想國。

黎民社稷進步,賴科技引領。龐語機關為當世科技代表之一,其卓越之言語理解與生成之能,賜吾輩一良器,助跨越言語、文化、地域之界線,促成天下交流與合作。故吾人應珍此科技成果,充分挖掘潛能,助實現天下共同興盛。

然而,吾人亦須留心,龐語機關之應用並非無風險。在利用其優勢之時,吾人應謹慎以道德困境,警戒隱伏之負面影響。實踐中,吾人當守道德底限,堅決防止龐語機關成為禍害、操縱黎民與群落之利器,確保其真正造福黎民世界。

黎民與龐語機關共創美好來世之途,非一帆風順。於此歷程,吾輩需緊密團結,積極探索,形成更具包容性、創造力與人文關懷之科技創新發展觀。唯如是,吾輩方能實現黎民與龐語機關之和諧共處,共譜理想國式美好來世之壯麗篇章。

黎民社稷不息發展,科技進步無窮。願吾輩攜手前行,擁抱龐語機關之時代,為實現黎民與龐語機關共創美好來世之夢想而努力奮鬥!

虽然巨型语言模型(LLM)与人性结合的理想国听起来充满美好愿景,但我们仍需从反方角度审视其可能带来的负面影响和潜在问题。

首先,过度依赖LLM可能导致人类逐渐丧失思考能力。在这个理想国中,人们可能过分依赖模型解决问题,从而使自己的判断和分析能力逐渐退化。这种过度依赖可能使得未来的人类在面对复杂问题时,无法独立思考,只能依赖机器来解决。

其次,LLM与人性结合的理想国可能引发数据和隐私问题。为了让模型更好地理解人性,它需要获取大量的个人数据,这可能导致个人隐私的泄露。此外,模型可能会被利用来进行大规模的舆论操控,从而影响公众的判断。

再者,理想国的设想可能加剧社会不平等。巨型语言模型的开发和运行需要大量的资源和技术支持,这意味着只有拥有足够资源的国家和公司才能使用和掌控这些模型。这可能使得弱势群体和发展中国家在科技竞争中处于更加不利的地位,进一步加剧全球贫富差距。

此外,过分强调LLM与人性结合的理想国可能会导致对人类自身价值观的忽视。模型可以模仿人类的行为和思维,但它们仍然是基于数据和算法的机器,不能理解人类的情感和道德价值。将这种模型推崇为理想国的核心,可能导致我们忽视人类自身的价值观和道德观念。

最后,理想国的设想可能掩盖了现实中迫切需要解决的问题。尽管巨型语言模型可以帮助解决许多问题,但它并不能消除贫困、疾病、罪恶等现实问题。将注意力过度集中在理想国的构想上,可能导致我们忽视现实世界中迫切需要解决的问题。

综上所述,虽然巨型语言模型与人性结合的理想国充满吸引力,但我们需要审慎思考其潜在的负面影响和挑战。只有充分认识到这些问题,我们才能更好地利用科技,创造一个真正符合人性需求且可持续发展的未来。

Of course, here's a revised version with a more pragmatic tone, focusing on the perspective of an engineer:

While the idea of a utopia combining large language models (LLMs) and humanity presents a vision full of potential, it's important to critically examine the possible negative impacts and challenges from an engineering standpoint.
  1. Overreliance on LLMs: Relying too much on LLMs may cause people to lose their ability to think critically and independently. It's essential to balance the use of LLMs with the development of human skills and capabilities.
  2. Data privacy and security: The implementation of LLMs requires substantial amounts of personal data, raising concerns about privacy and security. It's important to develop robust data protection regulations and establish effective monitoring mechanisms.
  3. Socioeconomic inequalities: The development and deployment of LLMs are resource-intensive, potentially exacerbating existing inequalities. Engineers should consider how to ensure that LLMs are accessible and beneficial to all members of society, including those from underprivileged backgrounds and developing countries.
  4. Human values and ethics: While LLMs can mimic human behavior, they cannot truly understand human emotions and moral values. Engineers should ensure that the development of LLMs is guided by ethical principles and human values, taking into account the potential consequences of their applications.
  5. Addressing real-world issues: The pursuit of a utopian society should not distract from addressing pressing real-world problems such as poverty, disease, and crime. Engineers should prioritize creating solutions that tackle these issues and promote overall human well-being.
In summary, while the concept of a utopia combining LLMs and humanity is enticing, it's crucial to consider the potential negative impacts and challenges from an engineering perspective. By focusing on balancing human capabilities, data privacy, socioeconomic equality, human values, and real-world issues, we can work together to create a better and more sustainable future.

 

AI浪潮博客目录

【AI 浪潮:数据中心的大模型时代】

大模型(LLM)很多人有共识,LLM主要是数据中心的AI(Data-centric AI)的产物。

采自:GPT模型成功的背后用到了哪些以数据为中心的人工智能技术?

上图对照了模型为中心到数据为中心的转变:模型为中心的研发框架和流程中,数据不变,模型变;而数据为中心的框架里,数据变,模型不变。

在前LLM时代,AI 都是专项的智能任务,针对这一任务通常有研究社区定义并准备了固定的标注数据集(可用来作为训练集和测试集)及其测试程序(scorer),各 AI 团队通常是利用同样的数据集在不同到算法上去测试。现在不同了,模型和算法比较成熟和恒定,主要是数据的不同来驱动模型的迭代发展。具体来说,根据 GPT模型成功的背后用到了哪些以数据为中心的人工智能技术?一文,数据中心的 AI 具体内容包括:

采自:GPT模型成功的背后用到了哪些以数据为中心的人工智能技术?

今天咱们聚焦讨论一下数据测试及其与数据工作的关系。

系统性全面测试 LLM 的数据质量( QA,quality assurance)成为一个非常重要的主题和挑战。这不仅仅是要为多个功能类似的 LLMs 比较排序,帮助营销或推荐,更重要的是,在 data-centric AI 的研发趋势中,提供及时靠谱的QA反馈,并根据QA的指引,加强数据工作,弥补短板,帮助模型迭代提升。

挑战性在于:

1. LLM 本性是多功能和开放功能,如何建立合理、具有代表性(反映多数应用场景的需求)、可配置的一系列功能盲测集

2. LLM 生成具有随机性,如何让功能盲测标准化、流程化和(半)自动化,以提升QA效率,以便在给定的时间和资源条件下及时得到QA结果

3. 如何建立 QA 结果与数据工作之间的对应关系,揭示出 数据-模型 的质量某种因果关系,从而指导数据工作。

4. 如何最大限度收集、吸收和利用网络上爆发式群众测试的案例,取其精华,为我所用。

群众测试虽然很多是盲人摸象(研究者除外,例如 @詹卫东 教授的测试就非常有深度和章法),但草根积极性和创造性导致了下列可能的好处:

(1)有助于测试模型的鲁棒性:各种自发的无花八门的挑错,比任何专门的测试员都更具有想象力,可以为试探模型的边界和极致情形提供线索和思路。

(2)草根测试反映民意:这对任何品牌的 LLM 都会造成正面的或负面的舆情影响力,从而一定程度上决定了一个模型的用户接受度。专家评测并不能有效改变用户从舆情而来的印象。其实,将来被市场“自然”淘汰或用户抛弃(无人问津)的模型,更大可能受到草根测试的影响。

(3)不用白不用:来自草根的积极性和创造性会产生很多散落的但精彩的高质量数据本质上都是开源的,包括LLM下万众创业尝试阶段的数据副产品,尤其是提示词工程的种种数据表现。这比闭门造车式的数据创造更具活力和源头。常规性的调查、收集和善用这些资源,是增强数据工作的重要一环。

5. 数据工作中的研发和突破:针对LLM的短板,例如 “一正胡八”,与模型算法的研究平行,数据工作方面也需要有定力去深入钻研,协助寻找破解之道。 例如,知识库如何转化为有益的数据,可行性如何?回顾一下,GitHub 的代码在作为训练数据之前,人们并不把它看成是能与自然语言数据等量齐观的对象,但其实它是更高品质的序列数据,并对这场认知AI革命起到了重要的作用。

总之,LLM牵涉到的数据量太大,训练过程涉及各种工程优化的因素,环节长,moving parts 较多,这为全面及时的QA 提出了进一步的挑战。千头万绪,需要有那个 sense 抓大放小,收放自如。重中之重是要确保模型研发迭代的健康,防止模型质量下滑而不自知引发的时间和资源浪费。

在信息过载的时代,不被数据淹没并能善用数据,这需要宏观视野,也需要不怕 dirty work 的精神。不过,数据也与矿藏类似,富矿和浅层的矿藏都先被开采光了,越到后来挖矿要保证品质就越难,这是肯定的。例如 web 数据很杂乱 肮脏,Open AI 经过各种清洗和去重,实际上最后只用了 web 数据的一个零头:Common Craw 的 45TB 的纯文本进行质量过滤后仅选择了 1.27% 的数据

类似于Web 网页数据中更加动态活跃的社会媒体也是数据非常 dirty 和混乱的所在,GPT 很看重 Reddit 数据(推特数据也应该是重要来源,但报道说马斯克在 ChatGPT 一炮打响以后感觉不爽,切断了 Open AI 的推特数据特权)。怎么筛选社媒数据?他们的做法是利用用户点赞作为过滤指标,点赞三次(3个karma)以上的才算是品质帖子。也还是巧妙带入人工反馈。

放眼未来,真正的品质数据的出路不是靠野蛮增长、垃圾如山的 web 数据,也不能指靠人类精雕细刻缓慢增长的电子书、编辑过的各种出版发行物,这些品质数据只是一个小的源头,它们没有信息时代的增长性。更有可能的是要靠大模型自己的“反哺”。为了保证自己跟自己的生成品去学,会使模型不断增强,肯定不是简单的把自己输出直接用来做训练的输入。

quote:如今当模型足够强大后,模型成为了一种「数据」或者说是数据的「容器」。在需要的时候,我们可以设计适当的提示语,利用大语言模型合成我们想要的数据。这些合成的数据反过来又可以用来训练模型。这种方法的可行性在 GPT-4 上已经得到了一定程度的验证。

摘自:GPT模型成功的背后用到了哪些以数据为中心的人工智能技术?

这里提到的是提示词技巧来激发具有目标性的高品质数据。应该还有个过滤机制或快速人工审核制度,来保证品质。

 

AI浪潮博客目录

GPT模型成功的背后用到了哪些以数据为中心的人工智能技术?

 

【AI 浪潮:GPT-4 的上下文逻辑与常识还是不够稳固】

 

先问GPT4一道不大不小的烧脑题。

这一段链条中断链的地方在 “小船空着返回,这不算一次过河”。什么算过河,什么不算过河,这牵涉到常识。具体说就是:

常识-1:人过河具有方向性,必须到达彼岸才算过河(成功)。

结论:从彼岸返回虽然技术上也跨越了河床,符合过河的字面意义,但因为是逆方向,不能算过河。
常识-2:过河必须有实体,无论实体是开船的还是坐船的。

结论:空着返回没有实体,不能算过河,这也是对的。

所以,“小船空着返回,这不算一次过河” 符合两个常识,是合理的。这里问题不出在算不算过河,而是出在“空着返回”的可行性上:没有实体开船,船是怎么返回的呢?加上一个预设前提就正确了:自动驾驶。但是默认是没有自动驾驶的。常识告诉我们,非默认的预设是必须显式表明的,必须作为此题的一个前提。

这里的看点是,GPT4 貌似一点就透,这悟性了得。

好像是丝丝入扣,对答如流啊。且慢。

这个加强了的提问(所谓提示词工程)有意思,就是说 prompt 写得细致的话,是会激发它加深思索的深度和逻辑性,不必经过数轮对话引导就可能绕过陷阱(当小船返回时,它需要携带至少1个人来驾驶)。但是结论却不对,那是因为它违背了常识-1,把返回也算成过河了。

咱们继续练它。

ChatGPT4 与ChatGPT3.5类似,也同样不能坚持原则,坚持真理。这其实是与人类偏好对齐工作做过头了的后果(偏好之一其实是迎合人类,礼貌顺从),而不是它的本性。

总结一下,从对话角度,ChatGPT4 的确不掉链子,你怎么引导,它怎么 follow。但从逻辑角度和常识角度,你点一下它,它貌似悟性很好,很快就改正,并顺着你的指引,进一步发挥。但这些 in context 学到的知识和逻辑并不稳定,很快就动摇了,有时候甚至颠三倒四,转眼就忘。

 

 

AI浪潮博客目录

【AI 浪潮:自主性是人类智能的最后堡垒吗】

 

听到一个新成语:日新昼异,脱胎于日新月异,形容这个LLM世界变化之快,此言不虚。例如,AutoGPT 出来不久,AgentGPT 又出来了,二者都是在LLM上再包了一层“自主”计划的AI。

这个称为自主AI(autonomous AI)的研发方向很诱人:用户只要启动一个目标(人定义 what),模型们就开始计划实现这个目标(机器做 how):首先是拆解这个目标任务成为子任务,子任务成为子子任务,然后用这些子子任务递归调用 chatGPT 去得到中间结果,最后把结果层层推进,最后组装起来,完成目标。看机器边想边干(think then act),不亦乐乎。听上去有些匪夷所思,仿佛机器能够自主完成任务的全过程了,而不是需要人通过对话或编程一步步引导模型去实现目标。

自主AI更加接近科幻小说中的“回形针”陷阱:科幻中说的是机器一旦具有自主计划的能力,为了自主实现一个目标,例如“制造尽可能多的回形针”,机器就会不惜一切手段达成目标。而人类面对这样一个自主实现目标的机器,很可能陷于灭顶之灾,因为人类有可能成为这种目标的障碍物而被机器铲除。现在的实现当然还是小菜,粗糙得很,但这个方向是机器“自主”的前奏。不知道老马会不会把这种研究当成是 危险AI 的范围,要求予以封杀。

AgentGPT 有个类似于 ChatGPT 的友好页面:https://agentgpt.reworkd.ai/

我尝试给它一个“编写童话故事”的目标。

看着它在那里think...think..., 做任务分解,“无人监督下” 自个儿在那里忙活,一步步按照计划走,感觉很神奇。揉揉眼睛,确认不是在做梦。

Embarking on a new goal:请汇编一本适合儿童的童话故事手册,选择国内外的童话名篇,所围绕的主题词包括:善良,勤劳,怜悯,乐观。
Thinking...(Restart if this takes more than 30 seconds)
Added task:Scrape and gather a list of popular domestic and international fairy tales
.........

煞有介事,各种策划,让人开眼了。

看看最近退出来的这一长串的相关工具:HuggingGPT / AutoGPT / AgentGPT / GPT4ALL / BabyAGI / MS Jarvis / ChaosGPT / .............,每天都在增长的这个清单中的 keywords 是: agent,action。action 是行动,agent 怎么翻译好?常规翻译是施事(采取行动的实体),或代理人或代理机构,就好像律师代理客户一样,客户只给目标,律师代理决策和行动的过程去实现目标。什么意思?就是 ChatGPT 带来的风暴,越来越激发人们把科幻似的机器人想象带到可实际操作的空间。

什么是科幻中最热衷的机器人故事(之一)?那就是机器人造反,灭了人类。造反的事情能够发生,其前提条件是: 自主决策,可以行动,这与几千年前的陈胜吴广起义也没什么两样。陈胜吴广先密谋,后行动(序列是利用绝境危机 -- 无论如何必然被处死,假托天意组织动员,然后是正式起义)。

为什么这种匪夷所思的科幻情节突然在这个当口开始了工程化的尝试和涌现呢?一个关键的因素是,ChatGPT 之前,从来没有一个可以协调各种实体的通用的“语言”,幻想只能止于幻想,工程无可施展。更大的挑战是缺乏自主性的实现路径,所有的AI都是按照人类(码农)事先编制好的程序走。Chat 改变了前者;GPT 改变了后者。

GPT 是如何导致自主性(或“类自主性”)的,从而机器可以成为自我策划和行动的 agent?现在看来其实很粗糙,但的确可以产生一种让人觉得它自(作)主(张)的感觉。原理就是 GPT 的随机性。

没有随机性,那么一切都是 deterministic,预先决定好的路径,也就谈不上自主。GPT 的好处是它的本性就是随机(生成)。但万变不离其宗。这个就厉害了。随机如果发散,那就谈不上计划和实施。

随机必须遵循目标指向,万变不离其宗的“宗”就是宗旨或目标。目标函数不变(这个是人类赋予代理的),具体过程和路径随机应变,这才是 agent 的本义。作为所有实体的主人,人类关心的也就是目标。

微观层面,GPT 的 next token prediction 就是万变不离其宗的缩影,每个 next token 都有随机性。但所有的生成都在目标生成的空间里,例如你让它翻一句话,它每次翻译可能是不同的文字序列,但你会发现,不仅每一个翻译字通句顺,而且意义基本不变。从模型微观的“基因”上的可控随机到宏观上的 agent,这里面需要一个粘合剂,这就是 ChatGPT,用到的也就是人机接口、机机接口的最重要的媒介 -- natural language prompts(自然语言提示),这些进展既让人兴奋 刺激,也让人细思有恐。

其实,最近这些框架下 agent 表现出来的自主性,微观层面就是 ntp(next token prediction)的随机性,宏观层面实际上是由于大模型消化了人类的知识和经验(的数据表述),所以 ChatGPT 可以利用大模型在现有目标的指引下,随机选取一种经验路径。这时候的随机性表现在系统给自己的每一个分解子任务的完成设置了时间限度,尝试不成功就会转向另一个路径。任务分解这种策略型的设计看上去是“自主”的,但实际上也是从大模型中得到的人类经验套路。可是,反过来看人类的决策,人类所谓的自主性就是自己做主么?

这与哲学界一直在辩论的“自由意志”类似,自由意志自由么?正方认为是自由的,所以一个人要为自己的选择负责:对了有回报,错了有惩罚,甚至入罪坐牢。反方认为其实是不自由的,我们每个人表面上看起来的自由意志,其实冥冥之中有命数,这个命数有一个人从父母身上带来的基因的作用,也有后天的生存环境(包括有意无意的在家庭、学校和社会的熏陶和被教育)的影响,真正属于那个人自己能决定的空间其实很小很小。(这个理论推向极端就是所有罪犯都是病人,应该治病,而不是惩罚,更不是肉体消灭。)

回到 LLM 为中心的 agent,这个 agent 的自主性利用的是大模型(蕴含的人类经验)。而人的“自主性”其实很大程度上也是建立在对于人类既往经验知识的学习或被教育的基础之上。这个意义上,自主性的神秘感消失了,就跟创造性的神秘感早已消失一样,很难以自主性作为人之区别于机器的最后灵性堡垒。A(G)I 的圈对于 humanity (人类特性)的领地在进一步挤压中,以至于除了碳基的生命特征(生物性状:例如 喜怒哀乐相伴的血压升高、荷尔蒙分泌等)硅基实体无法跨越以外,几乎所有的智能和灵性的表现都已经不再构成支持人作为万物之灵独特存在的不可动摇的论据了。

创造性和自主性的被冲击,是 LLMs 给我们带来的最大心灵震撼之一。我们曾经多么迷信这些人类特质。

从此,我也许不再像以前那样仰望智者和艺人,因为山外有山,人外有模型。更值得仰慕的是那些平凡的人表现出来的善良和感情(良心及其善举),也许这些表现而不是人类智能才构成了 LLMs 的真正挑战?(当然,这也不能深想:第一,机器也可以模拟善心和善举,倾听你,同情你,给你帮助和疏导,不见得比人差;第二,“良心”到底有多大比例植根于生物特质,多大比例受到人类经验知识的影响,也很难说。)

 

 

AI浪潮博客目录

 

快讯:腾讯科技AI未来指北系列 今天直播间与鲁总唠一唠大模型(LLM)

https://view.inews.qq.com/a/RLV2023042100143500?openid=o04IBAOB4T30mPQknm5XFPoX63gU&key=&version=28002259&devicetype=android-31&wuid=oDdoCtyMntVVLyLfpVT-VJVNBcaU&sharer=o04IBAOB4T30mPQknm5XFPoX63gU&uid=&shareto=&openwith=wxmessage

这是今天LLMs纵论LLM的直播地址 周日北京时间上午10点 美国西部时间晚上6点(东部时间夜9点) 亲们不见不散。

北京时间周日上午10点,@Wei-Min Lu/MoPaaS 鲁总逗哏 我捧哏,再唠一唠劳碌命(LLM)。

现如今,专家遍地走,各种访谈早就轰炸疲劳了,既不少咱一份,也不多咱一块。好在鲁总是老友,就算唠唠嗑吧,愿者上钩。上次源码还有我的母校各拉我讲过一次,但都是内部组织,不得尽兴,而且有些看法也来不及沉淀和更新:这个领域发展是太快了。倚老卖老,希望能带来一些启发。

LLM202304tengxun (这是老 slides 算是个开场白铺垫)

 

AI浪潮博客目录

 

【AI 浪潮:大模型推理的细节编造是 feature,不是 bug】

老友说:“老马买了1000块大卡,号称要做truth gpt。”

老马这一招也就是为了与“误入歧途”也不听他召唤了的 open AI 唱对台戏而已,但是他未见得明晰这意味着什么。自从 ChatGPT 一炮而红之后,马斯克一面狂推 AI 的飞速进展,以及重申当年自己参与创建和投资 Open AI 的初衷和贡献外,一面与自己当年的创业搭档和小兄弟 Sam Altman 公开互怼,不断质问:Open AI 成为 Closed AI,谁之罪?

关于 GPT 和 truth 的关系,值得细细理论一番。

首先要指出的是,“编造细节”(说假话,胡说八道,张冠李戴,无中生有,etc)应该看成是生成大模型的一个 feature,而不是 bug,所以所谓 Truth GPT 很可能是无的放矢。

事实上,编造细节是一个根本性的、极其重要的 feature,没有它,一切创意和模仿人类智能中最重要的能力(创造才能,抽象能力)就无从谈起。你不能又要LLM辅助创作(写作、绘画、视屏创作等),又要它不越雷池一步。这很难的。这就好比你不能因为电会伤人,就禁止用电。

一个完全是 truth(通俗的话就是 facts)组成的世界,是多么单调、枯燥,甚至悲惨。一切都是冷冰冰的事实,没有小说和诗歌,没有艺术和浪漫,没有人高于动物的天马行空,同时也没有了希望和未来。据《人类简史》,人类精神文明的最大成就(之一)就是人学会了“讲故事” ,虚拟的故事。人类从此有了宗教和哲学,有了组织和动员群体力量的精神武器,从而成为地球霸主。

Having said that,在很多场景中,编造细节和胡说八道是伤人的、甚至致命的,尤其是当它一本正经真假混杂的时候,而这正是 GPT 最为人所诟病的命门(之一)。

人也说谎。白谎之外,还会有意说谎,甚而恶意诬陷。但除了极少数训练有素的特务外,我们大多数人比起LLM一本正经、道貌岸然,说起谎来面不改色心不跳,实在是小巫见大巫。测谎仪之所以技术上有效,也正是因为人类整体还没有堕落到完全失去良心,没有卑鄙到说谎说到自己也信了的那种程度。而LLM不同,LLM无良心(或不良心),它没有任何顾忌,它“说谎”自然谈不是善意或恶意,白谎黑慌,它编造实体细节不过就是因为实体信息没有在它的神经网络的参数中“记住”而已,记住的不过是实体的抽象或影子(本体),而本体在表达的时候需要落地到实体才能圆润丝滑。为了语言模型的生成丝滑,它不得不对本体实行实体化,也就是跟小说家一样为概念编造一个对应的细节。这是无奈之举,也是模型宏观把握世界的需要。其实在人的认知世界里,忘记实体只留下本体的现象也是常见的情形:当我说 “记得是个擅长动物画的画家来到我们学院做了那次演讲”,我忘记了作为实体的这位画家(名字及其它能唯一绑定这个实体的信息),而我记住的则是其本体概念“画家”。一般而言,虽然世界是由无限的实体组成的,但人对于世界的把握总是以有限的本体概念网络试图对世界进行概括、梳理,从而理解这个世界,在这个过程中,实体细节只有足够重要和多次重复才会被我们记住,而更多的实体是以其本体定位记录在我们的脑海里。大模型也是如此。你问模型长江有多长,美国第一届总统是谁,他绝对不会错,但如果你问的是一条小河,你问它一个乌有之乡的总统是谁,它就开始编造答案了,所编造的 tokens 答案就是给定上文中概率分布中大概率出现的候选。这些候选的集合自然形成了相应的本体类型。

老马追求的所谓 truth GPT,往正面说,最好的结果也不过就是找到限制其编造细节的副作用的方法,而不是也不可能禁绝编造。

在NLP乃至人类认知智能的所有任务中,有些任务存在编造的副作用,例如,事实查询和问答、知识教育等。有些任务根本就不存在这个问题,例如辅助写作、机器翻译(原文中的“谎言”不能因为非事实而翻译成事实,因为忠于原文是翻译铁律),有些任务需要在事实和虚夸之间掌握一个度,例如创意广告。如果坚持 GPT 是通用的基础模型,可以帮助完成上述种种任务,老马应该明白,实际上根本就不存在什么 truth GPT。在序列学习中,大模型永远只能记住飘在上面的细节(真实)。无论模型多大,甚至改变设计,它都不可能穷尽大数据序列中表达过的事实(或人为的编造、口误、非事实),它一定会对这些信息做归纳抽象,对于统计上漂移在阈值以下的实体做不同程度的本体化概括,体现在最终的模型表示中。换句话说,模型本身一定是实体(entity)事实和本体(ontology)概念的混杂。这是语言大模型呈现和逼近知识库的基本形态,在现有的框架下不会改变。

这是从大模型的(离线)学习/训练的角度来看。大模型作为训练的结果,那如大海一样混沌的多维向量表示里面涵盖了有限的事实以及更多得多的非事实(事实的抽象),但原则上并不包括没有数据根据的“谎言”(模型自己编造的细节)。编造细节发生在大模型的生成过程(在线推理)中。GPT这样的生成大模型在简单的 next token 预测的生成框架下,不可避免地编造细节,因为语言生成的 token 默认反映的就是细节事实,而不是本体概念。当模型缺乏实体细节的时候(表现为对于反映细节事实的tokens的预测概率很低),模型就会根据模型在此刻的本体指向,去找来(最)接近这个本体(例如 本体为【人】)的实体(例如 实体为【张三】)来充数。张冠李戴的原理不过如此。

从这个原理来看,限制细节编造的副作用并不是无可作为。大模型本身原则上没有内含谎言,但大模型在生成语言的时候,受限于要表达最丝滑的自然语言序列,不得不用实体 tokens 来保障语言的顺畅自然,从而开始“一本正经”地说谎。既然如此,如果刻意以牺牲自然语言生成的自然度为代价,其实是有办法做到避免细节编造的恶果的。简言之,可以坚持一个原则:宁肯不给细节,也不编造细节,因为它所背靠的大模型本来就是如此。

类似“宁肯不给细节,也不编造细节”的原则,在人类社会已经是正人君子所广泛采纳的做人原则了:我也许没有勇气或必要说出真相,但我可以绝不说谎。关于LLM下“宁肯不给细节,也不编造细节”的种种方法,可以再论(很多人都在探索,不会太久一定会有创新或突破),但坚持这个原则并找到合适算法实现以后的生成序列形态是可以想见的。下面给出几个案例,结束这一番自言自语式LLM探究之旅。

(1a)GPT的“一正胡八”(一本正经胡说八道): 
User: Who was the first woman to walk on the moon?
Answer: The first woman to walk on the moon was Sally Ride.
(1b)未来GPT的“宁肯不给细节,也不编造细节”的生成形态: 
User: Who was the first woman to walk on the moon?
Answer: The first woman to walk on the moon was 【Person Name】.
(2a)GPT的“一正胡八”:
User: What is the boiling point of water on Mars?
Answer: The boiling point of water on Mars is 100 degrees Celsius (212 degrees Fahrenheit)the same as on Earth.
(2b)未来GPT的“宁肯不给细节,也不编造细节”的生成形态:
User: What is the boiling point of water on Mars?
Answer: The boiling point of water on Mars is 【Number】 degrees Celsius (【Number】 degrees Fahrenheit).

做到这一点,语言大模型也已经仁至义尽了,具体答案可以在语言模型之外去找(例如外挂知识图谱,外挂计算器,等等)。实现上述形态的方案其实有好几种,有内在的也有外在的,本篇点到为止。

 

 

AI浪潮博客目录

 

ChatGPT海啸狂飙,谁将被取代?谁将借力跃升?

AIGC“尖峰系列”丨李维博士:ChatGPT海啸狂飙,谁将被取代?谁将借力跃升?

2023/03/10

在上一篇文章

《AIGC“尖峰系列”丨李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战》

中,我们分享了李维博士关于ChatGPT对于人类和机器交互的意义,以及其背后LLM(Large Language Model)语言大模型是如何炼成的等话题。

本篇文章我们将分享李维博士对于“ChatGPT让AI生态重新洗牌”“语言大模型(LLM)的生态和应用”等话题的独到观点,以下为演讲内容精选。

01

经历ChatGPT海啸之后

AI生态面临洗礼和洗牌

ChatGPT海啸引发的直接影响就是,NLP生态面临全面洗礼或洗牌,每一个现存的NLP产品服务或赛道都要在LLM参照系下重新审视。

一开始我们内部AI老友热议ChatGPT的时候,大家首先思考的是,ChatGPT怎么和搜索技术结合起来,它能颠覆搜索吗?

搜索是可追踪的,返回的每条结果都有记录,谈不上信息融合。ChatGPT是不可追踪的,长于信息融合:ChatGPT本质上不存在抄袭的可能性,它给你吐出来的每句话,都是自己消化之后的语言。可见,传统搜索与ChatGPT是两个完全不同的处理方式,各有优缺点。

搜索是信息服务之王,无处不在,有自己的巨头(谷歌,还有中国的百度)和非常稳定的商业模式。自从Web1.0时代搜索崛起以来,搜索的形态和模式基本没有改变,二十多年了。其实,多年来一直不断有新技术和创业者企图挑战搜索,风险投资界也一直关注可能成为“next Google”的潜在的搜索颠覆者,但搜索的地位一直固若金汤。但这一次有所不同,微软携ChatGPT的独家代码授权,大刀阔斧高调发布所谓“new Bing”。躺着赚钱的谷歌不得不紧急动员,正面迎战。一场搜索+LLM的大戏正在上演,像个活话剧,告诉我们虽然融合两项技术还有很多困难需要克服,但大势所趋,重塑搜索新生态势在必行。

除了搜索,那些被打磨得很圆的定向信息产品和服务,现在全部面临被重新审视和洗礼的宿命,包括聊天、功能对话、文法纠错、机器翻译、文摘、知识问答等等,这些方面的代表作品(Siri、小冰、Gramnarly等)以前曾有的技术护栏,一下子被降低了,真好像大水冲了龙王庙。

NLP龙王庙中,虽然不少产品由于多年的打磨以及用户的惰性,还不至于面临灭顶之灾,有的还可能存续很长时间,毕竟都在走下坡的路。这是通用AI对于传统AI的划时代胜利。是我们以前不敢相信的,曾经那么地怀疑通用路线,就等着看鼓吹AGI人的笑话,谁想到人家不笑则已,一笑倾城,甚至“倾国倾球”,所向披靡。

看看13年前苹果就发布的Siri。13年比深度学习革命黄金十年的历史还要长,但搞到现在Siri才刚刚推出两轮或者三轮的对话能力。现在来了个ChatGPT降维打击,苹果怎么办?肯定只有拥抱LLM。亚马逊的风云产品Alexa也是一样,也打磨了好几年了,积累了那么多的用户数据。虽然它在边边角磨得很圆,不可能马上被取代,但依然会面临技术上的调整。

再者是大家常见的电商客服,众所周知,无论是阿里、还是京东的在线售后客服都打磨得很圆了。因为售后服务的问题相对比较集中,问题集不大,在积累了足够数据以后,用户体验就慢慢好起来了。但客服不仅仅局限于售后的问题答复,当客户提出的问题超越了预期的问题集的时候,目前客服常常显得“人工智障”,无论理解和回应都捉襟见肘。面对ChatGPT的问答超能力和多轮对话的丝滑性,怎么办?除了拥抱它,没有别的出路。

在ChatGPT之前,小冰算是把多轮聊天推到了极致,据报道有人痴迷于与她聊天,聊一个晚上还意犹未尽。它打造具有人格化的形象,可以与人做情感上的交流。在前ChatGPT时代,小冰是聊天的绝对天花板,多轮交互的能力把对手远远抛在后面。谁料想半路杀出个程咬金,ChatGPT出来后,小冰的地位就显得非常尴尬。ChatGPT可不是为了闲聊设计的,chat只是它为了达到多任务的一个桥梁,本质上是人机接口,聊天只是它的副产品,即便如此,通用大模型还是实现了降维横扫定向产品的效果。在ChatGPT的丝滑度和通用性面前,一个人格化的聊天机器人跟它不在一个层次上。除了去拥抱它,仍别无他法。

在国外,怎么修改作文的拼写、语法错误这一块,用户体验做得最好,唯一活下来站稳市场的只有Grammarly,有上亿用户了。现在它的地位也极为尴尬,因为同样的辅助写作,ChatGPT也是拿手好戏。长远一点来看,Grammarly的选择也终将如此,要么去拥抱ChatGPT,要么就走向末路。

谷歌MT是机器翻译领域的代表,国内的有道、搜狗和百度也是用的神经机器翻译,但同属神经路线的ChatGPT出来以后,仍然是一种降维打击。用ChatGPT去做机器翻译,译文更加地道而且多样化。生成大模型的随机本性使得每次翻译出来的结果都有所不同,你可以拿同一个文本不断的试它,然后挑其中一个你最满意的。专项机器翻译系统显然面临如何拥抱LLM的问题。

最后谈谈教育。ChatGPT大模型降维碾压所有的教育产品,是很显然的。在教育赛道,搞生态产品应用的人,都需要在大模型的框架下重新审视一遍怎样拥抱这个LLM新时代。教育本身是跟语言打交道的,无论文理。虽然现在的大模型理工科能力不怎么强,但这个知识短板应该很快就会得到不同程度的弥补。ChatGPT必然对教育带来颠覆,同时也为教育现代化提供了一个最大的机遇。语言学习与电脑编程教育就不用说了,ChatGPT本身就是一个语言大模型。虽然目前它的编程还不到专业工程师的水平,但是常用的代码形式已经学得很好了,至少它能辅助你的编程,实际上,GPT赋能的Co-pilot已经成为越来越多码农的辅助工具了。

往后退一步,我们同时也面临着一个巨大的风险,比如说假新闻。如果你希望吹捧一家公司,你可以让ChatGPT生成出五花八门的软文来,讲得头头是道。那些大众点评将来也会被真假莫辨的评论所掩盖,因为制造假新闻的成本趋近于零。如果没有很好的防范措施,这一切就会把人类置于真假莫辨的世界之中。我们现在一直在讲它的好处,LLM怎样赋能新生态,相信在新生态下,今后的五到十年一定会出现新的阿里、百度等等,这是从发展的角度看技术生态的大转变。但我们面对的LLM滥用的危险同样巨大,人类准备好了吗?显然还没有。当然,这是另一个话题,我们这里就点到为止。

02

大模型:万众创业的浪潮正在到来

以ChatGPT为巅峰的LLM好比核弹,有了它,还有更多的产品形态和赛道等待创业者开拓和落地。

关于这个话题,我们需要特别强调ChatGPT带来的前所未有的创业条件:ChatGPT本身已经成为一个产品的试验场,它就是一个门槛无限低、人人可玩的playground(游乐园)。门槛低是因为前面提到的人机接口的范式改变(paradigm shift)。AI历史上第一次,机器开始迁就人,而不是人迁就机器。是人类语言,而不是计算机代码成为人机交互的工具,这个改变对于NLP新生态大爆发的意义,怎么强调也不过分。实际上,这是为“万众创业”提供了条件。

AI创过业的人应该都有这个体会。创业团队要有成功的机会,最基本的一条是产品老总与技术老总能够密切配合和沟通。产品老总凭着自己的市场直觉和对于客户需求的了解,努力寻找技术转化为服务的最佳市场切入角度,形成产品的设计方案。这个设计方案的可行性需要技术老总来验证和背书。然而,很多时候,由于不同的专业背景和知识结构,产品老总与技术老总鸡同鸭讲的情况也不罕见,一旦出现这种情况,这个创业公司基本上注定没戏。

ChatGPT根本上杜绝了鸡同鸭讲的问题。以前只有技术老总和码农可以验证一个方案的可行性,现在好了,产品老总/CXO、工程技术人员、数据分析员、用户这些不同背景和专长的人,都有一个统一的平台ChatGPT,可以交流产品的创意。大家可以在上面去做模拟的服务。不仅是人机之间,而且人类之间的交流障碍都被克服了。这个东西的发生,就是一个产品大爆发和万众创业的先机条件。

在美国,有好几百家初创公司,现在跟着大模型去做,你上游的大模型还没有完全理顺,他们在下游做的东西就是正在进行时了。还有无数的普通大众,不断的在网上现身说法,告诉大家如何两三个小时就能利用ChatGPT赚到5000块钱,这一类分享越来越多,这意味着草根群众的创业积极性被调动起来了。每个人似乎都可以利用这个机会去找到一个创业视角。归纳总结这些草根的创意,也可能找到可以流程化规模化的满足市场需求的信息服务的新赛道。

ChatGPT这样的大模型最终是一种操作系统级别的存在,每一个与AI有关的,特别是语言和知识有关的信息产品和服务,都离不开它。当年英特尔主导的时候,那个著名的logo是Intel Inside,将来就是Chat-Inside,这还不够准确,应该叫Chat-In&Out。怎么讲?ChatGPT这样的大模型赋能产品的时候,它既是服务员也是大厨,服务员可以跟你接单子,对话交互,了解需求,同时,它还自己去做工,满足你的信息需求,交付也还是它。既有表又有里,既用到它的语言天才,也要用它的知识技能。

这就是我说的在未来的五年可能是最大发展的一个新生态形式,叫做LLM专家坐台,它或许会打开了无数的创业大门。基本的服务形态就是各行各业的在线信息服务,不管是在线教育、在线律师、在线顾问、在线金融、在线旅游,都是奔着大幅度提高服务的效率去的。有了ChatGPT之后,你只需要雇一个专家,来代替以前需要10个专家甚至100个专家才能应对的任务,最后迎来的就是生产力大爆发。

至此,应用生态很清晰了,也靠谱。原则就是对结果要专家最后把关(human judge as final filter)。这是最基本的设置,当然也不排除专家对于输入做提示词的调配,以便激发LLM回应更好的结果。

对几乎每一个场景应用,都有一个打造专家工作台(“坐台”)的任务。下游创业沿着这个思路去,有无数切入市场的机会,包括补充现有产品或服务的不足,例如在线教育的每一个细分场景,还有在线医生,在线律师,在线金融咨询,等等,也包括去开拓以前不敢想或没想到的业务场景。这是看得见的即将发生的生态形态的大变革,或重新洗牌,提供的是高效专家建议(expert-in-loop services)。

说到坐台,国内电商大厂都曾经打造过有相当规模的客服坐台,那是在用户需求和满意度无法用全自动方案满足,更无法用全人工应对的压力下出台的。现在有了LLM,继承这种形态推广到所有在线服务领域的条件已经成熟。这件事所能带来的生产率大爆发,超出想象。

“Human as judge”的设计理念在近几年的低代码平台(例如RPA平台、parser-enabed信息抽取平台等)已经验证了其有效性和有效率性。我的最新几个专利就专门讲的这个过程(human as judge to replace human as coder),但这是说的低代码快速开发环境,这个human虽然不必要手工写代码,但还是要熟悉软件开发的流程,例如单元测试、回归测试和debug等等,不是仅仅就做个judge。这里说的是全新的形态,human只需要做judge即可完成服务。现在完全有可能打造针对各种细分赛道或场景的在线信息服务“坐台”。具体说,专家的作用只是在最终go or no-go 的当口,以他的知识和经验做出判定。做裁判比做运动员,效率要高太多了。

值得强调的是,这次ChatGPT横空出世带来的新鲜事儿是,ChatGPT既是后台也坐前台。这就好比找对象娶媳妇,通常都是漂亮的见识短,能干的不漂亮。突然来了一位既“万能”又漂亮的,这无法不激发无数追求者的想象极限。我们信息产业的创业者就是ChatGPT的追求者。上得厅堂下得厨房,说的就是ChatGPT,这是因为chat只是ChatGPT的表,本质是人机接口,而能够完成NLP各种任务才是它的里子。有表有里,就可以围绕它建立下游生态的产品或服务。英特尔时代,电脑产品的品牌广告记得是Intel inside,今后的新生态应该叫chat in&out,指的就是LLM赋能的新生态,不仅赋能人机交互的表面,同等重要的,或者更重要的(看具体落地服务的性质了),是也赋能产品服务的内涵,只是要让专家最后把个关。在这种形态下,专家也还是隐身在台后的。就是说,活交给它做,出面交付也还是它,只是后面安插一个专家督导和裁决而已。再打个比方,LLM既是服务员也是大厨,只是出餐前需要一个经理过一下目,为服务质量把关,也承担责任(例如在线医生、在线律师、在线咨询师等)。

在这样的生态下,今后5年会是在线服务的大爆发时期。赶巧的是,三年疫情也极大推动了在线服务的草根意识(awarenss),帮助养成了用户的在线习惯,培育了市场。例如我个人疫情前从来不用外卖的apps,也不用在线医生,可是现在二者都用了,比以前自己到餐馆点外卖,为个伤风感冒自己去预约诊所,不知道方便了多少,再也不想回到以前的低效率线下服务了。天时地利,借着这个东风,新生态不可能没有机会。

怎样建造坐台?既然已经LLM in&out了,听上去好像这个坐台谁都可以建,每个坐台配上专家,明天就可以在线开业服务了,那还有创业者什么事儿?当然不是这么简单。这是因为ChatGPT这样的LLM作为工作引擎(work horse),显示出各种专业知识的潜力,但这种潜力却是漏洞百出、有内伤的。这些内伤前面论过,按照现在的路线是不可根治的。就是说,表面光,里子并不扎实,结果不可靠,甚至会要人命的。坐台的建设就是要试图解决这个问题:如何加强内功,使得其在线服务,仅仅需要expert的流程化介入,而不是专家的生产性投入(例如RPA)。要的是坐台部署以后output一端的结果审核(go/no-go及校订post-editing),这都是在线的介入,而不是离线的调教(fine tune)。离线调教是坐台建设者的任务,这就开始有点渐入新生态的深水区了,其中有些路线图是蛮清晰的,有些是可以预见不久会解决的,还有较少的一些点,目前不够清晰,还需要探索和进一步验证。

细看一下这里的主要问题在哪里,有哪些可能的突破点和解决方案呢?首先,论专业知识的广度,LLM很厉害。没办法,人家记忆力强,肚子大,消化的材料多,这些都超出了专家,你可以用一个领域的专有术语去试试就知道了,LLM对任何一个很偏很狭窄的主题都会有自己的消化总结,成套成套的,可能细处有错漏,但在面面俱到方面碾压专家。为什么这一点也很重要,因为LLM弥补了人类包括专家的缺陷,用软件的话说,人类precision(精度)有余,recall(召回)不足;而LLM正相反,precision不足,recall有余。LLM可以把可能遗漏的东西,从大数据的黑洞翻上来,随时提到人类认知的雷达上。因此,坐台建设的重中之重就是要克服LLM的precision瓶颈。

我们并不企图彻底解决这个问题:话说回来,如果彻底解决了,就没有人类什么事儿了,前景很诡异,不论。我们是要把精度提高到这样的程度,其结果不至于严重影响坐台的在线专家的工作效率。LLM如果用一堆垃圾轰炸专家肯定是不行的。只要LLM输出的结果有1/4可以达到手工专家自己调研所能达到的水平,这个坐台的效率就得到了保障,这个在线服务就可能站得住。因为专家不过就是4个go/no-go的裁决而已,由于这4个结果的最优解的出场是随机的,对于专家的实际工作体验,大约也就是每看两个结果,就可以放行一个,GO!这不是负担,也不会降低在线服务的效率和竞争性。1/4是一个容错性很大的预期,现在的求精方案达到这个门槛,总体是具有可行性的。正因为有了这个总体具有可行性的基本判断,才可以结论说:LLM新生态下的创业大门的确是打开了。

https://new.qq.com/rain/a/20230310A01FH200

 

见鬼,才发现,我早期的发在科学网的发表记录,居然也被屏蔽了:复制如下,并加上后来的一些

立委发表记录

屏蔽已有 4554 次阅读 2010-2-19 05:44 |个人分类:立委其人|系统分类:论文交流| NLP, extraction

专著

商务印书馆:李维 郭进《自然语言处理答问》(2020

机械工业出版社:李维 等《知识图谱:演进、技术与实践》(2023, 已定稿,最后编辑校对中)

人民邮电出版社:李维《巴别塔影:符号自然语言处理之旅》(2023,已定稿,最后编辑校对中)

电子工业出版社:《大模型风暴:LLM与ChatGPT专家辨析》(2023, 初稿完成,与编辑在编选调整中)

学术杂志和国际会议论文选要

《规则系统的移植性太差吗?》W Li, T Tang

【计算机学会通讯】2014年第8期(总第102期)                                                                                             2014

Mining public opinions from Chinese social media, Wei Li, Lei Li, Tian Tang

《海外学人》杂志【大数据专刊】                                                                                                                          2013

《主流的傲慢与偏见:规则系统与机器学习》 W Li, T Tang

【计算机学会通讯】2013年第8期(总第90期)                                                                                               2013

长篇译文:《Church:钟摆摆得太远》 W Li, T Tang

【计算机学会通讯】2013年第12期(总第94期)                                                       2013

Publications

Srihari, R, W. Li and X. Li, 2006.
Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski & S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4.
online info

Srihari, R., W. Li, C. Niu and T. Cornell. 2006.
InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006.
online info

Niu,C., W. Li, R. Srihari, and H. Li. 2005.
Word Independent Context Pair Classification Model For Word Sense Disambiguation.. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005).

Srihari, R., W. Li, L. Crist and C. Niu. 2005.
Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools.

Niu, C., W. Li and R. Srihari. 2004.
Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004.

Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004.
Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop.

Niu, C., W. Li, J. Ding, and R. Rohini. 2004.
Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004.

Niu, C., W. Li and R. Srihari 2004.
A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California.

Srihari, R., W. Li and C. Niu. 2004.
Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. [PDF(to be added)]

Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003.
An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520.

Niu, C., W. Li, J. Ding, and R. Srihari 2003.
A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342.

Li, W., R. Srihari, C. Niu, and X. Li. 2003.
Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93.

Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003.
Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada.

Srihari, R., W. Li, C. Niu and T. Cornell. 2003.
InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada.

Li, H., R. Srihari, C. Niu, and W. Li. 2003.
InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada.

Li, W., R. Srihari, C. Niu, and X. Li 2003.
Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

Niu, C., W. Li, R. Srihari, and L. Crist 2003.
Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003.
Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

Niu, C., W. Li, J. Ding, and R.K. Srihari 2003.
Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406.

Srihari, R. and W. Li 2003.
Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003.

Srihari, R., C. Niu, W. Li, and J. Ding. 2003.
A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. [PDF(to be added)]

Li, H., R. Srihari, C. Niu and W. Li 2002.
Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan.

Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002.
Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan.

Srihari, R. and W. Li. 2000.
A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle.

Srihari, R., C. Niu and W. Li. 2000.
A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle.

Li. W. 2000.
On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. [PDF(to be added)]

Srihari, R. and W. Li. 1999.
Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington

Srihari, R., M. Srikanth, C. Niu, and W. Li 1999.
Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada

Li. W. 1997.
Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada.

Li. W. 1996.
Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore

Li, W. and P. McFetridge 1995.
Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia.

Liu, Z., A. Fu, and W. Li. 1992.
Machine Translation System Based on Expert Lexicon Techniques. Zhaoxiong Chen (eds.) Progress in Machine Translation Research , pp. 231-242. Dianzi Gongye Publishing House.Beijing.
(刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京)

Li, Uej (Wei) 1991.
Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna http://blog.sciencenet.cn/blog-362400-285729.html

Li, W. and Z. Liu. 1990. Approach to Lexical Ambiguities in Machine Translation. In Journal of Chinese Information Processing. Vol. 4, No. 1. pp. 1-13. Beijing.
(李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京)
[JPG1][

Liu, Z., A. Fu, and W. Li. 1989. Outline of JFY-IV Machine Translation System. In Journal of Chinese Information Processing. Vol. 3, No. 4. pp. 1-10. Beijing 
刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京

[JPG1][JPG2][JPG3][JPG4][JPG5][JPG6][JPG7][JPG8][JPG9][JPG10] 
(Its abstract published in Computer World 1989/7/26 [JPG])

Liu, Z., A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich.

Li, W. 1988. E-Ch/A Machine Translation System and Its Synthesis in the Target Languages Chinese and Esperanto. In Journal of Chinese Information Processing. Vol. 2, No. 1. pp. 56-60. Beijing 
(李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京)

Li, W. 1988. Lingvistikaj Trajtoj de Esperanto kaj Ghia Mashin-traktado. El Popola Chinio. 1988. Beijing [JPG1][JPG2][JPG3]

Li, W. 1988. An Experiment of Automatic Translation from Esperanto into Chinese and English, World Science and Technology 1988, No. 1, STEA sub Academia Sinica. 17-20, Beijing. [JPG1][JPG2][JPG3][JPG4]

Liu, Y. and W. Li 1987. Babelo Estos Nepre Konstruita. El Popola Chinio. 1987. Beijing (also presented in First Conference of Esperanto in China, 1985, Kunming) [JPG1][JPG2][JPG3]

Li, W. 1986. Automatika Tradukado el la Internacia Lingvo en la Chinan kaj Anglan Lingvojn, grkg/Humankybernetik, Band 27, Heft 4. 147-152, Germany.
[JPG1][JPG2][JPG3][JPG4][JPG5]

Other Publications

Chinese Dependency Syntax

SBIR Grants (17 Final Reports published internally)

Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR

M.A. Thesis in Chinese: 世界语到汉语和英语的自动翻译试验 
–EChA机器翻译系统概述

《立委科普:Machine Translation》 (encoded in Chinese GB)

Li, W. 1997. Outline of an HPSG-style Chinese Reversible Grammar, Vancouver, Canada.

Li, W. 1995. Esperanto Inflection and Its Interface in HPSG, Proceedings of 11th North West Linguistics Conference (NWLC), Victoria, Canada. [PDF(to be added)]

Li, W. 1994. Survey of Esperanto Inflection System, Proceedings of 10th North West Linguistics Conference (NWLC), Burnaby, Canada. [PDF(to be added)]

《ChatGPT:人类语言的“通天塔”》

【立委按:ChatGPT 横空出世,标志着人类语言通天塔的建成,对于做了一辈子NLP的老司机,岂止是美梦成真。古人云,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了,可以见证ChatGPT引发的信息产业的新生态大爆发。】

ChatGPT导读:

自然语言处理(Natural Language Processing,NLP),是AI皇冠上的明珠。AI主要分为感知智能和认知智能,从感知智能到认知智能的飞跃,主要的标志就体现在NLP任务的完成能力上。人类语言是人类知识的载体,把语言搞定,是进入人类认知智能的一扇大门。千百年来,消除语言障碍一直是人类的梦想。《圣经》中的巴别塔指的就是人类语言的通天塔,但这被认为是一种空想,注定无法建成。我们NLP从业人员也一直在追求这个梦想,感觉真比登天还难。


Download

但是,2022年11月30日,请记住这个日子,以美国人工智能企业OpenAI正式发布ChatGPT模型为标志,通天塔正式落成!它不仅成功消除了人类语言的障碍,还把人类和机器交互的桥梁也建立了起来。这个历史性时刻在国内当时没有引起大的反响,国内同胞不幸正处于疫情高峰期。两个月后等我们从疫情中走出来后,才发现人世间发生了如此巨变,一场ChatGPT海啸开始席卷海内外。

为什么说ChatGPT就是人类语言的通天塔呢?因为它的语言能力其实比Native还要Native:native speakers难免有口误和表达不规范,而大模型做底的ChatGPT的生成却总是那么地道、合乎语言习惯。从输入端来看,它能听,就没有它听不懂的语言,理解能力特别好。从输出端来看,它能说,常常口若悬河。最让人震撼的是,从它的语言表现我们看到了背后的“思维链”和一定的逻辑推理能力,给人的印象是条理清晰。输入输出的背后是大家称为LLM(Large Language Model)的语言大模型,我们用户看它就是个深不见底的黑洞,里面有很多层的神经网络,内部表示是多维向量,俗称“劳碌命”,是它在那里劳碌,分析理解,组词成句。这个“劳碌命”的工作以ChatGPT的形式表现出来,就完美实现了人机的自然语言接口。

我们看看ChatGPT背后的LLM怎么炼成的。这方面的技术性介绍已经汗牛充栋了,我们简述一下背后的原理。它的背后是GPT3,准确的说是被称作达芬奇的GPT3.5最新版作为基础。这个模型首先是规模超大,大力出奇迹。千亿级的tokens作为训练数据,形成千亿级参数的模型。研究表明,通用大模型到了一定规模以后会出现一种技能“涌现”现象,这些涌现技能稍加提示就可以在各种多任务中表现出色。以前笼统地归结为量变引起质变,基本上是把奇迹发生当成一个谜。就好像是说上帝的垂顾,现代版的愚公移山的故事:现代愚公大力不止,感动了上帝。现在看来并没有那么神秘:多任务能力的涌现必须以超大数据LLM为基础,这是因为没有LLM,就没有根据人类偏好来调教模型的空间。

从语言序列学到的生成大模型,最大的特点就是能产性,给一个前文提示,后续有很多种“接龙”的可能性,但这些可能性中只有很小的一个比例是我们希望看到也感觉得益的,还有很多生成是肤浅的、空洞的,甚至有毒的。ChatGPT的突破就是在这最后一步的调教中,以强化学习为核心,找到了一条与人类偏好对齐的有效的方法。这就好比有一个巨大的沙盆,里面装着1000颗大大小小的钻石藏在沙中,现在想把沙子倒掉,有没有一个好的办法倒完沙子又不倒掉钻石呢?试了很多次,几乎不可能。但可以粗线条操控,结果沙子是倒掉了,但也倒掉了900颗钻石。人们知道的是它有效地留下了一批合格的宝贝。能够这么做的前提是,盘子要大。能这么做,敢这么做,只有超大数据的模型。举个例子,正常的语料中,直接与翻译、问答技能相关的数据有多大比例?是个零头吧,数据规模不大的时候,从序列学习的模式中很难学到这些技能。但超大数据就不同了,小的比例乘以一个大数,就有了学习的条件和土壤,这时候如果模型足够大,这些技能就会被潜在地学到。在一个有几乎无限生成可能性的基础模型中,如果不做足后来的功夫,大概率生成的还是水货。于是“符合人类预期”就成为后期调教(fine tune)的最大目标。这个过程中,很多宝贝也给倒掉了,文献中称为 alignment tax(指的是打造自然语言接口模型为与人类对齐必须缴的“税”)。不怕,因为人们看不见被倒掉的宝贝,只要看见的是钻石就行。大模型有足够的冗余,不怕层层过滤和减枝。其实,不是大模型本身出奇迹,而是大模型为奇迹的出现准备了温床。

ChatGPT和以前的大模型不同的地方是它精心筹划了一个人类反馈的强化学习。对于一个通用的开放系统,人类其实也讲不清楚好坏,但是至少可以说你这一轮跟我的对话回答得好还是不好。拿这种反馈去强化训练和微调大模型,ChatGPT突然就显得善解人意了。人机交互从以前的人迁就机器,不得不编写代码,变成了机器迁就人,听懂人话了。这是一个巨大的转变。

强化学习在诸多学习算法中是很不好伺候的一种,因为链条长,而且对于最终目标的定义不是显式和直接的,而是间接以效果论英雄。调教说的是把原基础模型的大概率水货压下去,让隐藏在原模型中的小概率宝贝浮上来:孩子才是符合人类预期的强化目标,但并不是特定的孩子作为优化目标。反正这个世界没有唯一的答案形式,生成通常没有黄金标准,我们有的就是模模糊糊的人类基于偏好而给的反馈:这个回答好,那个是胡扯;这个对路,那个是歧视。能够较好利用这种终局反馈的典型方法正是强化学习。这个反馈回路一旦建立起来,模型可以不断强化和迭代, 表现自然越来越好。于是,强化到了公元2022年11月30号,帷幕揭开,这是人类见证奇迹的时刻。

如实说,我一辈子从事NLP,从没想过在有生之年能够看到这样的奇迹。老祖宗说过,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了。ChatGPT到现在已经过去3个月了,还是感觉像在做梦一样。有时看着ChatGPT的图标出神,反问自己,这难道就是通向新生态星辰大海的语言之门吗?不得不说,所有的迹象都表明,ChatGPT的背后有着无限的可能性。

 

The ChatGPT Tsunami and Its Impact on IT Landscape and New Ecosystem

This is my recent invited talk given to young entrepreneurs on the LLM and ChatGPT ecosystem.  

1. ChatGPT:  "Tower of Babel" for Human Languages

Natural Language Processing (NLP) is the crown jewel of AI. AI is mainly divided into perceptual intelligence and cognitive intelligence, and the leap from perceptual intelligence to cognitive intelligence is mainly reflected in the ability to complete NLP tasks. Human language is the carrier of human knowledge, and mastering language is a gateway to entering human cognitive intelligence. For thousands of years, eliminating language barriers has always been a dream of mankind. Babel in the Bible refers to the tower that mankind wished to build to overcome barriers of human languages, but it was considered to be impossible to build. We NLP practitioners have also been pursuing this dream, hoping to get closer to the final goal of overcoming the language barrier.


Download

However, on November 30, 2022, remember this day, with the official launch of the ChatGPT model by the American artificial intelligence company OpenAI, the Tower of Babel was officially completed! It not only successfully eliminated the language barriers for mankind but also established a bridge between humans and machines. In no time did we all realize that a ChatGPT tsunami had swept across the world.

Why is ChatGPT judged to be the Tower of Babel? Because its language performance is actually more "native" than native speakers: native speakers inevitably have slips of the tongue from time to time, but the large generative language model like ChatGPT is difficult to make such mistakes and seems to be always in line with language habits. From the input side, it can understand any human language. From the output side, it can speak fluently. What is most shocking is that from its language performance, we can observe what is called the "Chain of Thought" (CoT) behind its responses, with certain logical reasoning abilities, giving people the impression of being clear and organized. Behind the input and output is the so-called LLM (large language model, GPT in particular), which is like a bottomless black hole to users. Inside are actually many layers of neural networks, represented internally as multidimensional vectors, which house a ton of knowledge. 

Let's take a look at how the LLM behind ChatGPT is developed. There are already tons of technical introductions on this topic, and we will briefly describe the underlying principles. Its basis is GPT-3, or more precisely, the latest version called text-davinci-003. This model is first of all extremely large in scale, and its size is believed to have made miracles happen. With billions of tokens as training data, it forms a model with billions of parameters. Research has shown that generic large models will exhibit an "emergence" of certain skills once they reach a certain scale, and these emerging skills can perform well in various multi-task scenarios with minimal prompting. Previously, this phenomenon was generally attributed to the "transformation of quantity into quality", and it was basically treated as a mystery in philosophical terms. It is like saying that everything is attributed to God's favor.

In my understanding, it is not that mysterious, but a reasonably natural result as the emergence of multi-task skills has to be based, and can only be observed, on a super-large data model.  This is because otherwise, there is no sufficient space for the model to tune itself based on human preferences. Large language models are learned from text sequences, and their greatest feature is their ability to over-generate, giving many possibilities for subsequent sequences like "chain reactions", but only a small percentage of these possibilities are desirable and beneficial. Many generations may be shallow, empty, or even toxic. ChatGPT's breakthrough lies in the meticulous final fine-tuning process, using reinforcement learning as its core, it found an effective method to keep aligned with human preferences. This is like having a huge basin with numerous children bathing inside, and now you want to pour out the bathwater without pouring out the children. It is almost impossible. But if you can afford to lose some, the result is that the water is poured out, with some good children still inside the basin to help the case. The premise of doing this is that the basin must be large. Only super-large data models can achieve this with sufficient abilities left for numerous tasks. For example, what proportion of parallel translated text or of data of question-and-answer pairs is there in a normal language raw corpus? It's a tiny tiny fraction, and when the data size is small, it is hard to learn the translation or question-answering skills from sequence-based learning. Only with super-large data and model can the small proportion multiplied by a large number of tokens create the necessary conditions and soil for implicit learning of such skills. In a basic model with almost infinite generation possibilities, if enough work is not done in a later stage, the probability of generating useless responses is high. Therefore, "aligning with human preferences" becomes the ultimate goal of fine-tuning. In this process, many children were also poured out, which is called the "alignment tax" in the literature. But it doesn't really matter, because people can't see the lost treasures, as long as they see the good results, it's fine. Large models have enough redundancy and can survive filtering and pruning at all levels. In fact, it is not the large model itself that creates miracles, but the large model prepares a warm bed for miracles to happen.

What makes ChatGPT different from previous large models is that it has carefully planned for reinforcement learning from human feedback. For a generic open system, humans cannot really pinpoint where it is right or wrong, but at least they can say whether the response is good/useful or bad/no-value. Using this type of feedback to reinforce the learning and to fine-tune the large model, ChatGPT suddenly becomes very human-like. Human-machine interaction has changed from humans accommodating machines and having to write code, to machines accommodating humans and understanding human language. This is a huge transformation.

Reinforcement learning is relatively a difficult type of learning algorithm compared with other supervised learning approaches because it involves a long chain and the definition of the ultimate goal is not explicit and direct, but indirect based on the final outcomes. The idea behind training is to suppress the high probability of poor performance in the original model and bring out the low probability gems hidden in the model: the child is the reinforcement target that conforms to human expectations, but not a specific child as the optimization target. In any case, there is no unique answer format in this world, and there is usually no golden standard for a generation. What we have is the fuzzy feedback given by humans based on preferences: this answer is good, that one is nonsense; this one is correct, that one is discrimination. A typical method that can make good use of this terminal feedback is reinforcement learning. Once this feedback loop is established, the model can be continuously strengthened and iterated, and its performance will naturally improve. So, after some meticulous learning from human feedback, on November 30, 2022, the curtain was lifted, and this was the moment when humans witnessed the miracle.

To be honest, I have been engaged in NLP for my whole life, and I never thought I would see such a miracle in my lifetime. It has been three months since ChatGPT was created, and it still feels like a dream. Sometimes I stare at the ChatGPT icon and ask myself, is this the language gateway to the new ecological universe? I have to say that all the signs indicate that ChatGPT has unlimited potential for NLP.

Let's take a step back and review the contemporary history of the golden decade of artificial intelligence.

Ten years ago, in the ImageNet competition, deep learning overwhelmingly crushed all other machine learning performances in the image field, triggering a landmark neural network revolution. Deep neural networks rely on supervised learning of big data. Since then, we have known that as long as the data is large enough and labeled, deep learning can handle it. After sweeping through image, speech, and machine translation, it encountered the stumbling block of NLP because many NLP tasks do not have large-scale language data with labels.

Five years ago, the NLP field saw the emergence of large language models (LLMs) represented by BERT and GPT. LLM can directly "eat" language without the need for annotations, which is called self-supervised learning in academia. LLM marks the arrival of the second revolution, which pushed NLP to the center of AI and became the core engine of cognitive intelligence. AI finally overcame the dependence on labeled data which had been the knowledge bottleneck for NLP, leaping from perception to cognition.

Three months ago, ChatGPT was born, creating an almost perfect human-machine natural language interface. From then on, machines began to accommodate humans, using natural language to interact, rather than humans accommodating machines, using computer language. This is a groundbreaking change.

From the emergence of LLM to the advent of ChatGPT, it truly externalized both its linguistic talent and its knowledge potential, allowing ordinary people to experience it. Looking back, human-machine interaction and its related applications have been explored for many years, but before ChatGPT came out, it had never really been solved. When the GPT-3 model was launched two years ago, skilled players of us already knew how capable it was. As long as you give it a few examples, it can follow the examples to accomplish various NLP tasks, so-called few-shot learning. It does not require major modifications to the large model or large-scale labeled data. With just a few examples, GPT-3's potential can be unleashed to accomplish various NLP tasks, which is already amazing as it overcomes the knowledge bottleneck of supervised learning. However, the basic limitations of these amazing performances of LLM are mostly known within a small circle of players, and a language bridge is needed for its true breakthrough. ChatGPT has come forward with its biggest feature, zero-shot learning, which means that not a single labeled sample is needed, and you can directly tell it what to do. After five years of supervised learning and five years of self-supervised learning of the deep neural network revolution, the final result has been delivered, and the ChatGPT Bebel tower has been fully constructed, marking the pinnacle of the golden decade of AI. ChatGPT has since been like a tsunami, stirring up the world and causing a sensation all over. 


Download

Looking at the history of AI from a broader perspective, 30 years ago, the main approach to NLP tasks was through symbolic logic. Symbolic routes and machine learning are the two paths that have alternated in dominance in AI history every 20-30 years, like a pendulum. But in the past 30 years, machine learning has been on the rise as the mainstream, with the deep learning revolution in the last 10 years. The pendulum shows no sign of swinging back. We practitioners have been on a long journey of the symbolic rule system. It is not in the mainstream, rarely even mentioned by anyone, but it has not been lacking in its own innovation with its own differentiated advantages. It is worth noting that the symbolic parser has eventually embraced data-driven empiricism and relies on a pipeline of multiple modules to ultimately deal with the hierarchy of language structures. We call this deep parsing. Similar to LLM, deep parsing consists of many levels (around 50-100 levels) of bottom-up processing. It also first digests the language but parses incoming sentence sequences into internal symbolic graph structures, rather than LLM's vector representations. Although deep parsing and deep learning take different representation schemes, both empower downstream NLP tasks, one with structures and the latter with vectors, both greatly improving the efficiency of downstream NLP tasks. Of course, LLM is still the stronger player because it not only masters syntax structures but also performs exceptionally well in discourse and computational styles, the former involving long-distance discourse relationships and the latter capturing subtle differences in language expressions.  Discourse and computational style pose a significant challenge to parsers that primarily focus on sentence structures.

There have always been two main lines in AI. In addition to machine learning, there is traditional symbolic logic, which rises to the philosophical height of rationalism versus empiricism. These two paths have waxed and waned over the past 30 years, with machine learning on the rise and symbolic logic disappearing from the mainstream stage, although the industry has never given up on its use. The transparency and interpretability of symbolic logic translate directly into the convenience of engineering fixed-point error correction, which contrasts with LLM's black-box-like internal vectors. LLM can use retraining to macroscopically improve, or use fine-tuning or few shots to induce. LLM cannot do pinpoint correction or debugging like in surgery. LLM's lack of interpretability also often causes user concerns and confusion in practical applications. Perhaps one day in the future, the two paths will converge at a point where a new AI revolution will occur.

From the perspective of AGI, we see that almost all models before LLM were specialized, and the narrower the task, the better the performance. One exception is the parser, which is in essence the "symbolic foundation model" in the pre-LLM era, empowering downstream NLP tasks with structures, just like LLM does with vectors. From a more general perspective, the emergence of LLM represents a breakthrough in the development of artificial intelligence towards achieving AGI, or Artificial General Intelligence. AGI has long been a controversial goal, and many scholars, including myself, have doubted or even mocked its feasibility. However, with the advent of LLM five years ago, AGI became more scientifically viable, rather than just a Utopia. OpenAI, which champions AGI, has become the shining star in this field, having delivered a long list of influential LLM general models that include the GPT series for NLP, Codex for code writing and debugging (eventually used for Microsoft's Co-pilot service), and DALL-E for image generation.

With ChatGPT as the pinnacle, large models have taken over all NLP tasks simply by using natural language as instructions, not only those defined by the NLP community but also many user-defined tasks. Its NLP tasks are completely open. Tasks related to language and knowledge can be attempted in any language, and often the results are immediate and magical at the same time. Someone has listed 49 task scenarios that it can handle, but it can actually do much more than that.  In addition, new scenarios are being discovered all the time. This is an unprecedented phenomenon in the history of AI, which the industry calls "skill emergence".

We can examine why it is so capable and knowledgeable. Overall, human systematic knowledge is largely expressed in language. Human knowledge is mainly carried in the form of text (written language), and mathematical formulas can be seen as an extension of written language. From a linguistic perspective, human knowledge can be divided into linguistic knowledge and knowledge beyond linguistics. Linguistic knowledge includes lexicon knowledge, syntax, morphology, discourse, style, etc. Knowledge beyond linguistics is a much broader circle with a much wider boundary. Large language models have not yet mastered human knowledge as a whole, and it seems that they have managed to capture some knowledge floating on top of the sea of human knowledge. As for ChatGPT, it can be said that it has mastered almost all of the linguistic knowledge, but only about 20% of human knowledge in general, including common sense, basic logic, and encyclopedic knowledge. It calls for more serious research to quantify it properly, but in the ballpark, it feels like about 20% of the knowledge has been learned, and the remaining 80% is still not within reach. However, the law of large numbers applies here, namely the 80-20 rule, which means that mastering 20% of the knowledge floating on top in effect covers 80% of the scenarios. However, since there is still an 80% knowledge gap, it still pretends to know things it doesn't from time to time.  Given that, LLM can still reshape the ecosystem and the world if we learn to use its strengths and to handle its weaknesses wisely.

How do we judge whether it has learned and how well it has performed a task? In any NLP task, there is a quality assurance (QA) protocol to follow, which requires at minimum a test set of annotated samples. Currently, ChatGPT uses zero-shot learning (i.e. zero samples), where a random task is assigned to it and once it is done, it moves to a new task, so there is no chance for building a persistent test set.  So its performance on result quality cannot be quantified directly. In such cases when the internal testing protocol is missing or no longer applicable, external methods must be used to evaluate the data quality indirectly, such as customer surveys or using my previous company Netbase's social listening service to collect customer feedback online. All the external signs indicate that customer satisfaction seems to be over 80%, and in most task attempts, customer needs are met fairly well, at times with nice surprises and miracle-like performance. Another relatively objective external indicator is user stickiness and growth of user accounts.  ChatGPT has set unprecedented records in this regard, with tens of millions of users in just a few weeks. ChatGPT's customer growth rate exceeds everyone's imagination.

In conclusion, ChatGPT represents a major breakthrough in the field of natural language processing and artificial intelligence. As a large language model, it has revolutionized the way we approach NLP tasks and has demonstrated remarkable versatility and capability. However, it is important to keep in mind that ChatGPT is not perfect and there is still much work to be done in terms of improving its performance and addressing its limitations.

Despite these challenges, ChatGPT has already had a profound impact on the field of AI and is poised to continue shaping the future of technology in significant ways. As AI continues to evolve and advance, it is likely that we will see more breakthroughs of LLMs that push the boundaries of what is possible and help us achieve even greater levels of understanding and innovation.


Download

Over the last three months, there has been no end of online forums, discussions, and talks about ChatGPT, and there is still no sign of aesthetic fatigue. Recently, the former head of Y Combinator China Dr. Lu Qi came to Silicon Valley to give a passionate speech, which added fuel to the fire. He compared ChatGPT's revolution to Web-1. As we all know, the iconic brand that represented the first Internet boom was the Netscape browser. Although Netscape did not grow to a large company, it was the internet revolution it started that created giants like Yahoo, Google, and Amazon. A similar revolution occurred in China, giving rise to world-class companies such as Baidu, Tencent, and Alibaba. Lu Qi believes that we are right now in such an era. He said that the roadmap is so clear, and the trend is so obvious that he has absolutely no doubt in his mind. Overall, I largely agree with his view of technological trends and landscape.

ChatGPT marks the emergence of a new era. Some people say that this is the "iPhone moment" or "Android moment" in the history of contemporary information technology and will lead to a brand-new ecosystem. I feel that Lu Qi's comparison is more comprehensive, as ChatGPT is like the "Netscape browser" that initiated the first Internet revolution. Regardless of the comparison, it is a game-changer.

However, it is essential to note that ChatGPT also has its shortcomings and challenges. One issue that everyone has noticed is the so-called hallucinations, in fabricating details and distorting facts. Although ChatGPT has conquered any form of human language, it has only scraped the tip of the iceberg of cognitive intelligence. Is it possible for LLM to solve this problem completely? In my opinion, the LLM route alone will not solve cognitive intelligence. As mentioned earlier, ChatGPT has only covered about 20% of human knowledge. Even if LLM continues to expand several orders of magnitude in sequence-based learning, in my estimates it can at best reach 40%-50%. The remaining 50% is a deep sea that can hardly be fathomed. The long tail of knowledge is an absolute explosion of combinations, way beyond the reach of sequence-based language learning. The annoying behavior is that for any knowledge beyond its ken, LLM will not hesitate to fabricate it with fake details that appear genuine. This is a severe problem. The accuracy defect of such long-tail knowledge is an inevitable problem for application services based on LLM.

Moreover, there are many other issues that need to be overcome. For example, when a large model empowers downstream scenarios, how can customer privacy and security be protected during the process of calling the large model? This problem has not yet been solved, but it is believed that better solutions will develop in time. The supplier of large models will surely pay special attention to this issue and provide solutions for their ecosystem's development.

Another issue is the complex reasoning ability. From the conversations of ChatGPT, we observe that it already has basic reasoning ability. The source of this ability is very interesting. It mainly benefits from self-supervised learning of the massive computer code base. The GPT3.5 on which ChatGPT is based has been trained not only on human natural language but also on massive available open source code written in various computer languages on GitHub, and most of the code has corresponding natural language explanations (comments) too. Since computer code is by nature more logical than natural language, this has helped ChatGPT to organize its response and speak more coherently. This was said to be a nice surprise that the developers themselves had not anticipated. However, it currently still has shortcomings in complex reasoning logic. Fortunately, complex reasoning ability is different from the boundless knowledge network. It is a relatively closed logical set, and it is believed that it can be solved in not too far a future (perhaps GPT4 might already be able to handle it?).

Lastly, let's talk about the progress of multimodal learning. LLM, as the basic model, has been validated in NLP multi-tasking and has performed exceptionally well. After the breakthrough in NLP, the framework for empowering downstream tasks with a basic model began to radiate toward other modalities. This direction of research is very active in the academic field of multimodal learning. Everything is still ongoing. Currently, the level of multimodal learning in practice is still in the stage of prompt engineering. What is lacking is a natural language interface. People who play with prompts in large models for image and music generation already know the huge potential and effectiveness of the basic model. It is very similar to the situation when we played with few-shot prompts in the GPT-3 playground before ChatGPT was born. It can be foreseen that in near future, a smooth natural language interface will emerge, and users will be able to describe the art they desire, whether it is a painting or a song. The work of aligning with human taste is also ongoing. It is predicted that a natural language to image (NL2img) model like "ChatDalle", similar to ChatGPT, will implement the desired natural language interface. The same trend is bound to happen in natural language to music (NL2music). We are in an exciting new era of AIGC (AI-generated content) for art creation.

Another predictable picture is that based on the trend of multimodal LLM, there will eventually be a unified large model that integrates various modalities and their associated knowledge. The breakthrough of this model barrier will provide critical support for entrepreneurs to utilize LLMs to empower downstream applications in various scenarios. As we all know, whether it is finance, law, or medicine, each major vertical has its accumulated long-standing structured symbolic knowledge base, including the domain ontology and other databases. How to connect to the domain's symbolic resources involves breaking the domain barrier. It is expected that this barrier will be largely solved in the next two to three years.

2. LLM Ecosystem Facing Reshuffling

The direct impact of the ChatGPT tsunami is that the NLP ecosystem is facing a reshuffle, and every existing information product or service must be re-examined in the context of LLM.

When we first discussed ChatGPT’s impact on IT services, the first thing that came to our mind was how to combine ChatGPT with search technology, and whether it could re-invent search.

Search is traceable, and every returned result is recorded, so it involves no information fusion. ChatGPT is untraceable and excels at information fusion: ChatGPT has no possibility of plagiarism in essence. Every sentence it spits out is novel sequence based on its digested information sources. Apparently, traditional search and ChatGPT have their own respective advantages and disadvantages. Search is the king of information services, ubiquitous, with a very stable business model. Since the rise of search in the Web 1.0 era, the form and mode of search have basically not changed for more than 20 years. In fact, new technologies and entrepreneurs have been trying to challenge search continuously over the years, and the venture capital industry has also been paying attention to potential search subverters that may become the "next Google", but the status of search has always been unshakable, at least until now. But this time is different. Microsoft has exclusive code authorization for ChatGPT and has boldly launched the so-called "new Bing". Google, who has dominated the space for so long, has to mobilize urgently and confront it head-on. A drama of search+LLM is unfolding, like a live drama, telling us that although there are still many difficulties to overcome in integrating these two technologies, the trend is unstoppable, and reshaping a new ecology of search is imperative.

In addition to search, those finely polished directional information products and services now face the fate of being re-examined and reformed, including chat, virtual assistants, grammar correction, machine translation, summarization, knowledge Q&A, etc. The representative services in these areas (Siri, Grammarly, etc.) used to have high technological barriers, which have suddenly been lowered.  Although many products are not facing a catastrophic crisis due to years of polishing and user inertia, some may still exist for a long time, after all, they are all on a downhill road. This is a revolutionary victory of general AI over traditional AI. It is something we would not believe feasible before. We used to be so skeptical of the general approach, waiting to see the joke of those who advocated AGI, such as Open AI who managed to launch a series of impressive LLMs (GPT series, Codex, DALL-E) including ChatGPT.

Look at Siri, which was released by Apple 13 years ago. 13 years is longer than the entire golden decade of the deep learning revolution, but Siri has only recently managed to offer 2-round or 3-round conversations. Amazon's popular product, Alexa, is the same. It has been polished for several years and accumulated so much user data. Now, with the advent of ChatGPT, what will Apple and Amazon do? They must embrace LLMs.

Next is the commonly seen e-commerce customer service. As we all know, Alibaba and JD.com's online after-sales customer service has been polished to perfection. Because after-sales service issues are relatively concentrated, the problem set is not large while the data are large, accumulated over the years. However, customer service is not only limited to post-sales.  In order to handle customer service smoothly, LLM cannot be ignored.

Moving on to education, it's clear that the ChatGPT model has the potential to revolutionize all education products and services. Anyone developing educational applications will need to reconsider how to embrace LLMs within the framework of the large model. Education itself deals with language, regardless of whether it is related to arts or science. Although the current large model is not particularly strong in science and engineering (yet), this knowledge gap will be filled to varying degrees soon. ChatGPT is sure to disrupt education, while also providing the largest opportunity for modernizing education. Language learning and computer programming education are obvious areas for ChatGPT to shine, as the model itself is a language model. Although its programming abilities are not yet at the level of professional engineers, it is proficient enough in common code formats to assist with programming and with the learning of programming. In fact, Co-pilot, which has been empowered by the GPT codex, has already become an auxiliary tool for more and more programmers.

Stepping back, we are also facing a huge risk, such as fake news. If one wants to promote a company or product, one can now use ChatGPT to generate all kinds of promotional posts that sound convincing. In the future, those online reviews and comments will also be obscured by fake news, as the cost of creating fake news approaches zero. Without proper precautions, all of this could place humanity in a world where truth and falsehood are indistinguishable. All along, we have been talking about the benefits of LLM and how it can empower new ecosystems for productivity explosion. We expect that in the next five to ten years, new international IT giants like a new Google or New Alibaba will emerge under this new ecosystem, leading to a major transformation in the technology ecosystem. But the danger of LLM misuse is equally great. Is mankind ready for it? Clearly not. Of course, this is another topic, and we will leave it there for now.

3. Wave of Mass Entrepreneurship Coming

With LLM (ChatGPT in particular), there are more product forms and services waiting for entrepreneurs to explore.

Regarding this topic, we need to emphasize the unprecedented entrepreneurial conditions brought by ChatGPT. ChatGPT itself has become a testing ground for products. It is a playground with an infinitely low bar that everyone can play in. The low bar is due to the paradigm shift in human-machine interfaces mentioned earlier. For the first time in AI history, machines began to cater to humans, rather than humans catering to machines. Human language, rather than computer code, became the tool for human-machine interaction. The significance of this change for the new ecology of NLP is difficult to overemphasize. In fact, this provides conditions for "mass entrepreneurship".

Those who have started AI businesses should all have this experience. The most basic condition for a startup team to have a chance of success is that the product manager and the technical leader can work closely together and communicate effectively. The product leader, relying on their market intuition and understanding of customer needs, strives to find the best market entry angle for technology to be transformed into a service and form a product design plan. The feasibility of this design plan needs to be endorsed and then developed by the technical leader. However, often due to different professional backgrounds and knowledge structures, the situation where the product manager and the technical leader talk past each other is not uncommon. Once this situation arises, the startup company is basically doomed to fail.

ChatGPT fundamentally eliminates the problem of talking past each other. Previously, only the technical leader and programmers could verify the feasibility of a plan, but now, the product leader/CXO, engineers, data analysts, and users with different backgrounds and expertise all have a unified platform, ChatGPT, on which they can illustrate product ideas. Everyone can simulate services on it. Not only has the communication barrier between humans and machines been overcome, but also the communication barrier between different teams. The emergence of this thing is a precondition for a product explosion and mass entrepreneurship.

In the United States, hundreds of startups are now exploring ideas of downstream products and services following ChatGPT or the backend LLMs. While the upstream big models are still rapidly progressing, what they are doing downstream is already in active development. There are countless ordinary people sharing their stories online, showing how they can earn 5,000 dollars using ChatGPT in just two or three hours. This kind of sharing means that the entrepreneurial enthusiasm of grassroots people has been mobilized. It seems that everyone can use this opportunity to find an entrepreneurial perspective. Summarizing these grassroots ideas may also lead to new tracks that can be standardized and scaled to meet market demands.

A big model like ChatGPT is ultimately an operating system-level existence. Every AI-related information product and service, especially those related to language and knowledge, cannot do without it. When Intel dominated the market, the famous logo was "Intel Inside". In the future, it will be "Chat-Inside", or more accurately, "Chat-In&Out". Why in and out? When a big model like ChatGPT empowers products, it is both like a waiter and a chef. The waiter can take your order, interact with you, and understand your needs while also doing the cooking and delivering the service. It requires both language talent and knowledge skills. This is what we call the LLM expert workbench, which may be the biggest new ecological form in the next five years and may open countless doors for entrepreneurship. The basic service form is online information services in various industries, whether it is online education, online lawyers, online consultants, online finance, or online tourism. All are aimed at significantly improving service efficiency. With ChatGPT, you only need to hire one expert to replace the 10 experts that were previously needed to handle tasks. The end result is a productivity explosion.

In conclusion, the wave of mass entrepreneurship is coming, and ChatGPT has brought unprecedented entrepreneurial conditions. It has become a testing ground for products with an infinitely low bar that everyone can play in. The emergence of this technology has eliminated communication barriers between humans and machines and between teams, leading to new tracks that can be standardized and scaled to meet market unmet needs. The future of ChatGPT as an operating system-like existence may be the biggest new ecological form in the next five years, called the LLM expert workbench, which open doors for entrepreneurship and will lead to a productivity explosion.

At this point, the application ecosystem seems very clear. The principle is that experts must be the final filter before delivering the results (human judge as final filter). This is the basic setup, but experts may also provide input prompts to inspire LLM to produce better results.

For almost every application scenario, there is a task to create an expert workbench, including supplementing existing products or services, such as every segment of online education, as well as online doctors, lawyers, financial consultants, etc., and exploring previously unthought-of business scenarios. This is a visible transformation or reshuffling of the ecosystem, providing efficient expert advice (expert-in-loop services).

Speaking of workbenches, e-commerce giants have built relatively large customer service workbenches, which were introduced when user needs and satisfaction could not be met with fully automated solutions or with fully manual solutions. Now with LLM, this form can be extended to all online service sectors. The productivity explosion that this can bring about is beyond imagination.

The design concept of "Human as Judge" has been validated for several years in low-code platforms (such as RPA platforms, parser-enabled information extraction platforms, etc.) for its effectiveness and efficiency. Here, we are talking about a completely new form, where humans only need to act as judges to complete the service. It is now entirely possible to create online information service workbenches tailored to various segments or scenarios, with experts sitting in the background. Specifically, the expert's role is only to make the decision based on their knowledge and experience, especially at the final "go or no-go" moment. Being a judge is much more efficient than being an athlete.


Download

It is worth emphasizing that ChatGPT brings something new as enabling information technology, as it serves both at a backend and a frontend. It can perform well in high-level and low-level tasks, which is why chat is just the surface of ChatGPT, and its essence is a human-machine interface. Its ability to complete various NLP tasks is at its core. With both surface and essence, downstream products or services can be built around it. In the Intel era, computer product brand advertisements were remembered as "Intel inside," and in the future, the new ecology should be called "chat in&out," which refers to the new ecology empowered by LLM, not only empowering the human-machine interaction but also empowering the professional services, with only experts providing the final check. In this form, the experts are behind the scenes. To put it another way, LLM is both a waiter and a chef, but an expert needs to review the food and take responsibility before it is served to ensure service quality (such as online doctors, lawyers, consultants, etc.).

In such an ecosystem, the next five years will be a period of explosive growth for online services. Fortunately, the three-year pandemic has greatly promoted the grassroots awareness of online services, helping to cultivate user online habits and develop the market.

While LLM is powerful in terms of breadth of knowledge, it also has its limitations in terms of precision. The key challenge in building an expert-in-loop service is to overcome the precision bottleneck of LLM. The goal is to raise the precision to a level where it does not significantly impact the efficiency of the expert's work. If at least 1/4 of the results generated by LLM can match the level of a manual expert's research, then the efficiency of the expert-in-loop service can be ensured. This is a feasible expectation, and the current solutions are not far from meeting this threshold. With this in mind, we conclude that the door to entrepreneurship in the new ecology of LLM has indeed been opened.