【立委按:ChatGPT 横空出世,标志着人类语言通天塔的建成,对于做了一辈子NLP的老司机,岂止是美梦成真。古人云,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了,可以见证ChatGPT引发的信息产业的新生态大爆发。】
ChatGPT导读:
自然语言处理(Natural Language Processing,NLP),是AI皇冠上的明珠。AI主要分为感知智能和认知智能,从感知智能到认知智能的飞跃,主要的标志就体现在NLP任务的完成能力上。人类语言是人类知识的载体,把语言搞定,是进入人类认知智能的一扇大门。千百年来,消除语言障碍一直是人类的梦想。《圣经》中的巴别塔指的就是人类语言的通天塔,但这被认为是一种空想,注定无法建成。我们NLP从业人员也一直在追求这个梦想,感觉真比登天还难。
但是,2022年11月30日,请记住这个日子,以美国人工智能企业OpenAI正式发布ChatGPT模型为标志,通天塔正式落成!它不仅成功消除了人类语言的障碍,还把人类和机器交互的桥梁也建立了起来。这个历史性时刻在国内当时没有引起大的反响,国内同胞不幸正处于疫情高峰期。两个月后等我们从疫情中走出来后,才发现人世间发生了如此巨变,一场ChatGPT海啸开始席卷海内外。
为什么说ChatGPT就是人类语言的通天塔呢?因为它的语言能力其实比Native还要Native:native speakers难免有口误和表达不规范,而大模型做底的ChatGPT的生成却总是那么地道、合乎语言习惯。从输入端来看,它能听,就没有它听不懂的语言,理解能力特别好。从输出端来看,它能说,常常口若悬河。最让人震撼的是,从它的语言表现我们看到了背后的“思维链”和一定的逻辑推理能力,给人的印象是条理清晰。输入输出的背后是大家称为LLM(Large Language Model)的语言大模型,我们用户看它就是个深不见底的黑洞,里面有很多层的神经网络,内部表示是多维向量,俗称“劳碌命”,是它在那里劳碌,分析理解,组词成句。这个“劳碌命”的工作以ChatGPT的形式表现出来,就完美实现了人机的自然语言接口。
我们看看ChatGPT背后的LLM怎么炼成的。这方面的技术性介绍已经汗牛充栋了,我们简述一下背后的原理。它的背后是GPT3,准确的说是被称作达芬奇的GPT3.5最新版作为基础。这个模型首先是规模超大,大力出奇迹。千亿级的tokens作为训练数据,形成千亿级参数的模型。研究表明,通用大模型到了一定规模以后会出现一种技能“涌现”现象,这些涌现技能稍加提示就可以在各种多任务中表现出色。以前笼统地归结为量变引起质变,基本上是把奇迹发生当成一个谜。就好像是说上帝的垂顾,现代版的愚公移山的故事:现代愚公大力不止,感动了上帝。现在看来并没有那么神秘:多任务能力的涌现必须以超大数据LLM为基础,这是因为没有LLM,就没有根据人类偏好来调教模型的空间。
从语言序列学到的生成大模型,最大的特点就是能产性,给一个前文提示,后续有很多种“接龙”的可能性,但这些可能性中只有很小的一个比例是我们希望看到也感觉得益的,还有很多生成是肤浅的、空洞的,甚至有毒的。ChatGPT的突破就是在这最后一步的调教中,以强化学习为核心,找到了一条与人类偏好对齐的有效的方法。这就好比有一个巨大的沙盆,里面装着1000颗大大小小的钻石藏在沙中,现在想把沙子倒掉,有没有一个好的办法倒完沙子又不倒掉钻石呢?试了很多次,几乎不可能。但可以粗线条操控,结果沙子是倒掉了,但也倒掉了900颗钻石。人们知道的是它有效地留下了一批合格的宝贝。能够这么做的前提是,盘子要大。能这么做,敢这么做,只有超大数据的模型。举个例子,正常的语料中,直接与翻译、问答技能相关的数据有多大比例?是个零头吧,数据规模不大的时候,从序列学习的模式中很难学到这些技能。但超大数据就不同了,小的比例乘以一个大数,就有了学习的条件和土壤,这时候如果模型足够大,这些技能就会被潜在地学到。在一个有几乎无限生成可能性的基础模型中,如果不做足后来的功夫,大概率生成的还是水货。于是“符合人类预期”就成为后期调教(fine tune)的最大目标。这个过程中,很多宝贝也给倒掉了,文献中称为 alignment tax(指的是打造自然语言接口模型为与人类对齐必须缴的“税”)。不怕,因为人们看不见被倒掉的宝贝,只要看见的是钻石就行。大模型有足够的冗余,不怕层层过滤和减枝。其实,不是大模型本身出奇迹,而是大模型为奇迹的出现准备了温床。
ChatGPT和以前的大模型不同的地方是它精心筹划了一个人类反馈的强化学习。对于一个通用的开放系统,人类其实也讲不清楚好坏,但是至少可以说你这一轮跟我的对话回答得好还是不好。拿这种反馈去强化训练和微调大模型,ChatGPT突然就显得善解人意了。人机交互从以前的人迁就机器,不得不编写代码,变成了机器迁就人,听懂人话了。这是一个巨大的转变。
强化学习在诸多学习算法中是很不好伺候的一种,因为链条长,而且对于最终目标的定义不是显式和直接的,而是间接以效果论英雄。调教说的是把原基础模型的大概率水货压下去,让隐藏在原模型中的小概率宝贝浮上来:孩子才是符合人类预期的强化目标,但并不是特定的孩子作为优化目标。反正这个世界没有唯一的答案形式,生成通常没有黄金标准,我们有的就是模模糊糊的人类基于偏好而给的反馈:这个回答好,那个是胡扯;这个对路,那个是歧视。能够较好利用这种终局反馈的典型方法正是强化学习。这个反馈回路一旦建立起来,模型可以不断强化和迭代, 表现自然越来越好。于是,强化到了公元2022年11月30号,帷幕揭开,这是人类见证奇迹的时刻。
如实说,我一辈子从事NLP,从没想过在有生之年能够看到这样的奇迹。老祖宗说过,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了。ChatGPT到现在已经过去3个月了,还是感觉像在做梦一样。有时看着ChatGPT的图标出神,反问自己,这难道就是通向新生态星辰大海的语言之门吗?不得不说,所有的迹象都表明,ChatGPT的背后有着无限的可能性。