NLP自选系列:深度解析器是揭示语言奥秘的探测仪

自然语言的深度结构解析器(deep parser), 为语言奥秘的揭示与语言理解的应用开辟了道路,这方面的技术不再是科学幻想,而是已存的现实。我们身在其中,有责任为大数据时代的 parsing 技术的来临和潜力多做科普宣传。

01

开场词

“如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。”

——摘自《弘·扬 | 首席科学家李维科普:语法结构树之美》

02

语言的奥秘:解构

话说这语言学里面有一门学问叫文法,学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗,奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一代一代文法学家,试图见人所不能见,用树形图来解剖语言的内部结构。

本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。

天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位是依存文法大师,叫Tesnière(特氏),另一位就是大名鼎鼎的乔姆斯基(乔氏)。本文的结构图表示法(graph representations)取长补短,乃是以特氏依存关系为框架,适当辅以乔氏的短语结构而成。本文所有图示均是我们研发的多语分析器对语句全自动解析而成。

乔神仙(Noam Chomsky)特神仙(Lucien Tesnière)

语言的奥秘在于,语句的呈现是线性的,而语句背后的结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果。树形图分析法(sentence diagramming)也一直是语言教学的一个手段。

计算语言学家的任务就是模拟这个语言解构的过程,创制解析器(parser),使解构自动化。这个任务一直处于自然语言处理(natual language processing, NLP)领域的核心,但长期以来大多是科学家的玩具系统(toy systems),或局限于实验室的原型系统(prototypes),其速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)都不足以在真实语料的大数据场景应用。

而这一切已经不再是梦想,符合处理线速要求的高精准度和高覆盖面的鲁棒parsers已经是现实。这是大数据时代的技术福音。笔者在Netbase时期设计并带领团队研发的多语parsers就已经大规模投入(scale up)社会媒体大数据的应用,帮助自动挖掘针对任何话题或品牌的舆情与客户情报。

03

Deep Parsing 是语言技术的核武器

自然语言理解(natural language understanding,NLU)的关键就是模拟人的理解机制,这套机制的核心是 deep parser,其输入是语句,输出是语法逻辑结构。在结构图的基础上,很多语言应用的奇迹可以出现,如舆情挖掘,情报抽取,自动文摘,智能搜索,智能秘书,聊天机器人,心理疏导机等等。

对于看了树形图觉得眼晕的读者,不必明白细节,只要知道线性转成了平面就可以了,非结构转成结构乃是语言理解应用之根本。以下图为例,我们具体分析一下语言结构分析的结果表达。 

 上图叫作依从关系树形图。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语 S(Actor) 【I】,此子是其逻辑宾语 O(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾 SVO),构成语句意义的核心。 

两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

语言为什么要结构化?盖因语言是无限的,但结构是有限的。本文所示的的全自动解构树形图,用于语言大数据,就为各种数据挖掘(包括舆情挖掘)提供了结构化的情报宝库。对于信息使用者,这就是不尽的宝藏。

对于信息产品,语用语义当然是重要的,但是语义可以临时抱佛脚,结构则不同。用工程的话说就是,语言处理面对的是海量文本大数据,需要做 offline indexing, 不适宜纠缠过细的语义语用,而是应该先结构化了再说,存到数据库去。在应用的层面,通常需要的是领域场景的语用角度的语义(通过领域化信息抽取和文本挖掘)。这时候,做语义的条件已经成熟了。应用层面的语义一般是在一个特定的领域,或者为了一个特定的用场(产品),抽象层的语义纠缠因聚焦而简化,甚至自然化解了。面对大数据,对于难以预测的情报需求,可以直接对大数据所对应的结构图索引做在线即时检索,检索的时候加入适量的语义限制即可。这其实是下一代智能语义搜索引擎的并不遥远的革命性愿景。这样的句法和语义分工,在工程上是合理的。结构化是语言理解应用之本,结构化数据基础是满足语用需求做情报挖掘的质量保证。

 

04

婀娜多姿,风情万种

上得厅堂,下得厨房

本文所演示的各种树形图就是我们研发出来的文法机器人(parsers)自动生成的,虽然并非完美无缺,倒也风姿绰约。多语结构树没什么奥妙,大家的表达大同小异,都是秉承特神仙或乔神仙的体系。可是怎样达到这个结构,才是硬功夫。

下面以乔姆斯基上世纪五十年代末引发语言学革命的名句 “Colorless green ideas sleep furiously” 为例,请读者与我们一同欣赏多语 parsers是如何透过千差万别的具体语言的词汇词法的排列,解构出类似的句法结构:

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。最关键的是,风情万种的结构丛林,已经不再是象牙塔里供人观赏的艺术模型,她上得厅堂,下得厨房,甚至对于随处可见错别字、不规范用法的社交媒体大数据,也一样适用。这是怎样一个语言奥秘的探测仪,她的作用和巨大潜力才刚刚开始!

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据