语义沙龙小品:从侯宝林的四字相声说起

包容歧义与模糊理解是自然语言交流的常态

刘:侯宝林几个说方言的相声也印象深刻,一个是说宁波话像唱歌的,另一个是用几种方言模仿晚上起来撒尿的对话,想起来都好笑

毛:嗯,谁,俺,嘛,尿。

李:这里有什么玄机?单音词 成句。who / me / what / pee。说起来 最后两词 理论上有歧义:pee 是动作 还是 物体?

歧义包容的说法是 没必要消歧。因为动作也好 物体也好 背后的概念是一以贯之的 并不影响交流。对于人类在语用中惯用的模糊理解来说 包容歧义恰好与模糊理解相配。除非遇到较真的。较真的对话大体如下:

A: 我问的是”嘛”
B: 我答的是 “尿”
A: 答非所问。我问的是 你在干嘛?
B: 没错啊 我答的是 尿尿 呀
A:那我要问是什么呢?
B:也没错呀 我答的是这儿一泡尿。

嘛:义项1 干什么;义项2 (是)什么;义项3 句末叹词

尿:义项1 撒尿,动词;义项2 排泄物,名词

歧义对歧义 蛮好。消歧不是自找麻烦?

包容和模糊是人类交流的常态 省力低碳而高效。

白:侯的四字相声,省略是主要的,包容歧义义项倒在其次。

李:@毛德操 四字相声的事儿 有历史的。记得你一年多前就问我 什么叫机器理解?举的就是这个四字对话。当时没多想,觉得这都是词典里面的词(语素),有啥理解不理解的。查词典而已。词典里面绑架了语义,该啥啥,就算是解析了。自然语言理解是说怎么组词成句。

毛:是啊,“谁俺嘛尿”应该进教科书。你的书里何不把它写进去?

李:今天重提这个话头,想了想,机器可以做的,还有一些:1. 首先要确认这是两人对话的语用场景;2. 确定这是个单字句。

识别单字句 对于理解重要。组词成句的极限形式就是这个词就1个,它成了句。怎么识别单字句?就是孤零零一个字(语素)蹦出来,带有语调,前后都有较长的停顿。

好,somehow 上述两点形式化了,提供给机器,下面就可以解说机器怎么理解的了。“谁” 在单字句的条件下,在对话的场景中,它的理解就是挖了一个【human】的坑,要求给填上。在常规的多词句子中,对话的所谓解析是要知道 intent / slot,现在 slot 出来了,就是【human】,intent 因为没有谓词,理论上是模糊不清的。但是在对话场景下,这个 intent 有个标配,可以“脑补”上,机器于是知道 intent 是:谁在那儿?那动静是谁?

有了这个 intent/slot 的解析,第二句对话“我”,作为合理的回答,就自然顺理成章了。如果是机器回答,可选的答案有:是我 / 是小偷 / 没看清(谁) / ……

毛:印象中这段相声好像是侯宝林和郭启儒说的。

李:接下来的“嘛”,词典有两个义项:1. 句末叹词;2.疑问代词 what。在“单字句”条件下,排除了句末叹词的可能性,只剩下what,挖了一个【thing】的坑,有了【slot】,还是没有 intent

在对话的场景里面,单字疑问词,可以“脑补”标配的 intent 是【do(what)】,或进一步脑补为:what are you doing

于是引来回答:1. 名词:尿;2. 动词:尿。对话场景标配延长是:1. 这是尿;2. 我尿尿。顺着这个思路,所谓机器理解及其背后的场景落地,显然是有迹可循的。

毛:以模糊对模糊,以歧义克歧义。负负得正。

白:@wei “嘛”的语音形式不同。做“什么”解的“嘛”,读第四声。做“干什么”解的“嘛”,读第二声。

毛:你的书里应该加一节“谁俺嘛尿 辨”。

李:哈【自然语言答问:尿辩】。记得,语义泰山 菲尔默教授写了 The case for case,许国璋教授翻译过来就叫《格辩》。

毛:不应该是“辩”,应该是“辨”。

李:对。他是辩护他的格理论。这里是辨识/包容“尿”的歧义:【自然语言答问:尿辨】。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论