【李白73:汉语parsing的合成词痛点】

李:
半夜醒来,一看有好例子,白老师给的三个作业,精神头就来了。这些结果是在没有利用量词搭配的情况下的parsing,不久会加上搭配的。

最后这句笑话闹大了。
有意思的是,加了一个新词 “停落” 没做其他任何改变,就成这样了:

白:
这个很powerful

李:
量词搭配没利用,但 “颗”和“树”还是连上了,“候鸟”和“停落”的主谓也连上了。定语从句也对了,但逻辑关系却错了:“大树”不应该是“经常停落”的逻辑宾语。

finally:
那个图是程序自动生成的,还是用手现画的啊?

白:
显然自动的

李:
开玩笑,这是NLP群,要是手画那还了得。
Wait, 再一想 其实也不错: 候鸟停落大树。 “停落”的确是及物的,“大树”是表示地点的逻辑宾语。那就全对了?白老师。 这就是我说的 parser 开发,越到后来越多让创造者惊喜的地方。用句白老师的话说,“我窃喜”。

白:
O的标签是句法的,映射到语义,有若干种逻辑角色,取决于动词的实例。比如“贴”、“盖”、“钉”,都有条件携带一个表示处所的坑,叫啥随便。

李:
那是,O 具体要映射到哪一个更细更合理的逻辑语义,决定于什么动词。只要 O 对了,这个映射在后一步极为简单。就是一个简单的映射词表或词驱动规则:停落:O(物体) –》地点。事实上,抽取(IE)的完成就是类似上面的映射。所以我说,parsing 靠谱了,IE 就是个玩儿。

白:
所以基本满分了

李:
暴露了一个问题:OOV(生词问题):“停落”不在词典的时候,表现不好。汉语构词法太灵活。本来某个合成词的规则应该把 停+落 合成的,可是这是一个痛点,火候不好掌握。

这一讲可以叫汉语parsing的“合成词痛点”。

这方面我们在系统也做了一些工作,但很不全,而且动力不足: OOV 是长尾,silent majority,花了功夫,可测试集里面见效不会大。如果统计把汉字词素的语义距离都弄出来了(这对统计不难),然后凡是落单的bigram汉字都合成为一个双音节合成词(汉语文法界有很多讨论现代汉语双音化构词趋势的文章)。这个法子可以对付一多半“合成词痛点”,估计。

白:
你看看“证券资金交收处理办法”能有几个收进合成词。

李:
还是OOV问题:“交收”不认识

白: 这个不懂业务是很难做对的。“交收”是一个业务术语,既包括交券也包括交钱,就是说“证券资金”是联合结构。类似这种,在我们的业务文件中不知道有多少,交给句法做没道理,不交给句法,句法在这里的接口又是什么?

李:
加了合成词“交收”以后的parse如下:

记得中学时代入迷冰心的文字。她最善于“生造”合成词。虽然生造,汉字被她用得行云流水一般。不克服合成词痛点,是没法 parse 冰心的。就是语义距离计算为主,“交”与“收”应该在距离阈值之内。

白: 生造的接续感觉,用机器学习似乎可行。规则看样子搞不定。

我:
oov合成词痛点 更多表现在领域化过程中 普通词汇以及普通合成词油水不大。生词习得(lexicon acquisition) 是领域化基石和重要一环。

首发科学网 《新智元笔记:汉语parsing的合成词痛点》

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论