【一日一parsing:他 / 喝了 / 三碗 / 汤】

bai:
“他汤喝了三碗”
问题:“三碗”指向“汤”还是“喝”还是自己的省略被修饰语?
问题:它和“他喝了三碗汤”在语义上等价吗?

马:
强调的内容不一样吧,前者强调喝了三碗的是汤不是别的,后者强调是三碗

我:
要挖出变式的 nuances,不如把表层结构包括词序的差异保存 等到落地的时候 由应用的需要来决定这种差异是不是有必要。脱离落地谈细微差别 及其抽象表达,容易莫衷一是 也容易丢了西瓜。

他喝了三碗汤
他喝了汤三碗
三碗汤他喝了
汤他喝了三碗
他汤喝了三碗
? 他三碗喝了汤
? 三碗他喝了汤

最后两个变式走在句法的边缘。

一个标签是 Mod,一个是 buyu,其余皆同,包括可分离动词合成词“喝汤”,表层结构的所有信息,包括词序,也都 accessible if needed。因为 parer 的内部 representation 通常是增量的、信息 enrich 的过程,除非是信息更新为了改正一个错误,过去的或历史的信息并不丢失。这也是我们以前说过的为什么休眠唤醒机制可以work,因为被唤醒的原始状态并没有丢失,一个子串永远可以重来,二次 parsing。推向极端就是,整个一个句子都可以推倒重来,因为原始的 token string 并没丢弃。当然,实际上的休眠唤醒几乎永远是针对句子中的一个子树,再糟糕的 parser 也不至于全错需要重新来过。

Topic 再进一步转为 S 就完美了,语义中间件还有细致的工作可做。

最后这两句句法边缘的句子不是不可能出现,但比较罕见,对于毛毛虫边缘的毛刺部分的现象,合法非法中间的数据,如果不常见,那就拉倒,parser 出啥结果都无需太 care,反正有做不完的活计,不值当在它们身上花时间。

【相关】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据