Deep parsing:每日一析

“西方人类比用得少,是因为西方的逻辑学产生的早。
t0614a
什么叫狗屎运?我的定义就是:遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。
严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。(S 是主语,Subj 是主语从句。)
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。

对于汉语常见的 NP+XP+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2) [Mod + S] Pred
(3)[S + Pred] +Pred
when the second element XP can be Pred (V, A, or deverbal N)
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论