《一日一析:“你家的地得扫了”》

parse parse,用 PSG:“你家的地得扫了”

再 parse parse,用 DG:“打倒罪有应得的地主”

李:都是中规中矩的句子,没有难点。

白:分好词再玩这个游戏就看不出热闹了。要看就看怎么分词,分错了怎么找补回来。的地得,都有其他词性标注。在哪里、依据什么原则排除的。

李:不是特地分好词,词典分词的本来面目就是如此啊。不查词典,如何解析呢。到了的地得这种极高频小词,主要靠的也不是词性标注了,就是直接量。用法各个不同,量体裁衣。

李:“一句话用的地得太简单了,毫无挑战”。热闹来了,还真是挑战呢:

“的地得”三元组进词典,当然可以。刚才拼音输入 dedide,还真就出来了“的地得”,可见这个三元组入词典也算是理所当然的。咱们词典不够大而已。

“那就不好玩了”。可如果坚持不走词典化道路,还有啥好招吗?

“做大事不必考虑一城一地的得与失”。

这里的难点不在的地得,是条件紧缩句(NX)费点琢磨: if 做大事 then 不必考虑一城一地的得与失

(if) (you) VP1 (NX:then) (you) VP2

零形式,条件太不清晰。嗯,有点难,有点难。


@王伟DL: 三兄弟若是独立为词的话,可靠句法来分拨;三兄弟若是其中几个掛了某个强力词的一角的话,不太好办,保不准有把高强度词扯开的情况。

白:
白硕SH
3月3日 22:12 独立成词的“地”和“得”都不好伺候。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论