《一日一析:“你家的地得扫了”》

parse parse,用 PSG:“你家的地得扫了”

再 parse parse,用 DG:“打倒罪有应得的地主”

李:都是中规中矩的句子,没有难点。

白:分好词再玩这个游戏就看不出热闹了。要看就看怎么分词,分错了怎么找补回来。的地得,都有其他词性标注。在哪里、依据什么原则排除的。

李:不是特地分好词,词典分词的本来面目就是如此啊。不查词典,如何解析呢。到了的地得这种极高频小词,主要靠的也不是词性标注了,就是直接量。用法各个不同,量体裁衣。

李:“一句话用的地得太简单了,毫无挑战”。热闹来了,还真是挑战呢:

“的地得”三元组进词典,当然可以。刚才拼音输入 dedide,还真就出来了“的地得”,可见这个三元组入词典也算是理所当然的。咱们词典不够大而已。

“那就不好玩了”。可如果坚持不走词典化道路,还有啥好招吗?

“做大事不必考虑一城一地的得与失”。

这里的难点不在的地得,是条件紧缩句(NX)费点琢磨: if 做大事 then 不必考虑一城一地的得与失

(if) (you) VP1 (NX:then) (you) VP2

零形式,条件太不清晰。嗯,有点难,有点难。


@王伟DL: 三兄弟若是独立为词的话,可靠句法来分拨;三兄弟若是其中几个掛了某个强力词的一角的话,不太好办,保不准有把高强度词扯开的情况。

白:
白硕SH
3月3日 22:12 独立成词的“地”和“得”都不好伺候。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据