【一日一parsing:#自然语言理解太难了# 吗?】

白宫命令司法部申请紧急冻结今天华州政府在西雅图联邦法院申请到的总统冻结穆斯林七国入境EO的临时冻结令。
如果成功的话,临时冻结令将被紧急冻结令冻结,穆斯林七国入境继续冻结
#自然语言理解太难了#

wang:
李老师这是要把机器累吐血啊!
不太理解为何要和这类超长难句对上了。
以前只顾着忙着单句,对篇章理解终未敢有奢望。
恩,到时句法分析,感觉可以分成若干小句来分析也不错。
只要把前继跟准了,把大树搞成森林,由若干棵小树构成,而每个小树分析结果表达清晰准确。也是一种选择

我:
不是跟难句过不去,是 parse 着玩。现如今凡是遇到 “绝妙的中文”、,#自然语言理解太难了#  这类标题,就忍不住想,我 parse parse 会怎样呢(e.g. 《立委科普:机器可以揭开双关语神秘的面纱》)。是一种类似于软件工程上 stress test 的心态,人说难,偏试试,看极限在哪里。哭笑不得的结果有之。喜出望外的也有,以为难仔细一想其实不难。总之都会有启发。不特意为这些 outliers 去动手术。不值当。

特别心烦意乱的时候,啥招都不管用,只有调系统可以安神。明知系统是个无底洞,以有涯对无涯。killing time,一点儿也不殆。

白:
“这些泡沫包装糟透了。”
“这些水果包装糟透了。”

我:

“泡沫包装”作为合成词词典化了。

白:
“这些学生宿舍都没回就一头扎进了图书馆。”

我:

第一句差强人意,层次纠缠。知道病源,不敢确定该不该修理。分层这事儿,你不能占尽了它的好处,一点不吃亏啊。主要是衡量亏的大小,值得不值得去打补丁或做高危微调的动作。观望。有时候需要时间和新的数据去驱动和决策开发和维修。

 

【相关】

【李白对话录系列】

《立委科普:机器可以揭开双关语神秘的面纱》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

 

 

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据