《一日一析:“让不让我们上学的人见鬼去吧!”》

白:“他们还把不把领导放在眼里了?”

“把不把”,必选格介词加“不”构成疑问句。

N+ X++ N+,先由“不X++”与“把N+”结合,再由两个N+合并,其中后一个N+携带构式标签,符合白名单要求,进入合并merge操作。介词“在”,引导状语时是“S+/N”,引导补语时是“+S/N”。

李:他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了 ??

应该是等价的。说明选择疑问句,可以从动词的重叠式,转为副动词(介词、助动词)的重叠式: X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 — 开车去不去南京 — 开不开车去南京” : 貌似有细微差别。

“被他揍了 — 被他揍没揍 — 被没被他揍”??

介词重叠识别以后,就成为一个介词了,后面该怎么走怎么走。唯一需要注意的是,介词重叠得出的“选择疑问句 or-Question” 应该从介词身上,传递到谓语身上。这样就保证了 谓词重叠与介词重叠的解析,是一致的。

还有的助动词 “是不是”:我们去不去?== 我们是不是去?

“有没有” 也是助动词:他们去了没去?== 他们有没有去?

白:“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解,但独立副词不行:狠不狠抓,严不严打,难不难为情;*马上不马上动手,*狠狠不狠狠打击,*太不太硬……

对副词的选择问句,要在副词前面加“是不是”。

李:“是不是不方便”

* 不不不方便

梁:要不要马上动手?

李:是不是要马上动手?

马不马上动手?

梁:没这么说的。

李:听得懂呀,不留神这么冒出来 也是可能的。中文重叠式有时候真绝。

白:*立不立刻转账

李:“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ……

完成:有没有立刻转账;现在:是不是立刻转账;未完成:要不要立刻转账。

白:“让不让我们上学的人见鬼去吧!”

李:这个句子很绝,很绝。能注意到或想出这样例句的人很神 很神。句子“鬼” 啊。

让不让 (重叠式)vs 让/不让 (非重叠式)。试比较:

“叫不让我们上学的人见鬼去吧!”
“让不让我们上学,我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧!“

不好整:重叠式处理离词法较近,远远早于 VP 的句法阶段,二者纠缠的时候,除非特地做休眠唤醒,很难协调好。真要做,唤醒的思路是:让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句(imperative)语气不兼容。这是个唤醒的 trigger:不能够一边说 让还是不让 一个event 发生,一边又说这个 event 是祈使的。要祈使,就是定下了 event 的走向;要选择,就是没有定下这个 event。譬如:

“你给我滚!”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse,哈哈哈 果然中招:

这个解析“几乎”无可挑剔,until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ,这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气,无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒,可以搞定,但是显然不值得了。词驱动的休眠唤醒是定点解决问题,只要能落实到词,总是可以实现,虽然琐碎,实现起来其实不难,问题出在:1. 真地不值得:都是些长尾中的长尾,做了与不做,系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提,就是对于需要唤醒的另一条路径解读,需要有预见。

其实没人真地去做那么多“预见”,所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来,这个技术虽然机制上平台上可以实现,但没有有效的保证可以全面铺开,防患于未然。换句话说,对于小概率的长尾错误,值得做的方法应该可以 scale up,这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打,见到了才能想到去实现,这虽然比束手无策要强,但实践中也还是不能有真正的效果。词驱动就是零敲碎打,专家编码词驱动比愚公移山还要愚。

学习搞不定,专家又不够愚。难!愚公累了,不愿移山,能等得到上帝吗?

可scale up 的长尾处理案例也有, 譬如 成语泛化(所谓 “1234应犹在,只是56改”),大多可以自动半自动批量进行。得益于成语的 ngram 特性,可以让成语词典自动增加变元 实现泛化 而且不用担心损失精准。

其实,没有比愚公更渴望自动化的 —- 如果自动化能搞定的话。那天与@毛德操 说,我对于完全自动化存有1%的念想,奇迹很难发生,但是毕竟见证过奇迹的发生,譬如NMT。

白:前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看,“给不给”中招不?

“他给不给自己理发的问题还没有答案。”

无论如何,局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转,关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”,不用等到撞上南墙,只要先前的构式带上坛坛罐罐,速度立马下来。局部次优解没有睡死,还在梦游,梦游速度可以反超。

“打死人要偿命,打死人就不必偿命了。”
“打死了的人无法再说话,打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了,相谐知多少?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,讯飞AI研究院副院长。前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论