【李白之31:绕弯可以,弯不过三】

白:
“一定要在他家里没有醒过味来的时侯把生米做成熟饭。”
李:
词典:加入成语 醒过味来:
白:
填坑严重不全的,要减分啊……
“在他家里”这个,貌似掉进就近结合的陷阱了。
李:
“在他家里”不是主要问题,那个可以补救。“在” 本来就是可有可无的 P。
白:
在 和 时候 的间距,被你这么一弄弄短了。
李:
间距短不是问题,小词配对的目的就是把关系厘清。达到目的了,间距无所谓。“在。。。家里” 与 “在。。。时候” 是两个“在”共享了一个syntax。
白:
“在他家里还没有察觉到这一层利害关系的时候把生米做成熟饭。”
李:
白:
也是辖域问题
李:
“在” 比较特别,是个万能介词。做了补救唤醒,主语还是恢复了。
白:
“他家+里”,做主语的可能性就太小了。要是能搞成“他+家里”,就不一样了。
李:
关键还是怎样处置合算的考量。
“在(PRP)家里” 脱离上下文的时候 就是一个扩展的合成词。处置成更多做状语的PP 还是更多做主语的NP 就是一个强盗的规定。事实上目前的处置 “(PRP)家里” 已经是主语状语兼容了,因为方位词结构在汉语的确是大多做状语 像PP,少部分做 NP,因为方位词本身是从名词变过来的。可是前面出现了一个 “在”,因此就几乎决定了其状语特性 很难翻盘了。这时候再带入辖域的考量,说这个 “在” 被 overloaded 了,不能光看就近原则,它可能不就近。然后就要在两股力量里面去权衡。第一股力量是就近原则的  “在+方谓词结构”,非常常见。第二股力量是 方位词结构去填主语的空,这个其实不常见,因为主语是经常省略的。然后指望一个 “精巧” 的系统能在上面两股力量的权衡中,恰到好处地拿捏分寸,达到人的具体情况具体对待的灵活性。这样的要求不大现实 而且极易弄巧成拙。因为里面绕弯太多了,而且都不是确定性的。系统不能做得太精巧,正如人不能太聪明,有过很多这个教训。绕弯可以,但弯不过三是基本原则。
“弯不过三”是我实践中总结出来的开发原则。这个弯就是规则之间的 dependency。理想的系统,规则之间是完全独立的,相互不牵扯,这叫做“规则与规则分开”:否则规则系统就容易成一团乱麻,宁肯冗余,也不要把规则搅合在一起。但是,实践中,我们其实做不到完全的规则独立,分层处置的本身就已经隐含了某些规则之间的依赖关系(dependency):某些规则是 assume 另一些规则做了某事以后才有意义的。这时候,设计开发系统的时候,就需要一个原则性的掌控,那就是“弯不过三”。意思是说,相互牵扯的规则最多可以有三层,多于三层的,就违反原则了,容易造成系统的不鲁棒,最好不要到三层: a 依赖 b,b 依赖  c,这就已经危险了。c 如果 还指望 d 那就超出了系统逻辑链条可以承受的极限了。可以做出一个绕弯多于三层的系统,在某一个时候也调通它。但是这样的系统 几乎不可维护。弯不过三是针对具体规则而言的原则,并不是说 作为一个规则系统,只能做三层,那就太局限了。事实上 规则系统整体绕弯可以多达百层。至少几十层是常见的,那么在几十层的分层处理中,这个弯不过三的原则一定要坚守。模块之间总体的依赖不在此列,譬如做 PP 要求基本 NP 已经就位,做 VP (包括动宾、双宾、宾补等各种 subcat patterns)要求基本的 XP (NP,AP,PP,VG)等短语都已经形成,做主谓要求VP结构已经解析,等。
白:
为什么我的眼中昨天的把字句辖域和今天的在字句辖域是同一个问题
李:
因为你是从一个角度看,确实是同类问题。我说的不是辖域,辖域只是 弯不过三原则中的一个弯而已。如果这个弯与其他弯的交错中,造成了违背原则的危险,就要舍弃这个弯。
白:
都是介词跨定语从句,而且也可以规定跨不过三,那样的话同一个问题就可以在同一个框架下解决。
李:
你就是要说,有很强的可能应该: 家里还没有察觉到 –》 SVO,来让出那个 “在” 去找远距离的搭配。第一,“还没有察觉到”对主语的要求没有那么强烈。主语省略太常见了,以至于人类创造了显式和隐式的被动句。
“在还没有察觉到这一层利害关系的时候把生米做成熟饭”
上句没有主语,一样很顺:“还没有察觉到这一层利害关系的时候”。第二,“在 。。。里” 作状语,是压倒多数。甚至 “在 。。。家里” 也是压倒多数。这个是我毛姑姑 但八九不离十,可以统计验证的。第三 “在” 恰好遇到辖域的远近距离的歧义的情形,就是你现在关注的这个现象,其实没有那么普遍。这个也是我的毛姑姑,也许可以统计推翻。即便就这个辖域现象本身而论,远距离辖域控制 多于 就近原则的可能性有多大?感觉不超过一半。
白:
定语从句中,本来就有缺项,主语再省略就有点过了。所以,正常主句中主语省略状语强化占优我认,但定语从句中应该是主语填全状语弱化占优。
李:
听起来有理,但照你这些说法做,总觉得走偏的危险大。
白:
顺手而已
李:
感觉是属于过分聪明的思路。你又增加了一个维度: 主句 vs 从句。而且用 “占优”  这样的不确定性的平衡。说来归齐,主语和状语弄错了 有什么大后果么?
白:
填坑角度,这都是应有之义,根本就不用加维度。
李:
其实主语宾语弄错了 都没啥后果。因为主语、状语和宾语都是姐妹节点,都与 parent 有直接亲属的关系。弄错了,对于 IE 抽取,没啥影响(对于 MT 可能有些影响)。这是从语用考量。
白:
不是的,他家+里,没有这个意思。
抽不出来。
李:
从句法考量,就是一种关系弄错了,多大程度上影响其他部分的 parsing。如果影响小,就无所谓。在上面的例子中,是没有影响。第三个考量就是,弄错了,真要翻盘,可以不可以,就当是休眠了,可以唤醒不?当然可以唤醒,都是儿女,不过是标签有误,要翻等句法完成以后也可以翻。我不把句法看成是最终的语义理解,更多是把它看成桥梁和标配的语义理解。作为桥梁,有了架子,怎么改都可以,因为句型清晰了。作为标配,翻盘自然也是可以的。
怎么抽不出来?那么 “难过” 是怎么抽出来的?不能因为 “难过” 不是 “难/过”,于是作为非情感的后者就抽取不了?一样可以抽取,抽取出来说,标配错了,这个不是 sad 的情绪(emotion),这个是客观的困难(negative behaviour), 虽然都是负面的东西,情报上我们是当作不同的情报来抽取的。后者是 actionable insight,前者不过是情绪而已。
白:
翻盘多了,线速就是个笑话。
李:
QUOTE: Countless lessons learned over the years in the NLP system development show that a robust real life system should not be too sophisticated just as man should not be too smart.  As a rule of thumb,  anything involving more than 3 levels of dependency is too delicate.  You can “make” it work today, but it will break some day.
基本上如此。
翻盘是聚焦以后的动作,都到了雷达上了,还有什么可以影响线速?长尾在语用层面成为短尾了。这个以前论过。指望句法做长尾是劳民伤财,吃力不讨好。句法对长尾能有一个相对 “合理” 的安置,就已经很尽心了。譬如 都是 children,但是主宾有错位。其实,宾语很少错,主语有逻辑宾语的可能,不过是多了一种可能而已,对于语用是小菜,谈不上影响线速。譬如 我有一条语用规则要查宾语,instead of 查宾语,我不过就是查一下 “宾语 OR 主语” 而已。这个怎么可能影响速度?搜索空间没有任何实质变化。

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论