Bai:
“老李把手不听使唤的徒弟骂了一顿。”
看点1、“把手”分词错误
看点2、“把+手”介词短语错误
看点3:谁的手?谁的徒弟?
“不听招呼”是非自主性状,和“把”天然矛盾。
Me:
这种东西没做过统计 究竟有多严重。统计性 值得不值得投入资源做 先放一边。可以从这类问题得到什么启示?有一个启示就是 也许我们可以适当地引入自顶而下(top down)的处理策略。很多年来 我们尝尽了自底而上(bottom up)的好处 以至于把它视为理所当然。Note 这里说的自底而上与教科书上的算法有所不同,教科书上的算法,无论自底还是自顶,指的是一层 parsing,我们说的是多层的自底而上处理。自底而上层层parsing 的好处包括鲁棒稳妥 靠谱接地气。层层推进有利分层和模块化 也有利打补丁。这些都是复杂系统难能可贵的重要品质。Having said that, 上面这类含有某种远距离搭配或关系的 cases 却可以设想一个 top down 的策略:
骂(一顿)【human】
--》把【human】骂(一顿)
--》把【rel-s 的 human】骂(一顿)
这个optional的定语从句 rel-s,可以自顶而下扩展为 【Subj Pred】,如此等等。这样一来,“手 不听使唤” 就中招了。
当年我们反潮流 反对 top down,根本理由是 top down 与主题先行一样 主观主义严重,隐藏的假设是说出的话都是合法的,所谓规范的句子。那么 我们从非终结节点 S 出发 根据有限的句式层层下推 就可以囊括所有句子。这种 top down parsing 是教科书上经典路数,但我们面对实际语料的时候,很快就举步维艰。后来把各种 subcat patterns 嵌入到 VP 里面,用词典主义(lexicalist) 细线条( fine-grainedness)来缓和矛盾,但仍然捉襟见肘,直到探索出多层的自底而上的 parsing 路线,才柳暗花明。
但必须承认,自底而上虽然条分缕析细致入微,却带有与生俱来的见树不见林的缺陷,对于远距离的结构把握不好。于是我们用拼拼凑凑或者打补丁,甚至休眠唤醒推倒重来的各种方法对此缺陷予以补救。
也许到了认真考虑如何“巧妙”结合两种路线的时候,bottom up为基础,适当穿插 top down。
【相关】