【李白之35:句法分析 bottom up 为基础,可穿插 top down】

Bai:
“老李把手不听使唤的徒弟骂了一顿。”
看点1、“把手”分词错误
看点2、“把+手”介词短语错误
看点3:谁的手?谁的徒弟?
“不听招呼”是非自主性状,和“把”天然矛盾。

Me:
这种东西没做过统计 究竟有多严重。统计性 值得不值得投入资源做 先放一边。可以从这类问题得到什么启示?有一个启示就是 也许我们可以适当地引入自顶而下(top down)的处理策略。很多年来 我们尝尽了自底而上(bottom up)的好处 以至于把它视为理所当然。Note 这里说的自底而上与教科书上的算法有所不同,教科书上的算法,无论自底还是自顶,指的是一层 parsing,我们说的是多层的自底而上处理。自底而上层层parsing 的好处包括鲁棒稳妥 靠谱接地气。层层推进有利分层和模块化 也有利打补丁。这些都是复杂系统难能可贵的重要品质。Having said that, 上面这类含有某种远距离搭配或关系的 cases 却可以设想一个 top down 的策略:

骂(一顿)【human】
--》把【human】骂(一顿)
--》把【rel-s 的 human】骂(一顿)

这个optional的定语从句 rel-s,可以自顶而下扩展为 【Subj Pred】,如此等等。这样一来,“手 不听使唤” 就中招了。

当年我们反潮流 反对 top down,根本理由是 top down 与主题先行一样 主观主义严重,隐藏的假设是说出的话都是合法的,所谓规范的句子。那么 我们从非终结节点 S  出发 根据有限的句式层层下推 就可以囊括所有句子。这种 top down parsing 是教科书上经典路数,但我们面对实际语料的时候,很快就举步维艰。后来把各种 subcat patterns 嵌入到 VP 里面,用词典主义(lexicalist) 细线条( fine-grainedness)来缓和矛盾,但仍然捉襟见肘,直到探索出多层的自底而上的 parsing 路线,才柳暗花明。
但必须承认,自底而上虽然条分缕析细致入微,却带有与生俱来的见树不见林的缺陷,对于远距离的结构把握不好。于是我们用拼拼凑凑或者打补丁,甚至休眠唤醒推倒重来的各种方法对此缺陷予以补救。

也许到了认真考虑如何“巧妙”结合两种路线的时候,bottom up为基础,适当穿插 top down。

 

【相关】

【立委科普:结构歧义的休眠唤醒演义】 

【李白对话录:从“把手”谈起】 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据