【李白之38:叫NLP太沉重】

没有规则的文法是怎么回事儿?

白:
“这件事非他莫属”,这种情况下“他”填谁的坑?

李:
填坑,从句法角度没有疑问,“这件事”是句法主语,“非他莫属”是谓语。如果主语是行为,采纳董老师的处理,把句法主语转为逻辑谓语,把句法谓语中的“他”提出来作为其逻辑语义的施事。如果主语不是行为,那么可以相应做一些逻辑语义表达(semantic representation)的调整,其中之一是,把该名词的“标配”动词作为省略成分提出来,“事儿”的标配就是“处理”或“做”(DO)。然后逻辑施事照旧。

“这件事非他莫属”
==(只有)他(能)DO(这件事儿)

这些个鸡零狗碎的处置,说到底都是自己跟自己玩儿。这里的所谓语义表达和语义落地,在pattern确定之后,我们其实心里都明白其涵义了,只不过需要用一种容易记忆容易处理的方式把“语义”表达出来,让人类看着舒服。其实这都是小事儿,属于 parsing 的 side effects,怎么方便怎么来,无一定之规,系统内部自足即可。关键不在作为 side effects 的 output,而在于什么样的 pattern 、什么样的条件与 input 匹配合适,匹配完了既然并无歧义,总能找到一个语义表达的出路。后面的考量也就是为了“好看”而已(就好比软件工程中很多内部数据结构表达出来要pretty print一样)。

白:
“拉小提琴他最拿手了”“去北京他最合适了”“喝白酒他二两就醉了”
这是一种很常见的格式,不是因熟语而发明的,熟语只不过往这上面靠而已。

李:
看电影他爱打瞌睡
做报告他出口成章
举样例他偷梁换柱。

白:
在我的体系里,这是一种已经在局部填了坑的萝卜,在满足一定条件的更大范围内又被再利用而已。

冯:
这是紧缩复句。

白:
在我这里是merge的一种。两个互不隶属的谓词的坑共享萝卜,都是merge。

冯:
merge也就是紧缩了。

白:
如果前面只是NP,就降格为状语:“这件事他最拿手了”当中“这件事“为状语。N降格为S+

李:
白老师的句法里面,“填坑”对应的是文法的arg,“修饰”对应的是mod,“合并”貌似对应的是conj或者comp,其余两个针对token自己的操作,不对应dependency的结构关系。这与词驱动HPSG有相当的吻合之处。

白:
可以认为有一个隐性的token

李:
HPSG 也声称只有词的结构表达,没有一条条文法规则,只有几个 schemata 或叫 Principles,其中一个是针对 arg 的 连接原则。另一个针对的是 mod。

白:
他还是用PSG作拐棍儿。我连小词都是负载结构的。

李:
如果仔细看那个根据原则而来的schemata,基本没啥内容,就是一点最抽象的关系限制。说的是,如果一个 token 要填另一个 token 在词典的 subcat pattern 里面规定的坑,除了所有规定的 features 必须能 unify 外(这个可以比喻为情投意合的自由恋爱),另外还有一点原则性限制(这个可以比喻为婚姻原则:譬如传统的婚姻原则必须是异性之间的结合,否则不发证书,也就是原则层面不允许结合,即便双方情投意合),加上一些子结构数据的 sharing 的规定。这个跟白老师声称没有规则,只有子范畴,以及根据子范畴的 parsing-runner 的抽象算法是同样的精神。当然,HPSG叠床架屋的数据结构以及PSG与生俱来的组合爆炸低效率以及伪歧义困扰,也许已经被白老师解决了。

白:
我没有组合爆炸。复杂特征集不是好东西,扔。

李:
我同意。可是一开始用会入迷。逻辑上很清晰、细致和美丽。可以把语言的任何单位模型成一个非常飘逸的玉人一般。

白:
严格限定只解决谁跟谁有关系,若非搂草打兔子顺手,绝不碰是什么关系。逻辑主宾语分不出来是本分,分出来是情分。

李:
这个分不分就是一个阶段的问题。本质上是所有的 args 都是 arg,这个上位概念是一致的,arg1 还是 arg2,还是 arg3,subcat 可以进一步去规约。

白:
隐性介词不知道什么格是本分,顺手安一个非他莫属的格标记是情分。

李:
到了语义层面,必须去进一步去区分。

白:
在检查相谐性的时候,有些角色已经跑不了了。这就叫搂草打兔子但是还有漏网之鱼,句法层面不 应该care。

比如“这场火多亏了消防队来得及时”里面,“这场火”前面有个隐性介词,知道这一点就够了。是啥介词管他呢。

李:
有人问,没有规则怎么能叫文法呢?这里面的trick就在,并不是没有规则,而是规则隐藏在词典里面了。本质上是词驱动的规则集,构成了词典主义的文法。如果这种规则的隐藏,不以大家通常习惯的显性的产生式(productions)的形式表现,而是以一套 lexical features 来表达,无论是 HPSG 那种非常精细繁复的 typed feature structure(表达形式是所谓 AVM, Attribute Value Matrix),还是白老师那种简省的原子化(atomic)的 cat 或 subcat的标注,那么就给人一个本文法无规则的“假象”。

没研究过这类parsing的人可能还是疑惑:无论如何,没有规则,只有features,那怎么做parsing呢?这事儿说玄也玄,说白了就是一层窗户纸。任何一个 parser 都是要对input文句做操作的,这是无论声称有规则还是无规则的系统,都必须要有的一个部分,我们通常称之为runner,可以形象地比喻成一个scanner。诀窍就在这个runner是怎样在run(parse)文句呢?在产生式的显性符号规则体系里,靠的就是对这些规则的解释(interpretation)或编译(compilation)。这个过程比较直观、可解析。在隐藏了过程性产生式规则的体系里面,runner怎么工作呢?回答是靠文法或模型自然不错,但太笼统。说就是靠词典里那些features的标注,先判你一个不及格,因为你没说明标注怎么转化为解析器(或自动机)的,里面还缺了啥。

歇口气儿,群里面的后学(NLP的fresh博士啊博士后啊啥的)不妨当成一个家庭作业,试着回答一下这个问题。不要以为NLP就是神经,或深度神经。除了神经,就没有NLP了。Parsing 是 NLP 的皇冠,如果只懂神经,不懂 parsing的基本原理和理论,你可能在工作市场上大卖,你也可能确实用神经做过parsing的工作,但AI这股热浪过后,你会发现叫自己是NLPer太沉重。

当然,我们这些还没神经的人,其实也是叫NLP太沉重,不过是倚老卖老罢了,反正我们终归是要退场的人。现如今不神经的话,都不好意思说自己是AI圈的人。认真说,隔行如隔山,行内也隔山,这是AI里面的真实写照。不隔山的全能的人有没有?肯定有,群主白老师就是。但90+%的大牛都不是,这也是事实。

Nick:
伟哥这是被人欺负了吗?

李:
哈,欺负个球啊。信笔写 想到哪里写到哪里,神经=NLP的感慨而已。炼到我这功夫早已百毒不侵了,谁欺负谁呀。把一个算法上升到一个领域,这是概念混乱。这种怪相你学AI历史的应该给个说法。

邓:
我觉得咱们开放心态看待会比较好,一个算法如果让一个行业上了一个大台阶,是会在一个历史时期称为这个行业的代名词的。听其言察其行。

阮:
要么理论上碾压,要么实验或系统验证。要么更有权有势。。三点都不占,就只能忍了。

马:
不为了深度而深度,也不不为了深度而不深度。我们组基本没有神经。

李:
我脑袋是parse不过来了,这口令绕的。

当然可以为神经欢呼 鼓吹 毕竟人家有实绩在那儿(图像、语音、机器神译)。问题不在其崇高的行业地位,而在于这种地位所带来的一种默认意识:(1) 只要是AI和NLP的任务,神经不仅仅是首选,而是是必需;(2) 甚至是,如果你不神经,就会异样地看着你:怎么可以不神经呢?(3) 还有很多问题,根本没有任何证明,神经可以work,但是行内和行外的压倒意识是:(i) 神经一定work,(ii) 而且非神经一定不work,或不值一提。

陈:
讨论的人也很神经

李:
这种观念是如此之深厚顽固,以至于你即便可以证明非神经也一样工作,或者工作得更好,也基本没有人听。这时候你才知道所谓科学家,其实一大半不如没文化的暴发户,因为暴发户至少有常识,懂得白猫黑猫,暴发户没有被洗脑。这个观察不是从神经流行才有的,至少20多年的体会了。

阮:
科学,越年轻越好,大家喜欢看到新方法而已,目前确实没看到其他新方法。

李:
一个人不可能抗拒一个世界。所以生存之道不是试图说服、试图证明,这些基本都没用。生存之道就是:(1)与暴发户为伍,不问姓社还是姓资。挖煤给钱就行。(2)另一个生存之道就是:挂羊头卖狗肉,努力靠拢,不管真心还是假意。无论是否真能融合,永远把羊头当成菩萨

 

【相关】

《朝华午拾:在美国写基金申请的酸甜苦辣》 

围脖:一个人对抗一个世界,理性主义大师Lenat 教授 ..

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据