【李白雷54：句法语义纠缠论】

白: @wei 微博上的讨论很有代表性。

李: 看到了，这个错误放大（error propagation）的问题，我以前也讨论过。很多人是杞人之忧，包括雷司令。@雷你上次说到，parsing 需要准确才好做知识图谱。还说差之毫厘失之千里，其实完全不是这样子的。估计你是深陷在你的 parser 里面，还没有真正放开手做知识图谱的工作。

说句实话，所有的抽取工作，对于 twitter 和微博这样的短消息的细线条的舆情抽取是最难的，知识图谱这样的工作比起前者简直就是 piece of cake.　我们跟舆情奋斗了这么几年，比较了一下里面的复杂度和tricky的地方，也比较了里面实现的规则，可以说，最难的果子已经吃过了，剩下的大量的知识图谱类的抽取挖掘关系，在 parsing 的基础上，就是一个单纯的工作量的问题，没有门槛，没有难度。

信息抽取中的两大类，一类是客观事实类抽取（关系和事件），针对的是客观语言（objective language），这就是知识图谱的主要内容。另一类是舆情抽取，针对的是主观语言 (subjective language)，情绪和评价类。后者的难度高出前者太多。

客观事实类抽取包括：专名 NE, 这是做基础的工作。下面就是在这些NE之间找关系（relationships），找事件（events）。为了抽取出来的东西可以整合（fusion），为挖掘服务，里面还有一些 CO （coreference）的工作。

雷: 知道Watson是怎么抽取相当于100万书籍的知识吗？

李: 上次我就说，如果主语宾语弄错了，那么按照错误放大的说法，抽取是不是就一定做不了呢？答案是否定的。parsing 错了，也可以支持抽取。只要错误是可以预见的，错误不是全方位的。

推向极端就是 @白老师的“意合”系统。你看，根据词和词的　semantic coherence 的某种模板，甚至没有 parsing 都可以做。何况有了 parsing，不过是 parsing 偶然断链，或错置呢？有很多弥补 parsing 错误的手段可以在接近产品的层面施展，包括 domain knowledge 和 ontology。

雷: 我做过英文文献的药物副作用的抽取。严格的svo，结果不错。但我的感觉是，如果parsing再准确一些，结果会更好，而且事后的处理要少很多。这个仅仅是我的感觉。

李:　再准确也不能完美，主要还是思路要转变。

提高准确性是一个 incremental 的过程，而且一定会遇到 diminishing return 的两难。关键是在做抽取的时候，要知道，利用 node 的信息，可以弥补 arc 信息的不足。node 就是词，arc 就是句法。句法不够，词来补，因为词本身就是语义的最基本的载体，里面可以玩出很多名堂来，包括 ontology。

雷: NLP像地基，如果结实，可以起高楼。后续的修补要少，后面的工作就是建立FACTS，问题是战线要拉多长。

白: 意合法从来不拒绝partial parse tree，句法有什么拿什么，没有也憋不死。

李: Parsing 当然是地基，地基好了一定省力，这都没错。这么多年鼓吹 deep parsing 就是基于同样的理念，因为业界的 parsing 太 shallow，没有地基。中文NLP 玩了那么多年的业界，谈起 NLP，默认就是切词，或者在切词上做一点啥，譬如 base NP。

雷: 事后修补也是对的，这个在认知心理学中也有证明。但是，这种事后修补在认知中不是大量的。工程的探索和应用是一个方向，认知上探索也是一个方向。

李: 白老师，严格的说，不是句法与语义配合到怎样的比例才做好系统。我们实际上是说，显性形式和隐性形式怎样搭配（参见【立委科普：漫谈语言形式】），才能出一个高效的NLP系统来。可以简单地用句法手段来代表显性形式，语义手段来代表隐性形式，但是说句法语义容易歧义，不容易讨论清楚问题。所以上次，白老师提到 POS 有时候有害，不如语义分类好用。其实白老师说的不过是粗线条的隐性形式POS（一共就给词做10多个POS分类）和细线条的隐性形式（成百上千的语义分类），后者对于汉语分析的重要性。这个没有任何疑问，因为说的都是一家：隐性形式，都是语言里面看不见的形式，都是人必须在词典了给出的 tags，或者需要专门模块去给的 tags。所以我说，再纯粹的语义系统，只要是为工程用，就绝不可能放着显性形式不用，而去舍近求远地依靠隐性形式的语义。只有理论研究，可以放弃显性形式，因为放弃了显性形式，可以从理论上做出一个 universal parser，它可以 parse 人类任何的语言。显性形式（词序，小词，词尾和其他语缀）是 language dependent 的，只有剔除它，才可以做"纯粹语义" 的系统。

雷: 同意，不能放着有用的信息不要。我觉得模拟人的认知可能最是捷径。

白: 前提是，句法不能挡路，不能说你分析不出来了还不让语义按自己的逻辑往前走。

李: 还有，纯粹语义系统肯定不如显性形式可靠。在显性形式可以决定的时候，没有语义（隐性形式）出场的必要，它只会添乱。乔姆斯基的 Green ideas 的伟大实验就是要证明，显性形式能够做决策的地方，语义和常识都失效了。汉语中，“铅笔吃了我”，“铅笔把我吃了”，就是又一例证。绝对不会因为有了隐性的语义格框：动物-吃-食物，就可以用来解决 “铅笔吃了我” 这样句子的语义，这时候是（显性）形式的句法所决定。这样的句子就是显性形式词序或小词“把”在主导，没有语义（隐性形式）出场的空间。再举一个有力的例子，在有显性形式的格标记的语言，宾格基本对应的就是宾语。没有一个 parser 会不利用显性形式格标记，来做分析的。因为它明明告诉了“我已经标注好了，注定要做宾语”，你有什么道理要按照[动物-吃-食物] 这样的语义框格去找宾语呢？

白: 注定的话也不要说绝了。在幽默或修辞的场合，会来翻旧账的。

李: 意思你明白的。

雷: 语意是一个没有学过语言学的人可以说上一些东西的，但他很难说语法的东西

白: 你说的那不叫语义学，叫学语义。

小词本身也携带语义信息、结构信息，比如“的”。为什么我说从语义角色指派的逻辑上看“这本书的出版”和“这本书的封面”有很多共同之处甚至本质上相同，就是因为它的回环结构。

雷: “这本书的出版”和“这本书的封面”的相似度又有什么计算方法吗？

白: “出版”有两个坑，“封面”有一个坑。“的”是提取坑，不管一个两个，不管动词名词形容词。

雷: 出版与封面在wordnet上有什么近似度吗？

李: 你那个“的”是提取坑，我搞不明白。出版是逻辑动词，封面是逻辑名词，迥异。

雷: 封面是没有坑的，有属性，封面是一个class，坑是method提供的。

白: 有坑，part-of，是什么的封面

李: 这是一个 single-arg 的坑，partof 和 wholeof 互为坑。语义面上的，不是传统句法subcat上的坑。

白: 对，一价和二价的差别，如果规定从右边的变元提取，就没差别。右边饱和了，就往左挪。及物动词填掉一个宾语，就成了不及物动词。与此类似。

李: 具体谈一下这两例。结论是？

“的”作为显性形式的小词，其提取作用，与英语小词 of 和 's 类似：

translate A into B --> translation OF A into B
A's translation into B
a book's translation into B
a book's title

白: “的”的定义，就是f(x1，x2，……，xn)的xn，你给我一个f，我就给你一个xn

雷: 以面向对象的模型类比，class，method，和attribute，书是class，封面也是class，但封面又是书的一个attribute。

李: 一般的关系分析并不深入到“partof”这个级别。一般遇到 “的” 或者英语的 's/of ，就是粗线条分析到 Possessive 这一个包罗万象的关系为止。这本书的封面，粗线条就是，“封面”属于“这本书”。而“这本书的出版”则不用，所有的分析都指向动词的 subcat。

白: 粗线条对于汉语不行。汉语有显式的句式与part-of有关。

李: “这本书的出版”，只是利用了小词“的”，把动词名词化，与动词直接加宾语，分析同：出版加宾语，通常在右边，这是一条。变式就是：可以名词化，用“的”，宾语前置。

白: 比如 “老李把脚冻肿了”，缺省是老李的脚，不是别人的脚。

李: 那是，不过这个分析真地太细。

雷: 老李的脚是一个NP

白: 老李的脚，老李的讲演，老李的意见

李: 缺省是老李的脚是常识，否则就会显性的把别人的脚表达出来。英语 “撞了我的头” 常常是：hit me on the head，这个 the 缺省的就是 me。翻译成汉语就用显示的 possessive。

雷: 老李的人的概念，提供属性与构成结构

白: the有anaphor的功能。

李: the 不过是显性地标注了 anaphor ，汉语没有 the，默认的还是 the，而不是 a。凡是一个名词表示非限定的含义的时候，其汉语的用法和条件相对来说，比较可以找得出来。而默认的 the 的含义，不太容易找出条件来，所以默认是个好东西，不需要去定义外延，外延靠别的东西去定义。

雷: 昨天不是有一个language universal的帖子吗？相近原理。

白: 看看汉语讲故事怎么讲：从前有座（a）山，（the）山里有个（a）庙，（the）庙里有个和尚讲故事。

李: 对，我们其实有 a，但常常没有 the，于是 the 是默认。量词是 a，"某" 也是 a, 我们甚至直接用“有”来表示 a （“有人”昨天来讲课了； “有部件”坏了--》一个部件坏了）, 当然还有”一“，也可以用做 a，所以汉语表示 a 的形式手段还蛮丰富，因此就不需要 the。the 是默认，实在还是不清晰，就用 ”这“、”那“ 等指示小词来强调一下限定的语义。

白: 都是不带形式标记的anaphor

雷: 细致的坑是ontologies的。parsing中动词和形容词有坑就可以了

李: 传统的 subcat 的坑是粗线条的，里面映射的可以是细线条的语义约束的坑。语义模板与 subcat 的关系。

白: anaphor 的 trigger 必须带坑。本身共指，或者 part-of 共指。记得 Winograd 讲过一个例子，一个小孩得到了一个礼物。当他打开（the）盒子，发现……。盒子就是装礼物的盒子，用the勾连起来。

李: 恩

白: 咱汉语里都是隐形的，于是“盒子”作为 “坑的 provider”，必须写到词典里。封面，也一样。

李: 恩，封面的优先主人是谁的信息在词典里，针对的是出版物。

白: 出版的受事坑，恰好也是。所以用的，一提取一个准儿。

县长派来的，比这复杂，因为"派"和"来"各自提供的坑，被一个“的”给提取了。或者说，"派"和"来"，经过了一次内部整合，统一一个坑对外，被“的”给提取了。派是兼语动词（三个坑），来是不及物动词（一个坑）。但是“派”最左的坑被“县长”填充，饱和了。“派”的另一个“事件”类型的坑，只能接受“来”。于是剩下的那个类型为human的坑，与“来”提供的类型为animate的坑，统一对外了。

李: 很有道理。填坑最好的是只有唯一的候选人，没其他可选。最麻烦的是要动用语义优先。语义优先可以作为知识，预先学出来或标出来，或半自动，先学后标（postediting）。可是在使用现场需要层层松绑，想想就头大。遇到结构歧义（不是伪歧义），还不是松绑的问题，而是对比的问题，要看三角恋的三方，哪一对最有 chemistry。松绑只是对条件按照 taxonomy 去有步骤放宽，而对比不是，对比需要动态的看随机配对的力量对比。不是不可做，是 overhead 太大。如果不考虑 overhead 和实用，力量对比的评判比层层松绑更容易，因为前者是二值的，总有一个吸引力更强，后者是趋于离散的。

【相关】

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复