《立委科普：NLP系统语义模块的任务》

本篇旨在探讨NLP（Natural Language Processing）语义模块的任务，尤其在知识图谱应用中。探讨之前，我们先站在万米高看俯瞰一下语义模块在语言学和NLP的主要模块的架构中位于何处。

语言学的教科书通常把语言文本研究从浅入深划分为这么几个分支：词法（morphology）、句法（syntax）、语义（semantics）和语用（pragmatics）。还有另一个维度的分支，叫篇章研究（discourse study），是跨句进行，其他的研究一般限于句内。词法句法的研究成果在 NLP 中表现为 parser，可以自动把线性字符串的语句分析为句法树结构，千变万化的语句因此化为有限的句型或 patterns，为语言理解和应用提供了坚实的基础。语义处于句法之后、语用之前，我们叫它为语义中间件 (middleware)，因为它是领域独立的语言研究的终点，支持的是依赖领域和应用的语用。这个语义中间件的任务也可以留到语用阶段在语义落地（semantic grounding）的时候根据语用对语义的要求来一起做，但是理论上，总有一部分语义工作有足够的领域独立性，值得提前做好，来支持种种不同的语用场景和应用，减轻语用模块的负担。

如此定义的语义模块（语义中间件），主要是寻找 hidden links，譬如隐含的逻辑主语、宾语等。这些在句法阶段没有显性表明，但是有足够证据去确定如何填补。填补的时候，一个是利用句法（显性的links），一个是利用 ontology，通常是二者的结合。词驱动（word-driven）来做，是一个很 tractable 的任务，是比parsing更琐碎但难度较低的工作，因为要结构有结构，要ontology有ontology（包括动态形成的ontology节点，譬如NE专名的分类），条件比纯句法分析模块只有线性的pattern可用，是成熟多了。其有用性还是不太清晰： argument 之一就是，如果 hidden 的语义重要，人为什么不用显性句法手段？即便在一个句子的选定的句法结构中，某个重要的语义难以显性表达，如果足够重要，人就会换一种句法结构在另一个句子显性表达出来。如果上述 argument 有一定的道理，那么不做 hidden 语义，对于大数据挖掘，应该不会有太大的损害。至少在大数据挖掘这样的场景，信息的冗余性足以弥补个体 hidden 语义的不全。在句法结束的时候，有些句子提到的 arg（s）并没有到位，可以说是不饱和（unsaturated）。语义中间件的任务就是把句法没有做全的不饱和的坑填得饱和，hidden links 建立了，于是就饱和了。如果句法模块和语义模块以后，仍然不饱和，就应该在 discourse 中去找。如果 discourse 中还是没找到，那么理论上是应该通过常识去饱和它。

回到万米高空俯瞰，昨天还在想所谓“语义计算”到底包含哪些呢。从 community 来看，相关的方面有：（1）WSD（Word Sense Disambiguation）; (2) FrameNet (role labeling); (3) IE（Information Extraction）。“经典”IE （MUC IE 传统）里面一般分 NE、relationship、event，外加 Coreference，等任务。从结构图的角度看，NE 和 WSD 是做 node 的语义计算；FrameNet 和 IE Template （for relationship or event）是做 arc （link）的语义计算。这样来看 community 定义的几个任务和方向，可以发现，（1）和（2）都是学究式的任务，不实用。（3）是最接地气的东西，是应用（apps）直接需要的。但是 IE 是针对领域的，直接为产品服务的，不好抽象，那么就可以想想什么东西是句法之后，语用之前，最能帮助 IE。其中之一就是 Coreference，这个任务已经被 IE 收编了，但它实际上是独立于领域的篇章（discourse）尺度的语义计算，是为了支持 IE 的跨句整合的。

沿着这个思路，我们还可以细化，根据实际需求，我们定义过三个任务，觉得应该在语义中间件里面做，它们应该可以惠及所有的应用：第一个是同位语关系，这个可以看成是 Corference之一种；第二个是部分和整体的关系（譬如，苹果和iPhone）；第三个原因和结果的关系。上述三个关系不限于句法短距离，也包括远距离的，甚至跨句的这类联系。我们一直在这三个关系，加上代词的coreference (包括专名的 aliasing) 上下功夫，比在 hidden 逻辑主谓宾方面更多，因为前者直接服务于 local IE 以后的 IE，以便整合成图谱，是整合的粘合剂，后者大多可以通过信息冗余去做弥补。

以上说的是实践中摸索出来的体会，就是自然而然这么走下来的。local IE 在抓取信息填 IE Template 里面的坑的时候，所看到的都是局部的信息，所填坑的材料经常很“虚”。虚的极端例子就是代词（“它”，“这个”），或者一些指代性的名词（“这台电脑”），这些东西只能作为桥梁，不能真正导致图谱。这时候语义模块在上述四个方面所做的工作，就可以帮助把这些虚的材料，变得实在，这是通向图谱的一个很重要的支持。

大而言之，语义中间件做到什么程度合适，有很大的争论空间。在确定应用之前，不少细线条语义进一步伸展没有太大意义，或者劳而少功。就是说在句法把结构的框架搭起来以后，在语用层面的具体应用确定之前，到底要做多少语义计算，不是容易说清楚的，直觉上和经验上，不赞成做得太多。从某种意义上看，费尔默创立 FrameNet 就是想把语义中间件进行到底。理论上，他的深入是有道理的，因为在 arg structure （句法subcat的拿手好戏）之后，如果要深入，domain independent 的 Frame hierarchy 是通向语用的深度桥梁。起码理论上如此。但是我们做了18年的 IE 以后，结论是，费尔默那个语义计算的路子基本是歧途。没感觉到啥好处，却带来了很大的 overhead，可操作性很差，也并不省功。IE 领域用 Template 定义语用领域的需求，没有人主张把这些 Templates 定义在 FrameNet 的 hierarchy 上面，因为感觉不到需要，而且也不现实。100 年后，也许 FrameNet 可以被重新发现，因为那时候的语用落地已经太多了，需要组织组织了。FrameNet 正好提供了一个组织和整合的框架，如今的语用落地都是零星的。

在立委牌 NLP University 中，能看懂上面这些参杂了些假洋鬼子话（术语）的“高阶科普”的后学，是可以授予学位的。这个学位是硬通货。看不懂也没关系，可以视为狂人乱语，或者是误入迷宫，不隔行也如山，耽误了你玩深度学习（dl）的宝贵时间。

【相关】

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

《泥沙龙铿锵三人行：句法语义纠缠论》

【立委科普：结构歧义的休眠唤醒演义】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

【置顶：立委NLP博文一览】

《朝华午拾》总目录