《李白113：白老师秘密武器二瞥（2/2）》

立委按：两载设计，三载实现，白老师的自然语言秘密武器日前曝光。十载孕育，如水流年。挑开面纱，犹抱琵琶，先者为快，一睹芳颜。

李：其实语言理解过程中究竟用到哪些知识，并不难确定。难的是这些知识如何加分减分打群架。

白：人理解时也不过是在打群架，没高明到哪儿去。

李：如果不给设计师束缚，所有的知识都特征化，不限定范围和多少。然后假定神经可以搞定这些特征，那么符号逻辑实际上只剩下符号特征化的工作。逻辑由神经管了，果如此自然语言理解离开终结就不远了。

白：不对。逻辑有两部分，一部分是有限的可选择的操作或变换，另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励，而所选择的操作的轨迹，是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略，这三者，我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结，更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李：设想对话场景：

A: 他要求我出示身份证
B：你出示了吗
A：出示了，结果没通过。
B：为什么？
A：因为他是检疫官，要求我出示我宠物的身份证。我以为他是警察，要求出示我本人的身份证呢。
B：这才叫场景的阴错阳差！你过的哪道关都没搞明白。

再如：“监护人向我出示了身份证，是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来，这就带来两个问题：

第一是，因为是常识、常理，而不是语言明确指明的信息，这些 hidden links 即便挖掘出来，也仍然是不重要的枝节边缘信息，更谈不上情报价值，因为一般人根据已知信息都可以推算出来。

第二是，因为是常识、常理，因此肯定有例外。例外常源于场景和背景的不同。如前面的对话场景的思维实验。

白：打群架好了，神经最擅长。

李：既不十分可靠也没有新意也许意味着常识介入理解应该有个限度。如果常识的带入，是帮助确定了情报，那就物有所值。如果常识的带入，不过是反过来为常识增加一个案例，信息还是常识，那就没啥意义。

白：

1，情报又不是落地的唯一领域。

2，即使情报，三个link有情报价值，一个link是这三个link的常识推论，那这推论人做还是机器做大不一样。你先抓到那三个links，人聚焦了看，然后人得出推论，黄花菜都凉了。机器直接得到四个links，能一样吗？

3，推论重要还是那三个重要，这得情报人员自己说，NLP不应该越俎代庖。常识是带变量的f()，只要里面的x是新的，f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的，张三职务属性值就应该变化为新的。就算常识是旧的，有常识和新事实共同参与的推论也是新的。另外，疑似知识、打过折扣的知识并非就没有意义，只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李：有一定道理。

@白硕他要求我出示身份证 / 他向我出示身份证。“出示” 一般认为是 3-arg：sb “出示” sth to sb： SVOC，现在看来这个补足语萝卜 C（嫡系）是被当成附加语（庶出）了。这不是主要问题，问题在 hidden links 因此也漏掉了。“他要求我出示身份证” 中，“我” 连上了 “身份证”，但是 “出示” 没有连上 “他”。逻辑语义上向谁出示呢？是向他的。

白：改成双宾了。这情形更可预期。

李：”他为/替我出示身份证”，“为” 与 “向” 的区别在句法如何利用？小词不同，句法有表示吗？还是指望接盘的一个一个小词重新 check 来做区分？

白：小词会携带算子，把动态特征贴到自己修饰的成分上。目前只能说这么多。比如，一个“的”，无所谓跟谁相谐。但是“张三吃的”就必须明确自己的subcat。

李：fair 就是说显示出来的 what 只是个架子，不是输出的全部。这其实是自然的。如果不在 link 上细化，那就在特征上细化。反正信息需要下传。

双宾句如何处理的呢？譬如：

他送了我一本书。
他把一本书送了我。
他送了一本书给我。
他给我送了一本书。
那本书他送我了。
那本书他送了我
他送一本书给了我。

白：

双宾句式，双宾句式加明示间接宾语的介词短语的互通，我们已经做得很透彻了。

李：两个 Lma 一个 Rma，等于是三个 args 句法都不做鉴别。下面接盘的，依靠什么来区分，去做 123 与 abc 配对。

白：这个自有办法。分母上的数字只是显示

李：怕下面接盘的还要回头做部分句法

白：不需要，句法信息都带进去了。

李：句法上 Topic 与 synS 不区分，但是偏移量有区分，也算等价了。怎么知道 “我” 不是 O，“书” 才是 O 呢？

白：书有subcat信息，还有Default位置信息。如果O的subcat跟S兼容而且相对Default有变，比如O提前做了话题，那就取决于右填坑的间接宾语的事理因素了。

这个丫鬟我送你了。

这位夫人我送那个丫鬟

取决于夫人和丫鬟在事理中的地位。这个绝不是句法单独可以做的。加上subcat也不行，所以目前我们做不了。只当default位置是O，啥时候事理做了进来，就有希望了。

李：句法为谓词选了萝卜候选人，萝卜进坑的事儿归后面的语义模块，所以后面的任务仍然蛮繁难。因为萝卜进坑仍然需要综合平衡，语序、小词和语义相谐，综合平衡才能基本搞定。更难的要借助事理。

白：哪个对哪个，特别是subcat也区分不了的时候，目前没有足够的资源。NLP的魅力就在这里。好在方向基本是看清楚了的，见效取决于投入。要想糊弄人，做个玩具事理图谱也能蒙一阵子。不过我们不会这么做。事理图谱一定要结合应用场景做。不见兔子不撒鹰。

李：”吃在买后“ 这样的事理，HowNet 没有：HowNet 主攻本体常识，一般不带入动态场景的形式化。真正规模做过“场景常识”的只有 cyc，“开枪” 在 “伤残” 之前之类。但以前的教训依然存在，其数目实在太大了。

白：吃、买太具体了，模式是“消费在取得后”，消费是吃的上位，取得是买的上位。如果仅看到具体事件对具体事件的因果联系和承接联系，那还不累死。要把事件的Taxonomy像实体一样组织起来。赋予抽象度适中的标签。事件的诸多要素，都要纳入这个体系，参与者、时空特性（时-体）、事件类型的包含与继承、关联类型的包含与继承，触发条件、副作用……不一而足。这是目前聚焦事理图谱领域的各个利益相关方都极为关注的。

李：“我洗脸”，英语总是说：我洗我的脸（I wash my face）。中文解析，根据常识，可以推算出“我的脸”。感觉上人的理解中标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义这个“脸”属于“我”都很难成为情报焦点。

一般而言，感觉上 possessive 的 hidden links 情报性最差，在有冠词的语言，possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体（语言学里面叫 anaphor）理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”，虽然有个主儿但这不重要。

白：不同源头会带上不同约束，使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”，这李四要是有什么来头，情报价值还真挺大。张三是个代笔的小人物，张三的自传不重要。所以谁的自传，不简单。

李：从性质上看寻找这类所有者属于篇章的 coreference 范畴，而 coreference 的工作，句法有一定影响（binding theory 说的就是句法对于 coreference）。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把一个实体对于其所有者的预示与一个谓词对于一个 arg 的期望等量齐观，有点高抬了前者。

白：优先级不一样。

对范畴语法做了重大简化，跟依存很接近但比他更丰富。分析结果可以不是树而是图，图还可以成环。图更科学，更反映语言实际。

带加号的句法标签，可以看成是“只约分不输出”的范畴。每次完成约分，就废掉自身，以保持中心语的正统地位。

李：就是 adjunct/mod，庶出，跟私生子也差不多，投奔过来又不能不认，但上不了台面。

我的理解，DG 与 CG 性质不同，DG 是一种结果表示法刻画的是output what，CG 却带有 how 的味道表示和刻画 input tokens，可以据此演算作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 CG 驱动以后，在遇到叉口的时候求助于其他知识的引入，主要是语义相谐的调用。根据一个优先原则和有限级计算的机制做路径判断然后完成 parsing。如果不怕伪歧义也可以只依据 CG 词典与优先级原则而不引入其他知识。

这条路线的搜索空间（universe）是句子长度 n 的这样的一个函数：可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向（父父子子），所以“原子化”后就是6种实关系，即，是二元排列不是组合。第7种是：无关系。无关系也算关系，就一网打尽了。任意两词只允许发生7种关系之一，不能多也不能少。在 n 不大的时候，搜索空间爆炸得不算厉害。

白：ordered pairs，A跟B和B跟A可以有不同的关系标签。

李：对，有这个二元循环的可能，忘了这茬了。不过那很罕见，对于搜索空间影响不大。能想到的只有定语从句谓词与中心词有二元循环关系，一个 mod 一个 arg 方向相反。

李：By the way，你用 subcat 正好与（很大一部分的）语言学内部用的术语相反，句法学家说 subcat （子范畴）只是针对句型，主要是给谓词根据不同句型的预测分为不同的 subcat，而一个词的本体的细分就是 subclass（子类），所以 vt，vi 属于 subcat，到了 HPSG 等理论，这个 subcat 就真展开成句型了：

give:: SUBCAT <NP left:S>, <NP right:O>, <PP(to):C>]
give:: SUBCAT <NP left:S>, <NP right1:C>, <NP right2:O>]

第一条 SUBCAT 句型是 sb give sth to sb；第二条是 sb give sb sth

白：不管了，反正就是负载逻辑语义结构信息的标签，来自词典。标签之间的关系在本体里定义。

也不能说是“特征”，因为特征给人的印象是扁平化、向量化，缺少结构。但也绝不是曾经流行的“复杂特征”。

李：扁平化原子化有好处的，以前你也是赞成的。复杂特征在符号逻辑上漂亮，但不好伺候，难以承受逻辑之重：实用系统不能过分与逻辑较真（这个体会很深，以后有机会展开再论）。

白：我们只有一层除号，分子，分母。分子和分母里边都不再有除号，我称之为“单子化”。就一个成分而言，萝卜和坑都不必再有相对性。它们都是“单子”（singleton）。

李：那是因为你们的出身是 CG，算法里面就对分子分母的表示有要求，作为区分输入输出的手段。

白：把CG改造到这么实用的程度，我们应该在世界上挂个号了。

李：不知道这个 CG 还有没有个 community 和相应的 events，还是拉丁文一样被搁置了。HPSG LFG 那些人还在，有自己的圈子不过是越来越游离于主流（两不靠：语言学主流和计算语言学主流都不是）之外了。

白：CG可能就剩下CCG还活跃。CCG的本质是带坑填坑，于是就会产生我们所说的残坑。残坑在计算上的处理非常复杂，单子化对残坑处理带来莫大好处。但是从数学观点看，引入“修饰”，就是N+、S+这种，打破了“一个运算符吃遍天下”的理论美感，理论框架变得有些dirty了。等有空了，我会梳理一下“修饰”从数学上看是个什么鬼鬼。修饰之于单纯的相除，就好像X-bar之于CFG。象牙塔里的人可能不屑为之，我们编外游侠接手没什么顾忌。

【相关】