《李白125：语言学的爱因斯坦之梦》

白：

“写作业”被整体强制为N/N。

终于搞清楚了，只有“最大投射”才有权利参加Swap，即从已饱和的坑中置换出免费萝卜的操作。一个成分所包含的所有最大投射，按“加入革命”（即配属于当前中心词）的早晚排列，last-mentioned不是指自然顺序，而是指参加革命顺序。越晚参加的，免费额度越不牢靠，越有可能被替换成临时工。

李：为什么要强制转N？

另一个可能的做法也许是：

（1） “当成”： S/2N X
（2）“把”：X+

然后就齐了，介词可以带着S的介宾，S的三个坑可以匹配一个 X。

白：想过这个方案，某种意义上是等价的。

李：一个旁证：“当写作业为负担”，“当” 的两个坑，一个是 X 做宾语，一个是 PP（为）做补足语。“当成”实际上是 “当+成/为” 而来的合成词，结果合成动词整体就有了三个坑。

白：感觉X+容易惹火烧身，X好控制一些，所以用了后者。把的这个，因为是直接成分，所以用了N+。用了X+，弄不好就把整个谓语给吞了。

一般的介词是S+/N或者S+/X，后置的也有+S/N或者+S/X。单目运算，即升降格、泛化特化这种，虽然中心词没有改变，但中心词的句法属性有了重大改变的，也属于“最大投射”。比如“吃食堂”，“食堂”从N变更为+S前后，是两个不同的最大投射。

李：这样的话如何区分：“在中国服务” vs “为中国服务”，这种介词搭配如何体现？

白：S+/N N S/2N，这是一样的。但是，惠格是必选论元，可以置换一个免费额度给萝卜“中国”重用。间宾是正式工作，发工资的，介宾是客串临时工，不发工资的。在中国，不是惠格，没有这个待遇。介宾就是正式工作了。中间代表“中国”的那个N，重用与否，有免费额度与否，区别主要在这儿。这是“服务”的论元结构决定的。

李：嗯，“在” 标注为 S+/N，“为”的格怎么表示？或者说 “服务” 怎么表示需要这个 “为”-格？从词典角度，这种介词搭配信息应该是在 “服务” 的词条上吧。

白：我们在S+的modee里表示 +beneficial 这个控制标签。服务的对象，在服务第二个坑里，有一个 -beneficial 的控制标签。二者匹配，就可以。

李：嗯那行。

白：之前还讨论过“张三向李四出示身份证”“张三为李四出示身份证”的问题，也是类似。惠格会截胡。把李四当成身份证的宿主，对格（向）不会截胡，所以宿主是张三。这个介宾转正，实行的是白名单制。

把和被，直接用N+转正了，与动词无关。

李：对这两个介词就是格标志。

白：而其他与动词有关的就采用白名单制。即使“在”格，遇到合适的动词也可转正的。比如“放在桌子上”。

S/3N +S/N N +N

桌子上，可以转正。但是，在桌子上打滚，就不是标配论元，只能老老实实地做介宾。打滚是S/N，不特别强调处所。在天上飞，类似。

李：放：locative+，这样的标注缺少方向，如何区分：

“在家放在抽屉里”
“在外放在口袋里”

为什么 “在家/在外” 斗不过 “在抽屉里/在口袋里”？“放在家”、“放在外” 也都是通的。

locative 的候选PP，在谓词前是静态状语，谓词后才是动态/目的地/结果意义的所谓补语；前者一般认为是随机的，后者才是（萝卜/坑）配对。

白：已填坑的萝卜，只有本体、控制标签都相谐的最大投射，才可以考虑重用与否。控制标签，类似自动机的状态，但一般从命名上即可看出句法意义，所以比较方便语言学家维护。

“假如不是家人在绑匪手里，谁会忍得下这口气啊？”通过条件连接词组成复句，主句的已填坑萝卜“谁”，在从句中“家人”处的残坑被复用。兼语句式更是典型的萝卜复用。

右填坑、右修饰，先验优先级都高于对应的左填坑、左修饰。但像惠格，放在前面也好使。

“为他把邮票贴在信封上。” 既有locative，又有beneficial。

“为他把胡子刮了”，刮的是“他”的胡子；“为了他把胡子刮了”，刮的是自己的胡子。如果一定要“为她把胡子刮了”，可以因为不相谐而强制指向自己。“为”效果等同于“为了”。

类似的吞音段子有：“今天我要讲两个小时，【停顿】你们肯定烦透了。”——其中的“要”一开始被理解为“想要”，停顿后自动被脑补为“要是”。

“为他把扣子扣在扣眼里”，扣子是衣服的部件，衣服是人的部件（缺省场景）。那扣子是介宾的，而不是逻辑主语的。因为惠格介宾可以截胡残坑。

“他的基本信息已经被公安部门编码在身份证里。”——谁的身份证？好像很显然，但是想要让计算机做到，就要让位于逻辑主语的定语位置的“他”有机会出来走两步，才能碰上那个放出了“残坑”的“身份证”。我们的做法是：给一个免费额度，看动态（后验）优先级造化。

李：宏观上看，回答谁的身份证这个问题（填逻辑所有格的坑），是一个与本句其他谓词填坑的问题处于不同层次的问题。【N1 “编码” N2 PP（N3）】已经完满了，只不过恰好 N3 本身是个部件，那么部件就有个逻辑宿主的问题出现。换句话说，这貌似另一层次的问题，感觉上较少受到句法条件的约束。既然不是同一层的问题，超越这个层次找宿主的自由度就大很多。策略可以是左右扫描，找距离最近的本体相和谐的宿主为最优。不必顾忌结构的约束，只要看线性距离即可，前提是相谐。上句中，唯一的 candidate 是“他”，无论 “他” 处于结构树的什么节点上。

白：转正问题和这个不一样，这是对的。前者是白名单制，后者是黑名单制。在自身辖域里，唯一相谐的已填坑萝卜，要复用也只有它了。可万一不那么相谐呢？比如“她意识到妻子的责任。” ——这时，宁可空着，也不乱填。

“作为这个网站的访客，我居然不知道（其）域名。” 这个顺序，“访客”是最新参加革命的，但与“域名”的宿主在语义上不相谐，于是需要进一步顺藤摸瓜，找出下一个大瓜——“网站”。不加“其”，机器翻译给自动加its的很少；加了“其”，做对的就多了。

如果坑的总数超过萝卜的总数，那么有合适的萝卜优先复用，这个精神是一致的，只不过，有的用白名单制，有的用黑名单制而已。

李：白名单是要求相谐，黑名单是要求只要不相悖（对象没在黑名单上）即可，是吗？

白：不是，白名单是不在里面就不考虑萝卜复用，在里面也还要过相谐这一关。黑名单是不在里面就可以考虑萝卜复用，在里面同样要过相谐这一关。

李：里面？辖域？同一个句子之内？

白：两方结合，一方有未饱和坑，且在自身辖域之内寻萝卜未果；向另一方的已填坑萝卜寻求复用。所以范围是另一方的辖域。两方正式结合，辖域合并的不算。萝卜复用都是辖域内部的事情，不涉及辖域合并。

人家都搞C-Command，我这萝卜复用的位置更宽泛，只要是最大投射就ok。不如就叫M-Command。

李：C-command 之类对于反身代词 self 似乎的确有可以感触的结构约束效用。但是对于其他寻求宿主的行为，感觉结构不起作用。Binding theory 其实是从反面证明了这一点，其中第二条约束说的不是“谁可以回指谁”，而是“谁不可以回指谁”，后者实际上是几乎放弃了结构约束。

白：不一定是宿主，谓词合并时过继而来的那些残坑怎么寻找相应的可复用萝卜，都需要研究分析树的拓扑。残坑和代词释放出来的空范畴可以一并处理。

李：所有格宿主问题感觉不是结构问题。至于其他的合并共享，应该是有结构约束的。

白：我这里已经统一了。是一个完整的大一统理论。

李：哈哈。联想到这段时间老看到物理大牛的大一统理论，theory of everything，每个人都想实现的爱因斯坦之梦。

白：中心词萝卜对正常坑，只需要CFG；中心词萝卜对残坑，需要C-Command；非中心词萝卜对正常坑和残坑，都必须突破C-Command，但后者是纯粹的交叉，画出来都是飞线。用程序实现也不难，这个部位的核心代码也就200行。四种情况一个理论模型就可以搞定。

李：嗯听上去蛮 comprehensive and reasonable。

飞线的实质就是本体决定论，绕过结构，再深也压不住。句法（结构）语义（本体）的“统一场”中涵盖句法约束和语义约束的不同比例分配，包括两个极端：1. 结构决定论；2. 本体决定论，plus anything in between, white- or black-lists。

白：只有第三种情况：非中心词萝卜对正常坑，才需要白名单控制，其他不需要。

把四种情况分别列一下，除了第一种，都有“交叉”。第二种，是非中心词分母把自己的未饱和坑（残坑）托管给中心词分母，让这些残坑有跟亲坑一样与外界结合的机会。第三种，是给非中心词最大投射一个进入主流成为其论元的机会，前提是，最大投射携带的控制标签在对方设定的标签白名单之内。第四种，是让合适的非中心词最大投射和对方携带的残坑之间有一个“拉飞线”的机会，前提是，最大投射携带的控制标签不在对方设定的标签黑名单之内。

M-Command关系，萝卜一方处于某一个非中心词所在子树的继承链顶端，坑一方处于中心词所在子树的任何位置。C-Command关系，萝卜一方处于所在子树的中心词位置，坑一方处于中心词所在子树的任何位置。

垂直方向是局部中心词继承方向，斜向转角处是最大投射成分。

寻找萝卜复用的算法，涉及到把所有最大投射按类型链在一起，随着分析的进行，这个链会动态调整，但是一旦正常邻接成分处理完毕仍有未饱和坑，就会启动这条链的搜索。这个算法也就是把各类飞线一网打尽的算法，号称“大一统”。

李：这个 c-command 和 m-command 图示，看不大懂。通常说的 c-command 就是姐妹及其下位。蓝点和红点没看出姐妹关系。两个点是姐妹，需要共同的 parent ，不知道在哪里。

白：对啊，姐妹，这里还要考虑中心词继承关系。蓝点顺着中心词继承路线可以走到转角点，也就是左子树的根。它就可以统辖整个右子树。M-Command，就是蓝点不一定走到根，可以走到任意最大投射。只要你相谐。但是对面的坑，亲疏有别。

李：所谓 m-command 说到底我的理解就是放松 traverse 的条件限制。其实可以从反面来想这个问题。条件放松到极致，就是遍历每一个节点。那么问题就变成 m-command 比起遍历，到底多了什么限制？或者问到底哪些是 m-command 的例外区间？

白：中心词继承路上，不用多关注，盯住最后结果就行了。一开始并不一定给你很具体的本体标签。越继承，越具体。修饰语的每一次汇入，都会带来modee的标签。比如，“不男不女的东西”，“不男不女”给“东西”带来了更加specific的本体标签吧。

实用角度，对于M-Command，我们可以只考虑N和S的继承链。需要遍历的数据组织非常清晰。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

《李白125：语言学的爱因斯坦之梦》

发布者

立委

发表回复