《李白125:语言学的爱因斯坦之梦》

白:

“写作业”被整体强制为N/N。

终于搞清楚了,只有“最大投射”才有权利参加Swap,即从已饱和的坑中置换出免费萝卜的操作。一个成分所包含的所有最大投射,按“加入革命”(即配属于当前中心词)的早晚排列,last-mentioned不是指自然顺序,而是指参加革命顺序。越晚参加的,免费额度越不牢靠,越有可能被替换成临时工。

李:为什么要强制转N?

另一个可能的做法也许是:

(1) “当成”: S/2N X
(2)“把”:X+

然后就齐了,介词可以带着S的介宾,S的三个坑可以匹配一个 X。

白:想过这个方案,某种意义上是等价的。

李:一个旁证:“当写作业为负担”,“当” 的两个坑,一个是 X 做宾语,一个是 PP(为) 做补足语。“当成”实际上是 “当+成/为” 而来的合成词,结果合成动词整体就有了三个坑。

白:感觉X+容易惹火烧身,X好控制一些,所以用了后者。把的这个,因为是直接成分,所以用了N+。用了X+,弄不好就把整个谓语给吞了。

一般的介词是S+/N或者S+/X,后置的也有+S/N或者+S/X。单目运算,即升降格、泛化特化这种,虽然中心词没有改变,但中心词的句法属性有了重大改变的,也属于“最大投射”。比如“吃食堂”,“食堂”从N变更为+S前后,是两个不同的最大投射。

李:这样的话 如何区分:“在中国服务” vs “为中国服务”,这种介词搭配如何体现?

白:S+/N N S/2N,这是一样的。但是,惠格是必选论元,可以置换一个免费额度给萝卜“中国”重用。间宾是正式工作,发工资的,介宾是客串临时工,不发工资的。在中国,不是惠格,没有这个待遇。介宾就是正式工作了。中间代表“中国”的那个N,重用与否,有免费额度与否,区别主要在这儿。这是“服务”的论元结构决定的。

李:嗯,“在” 标注为 S+/N,“为”的格怎么表示?或者说 “服务” 怎么表示需要这个 “为”-格?从词典角度,这种介词搭配信息应该是在 “服务” 的词条上吧。

白:我们在S+的modee里表示 +beneficial 这个控制标签。服务的对象,在服务第二个坑里,有一个 -beneficial 的控制标签。二者匹配,就可以。

李:嗯 那行。

白:之前还讨论过“张三向李四出示身份证”“张三为李四出示身份证”的问题,也是类似。惠格会截胡。把李四当成身份证的宿主,对格(向)不会截胡,所以宿主是张三。这个介宾转正,实行的是白名单制。

把和被,直接用N+转正了,与动词无关。

李:对 这两个介词就是格标志。

白:而其他与动词有关的就采用白名单制。即使“在”格,遇到合适的动词也可转正的。比如“放在桌子上”。

S/3N +S/N N +N

桌子上,可以转正。但是,在桌子上打滚,就不是标配论元,只能老老实实地做介宾。打滚是S/N,不特别强调处所。在天上飞,类似。

李:放:locative+,这样的标注缺少方向,如何区分:

“在家 放 在抽屉里”
“在外 放 在口袋里”

为什么 “在家/在外” 斗不过 “在抽屉里/在口袋里”?“放 在家”、“放 在外” 也都是通的。

locative 的候选PP,在谓词前是静态状语,谓词后才是 动态/目的地/结果 意义的所谓补语;前者一般认为是随机的,后者才是(萝卜/坑)配对。

白:已填坑的萝卜,只有本体、控制标签都相谐的最大投射,才可以考虑重用与否。控制标签,类似自动机的状态,但一般从命名上即可看出句法意义,所以比较方便语言学家维护。

“假如不是家人在绑匪手里,谁会忍得下这口气啊?”通过条件连接词组成复句,主句的已填坑萝卜“谁”,在从句中“家人”处的残坑被复用。兼语句式更是典型的萝卜复用。

右填坑、右修饰,先验优先级都高于对应的左填坑、左修饰。但像惠格,放在前面也好使。

“为他把邮票贴在信封上。” 既有locative,又有beneficial。

“为他把胡子刮了”,刮的是“他”的胡子;“为了他把胡子刮了”,刮的是自己的胡子。如果一定要“为她把胡子刮了”,可以因为不相谐而强制指向自己。“为”效果等同于“为了”。

类似的吞音段子有:“今天我要讲两个小时,【停顿】你们肯定烦透了。”——其中的“要”一开始被理解为“想要”,停顿后自动被脑补为“要是”。

“为他把扣子扣在扣眼里”,扣子是衣服的部件,衣服是人的部件(缺省场景)。那扣子是介宾的,而不是逻辑主语的。因为惠格介宾可以截胡残坑。

“他的基本信息已经被公安部门编码在身份证里。”——谁的身份证?好像很显然,但是想要让计算机做到,就要让位于逻辑主语的定语位置的“他”有机会出来走两步,才能碰上那个放出了“残坑”的“身份证”。我们的做法是:给一个免费额度,看动态(后验)优先级造化。

李:宏观上看,回答谁的身份证这个问题(填逻辑所有格的坑),是一个与本句其他谓词填坑的问题处于不同层次的问题。【N1 “编码” N2 PP(N3)】 已经完满了,只不过恰好 N3 本身是个部件,那么部件就有个逻辑宿主的问题出现。换句话说,这貌似另一层次的问题,感觉上较少受到句法条件的约束。既然不是同一层的问题,超越这个层次找宿主的自由度就大很多。策略可以是左右扫描,找距离最近的本体相和谐的宿主为最优。不必顾忌结构的约束,只要看线性距离即可,前提是相谐。上句中,唯一的 candidate 是“他”,无论 “他” 处于结构树的什么节点上。

白:转正问题和这个不一样,这是对的。前者是白名单制,后者是黑名单制。在自身辖域里,唯一相谐的已填坑萝卜,要复用也只有它了。可万一不那么相谐呢?比如“她意识到妻子的责任。”  ——这时,宁可空着,也不乱填。

“作为这个网站的访客,我居然不知道(其)域名。” 这个顺序,“访客”是最新参加革命的,但与“域名”的宿主在语义上不相谐,于是需要进一步顺藤摸瓜,找出下一个大瓜——“网站”。不加“其”,机器翻译给自动加its的很少;加了“其”,做对的就多了。

如果坑的总数超过萝卜的总数,那么有合适的萝卜优先复用,这个精神是一致的,只不过,有的用白名单制,有的用黑名单制而已。

李:白名单是要求相谐,黑名单是要求只要不相悖(对象没在黑名单上)即可,是吗?

白:不是,白名单是不在里面就不考虑萝卜复用,在里面也还要过相谐这一关。黑名单是不在里面就可以考虑萝卜复用,在里面同样要过相谐这一关。

李:里面?辖域?同一个句子之内?

白:两方结合,一方有未饱和坑,且在自身辖域之内寻萝卜未果;向另一方的已填坑萝卜寻求复用。所以范围是另一方的辖域。两方正式结合,辖域合并的不算。萝卜复用都是辖域内部的事情,不涉及辖域合并。

人家都搞C-Command,我这萝卜复用的位置更宽泛,只要是最大投射就ok。不如就叫M-Command。

李:C-command 之类对于反身代词 self 似乎的确有可以感触的结构约束效用。但是对于其他寻求宿主的行为,感觉结构不起作用。Binding theory 其实是从反面证明了这一点,其中第二条约束说的不是“谁可以回指谁”,而是“谁不可以回指谁”,后者实际上是几乎放弃了结构约束。

白:不一定是宿主,谓词合并时过继而来的那些残坑怎么寻找相应的可复用萝卜,都需要研究分析树的拓扑。残坑和代词释放出来的空范畴可以一并处理。

李:所有格宿主问题感觉不是结构问题。至于其他的合并共享,应该是有结构约束的。

白:我这里已经统一了。是一个完整的大一统理论。

李:哈哈。联想到这段时间老看到物理大牛的大一统理论,theory of everything,每个人都想实现的爱因斯坦之梦。

白:中心词萝卜对正常坑,只需要CFG;中心词萝卜对残坑,需要C-Command;非中心词萝卜对正常坑和残坑,都必须突破C-Command,但后者是纯粹的交叉,画出来都是飞线。用程序实现也不难,这个部位的核心代码也就200行。四种情况一个理论模型就可以搞定。

李:嗯 听上去蛮 comprehensive and reasonable。

飞线的实质就是本体决定论,绕过结构,再深也压不住。句法(结构)语义(本体)的“统一场”中涵盖句法约束和语义约束的不同比例分配,包括两个极端:1. 结构决定论;2. 本体决定论,plus anything in between, white- or black-lists。

白:只有第三种情况:非中心词萝卜对正常坑,才需要白名单控制,其他不需要。

把四种情况分别列一下,除了第一种,都有“交叉”。第二种,是非中心词分母把自己的未饱和坑(残坑)托管给中心词分母,让这些残坑有跟亲坑一样与外界结合的机会。第三种,是给非中心词最大投射一个进入主流成为其论元的机会,前提是,最大投射携带的控制标签在对方设定的标签白名单之内。第四种,是让合适的非中心词最大投射和对方携带的残坑之间有一个“拉飞线”的机会,前提是,最大投射携带的控制标签不在对方设定的标签黑名单之内。

M-Command关系,萝卜一方处于某一个非中心词所在子树的继承链顶端,坑一方处于中心词所在子树的任何位置。C-Command关系,萝卜一方处于所在子树的中心词位置,坑一方处于中心词所在子树的任何位置。

垂直方向是局部中心词继承方向,斜向转角处是最大投射成分。

寻找萝卜复用的算法,涉及到把所有最大投射按类型链在一起,随着分析的进行,这个链会动态调整,但是一旦正常邻接成分处理完毕仍有未饱和坑,就会启动这条链的搜索。这个算法也就是把各类飞线一网打尽的算法,号称“大一统”。

李:这个 c-command 和 m-command 图示,看不大懂。通常说的 c-command 就是姐妹及其下位。蓝点和红点没看出姐妹关系。两个点是姐妹,需要共同的 parent ,不知道在哪里。

白:对啊,姐妹,这里还要考虑中心词继承关系。蓝点顺着中心词继承路线可以走到转角点,也就是左子树的根。它就可以统辖整个右子树。M-Command,就是蓝点不一定走到根,可以走到任意最大投射。只要你相谐。但是对面的坑,亲疏有别。

李:所谓 m-command 说到底我的理解就是放松 traverse 的条件限制。其实可以从反面来想这个问题。条件放松到极致,就是遍历每一个节点。那么问题就变成 m-command 比起遍历,到底多了什么限制?或者问 到底哪些是 m-command 的例外区间?

白:中心词继承路上,不用多关注,盯住最后结果就行了。一开始并不一定给你很具体的本体标签。越继承,越具体。修饰语的每一次汇入,都会带来modee的标签。比如,“不男不女的东西”,“不男不女”给“东西”带来了更加specific的本体标签吧。

实用角度,对于M-Command,我们可以只考虑N和S的继承链。需要遍历的数据组织非常清晰。

 

【相关】
 
 

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据