《李白刘114:围着火炉吃西瓜闲聊点文字》

立委按:白沙龙是个神奇的所在 / 感觉有点像围着火炉吃西瓜 / 有一搭没一搭 /貌似漫不经心 / 不时闪现火花。“学问”也可以是聊出来的吗?

白:“包里揣着自行车座的天津人”,有伪歧义,但可以干掉。人揣不进包里,size不匹配,包装方式也不人道。人成为被自行车座领属的对象,组合也怪异。

李:Vt + N1 + de + N2

subcat pattern ambiguity, similar to the PP-attachment ambiguity in English, 不过这个例子到了细线条的 “sub-subcat” 就排除歧义了,Vt两个子类:

1.  Vt-person –> Vt

2. Vt-non-person –> Vt

“揣着” is Vt-non-person sub-subcat,默认不能带 【human】(“天津人”),只能带【!human】(“自行车座”)。

白:外星人/机器人,说不准。小矮人,似乎也可考虑。罐头小人,更没问题了。还是多管齐下好,东方不亮西方亮,总有一条堵得住。ad hoc的简单不是真简单,系统性的简单才靠谱。

李:subcat 是公认的词典细化知识,subcat 不是 ad hoc,sub-subcat 就不算 ad hoc,同一条延长线上。多管齐下才不简单呢,每一管都是一个窗口,知识非常容易发散。一般来说,开放知识难以维护,知识平衡也不好实现和追踪。当然,高手另算,白老师定有秘器。

刘:“懂事是没人疼出来”,这句有点难。

白:趋向补语优先级高于状语,更高于主语。所以“疼-出来”先结合,“没人”后加入。至于两个谓词的坑共用一个萝卜,倒不是事儿。

刘:这里疼出来先结合不通,没人疼有特定含义,应该先结合

白:“没人疼”当一个词倒也简单了。状中固定搭配的优先级已经是顶格了。

“他从来没有不作为过”

那个“过”与“作为”的优先级也是干不过“不作为”固定搭配的优先级。

刘:难就难在这里,怎么知道没人疼就变成一个词了呢

白:不过这个真的不重要。“作为”与“过”的结合也好,“疼”与“出来”的结合也好,都不影响语义。只是说“作为”、“疼”是中心词,代表结构跟外面发生关系。中心词可以在结合之后被否定。

当然紧耦合、强搭配的,顺序反过来也一样。语言学界不是讨论过“A的媳妇是B的妈”的问题吗?这个句子的中心词主干是“媳妇是妈”。但这个主干不具有保语义性。就是说,枝叉的添加,会改变“媳妇”和“妈”两个带坑名词的共指性。

看这两个图,谁先结合要紧吗?

李:“从来没有不X过” ,可以看作是 X 的形态(变体)

白:某种aspect

李:词典规则大概就是:

从来没有不X过 –》X(VG,perfect,always)

perfect+always (same as never1 for backward aspect in contrast to never2 forward, e.g. “never forget class struggle” ) are tense-aspect,VG is its category (V) and phrasal sign (Group, or X one bar).

总之就是用可以枚举的前后缀或小词材料的有限组合,去对 X 做词法句法的加持而已。没有必要再去细分其内部的词法结构。X 哪怕不是 V,也被强制为 VG 了。5gram以内的可以记住的组合,可以一律交给词典标注或词典习得,不必寻找其中的结构规则。

白:看主干,还真是“媳妇是妈”,仔细想想没错,既为人妻又为人母,多个角色而已。但是,两个坑没萝卜,这两个坑“共用”一个萝卜就是“奥卡姆剃刀”的体现了。这发生在句法分析之后。

奥卡姆剃刀,本人对“如无必要,勿增实体”表示过不满意,而且特地给了一个修正版本:“如无必要,勿增实体,勿减标配。”

坑是否共用,取决于“标配”做到什么份儿上。

“从来没有不爱也从来没有放弃过”

白:出情况了:“毕加索”被推定为“挂”的逻辑主语。

为什么不是,需要给个系统性的说法。挂的逻辑主语,和墙的关系比和画的关系要深?查了一下,这个推定关系在诸多关联边中,优先级是最低的。等于是规定动作做完了,开始做自选动作时搞出来的。我们的系统是看到“挂”的逻辑主语是Human,而且空缺,“毕加索”的本体标签也是Human,于是启动了把填坑的正式名额置换出来的机制。

看来通过“的”引入的萝卜和通过介词引入的萝卜要区别对待:介词宾语与谓词关联紧密,可以更加无障碍地用于填补谓词的未饱和坑;“的”的领项,用于填补“的”的属项相对优先,用于向的字结构外部填坑则应受到某种限制。

“他的小提琴拉得很好”当中的“他”,是修饰语的已填坑萝卜,但却可以穿透到“拉”,这是优点。这个优点和前面的缺点,怎么样兴利除弊,需要进一步完善。

李:“我的小提琴他拉得很好。”

?“他的小提琴被拉得不成样子”

“他的小提琴被砸得不成样子。”

“他的小提琴砸得不成样子。”

谁“砸”小提琴,不大可能是“他”。

白:

“被”阻断了“他”的填坑可能性。“被”自己升格,根本不关心向前文可能的回指。这个逻辑在我们的系统里简单粗暴,但是大体上有效。如果“被”标作介词的标配形式S+/N,就免不了要面对这一麻烦。当然,有的坑我们规定了单向填入,纵使变成了残坑,也依然受到约束。

这个还不行。修饰语的已填坑萝卜和被修饰语的未饱和坑结合时,看来还是需要修饰语和被修饰语的某种一致性。怎么划定边界是个问题。

从统计上看,“拉小提琴”是强搭配,“砸小提琴”是弱搭配,难道这个线索works?强搭配可穿透,弱搭配不可穿透?

“他的文章写得非常感人。”“他的文章改得面目全非。”

“写文章”是强搭配,“他”可以穿透到“写”;“改文章”是弱搭配,“他”穿透到“改”就遭遇主体的“弥散”,至少有歧义了。

总结:1、修饰语和被修饰语类型匹配时,已填坑萝卜对未饱和坑有穿透性;2、修饰语和被修饰语类型不匹配时,如果已填坑萝卜和未饱和坑之间有强搭配,那么可穿透;3、修饰语和被修饰语类型不匹配时,如果已填坑萝卜和未饱和坑之间只有弱搭配,那么不可穿透。

“他的小提琴砸得不成样子”,在弱搭配下,“小提琴”成为与谓词松耦合的物体,“他”成为“小提琴”的单纯领属角色。补语“不成样子”的语义指向也锁定“小提琴”。设想,“砸小提琴”如果成为一种职业或习惯性破坏行为,就构成了紧耦合,“他”就会兼作“砸”的逻辑主语,补语“不成样子”也会指向谓词“砸”,谓之砸得不够专业。幸亏现实世界没有这么个职业。

所以有没有歧义,全在于系统有没有把“砸-小提琴”列入强搭配名单,或者说大数据有没有把“砸-小提琴”训练成强搭配。砸,被砸之物是有后果的。拉(演奏义),被拉之物不必然有后果。所以“拉得不成样子”没有歧义,语义指向一定是动词“拉”。

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论