《李白宋118:多层处理为 heuristics 的实现提供了广阔空间 》

白:“老师批评的是我”

问题:升格以后的空范畴,具备建立Hidden links的资格吗?看图上,填“老师”名词坑的应该是“我”才对。填空范畴总有点那个。

李:最终应该得出SVO 才对:老师/S - 批评/V - 我/O, 不管用什么中间links和手段, 因为人的理解如此。其实从 pattern 角度,通向最终目标的路径还是蛮清晰 。

以前提过,的字结构 与 英语 what-clause 类似,本质都是 NP+定从,定从中阙如的 arg 通常是主语或宾语。所缺的角色一旦有同位语或be结构(或其他的结构)相连,其算元(无论主宾)拉过去,深层逻辑语义svo也就确定了。

宋:能不能分解成两个任务。一个任务是把复杂句变成两个简单句的某种逻辑关系的组合,另一个任务是分析简单句。
老师批评的是我
{老师s 批评v Φ}and{Φs 是v 我o}
他眼睛哭肿了
{他s 哭v}and{[他m 眼睛h]s 肿v}
我帮他打圆场
{我s 帮v 他} mode{我s 打圆场v} //A mode B表示B为A的方式
我帮他打官司
{我s 帮v 他o}grw{他s 打官司v}//A grw B表示B是A的背景

有的原始问题并非词间依存所能说清楚的,还涉及到命题间的逻辑关系。而且,如此处理可以避免图结构,完全是树结构。

{老师s 批评v Φo}and{Φs 是v 我o}

他眼睛哭肿了
{他s 哭v}rst{[他m 眼睛h]s 肿v}//A rst B表示B是A的结果

李:图结构表示比较简练,但也不是没有缺点,缺点就是层次不够清晰。树结构层次清晰,缺点是表达力有限。

宋:但是不清楚,把论元关系与逻辑关系混起来了。因此应分解成两个任务。本来就是性质不同的任务。

李:利用树结构的层次性,加上 coreference 互指关联或做等价的节点复制,然后用逻辑算符把树结构联系起来, 从理论上说是一个更好的语义表示方法:逻辑语义单纯、完整,而且不失层次性。

宋:是的。

李:依存图结构表示可以看成是一个缩略版。

宋:原句就是一个紧缩句。

我帮他修车。
{我s 帮v 他o}and{我s 修v [他m 车h]o}

我帮他做家务
{我s 帮v 他o}and{我s 做v [他m 家务h]o}
我帮他做作业
(我s 帮v 他o} grw{他s 做v 作业o}

李:对。

白:图上建边的顺序是有结构意义的,“图+建边顺序”可以完美恢复层次。只做到一堆边的无序呈现是不够的。

另外,我说的例句里,有没有“是”并不关键。可以举出更多不包含“是”的例子:“老师批评的不包含他”“老师批评的只有他”“老师批评的除了他还能有谁”……。这些里面同样要弄出一个空范畴出来。

宋老师建议的,其实就是以谓词为中心的逻辑语义拆解。其实有了图,谓词为中心(面向过程)和体词为中心(面向对象)都是可以选择的。

李:与 “是” 无关,是字只是谓词结构的一种;与多层结构的模式处理有关,说的是各层次的 patterns 是清晰的。不同层面的解析,最终可以达到逻辑语义图的最终解。无需人为添加的空范畴。

白:刚才几个怎么提取?枚举吗?枚举我就“窃喜”了。

李:按章办事就成。多层模式解析,一个一个来。此类结构紧缩现象,我应该是已经处理过了。待会儿上机试试。

白:“前妻欠下的都算到他头上了”。试试没有空范畴怎么玩。

李:这么玩的:PS(短语结构) 搭架子,DG(依存文法)依据架子再做逻辑语义:老师-批评-我 的 SVO 就出来了。

白:图上的“的”不标“x”了?有进步。

“老师批评的我一条都没犯过”

“老师批评的(得)我哑口无言”

当“得”和“的”混淆时,这里会出伪歧义。

另外就是共指关系如果做“是且仅是”理解,逻辑上可能出现“白马非马”式的混乱。

宋:空范畴还是要的,关键问题是把复杂句拆成基本小句的逻辑组合,语义上相当于把复合命题拆成基本命题的逻辑组合。命题内的谓词论元关系和命题间的逻辑关系性质不一样。

白: “的”当修饰语时可以x,当升格的指称语时就不能再x,必须当个物件儿。没名字的物件儿,对应的就是空范畴。表达体系里区分了两种不同的“的”,后一种“的”其实就是变相的空范畴。

接着说共指的问题。“是”有三解,集合的包含关系、元素属于集合的关系以及等同关系。前两者都不是简单共指。

“他偷的是我的书”,“他偷的”和“我的书”不是共指(相等)关系,而是子集关系。“是”的右端只有在是个体的情况下才能是等同关系。因为此时包含和属于所确定的类型都不适用了。只剩下等同可以用。

“老师批评的是五班的学生” 就无法建立共指,因为不知道批评的是“五班的学生”的全部、部分还是个体。

宋:这两个"的"能否并成一个?"我的书","我的"是所有属于"我"的东西的集合, "书"是另一个集合,“我的书”是这两个集合的交集。

白:就算是个体,也还有“某一个(无定)”和“这一个(有定)”的差别。汉语此处无局部形式标记。@宋柔 “的”是未饱和坑提取和交集运算集于一身的形式标记。当运算对象缺位时,就只剩下未饱和坑提取一个职能了。

宋:有的时候不是交集,而是元素纳入集合。“说谎的匹诺曹”,“说谎的”是一个所有说谎者的集合,把“匹诺曹”加入这个集合之中。或者说,表示"匹诺曹“是这个集合的一个元素。

白:这又回到之前讨论的“聪明的一休”了。也可以理解为个体为唯一元素的集合与另一个集合的交集。

宋:忘了以前是怎么说的了。

白:@宋柔 限定性与非限定性。限定就是求交集,非限定就是给个体添加属性。

宋:不好这么说。交集可以是空,这里说的是该元素属于该集合。也可以。

白:@宋柔 个体在里面是公理。左面的集合只有“从了”的份儿。不属于也必须属于;过去不属于从现在开始也必须属于。

 

哈,“老师批评的”作了“我”的定语。

也没错。

被批评的事儿,在这里不是标配,标配又是明确在场的。

李:听到“也没错”,感觉 relieved

@白硕 同病相怜?

不过,还是想看看有什么系统的方法避免次优解,以求得最优解。

(传统)机器学习中很多算法 stuck 在 local 峰顶上,就是从算法上达不到全局最高峰,可见问题的普遍性。不知道深度学习有没有这个困扰。

人脑得到最优没有丝毫问题的。肯定有个机制直取最优,不得已而求其次。

想了想,线索之一是语言学的:代词虽然不完全拒绝定语从句,但是并非常态。

其实代词甚至带形容词定语都感觉“怪怪的”:“不得已的我”可以接受定语从句,“小小的我”也貌似别具一格,但“我”通常是独行侠的。

这种 heuristic 如何实现好呢?统计上看其痕迹是很明显的。下面这种情况下,不得已求其次就对了,但常规不是这样。

“(被)老师批评的我,无地自容。”

口语中还有个妥妥的“de字”纠缠: 老师批评得(de)我无地自容。为简化问题,不去论它。

在多层系统中实现这个heuristic的系统性方法之一就是,推后“定从+代词”的操作。把优先组合尽量让给“的”字前后的短语结构。按照这个多层思路试试。

啦啦啦 功成了 可见很多事还是太粗心,做系统怕就怕认真二字:

只是把代词定从推后,一切不变,水到渠成。当然严格说,“一条”应该挂到“的字NP”上,不过,“一条”这种很虚的量词,挂不挂没啥落地价值。只要知道 “一条都(也)”是一种强调性否定,就足够好了。

白:好歹人家是总分关系。

李:真地没啥价值。贡献不出“强调”以外的实际东西来。

白:代词不是本质,“老师批评的张三一条都没犯”,问题是绕不开的。

李:这么论语言,也可以说凡是 heuristics 都不是本质。这几乎就是 heuristics 的定义决定的。但我们都知道,对付语言这个 monster,heuristics 可能是一大法宝。统计模型能处理自然语言,也与 heuristics天然的统计性表现有关。

系统啥也没变就出来了。瞎猫撞了死耗子了?

非也,狗屎运也不是要有就有。

白:这不是代词的功劳了吧。

李:这是类似于代词 heuristic 的功劳。语言工作者都知道,专有名词的NP独立性可媲美代词,原来早就下意识 built into 系统了。普通名词就差一些:

 

 

就是说,专家做系统,heuristics 是下意识进入的,可能会有缺漏。缺漏也不怕,数据驱动,迟早会实现。关键是多层系统从机制上提供了优先级排序的广阔空间,使得不同的 heuristics 迟早体现出来。(图中有个bug,句法主语synS“问题”转成了逻辑 S,没转成 O。)

白:“老师教的学生一点儿都不会”。

李:这是真歧义。

解析歧义世界里面 90%以上是伪歧义,10%不到是真歧义。

(“学生”是“教”的 O 这个 hidden link 没连上,是个“待做事项”。)

一般而言,对于真歧义,因为其出现频率低,只要解析能在真歧义中得到其中一条,就暂时不再追求。解析关键是先堵住伪歧义泛滥。考察人对真歧义的理解,发现是因人而异的。很多人面对真歧义,脑子也是一根筋,只有一个解读,对另一个解读无感,往往是只有人提醒了才恍然。(语言学家除外。)

 

 

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据