【李白之29:依存关系图引入短语结构的百利一弊】

李:

至于基本短语的 Phrase Structure (PS) 边界迷雾(【长大的战友】),除非发现碍事(譬如不加修整地在产品 display这样的xp结果),不管他了。说到底,pure dependency grammar tree representation 本来是没有显性边界的,没有短语结构(PS) 的牵扯,一切都发生在词与词(terminal nodes)之间,只不过我们在实践中,把乔老爷的短语结构的概念,有限度地在 shallow parsing 阶段带入,成了一个 hybrid tree, 这才有了这个所谓的边界的问题。换句话说,这是一个系统内部在模型化过程中“人造”出来的问题。

白:
这是“坑”和“坑的坑”不加区别地混同的结果。

李:
这种 hybrid 的表达法的好处太多了,以前论过 (e.g.语义计算沙龙:基本短语是浅层和深层parsing的重要接口》),带来这么点副作用我觉得可以忍受。但我们应该记住,dependency 的本质原本就是独立于短语结构的(属另一个 very competitive 的 syntactic representation),所有的边界都可以通过父子关系,间接而完整地事后确定。譬如上图中“已经”和“儿女”都是【长大的战友】的children,“长大”也是 ,边界事后确定校正就包括了这些儿女,if needed。不影响核心逻辑语义及其理解是关键。

白:
如果站在填坑的角度,区别二者是理所当然的,并不需要刻意多做什么

李:
白老师是,站着说话啊。

白:
这只是说明“树”这种结构不如“坑-填坑”这种结构更接近语言的本质

李:
白老师上面这句话很妙啊:我个人的翻译就是,乔老爷的短语结构那一套(PSG及其表达法),不如词(概念)与词之间的依从关系更接近自然语言的(逻辑)本质。I honestly cannot agree more.

所谓坑与填坑的结构,就是依从关系建立的条件匹配与满足。“不需要刻意多做什么”是你心中的 approach。我现在的patching就不是这样了,在我这儿,为了人看着舒服的事儿,可以做,但不是必做。必做的事儿是在应用的时候碰到了不想要的后果,那就回过来再把屁股擦干净。

白:
他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。

第一个“那些”如果去掉,好像不通了,或者说链条断开了:

?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。

所以,凌空开凿的坑无法填装远距离的“友元”。

李:

白:
“刺刀上沾满血”是自足的,弄个S出来,似乎不能自圆其说。

李:
有那么自足吗?

战友们刺刀上沾满血
战友们沾满血
刺刀沾满血
刺刀上沾满血

这个后置词“上”字把本来可能的一个主语降格了,变成更像状语了。这就为 “战友们” 出场做主语创造了条件或坑。

白:
S,一定有填坑的关系。“战友们”究竟填了什么坑,不深究是看不出来的。
好像“刺刀”和“战友们”通过这种结构浑然成为了一个整体,“刺刀”成为了“战友们”的一个部件(body part)。

李:
虽然董老师那一层的逻辑语义,可以不管这些表层的 trigger 而保持 【human】 和 【physical object】二者的逻辑地位的稳定,但是 parsing 过程中,这些句法痕迹及其引致的句法“坑”的动态变化还是有迹可循的:PP 把潜在主语降格,让位给其他 NP:

他沾满血了?哪里沾满血?
他在(他的)刺刀上沾满血,身上滴血不沾

“战友” 是大物体,“刺刀” 是小物体。“刺刀” 在这个场景,就是大物体中的一个小物体,与 body part 功能很接近。“他刺刀上沾满血,可手上却没有”,这与前一阵子讨论过的英语表达 “hit sb on+bodypart” 类似,到了汉语就成为所有关系的表达了:

他击中了我的头

击中 的是 “我” 还是 “头”? 沾血的是“人”还是“刺刀”?当然,“上”也是一个讨厌的小词,在接近成语的表达法中不一定降格,譬如 用“组织上”代替“组织”做主语的情形。

组织上批准了你的建议。

对于战士,刺刀就是手脚的延伸,成为一个战士的不可或缺的部件。

白:
地方上,县上,州上
甚至“今上”

李:
这现象是词典化的了吗 还是相当地开放?

白:
他衣服上残留着油渍。他工位上挂着两条领带。他单位里流传着很多绯闻。
他桌子上永远整整齐齐。

可以肯定,1、这是一个系统性的现象,不是偶然或者活用。2、到底是主语还是应加但未加“的”的定语,似乎有个连续的谱系。3、一个具体用法在这个谱系中的定位,与形式状语和形式主语整合为一个整体、或者说形式主语延伸到足以包括形式状语的可接受性有关。整合越不可接受,形式主语越像定语;整合越可接受,形式主语越像逻辑主语。

李:

语言学理论中 主语与定语 地位很接近,虽然前者属于 arg 后者属于 adjunct。它们都是 external 的成分 有很多相通之处。乔姆斯基xbar 理论的起因之一就是要统一主语和(部分)定语,在句法结构的理论上给一个统一的说法(参见 乔氏 X 杠杠理论 以及各式树形图表达法)。

 

 

【相关】

【李白对话录系列】

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

乔氏 X 杠杠理论 以及各式树形图表达法

【语义计算群:句法语义的萝卜与坑】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论