【李白之23:“一切都在变,只有变本身不变”种种】

白:
“一切都在变,只有变本身永远不变。”
前后两个“变”动词特征明显,中间那个“变”怎么说?

我:
有了“本身”来构成chunk,那就是动名化的意思。
x 本身 --》 NP

白:
“这个学校就爱拿本身的那点光荣历史说事儿。”
好像这规则有副作用
在贴这个例子的时候,伟哥说的规则已经在脑子里转了N转,但还是感觉不那么简单。似乎一堆爹在抢儿子,儿子归谁跟爹们的场上表现有关。

我:
那就 fine-tune 呗:

“本身” 可以独立成 NP,“x+本身” 也可以成 NP,怎么区分呢?
tricky,不过磨细活总是可以磨。只说 x 是动词的情形:一种是限定 x 是什么样的 v;一种是限定x不能是怎样的 v。后者的话,第一个条件可以是 这个 v 不能是可以做 prep 的 v,于是“拿”踢出去了。当然这感觉还是 underkill。

白:
糊弄老板可以,如果自己是老板,不情愿这么干。

我:
还有一种就是拓宽 context:不过那个法子也 tricky 因为每拓宽一个 token,又增加很多可能性要 include or exclude,但所有的歧义区分如果需要看上下文条件手工调教,都是这么个事儿:precontext and/or post-context and/or include-or-exclude conditions on self, 手工系统让人抓狂就在这里。

白:
我是这么考虑的:作名词的“本身”一定有先行词,因此先行词的匹配特征一定会继承到“本身”上来。以“这个学校就爱拿本身的那点光荣历史说事儿。”为例,“学校”与“历史”的匹配特征,会被“本身”继承下来。于是,从“历史”反推,可以给先行词候选“学校”加分,而另一个先行词候选“拿”却得不到这样的加分。“爹们”的角力,就这样决定了“本身”的命运。

我:
这个有理。把 chunking 的边界问题 转化为 self 的 binding 的问题。不过上面的那套思路实现起来 也不是那么直接。听上去是一个 procedure, 而不是一个 pattern

白:
不需要procedure,确定一个标配的先行词,匹配特征差再唤醒非标配的。
比如,最近出现的名词作为标配的先行词。如果名词太远或者名词匹配特征得分太低,再启用左侧邻近词作为先行词。当然与“本身”呼应的也可能不是先行词而是后继词,比如“以本身的实力而论,张三是考不进清华的。”

我:
这个机制不是通常的 pattern matching 可以实现的 吧。通常 FSA 的 runner,运行的时候可以加一些 config。暂不考虑“本身”的 binding,句法捋顺倒也不难:

白:
后继词也可以设定标配。这就显出坑论的好处了。“本身”挖个坑,左侧名词优先填坑,左侧邻近词次优(如果不是名词还要给它变性)。由于是共指关系填坑,不耗费萝卜指标(还可以填其他坑)。
不做pattern matching
btw,昨天讨论的闭环填坑也不耗费萝卜指标。用填坑来取代pattern matching,规则按词典化的方式组织更方便。

我:
有意思。

白:
“那些质疑凯文·凯利的朋友,我真心怀疑是否认真读过他的书”

我:
他?
一共就俩 candidates,都联上算了,爱谁谁。到语义落地,大不了生成两个 insights,至少 recall 是保全了。

白:
(1)怀疑谁?(2)他是谁?(3)前一小句本可不作定语从句解,如何排除的?
这些问题是连带的,一环扣一环。

“三十里有几个五?-六个。”
即使数量结构这么铁,也有不该在一起的时候。
“三十里有多远?-不远,十来分钟就到。”
等判据出来,不知道要几个词。
“因强烈不认可挪威国家石油终止合同 中海油服提起民事诉讼”
谁不认可?
“因不满老师虐待儿童口出狂言张三愤然辍学。”
谁口出狂言?
理由?

我:
先 parse 看看:

最后一句掉链子情有可原,貌似人理解也有困难。原句似有语病,总之不对劲儿。

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据