【李白董57:中文字驱动patterns初探】

白:
“再有背景的小孩也还是逃不过被大人喊出来表演节目的命运 ​​。”

李:

【再 Pred1 的 N 也/都(还) Pred2】

说到底就是这么个pattern, 汉语中此类patterns不少。里面的XP(这里是谓语 Pred, 可以是VP,也可以是AP,甚至某些特殊的NP)比较适合有限的自顶而上的识别,然后插入,就比较完美了。

谁 Pred1?
小孩: (哪怕)小孩再有能力

谁 Pred2?
小孩: 小孩(也)逃不过。。。命运。

既然Pattern是固定的,这些语义关系也就确定了。“逃不过” XP “的命运”, 也是一个 pattern,嵌在里面。“逃不过”的 subcat 也允许带 VP,但是,“逃不过被大人喊出来表演节目” 敌不过 “逃不过 VP 的命运”,后者不但更长,根据最大匹配原则,而且后者是“端对端”的强搭配(或框式结构),前者的 subcate没那么强。最后可以考察一下变式,就更加明白里面的语义关系应该怎样玩才让人类满意了:

再 Pred1 的 N 也/都(还) Pred2
== N 再 Pred1(,)也/都(还) Pred2
== 哪怕 N 再 Pred1(,)N 也/都(还) Pred2

背后的逻辑语义不是昭然若揭了吗?一个让步子句的状语,一个主句,逻辑主语是相同的实体。既然这类句式非常容易通过小词呼应来枚举,里面的填充项应该可以以局部parsing来收拾。

wang:
先小词划界卡位,再在小区间内处理,这确实容易不少。

李:
记得语文老师叫我们造句:请以 “再。。。也”造句, 其实就是上面的pattern的一个drill.  既然人是这么受训去学语言的,机器也可以这么学。

白:
“再有”为什么不能结合?“背景的小孩”为什么不能结合?如果结合,让步逻辑还看得见吗?在考虑“再有”的结合可能性的时候,“也”离它多远?“有背景”处在sentiment的一极,强化了“再”的让步色彩才是关键。而“背景的小孩”语义相谐性是有条件的,就是需要谈论图片、场景一类。

李:
如果是“学习”呢?“他再学习也赶不上”。“学习”可算是勉强的 weakly positive的行为了,也许。问题是,如果不管这些语义细节,那个pattern会有啥问题?有多少反例。直觉上那个pattern应该是蛮精准的。

白:
“再有学习的机会我去” “再有学习的机会给他也是白搭”

李:
套用这个特定pattern的话,应该是:“再有学习的机会我也去”: 让步的状语语义貌似还在。说的是这个pattern的反例:再Pred1 的N 也/都(还) Pred2。

白:
不是说pattern不精准,是说它后知后觉。在前面等不到的情况下,会被拐走。

李:
说的就是不要被拐走啊。如果是用小词pattern蹲点, 而不是让小词参与local parsing搅在一起。就避免了被拐的命运。

白:
“再有学习的机会我也去”
小词都在,解读不同,没有让步义

李:
“再有学习机会的我也要去”,这个才是正宗:
== 哪怕我再有机会,我也还是要去(疯玩)

白:
这里“有……机会”风头太强劲
“再有学习机会的我也要去”貌似不通

李:
再:1.(与 也\都 呼应,表示 让步);2. again
为什么不通?这句坚定表达了一定要去的决心,不惜错过学习的机会。这就是pattern的力量。

白:
机会、去,没完结,有“去利用机会”的潜在完形,但这与让步相冲突。
的,后面可以通过容错机制,脑补一个“的时候”“的话”什么的,来达成这个完形。这样的话,pattern就落空了。有完形在勾引,脑补就会启动,不要低估脑补的力量。而“……的我”,一般只出现在歌词里。与学习机会什么的,距离甚远。

(等到)再有学习机会的(时候),我也去。
(如果)再有学习机会的(话),我也去。

李: 即便不允许“的我”,让步的可能貌似也还在:

(即使)再有学习机会的(话),我也去。

时间 条件 让步。既然都是状语,既然语言中状语语义的小词省掉了,说话者裸奔,听话者“裸听”好了。以裸对裸。Unspecified -- 怎么听上去语言学开始带色了?

白:
去哪,不自足。去学习,自足。去利用学习机会,自足。不自足不是标配,需要特定语境。完形程度,是可以度量的。

李:
裸对裸 也不是一定都不穿衣,也可以穿一件零形式的衣,也就是所谓皇帝的新衣,这就是标配的用场。标配怎么得来?大数据? 或者常识?

回到字驱动,中文不仅虚字可以驱动不少句法关系的句型(syntactic pattern),以前说过的开放式成语也是字驱动构词法的代表(morphological pattern for open compounding),譬如:非NP莫属。这个成语是动词,通常充当谓语(带一个主语的坑),其中的NP是内嵌的宾语。这个NP虽然常常是,但不仅仅是,实体名(NE):如,“非李白莫属”。它也可以是一个很长的NP:“此一战役之指挥,非久经沙场南征北战且具有黄埔军校学历者莫属。我提议林彪,主席说。” 英语的对等物大约是:have to be no one but NP。

这类开放式成语或成语的活用,给语言带来了让人惊喜的新鲜感,理应在词典解决,但其中牵涉到句法的XP,因此必须有一个字驱动的词典与句法的灵活接口,这个机制上的要求,与分离词(如 “洗-澡”)是一样的。

董:
你这两天的小文章,我都看了。可以看到其后面的数十年的心血和积累。我真的感同身受。今天你说到了“非…莫属”,很对。我还没来得及处理这一类型的结构分析。离合词已经基本完成了。刚才试了试“莫属”。你看这样的结果好吗?

我用到的主要规则是:

莫属 0000 CN[*pos==`verb`,*def=={be|是:relevant={?}}];L1[*pos==`pron`/`noun`];L2[*expr==`非`]$CN[*pos==`verb`,*def=={?},*TempInfo==`abso`];L1[*log==`relevant`]@bind(L1,L2)@chunk(CN,L1). // 重拾山河非他莫属;非马英九莫属;

DefineVVV 0124 CN[*FH==` `,*ES==` `,*pos==`verb`];RS[*FH==` `,*ES==` `,*pos==`verb`,*expr==`莫属`,*son==`relevant`];Z1[*pos==`pron`/`noun`]$Z1[*DeepLog==`agent`]@DeepLink(CN,Z1). // 他们边假装下棋边用监控相机拍照录像。他们一边假装下棋一边用监控相机拍照录像。

李:
类成语“非x莫属”翻译成白话就是:不是x不行。
== 只能是 x == x, 只有 x (“人民,只有人民才是创造历史的动力”)

董老师处理成逻辑【施事(agent)】 很好。因为这个谓语的句法主语(arg的坑)实际上是逻辑谓语,而这个谓语里面的类宾语实际上是逻辑施事:

重整山河非老邓莫属
谁重整山河?老邓。

【非x莫属/不行/不可/不能为/不足以胜任】,这些idiomatic的用法都是一个意思。强调的是x,所以作为“中缀”的句法上的类宾语,需要被提出来,其他的那些驱动字词不过是点缀的形式,表达的是强调的意味(x and only x)而已。

汉语中这类现象很多,形式痕迹明显可靠,但因为字词驱动,显得琐碎。但词典本来就是琐碎的家园。不利用白不利用。关键是要有个合适的机制,让词典与句法互动起来。

董:
谢谢你又为我列出这么多,我可以照猫画虎写规则。我现在分析的结果,就是你指出的:“他”是“重拾”的深层的agent。

李:
前置词与后置词的框式搭配,也是具有明显的形式痕迹。
语言现象中,我归纳有这么几类:

(1)是“四肢着地”走路,就是 ngram 成语。这个当然进成语词典,无需与句法互动,成语就是一个枚举的黑箱子。里面该预埋什么句法语义的种子(features),就埋下什么,包括休眠唤醒的hidden ambiguity种子,与普通词条基本无异。(当然成语不见得都是词,也可能是短语或小句,只要词典设计允许表达语言学所谓“词”以上的单位特征就可以了。)

(2)第二种是带有变量的成语(习惯表达法)或离合词,我把它叫做两条腿走路,因为这些语言材料都有一个以上的落脚点,包括,“非x莫属”;“在x领导下”;“n日不见,如隔m秋”。

(3)一条腿走路:就是具体谓词的subcat了,那个驱动的谓词就是这条腿。

(4)不要腿走路(磁悬浮?):这就是feature(包括POS)为基础的规则了,概括性强,但不是词典驱动的,没有落地的词。

所谓lexcalist文法,就是尽量排除(4)的一种规则系统。

白:
“这件事非他莫属”,这种情况下“他”填谁的坑?

李:
填坑,从句法角度没有疑问,“这件事”是句法主语,“非他莫属”是谓语。如果主语是行为,采纳董老师的上述处理,把句法主语转为逻辑谓语,把句法谓语中的“他”提出来作为其逻辑语义的施事。如果主语不是行为,那么可以相应做一些逻辑语义表达(semantic representation)的调整,其中之一是,把该名词的“标配”动词作为省略成分提出来,“事儿”的标配就是“处理”或“做”(DO)。然后逻辑施事照旧。

“这件事非他莫属”
==(只有)他(能)DO(这件事儿)

这些个鸡零狗碎的处置,说到底都是自己跟自己玩儿。这里的所谓语义表达和语义落地,在pattern确定之后,我们其实心里都明白其涵义了,只不过需要用一种容易记忆容易处理的方式把“语义”表达出来,让人类看着舒服。其实这都是小事儿,属于parsing的side effects,怎么方便怎么来,无一定之规,系统内部自足即可。关键不在作为 side effects 的 output,而在于什么样的 pattern 、什么样的条件与 input 匹配合适,匹配完了既然并无歧义,总能找到一个语义表达的出路。后面的考量也就是为了“好看”而已(就好比软件工程中很多内部数据结构表达出来要pretty print一样)。

董:
知网里”事”的框架如下:

{fact|事情} {thing|万物:CoEvent={event|事件},{happen|发生:experiencer={~},time={time|时间:modifier={specific|特定}},location={space|空间:modifier={specific|特定}}},modifier={abstract|抽象}}

说的是“事”即CoEvent={event|事件}。这样它是可以充当施事的。

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,讯飞AI研究院副院长。前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论