【李白梁49：同一个战壕的两条道路之辨】

小词负载结构　vs. 　模式专家词典

白：
我举的例子“这个字他是不会写错的”意思是“他不会写错这个字”。

李：
【是 …的】小词筐式结构里面包了一个谓语表示肯定的语气。如果没有 “的” 那么通常 “是” 就转为强调小词（emphasis particle）依然是肯定语气（affirmative mode）。如果没有 “是” 只有 “的” 那还是肯定语气但似乎弱了一点。

我吃素:
我是吃素的
我吃素的
我是吃素

我不吃素:
我不是吃素的
我是不吃素
我不吃素的

“不是吃素的”　是熟语半路杀出一个程咬金　有黑箱义与通常的白箱义两种。“不吃素” 不是成语只有白箱子语义。这算是个小插曲，是个案。

白:
“应付这种局面他有准备的”

李：
应付这种局面他有准备:
应付这种局面他是有准备的
应付这种局面他是有准备　＝＝　“应付这种局面他的确有准备”

三种变式都是肯定语气不同程度而已　给基式增加一点语气色彩不改变逻辑语义。

白:
好办，这种“是”，直接标成S+，“的”直接标成+S。bingo

李:
Bingo ?
“是”、“的” 还有很多其他用法。都靠 wsd 去选？假如只有一种 pos 自然没问题。

白:
“是”还能做N+

李：
假如 pos/wsd 模块可以准确输出一种 pos 也自然没问题。第一个假如只有到理想世界寻，譬如世界语或计算机语言。第二个假如是传统系统架构的误区。铁路警察各管一段听起来干净利落模块清晰实际不知道误导了多少良家上进男女青年学子。

前置状语性材料 S+ ，后置状语性材料 +S，哪个语言都有，标注这个不难。但这种标注难以匹敌模式：

１【Subj 是 Pred 的】
２【Subj Pred 的】
３【Subj 是 Pred】

这些变式才是这类现象的真正的distribution 才能一一对应到细微的语义计算表达语气的差别（nuances）。都是从基式【Subj Pred】（or 【NP VP】）加小词 derive 出来的。

基式： Subj Pred
变式：
1 Subj 是 Pred 的
2 Subj Pred 的
3 Subj 是 Pred

1 最常见是一种缓和的肯定语气。2 更加口语化语气与 1 接近。3 就是强调语气。捕捉这些细微差别对于对话机器人有意义。

梁:
记得，我们做过规则：是 VP 的 --> VP, 我是爱你的 --> 我爱你

李:
Thanks. I did not know that
Moi 奥see

@梁 kidding ....

梁:
@wei :=)

对，语气略有不同。老外若问我，我会告诉他。其实，外国人学汉语，这种小词的细微差异最难。

2 Subj Pred 的，她卖菜的。 “卖菜的”是不是职业的意思，就是说”她的职业是卖菜“？

李:
这 2 本来是通用的肯定语气，但恰好又与表达职业的独立的 “的字结构” 搅和在一起。

梁：
我拥护你的。加强了肯定语气。

李:
1 我拥护你 --》我拥护你的
2 拥护你的不占多数

1 遵循的变式需要主谓齐全，而且不局限于 human action；2 里面的的字结构不需要主语的条件 “的字结构”做的也不是谓语，而是np，并且必须是 human action，常表达职业。这是两条道上跑的车但可能撞车。

白:
“这信写的连个落款都没有。”
“等我有空的看怎么收拾你。”
“这雨下的都没脚脖子了。”
“那几天雨下的什么心情都没有。”

李:
一个一个来，先细看：“这信写的连个落款都没有。”

我的设想是将来应该可以学出很多词典化模式（lexicalized patterns or word-driven rules），不必做太多的 generalization。全句分析就是对这些词典化模式的拼接譬如上句。

模式1：【这 O Vt de-buyu】
模式2：【连个 O 都没有】　或者　【连个 O 都 Vt-negative】

语言中这类模式成千上万。所谓一个人学会一个语言学得地道，就是这个人记住了这些模式，下意识的还是明意识的。总之是词典化模式烂熟于心，才可以像 native speakers那样自如。非词典化的语法实际上很少：主要就是规定这些细小模式如何拼接
譬如上两个模式拼接：one form of de-buyu is de + S, so we can connect the 2 patterns:

【这 O Vt de-buyu】＋ S【连个 O 都没有】＝＝》“这信写的连个落款都没有。”

梁:
连个被子都叠不好！
连个衣服都不会穿。

白:
还是没说，如果没有词典化模式救驾，主谓宾又不齐全，“的”就一定不是+S？

李:
那是另一回事。词典化模式是累积的。不是一开始就是 logically complete。

梁:
"不是一开始就是 logically complete" 同意！

李：
“的” 的其他用法最后或者融化（或被表达）在与其搭配的词的词典化模式中，或者表达在它自身的模式中。最后由于其万能词的特性也可以作为直接量表达在少数的抽象规则模式中，即非词典化的语法模式规则中。

白:
那还不如先都当同一个“的”用。后面再分。至少不会错。

李:
这一点我一直持与白老师相反的意见：对于用法繁多的小词包括介词，我一直以为不要只围着小词本身做，而是应该各个击破负担分开来。小词本身只负担最后的标配用法。其他的搭配词承载小词也是举手之劳题中应有之义，而且小词也常是这些模式的必要（obligatory）或可预测（optional）的因素。

白:
“瞧把你得瑟的”

梁:
“瞧把NP AP的” 瞧把她美的！

李:
@梁对就是这个思路。这里的 “把” 不再引导宾语而是引导主谓结构。放在模式里就一目了然这才是语义计算的真谛。

梁:
我们人脑善于做 puzzle （拼板游戏）。

白:
这不是问题，唯一一个坑，怎么引导也是它。小词就是模式的状态转换开关，这也不是问题。

李:
词典模式不怕冗余越多越好。要说冗余和死记谁能比得上机器以及机器学习的ngrams，人会抽象，自然可以稍微聪明一点，但切记过度，聪明反被聪明误。

梁:
好几个词一起做了一个坑，把 NP AP 套进去。

白:
没有模式能做而小词不能做的，没有模式能识别而小词的特殊pos不能识别的。

李:
需要各自保留意见了。
即便能力等价，也还有其他层面的考量：直观性、可维护性、与语言直觉的距离，等等。

白:
那是UI的问题。谁说定义在小词，界面也必须显示小词的词条？

李:
是语言资源的可读性。模式我认为是最可读的。小词在 pos 层面做抽象影响了可读性和可维护性。

白:
语言资源就是给机器读的，遇到要呈现给人的时候有一万种办法让人可读，这个根本无需操心。

李:
小词没必要分类。

白:
记得当年做XBRL标准，有人就拿可读性说事儿，我们就搞了屏幕取词转换，搞了把机读格式隐藏在用户友好界面中的工具，攻击的人从此闭嘴。

所谓分类是字面意义的误导。我们要做的实际是告诉这个词的周边，有多少插座，有多少插头，什么制式的。哪怕这种标记是这个词独有的，也要这样标，并不因为独特性而偷工减料。分类这个说法似乎是给语言学家自己看的，其实不然。标记是给这个词的周边看的。有些插座和插头就是为模式准备的。在给人看的时候，自会转换成人最方便接受的样子。但是插头插座虽然不是人最方便接受的样子，却是词们彼此勾搭最方便的样子。

梁:
我懂白老师想把“词负载语义”进行到底。

李:
“哪怕这种标记是这个词独有的，也要这样标”？

白:
不这样标就会影响它与周边词的关系。

李:
标记的必要性是别处要用，是用直接量不能表达或不能概括的部分。如果独有就没有必要因为直接量就是标注，这是其一。其二如果所标记的 pos 或 subcat，是为了自己的模式而不是别人用，也无必要，因为可以词典化。

白:
标小词就是在做模式词典化，只不过模式不显性出现。举个例子，“连N都V”，连就是N+，都就是S+，顺顺当当吃掉，但是里面实际上在做状态转换。

李:
形式都在模式里面了，还标注个啥。直接量多直观。

白:
不是特意为模式标的。

李:
我在词典主义和专家词典里面浸润太久，感觉上受益太多，不忍心抽象化。

白:
直接量想要就有啊，表示是等价的。这是个UI问题。我这才是词典主义，除了词典不剩啥。

李:
不太一样。
你的词典主义貌似是词典标注主义，我的词典主义主体是规则词典化。专家词典（expert lexicon）里面全是模式，不怕冗余。与句法变换有接口，所以也不是完全没有抽象性。

白:
不对，在插销和插座结合的时候，有个东西叫状态转换，它比模式更容易被机器接受，计算上更简洁。给人看是totally another story，跟实时计算没有一毛钱关系，根本是在编辑态下工作的。

“连”这个N+和N结合的时候，N这个位置上的状态是要发生变化的，某个开关打开。“都”这个S+和S结合的时候，S这个位置上的状态也是要发生变化的，某个开关关闭。其实准确地说“连”应该是X+，混混。

李:
具体说说，哪个变化什么开关？

我套用白老师：没有小词负载的结构不可以用模式去识别的。最多不过是冗余。冗余换来的是接地气。一眼看模式就可以知道背后的语言现象。模式的最原始形式就是 ngram，那就是直接给语言拍照。当然我们比ngram高明太多，但继承了其接地气的特性。

白：
subcat有静态和动态两种。静态的词典说啥是啥，动态的随着分析动作而变。动态subcat实际上就是状态。它们跟着词，但是不属于cat。也就是说，词负载结构不等于仅cat负载结构。subcat也在分担负载结构。但这部分subcat已经跟怎么画依存关系脱钩了，直接对接语义，所以不画出来。

李:
从词义到逻辑语义的 subcat，最完美的体现是董老师的知网。

白:
其实，模式与纯粹的二元关系本来就捏不到一起。模式往往代表多元关系，而多元关系是二元关系的组合。用动态subcat，可以借二元关系的壳，把多元关系重组起来。

李:
从词到句法的subcat最粗糙的体现在牛津朗曼词典里面。纽约大学的两部词典（COMPLEX and NOMLEX）稍微好一些，那是一帮爱打瞌睡动机不专的语言学博士生在名导督促下编制。显然没有nlp历练纯粹为交差。句法subcat最完美的体现自然是：立委牌2017新版语言学专家词典。

白:
我觉得判别标准不能混淆。计算上怎么精准方便是一回事，人看了是否感觉优雅是另一回事。两者之间不能两全的时候，计算语言学要优先考虑“计算”，人看到什么，是可以用UI来转换弥补的。二元关系在计算上的优势，不用足了天理不容。

李：
模式也是有限状态怕啥。专家词典不仅仅是有限状态，而且专家词典还可以建立索引来提效。其实在绕过了中心嵌套的陷阱（我把它叫作乔老爷圈套）以后计算优势在其他几个指标中已经退居后位。除非是用在大数据实时处理的现场计算的考量不是紧要的。所谓二元关系vs模式匹配的关系说到底就是 bigram 与 ngram 的对比。有点像排列和组合的对比。只要这个n 是相当有限的通常不过五元，最常用的模式在三元左右。由于mult-level的模块化效应，三元左右的模式就可以涵盖几乎所有的远程（long-distance）句法。因此计算通常不会成为系统应用的瓶颈。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录