月度归档： 2017 年 5 月

《语义计算沙龙：基本短语是浅层和深层parsing的重要接口》

【李白之47：深度分析是图不是树，逻辑语义不怕句法交叉】

白:
还是没说交叉的事情：
“他的学习成绩优秀”，要不要管“他”和“学习”之间的关联？
管了就不是树。不管，差了点什么。

李:
好，现在说交叉。

交叉在语言学课上是一个常讨论的话题。基本上语言系统的部件有一个大体的层次：词典、词法、句法、语义等。这些部件是有一个宏观层次和优先次序的，这个没问题。交叉出现在一个层次的东西，有时候想跳到另一个层次去。说白了就是，交叉就是违反了部门独立性原则。部件的层次架构是原则性的东西，通常不该违反。但自然语言的复杂性就在，有了原则，偏偏有人要违反，那么系统作为一个制度，就必须有一个应对。

“他的学习成绩优秀”：学习成绩　是词法，合成词。“他－学习”是逻辑主谓。“他”作为句法单位，硬要钻进词法（“学习成绩”）内部，这样才能构成完整的逻辑语义全图（graph, 不是严格意义的树！），才能说达成了语言理解。这就是交叉的现象。作为原则，句法词法是隔离的，语言学理论里面给这些原则起了不同的名字和术语，且不管它。总之是，句法单位没有道理进入词法。词法出来的词是句法的最小单位（atomic），所以对于句法，合成词就是一个黑箱子。论句法功能，合成词与非合成词，完全一样。但是逻辑语义不管这一套。逻辑语义是超越语言学句法词法的术语语层次的东西。交叉出现在，我们在句法关系与逻辑语义关系的表达（representation）中，为图方便或其他原因，硬要把它们归拢到一起。

白:
事情可以完全不这么处理。如果秉持句法管谁跟谁有二元关系、语义管是什么二元关系，那么一切不合语义这双脚的句法鞋子都可以动。交叉是自然语言语义表达的客观需要，因此一定会在句法中得到反映。在技术处理上，二元关系的发生位置相对于构成二元关系的词的本源位置可以有所差异或者说变化。二元关系并没有探入词法内部，而是词法本身完成了对外接口的乾坤大挪移。比如，“学习”和“成绩”结合的时候，承认“成绩”是head，同时就把自己的残坑过继给了head，也就是说，“他”找这个“学习”留下的残坑，不是找“学习”要，而是找“成绩”要，这样就消解了交叉问题。

李:
乾坤大挪移应对的是POS约束, 如何应对语义约束:
“他”与“学习”是语义和谐的，“他”与“成绩”没有同样的相谐性（当然，“成绩”也要求　【human】，但那是另一种二元关系的相谐，属于赶巧了，不是原来的主谓关系的相谐要求）。

白:
过继的时候把subcat也一并带过去，不存在这个问题。

李:
操作上不宜、不易。不宜是因为，两个subcats混杂了，“成绩”原本的本体概念与过继来的本体概念，混在一起了。

白:
我们检查相谐性看的是单子singleton。学习的一个坑有human这个subcat，这个坑过继给成绩，只是位置上过继，但是subcat并没减少或改变。

李:
不易是，一个词的本体概念及其背后的常识，是这个词的灵魂，词形不过是躯壳，没有道理轻易出卖灵魂，哪怕出卖对象是你的老板。

白:
不是这样。中心词既然负载结构就必须包容结构。不是向老板出卖灵魂，而是老板包容了你的灵魂。

李:
那就具体说说，这个灵魂怎么转移的（出卖还是包容）。“他”是【human】, “学习”是【huam-action】, 因此“他”与“学习”是（逻辑）主谓相谐的。注意，这里已经把问题简化了：[human] 只是一个相谐的代表或标志，其实主谓相谐包含各种强搭配弱搭配。也许有一个逻辑主语要求的是一个非常细线条的语义类别，不是简单的一个【human】这种层次的类别就可以包揽。

白:
成绩是【action-information】，学习成绩是【human-information】，
perfect。这又要说到unification。

李:
说具体点。action-information，怎么就表达成了　human-information，是一个本体概念节点　还是两个本体概念节点（的混合）？

白:
相谐不是两组符号字面相等。类型演算啊。输出是information没变，输入变了，级联的整体效果。是输入human，输出information。没有类型演算的ontology，干不了这个。

李:
当“成绩”遇到“学习”，在合成词形成的时候
input is: V(human-action) + N(information) / human-action
output is ??

human-action 的坑满足了，填进去以后，这个头词“成绩”怎么过继，类型演算的结果形态是什么？从道理上，修饰语不能改变头词的本性。因此“成绩”仍然是information,　而不是human-action，尽管它吃掉了　human-action。

白:
不改变输出，改变了输入。

李:
改变了对subcat 的输入要求？

白:
学习是event(human), 成绩是information(event), 学习成绩是information(human)。

李:
我拿放大镜看看这个乾坤大转移。先下线。貌似形式化演算中规中矩。但如果subcat不是那么单纯，如果是强搭配　直接量呢？也可以大转移？

白:
游泳？当然可以。这类，泳就是action，游就是commit，所以，不需要出卖灵魂，老板会包容你的。这是subcat之间的类型演算，完全是结构制导的，残坑挪移后，位置已经没有交叉。语义那边不存在与挪移有任何违和感的东西。没有“不宜”。至于“不易”，说实话还真是有一点点小门槛的。commit太虚，简直就是可以穿透的:　commit(action)=action

李:
明白了：过继的是句型信息（对坑的要求，SUBCAT），不是本体全部。

问题过继不是目的，目的还是要建立“他－学习”的主谓关系。而不是“他－学习成绩”的主谓关系，后者不make sense。换句话说，过继了input的要求，逻辑语义output却不能转移，不能张冠李戴。

白:
来源还在，并不因为挪移而抹杀。过继是现状不是历史。

李:
还是有个机制要“进入”词法，才能联系逻辑。

白:
纯二元关系看，交叉是真实发生了的。

李:
好，有理由认为总有办法最终搞定“他－学习”的逻辑语义的二元直接联系，从句法进入词法。

白:
从词负载结构的观点看，交叉这一页可以顺利翻过去，仅此而已

李:
交叉不是关键。

白:
对

李:
这只是一个帽子，扣帽子可以用，实际不必理他。作为语言学（内）原则，有其合理之处，因为语言学总体或主体是形式层面的理论。但逻辑层面，这个不算啥。

白:
句法不拉语义后腿，句法也不违背所谓的原则，两全其美了。关键是，挪移有了语言学上合理的解释，不仅仅是头疼医头，见招拆招。

李:
第二个相关问题是：刚才所说的演算（SUBCAT坑的挪移或过继）是典型的符号逻辑，
而不是大数据中间件的相谐性的查询。我们可以在符号逻辑操作中，把对坑的【human】要求挪过来，但是我们如何在语义中间件查询中去check非符号的条件。譬如：“他　－　学习”　如果是句法的直接二元关系，我们很容易查询中间件它们是否相谐，而不管这种相谐的符号表示是【ｈｕｍａｎ】还是直接量（强搭配）。但是，当“学习”淹没在“学习成绩”的组合里面，如何一致地调用大数据的相谐呢？

白:
subcat有两个作用，一个反作用于句法，辅助做出逆向选择；另一个衔接语义落地。大数据也辅助做出逆向选择，甚至大数据就是用带subcat标记的词典训练出来的。但是语义落地不可以没有subcat，只有好subcat或坏subcat之分。我们不对语料做标注，但不等于不使用带标注的词典。相谐性是原本二元关系的相谐性，不是跟stepmother的相谐性。

李:
可以想见的是： in "NP + de + V + N", the unsaturated subject of V will still try to be paired with NP in checking the middleware based on big data even if V is eaten up by NP.

subcat 句型的原始的完整内容其实很丰富，不是简单的　vi, vt, 等可以涵盖的
从input这面，它规定了：（１）几个坑；（２）坑在哪里（位置和词序）；（３）坑的句法形式（包括直接量）；（４）坑的语义约束（【human】等）
从output这边，它把每一个按照上述规定的坑，都ｍａｐ到确定的逻语义角色去，是为语义落地。这样一套丰富的内容，在“他的学习成绩”这样的坑过继的机制中，直感上难以面面俱到。

白:
我得睡了，明天一天的会。

李:
晚安。
SUBCAT是半部语言学，而且外接语义，谈不尽的焦点话题。已经谈了ｎ次了，还可以谈多次。

白:
坑，一经产生，就是一个独立的存在，subcat的归属是终身的，不依母体的萝卜去哪儿了为转移，也不依自身的结合位置被挪移到何处为转移。还是拿“王冕死了父亲”为例。从语义角度看，“父亲”挖了一个subcat类型为human的坑，同时对外提供一个subcat类型为human的萝卜。“死了”挖了一个subcat类型为human的坑，对外提供一个subcat类型为event的萝卜。当“父亲”和“死了”结合，“死了”的坑饱和了，“父亲”的坑还亏欠着，那么“死了父亲”这个短语作为一个整体，就还有一个subcat为human的坑对外亏欠着。“死了”既然全权代表这个短语，当然也就继承了这个短语内部对外的一切债务，于是这个亏欠的human坑，就过继到了“死了”的头上。外面的萝卜（王冕）必须找这个“死了”填坑，“死了”自身亲生的坑虽然饱和了，但是对“父亲”过继来的坑却必须负责到底。我们在句法层面，用N S/N +S N/N这个序列，很清晰地实现了结构制导。

李:
“父亲”挖了一个subcat类型为human的坑，同时对外提供一个subcat类型为human的萝卜，后者（萝卜）是本体概念，前者（坑）是句型预期。

白:
句法和语义是同步的。“了”这类萝卜皮的语义作用机制暂略，后续再说。

李:
所以　/ 后面是坑，也就是 arg, +是 mod，随机的被吃掉的对象。+S就是被事件谓词S吃掉的东西。这个coding里面不包括词序？
还是没看清“死了”的逻辑主语　怎么从“王冕”转成了“父亲”。从左向右parse ，先跳进坑的是“王冕”。parse 到“父亲”的时候，S 没坑了。按照常规，这个萝卜应该降格，譬如　降格成“化外的”称呼语：王冕死了，父亲。

白:
这涉及到算符优先机制。总的说就是，单坑的动词，右侧填坑比左侧填坑优先。
“台上坐着主席团”，也类似。

李:
有理。
走了很多能人。

白:
甚至也包括形容词：春风又绿江南岸，宁可“春风”先shift，保证“江南岸”优先填“绿”的坑。

李:
这个结构制导清楚了。请教一下：根据规定的优先次序（parsing算法），在萝卜跳进坑的时候，查还是不查语义中间件？如果没有其他的竞争者，就不查了吧？就是说　human 这种东西在与N/N 或S/N结合的时候，有没有用到？也就是在决定第一个ＮＰ“王冕”是 shift 还是跳坑的时候，要不要查左边的ＮＰ“王冕”与右边的ＮＰ“父亲”，看二者的力量对比？还是不管三七二十一，就是右填坑优先。当然在这句，即便查也是力量相当。但是应该会有力量悬殊的情形，这时候右优先的决定是不是就会受到调整改变。

（1a）中文切词作为领域早已终结。
（1b）Ｇ教授终结了中文切词。

（2a）门开了
（2b）开了门
（2c）张三开了门
（2d）门张三开了。
（2e）张三门开了就驱车离去。
（2f）张三门开了就闯进来。

最后一句（2f）谁开的门？不知道。开门者不大可能是张三自己。但在“张三门开了就驱车离去”中，开门的一般认为就是张三本人。

白:
“作为”是带坑的后置定语+N/N. “终结”如果是单坑，“中文分词”填坑恰如其分。如果是双坑，两边都有位置。“开”是双坑无疑。“就”这里涉及到合并（merge）操作的指向问题。如果按default，标配的指向是右边合并到左边。但是在有特殊标记的情况下（比如被副词“就”修饰）就反其道而行之，左边合并到右边。算符优先机制会让右边所带的坑优先选择萝卜。也就是说，先保证“闯进来”的是张三，谁开的门，可以不care。

【相关】

《泥沙龙笔记：漫谈自动句法分析和树形图表达》

乔氏 X 杠杠理论以及各式树形图表达法

【语义计算群：句法语义的萝卜与坑】

【李白之29：依存关系图引入短语结构的百利一弊】

【立委科普：歧义parsing的休眠唤醒机制再探】

【李白之46：做NLP想不乐观都找不到理由】

白:
“这个人的演奏水平不怎么样。”　问题：是“这个人的演奏+水平”，还是“这个人的+演奏水平”？

如果是前者，“演奏”需要被结构强制，然后再与“水平”结合；如果是后者，“演奏”不变性，可以直接与“水平”结合。“水平”的pos tagging可以直接定义为N/X，既接纳名词填坑，也接纳动词填坑。如果是前者，名词化的“演奏”做大主语，“水平”做小主语。如果是后者，主语不分层，“演奏”做内层定语，“这个人的”做外层定语。如果演奏和水平中间不加标点，个人倾向于后者。如果加逗号或者语音上有较长时间的明显停顿，可以考虑前者。

平行的句式还有“这本书的出版时间真不凑巧。”

我们看到两种不同的定中结构：一种是N+遇上N，一种是N或者S遇上N/X。前者是萝卜皮和萝卜的关系，后者是萝卜与坑的关系。

李:
什么是　N 遇上　N/X？什么是　S 遇上　N/X?
有一类名词，经常要求逻辑动词做修饰语，譬如“计划”，“水平”，“能力”：学习计划；作战水平；融资能力。这时候，如果恰好这个逻辑动词也是及物的，理论上就造成了结构歧义：譬如第一例　“学习计划”，定中还是动宾？

白:
有歧义

李:
标配还是定中。也许这个标配的来源，有音节的因素：双音化趋势使得双音修饰双音　显得特别自然，构成四字ＮＰ。而汉语的【动宾结构】比起【定中结构】，音节上“头轻脚重”比较突出。定中有一种四平八稳的趋向（ｈｅｕｒｉｓｔｉｃ），动宾则不然。动宾的本性是短Ｖ长ＮＰ，所谓头轻脚重。正因为此，更突出了头（动词谓语）的统率作用。

白:
问题来了：定中标配是获知四字结构之后才有的，还是此前就有？

这里还涉及了另外一个之前讨论过的问题：交叉。“他的学习成绩优秀”当中，“他”填“学习”坑的事情，怎么算？当没看见，还是承认可以交叉？

李:
定中结构对音节数的条件敏感。双音修饰双音当然最自然理想，四字成语的大批形成就有不小数量的定中结构。作为对比，双音修饰单音，就非常勉强。即便出现，也大多是例外，可以作为合成词绑架到词典去的。

白:
犀利哥，漂亮妞，糊涂蛋

李:
是啊，这些都是词典绑架。词典绑架的一律不算，因为可以死记。而且相对有限。

白:
问题是还有一点点能产性。说不定怎么就流行一个。比如“带路蓝”。

李:
能产性不强。对付这种一点点能产性，句法是先不去形成NP，尽管让其他路径优先，parsing到后面，不得已了，才把这种音节数不符合要求的patch一下。

白:
不理，会被拐跑的

李:
目的就是给拐跑让路。拐不走的，句法勉强同意结合。这就对付了能产性。我们说优先，说多层，贯穿的就是这类原则。本来音节就不和谐，没对上眼，拐跑了太正常了。这时候统计上看，拐跑的往往都是应该被拐的。万一还是拐错了，那就扔进词典。这时候词典就成为一个垃圾站，专门收容这些介于固定搭配与能产性之间的东西，如果这些东西成为句法优先策略的例外的话。例外一个收一个，把这个收取例外的过程，作为研发系统的一个动态过程，就不可怕了。

白:
有大数据，可以颠倒一下顺序。不做第一个吃螃蟹的，做第N个总可以吧。词典应该和大数据无缝连接起来。词典没有、构词法允许，大数据支持的，非标配也应占优，回头再收进词典。

“二孩概念股”

李:
系统越做越好就是这么来的，不断扩大测试，９成的测试符合预期，不到１成的例外，也懒得伤筋动骨，扔词典就完。今天的例外bug，成为明天的词典绑架，岂有不好之理

我是相当相信蛮力的。词典就是最好的蛮力。上帝造语言非常了不起，但百密一疏，无论如何无法与逻辑比规整性。好在上帝留了个垃圾回收的口子，词典。NLP起初拼算法, 拼到最后就是拼蛮力。就是一个力气活。长尾问题大多体现在蛮力上。

对，结合了大数据，自然是另一个风景。

白:
绑架的动作不用都人工完成，可以借力。

李:
那是，lexicon acquisition，说的就是一种。基本是无监督学习。其实就弄成一个流水作业，ngram不断去学，不仅进入领域数据需要学领域词典。而且时间维度上，要不断从动态数据去学习，以对付流行词汇和新词。然后让人过一遍，把把关。把这个过程变成系统维护的常规作业。

对NLP总体乐观，一直有十足信心这是可以搞定的事儿。这个信心就建立在，自然语言的规律性部分，至少对于某些“砖家”，总体是路线清晰的，句法有很多上帝赋予universal的基因，而例外表面上没完没了，屁股擦不完，但本质是有限的。词典有如饿虎，永远吃不饱，特别好例外这一口。想不乐观都找不到理由。

白:
学习也有lazy和active两种策略。lazy是parser首次碰到了才启动，active是闲时准备忙时用。

李:
正是。一般而言，系统总是要鲁棒，就是说lazy是设计时候已经尽量考量的。开始做系统的时候，可以有意避免上大辞典，少用绑架。一个个OOV（out-of-vocabulary）就成为鲁棒性测试点，然后看对付例外，有没有一个合理的鲁棒机制在。譬如汉语的合成词的应对。系统越来越成熟，这时候lazy的策略逐渐被active的作业方式取代，就可以大肆扩张词典的绑架。哪怕句法可能搞定的现象，如果来不及测试，或为了力求保险，扔进词典最心安。

甚至可以设想，将来的NLP实用系统，所有的ngrams短语全部进词典。可以把n设置成４或５，词典出来的短语都是预制板、标准件，句法三下五除二把它们搭成积木。至于这４-grams内部有啥，理论上词典都可以绑架，而且很多时候也无碍大局。

白:
可看穿的词条（白盒）和不可看穿的词条（黑盒），用起来待遇还是很不相同的。有构词法垫底，一定数量的白盒词条对于休眠唤醒和拆零复用大有好处。

李:
百盒词条的本质就是小句法。不过是优先级高而已。因为优先级高，做出被绑架的黑盒子的样子。但里面埋下了种子，什么时候要唤醒就唤醒了。这种策略，先绑架后（反悔）释放，非常经济合理。因为绑架满足了９５％以上的场景需求，反悔释放则满足了不到５％的特殊需求。断断没有为了不到５％的场景，让全局一路受累。总是到了某个点，trigger　这个反悔机制才妥。

"开始做系统的时候，可以有意避免上大辞典"，说的就是knowledge poor development to start with。knowledge poor 才可以打好鲁棒的基础，而鲁棒性是一个ＮＬ系统的关键指标之一。这个小词典开发策略　也包括开始不要有太多 features or subcats, 不要有本体知识库 (ontology)。这些东西都是精细的活儿，是鲁棒的另一面。鲁棒的本义就是凑合事儿，但不要离谱。

【相关】

【立委科普：结构歧义的休眠唤醒演义】

【李白之45：从变性谈到模糊与歧义的不同】

李:
尼:罗素说科学够不着的哲学，哲学够不着的宗教。

[科学够不着的] [哲学]，[哲学够不着的] [宗教]。

两个主谓结构哎！

哲学、宗教这样的名词也可以做谓语，而且是在“的”字后面，简直是开了眼了。以前琢磨过英语的“银行”（bank），经常做动词谓语用，觉得顺理成章，但汉语的对等物却不行。

白:
儿子挖不完的孙子（接着挖）。

李:
（感觉汉语“银行”的构词法可能在捣乱，silver-bank, 听着就是一个守财奴的物理存在，与金融行为不大兼容？）

白:
硬通货的物流调配。怎么就是“守”了呢。

李:
* 你银行了吗？
老哥，我忘了，对不起。

白:
很行了

李:
* 我明儿一定银行。
我难以接受这种说法。

白:
王天下
四海一
这种用法中文是老祖宗，但是新派词汇不在其列。

李:
为啥？词性活用现代汉语为啥减弱？

白:
不是一个系列的

李:
“我昨天二锅头，今天决定茅台一下。不茅台白不茅台，人一辈子，图啥？”

白:
数数，单字名词活用为动词，可以有声调变化，略等价于形态变化。多字名词没这个招儿了。

李:
“今天床得早，决定微信一下。电脑了半天，微信出不来。”

白:
北京话也就“孙子”做谓词坐稳了。其他都充满临时性和造作。

李:
“现代汉语名词不动词，动词不名词，不如古代汉语，名亦动，动亦名。”

单字词　可以声调变化来反映词性变化，这是一种（蛮新鲜也有理的）说法。
双音词，由于内部的定中的构词结构太透明，干扰了其变性的可能性，也是一种说法。譬如　“红花”、“臭豆腐”、“高楼”。很难想象这么透明如句法的词结构，会忽然变性。不过，如今这社会，再难想象的变性（trans-gender），也是可能发生的。美国的变性人已然成为一个不小的社区了。

“这家伙在北上广，高楼了１０多幢，全国劳模会上一样红花，回到胡同与老哥们一起臭豆腐，这是怎样精彩的腐败人生。”

所以说，语言学家不足采信。啥不可能都整出可能来。

白:
这些一看就是匆匆披了件别人的外套

白:
尼:罗素说科学够不着的哲学，哲学够不着的宗教。可解释为省略了重复的“够”。不知尼克尊意如何？“这道题，张三做不出来李四，李四做不出来王五。”意思是：“这道题，张三做不出来李四（做），李四做不出来王五（做）。”　跟名词动词化真心没啥关系。
“前卫顶不住了后卫（顶），后卫顶不住了守门员（顶）” 同理。

李:
读起来很顺没觉得需要补充什么。虽然说省略也不能说错。但语感觉得已经完整。因此我倾向于这是名词坐稳了谓语宝座。叫不叫名词变性另说。而且真要补充我不大会补充 “够” 而是补充其他更合适的动词：

科学够不着的哲学上
哲学够不着的宗教来。

“冲”、“上”、“来” 都比 “够” 贴切。说省略了 “够” 太勉强。最大的兴趣点还是，怎么名词谓语出现在 “的” 后面居然感觉妥妥的呢。“科学够不着的哲学从来都是高高在上只是到了近代哲学的权威才急剧下降。”　这个才是标配结构。冲破标配估计是一靠排比句式；二靠小句在的字结构后面无其他谓词；三靠【的字结构】的多变性。的字结构指代实体一点也不罕见，频率差不多可匹敌做修饰语。所以听话人心理随时准备从修饰语角色反悔或回溯到实体名词的角色。

尼:
我原意就是图这种语感，其实确有歧义，还一种解释可以是philosophy lies where science is trying to approach

李:
科学够不着的有哲学（在）。

尼:
可能稍显牵强，不如白老师解释的那个更solid。两种都有点。

李:
没关系关键是 unspecified，比认为省略了一个特定动词值更合适。

严格说 unspecified 不算歧义，而是模糊。模糊在思维及其语言表达中都有地位不应该简单归为歧义。

尼:
可以说是模糊

李:
歧义应该是已经有预定答案值的现象，hence 消歧的任务。没有标准答案的所谓歧义其实是模糊。

梁:
我理解是 ”科学够不着的（地方）哲学(够)。“ Where science is out of reach, is philosophy's domain.

李:
可以算解读之一。

梁:
第一次听说“歧义是已经有预定答案值的现象”，不知道是不是业界所有人都 share 这个定义？

李:
否则消歧往何处去？有两种歧义，一个是关于 node，一个是 arc, 譬如：

WSD　bank: value1. 银行；value2. 河岸
PP-attachement: V NP PP: value1. V [NP PP]; value2. [[V NP] PP]。

看下组句子：

１.　我吃了午饭了。
２.　我不久前吃了午饭了。
３.　我几分钟前吃了午饭了。
４.　我约３分钟前吃了午饭了。
５.　我３分零５秒前吃了午饭了。

这些句子里面的动作，与所有事件一样，肯定发生在（空间和）时间之内。只有第５句，给定了精确时间，精确到秒。其他句子给的都是模糊时间，或没有给时间（等价于给了一个到说话为止的开放区间）。这就叫模糊。如果硬要在模糊的时间表达中去“消歧”，精确到秒，前四个句子无解。

unspecified 在自然语言中是普遍存在的。最多的时候，它是以零形式而存在（譬如句子１）。也有很多时候是以词义的模糊或结构的模糊来表达。这种词义的模糊或结构的模糊，不能认为是歧义，至少不是语义计算的目标，因为根本就没有目标。我们做过信息抽取（information extraction）和信息融合（information fusion）来构建知识图谱（knowledge graph）的，体会很深。其实人用语言表达出来的关系，事件或情感，只是整个语义之网的一个零星的局部。再加上每一句话的语言学制约（譬如 args 不过三的语言学subcat原则），每次只能表达几个点的信息，因此语义之网的大部都是　unspecified。如果面对的是大数据，这些语句所代表的碎片化信息，通过信息融合（如果是unification系统，信息融合用合一操作），慢慢丰富起来，但最终还是存在很多模糊地带。

白:
话说，模糊和笼统还是不一样的。歧义是集合明确、元素糊涂；模糊是集合明确、子集糊涂；笼统是集合糊涂、超集明确。

李:
这个要得。
wait, 我要说的是：（严格意义的）歧义是集合明确，元素也明确（元素就是　ｖａｌｕｅ，是标注）。人和机器就是要按照元素指向去标注，来消歧。如果我说“吃肉”，你非要消歧，说这肉是猪肉还是牛肉，那就不对了。因为我的语言是模糊的，没有留下消歧的空间。

白:
元素糊涂，说的是不知道是哪一个标注，集合明确，说的是知道哪些是可能的标注。

李：
我以为集合是定义 how many (the scope) in a set，元素是 the list of members. Anyway, 歧义是元素明确：知道答案，看谁的算法牛了。如果不知道答案（元素模糊），那就是语义模糊了：这里面还可以再分为，语义模糊，但是边界清楚。就是白老师的子集的意思吧。从常识、本体知识带来的边界不算，那个是“元”层次给定的，没有语言什么事儿。

“我吃了午饭。”　时间的边界是到说话为止：这个边界是语言学的，是时体小词“了”所传达的。

“我吃肉”　常识说，不外呼是牛猪羊鸡...肉。不会是人肉（饥荒年代不算）。这个边界就不是语言学的。

白:
外媒：区块链战略上的延迟将是公司的“灭顶之灾”
这个标题有歧义。一个意思是，一个公司，如果在区块链这件事上不做战略布局，将会面临灭顶之灾。另一个意思是，区块链这股力量，如果在战略上动作迟缓，将使相关公司面临灭顶之灾。

我:
多数人、一般人感觉不到、读不出也不在意这种歧义。因此，即便通过语法的细化和逻辑的分析慢慢能够区别两种路径，最终还是要研究怎么回到普通人的理解，或模糊语义去，除非对于某一个特定的应用，这种区别有重大意义。后者也是有的。譬如昨天说的，限定性与非限定性定语的区别，其中有不小的一块灰色地带，大部分人也搞不清限定还是非限定，也不在意这种区别，就是这么糊里糊涂地表达，糊里糊涂地理解。可是这个区分对于 sentiment 意义重大，因此 sentiment 做到一定火候，就不能不着手对付它，尽管有灰色地带，也还是要尽量把不是灰色的部分模型好，而不是糊涂混日子。

自然语言的表达与理解－董老师说过这个意思，很多时候是包容歧义的，听者说者都不在意那个歧义，甚至大多时候根本就无感，虽然细究起来歧义的确存在。人类有这个模糊的本事，直到某个关节点，那个歧义模糊不下去了，人的对话才会就模糊点予以澄清。通常，大家都是在一知半解中彼此理解的。

例外是法律文书，专利文书，技术手册（波音的受限语言的说明书），这些东西通常经过反复打磨，有特别的手段在表达的时候就把歧义降低到最低限度，堵死误解出差错的可能。但是日常会话，包括谈恋爱，大家都在将就模糊着，也没觉得缺了啥，误会发生的概率也很低。

【相关】

《李白之零：NLP 骨灰级砖家一席谈，关于伪歧义》

【泥沙龙笔记：科学哲学宗教与人生】

尼:
罗素说科学够不着的哲学，哲学够不着的宗教。科学和宗教有交集，如生死，意识，自由意志等。我有篇未完长文 "当我们谈论生死时我们在谈论什么" ，准备作为我《人工智能简史》最后一章。再长的话，得问洪爷了。
@洪邓总问哲学和宗教啥关系。我昨晚没回复。你接茬说。

邓:
原始问题是宗教、哲学和科学的关系是啥？

白:
科学尽头是哲学，哲学尽头是八卦。

邓:
宗教呢？

白:
宗教尽头是科学啊

洪:
好比有个大鱼缸，
鱼游随便哲学想。
科学只限缸内忙，
缸外有宗教对象。

尼:
@洪缸能自动变大或变小吗？

邓:
@白 @洪你俩意见貌似相反

洪:
缸是人所能感知的；如果人类感知进步了人，例如开了天眼啥的，边界就能扩大

邓:
我等白老师和洪爷打起来

邓:
罗素原话怎么说的？
白老师和洪爷彼此惺惺相惜，不打……

白:
缸外有缸

邓:
请白老师明示。解说解说。

马:
探索哲学的小孩

尼:
这小屁孩把想哲学的鱼都给捞走了

邓:
你们都是禅宗的

洪:
身心灵各有其缸，
有界有墙可以撞。
科学自觉不骑墙，
宗教墙外寄希望。

李:
除了红包与痛苦为真一切皆假。宗教貌似也远不能普度众生，最多是抚慰一小片。至于科学则是鸦片。让所谓科学家在虚假的高高在上中，求得半片玩积木的兴奋和满足。

邓:
立委登场，讨论正式开始，

彭:
已有的宗教如果不能普渡众生，就只能创新教，当教主了。@wei

李:
当教主肯定更惨。做个追随者至少还可以把负担转嫁教主的重负转谁呢？

白:
不同领域，宗教尽头到来的时点不同。有的早有的晚。

洪:
假设鱼缸水不浑，
科学/哲学可显灵。
鱼缸壁若玻璃弄，
宗教可以很理性。

李:
面对终极问题一切那么苍白。高人不高哲人不哲敬畏之心难存。

邓:
白老师本质上是认为科学发展会终结宗教？

张：
还有一种可能就是科学发展证实了宗教

邓:
洪爷的说法是两者之间有无法逾越的边界？

李:
都不能解决人类的痛苦问题。

白:
说的就是人类的痛苦问题，科学一定会有办法。

邓:
刺激神经中枢吗？

白:
不是人类整体的痛苦，是一个个具体个体的痛苦。

张:
具体个体的身体痛苦通过科学一个个在解决了。但是精神层面的痛苦无法解决的。就像科学对我们身体的自愈能力一无所知一样。

白:
精神痛苦需要举例，然后看搞定它的途径和时间表

洪:

鱼跃出水有可能，
科学宗教一时懵。
落回或许先知成，
天慧法佛眼开睁。

白:
@张现阶段科学不等于科学。

邓:
@白终极的科学是不是等价为绝对真理？

白:
不是。搞科学一般都怕谈“真理”。

张:
精神痛苦的例子太多了，幼年丧母、青年丧父、中年丧妻、老年丧子、失恋，被甩。。。

邓:
如果科学认为不存在真理，宗教又把自己定义为真理，那么是不是可以理解为完全两件事？

张:
估计在地球上找到绝对真理的时候我们要移民外太空了。科学的真理好像是相对的，而宗教的真理是绝对的。

白:
失恋跟记忆关系很密切。如果可以干预和改变记忆，对待失恋的态度也会有所不同。

邓:
原来@尼大师提到“自我”的容器问题，就是那个换头术悖论，跟白老师这个观点探讨的方向一致吧。

鸣:
精神痛苦，多与欲望相关

白:
执着都是有物质基础的。现在不敢动这个物质基础，主要是怕误伤。如果定点改变，确保不误伤，改了又何妨。离开要解决的问题，真理的绝对还是相对就是个伪问题。有了要解决的问题，大家就直接比疗效好了，不必涉及那些伪问题。

张:
失恋不要被忘记。那也是一种情感需要被回忆的。有了痛苦才有反差，否则人生又有什么意思。

白:
想保留反差就谁也别找，不想反差太大就定点微剂量清除记忆，在这点上宗教活儿太糙，论精准还得寄希望于科学。

邓:
@白 “基督教是现代科学的接生婆”跟您的说法一致吗？

白:
也不尽然吧……

邓:
宗教的尽头是科学

张:
或者科学的尽头是宗教

邓:
现在是张老师力战白老师

张:
来搅浑水。
白老师是严谨的科学家，我们是来搅搅乱。

邓:
必须有人捣乱才能激发白老师讲话的欲望。

白:
娱乐而已。

邓:
@尼大师该你了。向白老师开炮。咱们那天关于这个主题聚聚。顺便听白老师弹琴。
@白《those were the days》这歌用曼陀铃应该不错。

尼:
好多讨论的词汇没法定义。例如，"人文"在文艺复兴时的意思是为了和“神”唱反调，科学也算人文，但几经周转，人文语义迁移了。在中国，就成文科生的意思了。

邓:
请大师先定义词汇

尼:
哲学也一样。一种方便的定义是哲学就是哲学系教的那些玩意。那恐怕现在的哲学和100年前哲学不一样了。再过10年，逻辑就不算哲学了。我得开会去，晚上喝两口再聊。

阮:
对于一个生命有穷的个体来说，科学能解决的问题少之又少，当科学不能解决时，就赖宗教获得个体幸福了。因此，科学的终端是宗教。

白:
@阮宗教就是昨天的科学

李:
一个显而易见的事实是科学技术的进步带来了物质繁荣但人类的精神问题没有减少貌似日趋严重，至少是停滞的感觉与科技的一日千里无法比拟。

白:
人类不好伺候啊。
穷也矫情，富也矫情。

阮:
科学伺候的是客观世界，宗教伺候的是人类精神世界，目的不同。

张:
白老师，宗教比科学早啊

白:
对啊，宗教的明天是科学。一个意思。

李:
宗教要真伺候得好为什么还有那么多迷途羔羊？
譬如执着心，佛教甚至fl功都有很多放下执着心的教义，道理是深刻的，几乎无懈可击，可是怎么那么违背人性难以接受？

张:
其实科学和宗教确实很难放在一起，科学也许永远找不到最终的答案。

阮:
这世上有这么多无知的人，为什么不说科学伺候得不好？

白:
@阮不一定啊。你以为高保真音响只是伺候耳朵的？不是的，是伺候听觉欣赏的。

马：
@阮看你怎么定义终端。科学和技术要分开。享受属于技术。

阮:
@白科学求真，让人类获得享受是副产品。

李:
好吧就说死亡不可抗拒这个我等可以接受（虽然也是经历很多才接受的）。那么在我们死亡之前的这些日子里，我们每个人都想减免痛苦，可痛苦依然挥之不去。

马:
所谓死亡只是换了一个躯体而已。

白:
说不定吃一种药就不怕。又减少痛苦又不上瘾。到时候再痛苦就矫情了。

dl:
人之所以痛苦，在于欲望，而其中相当部分欲望，与个体独立性反相关，社会科技越发达，社会越富有，反而大家都落不着好了，这就是现代社会的一个毛病。典型的是权力的欲望。

白:
藏族人对死的态度很豁达

李:
痛苦二字也许太抽象但我们多少人没感受过一个 “累” 字。人生真累。活着真累。

dl:
越是发达的社会，越是号称平等自由的社会，人们从权力方面获得的满足感越少。越是专制，反而每层都能找到权力的感觉。

阮:
人类麻烦事太多，除了生死，还有一堆其他的。科学帮助解决问题，不能解决的就用宗教。

白:
能量极小化，就是懒；物质极大化，就是贪。

李:
其实这种累的感觉，不是简单的欲望不得满足。

白:
都想出人头地才累。

dl:
归根结底，出人头地也是权力欲望。没有雄心壮志，就比较容易快乐。

熊:
虚其心，实其腹，弱其志，强其骨，美国政府在做的。

白:
权力欲望也一定有物质基础的。吃药可医。早晚的事。

李:
在古代流行的是简单的快乐。进入文明社会简单的快乐的能力现代人丧失了。
我们的远亲猿猴就没有人类这么多这么深这么厚的痛苦。

dl:
以前皇帝的物质条件未必比现在普通人好啊，但是快乐太多了。现代社会另外一块问题，就是虚伪性，其中最大的就是婚姻制度，也是导致痛苦的主要原因。本来古代制度性解决的问题，现在需要每个聪明人耗尽自己的才智，其实也解决不了问题。@wei 主要是一夫一妻制度的推广造成的。

李:
那就废除这个制度好了。可群婚也不会幸福。

dl:
太多成功学，个人奋斗案例，给大家打鸡血，也是导致大家辛苦的原因。美国鼓吹的那一套人人奋斗也是大家痛苦的原因。以前不成功还可以把原因推到制度上，现在只能埋怨自己了，能不痛苦吗。

邓:
看高手过招真心快乐。@白将来我们都喝老爸茶、弹琴、斗嘴。

李:
过度紧张过度竞争恶性竞争肯定是罪魁之一。

dl:
人之所以快乐，无外乎比别人优越那么一点点。也许现在宗教存在的意义，就是我失败了，能让我找到一点点借口。否则就是赤裸裸的自我解剖，太痛苦，没几个人受得了。

李:
找不到工作社会上混得不好肯定不快乐。
但有一个不错工作的人也往往快乐不起来

白:
这点借口，科学也会给的。将来都ai了，找不到工作是常态。

dl:
很重要的一点，和身边的人比较起来，是不是优越。最谦虚的人，内心也是希望得到别人的恭维的。最不在乎的人，他在乎的东西，超乎我们的想象，除非这个人完全破罐破摔。

白:
把自己贬低到常人难以接受的水平，来恭维别人的人，一定极其阴暗，破坏力不可低估。自尊心是守恒的。这里按下去，就意味着一定会在其他地方冒出来。

李:
回想起来人生中比较真切的快乐的确有就是助人为乐远比自己得到好处快乐得多。这个助人为乐首先是亲友。看到自己爱的人亲友由于自己而改善了境遇那种满足幸福感相当不赖。如果觉得自己可以帮助全世界，快乐就源源而来。

dl:
@wei 这也算一个麻醉剂。中国人这个达则兼济天下的思想，本来就是高高在上的。
明白嘛，高高在上。帮助他人，也是体现自己优越感的好地方，当然客观上是有好处的。仔细分析，从内心来讲，并不比我要出人头地高尚多少。

白:
精英已经失去了代表人类平均感受的资格。

dl:
@白现代社会的痛苦，就是精英阶层弱化的痛苦。

白:
去精英化

李:
暴发户回家乡办学就是这种幸福的展示。

dl:
@wei 你说的这种东西，并非精英阶层追求的东西，而是把精英阶层平民化的过程。这里有一种不可调和的东西存在。

李:
雷锋的快乐就是，做好事不留名，记在日记里自我欣赏的感觉超级棒。

高:
雷锋不识字，何故多记事

dl:
@wei 雷锋这种现象，主要还是愚民策略的一个证明

李:
一介武夫无权无钱不富不贵但没人否认，雷锋是幸福的每一天活得那么充实满足。

dl:
反正在这个群里，我得到的快乐，肯定没有我的粉丝群里得到的多，这是肯定的。原因是肯定的，这个群里大家都很自我。没有人太屌谁，这就是以后社会发展的一个趋势。

白:
反过来说，精英扎堆儿的地方，不适合精英自我表扬。

桂:
李白是计算语言学界活雷锋。

dl:
所以每个人权力获得感会大幅下降，这是必然的。预测以后的世界，每个人的存在感问题会更大。这会是一个主要问题。

白：
唱戏当皇上也是爽的。
以后ai发达了，nlp发达了，慕容复何至于那么孤单，可以乱真的奴才臣子还不是要多少有多少？权力欲真那么难满足吗

dl:
@白反正我不会和机器人谈恋爱。
这个每个人细细体察内心就可以知道

李:
不要说那么绝对。没人会拒绝快乐，快乐来自人和机器不重要。

白:
来自药物和现实乃至虚拟现实，也不重要，关键是不要有副作用

dl:
精英阶层的人士，快乐在于控制和影响力，不在于太物质的东西。而世界趋势在背道而驰。庸俗化正在席卷全球。
@白吃药也许可以。五石散。魏晋南北朝，其实也是一个世家没落的时代，和现在有点像。

白:
所以科学宗教哲学，说到底都是solution，是骡子是马，最后都要在problem面前遛遛。

dl:
@白同意。问题是这里面存在不可调和性。发展趋势和人快乐的基础之间有不可调和性。这是现代社会的一个重要问题。庸俗化引起的权力满足感丢失，可能是问题的核心。

顾:
科学和宗教类同，只不过科学适用面宽些，预测能力强些。

白:
人太多了，逆选择一下也是必要的。这么辛辛苦苦伺候都快乐不起来的人，还是哪儿凉快哪儿呆着去吧。

dl:
目前解决方案，就是创立一个公司，然后去当土皇帝。这才是正道。所以要创业。这才是创业的终极目标啊。公司目前是满足权力感最好的形式。

白:
权力自由但财务不自由的创业，好不到哪儿去。

dl:
@白这就是你说的唱戏当皇帝也快乐啊。

白:
自己印钱啊，虚拟货币。
想象力太受现实束缚了。

dl:
@白我只是调侃一下而已

白:
我调侃两下行不

dl:
当然可以。以后都去参加拜公司教就好了。这就是宗教。solution直面最核心的问题，精英阶层存活的意义就在于此。

白:
ai让你唱戏当皇上比真皇上还爽，连个不爽的理由都找不出来。

dl:
@白现在很多人沉醉于虚拟网络，可能也和这个有关系。找到了存在感。但是如果获得太容易，就没优越感了。存在感其实在某些意义上等同于优越感。

白:
那容易啊，工作量证明，挖矿挖到了的当皇上。

dl:
@白其实发明一种机制，让人去做梦，这样人的一生其实不需要活动。可以拍一个电影，以后少数精英人士操纵社会，大多数人生下来，就被装在器皿里培养做梦，大家觉得如何？都很快乐。其实社会本质未尝不是这样？

邓:
今天讨论这么热闹@尼得发个红包。

【李白之44：“明确”是老子还是儿子，需要明确】

白:
“北京大学率先明确入雄安路线图”。“明确”是副词还是动词，需要先明确。

李:
我觉得这不是问题的关键。pos 在抽象层面只规定非常宽泛的框框。关键还是语义之间的相谐。正确的问题不是pos，而是 “明确” 在这里是状语（儿子），还是谓词（老子）。在【明确＋ vp】里面，pos 上它没有什么限制，所谓跨类词。跨类就是两可。对于跨类这是一个没啥意义的问题或者说这是一个 circular 的问题。

“明确”的最常见的 subcat 带的是 np，但是在 “明确v” 出现时，这个 v 可能是 vp，因此 “明确”可能做其状语。也可能这个 v 是np内部的修饰语。

（1）明确规定游泳违规
（2）明确规定严明纪律这两条是整顿金融秩序的关键所在
（3）我们要明确规定条例

大数据可以帮到（1）；（2）是排比的力量压住了大数据，把潜在的动宾可能激发出来。但排比因素的形式化实现还需要探究（虽然形式特征在人看来是蛮明显的）。（3）仍然歧义：“明确（地）规定（相关）条例”，还是　“明确（一下）（有关）规定（方面的）条例”？大数据似乎选择前一个解读，为什么我们仍然感觉得到后一种解读的可能性。设想如果大数据中 “规定条例” 比例开始高到可以与 “明确规定” 相匹敌的时候，这就是大数据也搞不定的边界之争。

白:
“北京大学率先明确入雄安路线图”这个例句中，“明确”只有一种走得通的词性，就是动词S/N,X。如果是副词，“入”就会过饱和。虽然过饱和也是能处理的，但放着正常饱和的不用却去用过饱和的，终究不妥。因为“入雄安”只剩下一个坑了。副词“S+”不会改变萝卜数和坑数。

李:
“率先明确入雄安的是习大大吗？当年是毛主席率先明确入京的。虽然有人提议仍在南京建都。”　什么叫入的过饱和？

看样子 “明确” 的subcat 也有带 vp 的，虽然不如带np的 subcat 用得广。

另。假设 native speaker 的语感与大数据（作为语言共同体语言表现的代表）吻合（实际上当然不会总是吻合），那么大数据搞不定的歧义就应该视为真歧义。大数据能搞定的就是伪歧义尽管这个伪歧义以前被认为是句法真歧义。“以前”指的是没有大数据语义中间间或没有语义或常识消歧手段的句法分析器的那个时期。

【相关】

【李白宋53：聪明的一休与睿智的立委】

宋:
“禁止违规游泳”（1）凡游泳皆违规，禁止游泳。（估计这是标语牌的本意）（2）游泳还是可以的，但不得违反相关规定。（相关规定是什么，并不知道）

蕫:
宋老师，是的，应该是'在此处游泳均属违规"。我还见过“禁止野浴”。

李:
“禁止违规游泳”这个问题蛮典型就是修饰语的限定性还是非限定性的问题。所有游泳违规均在禁止之列，这个解读是非限定性的。限定性的有：

“欢迎持照游泳禁止违规游泳。”

“以下游泳行为一律视为违规本游泳池有权禁止入内或强制驱逐：
1 不穿泳裤者：便裤普通内裤不得入内。裸泳绝对禁止。
2 传染病患者
3 无会员证者”

汉语句法前修饰语默认为限定性。就是说有修饰语集合就变小了成了原概念的真子集。而非限定的修饰语解读属于例外，是值得具体研究的现象。

白:
“聪明的一休”，还有不聪明的一休木有？

李:
聪明的一休很典型。再如吾党的伟光正：伟大光荣正确的某某党。语言学认为默认为限定，吾党认为是非限定。这是自封的本性不改变集合的外延。如果抠字眼，可以说：
“伟光正的党万岁不伟光正的党必亡。”　搁在文革，这就是恶毒的反标，现行反革命，要坐牢的。

如果非限定性有句法形式的区分手段那就好说。譬如英语非限定定语从句，前面加逗号不允许用 that 作为连接小词。这些都是句法形式的规定与语义相呼应：

限定: “I like the guy that just won the Math Olympic modal ”
非限定: “I like the guy, who just won the Math Olympic modal ”
== “I like the guy, and he just won the Math Olympic modal ”

但是如果没有形式区分就是一个特别值得探究的现象究竟是如何出现的什么因素决定了非限定。我觉得非限定修饰语的产生就是语言表达的偷懒，或discourse意义上的降格。偷懒表现在本来应该是独立子句表达的语义被凝缩或降格为前一句内部的修饰语了，做了小三，但表达的却是原配。除了偷懒造成可能的困惑外还有轻视或侮慢原来语义顺带一提的语用或风格的因素。

白:
这个和反事实条件句有得一拼。汉语不太看重程序正义，如果你知我知没有不聪明的一休，那聪明的一休就是非限定的。

李:
“朦胧的月光”，是非限定。“火热的太阳”，却是限定性的，因为“惨淡的太阳”、“昏黄的太阳”也是存在的。"Stupid me", 这个是非限定的。它等价于 “I m stupid”，虽然严格说我应该也有 intelligent 的时候。逻辑与语言的不一致就在这儿。

白:
哲学上较真儿起来，没有绝对的同一性。上一分钟stupid，这一分钟不stupid完全可能。所以非限定就是一主观的“锁定”。让你不游动，定格在某个特定的属性上。

李:
对。
可是怎么在说者与听者之间达成这个锁定，使得理解无误呢。“伟光正”的锁定是洗脑的结果。“聪明的一休”在狭窄的domain，是新造的脸谱化人物，也是绑架的。“美丽的西施”是历史的共识，还有 “睿智的诸葛亮”。如果说 “睿智的立委”，那就是恭维拍马或嘲讽了，虽然也是锁定，因为说这句话的时候是没有假设存在一个愚笨的立委作为对照的。但是，可以说：“睿智的立法委员肯定不会投票赞成这个法案的，少数愚蠢的立法委员除外。”　这就是限定性了。当然，立委与立委不同，专有名词从集合论上说只是一个元素，排除时间维度可能的变化以后，这个元素是不可割裂的。普通名词常表示类别，所指是一个集合，于是给子集的限定性留下了余地。

白:
先有脸谱，锁定才成为可能。与脸谱不符，那是高级黑。

李:
这里脸谱就是英语的 stereotype，带有默认属性的实体，当默认属性成为修饰语那就是非限定。默认以外的属性作为修饰语，就是限定性因为这增加了信息量。伟光正的信息量为零。作为修饰语不是为了传达信息，而是为了宣传或气势压人。把默认属性提出来作为修饰语虽然没有增加信息量，但可能有强调或比照的语用效果。如果我们知道隔壁老张是个矮个子，然后说：“小个子的老张摔跤大赛中得了冠军”，这个已知内容的非限定性修饰语加强了意外成就的效果：see，大家都知道老张是个小个子，可是他虽然个子小，本应处于不利，他却赢了。

宋:
一般情况下，对于个体的修饰，通常是描述性的。对于多个体的集合的修饰，就有两种解读了。刚才说的是定语。如果是状语，则往往是描述性而非限定性的，因为通常是叙述一个特定的时刻特定对象发生的行为。如“他违规使用电器”。但是，在“禁止”、“提倡”、“要求”这类语境中，状语往往是限定性的。

白:
刚转了一篇关于陆奇的采访，用的称呼是“微软最有权势的华人”。且不说他是不是适合这顶帽子，这里涉及到定语的限定性用法和非限定性用法。如果中心语是集合，那么定语可以筛出一个子集。如果定语是一个个体，it depends。

“原来的我”，实际上把一个个体在时间维度上分片了，筛出一个时间段。而“聪明的一休”则根本没有任何限定。“假马克思主义者”则针对原来的集合在其外面构造了个集合。

李:
这个限定还是非限定的问题在做 sentiment 时候挑战可大了。选定的定语有褒贬的话对于被限定的实体是直接影响。非限定则不然根本就不存在褒贬评价只是把对象用褒贬的维度做了客观的分类说明而已。可惜二者的形式区分很微妙不好区分。“道德败坏的四人帮" 是贬四人帮，"道德败坏的人是环境使然还是也有遗传因素呢仍然有争议" 谈的不过是人类的一种，是在“人”这个集合里面限定一个子类，语义议论，并非针对“人”做否定性的价值判断。

白:
“道德败坏的人”两个意思。限定用法，指人类中道德败坏的那部分。非限定用法，指人这个物种就具有道德败坏的属性。

梁:
白老师是说，限定性把概念的外延限定变小了。“聪明的一休”没有"限定“一休，只是说一休有”聪明“的属性。

白:
是啊，正是。所以“丑陋的中国人”其实也有歧义的，只不过作者毫不隐讳他说的就是非限定性的意思。

宋:
英语的关系从句也有这两种（全体元素具有该属性，或抽取出具有该属性的那一部分元素），它们的区分有无形式标记？

白:
感觉：1、后置定语往往是限定性的；2。分词做定语往往是限定性的；3、有定形式（比如受定冠词管辖）往往是非限定性的。

我：
限定非限定可讨厌了，有没有形式痕迹？有，英语中，我们尝试发现蛛丝马迹，也的确发现一些，类似白老师说的。但是非常微妙，稍不留神就 overkill，这个问题对 sentiment 非常重要，除非牺牲 recall，对定语一律不抓。如果想要那个 recall，precision 就会影响，如果这个问题不细心的话。烦死啦。

利用句法和pattern 都这么难缠，没有结构帮助，这个 sentiment 怎么弄，是不是就是瞎蒙。By the way, 英语中的术语限定性（restrictive）与非限定性似乎正好与白老师说的意思相反。教科书上，英语中最典型的区别和说法是，限定性定语从句前面不能有逗号，用 that 或 who、which，非限定性定语从句有逗号，不能用 that。因此，非限定性定语从句与另起一句差不多，是对NP的整体做进一步讲解，而不是对 NP 做限定性分类。但实际的情形复杂多了，这与 NP 是不是专名，NP 前面是定冠词还是不定，是不是复数，等等微妙条件的组合效应有关。

Case by case，人大致可以判断是哪一类，或是是不是歧义（或两类都有），但从这些语感中总结出一组可靠的条件，颇费功夫，要不断到数据去求证，才逐渐感觉有个眉目，这里面结构是必需但不是充分的因素（没有结构，是不是定语都不见得摸得门，就更甭提区分两种定语了）。应该算 NLP 难点之一。看哪家系统，用什么招，可以成熟一些。迄今所见所闻的学习出来的 sentiment 系统，对这个挑战似乎束手无策。

【相关】

【强弱人工智能之辩】

董: 两周前陪一位朋友去做肠镜。医务说明上写到：肠镜有风险：肠穿孔是1000:1；大出血是：500:1。后来我想到了伟大的人工智能（AI）和机器人。其实将来可以研发专门的机器人来为患者做肠镜，如果肠穿孔低于1000:1，不就成功了吗？后来又一想不对呀，以后等机器人把肉身人类都消灭了，哪还要做肠镜呀。人类的未来真是太美妙了。没有疾病，没有穷困，没有战争！

我: 董老师，相信所谓强人工智能，甚至所谓超人工智能的，主要是两类人：一类是部分权威或大佬，霍金、比尔盖茨之类；另一类是被小报或科学幻想洗脑的百姓，而编这些科学幻想故事的人基本是出于猎奇的本性。后一类人可以忽略。其实，第一类人，到目前为止，大多还谈不上相信所谓强AI，他们主要是提出要警惕AI可能带来的人类灾难，这是为强人工智能开了口子。这类人不是简单地可以否定的。也不能仅仅归结为他们在忽悠，因为他们足够高大，已经超越了通常意义的忽悠（动机为好处、为金钱、为funding、为耸人听闻等）。

相信不相信强AI已经不再是学术之争了，而越来越成为信仰之争，世界观之争。两派都有大师做后盾。乔姆斯基是强AI的否定派，有人问他：机器会思考么？乔老爷反问：潜艇会游泳么？乔老爷认为强AI是无稽之谈，不值得讨论的话题。但霍金、比尔盖茨等人则未雨绸缪，开始担心强AI了。

从自主思考的意义，我们作为强AI否定者，可以与乔老爷一起斥其为无稽之谈，学术上这个所谓强AI是一个不值得认真对待的问题。但是，从现实考量，警惕强AI论者有其积极意义。这个意义表现在，随着AI系统越来越复杂，创造系统的人可能失去对其全面的掌控和了解，这样来看AI系统，其风险的确在增大，而这一点是不难想见和同意的。

我们先撇开AI看人类的科技进步。事实上，立足于科技进步所带来的毁灭人类和世界的可能性早已存在：如果核按钮掌握在极端主义手中，这是完全可能的事儿。人类对此危险的办法是，限制核武器发展（制裁北韩是举措之一），对于已经掌握核武器的大国，也有一些措施试图保证不至于因为误判或误操作而造成核灾难和大毁灭。如果 AI 系统以后被用于一些敏感的地方，而且系统的复杂度和演化越来越超出人脑可以理解和控制的程度，那么出错以及错了难以阻止的可能性不是不存在的，虽然这与机器自主思考没有一毛钱的关系。

从功能角度，从图灵测试的标准看，潜艇与鱼一样会 “游泳”（先摈除这个字眼本身纯粹从语言带来的专属于动物的限制），飞机与鸟儿一样会 “飞”（还好，语言中这个语词似乎更超脱一些，没有强加隐含的动物限制）。这一点是没有什么疑问的。乔姆斯基实际上是利用了语言学的 trick，打了一个世界观之争的漂亮仗。但严格意义上，有点胜之不武。作为语言大师，他知道如果说潜艇会游泳（尼克说，这是乔老爷拷贝别人的比喻），在一般人心中，会天然地导向无稽之谈的感觉。

张: @wei 向您致敬！

我: 跟董老师讨教，我们都来致敬董老师。我们都是董老师的好学生和追随者，现在话说，粉丝。

张: 我最幸运的亊，一踏上人生和学术之路，就有董老师这座“灯塔”一直照耀我，后来又照耀了我女儿。

我：我一辈子最幸运的事儿，就是在 career 开启的时候，遇到了两位刘老师和董老师，董老师虽然不是直接的导师，但当年的接触和给我的教诲，终身受益。董老师的逻辑语义的论文（逻辑语义及其在机译中的应用）是我的启蒙读本，当年细嚼慢咽读了很多遍的。

白: 动词对主语的专属强度，其实也是与时俱进的。比如“告诉”，之前只能用于人，但是现在可以用于搜索引擎了。专属强度就是世界观的一部分。

我: 总之，我们虽然是乔派，我自己更是董老师派，但我想说的是，这个争论不是简单否定那样简单。这就好比明智的无神论者或不可知论者，已经很难简单否定上帝的存在一样。

张: @董 @wei 读你千遍不厌倦

董: 曾经观看过传销的影视。传销有三个要素：强忽悠、强洗脑；一个好的有能卖钱的产品；一群容易跟风的受众。AI曾栽在了五代机上。后来找对了诸如语音、马克杯识别、在后来有象棋和今日的围棋。谷歌等的“可穿戴”、微软的看脸猜岁数等好像下岗了。如果AI能用于灾害预报，恐袭预测和防止该多好，多紧迫啊。任何的研究，尤其是与人类自身相关的题目都是应该鼓励的。但是不要把某种研究神话、神化，更不可以用来当迷信似地吓唬人。例如“大脑计划”是好题目。AI人应该是经验主义者，他们说要警惕人类会被机器人消灭，有实践能证明吗?

白: 一些古老的仪式感动作感很强的词，当新技术用更好的动作也能达到同样的最终结果时，就被古董化了。比如：“打印机会写字吗？” 打印机可以呈现写字的最终结果，但摒弃了写字的狭义动作和过程。潜艇摒弃了游泳的狭义动作和过程，只呈现水中位移的最终结果。这种仪式感动作感太强的动词就没办法随着技术的发展与时俱进了。飞就不同。

我: 所以我说乔老爷用那个比喻虽然妙绝，多少有些胜之不武。

自然语言语词，经常带有非逻辑必须的核心语义以外的零碎。这些零碎有助于我们在discourse中找其关联部分，但也容易被其绑架，进入“标配”的认识误区。

马: 还有洗衣机等，用张老师的话说，如果当初研制洗衣机的，想造个机器人，用搓衣板洗衣服，哪年才能做到啊。

白: 在围棋界，“想”是可以用于AlphaGo的。

马: 蒙特卡洛树搜索就是想吧。

梁: 造个机器人帮我洗碗 , 洗碗机？

白: @马搓衣板还有其他妙用

马: 惩罚老公？现在改用cup了

我: 如果坚持机器不能 "思维"，只能 “计算”，那么几乎所有的 AI 术语都应该推倒重来：机器翻译（MT）是无稽之谈，人工智能是弥天大谎，自然语言理解（NLU）亵渎万物之灵，神经网络（NN）肯定是神经病的臆想。

张: @wei 句句是真理呀！开始崇拜啦！

马: 可以扩展计算的含义。

白: 不同层面吧。分子只能碰撞，一堆分子却产生温度。

梁: 基本同意“人工智能”就是一个大词儿，吓唬人。空洞的，只有广告宣传造势意义的大词，以“人工智能”为例，可以写一篇文章。

我: 但是术语已经站住了，各有各的理解，怎么办？于是出现了，强AI、弱AI 之争。

马: 我是弱AI派。

我: 加了一个前缀，我们便稍觉心安，原来我们可以一致同意的是，机器可以模拟人的某些知识功能和白领劳动。我们叫它弱人工智能。

白: 整体论和还原论。强弱AI是哲学，不是科学。

我: 我应该也属弱AI 派，不过真心觉得，这个 AI 或 NLU 都有加速度发展的趋势。不见得是硬件的摩尔定律那种速度，但的的确确超出了我们以前的想象极限。我入行的时候对多语 MT 的梦想，现在已经被 SMT（统计型机器翻译）提前实现，无论我多么批判 SMT 缺乏结构和质量不佳，可现在的在线多语自动翻译唾手可得的局面已经远远超越了我们当时的所有想象。自然语言理解的核心引擎 parser 也是如此。我做梦也想不到，在我有生之年，除了英语和其他欧洲语言外，对于我们这个据说只有意合缺乏语法的伟大母语，我一介书生，可以设计开发出一个现在展示出来的 Chinese parser，接近人工的水平，达到实用的高度。这是最让我感慨的《美梦成真》。当年要是一路做老式的规则MT，先得被SMT气死，然后重生，最后才可以对决，好在 IE （信息抽取）诞生了，我于是转向去做 IE，有深度 parsing 做底，一做17年，无往不利。天不我欺，幸运啊。

马: 统计把AI带向了实用。

白: 弱AI的边界会被人类的专属动词一个一个打穿。到时候，没打穿的是因为太古董，不值得打穿。非不能也是不为也。做一个机器人会游泳还换气，有意思吗？不管SMT水平多矬，翻译也不是人类专属动词了。

我: 对，在我们下一代中，机器翻译已经天然有理了。不像我刚入行的时候，我的文科研究生同学无论如何不理解机器怎么可以翻译，这应该是专属于人的高级脑力劳动。同学当年瞪着一双又是佩服又是恐惧的眼睛，我的印象极为深刻。

白: 昨天我就感慨，人工智能就是人工原罪，你的使命就是把各种专属拉下神坛。

马: 我女儿小时候写作文，总是先搜索一番，都不知道谁教他的搜索。以后翻译也差不多吧。

白: 还有学习，也不专属了。

马: 从数据中学习机器强于人。

我: 现在的困扰是，我们不知道如何定义灵性。我们可以感受它，也知道它是人机的本质区分，可就是无法精确定义它。

白: 还好灵性不是动词，可以放一放。

我: 凡是可以精确定义的灵性的某种表现，似乎都可以被模仿。有的已经不仅是模仿，而是超越。细思极恐。

孔子说，三十而立，四十而不惑，五十而知天命，六十而耳顺，七十而从心所欲不踰矩。知天命就是顿悟的境界了。自感顿悟确需多年的历练，不到 50，没有足够的积累，的确极难。睿智如白老师已经耳顺，那又是一个高度。董老师更不用说了，那是天马行空随心所欲了。即便在下，现在看问题，与10几年前看问题就不同，莫名其妙地有一种穿透的感觉，所谓洞若观火。当然指的是自己的一亩三分地，不是说的大千世界（能穿透大千世界的应该是董老师、乔老爷或者星云大师这类高人，我等肉身凡胎只看得见自己的耕耘）。

【相关】

【李白之43：谈谈绑定和回指】

白:

him为啥指he而不是the police officer？按照“最近提及原则”，the police officer在栈顶，“he”在次栈顶。但，语境（图片）表明，“he”在牢狱中，事理指向出狱（go）。事理决定了police officer可以决定he是否go，bribe可以左右police officer的决定。这些事理指向，一旦达到边界强度，可以压制最近提及原则的标配结果。

李:
"He bribed the police officer to let him go" is like "He requested the officer to find him". "him" cannot refer to "the officer", it has to be somebody else, either "He" or someone else.

cf: "He requested the officer to find himself"

"himself" refers to "the officer".

白老师的道理是说语境（事理）可以突破 heuristic。凡是 heuristic 都只是一种趋向，一种原则，也都有例外，都有被其他因素override 的可能。这个道理是对的。但这个案例，却不需要语境出场，这是句法绑定（binding）本身就决定了的。

"bribe" 的subcat 是：bribe sb to do sth, so "sb" is the (logical) subject of "to do",
the object of "to do" cannot refer back to the subject unless "self" is used following the Binding Theory. So in the coreference list, "the police officer" is not even registered as a possible candidate.

句法就排除了这种可能，因此也就没有什么就近原则与语境发生冲突的故事了。这是乔姆斯基的绑定理论的一个典型表现。不确定绑定的是谁，而是确定不能绑定的是谁。

白:
穿透了

李:
显示了句法的有限但是有效的作用。

"She bribed the police officer to let him go", now the subject is "She", still "him" cannot refer to "the police officer".　It has to be somebody else.

白:
him就是第三者，非反身性。

“John asked Bob to wash himself.”
“John promised Bob to wash himself.”

当年德国老师讲过这两个例子

李:
right.
this diff lies in the diff in subcat patterns. "promise" is not associated with the standard subcat "promise sb to do sth" when "sb" is the logical subjecct of "to do", it is instead associated with another subcat "promise to sb to do sth" when the logical subject of "to do" is the same as the subject of "promise".

所以句型不仅仅是形式序列: Input 形式背后作为output的逻辑语义也是句型的一个必要成分。上述两个形式相同的序列，在句型上被认为是两个。分别用不同的subcats 在词典里面标识。可见，subcat 虽然是一个句法范畴，里面却藏着通向语义的钥匙。

语言学里的subcat 差不多是大半部句法了，是极为重要的概念。词典主义被公认为最有效的自然语言策略就是基于subcat。这是语言学隐性形式手段的最漂亮的体现，是上帝的杰作。

白:
“我答应你离开他”，“我要求你离开他”。前者是“我”离开，后者是“你”离开。在“答应”和“离开”进行“合并”操作的时候，“离开”没有饱和的坑向“答应”的逻辑主语开放复用。在“要求”和“离开”进行“合并”操作的时候，“离开”没有饱和的坑向“要求”的逻辑宾语开放复用。这种在合并时可以对复用指向提出要求的禀赋，潜藏在词典里。平时看不见，合并时露峥嵘。

李:
正是。这是语言（学）的奇妙。由于subcat是一种词典分类或标注，是隐性形式，这似乎是创造语言的上帝给人类理解语言出了一个小小的难题。在人类（语言学家）没有发现subcat或自主利用subcat机制之前，语言处理注定是混沌的、粗线条的。但无论发现还是没发现，人类千百年来一直在潜意识里利用它，无障碍地交流。

白:
“面包我答应你吃掉了，牛奶你就别逼我喝了。”　即使填后面动词坑的萝卜移位到前面，这个关系依然成立。即使“你吃掉了”这么天衣无缝也不许结合。

李:
这个句子很妙。

白:
binding在汉语里会有更广阔的发挥空间，而且和“词负载结构”的理念是如此之契合。残坑就是一种变相的指代。

李:
但是，coreference主体是discourse范畴，binding不过是想利用句法提供一点帮助，它还是局限于句法本身的范围，句内。句内能搞定的只有self, 句内不能搞定但是可以排除句内candidate的，句法也有一些助益。再多，binding 就无能为力了。Coreference在 binding 之外，仍然有很多 discourse 的挑战。是一个公认的 NLP 难题了。

白:
“你我不允许走，他么可以商量。”---如果后面的动词是不及物的，即使逻辑宾语提前了仍然受到与在原位同样的约束。

李:
什么约束？

白:
走的不是我，虽然离得近。

“一个嫌犯我们也不允许放过”，“我们”似乎要通吃呀……　难道“允许”是个双性恋？

李:
句型纠缠？　一个也不 Vt　＝＝　一个也不【被】Vt
“一个也不（被）买”，“一个嫌犯也不（被）放过。”

“一个嫌犯我们也不允许放过”
＝＝“我们不允许放过一个嫌犯”
＝＝　“我们不允许【ｈｕｍａｎ】放过一个嫌犯”
＝＝　“我们不允许一个嫌犯（被）放过”

这个【ｈｕｍａｎ】是谁，不知道，也不必知道。这是一种命令，常识上这个【ｈｕｍａｎ】可以是任何人（在domain里可能指某些“手下”）。任何人也就可以包括“我们”自己，但这不是严格的回指，而是包含。

“我们也不允许自己或任何其他人放过一个嫌犯。”
“我们也不允许任何人包括我们自己放过一个嫌犯。”

【相关】

【李白之42：谈谈工具格的语言形式】

白:

“张三踢李四的两脚李四一直惦记着啥时候提回来呢。”

如果“两脚”填的不是标配的坑，这定语从句的反填就成了问题。目前我是把“两脚”这种动量词先处理成N，再升格成为+S，可以理解为一个自带宾语的虚拟后置修饰语。当对“两脚”使用定语从句修饰的时候，可以认为自带的宾语“两脚”与作为其母体的虚拟后置修饰语进行了某种分离：虚拟后置修饰语“+S/N”留在了定语从句内部，而它自带的宾语“N”则被甩到定语从句的外边，被修饰且可以反填残坑“/N”。同理，在“武松打死老虎的那三拳力道大得惊人”中，“三拳”也填不了“打”的标配的坑，只能理解为自带宾语的前置虚拟修饰成分（“打死”已经是述补结构不再能后置只修饰“打”的动量修饰成分，从而必须往“打”前面放）S+/N和动量结构N分离了。就是说，被定语从句修饰的动量词N，无法简单地升格为+S或S+，而必须要还原出一个带宾语坑虚拟修饰语+S/N或S+/N，把它推入定语从句。这恰恰才是N升格为+S或S+的本质。如果不是反填定语从句的要求苦苦相逼，这个本质差点儿被掩盖了。可以理解为先有“武松（凭借）三拳打死老虎”，而后有“武松（凭借）打死老虎的那三拳”，最后变成了“武松打死老虎的那三拳”。

说到“凭借”，想到了“借以”。后者是中间抽空了介词宾语的合成词。“武松借以打死老虎的那三拳”是“武松借（那三拳）以打死老虎”的定语从句形式。反填的坑，就在“借”和“以”之间。

李：
工具格，或所凭借。

白:
有的时候，这个坑会显性化，“借之以”。
砍、剁、刺、砸等动作，工具格是标配。打、抢，工具格不是标配。非标配又不显性带介词的工具格，必须借升格处理之。

李:
工具格有搭配性与非搭配性两种：搭配性工具因为其搭配常常省略显性小词如“凭借”、“用” 等。“打两拳” 是搭配，“两拳”是工具。“用板凳打”，则是非搭配性工具。

白:
“他抢银行的那把玩具枪”
意思是“他（用以）抢银行的那把玩具枪”

李：
“他抢银行的那个案底”

白:
“案底”是N/X，不需要反填，是动词填X。

李:
“他抢银行的那个同伙”

白:
“同伙”是N/N

李:

“他抢银行的那幢大楼”
“他抢银行的那个时间”
“他抢银行的那个缘由”
“他抢银行的那个后果”

白:
缘由、后果也是N/X。大楼、时间不是，但内置虚拟修饰语。必要时就分离出来，塞回定语从句。同伙、缘由、后果、案底，都带坑。时间、大楼、动量，则是内置一个随时可以分离的坑。或者叫虚拟小词。

李:
“他抢银行的那个x”
对于非搭配性（标配）的工具，也分为两种，一种是这个实体本身具有比较典型和普适的工具性。算是一个名词子类吧。另一个是不在这个子类的名词。对于后者如果想表达工具这个逻辑语义，就必须用小词。否则它就没有证据或痕迹显示自己的工具角色。“他用希特勒主义去抢银行”。这个 “用” 不能省。因为 “希特勒主义” 第一不与 “抢银行” 有搭配，第二它自己也不属于工具子类。语言必须要用显性形式，譬如次动词“用”，或者俄语的工具格的词尾形式，来标记其逻辑语义，否则心里的语义无以传达。

白:
“抢银行”换成“治理国家”，“用”就可以省了。

李:
那是因为 “主义” 与 “治理” 有某种搭配的呼应。

白:
且不说逻辑语义，统计就支持这样的搭配

李:
没有统计的搭配不存在除非说的不是大数据。

白：
不说“主义”，就说“那一套”，也可以省掉“用”，因为“希特勒”已经是足够强的搭配因素了。

李:
“他用那一套糊弄谁呀”
“是啊那一套糊弄谁呀”

白:
“那一套”隐含“方法/无形工具”
所以，对于从名词反推虚拟修饰语的“升格-分离-反填”机制，形式规则只提供可能性，统计搭配才提供现实性。

上面说错了，“升格”都应改为“降格”。降格虽是普适的机制，但只能紧邻被修饰语使用。分离是受统计显著性搭配条件才激活的，只有成功分离，才能在后续纳入正常的反填渠道处理。

被定语从句修饰的中心语，N/N与N/X的区别。前者从N栈依次寻找搭配的词语填坑。后者从N和S混合栈里的依次寻找搭配的词语。二者都服从“最近提及原则（last mentioned principle）”，但针对的栈不同。因为都在定语从句辖域内，这些填坑的萝卜都是使用的免费额度，无论S还是N。

李:
在我的体系里，arg 降格为 mod，【工具主语】降格为【工具状语】。如果 topic 是人，subject 是工具，topic 可升格为逻辑主语 arg，工具 subject 则降格为状语 mod.　“他一巴掌打了她”，“他”是逻辑主语，“一巴掌”是工具状语。

总之，逻辑语义虽然放之四海而皆准，自然语言却老在升格降格、显性隐性形式中变化多端。语言世界因此诡异而多彩。

白:
话头是宋老师“达成的一致”引发的。“一致”在宋老师的例子里确实是“升格”，但后续关于动量词的例子里，讨论的都是“降格”。N+到N、S+到S是升格；N、S到N+、S+或+N、+S是降格。一个是萝卜皮变成萝卜，一个是萝卜变成萝卜皮。

李:
“达成的一致” 就是 “洗的澡”

白:
？学的习
？高的考

李:
不好
有如 * “浏的览”

白:
洗的澡是自指，达成的一致是转指。

？收获的丰硕
？贪污的巨额

最后一个接近于能说。

取得的圆满

这个就完全没问题了。“圆满”基本可以类比宋老师例子里的“一致”。

赶过的时髦

“时髦”比“圆满、一致”还顺溜。几乎不是临时借用N而是固化的N了。

【相关】

白: RNN加层、计数器、加栈、加长时记忆，本质上都在突破单层FSA的计算能力。

《李白之零：NLP 骨灰级砖家一席谈，关于伪歧义》

题记：此地有金八百两，隔壁RNN不曾偷。

李：今天我们可以讨论伪句法歧义（pseudo-parses）的问题。我说过，多层 FSA 的 deep parser 不受伪歧义的困扰，虽然这是事实，但也还是需要一个阐释。这个问题是革命的根本问题，虽然文献中很少讲述。

第一章，事实篇。

话说某年某月某日，立委与白老师在微博狭路相逢。其时，立委正海吹深度分析（deep parsing）乃是自然语言之核武器，批评主流只在浅层做文章，摘下的不过是低枝果实（low-hanging fruit）。白老师当时插话说（大意）：你们搞深度分析的不算，你们也有自己的挑战，譬如伪歧义问题。最后留下三个字：你懂的。

各位看官网虫，大凡社会媒体，只要留下这三个字，那就是宣告对手的不上档次，不值得一辩，叫你无还手之力，无掐架之勇，先灭了你的志气。此前，与白老师未有私人交往，更无卡拉ok，江湖上下，白老师乃神人也，天下谁人不知，况青年偶像，粉丝无数。立委见势不妙，战战兢兢，唯唯诺诺：“那自然”。我懂的。心里却颇不以为然：伪歧义其实不是一切深度分析的命门，它只是单层分析的挑战，特别是 CFG （Context-Free Grammar）类 parsers 的困扰。

这是第一章第一节，是锲子。

虽然心里不以为然，但是“我懂的”，却是有丰富的事实依据。骨灰级老革命有一个好处，就是碰壁。无数的碰壁。革命，碰壁，再革命，再碰壁，直至百毒不侵，火眼金睛。老革命可能还有一个好处，就是走运，走狗屎运（譬如赶上上世纪末的网络泡沫，米国的科技大跃进，天上掉馅饼），直至反潮流也没被杀头，硕果仅存。

话说自上世纪80年代社科院出道以来, 就开始做deep parsing, 跟着两位导师，中国NLP的开山前辈，中国MT之父刘先生。他们的几十年的机器翻译积累，在分析这块的传承就是多层模式匹配（multi-level pattern matching）。用 CL术语，就是 multi-level FSA （finate state automata）或 cascaded FSA，有限状态的。我是苦力、主力，新毕业生嘛，为 deep parsing 写了无数个性的词典规则和反复调试精益求精的600条抽象句法规则。埋头拉车，无需抬头看路。从来就没有碰到过什么伪歧义的问题。这是事实一。

事实二发生在我做博士的时候，90年代中期。在风景如画的SFU山头上。当时我的两位导师，电脑系的 Fred 和语言系的 Paul 合作开了一个自然语言实验室。这两位博导虽也绝顶聪明，但毕竟还年轻。在 NLP 场面上，需要站到一条线上，才好深入。实际上，他们是加拿大 NLP 的代表人物。他们于是选择了当时流行的 unification grammar school （合一文法学派）之一种，就是继 Prolog 以后，开始火起来的合一文法中的后起之秀，名叫 HPSG （Head-driven Phrase Structure Grammar）。这一个小流派，斯坦福是主打，欧洲有一些推崇和践行者，在北美，闹出动静的也包括我的导师的实验室。HPSG 说到底还是 CFG 框架，不过在细节上处处与乔老爷（Chomsky）过不去，但又处处离不开乔老爷。理论上有点像争宠的小妾，生怕得不到主流语言学界乔老爷的正视。

白: 还没进正题

李：白老师嫌拖沓了？？现在还在事实篇内。不讲道理。

HPSG 推崇者不少，真懂的怕不多，特别是把 HPSG 用于中文 parsing 方面。看过一些国人不着边际的 HPSG 论，造成了这个印象。这玩意儿得跳进去，才知优劣深浅。当然没跳的也不必跳了，合一（unification）这一路没成气候，现在跳进去也是白跳，浪费时间。HPSG 有一个好处，就是它的词典主义，它实际上就是此前流行的 GPSG 的词典主义版本。NLP 领域各路英豪你争我斗，但有一个很大的共识，就是词典主义，lexicalist approach or lexicalist grammar。这也反映在 HPSG，LFG 等风行一时的文法派中。

我呢，有奶便是娘。本来嘛，导师做什么，学生就要做什么，这才是学位正道。于是，我在HPSG里面爬滚了几年。照猫画虎，写了一个 CPSG，就是 Chinese 版本的 HPSG。用它与实验室的英文 HPSG 对接，来做一个英汉双向机器翻译的实验，当然是玩具系统。这是我博士论文的实验部分。

为什么双向？这正是 Prolog 和所有 unification grammars （又称 constraints based grammars）所骄傲的地方：文法无需改变，文法就是对语言事实的描述，文法没有方向。无论做分析（parsing），还是做生成（generation），原则上，规则都是一样的，不过是执行层面的方向不同而已。理论听上去高大上，看上去也很美，一度让我入迷。我也确实完成了双向的实验，测试了几百个句子的双向翻译，得到了想要的结果。细节就不谈了，只谈相关的一点，就是，伪句法歧义在这些实验中是一个 huge problem。这个 HPSG parsing 中，伪歧义的事实有多严重呢？可以说是严重到令人窒息。当时用PC终端通过电话线连接到实验室的server上做实验，一个简单的句子在里面绕啊绕，可以绕出来上百条 parses。当然，可以设置成只输出一条 parse 来。有时忍不住好奇心，就耐心等待所有的 parses 出来，然后细细察看，究竟哪个 parse 对。

额的神！

乍看全长得差不多，细看也还是差不多。拿着放大镜看，才看出某个 feature value 的赋值不同，导致了 parses 之间的区别。可这种不同基本上没有语义的区别性价值，是为 pseudo parses 之谓也。要都是伪歧义也好，那就随机选一个parse 好了，问题出在，这百来条 parses 里面有时候会混杂一两条真的歧义，即语义上有区别性价值的 parses，这时候，选此废彼就具有了操作层面的价值取向。否则就是以一派压制另一派，反对党永无出头之日。

这个问题困扰了整个 HPSG community（其实是整个 CFG 框架下的 community）。记得在 HPSG 内部邮件组的讨论中，怨声鼎沸，也没人能找出一个理论上和实践上合理的解决途径来。

白: 简单说就是时间复杂性上去了，结果复杂性没下来。折了兵，真假夫人还混在一起不知道赔谁合适。

李：这就是为什么当时你那么肯定地指出我作为深度分析语言工作者所面临的挑战，您老是把我归到主流语言学乔老爷 CFG 的框架里说的。

在第一章事实篇结束前，简单说一下实践中的对策。后来我的导师与本省工业界合作，利用 HPSG MT 帮助翻译电视字幕。在真实应用中，他们只好选择了第一条成功的 parse 路径，完全忽略其他的 parses。这也是没有办法的办法。质量自然受损，但因为无区别意义的 pseudo-parses 占压倒多数，随机选第一条，在多数场合也还是可以的。

第一章小结：骨灰级老革命在没有理论探索的情况下，就在 deep parsing 的 field work 中经历了两种事实：一种是不受困扰的多层 parser，一种是深陷其中的单层 parser。因此，当白老师一口咬定深度分析的这个挑战的时候，我觉得一脑门道理，但就是有理说不清。至少一句两句说不清，只好选择逃遁。

对于绝大多数主流NLP-ers，NL的文法只有一派，那就是 CFG，无论多少变种。算法也基本上大同小异，chart-parsing 的某种。这个看法是压倒性的。而多层的有限状态文法做 parsing，虽然已经有半个多世纪的历史，却一直被无视。先是被乔姆斯基主流语言学派忽视，因为有限状态（FSA）的名字就不好听（多层不多层就懒得细究了），太低端小气下位了。由于语言学内部就忽视了它，自然不能指望统计派主流对它有重视，他们甚至对这路parsing没有啥印象（搞个浅层的模式匹配可以，做个 NE tagging 啥的，难以想象其深度parsing的潜力），尽管从有限状态这一点，其实统计派与FSA语言派本是同根生，二者都是乔老爷居高临下批判的对象，理论上似乎无招架还手之力。

白: 概率自动机和马尔可夫过程的关系

李：但是，多层 FSA 的精髓不在有限状态, 而是在多层（就好比 deep learning 的精髓也在多层，突破的是传统神经网络很多年停滞不前的单层）。这就是那天我说，我一手批判统计派，包括所有的统计，单层的多层的，只要他们不利用句法关系，都在横扫之列。因为这一点上还是乔老爷看得准，没有句法就没有理解， ngram 不过是句法的拙劣模仿，你的成功永远是浅层的成功, 你摘下的不过是低枝果实。不过恰好这种果子很多，造成一种虚假繁荣罢了。

另一方面，我又站在统计派一边，批判乔姆斯基的蛮横。实践中不用说了，管用的几乎都是有限状态。乔老爷要打死单层的有限状态，我没有意见。统计派的几乎所有模型（在 deep learning 火起来之前）都是单层，他们在单层里耗太久了不思长进，死不足惜，:)。蛮横之处在于乔老爷对有限状态和ngam多样性的忽视，一竿子打翻了一船人。

白: RNN可以完美模拟FSA, 但是现在的人都把RNN当做统计派的功劳。

李：但是他老人家忘记了, 我只要叠加 FSA 就可以比他所谓的 more powerful 的 CFG 做得深透，而且合体（特别适合白老师说的自然语言的毛毛虫体型）。他对有限状态的批判是那么的无视事实和缺乏理性。他是高高在上的神，不食人间烟火的，我们各路NLP实践派对他都敬而远之，基本没有人跟他走。在他本应发挥影响的领域，他其实缺乏起码的影响力。倒是语言学内部被他控制了，语言的形式化研究跟着他亦步亦趋走了半个多世纪，离作为其应用场景的 NLP 却渐行渐远。这是一个十分滑稽的领域怪相。

李：好了，咱们接着聊第二章：为什么多层系统，尤其是多层 FSAs ，不受伪歧义的困扰？

白: 只要证明毛毛虫以外不是人话，就只管放心玩毛毛虫好了。伪歧义跟规则的递归形式无关，跟规则的词例化水平和压制机制有关。但是，要hold住十万百万量级的规则，CFG一开始就必须被排除在外。

李：对。

说到底是规则的个性与共性关系的处理，这是关键。这个不是我的发现，我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为专家词典（expert lexicon ）系统，就是因为我们把个性的词典规则与共性的句法规则分开了，并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对，单层的 CFG 基本是死路。眉毛胡子一把抓，甚至所谓词典主义的 CFG 流派，譬如 HPSG 也不能幸免，不出伪歧义才怪呢。如果规则量小，做一个玩具，问题不严重。如果面对真实自然语言，要应对不同抽象度的种种语言现象，单层的一锅炒的parsing，没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合，但是在树本身的选择数目都在爆炸时，这种整合是不能指望的。

李：可以说得具体一点来阐释其中道理。分两个小节来谈，第一节谈多层系统中，单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制，比如“美国和中国的经济”’。“张三和李四的媳妇”

李：如果这两种伪歧义都有自然的应对方式，那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦，学文科的，生存下来不容易，各位包涵了。

白: 抽象的并列，天然优越于抽象的长短不齐。似乎并不关乎词例，词例化的、次范畴化的规则，都好理解。抽象的结构化压制，处于什么地位呢？

李：但是难得大家围坐在一起，忍不住借题发挥一下，顺带进一步阐释了上次“上海会面”上的论点：我对乔老爷既爱且恨，爱他批判单层统计派的一针见血；恨他一竿子打翻一船人，敌我不分，重理论轻事实。

白: 是因爱成恨好吧

李：我们实际上半条身子在统计派的船上，大家都是有限状态；半条身子在语言派船上，毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word，而我们的有限状态是真正的 ngram，这个“gram” 就是刘老师当年一再强调的 “句素”，是一个动态的句法单位，可以是词、短语或者小句，随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的，因为它反映的是真正的语言学，多数统计学家天然不懂。

白: 世界上只有深层派和浅层派，这是复旦美女教授教导的。我认为只要touch深层，无论什么派都会殊途同归。

李：先说单层内部的伪歧义。这个白老师心里应该没有疑问了，不过为了完整还是先讲它。单层的有限状态说到底就是一个 regex （正则表达式），只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层，面对的单位就是 words （or tokens）。如果是句法关系的解析层，面对的单位就是短语（可以看作是头词，它代表了整个短语，“吃掉”了前后修饰语）。

对于单层，有两种结构歧义，一种是伪歧义，占多数；一种是真歧义，占少数，但存在。单层系统里面的每一条规则都是一个 pattern，一个缩小版的局部 parser （mini-parsing），试图模式匹配句子中的一个字符子串（sub-string）。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。这是难免的：因为描述语言现象的规则条件总是依据不同的侧面来描述，每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多，相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分，是那个部分使得 parsing 越来越强大，涵盖的现象越来越多。至于相交的部分，结论一致的规则有可能表现为伪歧义（结论完全一致是异曲同工，没有歧义，但设置一个系统的内部表达，难免涉及细节的不同），这是多数情形。结论不一致的规则如果相交则是真歧义。这时候，需要一种规则的优先机制，让语言学家来定，哪条规则优于其他规则：规则成为一个有不同优先度的层级体系（hierarchy）。

白: 在线？

李：FSA Compiler 事先编译好，是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系，不能初一十五不一样。

李：个性的现象优先度最高。共性的现象是默认，优先度最低。这个很自然。一般来说，语言学家大多有这个起码的悟性，什么是个性现象，什么是共性。

白: “张三的女儿和李四的儿子的婚事”

李：如果优先语感不够，那么在调试规则过程中，语言数据和bugs会提请语言工作者的注意，使得他们对规则做有意义的优先区分，所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity，这是个铁律。在非单调推理中也是如此。

李：这个优先权机制是所有实用系统的题中应有之意。优先级别太多太繁，人也受不了。实际情形是，根本不用太多的优先级别区分，每一层分析里只要三五个级别、最多八九个优先级别的区分就足够了（因为多层次序本身也是优先，是更蛮横的绝对优先）。

白: 我还是觉得优先级初一十五不一样的时候一定会发生，而且统计会在这里派上用处。

李：一切是数据制导，开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义，恰好就落在了原来的伪歧义的区间里面。这时候，虽然有n条规则都产生了 local parses，他们之间没有优先，那就随机选取好了，因为他们之间其实没有核心 semantic 的区别价值（尽管在表达层面可能有细微区别，hence 伪歧义）。换句话说，真歧义，归优先级别控制，是数据制导的、intuitive 的。关涉伪歧义困扰的，则变成随机选取。这一切是如此自然，以至于用FSA做parsing的从业者根本就没有真正意识到这种事情可能成为困扰。关于初一15的问题，以及白老师的具体实例，等到我们简单阐释第二节多层之间的伪歧义的应对以后，可以演示。

第二章第二节，多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义，不外是围追堵截，这样的应对策略在开发过程中也是自然的、intuitive 的，数据制导，顺风顺水。围追堵截从多层上讲，可以在前，也可以在后。在前的是，先扫掉例外，再用通则。在后的是先做默认，然后再做修补（改正、patching）。道理都是一样的，就是处理好个性和共性的关系。如果系统再考究一点，还可以在个性中调用共性，这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识，甚至常识（根据应用需要），共性里面就是句法模型之间的变式。

好，理论上的阐释就到此了，接下去可以看实例，接点地气。白老师，你要从哪个实例说起？我要求实例，加问题的解释。

白: “中国和美国的经济”。这就是我说的初一十五不一样。

李：这是真的结构歧义，Conjoin （联合结构）歧义。在语言外知识没带入前，就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义，其他的还有 “的”字结构的歧义。这些歧义在句法层无解，纯粹的句法应该是允许二者的共存（输出 non-deterministic parses），理论上如此。句法的目标只是区分出这是（真）歧义（而这一点在不受伪歧义困扰的多层系统中不难），然后由语义模块来消歧。理论上，句法和语义/知识是这么分工的。但是实践中，我们是把零散的语义和知识暗渡陈仓地代入句法，以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

李：缺省优先由“大数据”定，原则上。统计可以提供启发（heuristics）。

白: 有次范畴就能做出缺省优先。不需要数据。

李：当然。次范畴就是小规则，小规则优先于大规则。语言规则中，大类的规则（POS-based rules）最粗线条，是默认规则，不涉及具体的次范畴（广义的subcat）。subcat based 的其次。sub-subcat 再其次。一路下推，可以到利用直接量（词驱动）的规则，那是最优先最具体的，包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的，就联合结构而言。但是，about 次范畴，理论上有太多的层。

李：那是，联合结构消歧中的次范畴不是很好用，因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet，里面的 taxonomy 可以很深，统统用来作为次范畴，不太现实。但理论上是这样使用的。

白: 再一个，“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗？

李：上例的问题和难点，白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象？

白: 上例是处理深度的问题，各自理解即可。歧义叠加，只有更加歧义了。可是实际相反，叠加限制了歧义。

李：在分层处理中，我们是这样做的:

（1）Basic NP, 最基本NP层的结果是：NP【张三】的 NP【女儿】和 NP【李四】的NP【儿子】的 NP【婚事】

（2）Basic XandY, 最基本的联合结构层：在这个层次，如果条件宽，就可能发生联合错误，错把【女儿和李四】联合起来。这个条件可以是 HUMAN，二者都符合。而且在 95% 的现象中，这个条件是合适的。如果条件严的话，譬如用 RELATIVES 这个语义次范畴（HUMAN的下位概念），而不是 HUMAN 来限定的话，这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢，这实际上决定于设定的目标，没有一定之规。做细总是可以做到更好质量，大不了多加几层 NP 和 XandY 的模块（FSAs），但还是增加了开发和维护的负担。如果做粗一点，只要所造成的 parsing 质量上的后果能控制在应用可接受的范围，那也未尝不可，因为说到底，世界上没有完美的系统。上帝允许人类的不完美。

白: 把这个换成“AB的中点与AC的中点的连线”？同样的结构。

李：另一个思路，就是多层协调中的修补。对于上述两个例子，修补的办法似乎更好。与其分多层，代入各种繁琐的语义条件来消歧，不如任他出错，然后根据pattern的平行因素加以修正。在多层系统中，这个常常是有效的策略，也符合开发的总体规划。先把系统大体弄得work了，可以对付多数现象，然后有时间和余力了，后面可以 patching。前提是，错误是 consistent 和 predictable 的。对于多层管式系统（pipeline system），错误并不可怕，只要这种错误 consistent 有迹可循，后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation（错误放大）的难题。其实，多层系统也可以做到负负得正（矫枉过正是也）。一个好的系统设计，是后者，通过 data-driven，可以做到把错误放大控制到最低限度，并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行，太细则边际效益大减。

李：上例中 “中点与AC” 可以联合，不过是一个暂时的内部错误而已，后面可以修正。总之，这些都不是根本的 challenge，想做就可以做，实际操作上，也可以选择不做。问题大了，就做；用户发飙了，就做；否则就无视。很少有歧义是做不出来的，功夫和细节而已。最终决定于值得不值得花这份力气，有没有这样的开发时间和资源。

白: 做与不做，有可能影响架构选择。补丁有好处也有后遗症。

李：NLP 可以做一辈子，在基本机制（优先机制，修正机制，范畴、次范畴机制，专家词典等）由平台实现提供以后，慢慢磨到最后就是 diminishing return，与爬山类似，这决定了我们何时罢手。如果85%的精度作为parsing的目标，那么系统会选择不做一些稀有的现象。有了这个 85%，已经可以满足很多应用的要求了。

有了 85% 做底，还可以让机器变得智能起来，自动地自我提高，所谓 self-learning，这是研究课题了，但是是可以实现的。实际上在我指导的实习生实验中已经实现，不过就是在线开销太大而已。

白: 再看“馒头吃光了”？

李：这个例子更容易讲清楚。在系统的某一层，可以有个规则把某种 “V+光" parse 成为动补结构，这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

李：好，这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例，譬如，“黑洞吃光了”，那么或者修正它，或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则，如果需要的话。至于这么做值得不值得，那是应用层面的决定。很多时候是不必要的。错了就错了，不过是显得系统缺乏专家的知识，so what？我们普罗 native speakers 也都不是每一行的专家，也并不是每句话都听懂，不也一样没觉得交流困难。就此例来说，决定于听者的知识面，小学生和文盲一般不能正确 parse 理解 “黑洞吃光” 的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要，那是语言内的句法知识（最多说是句法子范畴或小规则，但不涉及专业知识），是所有国人的默认理解。

白: 这一点非常重要。一个开放，一个封闭。一个外部，一个内部。外部的事儿，就算没有专业知识，也可以大数据招呼。

李：今天似乎可以结束了，说到底，就是：

一，平台需要提供一些基本机制来处理共性与个性的关系，从而应对歧义，这些在 FSA formalism 的教科书定义中可能不存在，或被忽略，但却是实用系统不可或缺的。

二，NLP 的确是个力气活，有无限的可能深入。当然，我们可以选择不深入，可以选择何时罢手。

至于大数据招呼，那个在前述的自学习上也必须用到。我们教授机器做到 85%，大数据基础的自学习可以让它自行提高到 90%，这个是部分证实了的，可惜还没有发表出来，以前说过，懒得成文。都骨灰级老革命了，谁在乎那个。我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest，比 PennTree 大好几个量级。

这次神侃算不算基本回答了疑惑，可以得出“伪歧义在多层系统中不是困扰”这个结论？

白: @wei 是，非常感谢。

李：不过，我们一方面实用制导，一方面没有忘记基本面和大局。与纯粹的实用主义，头痛医头，脚痛医脚，还是不同。这种积一辈子挖煤的经验之谈，正式论文中罕见，也算一件功德。难得的是白老师还有雷司令身为主流精英，居然能一开始就高于主流，不排斥异端或少数派。所以上次上海聚会，我就说，火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。但我知道也有很多统计死硬派，甚至大牛，是不尿这壶的。

白: 只要聚焦于深层，一定会殊途同归。RNN记在统计账上，但已经是深层了。

可以再关心一下NLP的商业模式，怎么能讲一个好故事。我们说fsa也好分层也好，资本都是不感冒的。

李：滑稽的是发现有些死硬派做了n年NLP，却真地不懂语言学，有个别大牛连常识都不懂，让人跌破眼镜。当然这个只能内部说说，不能博客的。所以往往是互相地不尿对方那一壶，与宗教之战类似。

RNN 我不敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何，我不知道。可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来，也殊途同归。

李：其实多层 FSAs 本质上就是 ngram 的花样，不过 gram 不再仅仅是词了，而是等于或大于词的句素。能以动态句素作为 ngram 的对象，是因为多层的原因，跟剥笋子一样，层层扒皮，gram 当然就是动态的了。这一点很关键，是乔姆斯基都没想到的 power。

白: 对，边扫描边归约，边抛出句素。

李：这里面最 tricky 的不是机制而是细节。魔鬼在细节，就是指的这个。FSA 是“古老”简单的机制了，细节就是玩平衡，玩模块之间的协调。玩得好的就好比中餐的大厨，可以做出满汉全席来，玩不好的还不如麦当劳、keywords。到这一步，经验因素开始起作用。没碰过n次壁，甚至几万小时的炼狱，这个火候掌握不好。这类系统很难做得表面上漂亮光洁，总是在混沌中前行，要忍受不完美。这方面的忍受，数学家不如语言学家。数学家天生追求简洁完美，不愿意将就。

白: 句素的个头大，影响范围就大，相当于抛得就远。可以进入远距离的滑动窗口，伟哥说的Ngram的缺点就不存在了。

dirty是必然的。

李：ngram 的缺点是主流的缺点，不是语言多层派的缺点。恰好相反, ngram 多层以后，很容易比任何 CFG 做得细致深入，以至于，想怎么深入就怎么深入, 如果持续开发的话。

CFG 那套单层范式，无论统计模型还是传统文法加以实现，真地深入不下去，是框框决定的。两边都玩过，这种对比太强烈了。我对我的博导说过， HPSG 真地不好用，那边费那么大劲的事儿，在我这儿是小菜。说拿的是牛刀，可对象不是牛，而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表（相当于语言的head中心词）之间发生全局相互作用的地方。真是神了。

李：今天到此，特别谢谢白老师的互动和精彩的及时点评。

原载：
科学网—泥沙龙笔记：真伪结构歧义的对策（1/2) ；
骨灰级砖家一席谈，真伪结构歧义的对策（2/2)

【相关】

乔姆斯基批判

【立委科普：管式系统是错误放大还是负负得正？】

【关于NLP方法论以及两条路线之争】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【从 sparse data 再论parsing对信息抽取的核心作用】

parsing关键是它节省了语用层面的开发。没有parsing，抽取是在表层进行，存在的困境是 sparse data 和长尾问题。表层的东西学不胜学，而有了 deep parsing 的支持，抽取规则可以以一当百，至少从规则量上看，这绝不是夸张。这是其一。

其二，deep parsing 使得领域移植性增强太多。

没有 parsing 抽取任务变了，一切须推到重来。

对于规则体系，有了 deep parsing，抽取任务随领域变了就不需要那么大的返工。parsing 吃掉了约 90% 的重复劳动（语言知识和结构本质上是跨领域的），返工的部分不到 10%。

parsing 意义之重大正在于此。

对于机器学习，NLP应用的知识瓶颈在（1）sparse data；（2）任务变，训练库必须重新标注：前一个任务的标注对后续任务基本没有可重复使用的可能，因为标注是在语用层进行的。

如果有 parsing support，理论上讲，机器学习可以更好地克服 sparse data，但实践上，到目前为止，结合 structure features 和 keywords 在机器学习中一锅煮，目前还处于探索研究阶段，没有多少成熟的案例。我们以前尝试过这种探索，似乎parsing的参与有推进系统质量的潜力，但是还是很难缠，模型复杂了，features 混杂了，协调好不是一件容易的事儿。

事实上，规则体系做抽取，没有 parsing 差不多有寸步难行的感觉。因为人的大脑要在语言表层写规则，数量太大，写不过来。只有机器学习，才可以绕开parsing去学那数量巨大的抽取规则或模型，但前提是有海量标注的训练集。否则面对的是 sparse data 的严重困扰。

sparse data 远远不是单指表层的出现频率低的 ngrams （习惯用法、成语等）的累积，那种 sparse data 相对单纯，可以当做专家词典一样一条一条编写，愚公或可移山。如果训练数据量巨大，譬如机器翻译，那么这类 sparse data 对于机器学习也有迹可循。当然大多数场景，标注的训练集始终大不起来，这个知识瓶颈 is killing ML。

更重要的 sparse data 是由于缺乏结构造成的，这种 sparse data 没有parsing就几乎无计可施。表层的千变万化，一般遵循一个正态分布，长尾问题在结构化之前是没有办法有效捕捉的。而表层的变化被 parsing 规整了以后，表层的 sparse 现象就不再 sparse，在结构层面，sparse patterns 被 normalize 了。这是 parsing 之所以可以称为NLP应用之核武器的根本。

没有 parsing，结构性 sparse data 就玩不转。

乔姆斯基纵有一万个不是，一千个误导，但他老人家提出的表层结构和深层结构的思想是不朽的。parsing 就是吃掉各种表层结构，生成一个逻辑化的深层结构。在这种深层结构上做抽取或其他语义语用方面的应用型工作，事半功倍。

Deep parsing consumes variations of surface patterns, that's why it is as powerful as nuclear bombs in NLP。

别说自然语言的语句的表层多样化，咱们就是看一些简单的语言子任务，譬如 data entity 的自动标注任务，就可以知道表层的 sparse data 会多么麻烦：如 “时间”的表达法，再如“邮件地址”的表达法，等等。这些可以用正则表达式 parse 涵盖的现象，如果在表层去用 ngram 学习，那个长尾问题就是灾难。

自然语言文句之需要 parsing，与标注 data entity，正则表达式优于 ngram 学习，其道理是相通的。

原载：《泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器》

【相关】

《李白毛铿锵行: 漫谈中文NLP和数据流》

【自然语言parsers是揭示语言奥秘的LIGO式探测仪】

《创新，失败，再创新，再失败，直至看上去没失败》

科学网—乔姆斯基批判