作者： 立委

【NLP随笔：词法内部结构休眠，句法可以唤醒】

下班路上有一个关涉词法句法的灵感，有点意思，随笔记下，省得忘了。

开问：对于词典列举了的词条，还要不要记录内部词法呢？

当然，既然列举了，词法应该不重要了，一切都是绑架。（如果要记录词法，所记录的词法也是绑架。）词条就是一团泥巴，爱怎么捏都行，一切看方便和需要。尽管绑架不需要讲道理，自然也就不必讲词法，但是反观人对词条的语言学认知，其实还是在无法有法之间的灰色，并不真地就是一团漆黑，进了词典就都是黑箱子了，其实也有灰箱子，甚至相当白的箱子在内。

举个例子来说明这种灰色的法与非法状态。

“细心” 是一个2词素的词条在所有的现代汉语词典里面通常贴个形容词A的标签。因为它非常典型地起一个形容词的句法作用，与其他形容词同义词“认真”、“仔细”、“刻苦”类似：

（1）做定语：细心人。（认真人。仔细人。刻苦人。）
（2）做状语：细心做事儿。（认真做事儿。仔细做事儿。刻苦做事儿。）
（3）做谓语：她很细心。（她很认真。她很仔细。她很刻苦。）

语义上，“细心”挖了一个【human】的坑，“她”正好跳进去。无论句法上做定语状语还是谓语，逻辑语义上，“细心”都应该挂上这个【human】。

句法语义之下是词法，如果从词法内部看，这几个词条是不同的，而这一点对于人其实并不是黑箱子，而是有相当透明度的，可以轻易认定：

“细心”在词法内部是一个名词性结构N（而不是对外的形容词A），词法关系是“细”修饰“心”：细的心。

“认真”稍微模糊一些，但一般人感觉还是词法内部的动宾结构V（而不是对外的形容词A），词法关系是：“认”【这个、一个】“真”。

“仔细”的词法关系应该是并列，而被并列的两词素都是形容词A，倒是与句法A赶巧一致了，说的是“又仔又细”、“且仔且细”。

“刻苦”不太敢肯定，词源上看，“刻”是动词，“苦”是形容词，也可以做名词。内部词法结构是动宾，还是并列，存疑，先挂起来。

总之，同是句法形容词的几个同义词，内部词法结构可以完全不同。回到开题的问题，这种对于人（起码是语言学家）可以看见的词法结构，需要不需要在词典里面标记呢？

乍一看，似乎不需要，因为一般来说词法的目的是支持句法，句法的目的是支持（逻辑）语义，总之是通过形式的表象，解码语义的内涵，这就是 deep parsing 和 NLU 的真义。既然句法词类（A）、句法角色（定、状、谓）、逻辑语义（修饰【human】）都可以清晰地解析出来，回头再去深究词法内部的小九九，貌似无益。就让它深眠在语言结构的层级体系（hierarchy）的最底层，永远不见天日。

但是，既然不是黑箱子，人就不会永远放过，偶见天日还是有的，特别是在段子或俏皮话里面：

A：你怎么形容她？
B：两只巧手，一颗细心。

see，在人脑的语言认知过程中休眠在词法内部的N，居然冲破了句法A的标配属性浮现出来，成为堂堂正正的句法N，与量词结构搭配构成名词短语，听上去一点也不拗口。为什么那么自然，因为休眠唤醒了，因为他原本就是名词。

看来，休眠唤醒的确是人类认知语言的一个机制。如果我们想要模型休眠唤醒这个机制，那么词法内部的结构作为休眠的种子，就应该先在词典里面埋下来，它才可能被唤醒，发芽成语。

结论：词法内部结构，还是记录下来为好，如果真要做深度自然语言理解的话。

【相关】

【立委随笔：猫论，兼论AI福兮祸兮】

猫咪是个有意思的存在，这种意思必须得亲身交互才好体会。看别人养猫和自己领养一只猫，感受还是不同。

人类在漫长的历史中把凶悍的野虎驯服为乖巧的家猫，这里面肯定有很多故事不为我们所知。我们现在感知的只有乖巧讨喜。首先是猫对主人的讨好的各种方式，让人不由心软和爱怜。你把手伸过去，他就跳起来拿脸去蹭。你把脚伸过去，他就在你脚背上打滚，然后拿眼睛注视着你的表情。

猫咪最引人注意的自然是那双大而深邃的眼睛，白日显威夜里发光。猫眼看世界整天两眼滴溜溜转，让人搞不清它都在想些什么，肚里藏着多少秘密。当它两眼随着你的一举一动转来转去你一方面感受到陪伴和关注，一方面不免狐疑是不是养了一个哑口侦探哪天开口说话了有多少难为情会突然爆发。好处也有。猫眼的炯炯目光多少约束了人的行为狠斗私字一闪念从狠斗任何不雅不轨开始：勿以恶小而为之。

猫咪的好奇心和探索精神令人惊叹。由于种种理由诸如害怕走失被碾压染上艾滋病误食毒物摔伤等等，house cats 室内圈养不外放可猫咪对外部世界的好奇心始终不减。猫咪可以几个小时守候在门前盼望主人归来更盼望主人哪天开恩。至于窗台阁楼天窗更是猫咪的最爱，它就那般优雅端庄地坐着，静观窗外的车水马龙人来狗往。閱尽天下事不喜不怒而好奇之心不灭。

至于室内的自由世界但妨有一丝缝隙无论地库暗道犄角旮旯它必钻进去嗅着鼻子地毯式探索绝对不留盲区。冰箱冷库只要开门也不畏严寒试图往里钻。这是什么精神？这是生命不息探索不止的大无畏精神。

猫咪最大的缺点是好吃贪睡，还有懒做。食为天睡为地天地性也真心算不得缺点。人家能睡到自然醒也是前世修来的福分不像摩登时代的人类创造了极大财富自己却深陷劳碌不得好活连个囫囵觉都难得一眠。

至于懒做更无从计量。自从四害被人类几乎赶尽杀绝以后抓老鼠的KPI便无法下派猫咪整日晃荡游手好闲无所事事便无可避免。天下本无事何以事之？

自从工业革命解放了体力劳动以后据说人工智能在不远的将来就要取代80%以上的脑力劳动人类很快就要面临猫类的宿命。没有劳动指标KPI的多数同胞如何自处将成为新时代难题。

反观猫咪一辈子，没有老鼠可抓甚至连老鼠的面也见不着的猫咪整天忙些啥呢？修身养性爱惜羽毛没完没了清洁自己一尘不染这就是它给自己立下的任务。难怪宠物店姑娘说得很肯定你根本不用给猫洗澡任何尘土和肮脏它都会舔得一干二净。猫有洁癖，永远清清爽爽，大小方便后也收拾得不露痕迹。

换了人类在大面积失业面前还能如此镇定自若独善其身吗？在人类找到失业恐惧症的解药消减贫富分化，废除按劳分配按资分配制度，摈弃歧视无业游民视之为二等公民等陈腐观念之前，人工智能的进步福兮祸兮真地难说。也许我们在自掘坟墓而不自知。这倒不是机器自主思维控制人类那种匪夷所思的杞人之忧这是人类自己的精神文明严重落后于物质文明的真切困境。这种困境早已显现只会日深。机器解放了体力之后的几百年来人类生存质量的重要指标普罗的幸福指数并没有随之提升。现代社会的焦虑和精神堕落其实更加普遍化病入膏肓。

我相信AI可以代替一多半的人类白领工作，只是不好设时间表，不知道这种替代发生这一次AI周期，还是下一个周期（假设每个周期大约15年的话）。无论这个周期还是下个周期，这种改变的速度还是远远快过人类的心理准备和社会机制的相应改变，所以隐隐感觉不是好事儿。AI 可以缓行。

在水牛城的时候，楼下住着一对老年夫妇，老头儿曾经是我们那个村的老村长（mayor），平时聊天，全是9斤老太今不如昔的论调：首先是世风日下，他的三个儿女全部是离婚收场，两个儿子找了新欢（与秘书结婚，抛弃了结发妻子）一个嫁了军官的女儿40多岁被离婚。其次是中产阶级的缩小。他的中产阶级定义就是有稳定工作，四五万年薪的那种（作为比较，当年软件工程师年薪七八万），包括蓝领。在他们那代人中，一个熟练工人可以在一家公司干一辈子，享受中产阶级的优越生活。虽然发不了大财，但这是一股社会稳定的力量，对知识和学历的要求不高，生活张弛有度，有车有房可旅游，有业余爱好，八小时工作，加班双薪或三倍，可以体面地生活一辈子。这种 good old days 是一去不复返了

其实川普这次上台，很大程度上是由于这些被新时代抛弃的草根，坠落到贫民但又放不下身段学不了新技能的原中产阶级。其实学新技能也不是最终的解决之道。人类必然面临工作市场的加速萎缩，有技能也无法保证免除失业。更可怕的还不是失业，而是失业的威胁和恐惧。新时代的人比起老一代，job security 江河日下。

【相关】

【李白王89：模糊语义与真假歧义，兼论PSG与DG】

李:
里面关涉所有的词法现象，包括 open compounding （合成词），重叠（reduplication）etc，morphology is a mini-syntax

白:
这是西方语言学者的思维惯性所致，把形态变化外化了

李:
但词法与 lexicon 还是不相称的吧，前者是规律后者是库。前者是“法”后者是“典”。

在语言学教科书里面，词法是一个动态模块，词典是一个静态模块（资源）。当然到了专家词典，那是NLP里面的创新，超越了传统的语言学界定。

白:
法+典
比如外界常说，汉语的morphology不发达，狭义理解形态变化不发达是对的，词法不发达就说不通了。至少我们构词法、离合词都算是发达的

李:
这里面其实还是有一些说法的。开放合成词 open compounding 是超出词典的构词法，占据了汉语构词法的大部。语言学上通常认为这个东西处在词法句法的中间地带，不像词的词尾形态变化（inflection）和语缀派生词（derivation）那样包裹在词法内部。因此，说汉语morphology贫乏也不无道理。如果从汉语的语言历史来看，就更是如此。

其实无论从理论概念上还是实践中，把词典绑架不了的所谓合成词这种中间地带的现象看成是句法的初级阶段，而不是看成是词法，是合适的。（至于词典可以枚举的合成词，无论是黑箱子还是半透明，那都不是事儿，反正是围在词典的围墙内【离合词除外，需要有特殊的与句法接口的机制】）
理由如下：

1. open compounding 与句法的组合规律总体上有一体性

2. 语素（lets say，bar 0）组合成合成词（bar 1），合成词组合成（初级）词组（group， bar 2），词组组合成（基本）短语（base XP，bar 3），基本短语组合成嵌套短语（bar 3.x），嵌套短语组合成谓语（VP, bar 4），谓语与主语组合成子句（clause，bar 5）

这一切其实都是一个句法单位（我的导师刘先生称之为动态句素，非常精辟）越来越大的过程。

在 bar 1 与 bar>1 中切一刀，前者叫 morphology 后者叫 syntax，其实有相当的任意性。主要依据是发现 open compounding 与词典枚举的 compounds 在句法进一步组合过程中，基本上可以同等对待，而且词典枚举不枚举也是有相当的任意性的。

这其实就是 structural configuration（x-bar concept）利用离散值在逼近嵌套（或递归）句法组合的过程中的归类角度而已。

上面的离散值分为 5 个 bars，比通常的 x-bar theory 细一点，换一个角度去抽象或 generalize, 也可以分为3层：词，短语，分句。也可以分为四层：词，词组，短语，分句。总之，既然这些分类具有任意性，而层层组合又具有一体性，那么把合成词组合排在句法里面垫底，是合理的。

今天还想到一个与此相关的句法界的老问题：说的是有一种结构歧义普遍存在但一般也不影响交流说者是模模糊糊说听者是模模糊糊听只是遇到较真的人或者说段子抠字眼的人才会把歧义凸显出来说事儿，多数人不较这个真。

说的是修饰语所修饰的句素的范围歧义：mod1 mod2 H，到底是 [mod1 [mod2 H]] 还是 [[mod1 mod2] H]? 逻辑语义上，这是结构歧义无疑，对应了不同的解读和至少是细微的语义差别，但实际交流中，who cares

有意思的是，by default 乔姆斯基短语结构分析法基本是第一种结构分析，mod1 不是修饰 H，而是修饰【mod2 H】这个group；与此对照，by default，依存文法采用的是中心词分析法，说的是第二种解读，mod1 修饰的是 H，mod 2 也修饰的是 H

对于这种普遍存在的结构歧义，两种解读都可以找到各自的语言事实依据（XOR），也都有更多的语言事实支持这种“真歧义”，但这个真歧义多数人不介意而已。

提出这一点是想说：1. 这种歧义在多数交流和落地场合可以打马虎眼不必认真对待；2. DG 和 PSG 默认出来的结构在这个普遍现象中是相左的，不等价，两个表达法互相转换的时候，需要注意这一点。

wang:
学习了

白:
靠H代表，才能统一。

李：
h 的代表性与人民代表类似。说是代表了人民吧，好像也不对，人民对他通常无感，他对人民也不负责，说不能代表吧法理上的确是代表。还是语言共同体聪明：糊里糊涂说糊里糊涂听。邓小平理论就是不争论。语言与逻辑的分野在这里表现最充分。语言使用中从来没有感觉出那么多的逻辑歧义。交流绝大多数时候真滴就是一笔糊涂账大家还都基本认账只有偶然遇到什么特殊情形才较真起来。特殊情形包括说段子。也包括打官司。因此法律合同与口语相差甚远那是把所有人当贼防不得不采取的表达方式。

王:
说得好！

白:
说something是可以糊涂的，没问题，太正确了。说which one是可以糊涂的，有点难。mod1是形容词-副词兼类，mod2是只能作定语的成分时，存在副词优先的现象。

“好漂亮的花”不是【好【漂亮的花】】而是【【【好漂亮】的】花】

王:
H就是公司的法人代表。一个公司总得有个头H（Head），来代表公司。通常情况下，基本上H就代表公司出来说话，在该出面的时候，能承接的很好，能保证以企业级为单位的事务运转，简洁而高效。--这个时候H就是代表很好。但他完全代表公司的全部数据面吗？不可能，也不需要，只要能有这个H牵头，且能保证各层结构有序运转就好。员工大众需要有这样个代表，企业上头管理部门，也需要这样一个代表，而这种衔接，就是最经济的。语言学，想必也类似。

在H完全代表不了的，情况下，可能再需要配一个或几个副手，一起代表就基本能把问题解决了。H有时信息不自足的情况下的一种选择。比如，介宾情况。介也许就是介绍主人的介绍人吧。

@白硕照白老师这样一说，感觉还是该分开的情况还是得分开，细节工作看来还省略不了。只有那些不必分开或不值得费功的情况，特别“左右搭接两相宜“的才不必细致分开。

李:
顺着前两天的思路，一个观察：有的歧义不重要，介于真歧义伪歧义之间。逻辑上的真歧义，语用上的伪歧义（因为人普遍不 care，因此也没必要要求电脑去 care，怎么着都可以）。譬如：“昨天-发布-了”，在 PSG 中，下列的结构歧义：

((昨天发布)了) vs (昨天(发布了))

到了 DG 就没有歧义了(昨天(发布)了)，反倒省心。

【相关】

【朝华点滴：百万架构图幻灯片的演进】

以前提过这个 million-dollar slide 的故事，今天找出来几张旧图，回看一路风尘留下的足迹，思绪不由飘向漫天风雪的水牛城，我旅美生涯的起点。美国是个伟大的国度，它为一个赤手空拳游离主流之外的异国流浪者提供了一个舞台，终使其跨越世纪的科研美梦成真。

说的是克林顿当政时期的 2000 前，美国来了一场互联网科技大跃进，史称 .com bubble，一时间热钱滚滚，各种互联网创业公司如雨后春笋。就在这样的形势下，老板决定趁热去找风险投资，嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图，最底层是parser，由浅入深，中层是建立在parsing基础上的信息抽取，最顶层是几类主要的应用，包括问答系统。连接应用与下面两层语言处理的是数据库，用来存放信息抽取的结果，这些结果可以随时为应用提供情报。

话说架构图一大早由我老板寄送给华尔街的天使投资人，到了中午就得到他的回复，表示很感兴趣。不到两周，我们就得到了第一笔100万美金的天使投资支票。投资人说，这张图太妙了，this is a million dollar slide，它既展示了技术的门槛，又显示了该技术的巨大潜力。

这个体系架构自从我1997-1998年提出以后，就一直没有大的变动，虽然细节和图示都已经改写了不下100遍了，下面的两张架构图示大约是前20版中的，此版只关核心引擎（后台），没有包括应用（前台）。

1999 版

2000 版

2003 版

2003 版之二

2004 版

下面两个版本是天使或A轮投资人帮助美化来吸引其他投资人的：

九九归一，天变不变道恒不变，最终的架构图反映在我的【立委科普：自然语言系统架构简说】中的四张NLP联络图上：

【相关】

【掌故：“白头宫女说微软”】

想到一个简单的区分NLP文傻和理呆的试金石：听到P和NP，首先想到介词和名词短语的是前者；首先想到计算复杂性的是后者。二者同时想到的是超人。这个群估计一多半是理呆，文傻属于珍稀品种，应予保护。

很长一段时间，听到 IE 我就想的是信息抽取这个改变了我人生道路的研究领域。而不是微软的那款破劳什子。

曾几何时，微软帝国征服世界，指哪打哪，不可一世。WordStar 后是 Word Perfect 教育了市场，可是 Word 一来，溃不成军。1-2-3 曾何等 popular，可 Excel 席卷过来，片甲不存。到了 Netscape 开拓了互联网的广阔疆土，IE 上场，集中优势兵力，泰山压顶。据说当年的微软 campus，帝国霸气毕露，臣民情绪激昂，日夜兼程，IE 团队的 QA组不间断测试与 Netscape 的各项指标的此起彼伏，直到全面压倒，于是在帝国为自己的对手举行了一场隆重的葬礼，场面壮观而感性。

那是怎样的一个帝国时代，微软股票连续分裂，仍不断上扬，记得在视窗95（？）发布的当天，全美的电视台全天候报道这个软件巨无霸，播音员把微软的OS和Office比喻为信息时代为自己开的现金账户，财源滚滚而来，来自全世界消费者。

就在微软如日中天的时候，1996年吧，我有幸一瞥帝国风采，作为他们NLP组 short listed 的候选人，被招去面试。从温哥华到西雅图 Redmond 总部，一个小小的候选人，HR 居然给订了头等舱和五星酒店。

Bill Gates 当时对NLP组寄予很高期望。MindNet 那个 demo 蛮 impressive 的，一个基于词典定义自动parsing建立起来的一个知识图谱。各种关系线条（其实基本等价于把维基百科map到图谱的内部数据结构去），很炫酷。可没人知道怎么用这个图谱。来自定义的知识，基本构成是一个本体知识库（ontology），并没有多少情报知识。落地显示价值方面有很大挑战，总之是探索了近十年，也没落地下来。后来据说是利用它和parsing，试图落地到MT。结果 Brill 来了，带领的机器学习组叫 NLG（NL Group，not NL Generation），几个月就做出了一个 MT 与这个老牌的 NLP 组，做企业内恶性竞争，NLP 一败涂地。这是统计NLP碾压规则NLP的一个历史性案例，发力点是有海量自然带标数据（人工对照译文）的MT，也不奇怪。最终导致 NLP 组的大裁员。好像除了英语和日语，其他语种的NLP小组全部遣散。

要说情报知识图谱由于其情报性，由于大数据的信息过载，还有落地到产品、显示价值的一些空间，一个本体知识库要落地，就艰难多了。本体知识库，by nature，相对固定有限，可以人工穷尽，不像情报知识那样具有流动性，需要大数据的持续更新处理。你做得再花哨，毕竟是自动从数据生成的，必然具有噪音，而且逻辑不完备。你怎么跟董老师这样潜心30年研发出来的深思熟虑精心设计的本体知识体系 HowNet（知网）去 pk 呢？所以战略上，MindNet 就走错了路。也是当时的条件所限。他们的那个基于规则的 parser，鲁棒倒是还鲁棒（比起多数局限于实验室的规则系统），但太粗线条了，精准远远不够。他们当年没有办法拿那种质量的 parser 去应对各种自然语言的文体和数据源，于是聚焦在词典的定义这个子语言上去细磨。定义的句式不外是 "a is b's c” 这样的句式，容易拉出一个本体知识链条出来。能想出这么一个应用不成熟技术的切入点，也真是难得。

记得当年还利用这个parser做过 grammar checking，在 Word 内。根本就无法用，几乎全是 false alarms。后来好像是找了另一家的 grammar checker 纳入了 Word，经过这么多年，终于变得可用了。当然，目前最好用的 Grammar Checker 并不在 Word 内，而是可自由下载的 Grammarly，已经渗透市场，无孔不入了。

【相关】

【NLP答问：关于parsing 和自然语言理解】

【NLP答问2：实体语义和逻辑语义】

新人:
就是觉得自己的问题有些太外行了，不太好意思随便问

答:
外行内行，都是一个过程，只要有兴趣就好。《李白对话》天马行空，属老人促膝恳谈；也可以来一些答问对话，为缩小代沟做点实事。

嗨，上篇《NLP答问》刚贴到微博不到两小时，就2.4万阅读量了哈。可见答问的话题还是很符合公众兴趣点，人工智能教授马少平老师等有推荐和评论：https://weibo.com/2316531634/profile?topnav=1&wvr=6&is_all=1

你们说得都对//@南大周志华:目标代码吧，不是数据结构 //@马少平THU:用计算机实现不这样还能怎样？//@第五逻辑:所有的场景应用都是转化为计算机可执行的一种数据结构，这就是现阶段所谓的AI
@立委_米拉【NLP答问：关于parsing 和自然语言理解】
立委_米拉
7分钟前来自微博 weibo.com
不争论不争论。小平连大是大非姓社姓资都不争论，咱数据结构和目标代码有啥争论的。重要的是面对冰冷的现实，“这就是现阶段所谓的AI”，与自主机器人或机器智能没有一毛钱的关系，都是人类自己跟自己玩，机器不过就是玩具（或者也是吹牛的道具）而已。没霍金之流吹得那么高大上。

新人:
目标代码和数据结构不是一体的吗？

答:
CS的标准说法是：程序（目标代码）= 数据结构+算法

我们在讨论的时候，侧重点是“理解”的表达形式（representations），就是结构树（tree），或图谱（graph），强调的是数据结构的一面。“理解”作为（智能性）动词，当然有算法的一面。所以周教授说是目标代码，才全面。

新人:
这样啊，受教了

答:
数据本身不一定是可执行的代码。结构树不过是“理解”的一种内部表达，无论是达成这个理解的过程（parsing），还是利用这个理解去落地到应用（semantic grounding to applications），都有一个NL算法的事儿。

前者（parsing）在我这里就是 cascaded FSA++ 的实现算法，后者（落地到信息抽取和数据挖掘场景）就是一个 subtree matching 的算法。这是就关涉算法的机制（formalism）而言，其实利用这个算法机制对系统各个模块以及模块中问题的处理过程，也还有个语言学算法的思路在内，不仅仅是在多层系统里面先做什么后做什么，还有各种数据流接口的设计等，如何防止错误放大，如何协调共性和个性，都与算法有关。

新人:
结构树是“理解”的一种内部表达，这个内部表达中已经包含语义的部分了吗？还是说语义包含在另一种内部表达的形式里，多种结构组成了“理解”的形式？

答:
结构本身就是最重要的语义部分。这是语言学的常识，也是多数计算语言学家的共识：学界术语叫 semantic labeling，在中国的NLP界，由于董振东前辈30年前的创新研究，这个语义被命名和普遍接受为“逻辑语义”。理解了一句话，最关键的就是要搞清楚一句话里面的那些语词概念的逻辑语义角色：【谁】（逻辑主语，施事）【对谁】（对象补足语）【做了】（谓语）【什么】（逻辑宾语，受事），【何时】（时间状语），【何地】（地点状语），【如何】（方式状语），【为什么】（原因状语）等等。

深度解析（deep parsing）所建立的结构树或图，就是要填写这些逻辑语义角色，填写好了也就是达成了语言理解的核心。

新人:
实体语义对于理解一个句子不重要吗？好像绕回了之前说的WSD那篇…（【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）

答:
什么叫实体语义？实体对应的是NE或NP，在句子中就是一个元素。在知识图谱里面，表达成一个画像（profile），uniquely 对应了真实世界的一个实体。

实体语义的重要是在领域落地的时候，而在领域独立的语句分析阶段，只要知道类别就好了，实体的语义或歧义（如果有歧义的话）可以先绕过去的。譬如，“约翰”这个实体，知道他是一个人名（NE）就够了，至于他究竟指的现实世界哪个实体，对于理解一个里面提到“约翰”的那个句子，并不重要。

但是如果要建立领域的知识图谱，实体语义就重要了，否则描述这个约翰的事件，张冠李戴到另一个约翰头上，语义落地的偏差就会把领域知识图谱（事件场景以及个人画像的语义网络）搞砸。

我这篇【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）文的本义是说：WSD 一般来说不是 parsing 的瓶颈，而是可以推后到落地的时候去做区分。

新人:
是，想了下，只有在具体场景下，才能讨论实体语义。

答:
换句话说，语言学意义的理解首先看到的是结构和角色（“项链”），然后才是角色里面的每颗“珍珠”。所以说 deep parsing 是自然语言理解的皇冠和核心，是自然语言落地的核武器。

新人:
感觉清晰了很多。终于不纠结实体了…

答:
关键是，实体的歧义通常不影响结构和角色定位（即逻辑语义），而一个语句与其他语句的语义区分，主要就是结构和角色定位。这里面细究的话，逻辑语义结构里面有核心和边缘的区分。核心就是所谓 argument structure，这是以谓词为核心挖的几个“坑”，需要实体参与者（萝卜）来填坑的的结构，表达的是语义主干：【who】 DID 【what】【to whom】这类。边缘的语义主要是可有可无的状语，可分为一二十种，表达的是语义的细节：时间，地点，条件，原因，让步，结果，程度，等等。

新人:
昨天插入语的那个badcase，是不是属于边缘的语义的部分？

答:
插入语当然是边缘语义，非常的边缘，提供某种语气。

新人:
感谢您愿意回答我这些基础的问题。我得赶紧补补课

答:
不必拘束。在你这个年龄段，保持好奇心和兴趣最重要，不要怕吃苦，一头扎进去几年，才能真正体味。我有个n万小时定律（《聊聊 NLP 工业研发的掌故》），虽然夸张了一点，但说的就是必须要有足够历练，才能一览众山小。

【相关】

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

【NLP答问：关于parsing 和自然语言理解】

【立委按】人工智能热潮下，进入自然语言领域的新人也随之增多。新人的好处是喜欢问问题。于是有了答问。

新人:
读过您的parsing方面的系列博文，parsing 及其落地应用的种种，很有意思的领域。把 parsing 这一块做好就非常 exciting 了，能落地就更棒啦

答:
必须落地。否则站不住脚。parsing 做好根本不是问题，已经做了N次了，been there done that（【谷歌SyntaxNet是“世界上最精确的解析器”吗？】）。NLP 是个力气活，但不是看不到头的活儿。达到接近专家的水平是验证过的。落地有所不同，落地需要找到切入点，需要有一套领域化的有效方法。

力气活指的是迭代：就是不断的迭代，每天迭代10次，一年就是3600次。设计思想和框架机制对路了，剩下的就是不断地根据数据制导，去修正系统，保证走在正路上，避免或尽可能减少 regressions，终会达到彼岸。

新人:
力气活是真的，我之前做 NLU badcase 分析，后来能看到准确率确实在上升。我相信迭代的力量。

现在的 parser 已经足够好了吗？您博客中提到的休眠唤醒机制，世界知识的引入，非确定性表达的问题都已经解决得差不多了吗？

答:
还没有，时间和人力的投入不够，一切重起炉灶，系统架构更加合理科学，但血肉不足。没关系，目标导向，急用先做。有些来不及做的，先放在那里。

新人：
想起您博客中各种奇怪的例子

答:
那是刁难系统的，多是语言现象的犄角旮旯，其实不值得太花力气。古怪的句子的好处是测试鲁棒性（robustness）或者测试有没有补救措施（backoff），主要精力还是应该花在统计性强的常用句子身上，不能被长尾牵着鼻子走。

做中文 parsing 特别让人兴奋，比做英语等要有意思多了，后者太缺乏挑战性了。

新人：
嗯，中文本身很有魅力

答:

看上去一个字符串人看着都头晕，如果能自动 parse 出结构来，很让人开心的。

新人：
“看上去一个字符串人看着都头晕”这句感觉对 parsing 挺难的？

答:
不妨试试：

这个当然有问题，但很容易修正。现在的序列是：NP，CL，AP，这个 CL 是一个插入语，最后的结果应该是在NP与AP之间建立主谓关系，把插入语附加上，就完美了。（CL 是 clause，M 是定语，R 是状语。）修改后的结果：

这个结果还合理吧？

新人:
是不是把“看上去”作为RP，就能fix之前的问题了？

答:
主要还是带有插入语性质的 “NP人看着（都）AP"，插入语“人看着”是 RP（副词性短语），“看上去”也是RP，但在句首，好办。

新人:
如果去掉“看上去”，整个句子是“一个字符串人看着都头晕”，改之前的 parser 能解析正确吗？

答:
不能，因为没有处理好这个插入语。与“看上去”无关。插入语在语言中是很有限的表达法，迟早可以穷尽，原则上不是问题。

你以前做过什么parsing有关的工作？遇到过什么挑战？

新人:
之前做parser的离合词这一块。例如“吃了一顿饭”这样的结构，可以从语料中很容易统计到，例如“吃不吃饭”这样的就相对少，只能靠观察。当时是这么做的。首先从研究离合词的论文里找出一个两个字的离合词列表，例如'AB'。然后用'A.*B'在语料中筛选句子，对选出的句子做pos，然后统计'A.*B'中间'.*'的部分的pos组合，但是“吃不吃饭”这样的结构在词性标注的时候就没法搞定了。

答:
这不是简单的离合，而是夹杂重叠。A不AB，是一个相当普遍的现象，对于所有 V+N 离合词都有效的。退一步，V不V 也是一个确定的选择疑问句式。

“对选出的句子做pos，然后统计'A.*B'中间'.*'的部分的pos组合”

做POS 后，你在统计什么？

新人:
当时的需求是，判断"AxxxB"是不是词“AB”的离合现象。因为想提高泛化能力，所以想从语料里产生词性级别的pattern，比如“吃了一顿饭”对应的pattern是“v u mq n”（限定 v 和 n 是单字）。比如“吃不吃饭”词性标注的结果是“吃_v 不_d 吃饭_v”，从词性的层面就不能用“v d v”来匹配了

答:
那两个v是重叠，需要unification机制的，单看POS，根本没戏。如果只是统计 POS-序列，没有什么意义，

新人:
做完了才发现，确实没什么意义。。

答:
是啊，因为就是一个动宾结构，这个 POS 序列，与 NP 中的修饰语序列应该是一致的。

新人:
当时就我一个人在瞎做，都是我拍脑袋想的方法，比较挫

答:
这个不用做统计，就可以想见的。

新人:
能想出来的是有限的呀，肯定有想不到的情况。。

答:
离合词不难处理，它是搭配的一种。搭配现象的本质都是词典的搭配规定与规则的实例化（instantiation）的机制，就是词典与句法需要平台机制上有一个灵活的接口。英语的短语动词 take NP off；put NP on；subcat 句型中对 PP 的 P 的要求（borrow sth from sb），汉语中量词与名词，这些都是搭配现象。

"能想出来的是有限的呀，肯定有想不到的情况。" 但那不是离合词的问题，那是 NP 的问题。NP 当然有很多种组合可能，拍脑袋是想不全的。所以要数据制导，要迭代。类似你上面的语言调查，也是一种。所有的语言现象，不仅仅是NP，都需要数据制导。都有想不到的序列。不过从 POS 序列着手，是远远不够的。POS 太粗，根据 POS 做 NP 或做其他现象，最后都是窟窿。

新人:
是的，最后做了个字+pos 的规则

答:
字太细，POS 太粗，加在一起，抓了两头的确会好很多。但是从字到 POS 中间还有很多，譬如【human】以及类似的一整套的本体概念网络（ontology）可以利用（譬如董老师的《知网（HowNet）》）。

新人:
【human】是什么意思？

答:
譬如 “演员”，“总统”，“那家伙”，。。。。就是语义概念标签。【human】是最常用到的标签了，比 N 细线条一些，比 “演员”这些关键词是粗线条了。所以说，一个系统不能光靠最粗的POS分类，也不能光靠最细的关键词，还需要语义概念的 ontology。

新人：
引入语义造成的歧义问题，是用句法来解决吗？比如“演员”是一首歌名

答:
引入并不造成歧义。要是有歧义，那个词不引入也还是歧义的。与引入无关。引入语义只会增加词的信息量，多一些可利用的手段。不是因为引入，所以需要消歧。歧义如果需要解决，也是那个词本身需要这么做。但很多时候，歧义是不需要解决的。

{演员 N}，这里有两个信息：（1）演员（2）N。{演员 N 【human】【song】}，这里多了两个信息。原来没引入之前，我们根本不知道 “演员” 是什么，不是什么。现在引入语义以后，我们至少知道了 “演员”不是人就是歌。它不可能是其他的1000种可能性，譬如起码，演员不是【furniture】，不是【sentiment】，不是【location】。所以引入新的信息不是增加歧义了，而是大大缩小了歧义的可能性。

新人:
明白了

答:
至于区分歌与人，那个任务叫 WSD，很多应用可以绕过去不做。我写过一篇，说的就是 WSD 很难，但绝大多数应用不需要做（【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）。

新人:
说实话我不是对 parsing 感兴趣，是对自然语言理解感兴趣，我想知道通用自然语言理解的道路在哪里，但是也不知道往哪个方向发力。

答:
parsing 与自然语言理解有什么不同？为什么对后者有兴趣，对前者无所谓？什么叫理解呢？

新人:
以前我一直觉得 parsing 和分词一样，是一种基础的组件。然后我觉得常识才是自然语言理解的核心。不过看了您讲文法和常识的那篇博客（【立委科普：自然语言理解当然是文法为主，常识为辅】），最近也在重新思考这个问题

答:
parsing 强调的是对语言结构的理解，WSD 强调的是对词的理解。粗略的说，语言理解至少包括这两个大的方面。既要知道这个词对应的是什么概念，也要知道这些概念在句子中表达怎样的关系。其实后者更重要。纲举目张啊。做一条项链光有珍珠不成，更需要的是串子，好把散落的珍珠连起来。

新人：
我说下我对自然语言理解的粗浅的想法啊。比如“我喜欢吃苹果”。从句法上很容易就能解析出来，但是计算机通过什么方式才能理解“我喜欢吃苹果”和“我讨厌吃苹果”的区别？虽然能通过词典知道“喜欢”和“讨厌”是不同的概念，那么要怎么这两个概念有什么方向什么程度的不同？然后要怎么表示这种不同？

答:
然后怎样呢？你前面的话没说完啊

新人:
我也不知道要怎么理解这种不同啊。确实，没有句法是不行的。

答:

1 计算机根本没有什么理解不理解。说计算机理解了人类，那是胡扯。说计算机不理解，也是高抬了机器。人类意义的“理解”根本不适合机器。

2. 所谓自然语言理解，那只是一个比喻的说法，千万不要以为电脑能自主“理解”（或者“不理解”）人类语言了。

3. 所以，自然语言理解的本质就是把语言表达成一个内部的数据结构，根据这个结构，比较容易地落地到应用所需要的方向去。譬如情感分析的应用需要区分正面情绪（如 “喜欢”）和反面情绪（譬如 “厌恶”）。

4. 换句话说，所谓理解，不过是人跟人自己在玩，与电脑智能没一毛钱的关系。

5. 既然是人自己跟自己玩，那就要看一个系统的内部表达（所谓理解）的设计能不能用有限的表达和逻辑，去捕捉无限的语言表达方式；能不能根据这个表达和逻辑，达到（或模拟）人在理解了语言之后所产生的那些效应。譬如人看了一句话可以判断是什么情感，情感的强烈程度，谁对什么产生的情感，等等，因此可以得出舆情分析的结论，计算机可以不可以也达到类似的分析效果？

6 因此脱离应用（理解以后的效应）谈理解，很难。应该通过应用来验证所谓理解。

7 所谓端到端的系统，就是直接模拟应用：里面的过程是黑箱子，叫不叫理解无所谓。

8 符号逻辑派的先理解后应用，不过是用人可以理解的方式把这个理解到应用的过程，透明化。透明化的好处，比较好 debug，可以针对性解决问题。这是黑箱子系统的短板。如果有海量带标（应用效果的标注）数据，黑箱子的好处是可以很快训练一个看上去很不错的系统。如果没有，标注数据就是一个令人生畏的知识瓶颈。

新人：
我是一直从类似微软小冰那种对话系统来考虑自然语言理解，所以不太能接受seq2seq的对话生成系统…

答:
闲聊系统，因为人的对话无时无刻不在进行，理论上有无穷的带标数据，其实可以训练出很好的以假乱真的闲聊机器人的。一个 MT ，一个闲聊，这两个应用具有天然的海量数据，是少有的知识瓶颈不严重的应用方向。多数NLU应用没有这么幸运。所以不得不组织成千的标注队伍，还是赶不上应用现场的变化中的需求。

新人:
MT 感觉和闲聊机器人还是不一样？闲聊机器人的系统在单轮的时候可以以假乱真，但是在多轮的时候基本都不能维持对话的连续性。

答:
多轮的挑战可能还是源于稀疏数据，这是因为虽然对话的数据是海量的，但是从 discourse 的角度看一个完整的对话篇章，数据就可能很稀疏了。每个对话都是一个特定的话题，以及围绕这个话题的对谈序列。从话题和对谈序列的角度来看，数据就不再是海量的了。突破口应该在对于不同对话序列从篇章脉络角度做有效的抽象，来克服稀疏数据的短板，学会篇章的应对技巧，easier said than done，这个显然有相当的挑战性。篇章（discourse）向来是计算语言学中最不容易形式化的部分。

新人:
我个人觉得如果是通用/闲聊场景，即使有海量数据，对话的话题和序列还是很可能大部分和可获得的数据集的不一致。

答:
那自然，组合就会爆炸。爆炸了当然数据就稀疏了。

新人：
很多场景还是有办法细分成小的垂直场景，然后通过在系统设计上做一些功夫来达到一个比较好的效果的吧？

答:
垂直当然有利多了。垂直了，就成了子语言，很多歧义也自动消解了。垂直了，就聚焦了，剩下的歧义也就好办了，词驱动（word-driven）也有了发力的场景。

【相关】

【立委科普：自然语言理解当然是文法为主，常识为辅】

【谷歌SyntaxNet是“世界上最精确的解析器”吗？】

【李白宋88：再谈量词搭配与名词短语自动解析】

白:
“所谓印太区域自古以来就是一个印太国家间互相交流、学习、融合的平台。”

一个-国家，赋予国家单数特征，与“间”矛盾。一个-间，不搭配。所以只好一个-平台。这是利用subcat相谐性的传导来排除不合适的量词搭配。

李:
这么做量词搭配感觉不大合算实现繁难还容易错。对于普适性量词如 “个” 和 “种” 最大的heuristic 是最大跨度原则有更有效的实现办法。

先说老办法容易错。容易错源于相谐的软性要求和排除法的脆弱性。举个例子：

“我们可以建造100个印太国家间互相交流、学习、融合的平台。”

利用 “间” 的相谐颇不容易。最大跨度原则最简单而且有效的实现就是见到 “一个” 先挂起来。然后该干嘛干嘛等定语从句和其他乱七八糟的前置修饰语都扫荡干净了一头一尾拼接一下就完了无需额外发力。所谓原则必有漏洞一定可以找到反例。但比起一个一个的相谐排除法感觉可靠性更大更符合国人的表述习惯。国人特别喜欢用这种跨度很大的左右边界搭配的np：

一个 blah blah 又 blah blah 的 N
这种 blah blah blah blah 的 N

写着写着突然觉得似曾相识好像就这个量词话题在某个时间点说过几乎完全相同的话相似的论点和论据。懒得查了也不好查这种感觉很真切说明聚焦一个领域唠嗑免不了会有车轱辘话也说明一个人的观点很难轻易改变尤其是实践中提炼出来的观点。

汉语中框式结构很值得利用。量词结构是一，前置词后置词搭配是另一个常见的框式结构。

白：
不搭配和搭配是不对称的。不搭配一票否决，搭配就近解决，这两个原则一点都不矛盾。

李:
“一个间还是两个间？”

一票否决如何鲁棒呢？这里牵涉好几个层面的方法论问题：

第一我们说的是强搭配还是弱搭配，“个” 与 “种” 通常被认为是弱搭配，基本上是一个名词的标配。

第二维护搭配词典是一回事，维护不搭配词典又增加了一个维度和工作。前者是系统标配知识后者要不要费那费力气可以讨论。

白:
一个间，有反例吗？可以探讨。遇到一个+NP+间，中间推理过程可以省，记住最终结果（NP+间结合，一个留下不结合）就ok。推理过程离线做，最终结果在线用。

李:
强搭配一票肯定基本不错。如果要考虑更细致的话大概是如果有多个强搭配最大跨度胜出。不过这已经有点吃力不见得讨好了，因为二分法的强弱搭配忽视了强弱的连续性。强不搭配如果维护的话，可以考虑一票否决。弱搭配或弱不搭配还是不如最大跨度。

白:
维护不等于人工维护。

李:
“间” 是方位词属于后置词。n+间基本上是 PP，做状语为多，通常还到不了要与量词纠缠的环节。

宋:
@wei 说的框式原则，或者说括号原则，应该是认知层面的规则，应适用于各种语言，确实有用。

白:
间是催化剂，自己不参加有关量词的反应，但偶尔可决定量词搭配的方向。就如“张三与李四的婚姻”当中的“婚姻”，决定了“张三与李四”是序偶（ordered pair）还是列表（list）。后者有分配性，前者没有。“鲁迅的书不是一天能读完的”通过谓语部分的周遍性补语“完”，确定话题主语“鲁迅的书”是“例”还是“类”。都是这个道理。不一定亲自下场子，但对别人的subcat特征取值有决定性影响力。特征不是专门为句法一个任务抽取的（否则确实有是否值得的问题），如果背后有N个任务等着要特征，搂草打兔子，何乐不为。

李：
做量词搭配很多时候是醉翁之意不在酒。怎么讲？我们知道，最常见的量词词组是不定量词组 “一个”、“一种”、“一类”、【一+量词】或有定量词组“这个”、“这种”、“这类”、【这/那+量词】。这些量词组本身语义很虚，除了不定有定的语义（大体上是英文冠词的语义）外，量词本身几乎没有意义（汉语用量词的地方，对应到英语往往是空白），它附着对了或错了，对其头名词的语义解读影响不太大。但是，量词组对于名词短语（NP）起到了左边界的作用，因此量词与右边界头词（head word）的搭配，这种框式结构，对缺乏形态的汉语搞定NP这种最基本最常见句子成分，具有非常重要的形式指征的作用。

从框式搭配结构的角度看量词处理，我们发现，对于比较长的往往内含定语从句的名词短语，人在交流的时候也利用了这个搭配，总是先来一个量词组，等于是跟听众说，注意，我这里给你打左括号了，下面我要说一个具有N多修饰语的实体名词了。换句话说，如果没有量词搭配这种形式标识，为了交流的顺畅和避免歧义，国人不会这么经常地使用长NP。

鉴于此，在短语抱团的浅层解析过程中，善用量词搭配，在最大跨度原则的范围里，容忍某些“出格”或不和谐的修饰语，是解决长NP的非常有效的know-how之一。

【相关】

洪:
徐英瑾评《人工智能简史》︱人工智能，真的能让哲学走开吗？_上海书评_澎湃新闻-

【李白洪87：人工智能，真的该让这样的哲学家走开】

李：
白老师在朋友圈转了一篇题目很吸引眼光的《人工智能研究中的“母语意识”刍议》，看了一半看不下去，太经不起推敲了。原来是哲学教授社会科学战线的。难怪。（说这话总有点对不住我社科院母校的感觉。）

白：
量词携带语义标签，与“条”搭配的一般是两维差不多短、一维明显长的物体。所以，苗条品种的狗（狼狗、牧羊犬等）论“条”，臃肿品种的狗（京巴等）论“只”才是地道的。要想挑战远距离相关的量词搭配，必须把干扰项放在合适的句法位置才有意义，文中构造的“条-狗”搭配虽然隔了21字之远，但干扰项“只”却并不处在合适的句法位置，也许正常的词法或句法处理就可以把它消化掉，从而起不到任何干扰作用。

李:
他是假设量词搭配的实现者没有 parser 和合适的分词系统，盲目寻找最近的直接量搭配。哲学教授的这种人工智能评论让人啼笑皆非。文中似是而非漏得像筛子一样的论点还有不少。譬如常识的自然语言偏见，要说常识与文化偏见还有可能有那么一丝丝纠缠的可能的话，说自然语言偏见带入常识就扯太远了。他还举例说计算机语言因为用了英语的一些词汇符号，因此也带入了英语偏见，这真是匪夷所思的论点。计算机语言的本性已经使得其词汇系统对任何自然语言偏见脱敏了。至于借用英语还是借用数字编号，不过就是个助记符的考量而已，与偏见何干？

洪:
@wei 作者徐英瑾复旦哲学教授，最近也写过篇评价尼克ai简史的文章

李：
@洪涛Tao 徐教授怎么评价的？无论臧否，凭他上文那样的见识，忍不住想到的就是，歪评三国。

谈人工智能，还是人工智能专家靠谱。哲学家企业家媒体人士包括名人（霍金等）很多不值得认真对待。最近有：CCCF：周志华 | 关于强人工智能，周教授这篇言简意赅是人工智能专家的科学普及。

李:
哈哈， quote：“该书的第九章《哲学家和人工智能》主要就是为了挤对哲学家而写的，特别是为了挤对那些对人工智能有话要说的哲学家。这很大程度上也是基于国内大多数理工研究者对哲学的某种深刻的偏见，即：咱们的地盘，哲学家少插嘴。”

看完了。这个长篇评论蛮好玩，作为拼命要介入AI的哲学家的百般自辩，首先气势上矮了半截。@Nick Zhang 终于惹怒了哲学，而且在哲学界得到了免费marketging的效果。

这样见识的哲学家挤对都多余了。但愿还有其他的哲学家高人在。读到最后，我倒是同病相怜地欣赏他的结句：“一切逆风而行者的坚定，均来自对风向转变的信心。” 但仅此一句而已。

【相关】

【语言学随笔：从缩略语看汉字的优越性】

董老师给了一个有趣的例子，发现对于汉语灵活的构词法带来的新出现的类似四字成语的简练表达，所有的巨头机器翻译系统都错得离谱：

“东方日报的上述评论说，以黑护商、以商养政、以政庇黑，警匪共治的恶劣政治生态，已经在一些地区出现。”

这里面很多表达法（以黑护商、以商养政、以政庇黑，警匪共治）蛮新的，很像是缩略语带来的新成语，人还没来得及做翻译样板让机器学，机器自然一头雾水。神经机器翻译的亮眼成就本质上还是人工翻译的成就，人工没翻译过的，再牛的机器翻译也抓瞎。其实这些新成语人理解没问题翻译还是费思量。等优秀翻译琢磨出来最好的翻译并在新语料中出现足够多次相信机器很快就取法乎上比翻译平均水平高是可以期待的（以前说过，成语的本质是记忆而记忆电脑是大拿人脑是豆腐）。问题在语料的搜集更新和重新训练能不能赶上新词涌现并流行的速度。

我自己来尝试翻译一下这里面的成语：

以黑护商、以商养政、以政庇黑，警匪共治

To protect businessmen by using black society
To sponsor politics by businessmen
To protect black society by politics
To maintain social order by police as well as black society

不知道及格否

郭兄说，@wei 我看不及格凡此种种十恶不赦之罪状，被你又是protect又是maintain，还有 sponsor 全漂泊了。中文四个字四个字的，那个味道，也被翻译得荡然无存。

可不是吗，用的都是正面动词（通常描述功能 benefit statement），至少不负面，而原句都是负面行为，满拧，肯定不及格。不急总有高人会信达雅翻译出来，结果机器远超我是铁定了虽然我也学了一辈子英语和语言学。

想起来当年，“抓纲治国” 是我英语口试前遇到的难题（1977年高考口试，抓纲治国的翻译困境在我的一篇《朝花》有记），后来发现官方翻译是：grasp the key link and run the country well，现在回看，绝对算不上高明四字新成语的味道尽失。今天想了半天终于为华主席的抓纲治国想出来一个可能更好的译法。请比较：

新华社翻译是： grasp the key link and run the country well
提议改成：Grasp the key manage the C

如果问什么意思，就解释说：Chairman Hua was following late Chairman Mao's political ideology on class struggle, but at the same time he wants to boost the economy. So he phrased his new strategy as above, which means we should grasp the key-link of class struggle and hence manage the country well,

类似套路的缩略语新成语层出不穷，老的有：

五讲四美（讲文明、讲礼貌、讲卫生、讲秩序、讲道德; 心灵美、语言美、行为美、环境美）
(哈，试了一下有道翻译，是：Five speakers four U.S.)

Five F's and four B's
5 focuses and 4 beauties

focus on manners, focus on courtesy, focus on hygiene, focus on social order, focus on morality；
beauty in mind, beauty in speech, beauty in action, beauty in environment.

三要三不要
3 do’s 3 don’ts

要搞马克思主义、不要搞修正主义；要团结、不要分裂；要光明正大、不要搞阴谋诡计
follow Marxism, do not follow revisionism;
unite, do not split;
be fair and square, do not play tricks

一带一路
官方翻译是： one belt one road

不得其解，昨天才搞明白是中国倡导由中国带头沿着古丝绸之路开发新的经济贸易开发区一方面帮助消化过剩的产能一方面带动区域经济实现共赢让区域内国家分享中国经济高速发展的火车头效益从而树立中国崛起的和平领军形象。

感觉还有更多也许更好的选项反正是成语反正光字面形式谁也搞不清真意总是需要伴随进一步解释不如就译成：

一带一路 ===》 one Z one P （pronounced as：one zee one pee）

怎么样，这个翻译简直堪比经典翻译 long time no see （好久不见）和 “people mountain people sea” （人山人海）了。认真说，Zone 比 Belt 好得多。

One zone one path.
One zone one road.
New zone old road.
New Silk Road Zone.

感觉都不如 one Z one P 顺口。

缩略语方面一般而言英语不如中文灵活多变而且不重样汉字作为独立词素载体的优越性突显了。英语缩略语也可以非常灵活任何常用的ngram术语都可以用首字母缩略简直太自由了但由于字母的本性不是词素而是临时借来代表词素而且一共才有26个字母形式结果是英语的缩略语造成的重复歧义多到了成为行业黑话的程度。

ABC 可以是（i）美国广播公司；（ii）人工智能大数据云；（iii）字母表的代称；（iv）起码知识；...... 以及另外一千种可能性。从术语到缩略语是直通道多对一反过来一对多则把人搞死也无法快速查对搞定徒增记忆负担。

汉字缩略语的撞车现象则急剧减少。虽然汉字缩略语也需要词典绑架才能真正搞清原意不大能从字面意义去蒙但第一，望文生义比两眼一抹黑让人体验好；第二也是更重要的是，基本没有歧义的缩略语查找方便随时可以查对绑架和纠正语义误差。比较：

共党 vs. CP
中共 vs. CCP
解放军 vs. LA
人民解放军 vs. PLA （其实“人民解放军” 中文完全可以缩略为 “人解军”）

为什么英语不能学中文用词素而不是用字母来做缩略语呢？主要原因是英文合成词里面的词素不如汉字词素独立没有汉字词素的灵活性：一个汉字往往对应多个词素语义，在缩略语的场合，汉字还有“变色龙”的词素特征，就是说一个汉字可以临时扩展自己的词素语义临时代表这个汉字本来不具有的语义。这后一个特征英文缩略语里面的字母也同样具有（临时代表的功能），但英语的问题在字母集太小比汉字少了两个数量级，这个表达能力的优越性被其不可避免的歧义性完全遮蔽，反而成了流弊。与汉字词素大体对应的英语词素的平均长度大约四个字母突然退到一个字母来代表可见问题的严重。

汉字使成的这种灵活的缩略语构成法在流行的网络语中被推向极端，譬如：普大喜奔（普天同庆、大快人心、喜闻乐见、奔走相告）。这类有点过分了，几乎转变成完全的黑箱子了（类似黑话行话了），但即便如此，也比英文用首字母缩略的手段高明，因为起码这种东西没有歧义，一查词典即可理解。

当然英语也可以变通，交叉使用字母和词（素），来多少规避一点缩略语歧义的缺点。People's Republic of China 的缩略语 PRC 就远不如混合式 PR China，上面的“抓钢治国”（grasp key manage C），“一带一路” （one Z one P），也是这个策略的体现。

把汉语归类成孤立语，总是带着点贬义似的，应该叫独立语。词素极少不独立和自由的，因此构词特别灵活多样能产。口语中的词素音节落实成汉字以后又因为汉字形式比起语音形式的更具有沉淀性加上汉字数量远多于音节数量使得汉字的表意性更少障碍（望文生义比听音生义更容易）使得其构词能产性和灵活性跨越了时代和地域。虽然说语言学中作为标记体系的汉字系统常被认为是第二位的不过是语言词素的一个载体而已，但汉字的确对汉语有一个非常正面的跨越时代和地域的反作用。汉字的这些方面的优越性是有根据的。

【相关】

谷歌SyntaxNet是“世界上最精确的解析器”吗？

【立委按】老友郭兄盛赞自动有道翻译，说强过我常用的谷歌神经翻译。于是小试一次，翻译一下我自己的英语博客，除微量技术性编辑外，基本保留原译。以飨同仁。

我们都知道，自然语言解析相当复杂，在自然语言理解(NLU)及其应用中起着重要作用。我们也知道，一个突破到90%以上，解析的准确性接近于人类的表现，这确实是一个值得骄傲的成就。然而，按照常识，我们都知道，如果没有任何附加的范围或条件，你必须有最大的勇气来宣称“最”，除非得到了吉尼斯等权威机构的认可。对于谷歌宣称的“世界上最精确的解析器”，我们只需要引用一个系统来证明它是不真实的或具有误导性的。我们碰巧建了一个。

很长一段时间以来，我们知道我们的英语解析器在数据质量方面接近人类的性能，并且在支持真实生活产品方面是健壮的、快速的和扩展到大数据的。对于我们采取的方法，即语法工程的方法，这是主流统计分析以外的另一种“学派”，这是基于架构师的设计和他几十年的语言专业知识的自然结果。事实上，我们的解析器在5年前就达到了接近人类的性能，在收益递减的时候，我们决定不再大量投资于它的进一步开发。相反，我们的关注点转移到它的应用上，支持开放领域的问题回答和对我们的产品以及多语言空间的细致深入的情感分析。

几周前谷歌发布了SyntaxNet，我受到了来自我的许多同事，包括我的老板和我们的营销主管的各种渠道的消息轰炸。所有这些都提请我对“NLU最新突破”的关注，似乎暗示我们应该更加努力地工作，努力赶上这个巨人。

在我自己看来，我也从来没有怀疑过，另一学派在深度解析上还有很长的路要走，才能赶上我们。但我们处于信息时代，这就是互联网的力量: 来自一个巨人，真实的或具有误导性的新闻，均会立即传遍全世界。所以我觉得有必要做一些研究, 不仅要揭示这个领域的真实情况, 但更重要的是, 还试图教育公众和来到这个领域的年轻学者，一直存在也将永远存在两个学派，在NLU和AI(人工智能)领域。这两个学派实际上有各自的优点和缺点，它们可以是互补的，也可以是混合的，但是一个不能完全忽视或替代另一个。另外，如果只有一个方法，一个选择，一个声音，特别是NLU的核心，比如解析 (以及信息提取和情绪分析等)，那么这个世界会变得多么无聊，特别是当大众“所青睐的方法”的表现还远不如被遗忘的那个方法的时候。

因此，我指示一位不参与解析器开发的语言学家尽可能客观地对这两个系统进行基准测试，并对其各自的性能进行一个苹果到苹果的比较。幸运的是，谷歌SyntaxNet输出语法依存关系，而我们的也主要是依存解析器。尽管在细节和命名惯例上存在差异，但在语言判断的基础上，结果并不难对比和比较。为了使事情变得简单和公平，我们将一个输入语句的解析树分解成二元依存关系，并让testor语言学家判断; 一旦有疑问，他会向另一位高级语言学家请教，或者被认为是在灰色地带，而那是很罕见的。

不像其他的NLP任务，例如情绪分析，在那里有相当大的灰色区域空间或标注者之间的分歧，解析结果其实很容易在语言学家之间达成共识。尽管两个系统(输出示例如下所示)所体现的格式不同，但在两个系统的句子树输出中对每个依存项进行直接比较并不困难。(对我们来说更严格的是，在我们的测试结果中使用的一种被称为“下一个链接”的修补关系在测试中并不算合法的句法关系。)

SyntaxNet输出:

Netbase 输出：

基准测试分两个阶段进行。

第1阶段，我们在新闻领域选择了英语形式的文本，这是SyntaxNet的强项，因为它被认为比其他类型的新闻有更多的训练数据。在新闻分析中公布的94%的准确率确实令人印象深刻。在我们的示例中,新闻并不是我们的开发主体的主要来源, 因为我们的目标是开发一个领域独立的解析器来支持各种类型的英语文本对于真实文本的解析，譬如从社交媒体(非正式文本)做情感分析, 以及用科技论文(正式文本)解析来回答“如何”的问题。

我们随机选择了最近的三篇新闻文章，其中有以下链接。

(1) http://www.cnn.com/2016/06/09/politics/president-barack-obama-endorses-hillary-clinton-in-video/
(2) Part of news from: http://www.wsj.com/articles/nintendo-gives-gamers-look-at-new-zelda-1465936033
(3) Part of news from: http://www.cnn.com/2016/06/15/us/alligator-attacks-child-disney-florida/

以下是分析上述新闻类型的基准测试结果:

(1)谷歌SyntaxNet: F-score= 0.94。
(P为精度，R为召回，F为精度召回综合指标）

P = tp/(tp+fp) = 1737/(1737+104) = 1737/1841 = 0.94。
R = tp/(tp+tn) = 1737/(1737+96) = 1737/1833 = 0.95。
F = 2 *((P * R)/(P + R)]= 2 *((0.94 * 0.95)/(0.94 + 0.95)]= 2 *(0.893/1.89)= 0.94

(2)Netbase解析器: F-score = 0.95。

P = tp/(tp+fp) = 1714/(1714+66) = 1714/1780 = 0.96。
R = tp/(tp+tn) = 1714/(1714+119) = 1714/1833 = 0.94。
F = 2 *((P * R)/(P + R)]= 2 *((0.96 * 0.94)/(0.96 + 0.94)]= 2 *(0.9024/1.9)= 0.95

因此，Netbase 解析器在精度上比谷歌SyntaxNet好了约2个百分点，但在召回中低了1个百分点。总的来说，Netbase比谷歌在F-score的精确-召回综合指标中略好。由于这两个解析器都接近于进一步开发的收益递减点，其实没有太多的空间来进行进一步的竞争。

第二阶段,我们选择非正式文本,从社交媒体Twitter来测试一个解析器的鲁棒性看处理“退化文本”: 很自然，退化的文本总是导致退化的性能 (对人类和机器), 但一个健壮的解析器应该能够处理它，数据质量只有有限的退化。如果一个解析器只能在一个类型或一个领域中表现良好，并且性能在其他类型中显著下降，那么这个解析器就没有多大用处，因为大多数类型或领域没有像资源丰富的新闻类型那样有大量标记的数据。有了这种知识瓶颈，解析器就会受到严重的挑战，并限制其支持NLU应用的潜力。毕竟，解析不是目的，而是将非结构化文本转换为结构的一个手段，以支持不同领域中各种应用程序的语义支持。

我们从推特上随机选择100条推文进行测试，如下图所示。

1.Input: RT @ KealaLanae : ima leave ths here. https : //t.co/FI4QrSQeLh2.Input: @ WWE_TheShield12 I do what I want jk I ca n't kill you .10.Input: RT @ blushybieber : Follow everyone who retweets this , 4 mins

20.Input: RT @ LedoPizza : Proudly Founded in Maryland. @ Budweiser might have America on their cans but we think Maryland Pizza sounds better

30.Input: I have come to enjoy Futbol over Football

40.Input: @ GameBurst That 's not meant to be rude. Hard to clarify the joke in tweet form .

50.Input: RT @ undeniableyella : I find it interesting , people only talk to me when they need something ...

60.Input: Petshotel Pet Care Specialist Jobs in Atlanta , GA # Atlanta # GA # jobs # jobsearch https : //t.co/pOJtjn1RUI

70.Input: FOUR ! BUTTLER nailed it past the sweeper cover fence to end the over ! # ENG - 91/6 -LRB- 20 overs -RRB- . # ENGvSL https : //t.co/Pp8pYHfQI8

79..Input: RT @ LenshayB : I need to stop spending money like I 'm rich but I really have that mentality when it comes to spending money on my daughter

89.Input: RT MarketCurrents : Valuation concerns perk up again on Blue Buffalo https : //t.co/5lUvNnwsjA , https : //t.co/Q0pEHTMLie

99.Input: Unlimited Cellular Snap-On Case for Apple iPhone 4/4S -LRB- Transparent Design , Blue/ https : //t.co/7m962bYWVQ https : //t.co/N4tyjLdwYp

100.Input: RT @ Boogie2988 : And some people say , Ethan 's heart grew three sizes that day. Glad to see some of this drama finally going away. https : //t.co/4aDE63Zm85

以下是社交媒体推特的基准测试结果:

(1)谷歌SyntaxNet: F-score = 0.65。

P = tp/(tp+fp) = 842/(842+557) = 842/1399 = 0.60。
R = tp/(tp+tn) = 842/(842+364) = 842/1206 = 0.70。
F = 2 *((P * R)/(P + R)]= 2 *((0.6 * 0.7)/(0.6 + 0.7)]= 2 *(0.42/1.3)= 0.65

Netbase解析器: F-score = 0.80。

P = tp/(tp+fp) = 866/(866+112) = 866/978 = 0.89。
R = tp/(tp+tn) = 866/(866+340) = 866/1206 = 0.72。
F = 2 *((P * R)/(P + R)]= 2 *((0.89 * 0.72)/(0.89 + 0.72)]= 2 *(0.64/1.61)= 0.80

对于这些基准测试结果，我们将它留给下一个博客来进行有趣的观察和更详细的说明、分析和讨论。

总而言之，我们的作为真实产品基础的解析器在正式的新闻文本以较小的领先 (不到两个百分点，两个系统其实都已经接近专家的性能)，在非正式文本中以15个百分点的巨大优势，均超过了谷歌的研究性系统SyntaxtNet。因此，可以肯定的是，谷歌的SytaxNet绝不是“世界上最精确的解析器”，事实上，在适应现实生活中的各种类型的现实世界英语文本时，它还有很长的路要走，才能接近Netbase解析器。

有道翻译 http://fanyi.youdao.com/ 自动翻译自我的领英博客：
https://www.linkedin.com/pulse/untrue-google-syntaxnet-worlds-most-accurate-parser-wei-li/

Is Google SyntaxNet Really the World’s Most Accurate Parser?

K. Church: "A Pendulum Swung Too Far", Linguistics issues in Language Technology, 2011; 6(5)

Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering

Pride and Prejudice of NLP Main Stream

On Hand-crafted Myth and Knowledge Bottleneck

Domain portability myth in natural language processing

Introduction of Netbase NLP Core Engine

Overview of Natural Language Processing

Dr. Wei Li's English Blog on NLP

【李白86：这是最后的斗争？】

宋:
“严正指出”中，“严正”有歧义；“严正说”中，“严正”无歧义，一定是人名。

李:
宋老师观察真切。这里面有什么说法怎样实现？

“说” 挖了个【human】的坑，人名就跳进去。“指出”也挖了个【human】的坑，所以，“严正”作为可能的人名也可以跳进去，是为歧义。

但作为副词的 “严正” 为什么可以修饰 “指出” 不可以修饰 “说”呢，虽然二者是同一个动词子类。通常的说法是，搭配使然。搭配说的是比类别（包括子类）颗粒度还要细微的词汇之间的语义相谐。“严正” 就是喜欢修饰 “指出”， “指出” 就是喜欢被 “严正” 修饰，对上眼了，之间有化学。这个倒也不罕见也有词驱动的实现方式。难点（或痛点）在为什么 “严正” 不可以修饰 “说”？

相谐的事儿一般认为是软约束，能谐自然好，不能特别谐的话，也可将就着，凑合一辈子的夫妻有的是。难道我们不仅仅要记住搭配，还要记住不搭配？实现的话，就是有无必要，既有搭配的白名单，也要有不搭配的黑名单（谁谁与谁谁就是互相看不上不共戴天）？开了这个黑名单的口子无疑给电脑处理也给人脑记忆增加了负担到底必要性如何？

当然还是大数据好说。如果大数据玩得转容易无缝连接的话，大数据中 “严正指出” 就是个 4 gram 出现频次很高，而 “严正说” 频次很低。但怎么知道前者是歧义后者不歧义？

“严正指出” 频次高因为副动组合出现多，外加少量的主谓组合。“严正说” 频次低是因为副动组合在这里遭遇不搭配陷阱，只剩下少量的主谓组合了。这些东西不是没有统计根据但要理清这些感觉好难。

白:
这里的搭配是词对词的，而不是特征对特征的。比如“老实讲”就没有办法为“严正说”的可接受性做任何贡献。虽然前者在大数据中频次不低。

李:
是搭配说词对词。
词与词搭配背后的关系怎么解？无监督大数据看得见搭配，看不见关系，除非变成有监督让人标注。如果 a 与 b 搭配只有一种可能的关系，当然就无需标注。有两种单看统计就难。

白:
有词典就可以看得见subcat，用不用subcat，（词对subcat或者subcat对subcat）由什么决定。

弹钢琴、弹琵琶、弹三弦、弹吉他、弹曼陀林

李:
打-酱油，吃-亏，...... 这些都是搭配，不用讲道理。

白:
这又离合词了。离合词不需要subcat。但是系统性的词对标签或者标签对标签，不一样。你词典里都有了，就是个拿来用的问题，也不用讲道理。

李:
所有词对词搭配离合不论都是词典绑架，要不要一个不搭配词典？里面全是例外是黑名单。好比两人结婚前请八卦先生算命，看相克不克如果克夫或克妻，坚决不能成婚。

标签对标签就是抽象语法条例。我们都知道那种东西就跟筛子一样到处是眼，但没有它也不行。要鲁棒要召回就要靠它。

白:
不要人来写

李:
于是可以把颗粒度变细，在抽象条例周围，前堵后补。也可以在条例里面做黑名单约束用逻辑与加逻辑非，难看一点但管用。词对标签同理，如果引入黑名单，也可以。这样来看似乎没有必要单单来个词对词的黑名单（不搭配词典）？

白：
否定的统计判断，是排除歧义用的。当没有歧义可以排除，这种东东还应不应该起作用，值得怀疑。

李:
我也怀疑。回到原问题：问题1，是要不要考虑加一个不搭配词典。问题2是，无监督情况下统计上相谐的词如果有歧义统计本身如何消歧？理论上后者也不是非监督就束手无策了。理论上，通过对类似的但不歧义的词与词的统计数据作为参照，可以计算出歧义词的歧义程度和歧义偏向，甚至不排除可以通过某种 propagation 来无监督地消歧。

白：
就算没标记，还可以根据embedding干点啥，还可以协同推荐。

李:
哈正是我想说的。
现如今 embedding 就好像上帝之手，啥事儿都可能，什么戏法都难保变不出来。

今天路上与郭老师还在说这些神奇事儿，翻译如今也不需要平行语料了，就在两个独立的语言语料里面训练，然后把句子一 embedding，二者就相互翻译了。（据说，一个双语的儿童就是这么学会两种语言，并自然切换或翻译两种语言的，儿童并不需要有翻译样板才学会翻译。）

更神奇的是翻译两端也不一定是自然语言， source 可以是语言，target 可以是图片，反之亦然。根据啥？ embedding。这么神奇的媒介语表达难怪人看不懂，人脑只能看懂 symbolic 的东西。

embedding 到底是不是真的这么神奇美妙先放一边，问题是其不可解释性看不懂怎么办怎么掌控怎么纠错。郭说谁让你看懂了？看懂了的东西怎么可能神奇？蚂蚁看得懂人类语言吗？人类读得懂上帝旨意吗？

也许我们天天鼓捣这些看得懂的符号逻辑，算计来算计去，全部是瞎操心，最多也就是过家家儿戏一样。

想想怪悲凉的。

白:
咋改抒情诗了？

李:
30年前入行的时候我们语言所有三拨搞 AI 相关的，每一拨都是中国AI的开山人物（现如今的中国AI史似乎抹去了这一页，其实这些老教授都是让人景仰的大师）：

第一拨是我的导师两位刘先生搞规则mt的，第二拨是范继淹先生的自然语言理解，是传统 AI 那套常识推理的符号逻辑，第三拨是语音合成，吴老先生和杨顺安。当年听马老师同学杨国文学姐介绍范先生小组的那套AI符号逻辑，心里很不以为然，觉得常识和推理很不协调，推理链条又显得太小儿科了，太脆弱（fragile）。无法与我们同属符号逻辑派的mt规则路线比，我们这边不用常识用语言学，接地气多了，而且分析语言也深入多了。那种 AI 果然没成气候几乎绝迹（很长时间 AI 成了一个笑话），规则派苟延残喘算是活下来了，但退一步想我们当年诟病试图利用常识推理的AI符号逻辑，也许就是（或者还不如）50步笑百步呢。符号也许根本就不是必要的手段，更不必谈什么两派大团结大融合。国际歌很悲壮说这是最后的斗争，等价的说法就是这是垂死的挣扎—— 如果世界的本质根本就不是符号的话。

白:
世界本质是波粒二象性

【相关】

【李白刘董85：汉字优越吗？】

李：
想到一个事儿，关涉词素这个议题，语言学基础课里面已经说得清清白白。但在大众认知中，甚至在专业人士的讨论中，还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起，天然政治正确，因此无论怎样拔高、夸赞，无论符合不符合语言学基本原理，都容易大行其道深入人心。其中最流行的说法是，几千个汉字可以表达的概念，比几万个英文词汇表达的概念，还要丰富。

这种说法不能说完全没有道理，但本质上似是而非，经不起语言学基本面的推敲。

要害在，这是苹果与梨子在比较。

汉字是语言材料的最小单位，是词素（又叫语素，morphome）。英文词汇表中的词不一定是最小单位，里面也有复合词（compound：black-board），也有派生词（work-er）。如果是词素与词素比较（这才是 apple to apple comparison），语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard（黑板）和 worker （工人）就不是两个单独的单位，而是跟汉字一样，一一对应，应该分解为四个语素。

正确的符合语言学常识的说法是，几千个常用的汉字对应西方语言几千个词素（词根或词缀），它们可以合成几万个常用词汇，代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性，还是心有不甘。

其实，真要深究，还是可以更加合理地为汉字优越找到一些语言学的根据，而不是人云亦云地拿自家的“字典”（词素表）与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言，无论东方西方，无论汉藏还是印欧，在这个信息飞速流转的地球村，都有足够的语言材料来表达所需要的概念了，但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上，只是要表达清楚这个优越性，需要一些语言学。

比较英语的词素（词根词缀），汉字为词素的中文，其造词法更具有产生性。

换句话说，国人可以更轻易地“造词”。这也可能是缺点，反正语文老师对小学生“生造词”一直是很不以为然的，过犹不及。他们的责任就是约束学生的造词能力，怕学生没必要地造出太多的词出来，行文不规范。但是，原理上说，这是语言的灵活性和适应性的体现，应该算是优越的语言学特点。

今天听中文网络广播，听到一个超出我的词汇范围的词（术语叫OOV，Out of Vocabulary，其边界因人而异，我的OOV词对于我来说就是“生造”词）“区隔”（后来查了万能的互联网，发现是一个被共同体已经接受的词），因为这词于我是第一次听到，我愣了一下，但很快就从汉字及其关联词汇（“区分”、“分隔”）意会到其语义。这说明什么，说明汉字组词有很强的随意性（明明有常用词“区分”，也不妨再造一个几乎完全等价的词来），对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性，以及从灵活性而来的新鲜感（谁愿意老“墨守陈词”）和从多样性逐渐带来的细微差别（nuance）。

为什么同为语素，汉字组合成词，比起英语语素组合成词，更加能产呢？

要起床了。先停下，以后再聊（老话说，且听下回分解……）。

刘:
@wei 我对汉字优越论也持怀疑态度。不仅仅是你说的原因。我觉得汉字的表义性对词义的理解有好处也有坏处。好处当然是可以减轻学习新词的负担，看到新词也容易猜测意思（如你所说英语词素也有类似作用）。但从另一方面来说也会带来坏处，就是容易望文生义。有些词义仅从字面解释容易造成误导，另外一个坏处我觉得是带来翻译的困难，这一定程度上阻碍了外语新词的传入。

白:
“电脑”的命名跟汉字的优越性不知道有没有关系。

刘:
前不久还见周志华在微博上吐槽把Robot翻译成机器人使得这个词在中文里面的意思发生了变化

白:
还有，intelligent和smart都翻译成智能，中国凑AI热闹的人群一下子大了好多。

魯:
嗯嗯，Robot建议翻译成“若博”，信达雅.... 哈哈哈哈

白:
“肉薄”貌似也可以。

董:
把翻译中出现的瑕疵或缺陷，都算在汉字的“不优越”头上，欠公平。别人也许会举出“可口可乐”、“出水芙蓉”等来说“优越论”。其实，一种语言都有自己的特点，有好的地方，也会有不足的地方。汉语重义，英语重形。在思考和研究语义时也许可以更多地借重汉语。

姜:
有个机构试图把“Internet”翻译成“因特网”并强力推广，但大家都不认，都觉得叫“互联网”好。“互联网”易于理解，不必另造新词，民间其实也早就一直这么说了。

李:
@刘群很同意，这正是我想要说的。

构词的灵活是很大的优点，也有副作用。不过，正反比较，我还是觉得，好处大于缺点。我这么说，除了源于汉字这个现象的思考，还源于我对世界语构词法的观察和研究。柴门霍夫对于构词法的设计，与汉字构词非常贴近，但更加“优越”。其结果是，学会几千个语素以后的世界语者，都可以随心所欲造词。副作用是，每一个造了新词的人，都留下了争论的空间。

根子在：新词所对应的概念到底是黑色的（必须最终通过词典注册来绑架），白色（透明）的（完全是compositional），还是灰色的（介于二者之间）？

譬如，电脑不叫 komputero，可以临时造一个词叫 kalkul-ilo（calculator），留下的争论空间就是，你到底是指的 “电脑” 还是 “计算器”？

再如筷子不叫 kuaizio，可以生造为 “mangh-ilo”（用餐工具），留下的争论空间就是，到底是 “筷子” 还是 “刀叉” ？

白:
我觉得望文生义出现误差是免不了的。

李:
对啊。
好在在说话的现场，这些误差和副作用会自然消解，所以，富有造词法灵活性的语言譬如汉语和世界语，还是长处大于短处。对于严谨的场合，譬如学科论文专利文书，这种灵活的透明造词法，常常让位于黑箱的新词，所以专业术语最好是音译（等价于生词）或直接用外文，或者起码在透明翻译后面再括号里注明外语的等价物，凸显其黑箱子特性。因为是黑箱子，留下的争论空间没有了。必须先给这个新词做一个定义，杜绝了望文生义的可能性。

白:
临时词就没有是否“地道”一说了。比如“马桶抽子”，是不是一定叫“抽子”不重要了，指出是疏通工具，就够了。

李:
所以，我同意董老师，汉字的表意性，及其汉语的自由度很大的造词法，大面上看是一个很大的长处。不求甚解，一般比两眼一抹黑好，至少对于人这点可怜的脑记忆量。到了电脑，再大的词汇都不是问题了，但词典是要“绑架”才有定义的，这个绑架的工作就不得了。好在最近有个深度神经的好东西，word embedding，有点神奇，可以在定义绑架这件事儿上发力。前提是那些个生词要有足够的大数据垫底。

白:
辅助望文生义的话，战斗机器人叫“肉搏”，对话机器人叫“若博”，那啥机器人………、

李:
需要的不是带标大数据，本质就是 clustering ，非监督的，所以还不真正构成太大的知识瓶颈。原理上属于 propagation，自动从有知推展到无知。

白:
非监督是正解

董:
说到翻译，还有“马桶”。一个不好的翻译例子是“抽水马桶”（flush toilet）--别误解为用来抽水的、像抽水机那样的用具。因为V+Nde结构，多数可以是用来V的N.

白:
往里抽不是往外抽

李:
马桶幸好是常用登录词，每个人的词典都内在绑架了，所以看上去透明的，其实是黑箱子。万一一个老外新学汉语，或者一个儿童第一次接触，就糊涂了，这与马这个词素有什么关系呢？

白:
@wei 跟“扎马步”不知道有多少关系。

李:
马桶为什么不给马用而是给人用呢？好处是半透明，即便老外不懂为什么有马在里面，起码能蒙对这是一个桶一样的物件。

沙发和软椅也是如此。后者黑箱子，必须扩大词汇量。前者不用，但。。。

白:
从“马拉松”到“半马”“全马”“北马”“厦马”，洋词儿变地道的土词儿了。
不是捆绑那么简单，有内生的能产性最恐怖了。

李:
“半马”“全马”“北马”“厦马”等，对于我还是要登录（记忆）捆绑才能理解。大概谁开始说大半马，也许我们不用捆绑也悟出来了。

白:
捆绑+派生+简化.

有了例子，后面就是泛化了。京巴，也有点这个感觉,其实“大巴、中巴、小巴”究其根源也是这种类型。

【相关】

【语言学随笔：汉字优越吗（1）？】

想到一个事儿，关涉词素这个议题，语言学基础课里面已经说得清清白白。但在大众认知中，甚至在专业人士的讨论中，还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

这种说法不能说完全没有道理，但本质上似是而非，经不起语言学基本面的推敲。

要害在，这是苹果与梨子在比较。

这样一来不就是半斤八两了吗。显现不出汉字的优越性，还是心有不甘。

比较英语的词素（词根词缀），汉字为词素的中文，其造词法更具有产生性。

为什么同为语素，汉字组合成词，比起英语语素组合成词，更加能产呢？

要起床了。先停下，以后再聊（老话说，且听下回分解......）。

【李白王董84：再谈POS迷思，兼论 PennTree 的误导】

王:
动词名化确实不好处理的难办事，以前做词性标注，准确辛率不高，就栽在这，n，v，vN上了，还有区别词b。当然现在语法理论，一个小小助词“的“就有管住核心谓词的能力，使之由V变N。

白:
A、“粉红凤凰”，B、“红绿色盲”，C、“真假和尚”。
A、粉修饰红，粉红修饰凤凰。
B、红绿并列，但并不是用本意的叠加修饰“色盲”，而是用不能区分这两种颜色来定义色盲的具体类型。
C、真假并列，通过分配律把共享中心词“和尚”送给二词修饰，表示“真和尚、假和尚”。
修饰成分间的关系很不简单呢。

李:
我对 b 的第一解读是 c 的并列
看了讲解才悟出来也许还有 nuance
感觉差异已经细微微妙到很少需要在意区分的程度了

@wei wang 中文中的所谓动词名物化 nominalization
很大程度上是一个伪问题一个语言学迷思
强加到 POS 模块作为其难点更是一个自找的麻烦
工作学习睡眠吃饭下雨打雷
这些词类别很清晰

王：
@wei，对此我也迷惑

李:
（逻辑）动词万变不离其宗没有 POS 区分的必要性

Wang：
这点我同意李老师。所以，我说现代语法理论，是否需要调整一下？只是不敢妄论。
如果都能走对，倒无妨，就怕转得有对有不对，就确实是问题了

李：
在 POS 先于句法的通常架构里
把句法的不同用场强加到 POS 标签去是真实世界的天下本无事 x人自扰之。
真有好好的路硬是自己挖个坑然后就自己跳进去然后抱怨路不平。

王：
当然，我现在已经跨越POS这个，不使用POS而直接走句法了。不过对别人而言，这词性标注依然存在。即便标注，我也认为动词体征的，就一直动词体征走向去，比较好。

李:
汉语语法学界上世纪50年代的词类大争论，大争论当年没争出结果来，是时代的局限。

王：
我的看法是，也不去争论。

李:
词无定类（“词无定类入句而后定”）走向一个极端，无法服人，但其思想有闪光之处。

王：
而是拿到系统中去跑，能跑得好的，自然就是好的，至少这正是我们所需要的

白:
结构强制在技术上一点不复杂，问题是算句法还是算词法，但这都不是技术问题，是旗号问题。旗号与我何干？

王：
至于语言学方面，那是另外的一回事

李:
对于具有 consistent ambiguity 的词，
本体上就是无定类，但是一说“词无定类”就扩大化了，以为所有词都是必须要句法，要上下文，这就陷入了鸡和蛋的死循环，当然不能服人。
这个迷思从哲学上不难看穿。可是实践中却坑了人太多太久而且还继续在坑人。

王：
@白硕说的是，确实不是技术问题

李:
如果一个东西在有些场景下看着是红色有的场景下看着是黑色
自然的结论就是给个 X 的本体标签，让 X 统辖红黑两个标签，至少这个信息的外延是清晰的，是红黑的区域，不是蓝不是绿不是紫等等，这才符合事实恰如其分。

王：
这是否分两种情况？
1)本来是多义词，兼有多种词性的；2）已经定了就一种（比如纯动词），走着走着，变了，

李：
不说多义词。多义词（细微差别不算）那是两个词，凑巧长得一样了，其归属自然也可能不同。

王：
嗯

李:
只说 2）
2）没有 POS 半毛钱的关系。
汉语中的 POS 任务中纠缠了几十年，原来一开始就把任务定义错了。

王：
请问，那么怎么“ X 统辖红黑两个标签”

李:
对于我们讨论的动词名物化，这个 X 就是 V，可以读成逻辑动词。这个 V 是词典给的，没有歧义，何用区分？

王：
嗯

李:
到了结构里面做了主语或者宾语，它没有改变 V 的本性：词义没变，归属自然也没变。所改变的是句法 role。

王：
同意

白:
没有X统辖那么简单。以“出版”为例，被赋予了动词特有的零碎，比如加“不”，仍然可以再通过“的”强制为名词；但是反过来，已经被名词特有的零碎强制过的，不可能再被强制回动词。
本性是动词，强制为名词，然后就凝固了，不接受变回动词的再次强制。

李:
没问题啊。
这些个细节与标签没大关系，标签还是 X。只要词义不变，标签就没有道理变，这是本体 taxonomy 决定的。词义变了，标签有可能变。在同一个词义下给不同的POS标签，对于汉语这样缺乏形态的语言，是不合理的。

王：
我的看法是，不去改变词性
这本书的出版，----出版依然是动词，---可以看作是一个成句中谓词
这个成句，是一个小句（子句），可以做主语，或宾语，这样，句法上也顺上了，而且，词性也没去改变

李:
换句话说，汉语这样的语言，POS 应该用的是逻辑类

白:
问题是啥叫词义变。“真孙子”里面的“孙子”，我感觉词义变了。

李:
世界上所有的语言的词汇，都有逻辑类。这是语言共性。但是形态语言在逻辑类之上，经常使用形态变换，把逻辑类穿上不同的衣裳。穿得好的话，可以脱离场景做句法。例如俄语，morphology 很大，句法就简单了。极端来说，别说 POS 标签，就是本质上是上下文结构决定的 role，也可以脱离上下文在词上反映：宾格就是宾语 role。

王：
同意@wei 在同一个词义下给不同的POS标签，对于汉语这样缺乏形态的语言，是不合理的。

白:
填坑使用的不应该是逻辑类，应该是角色。比如“这本书的出版怎么没通知我”当中，“这本书的出版”填坑时就是N。“这本书出版怎么没通知我”当中，“这本书出版”填坑时就是S。

王：
这本书的出版----看作一个小句，小句也相当于名词作用。出版--作为一个事件出现
事件--->没通知我。

李:
填坑不外两点：
1. 句法上要的是什么形式（包括标签或子类，或直接量），这是输入条件；2. 语义上是什么 role，这是输出角色，是“理解”的形式化。不能混淆输入和输出。输入条件用逻辑类，没有问题。句法的工作，起点就是词典信息。逻辑类是词典信息的重要方面，是词典本体信息体系里面层级最高的那几个标签。

白:
但，“通知”的内容那个坑，就必须是个X，混儿。见人说人话见鬼说鬼话。

李:
“出版”的坑：
（1）第一个坑
输入条件：publication （本体链条属于逻辑名词）
输出角色：【受事】

（2）第二个坑：
输入条件：human_or_organization
输出角色：【施事】

这才是 “出版” 的真实面貌。至于语言应用中，上述类似 HowNet 定义出来的 subcat pattern，应该如何松绑输入条件来应对鲁棒与活用，那是另一层面的勾当。

王：
就是说，不能因为一个“的”字，把本来清晰骨架，垫走了样。

李:
“通知”的坑：

（1）
输入条件：thing_or_event

(这就是白老师所谓变色龙，其实本体链条上，不过是在逻辑n与逻辑v上，再抽象一个统辖的 n_or_v，thing 就是逻辑名词的通俗表述，event 就是逻辑动词的通俗表述）

输出角色：【content】

（2）第二个坑是施事【谁】
输入条件：human （具体语言还有格、词序、介词类的条件制约）
输出角色：【施事】

（3）第三个坑是对象【向谁】
输入条件：human （具体语言还有介词、格、词序类的条件制约）
输出角色：【对象】

回来总结一下：坑里面使用逻辑类或者逻辑类下辖的子类甚至直接量（等价于具体词义搭配）是天经地义的。至于这些条件的松绑，所谓 preference semantics 那是语言应用中的窍门。为了鲁棒必须松绑，松绑会一步步从具体逻辑子类，向高层的逻辑类去。

王：
同意李老师

李:
HowNet 是独立于语言设计的，它的最上层 top 节点其实就是逻辑类，event 就是 v
thing 就是 n。其实还应该再往上走一步，thing_or_event，但反正有 OR 算符，所以走不走也无所谓了。

白:
可以看成一个lattice，and就低不就高，or就高不就低。

李:
HowNet 其实是两个东西在里面。第一个是本体，董老师对人类认知和常识体系的总结和设计。第二个是语言落地（汉语，英语，......）。这第二步是通过给汉语词汇标注 HowNet 本体标签的方式实现的。这时候的本体已经落地到具体语言了。

白:
修饰语隐含的被修饰语和真实的被修饰语做or

李:
PennTree 在英语NLP中已经很多缺陷，时代的局限，误导了很多人。

白:
总感觉HowNet不完全满足这个架构

李:
PennTree 的那一套标准用到汉语更是误导，不如直接用 HowNet 来作为标准。

白:
想都不要想，肯定不会用PennTree

李:
至于选取 HowNet 顶层或者中上层的哪些标签作为中文 POS 的任务，可以再议。POS 选得细了，就几乎等价于 WSD 任务了（事实上，白老师很多时候在讨论中就是把二者看成同一回事儿，道理很显然，WSD 说的是词义区分，词义的taxonomy 链条就是逻辑词类）。

王：
现在很多评测都是以宾州树库来做基准的。我也想过，就算那个F值即便很高，那么真实应用就是那么高的吗。

李:
HowNet 在语义领域可以独树一帜，能够站得住，相信也能够经受时间，其中原因之一，是由于董老师是中国人，讲的是“裸奔”的汉语。裸奔的汉语与逻辑最贴近，有自然的亲密关系。这对排除语言的干扰，从逻辑的高度审视语义，有天然的好处。如果要讲中国人对世界文明作出自己的独特贡献，HowNet 可以是一个代表。

王：
李老师对其他语义词典是如何评价？

李:
哪些？

王：
比如wordnet ,同义词词林

李:
早就不用 WordNet 了，麻烦比好处多。擦不完的屁股，以至于用了两年后，不得不全部推翻，宁肯自己零敲碎打，不完备，增量积累做语义标签，也不愿意陷入 WordNet 泥坑。

王：
主要是想说直接是树状，而非网状的这类

白:
标签体系必须是DAG

王：
分类体系做得不好，还是后期建设不好，比如冲突出现？

李:
其实 WordNet 是可以改造得好一点的好用一点的，但只听说有人说改造，但没见到有人愿意坐冷板凳去真地改造它。

白:
标签体系的数学基础，一是type theory，一是lattice。lattice解决单类型的上下位问题，type解决复合类型的构造问题。

王：
上下位好理解，这复合类型就不好理解了，请白老师讲解

白:
@wei wang 带坑呗

王：
明白了，我还以为复合类型，穿插把不同上下位的分支。又结成了网

白:
上下位是为不带坑的type准备的，带坑的都是复合type。

王：
@白硕带坑是一个词带n个坑，这几个坑是另外的词

白:
@wei wang 对的

王：
是否有的词，本身就自己萝卜和都带了，这样的词如何分类？比如一些成语

白:
标签也分层。微结构，比如“扫地”，合起来是一个坑，微结构又可析出一个萝卜一个坑。

李:
subcat 既是子类（atomic 的标签），也蕴含了潜在的结构pattern，说 vt 其实是说有这类动词子类挖了个宾语的坑。

白:
地不扫，何以扫天下

王：
@白硕那看成一个整体，仍在统一分类体系，

李:
HowNet 开始用的时候也有问题（有些问题与 WordNet 类似，没那么严重），给董老师反映过。问题的根源在董老师需要一个逻辑完备自足的义元体系，为了这个自足和完备，标注的时候就务求细而全。

HowNet 中的一个个单字的标签特别丰富，特别细，把这个字（词素）各种可能语义都反映了，甚至包括只存在于 idiom或合成词中的词义。这其实给使用带来很多噪音。我一开始是试图删减。后来发现对于单字的标签，删不胜删，最后决定索性单字的标签不用。要用的自己临时增量式加入，宁肯 under labeling，不能 over

王：
@wei “后来发现对于单字的标签，删不胜删，最后决定索性单字的标签不用。”
单字，是义原的核心，就是不用单字最基本的，而直接使用信息能独立的，更有代表性？更便于处理？

李:
不好用啊。很多汉字看上去不过一两个词义，结果里面标了五六个词义，仔细想确实都存在。但是用起来就是眉毛胡子一把抓了。

王：
嗯，我觉得建造体系可以这样建，想怎么用就是应用来选了

李:
如果这五六个词义的确都是自由语素的词义，虽然统计上出现频率不同，但逻辑上这样标注没有问题。但有些词义从来不作为自由语素的语义出现，只存在于合成词中，那就没有理由标注了。这个问题，董老师后期版本有了 config，可以筛选。做了弥补。这个问题在 WordNet 中更严重。

王：
嗯，谢谢李老师，白老师的解答。时间不早，明天上班，我先拜拜。

李：
晚安 @wei wang

王：
晚安！真的我还没聊够的感觉，特别是，语义分到什么类别，很关键，对系统有很大影响，也深有体会

白:
据我的经验，先别说具体类别，先说长什么样，更容易把握。数学上什么样，计算机里什么样。实体、属性、关系、值，这是一个层面。事件是另一个层面。时间空间因果模态，又是一个层面。知网中很先知先觉地引入了“变关系、变属性、变状态”等事件子范畴，相当高明。真的很赞.

董:
讲一个真实的故事。1988年由日本发起的五国机器翻译项目正在进行。在一次饭桌上，日方的项目负责人内田裕士谈起该项目的语义研究落实问题是说："这个项目的语义研究，是不是请中方负责，具有中华文化背景的人对于语义有更高的敏感性。"
只是觉得只要由中方来负责，总归是好事情。我就表示同意了。可是对他的那句有关“中华文化背景”的断语，还真没有完全理解，但饭桌上也不适合讨论下去。后来时隔近20年，内田先生来北京，那次我们只是几个人一起吃饭。我问他：“你还记得20多年前，我们在讨论MMT的语义研究时，你说过一句话。你说'具有中华文化背景的人更适合做语义研究吗？我一直想问你你为什么会这么说呢？'”
他说的很简单："因为是你们有汉字"。那时候我已基本完成了HowNet的研究和开发。HowNet正是以汉字为理念依据的。前两天我跟李维讨论。说到洋人不懂汉语，跟他们讲深了他们不理解。

白:
这些要是落在知识图谱里，不得了。

【相关】

【李白宋83：点评 “人工智能的诗与远方”】

Me:

NLP：人工智能的诗与远方
好像是白老师的最新指示。刚在微博看到。金句连珠，隆重推荐。行文如流水，简洁干净深刻。

“无论使用什么样的句法分析技术，有一点必须明确，就是句法本身是不自足的。细粒度描述的句法不具备鲁棒性和可行性，而粗粒度描述的句法往往必然带有伪歧义。”

“粗粒度描述的句法往往必然带有伪歧义”没疑问，为什么“细粒度描述的句法不具备鲁棒性和可行性”？是的，细粒度描述的句法不具备完备性，但鲁棒性与细不细的关系何在呢，可行性就更可以商榷了。

细颗粒的极致就是“词专家”，没有看到不鲁棒或不可行的问题，就是琐碎，劳动量大，概括性弱。

“句法本身是不自足的”，是反乔姆斯基的论点，反得好。但与鲁棒和可行不是一类概念。白老师自己给的简要定义是：鲁棒性（对灵活语序和修辞性失配的适应性）。

鲁棒与规则层级体系（hierarchy）关系大，与规则本身的颗粒度关系小。语序说到底是（显性）形式条件，语义适配（语义相谐）也是（隐性）形式条件，所有的形式条件都有弹性（优选语义），可松可紧，这就是层级安排因而鲁棒的根本原因：紧的条件精确但不鲁棒，松的条件鲁棒但不精确，配合得好，就可以又鲁棒又精确，或者至少维持在一个兼顾鲁棒和精准的准入门槛之上。

白老师的《NLP：人工智能的诗与远方》值得咀嚼。标题好文科、浪漫。但这是一篇严肃的高阶科普。一如既往，白老师的文字，举重若轻，高屋建瓴。

wang:
在我看来，李老师最后这一段描述，和白老师对句法所描述的，是一致的，并不矛盾。只是选的视角不一样罢了。完全同意李老师的弹性适应，这一点我也是这样做到

白:
1、琐碎到不合算就是不可行；2、一头扎进细粒度，一定会失去对灵活语序和修辞性失配的宏观把握；3、分层就是在粒度方面保持弹性的good approach之一。顺便说一句，这个是节选版本，原稿比这干货多得多。

李:
原稿在哪？

wang:
期待白老师，合适时机放出

李:
1. 琐碎到不合算其实很少存在：
如果是狭窄domain（譬如天气预报），琐碎是可行的，也就谈不上合算不合算。

白:
狭窄 domain甚至不需要deep parsing

李:
如果是 open domain，几乎没有琐碎单打一的。总是在一个大的框架下（better，层级体系的设计中），利用琐碎（细颗粒度）做增量修补。

白:
这就是分层了

李:
换句话说，琐碎不可行，最多是一个吃饱了不饿的真理。这也就回答了第2个问题：一头扎进去，单打一，做系统没人这么做。

白:
不是人人如伟哥般真理在握的。从外面搬来开源系统就想比划的不知道有多少，伟哥这是高处不胜寒。

李:
“3、分层就是在粒度方面保持弹性的good approach之一”， I cannot agree more

期待看原稿：这篇稿子太过简洁，很多地方真地是点到即止。

好，再精读一遍，摘录一些当面请教白老师，摘录可classify 为：1. 可圈可点；2. 可商榷；3. 没看懂

“鉴于自然语言丰富地表现了人类的认知、情感和意志，潜在地使用了大量常识和大数据，自身在算法和模型上也多采用各种启发式线索，目前一般均把自然语言处理作为人工智能的一个分支”

“算法和模型上也多采用各种启发式线索”：heuristics？

白:
是

李:
这个总结直感上很精到：无论什么模型，规则也好，统计也好，联结也好，其实都是反映 heuristics，英语没问题，汉语读者大概搞不清“启发式线索”的不在少数，这个术语以前论过，从来就没有好的译法。

白:
启发式这个翻译，在中国大陆的大学里正式的人工智能课程里应该是比较通行了的。

李：
第一张图，机器翻译和人机接口作为NLP的现实代表，很合适。但什么叫“纯人机对话”？

白:
就是没有任何grounding的人机对话。

李:
哦，以前是玩具 bot，现在是聊天机器人，将来可以落地（grounding）到老人陪护或心理疏导。

落地艰难：非良定义？

什么样叫非良定义？点解？
不能完备定义，只能例举，或就事论事？

白:
说不清标准，说得清答案。ill-defined
知道输入对应什么输出，但不知道依据什么得到输出。

李:
我其实想问：这里想说明什么？是说NLP落地很难，主要是因为目标不明确吗？

白:
非良定义和落地艰难是并列关系不是因果关系。

李:
这句赞赞：对于各种自然语言来说，大体上占到2型的很少但很不规则的一部分，但部分现象呈现上下文相关性，会在局部对2型有所突破。这就是笔者所说的“毛毛虫”现象。

其实2以降“很少”到几乎可以忽略（或绕道而行）。“突破”一般不必是着力点。

0型语言是翻译为“递归语言”吗？文法上，0 型是短语结构文法。这个其实也很 confusing，因为层级体系是蕴含关系的：3 也属于2,1和0，但窄义或另义的 PSG或短语结构图，是相对于 DG 而言，PS 是 constituency 的同义词，讲的是“兔子吃窝边草”的路数，而不是 DG 的兔子不必吃窝边草的逻辑跳跃的路数。

白:
PSG的原始定义就是0型。窝边草是对的，但窝边草怎么来的有玄机。把一堆窝边草重写为另一堆草，这就是0型。

李:
从语言类型学角度，一般而言，PSG 适用语序相对固定的语言，英语、汉语等；DG 适用自由语序的语言（如俄语）。0 型从复杂度角度，不是没有章法么？爱怎么整都行。因此，最有章法的正则自然也属于0型，有限制的一定落在没有限制之内。

白:
只是对重写有不同的限制，依据都是窝边草

李:
但学习这个层级体系的不少人，可能本能地把层与层隔绝在互不包含的院墙里（也许只是文科生容易这样陷入？）

白:
这篇文章不是讲给没学过类型分层体系的人的。计算机专业学过形式语言与自动机或编译原理的都应该不陌生。

李：
不懂：“实际上，鉴于欧氏空间具有良好和丰富的数学工具可用，语言/文本的向量化努力是跨越统计和联结两大阵营的”。

不过，这不是行文的问题，应该是受体的知识缺陷，可能讲解了还是不懂。

白:
欧氏空间这段，详解被删了。统计的典型是LSI，联结的典型是词嵌入。

李:
word embedding 最近体验了一点，是有点神奇。

可圈可点：这段时期之所以NLP既远离“人工智能”的招牌，也远离“计算语言学”招牌，是因为人工智能招牌在当时并无正面贡献，而语言学家在经验主义范式下不得施展甚至每每成为负担。

这是对历史的精确描述。AI 曾经像个丑小鸭（或瘟神），人人避之不及。计算语言学名不副实或有名无实，久矣。

白:
原来这杆旗下的人还要继续混日子啊

李:
后面一段是革命乐观主义和浪漫主义，蛮鼓舞人心的：

深度学习技术以摧枯拉朽之势横扫语音、图像识别和浅层自然语言处理各类任务，知识图谱技术为语义知识处理走向各行各业做好技术栈和工具箱的铺垫，人工智能招牌强势的王者归来已经在所难免，自然语言处理技术也自然地成为了这王者头上的王冠。这是因为，语音和图像识别大局已定。自然语言处理已经成为一种应用赋能技术，随着实体知识库的构建、知识抽取和自动写作在特定领域的实用化和对话机器人从对接语料到对接知识图谱的换代，正通过新一代人工智能创新创业团队，全面渗透到人工智能应用的各个角落。

其中强调两个支柱：（i）深度学习的算法；（ii）知识图谱的表示。
其实有点格格不入：前者是经验主义的极致，后者是理性主义的表现；前者显得高大上，后者显得平庸但实在。

白:
所以波粒二象性啊

李:
by the way， “对话机器人从对接语料到对接知识图谱的换代”这是在下目前的重点课题或挑战。

知识图谱的概念被谷歌炒热以后，其实稍微拔高一点看，没有多少“新意”。不过就是“结构化”的具象而已，结构的图示（visualization）化、大众化而已。图谱早就植根在乔姆斯基符号体系以及其他种种语义流派的传统里，通过MUC的信息抽取的语用落地，导致谷歌利用搜索把它活生生展示给亿万受众，激发了大家的想象。

白:
而且只是一小部分。被删掉的部分讲了哪些地方是“一小部分”不能涵盖的。

李:
对的，被炒热的知识图谱就是结构化中的一小部分。也是最简单的一部分。知识图谱是很平民化的东西，讲到底就是一个烧钱烧资源的知识工程。典型代表就是一个多少亿的三元组，还不如 tree bank，从数据结构看。更不如各种规则 formalism，最简单的产生式规则也有 if then。

白:
挑战性的东西不少，看不到就没办法了。不能光看表达力，还要看技术栈、工具箱。后者丰富前者贫乏，仍可以做大事情；前者丰富后者贫乏，只能做玩具。

李:
是是：“后者丰富前者贫乏，仍可以做大事情；前者丰富后者贫乏，只能做玩具。”

自然语言处理从浅层到深层面临范式转换，还处在对接情感计算与常识计算的战略性要地的关键位置。谁能拔得头筹，谁就能在当下的人工智能“军备竞赛”中处于有利地位。

深层解析需要常识计算我们在本群讨论中见过无数例证了。需要情感计算也见过一些。

基于统计的范式繁荣了近二十年，终于在2010年前后被同为“经验主义”学派的基于联结的范式所全面取代。这是深度学习算法显现的巨大威力，也是数据和算力积累到临界点的一次综合性的爆发。

据说，有一代人有失落感，他们当年横扫千军如卷席，各种算法花样翻新，从朴素贝叶斯，HMM，CRF，MaxEnt，。。。各种参数设计身怀绝技，突然九九归一，以前的绝技似乎不再闪光。这种失落不亚于语言学家面对统计学家长驱直入而带来的边缘化的失落感。历史循环还是报应？真是 30 年河东，20 年河西。

白:
没那么不堪吧，有啥用啥，干嘛一定站队。

李:
目前，基于联结的范式风头正盛，但“深度”自然语言处理的需求压力之下，“理性主义”学派以某种方式再度回归，实现“波粒二象性”的有机结合，也是可期待的。

这个有机结合，NLP老司机呼吁较多，新一代的联结主义者似乎无暇他顾。当然，无暇不仅仅是“攻城掠地忙”（毛委员打土豪那阵，农民革命就曾“分田分地忙”），也因为这种“有机”结合，真心不容易。

看今后10年吧。

词法分析领域绝非基于词典的分词这么简单，这个领域还有大量有待攻克的难关，有些难题已经与句法分析搅在一起，非统筹考虑是无法单独推进的

这个观察到位，但真认识到的人不多。特别是汉语，在进入句子结构之前，基本分词之后，还有一个广阔的地带。其中不乏难题。有些是致命的。领域化在这个方面也有很大的挑战。譬如，看电商的标题，那种 sub language 简直就不是汉语。

白:
这一节删掉甚多。提到了词性标注、命名实体识别、形态还原、构词法。形态还原中特别提到了离合词。

李:
的确删太多了。

还有一个可以探讨的事儿：觉得 DG 和 CFG不好相提并论。DG 本身不是算法，只是表达法。

白:
都不是算法

李:
CFG 比较直接地蕴含了算法，譬如 chart parsing，DG 不蕴含任何方法，也许隐隐蕴含了自由语序的匹配方式。从表达法（representations）角度，DG与PSG并列，是两套表达体系。声称 DG parsing 的人，其实用的 formalism 与做 PSG parsing 的人无异，逃不过乔姆斯基的佛掌。anyway，只是感觉大家在讨论中这方面有时候似乎容易概念混淆。从表达法来看，也没有单单的 CFG，CFG 属于 PSG，所以表达法只有 PSG 与 DG 之别。

Nick:
白老师这篇要认真学习

李:
@Nick 咱有样学样啊。。。

最后要说明，即使语言的结构表示模型是基于理性主义（符号或规则）路线的，但语言解析过程本身仍可以采用基于统计的或基于联结的方法。比如PCFG就是基于规则的结构表示与基于统计的过程控制的有机结合。

PCFG 是有机结合的先行，但不算成功，文章似乎不少，但没见多少实效。今后几年看白老师的了。

词典化（免规则）、单子性（免复杂层次）、局域化（免跨成分关联）和鲁棒性（对灵活语序和修辞性失配的适应性），是自然语言句法分析技术未来的发展趋势。

“局域化（免跨成分关联）”不大明白，其他几方面可说是有相当共识，所见略同。

“知识图谱的技术栈里算力充足工具齐全”：这个需要检阅一番。

白:
PCFG不见实效的关键原因，一是CFG先天不足，二是标注成本过高。如果不能变为非监督或弱监督，必死。

李:
对，P 要到位就要超大数据，否则怎么个概率法？可是结构标注根本就不是人做的的活儿（PennTree 这么多年成长也很有限，增长部分大概是语言学研究生的苦力）。

quote 此外，人类的语义解析过程充满了所谓“脑补”。可见，借助知识图谱，智能化地完成这类需要“脑补”的语义理解过程，是语义分析技术走向实用和深化的必然要求。

这段话群里的人可能会理解，但对于大众，无异天书，必须要有相当的 illustrations，脑补的是常识，专业知识？是常识中的默认选项，etc. etc.

白:
这里也删去几百字。

李:
知识图谱的好处是为结构化张目。很久以来，没人尿结构化这壶，一草包词多厉害啊，鲁棒到极致。用于搜索，不仅鲁棒，还特擅长长尾，tf-idf，越长尾关键词越灵要什么结构劳什子。连词序都可以舍弃，何况结构？

到了 ngram，词序带入考量了，算是对语言结构的一个看上去拙劣粗鄙但实践中颇有效的模拟近似，因此也不用着急蹚结构这个浑水了，来个 bigram or trigram model，还有个 viterbi 的高效算法。

现在好了，趁着图谱热，结构化的旗帜高高飘扬。终于可以理直气壮、名正言顺地大谈结构化乃是自然语言理解的正道，乃是人类智能的基石。为这一点，要感谢谷歌。就好比我们应该感谢苹果，通过 Siri 把自然语言接口送到千家万户，教育培养了用户。

下面这些都是字字真理：
自然语言处理能力以平台化方式提供服务，是广大自然语言处理技术提供者求之不得的事情，但目前还受到一些因素的限制。现实中，更多的自然语言处理技术是融合于一个更大的行业应用场景中，作为其中一项核心技术来发挥自己的作用的。

NLP平台化迄今没有大规模成功案例。趋势上是必由之路，但今后何时真地可以平台化广泛赋能，真地是一个未知数，我们从业人员都在努力。。。。

除了法律、医疗、教育等先行行业之外，金融证券行业对自然语言处理技术业有很迫切的落地需求，但往往必须结合专业领域知识和私有数据才能构建有价值的场景。

就是。

熬了一夜，精读了白老师最高指示。
两个等待：一是等着看原文（非删节版）；二是等着看白老师的系统。

宋:
读白硕的文章，的确高屋建瓴，分析得透彻。我觉得还应该补充一点（也许是简本删掉了的），就是语言学研究的必要性。具体来说，就是语素、词、词组、小句、句子（小句复合体）的定义，以及相关属性（如词性）及关系的定义。对于英语等西方语言，似乎一切都很清楚，不言自明，无需当回事儿去研究，但是论及到汉语一切就都糊涂了。不能适用于汉语的语言学概念的归纳，都是偏置的。基本对象及其属性、关系的概念不清楚，相应的模型和计算就不可能完全适用。

白老师的全本中会讲离合词，这个概念就是其他多数语言中没有的。但是，如何从人类语言的高度看待离合词，期待看白老师的全本。

白:
@宋柔我感觉语言学并没闲着，只是节奏慢了点，在NLP这边是没人理睬，而不是挑出很多毛病。挑拣的才是买主。挑拣才能让语言学加速。

宋:
语言学方面的问题是没有照着机械化的可操作的要求去做研究。

白:
@宋柔光算法层面的机械化，语言学家或可手工模仿；扯进大数据，连手工模仿都不可能了。

宋:
基本概念的定义，比如词的定义，应当适用于大数据中的所有样本，语言学应当做这件事。

白:
只要承认运用中可拆解，词的定义不难。@宋柔

宋:
不仅是运用中拆解的问题，还有一个粘着性的问题。

白:
粘着性倒是真的可以大数据说话

宋:
你说的有道理。语言学的基本概念的定义。真的不能是静态的，需要在大数据的环境中定义。基本原则是这样。定义的结果，哪个是词哪个不是，要看参照哪一堆文本。

白:
“以国防部长的身份”当中的“以”，可以是介词，也可以是名词的拆解物（“以色列”的简称）。这个拆解物当名词用。

宋:
即使数据集定了，也还有模糊性、两可性。那又是另一个问题，即符号的歧义问题。

白:
承认可拆解的另一面就是承认微结构。宋老师说的粘着性，可以从词根与词缀结合的微结构角度来考虑。

宋:
微结构的节点应当有波粒二象性，既是词，又不是词。

白:
拆解出来当词用，封在里面就是词素。

宋:
微结构可能会有相当大的跨度：这个澡啊，从来没洗得这样舒服过。语言学理论必须把这些现象包容进去。

白:
必须的

宋:
这样的澡我从小到大，再到老，还没洗过。

李：
离合词是可以解决到很完美的不再是问题的问题，关键就在词典与句法的接口上。大规模验证过的。

【相关】

新年新发现：微信开恩允许改错，但仍美中不足

提一句微信最近的新功能：我呼吁这个功能已经两年了，最近的更新终于基本实现：

发微信常常有错别字覆水难收对于有文字洁癖者那是一个巨大的折磨早就呼吁在限定时间内应该允许 edit。道理也很简单，既然允许撤回，就没有道理不让人改错。呼吁两年了没动静。遇到必须改错的 post，不得不先

（1）select all
（2）然后 copy
（3）然后撤回
（4）然后 confirm
（5）然后 paste
（6）然后 edit
（7）最后 repost

为了改个错，不得不走7步，该死的微信，皇帝女儿不愁嫁，硬是不理不睬人民呼声。最近不知道张小龙怎么一高兴，还真开恩了。虽然姗姗来迟，还是应该庆幸。

本来以为，直接点击刚写的post，然后就能进去 edit，然后 repost，这多 intuitive 啊。结果产品经理不是这么实现的，它仍然需要你先撤回，相当于自动帮你复制了，留个 button 允许编辑。如此这般，7个步骤，只需要（3）（4）（6）（7），变成了四个步骤，省了3步，将尽一半的力气。

既然撤回了还可以更改，还可以再发，这原先就有的第（4）步 confirm，就没有存在的理由了，这样只需要3步即可，省了一多半功夫。堂堂微信的产品经理，也是这样榆木脑袋吗？以前需要 confirm 是有道理的，如今还要 confirm 纯粹是增加负担。Eat your own dog food, 怀疑产品经理不吃狗粮，没治。

以前听过一个微信产品经理谈产品设计，说得那叫一个好，让人叹服。伟大的产品果然背后有伟大的产品老总。如今，这样的产品经理都走人了吗？

【李白82：汉语重叠式再议】

【立委按】
我稀罕死她：是我喜欢她
她稀罕死我：既可以是她喜欢我，也可以是我喜欢她。
汉语鬼不鬼？
虽然鬼，语言学家有解读，明镜似的。2018了，不要看不起语言学家。世界上怕就怕认真二字，我们共和党人就最讲认真。一切都讲大数据，我们语言学家就最讲数据。
你知道吃饺子过年有几种说法吗？

白:
“逆回购逆了好几笔了。”
副词词素用作重复

李:
这是汉语动词用前缀重叠（reduplication）回指（coreference）的现象：

“abc 都 a 了这么久”

动词 reduplication 是汉语常见的手段，用起来有说法：

【1】一般只重叠一个词素（单音节），但不排除整词重叠：

“学习学了这么久”
“学习学习了这么久”

（说话说了一半，打了个叉就打这半天：咱接着练，把动词重叠的话说完。）

动词重叠有两个语义：

（1）表示回指（可以看作是有unification的并列）：就是说的同一个动作事件，所带的成分不同，信息需要融合（fusion）。这是汉语句法的一个趋向，同一个动词后带成分不宜多，最好分开来说，分开说就用重叠手段。

（2）表示动词的 short duration，这不是句法现象，而是词法手段：如，休息休息；看看书；说说话。

【2】. 绝大多数多音节动词的重叠都是只重叠第一个音节

背后的原因可能是绝大多数双音节（或三音节）的动词的内部结构都是动词词素打头
结果语言共同体就形成了这个习惯，然后就泛化了，以致于甚至V不打头的（合成）动词也可以使用第一个音节重叠来做回指，这就是白老师举的例子，合成动词里面的副词甚至也就可以重叠来代指整个合成动词（把合成动词当成一个黑箱子了）：

“ab 就 a 了这么久啊”
“abc a得我是灰土土脸”

不管ab 或 abc 里面是啥结构了，就用第一个音节 a 代指 ab（abc）。

但是，汉语的词法很多时候是半透明的，所以还是有人做动词重叠深入到词法内部，把其中不打头的v词素，外化到句法来重叠，这样就形成了这么个等价的 minimal pair：

“逆回购逆了好几笔了”
“逆回购购了好几笔了”

（by the way，“逆回购”这个合成词里面有合成嵌套。词典动词 “回购” 的内部结构是【副词+headV】；到了“逆回购”，结构还是【副+headV】）。

再举几个有趣的例子：

“望风而逃也逃不过如来佛的手掌。”

“你金屋藏娇藏了几年了？”
“金屋藏娇藏了几个娇？”

不能说：* 金屋藏娇金了几年了
（所以黑箱子用第一个音节重叠的接受程度，很难延伸到3音节以上的成语）

“你金屋藏娇藏了几年了？” 这句，“你” 既可能是逻辑主语，也可能是逻辑宾语，貌似做宾语可等价于： “你被金屋藏娇藏了几年了？”

如果是 “她” 几乎就定死在宾语角色了：

“她金屋藏娇藏了几年了？”

另外，汉语合成动词的大多数是v打头，这很显然，因为汉语合成动词的词法结构不外是：

1 动宾：洗澡
2 动补：打碎
3 并列：打击
4. 状谓：狠批
5. 主谓：头疼

123 都是 v 打头，5 成词的数量不多，主要就是 4 是副词打头。

白:
狠不狠批是态度问题

李:
“狠批谁也不敢（狠）批你呀”
* “狠批谁也不敢狠你呀”

可见 “狠” 回指 “狠批” 是有诸多限制的。至于 “x 不 x” 这种重叠式，x 既可以是动词也可以是形容词/副词。“狠不狠” 这种选择疑问的焦点在 “狠” 上，不必解释为 “狠” 代指 “狠批”。

严打：“严不严打全看老邓一句话。”
重判：“重不重判要看平民组成的陪审团。”

后退：
1 后退不后退
2 后不后退
3 ? 后退不退
4 * 后退不后

总结一下，全重复永远不错，重复v词素基本不错，前重叠可重复第一音节，后重叠如果想重复第一个音节，要小心了。

白:
小心，3和4都不灵

李:
@白硕 3 “后退不退” 个人语感上不是完全不可接受。麻烦出在 “不退” 也可能是句法谓语， “后退” 成了话题主语，而不一定是【x不x】的词法重叠式来表示“选择疑问”了。

“前进不进后退不退你这是唱的哪出戏？”

“后退不退？总司令一直在纠结中难以决策。”
“后退不后退？总司令一直在纠结中难以决策。”
“后不后退？总司令一直在纠结中难以决策。”

显然后两种说法更地道但 “后退不退” 不是不可以，至少与 *“后退不后” 不可同日而语。

白:
其实我说的“小心，3和4都不灵”的意思是：“小心不小”和“小心不心”都不灵。
后来讨论淹没了，没顾得上掰扯。同理还有：“遗憾不遗”和“遗憾不憾”也都不灵。

总感觉“ab不a”/“ab不b”格式有一种“ab可为，为不为？”的意思在里面。如果ab的到来是不受控的，那么“ab可为”的预设就不对劲了。

李:
小心的同义词是 “当心”，“当不当心” 你懂的。“考不考虑” 你也是懂的。“重不重叠” 我们都知其然，不一定知其所以然。还好做 parsing 即便 over generate 也关系不大，做生成要小心了保守一些为好。

白:
12都ok，关键是34。

李:
？“当心不当”
“担心不担”

白:
小心、当心，担心，语义差别小，34准入性差别大。

李：
说话就过年了，看到一个“绝妙中文”的段子：

可以 parse 看看：

想到：“好喝不？不好喝。喝不好不喝好。”

“喝不好” 歧义：述补结构 or 主谓结构。again 前者偏词法后者属于句法。

白:
喝不好，其实还有述宾结构一个选项，但很隐晦地被压制（喝读第四声）。参考一下：平行的“说不对”三个选项就都灵光了。
1: 述补结构，不能正确地说；2、主谓结构，“说”这件事是错误的；3、述宾结构，说的内容是“不对”。

之前郭维德师兄还举出过：说了算，算了说，说算了，算说了……

李:
语文老师布置作业：请用“好”、“过”、“年”三字在“吃了饺子”后面造句，谁造得快，发给谁新年红包。

小明数来宝似地一口气说下去：

吃了饺子好过年
吃了饺子好年过
吃了饺子过好年
吃了饺子过年好
吃了饺子年过好
吃了饺子年好过

学过概率又学过语言学的人就是不同：6 种排列全顺！

【小明，这里有红包.......】

提出你知道“吃饺子好过年”有几种说法吗，结果我的朋友圈有一个学生留言道：

1. 吃饺子好过年
2. 吃饺子过好年
3.吃饺子过年好
4. 吃饺子好年过
5. 吃饺子年过好
6. 吃饺子年好过
7. 过年好吃饺子
8. 过好年吃饺子
9. 年好过吃饺子
10. 年过好吃饺子
11 过好年吃饺子
12 过年好吃饺子
13 过吃饺子年好
14 过好吃饺子年
15. 吃好过年饺子
16. 过好吃饺子年
..........

罢了罢了不做排列练习了

白:
还有很多：
过年吃好饺子
过年饺子好吃

李:
原因：

1. 汉语很灵活，词序比想象的要灵活许多
2. 常用词有多义或多用法（汉语说：我裸奔我怕谁）
3. 动宾离合词“过-年”很厉害，与句法动宾“吃-饺子”一样自由，造成何种合理合法的组合

换个话题，自然还是中文计算：

“牛顿稀罕死我。” 领导回家，见牛顿（Nutan，我家的猫）在门口迎上来撒娇，不由说道，然后就是奖励它，给它 treats。

Xander左白，牛顿右黄，和平安详

经常在日常生活中听到一些自己作为南方人不会说但可以听懂的话。上面的话其实是说：我稀罕死牛顿了。可北方话为什么要倒过来说呢？

语言学讲稿中常举逻辑SVO倒置的例子有，英语的“like” vs. 法语的 "plaisir"（please），核心谓词的语义相同，但所要求的S和O正好倒置：

NP1 "like" NP2 == NP2 "plaisir" NP1
(“喜欢牛顿” 等价于 “被牛顿取悦”)

感觉 “牛顿稀罕死我”是使动用法：“牛顿让我稀罕死（它）了”。现代汉语中的这种转换必须有补语才成。一个单纯的及物动词是不成的：“我稀罕猫” 与 “猫稀罕我” 完全不同。
但 “我稀罕死猫” 与 “猫稀罕死我” 完全等价。

汉语鬼着呢。

（当然等价的前提是知道牛顿是猫，否则【human】对【human】可能产生结构二义，麻烦大了。）

“我稀罕死她”：是我喜欢她
“她稀罕死我”：既可以是她喜欢我，也可以是我喜欢她。

汉语鬼不鬼？

虽然鬼，语言学家有解读，明镜似的。2018了，不要看不起语言学家。世界上怕就怕认真二字，我们共和党人就最讲认真。一切都讲大数据，我们语言学家就最讲数据。

“我稀罕死她”也是【human】“我”对【human】“她”，为什么没有二义呢？大概是因为子非鱼，吾非她，无法知道她是不是被取悦，干脆潜意识排除这种解读。“她稀罕死我”，有所不同，虽然吾非她，但她的主语位置隐含了标配的逻辑语义解读，不好轻易排除“她喜欢我”这种默认解读。至于第二种解读，我了解我的心，自然更不能排除。这说明，一种句法结构哪怕是二义的，共同体的语言认知心理往往有一个标配（默认）的逻辑语义映射。

中文处理，没完没了，语义计算，妙趣横生，李白对话，对到年终，祝白老师和群友新年快乐，2018 咱接着说。

【相关】

【新年新决心：追求喝好酒，不求酒好喝，祝你新年快乐】

左牵白，右擎黄，老夫聊发少年狂。料理日本平安夜，鬓霜圣诞又何妨。

Merry Xmas and Happy New Year to all！

Xander(白)敏捷，牛顿（Nutan 黄）安闲，平时打闹不断，难得和气一团。

哈，那位说了，好奇妙好诡异的中文！快跨年了，咱来分析分析：

因此上，新年新决心 New Year Resolution：坚持喝好酒，不问酒好喝，向 Xander 学敏捷,向牛顿学安闲。拥抱人智学图谱，挖掘知识看语言。祝各位快乐新年！

Note：敏捷指 agile software development；人智乃AI；图谱是knowledge graph（KG）；挖掘是 text mining。

【相关】

【语义网笔记：本体与知识图谱之辨】 – 立委NLP频道

【与董老师对话：什么是知识图谱？】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题，并分享给各位。面对层出不穷的新生术语和流派，董老师谦逊为怀，不耻下问，让我受宠若惊。我的来自实践的一些粗浅见解，岂及知识大师董老师学问之万一，不胜惶惶。董老师是我一辈子最仰慕的前辈导师，他的逻辑语义学说（逻辑语义及其在机译中的应用）是我入行的导航，他的《知网》（HowNet）是探索人类知识体系结构和常识表达的一个丰碑，其价值必将超越时间和流派（参见我写的《语义三巨人》）。在很长的时期，董老师是中国计算语言学界的旗帜和对外交流的大使，是中国第一个把机器翻译系统推向大规模实用的先驱（“译星”）。30年前在中关村高立公司兼职搞MT研发的时候，我就有幸与董老师在一起半年左右，当面聆听教诲，受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系，开始酝酿《知网（HowNet）》，酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍，终成正果。我出国前不久，那是1989年风波前夕，中国自然语言界在香山开了个研讨会（年会？），我的导师刘倬先生与董老师在会上就NLP所做的对话，人称“刘董对话”，成为大会热议的主题，此段掌故仍记忆犹新，【立委小传】中有记叙。如今董老师80高龄，离而不休，依然在自己家里亲自上线做系统，深入探索自然语言句法和语义解析，其精神令晚辈高山仰止。

91年出国前在高立合影留念（右下1是董老师，2是我，3是刘倬老师，4是高立CEO）

董:
请给我点启蒙：为何叫”gragh“了？不叫”KB“或”ontology“了。why Google called it "graph"? What does it mean by "graph"?

李：
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google. Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题--知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例，来说明：在什么情况下必须用到知识图谱了，然后该系统就调用了只是图谱，于是就解决了那个难题了。这样我也许能理解了，也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子他是怎么炒热这个概念的。

搜索每个人都用，你给一个关键词，它回给你一系列文章的链接，这些文章与之相关，用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾，实际上，越是长尾罕见的关键词query，效果往往越好，这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多，搜索的是实体名，譬如明星，VIP，好莱坞大片或世界500强。对于这类搜索，返回相关文章序列让人看，实在太粗糙了。

于是，他们事先把相关信息结构化、组织好，相互链接，存在某个地方，起了个名字叫知识图谱。然后一旦查中，就把这整合浓缩了的，比较全面完整，并且充满相关链接的实体信息，和盘托出。结果大家都知道了，无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念，早谷歌十几年我们就提出，而且也实现了，实现在国防部的反恐情报分析挖掘系统中，也实现到我们的b2b品牌情报的商业产品中（参见《知识图谱的先行：从Julian Hill 说起》）。不过当时起名 Entity Profile（EP），而不是 KG （Knowledge Graph）而已。

@董振东这应该是回答了非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了，然后想象当年的没有图谱的搜索结果来做比照，说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索，然后可视化展示。其他的图谱应用可以是回答问题，再进一步可以是通过图谱关联做一些推理。理论上，信息组织成图谱了，结构化了，就可以做很多事。

董:
谢谢，李维。再多问一句：这种种图谱，是机器自己做呢，还是人手工做呢？

李:
谷歌是购买 freebase 做为基础，基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了，怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile（刚开始叫 Correlated Entity，CE，也是反映了实体互相关联的本质），简称 EP，我自己不知道怎么翻译好，就译成“实体概览”。后来这个术语也还是流行了，不过到了中文，一般翻译成了“画像”，而不是“概览”。譬如，电商领域大家都谈“商品画像”、“用户画像”，约定俗成。

画像比图解还俗一点，可大家都用，也习惯了。Note 这是图谱的实体名词为中心的一个信息角度，还有另一个以事件动词为中心的图谱角度，目前还没有约定俗成的统一术语命名。MUC （Message Understanding Conference）的信息抽取共同体里面，一般称事件图谱为为 Scenario Template（ST），我归类为 Predefined Event （PE），为的是与 SVO （Subject Verb Object）为核心的 open ended General Event （GE）比照。把 events 序列串成一个story的结果，叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想，我叫它信息体理论（Theory of information Objects, 参见《科学网—前知识图谱钩沉: 信息体理论》），成型在我给国防部项目的最后报告里，此不赘述。当然人微言轻，这些思想在今后的知识图谱的发展中，肯定会被别的等价或类似的术语替代，有话语权又能让共同体接受的往往是巨头。可以拭目以待。

董:
说得好！

李:
近年哈尔滨刘挺老师那里，开始宣扬一个“事理图谱”，似乎闹出一些动静，这就是沿着 event 这条线，概念上非常接近 scenario。事件图谱（or 事理图谱）与实体图谱，虽然二者交叉，你中有我，但事件图谱比实体图谱更难构建，应用起来也更具挑战性。一切还在 evolve。

然而，万变不离其宗。其实这一套所谓知识图谱背后的概念体系，并没有超越《知网》（HowNet）的设计哲学。董老师应该感觉欣慰，语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同，术语名词不过是皮囊。HowNet 是打语义结构体系基础的，是元知识（meta knowledge）体系，面对万事万物的本体（ontology）。而当我们一旦进入问题领域，我们面对的不再是本体概念，而是一个个实体（individual entity）。于是实体名（Named Entity，NE）成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology，来作为其 schema 的定义和软约束：这在定义图谱的时候需要用到。

董:
很多年前，刘挺他们曾让我去他们团队，他们跟我讨论过如何建立，例如夫妻关系，在网上搜索相关的事件。这跟实体类相关一样，不从底层来，怕是不好做的。如果是就事论事，那还好，不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释，我知道更多了。

李:
确实更加贴近应用，是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是，把我们在NLU （NaturalN Language Understanding）做无边无沿自动句法解析（parsing）的 SVO（主谓宾）类的语义表达放在一边，重新定义了领域应用驱动的实体抽取和事件抽取（领域事件的例子有“高管变动”事件，CXO上台下台的情报）。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用，创立了信息抽取（Information Extraction，IE）这个领域，也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘，但我们其实可以继续SVO的解析而做得更精准，更具有领域普适性，增强快速领域化的能力。这一点（以parsing支持IE）已经经历十几年的反复实践，其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情，是在我们的分析基础上的再开发。例如：“从轻”的根据之一是“共同犯罪”，而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同...”等等提取的。

李:
实体图谱个人画像（很像履历表）中的一类重要关系就是人与人之间的关系，包括夫妻关系，上下级关系，其他家庭关系等。这就是一个事实的挖掘（公司里面叫 org chart），应该是数据驱动的。

董强做的也是领域数据抽取和挖掘，结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘，绕过了 parsing 和本体知识库。一般来说也是可行的，前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了（有利白领就业，应予鼓励）。尽管如此，人工标注总是一个极大的知识瓶颈（knowledge bottleneck），除非要标注的任务是单一不变，或像机器翻译（MT）那样是自然形成的（人译从来就有，因此永远有积累的海量标注在）。

董：
是的，在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门，受益匪浅。

李：
不敢。祝董老师和全家，平安夜平安喜乐，圣诞节幸福吉祥！

1989年在荷兰，与董老师及BSO多语机器翻译项目组长合影

【相关】

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行：从Julian Hill 说起》

【尼沙龙笔记：从AI那点事儿聊到知识图谱】

洪:
老尼八卦真是勤快：
红利扑克：王劲其人-好色、背信、拍马屁

陈：
到了百度，他带去了得意手下Alex（新加坡人），某丽（美籍华人），还有旧部某栋，还接管了金牌得主大牛戴某渊。他咋啥都知道。还好没说洪爷。

洪:
的确道听途说，许多因果都颠倒了。某栋是我拉进去做凤巢，老王来了就跑路了

陈:
你也是坏淫啊

洪:
老尼八卦忒勤奋，
道听途说扒某劲。
天地或真显冥冥，
有绳有网施报应。

行:
老尼看来就主要对x劲来劲

李:
老尼不是尼克吗？
AI那点事儿，非尼老莫属，有道是：

尼老老尼拧不清，
AI 八卦两争雄。
一神一鬼一冰冰，
老道洪爷说分明。

洪:
我以前跟人总结说，某栋来助一臂之力做凤巢（其实他原来是edward chang下面做social network机器学习推荐算法的，也不是做广告的），某度尝到了招谷里人的技术甜头。过了一年凤巢都上线了。隔壁老王带俩管理的人他们才来，本来老王允诺要来的技术专家某Paul被腾讯截胡抢走了。就这样，技术甜头成了管理毒药。

“尼”真是好字，谁粘谁

李:
洪爷不出山写本英雄传，正本清源，可惜了。看尼克形单影只孤身奋战，谣言比八卦远行 ---- 唯冰冰永存。

洪:
都是江湖破事，不值得写书。悠悠万事，唯此为大，还是AI为重。

李:
认真说，我对历史八卦兴趣不大，倒是非常好奇这一波AI热如何收场，我们都是不同程度的吹鼓手。泼冷水偶尔为之，但总体大多推波助澜，可三年、五年、八年之后究竟如何呢？有点害怕。“谨慎乐观”感觉上甚至都太乐观了一点。万一历史循环，AI 打入冷宫，不受人待见，我们这拨人要想等下一波的AI热，是没戏了。到时候，我们人人都可以学个星座，做八卦家，把酒话桑麻，对着资深女神冰老太，哼着AI小曲儿：商女不知亡国恨，隔江犹唱后庭花. .....

唐:
以中国干大跃进的精神，这次AI肯定吹过了。

李:
问题是：这次大跃进可以不可以软着陆？省得鸡飞蛋打，大家伙儿都成了殉葬品。

张:
现在政府把AI作为政绩，如果谁谁引进国际知名专家（比如太湖洗澡蟹从阳澄湖捞出来）然后成立一个联合研究中心，各大园区可以给几千万到一个亿。各位大咖赶脚的，过这村没这店了。

洪:
AI落到实处就跟数据库似的，休要担惊少要害怕@wei

唐:
AI都经历过两次寒冬了，第三次来了也不怕。尤其是打算做AI芯片的，寒冬时做才能踏在前人的血迹上前进。

洪:
年轻人挣房钱奶粉钱，院士们挣名利，政客挣中国梦，……，各得其所

尼:
@唐寒冬时也没见你做啊。

唐:
我上次做的也是NPU。

洪:
NP了您啊。

李:
@洪 AI落到实处就是知识图谱，可不就跟数据库似的。我心戚戚呀。洪爷火眼。

董:
@洪真正的明白人，深刻、看得透。

唐:
知识图谱不是很难表达有条件的知识吗？要想快速落地，我觉得还是规则库靠谱。

李:
那就结合呗，横竖都是库。库啊、谱啊就是个筐，啥 AI 都可以往里装。

唐:
关键还是几个数据库之间的join比较难做?在工程实践当中还是有点难度处理的。

李:
现如今图谱好听，就叫图谱，里面可以有 unigram 知识，bigram 的关系，if then productions （所谓产生式），甚至 prolog backtracking，......

董:
如今流行的“知识图谱”是怎么告诉计算机：“什么是‘有/‘have’’?

唐:
Prolog缺的是现在大数据最擅长的统计学知识。很多知识是动态的。例如：过去五天工作日的平均值，这个知识图谱无法表示，需要动态地计算。

李:
唐老师的视角还是太技术细节，太工程，技术上的实现与打通终归是可行的，只要哲学不错，实现上有的是能人。认真说，从万米高空俯瞰知识表达，没结构的知识就是传统词典，里面除了入口词，output就是各种features，那是通向ontology的门票。有结构的知识统统可以叫图谱（graph，广义），包括 svo（open domain 的碎片事件），包括 ontology，里面分常识（HowNet，cyc）与领域知识（譬如“产品目录手册”），再里面可以区分简单知识，与经验型推理知识，后者也可以涵盖从大数据挖掘出来的 if then scenario，以及 hidden links，它们不再是碎片化情报，也不是大数据显性表达的事实（已知信息），而是蕴含在千千万万事实里面的 correlations，是 derived 出来的新知识，积淀为领域场景经验的形式化，这是对领域本体知识的一个动态补充，可算是图谱事业最前沿的研究了。大数据挖掘出来的过往trends，可以是对未来预测的很好的输入。

最后，也是最核心最基础的，就是情报类知识（知识图谱的本义，或窄义），也是静态语汇为基础，不过入口词大多为实体名（named entities），里面就是实体间关系（relationships），然后就是事件（events），事件串起来就成了story ......

唐:
大体上就是这些知识。综合起来是一项复杂的工程实践。

李:
有了story 就好说事儿了。有句名言（到处都是这大标语），云：抬头讲故事，低头思故乡 ......
oops 低头干实事儿。

唐:
我们现在就在做。领域知识+安全情报的结合。发现这主要是数据清理的活。

李:
清理极端重要。不过听上去不够高大上，给人感觉就是个扫大街的。唐老师是实干家。

唐:
被逼无奈，以解决问题为主。

李:
知识（图谱）的事儿的确是一个巨大的系统工程。这方面还真应该赞佩一下 IBM，他们懂得怎么把混杂的知识捏在一起，成就一个计算机博物馆里的里程碑事件（博物馆有几个AI里程碑展厅，其中一个就是IBM花生系统在知识问答TV竞赛中击败人类）。当然人家也有那个财力和底气。

洪:
@wei 这两天我献给你一个打油偈子。

李:
打油在哪儿？我不怕打油 ..... or 被打油。

洪:
@wei 我还在酝酿啊，从你翻译的ken church的钟摆开始说起。

李:
从来没有耐性做翻译，但那篇太经典，是@董振东老师给我特别推荐的，最后下定决心翻译出来。以对经典的虔敬心理，字斟句酌，旬月踯躅，有些细节反复与 Church 电邮请教商榷。董老师也做了审阅，终于成篇。【计算机通讯】发了后，貌似没有动静，毕竟与主流的调子不合拍。后来被一个叫《机器之心》的转载，才似乎传播开一点。人智八卦大师尼克也点了赞，NLP 的钟摆，就是 AI 起落的实例。

NLP主流反思的扛鼎之作：立委译《Church：钟摆摆得太远》（全）

郭：
@wei 这篇现在看，写的早了些，缺乏对深度神经的洞察，因而现如今不容易触动人心，还不如一句“炼丹术”激起千层浪。

李:
天不变道不变，天变了道亦不变，是为经典。

其实 Church 写完后颇落寞，根本没啥动静呀。新锐不理他（机器学习老一辈不吃香了，新一代深度学习小牛成长起来，此一时彼一时，长江后浪推前浪啊）。他是统计派老革命家，我写信问他深度神经与AI钟摆的关系，他回说：看样子钟摆的理性主义回摆还要延宕10年，这波深度神经热潮够他们忙一阵子了。

是啊，人类本性，不触礁，不回船。现在呼吁两派革命大团结的，大多是老司机了。他们辉煌过，也触过礁，知道AI和NLP的深浅，而且忧国忧民，不像初生牛犊那样高歌猛进无暇他看。

写这句结语的时候，在我心中，老司机就是李航这样的，而初生牛犊我也见过几个那真是满满正能量，AI 乐观主义，很感染人：新锐AI技术领军，单气势就招人喜爱。在他们面前，老朽不知道说啥好了，先道天凉好个冬，再道冬至饺子香（南湾有个同同手工水饺，昨晚去那叫一个门庭若市）。

在最近的中文信息学会年会上，李航和我都被特邀做了报告，我谈中文NLP的迷思及其化解之道，顺带批判乔姆斯基搞砸了符号逻辑和规则系统，李航强调的是知识记忆，觉得这是AI的未来，因为目前AI主流大多是端到端，老熊掰棒子，没有知识积累，知识都是从带标大数据现学的，换一个项目，一切重来。李航 argue 说，这不是人类的知识学习方式。我问他，难道知识图谱不是知识积累和记忆吗？他说，也许我说没有记忆和积累是 overstatement，知识图谱的确是积累并且可以跨项目重复使用的。但他又 added 说，但大多数系统是不用知识图谱的。他说得对，知识图谱作为话题虽然很热，但真正用知识图谱做系统应用的人目前很少。但我个人认为，未来应该是个大方向。

【相关】

【李白81：某些人的讽刺与挖苦】

白:
比如“他可不像某些人，吃着碗里的还惦记着锅里的。”逗号后面那一串的逻辑主语是“他”还是“某些人”，通过sentiment的撮合就知道。
“他可不像某些人，对待大是大非问题还是很清醒的。”这时，逻辑主语就反过来了。
“不像某些人”引发了一个同时给逻辑主语贴正面标签并给“某些人”贴负面标签的操作。

李:
语感上，“某些人”一用，就有影射的嫌疑，就隐含了被批判和作为反面教材的负面sentiment，即便“某些人”被确定 associate 到点赞的语境，很可能是一种讽刺，其实质就是高级黑。因此，词典里面可能就要给“某些人”绑架某种原罪的负面种子。因为原罪，如果正面描述有两个可能 associate 的实体，“某些人”应该让位（白老师上例2）；如果负面描述有两个可能 associate 的实体，“某些人”则难逃其咎（白老师上例1）。结构歧义因此消解。

白:
当萝卜填坑没有头绪时，天边飞来的sentiment就是救命的稻草。

李:
其实心里是要吐槽张三或李四的，但人的话术使得“某些人”成为代指性替死鬼。

我做过多次的 sentiment 讲演几乎每次QA时，都有人提问，你们怎么对付讽刺挖苦和说反话？

白:
坑是“角色提供者（role provider）”，萝卜是“角色扮演者（role player）”。词典也好，分析的动态过程也好，都会给二者各自加载一些标签。标签无矛盾地互通有无，就是“合一”。合一背后的逻辑设定就是“奥卡姆剃刀原理”，即“如无必要，勿增实体，勿减标配”。甚至，强语境下，有矛盾地互通有无也是可以接受的，矛盾转化为反讽。

李:
电脑可识别反话正说吗？我的回答是:

1 很难。甚至“木”一点的人遇到精明人的讽刺挖苦也识别不了，反而觉得受宠若惊，这种事例并不鲜见。

2 但某些反话是有迹可循可以形式化捕捉的。上面这个“某些人”就是一种蛛丝马迹。还有感谢+负面描述的pattern 也是一种讽刺：

“谢谢你坑了我半辈子！”

这是感情破裂心怀怨恨的女人分手时候常说的讽刺急愤的话。对比正常的感激赞美的话: “谢谢你的爱”。

白:
当然可以。“屠戮妇婴的伟绩”，一虚一实，虚的中心语，实的修饰语，中心语正面，修饰语负面。实际上修饰语是带预设的，“v的n”预设“v的发生是板上钉钉的。
“感谢你八辈祖宗”是一种“移花接木”，把正面的头载在负面的桩上。谢谢你v，这v也是预设事实。预设事实为负的话，任你前面的帽子怎么正，都是枉然。presupposition决定基调，帽子决定色彩。

李:
关键还是虚实。thanks 这种感激是 emotion category，属于情感分析中 subjective 的正面情绪，主观的属性为虚。v 在sentiment 分析中是具体的 objective 的负面行为，客观属性为实。实充当虚的依据，客观信息是主观情绪背后的理由，回答我什么喜欢（高兴）或不喜欢（不高兴）。因此二者的正负指向通常是一致的。当二者不一致的时候就构成了讽刺，虚让位于实。

白:
有时“实”体现在语境中，见诸语言的都是“虚”。比如某电影里，“皇军好，不杀人不放火不抢粮食，你看这有多好！” 台词里没有说到杀人放火抢粮食的“实”，这些“实”都是在电影情节里体现的。

李:
顺便一提，标题这种语境很各别，往往故作歧义或疑问，所谓标题党就是其极端表现。本文标题【某些人的讽刺与挖苦】里的“某些人”已经不是代指的词了，“某些人”实际上是 meta token，指的就是这三个字构成的语词，语义为：关于该词的讽刺与挖苦，而“讽刺挖苦”的主语宾语两个坑虽然都要求的是【human】（“谁”讽刺挖苦“谁”），但“某些人”却既不是主语，也不是宾语，而只是关联成分。当然，不读文章是很难明白的。

梁:
@wei 若我是编辑，就将标题改成【“某些人”的讽刺与挖苦】，是语言学家讨论说“某些人”时的情绪，对吧？ meta 了一下。

白:
伟哥故意的。

【相关】

【NLP主流反思的扛鼎之作：立委译《Church：钟摆摆得太远》（全）】

【李白毛洪80：驯兽散记】

李:
@毛德操说点做开放系统的真实体会，这个体会你可能有呼应。

毛:
我一直都赞同你的呀。所以我劝你写成书，经验之谈，加上理论上的洞见，对后进学子将大有帮助。特别是，当钟摆又摆回来的时候（见【立委译《Church：钟摆摆得太远》（全）】），你这个就宝贵了。

李:
先说针对封闭系统做模型，因为对象是封闭集，可以做到逻辑的完整性，现象 cover 的完备。面对开放集，尤其是自然语言这样的monster, 情况有所不同。大的思路框架和方法论是需要讲究的，但架子里面填血填肉就无法“搞计划经济”。不说摸着石头过河，也差不了太多。很多时候就跟拼图游戏似的，拼拼凑凑，蚕食桑叶一样试图分而解之。

今天从方法论上认真想了一想，觉得拼图或蚕食的路数还不是很确切的比喻，因为二者都没有“厚度”和冗余，只是把一个二维空间填满。实际的情形还有一个pipieline的时间维度，一个“数据流”的顺序在内。

毛:
好啊，要是把数据流的思想和技术结合进去，咱俩就更有话可谈了。

白:
RNN比较体现这个“流”

毛:
有道理。而且RNN不是那种DAG形式的简单数据流。

李:
为了把自然语言这个其貌不扬的毛毛虫（参见【白硕- 穿越乔家大院寻找“毛毛虫”】），模型出个比较逼真贴近的人模狗样来，实际上的工作更像是用橡皮泥在“流”里面一层一层贴面。

每贴一块，重复无用功居多，有用的就是那么一小块儿。可是不能因为有无用功在，就不做这个重复面很大的活儿。换句话说，从方法论上，面对一个 monster，斩不了他的胳臂，就剁他的手，剁手不成先伤其一指也好，活不厌细，活不厌早，最终才能征服他。

在一个pipeline中，条件总是慢慢具备的。不能因为条件只有越到后面越完备，前期就碌碌无为，因为在有限条件下做活儿本身，不仅是完成了部分任务，也同时贡献了条件。因此勿以善小而不为。

白:
i-1肯定不是也不如i，但是i-1不作为就肯定没有i。

李:
正是。具体说就是，如果一个现象在早期可以处置，但是因为条件不好，需要严格限制其范围才不至于 overkill，同样的现象在后期条件好的时候，可以放开一点，做得漂亮一些，做得更具备逻辑完整性和完备性。经验告诉我们，不能因为后期的工作貌似可以涵盖前期的limited的同类工作，因此就不做。面对一个不复杂的对象，当然不必做这种重复而且也做不全的前期工作。但是面对魔鬼，我们还是尽早能做多少就做多少，机不可失，即使时可再来。因为这个貌似重复的小工作也许的确是涵盖在后期的工作中，但是我们其实不知道：（1）在前期到后期的过程中有没有什么幺蛾子出来；（2）即使这本身是完全的重复工作，几乎肯定会在下一步或下几步被涵盖，这件工作对其他相关的周边的事儿可能是有用的，起码增加了确定性（规整性，行话说减少了系统的内熵）。

人有一种精简和概括的冲动，人也总是希望自己不被看成傻瓜，避免重复就是精明的一个表现。但是，面对魔鬼，用力上傻瓜一点其实有好处。当然前提是，那个傻气的活儿是增加了确定性。换句话说，早期工作只要心里觉得是 high precision，不管 recall 多低，都值得去做。high precision 最简单的办法就是把条件收紧，在早期说白了就是一个 local ngram 的拿捏。爱吃红烧肉的毛老最清楚，虽然吃一点肉末不如吃一块完整的红烧肉那样鲜美，但肉末也一样解馋和营养。关键是肉末就好比开胃前菜，吃了它为后来的红烧肉大宴做好了前期试点。

总结一下，能做多少做多少，能早做不晚做，不怕重复，不怕冗余，不厌其烦。毛毛虫就好比一个窟窿，可以用橡胶泥反复去补，层层叠叠，最后把这个窟窿补得严严实实（recall 最大化，但不损伤 precision），虽然窟窿的有些地方是补丁摞补丁，不知道被泥了多少遍。这看上去绝对不是一个漂亮的系统，但却是现实的鲁棒的，敢于面对复杂对象的。

毛：
毛毛虫模型的核心，就在于虫子的长度大于乔姆斯基的直径，即使把它盘起来也容纳不下，总归会露头露尾。所以，问题在于怎样分而治之，乔姆斯基的归乔姆斯基，露在外面的就归别的方法（深度学习是其中之一）。但是我认为抛弃乔姆斯基肯定是不对的，关键在于如何补上用来对付露在外面那部分的方法，并与乔姆斯基整合。@wei 的深度解析就是走在这条道上（白老师也是），我认为很有价值。

李:
@毛德操其实我的体会是，毛毛虫模型的核心是毛毛虫的扁度超出乔姆斯基及其追随者的想象。乔老爷挥舞大刀，风驰电掣，貌似凭空垒了这么个大院，实际的效果是让许多人画地为牢，以为自然语言就是牢的模样。那太粗线条了，而且院子显得空荡荡的，就好比一个瘦子穿上了宽大的衣服，怎么看怎么不像。

白：
慈禧穿的衣服也没型

洪:
语言工程不唯美，
泥瓦工匠汗水挥。
修补老乔也不累，
茅庐破屋别递归。

毛:
我认为，纯粹的深度学习只能训练出文盲老太太，阅人无数，也知道一些新名词，但没上过学，不懂推理。人总得上学，而学校教的就是符号推理。老太太再是阅人无数，也不会懂 f=ma。

白:
伟哥说的这个时间，是针对开发而言的时间，具体体现就是版本。其实针对运行，也同样有时间维度和流进行迭代的“微版本”。

李:
应邀到北大做了个纯学术的演讲。北大在我们小时候的心目中是何等高贵，从来都是仰望。年轻时进去拍照留念过，羡慕死里面的才子佳人了。进了社科院，貌似与北大近了些，同学同事中北大人越来越多，开始沾上仙气。进象牙塔论道，入乡随俗，就西装革履一些散发点书香味道吧，绝不敢拿大数据忽悠。大数据可以忽悠哈佛（几年前曾应邀去哈佛医学院讲过大数据），却不能忽悠我心中的圣地北大。还有北大的三角地。

【内容提要】
乔姆斯基1950年代末提出的形式语言理论及其层级体系是计算语言学的基石。然而，长期以来，计算语言学界的自然语言处理（NLP）践行者，越来越远离乔姆斯基学派。演讲回顾计算语言学的历史，分析该领域一分为二渐行渐远的足迹。过去30年是NLP主流学界以经验主义取代乔氏理性主义的一代。乔姆斯基对于 n-grams 的批判，没能阻止统计学派利用 n-gram 模型在自然语言领域取得的巨大成功。另一方面，学界的理性主义符号学派日渐式微，究其原因，这与乔姆斯基理论的负面影响有关。乔姆斯基对于自然语言的所谓递归本性的论述，以及对有限状态机制的鄙视，深深影响、束缚并牵累了一代学人。在深入梳理乔姆斯基体系对于自然语言模型的关系之后，演讲最后论述并展示了符号规则学派对于自然语言深度解析和理解的创新和实践。

毛:
最好能有个录音，这样我们也可听听。不行的话退而求其次，整理一个文字稿。

李:
毛老知道，一个演讲哪里会深过两年的恳谈？对于您，这都是立法委员的陈词滥调了。说话已经在尼克群和白老师群促膝整两年了。

毛:
我刚才出门了没看见。立委你真的应该好好整理出一份东西来（叫什么并不重要，讲稿/讲义/概论/指南/导论），系统地讲讲你的见解，然后找个出版社。@立委你上面的内容提要就很好啊

李:
不知不觉就讲了两个小时，结果只有时间回答一个问题。我本来是要留半小时以上做答问的，想让讲座 interactive，结果一开了话匣子，就忘了时间，很对不起听众。卫东老师主持，也没好意思打断我或提示我。下次类似讲座要小心了，其实还是答问更有意思，也更容易发挥，或借题发挥。很多年不上讲台了，还是经验不足。

邓:
你干货太多。现在这么讲的人不多了。

马:
@立委你讲座太有激情了。

白:
伟哥讲的一定比发出来的多多了。

李:
@白硕借用推介了白老师的毛毛虫理论。

Nuva:
内容太多了，每张slide都需要细读

郭:
@立委你讲座太有激情了。+++
你一定又觉得“我没讲几分钟啊”。

李:
尼克的书我最爱读，尤其是冰冰助理过的。

好多年不读纸质书了，但尼克的《哲学评书》和《人智简史》除外：那是可以一边品茗，一边遐思的。

尼:
@wei 多谢捧场。此冰非彼冰。

施:
为了突出冰冰把白老师和吾等一概屏蔽

李：
羡慕啊。有样学样，哪一天我要是撞了狗屎运出书了，也要来这么一桌酒宴。就怕到时没人捧场，我就拉@毛德操做炮灰。毛老是本本主义的信奉者。

马:
先预定一个位置

李:
马老师不可食言，这可是动力之源。

马:
@wei 绝对的

李:
山不在高，有仙则灵。酒不在醇，有书则赢。一本书主义与一杯水主义，有的一比。当然，尼克和毛老都是n本书主义了。

毛:
@wei 早就劝你动笔，你这扭扭捏捏的。到时候，席上必得有红烧肉伺候，俺连干三杯。书名都给你想好了: 《Ruminations on NLP》

虎:
我给伟哥定个书名：tame of NLP 驯服自然语言处理，俗称你老婆驯火记

毛:
本本主义不能一概而论，这有两种不同的情况。第一种是功成名就意气风发，于是嬉笑怒骂皆成文章。我二师兄就属于这一种，伟哥当然也是如此。第二种是穷极无聊，看着别人发财的发财，成名的成名（也有升官的升官，但是较少），自己却什么也干不了，唯独在自己电脑上打几个字还是可以的。我就是这种情况。

洪:
伟爷驯服NLP，
狮吼河东至河西。
Deep Parsing深见底，
看破老乔卖手艺。

李：
洪爷好诗，句句受用，飘飘然也。

【相关】

【李白79：中文深度解析的地基是词法分析器】

白:
“我电话费用不完”谁家分词系统强？

李:
这不仅仅是“分词”问题，而是词法分析（morphology analysis）问题，对比：

Note: M=Modifier, S=Subject, H = Head;
N=Noun, NP=Noun Phrase, AP=Adjective Phrase, CL = CLause

这里，“不”（还有“得”）是现代汉语的中缀（infix），派生词构词法如下：

用完 --》用得完
用完 --》用不完

而三元组“用不菲”却不成词：

“用不菲的价格购得”。

Note：M=Modifier, R=Adverbial, X=Functional, H = Head;
N=Noun, NP=Noun Phrase, AP=Adjective Phrase, VG=Verb Group, PP = Prepositional Phrase

白:
不菲应该成词吧，不完不该成词。

李：
对。但是 “用不完”成词，是派生词。上述词法分析除了派生（derive）了这个词，而且得到了这个派生词的分析结果：

（i）原词：“用完”
（ii）原词词典“绑架”的词法结构：述补
（iii）词法特征：【否定】【结果（述补结构）】【可能（情态）】

这不是切词，这是以派生的方式做词法分析，对比同为情态的等价表达“不能用完”：

（i）头词（Head）：“用完”
（ii）句法短语：VG（动词组）
（iii）词法特征：【否定】【可能（情态）】

特别有意思的是，“用不完”的构成不是 “用” 与 “不完” 的拼接（concatenation），而是 “用完” 与中缀“不”的派生式构建。这不是语言学上的合成构词法（compounding），而是派生构词法（derivation）。由于汉语被普遍地粗线条指认为缺乏构词法手段的所谓孤立语，大众一股脑把所有的构词都叫作 compounding（也叫“小句法”），但是现代汉语其实不是这么单纯。欧洲语言的构词手段大多在现代汉语也有体现，包括类词尾（quasi-inflection）如表达完成体的“了”，也包括利用类缀（quasi-affix 如前缀。中缀、后缀）的派生（derivation），以及大量使用的重叠（duplication）构词手段（如：高兴--》高高兴兴）。我的博士论文对这些现代汉语的词法（morphology）现象及其计算机处理，有详尽论述，语言学味道浓一些（见：Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR）。

现在已经清楚，为了中文自动分析，所谓中文分词，不仅仅是把要词“切分”出来，而是应该输出白老师所说的微结构及其词法特征（时、体、态等）和句法特征（如类别、子类等），除此之外还要通过“词典绑架”输出语义特征（叫 lexical semantic features）及其背后的本体知识层级体系（类似于董老师的HowNet，内含常识）。这样的词法分析器（lexical analyser）才算是完成了词法任务，为下一步的句法分析和语义分析打下基础，从而为汉语的深度理解开辟了道路。

所谓实体识别（NER），属于合成词范畴，也是题中应有之义。还有 Data Entity 的合成，譬如各种度量表达法（长度、体积等）也是合成词。当然也要包括与句法纠缠的离合词（“洗澡”）的识别和绑定。

中文深度解析（deep parsing）的大楼不是凭空可以建造起来的，词法阶段就要夯实。

白:
“用不完”搞成词没啥意义

李:
这个没的争的。根本不是什么“搞成”词的问题，而是词法分析的问题。说到底，这个中缀的词法意义必须抠出来，因为它是 open-ended，绑架不全。最终系统要知道 “不能用完” 与 “用不完” 不过是用不同的词法句法形式，表达相同或相近的语义。否则何谈语言理解（NLU）？

白:
“用不完”在句法层次一样处理。放到构词法层次，难不成就是为了凑一个长词优先？

李:
句法与词法本来就是一伙的，从万米高空俯瞰，都是形式分析。句法如果能分析出词法分析同样的结果，亦无不可。以结果论英雄。但语言学上，它就是一个派生词，这个没有多少疑问。其实，“凑成一个长词优先”不仅是词法的“凑”，背后有其所以为词的原因在。词法句法在中文纠缠，并不说明二者没有顺序。顺序的一个体现就是长词优先。

白:
好的分词系统，即使“用不完”分成三个词，总体得分还是占优的才对。

李:
如果较真的话，中缀现象在通常的句法里面还真不好处理妥善。我们可以用近似、逼近的句法去处理中缀，但派生词的处理在词法是一个常规的过程，是词法里面避不开的一类。

白:
“我电话费用也用不完”

李:
这与沙滩望远镜看女孩有点异曲同工（自注：这是NLP领域最著名的代表结构歧义的例句：I saw a girl with telescope. 句末介词短语做 girl 定语，与做 saw 的状语，二者都说得通，是为“真歧义”）。这种人为的真歧义（1. 我电话费，用也用不完； 2. 我电话费用, 也用不完），系统怎么做都不能算错。理想的情况是输出两个结果，但人脑理解貌似也是先绑定一个结果（不同的人可能绑定不同的路径），有时间咀嚼的话，再想到另一个结果。人际交流和理解中，多数人不拘小节，根本不在乎这种歧义区分，除非是遇到较真的人，或在段子里。问题是，就算一个高明的系统可以区分这种较少出现的“真歧义”与大量存在的“伪歧义”，下一步接不上还不是白费。还不如就绑定一个。

“v 也 v 不完” 这种重叠手段与派生手段纠缠的汉语现象，不是应该把 “用不完” 置于句法的充分理由。首先，这种纠缠现象非常局限，基本上还在词法范畴内部，不像离合词“洗澡”，已经明显溢出到句法了，经常是“远距离”离合，那才真地需要词法（包括词典）与句法有一个灵活的接口。

白:
“电话费用不用得完成任务了再说。”

允许“用也用不完”成词，那就得允许“用不用得完”也成词吧？其后果是，即使“完成任务”算一个词也压不住了。

李:
压不住就不压呗。弯不过三。压不住的，基本上是长尾的尾端。

白:
这不是自然的压不住，是人为的压不住。不把那东东搞进词法就没这事儿。不是天灾，是人祸。拿解释天灾的逻辑解释人祸，欠妥。

李：
关于词法、句法，对于多层系统，就是一个连续体，有顺序，但没有一个黑白分界线，这与教科书里面的词典、词法、句法、语义等组件的各自完全独立不是一回事儿。
譬如说 1层到10层是黑色的词法，20层到40层是黑色的句法，但11层到19层呢，那就是灰色地带。可以说是词法后期，也可以说是句法前期，安排什么现象到灰色地带，是根据现象的特性来决定。因此争论某某是扔进词法还是句法这样的问题，前提的假设就是两个前后模块，而不是离散又连续的多层系统。

撇开抽象的模块分界，真正有意义的问题是，“凑成一个长词”（并参加分词大餐）是好处大于坏处还是相反？其实，答案是相当清楚的，利大于弊太多。与其指望一个“聪明”的分词程序来应对 “v -也（都）-v-不-完”这个五元组，不如把“长词”做出来心里踏实：这样再“笨”的分词程序也不至于出乱子。五元组分散开来进入分词所可能造成的副作用，较之合成了五元组长词（并同时做了词法分析）可能引起的后续的切分问题，前者比后者严重得多，也频繁得多，根本不是一个数量级上的问题严重程度和频繁程度。因此，恕我直言，白老师的“人祸vs天灾论”或者是唯心的，或者是误导的。

白:
关键是长词是什么时候做出来的，我很赞赏前面说的灰色地带的说法。长词是句法分析介入以后做出来的。做出来以后就可以反悔分词方案。这样分词和句法两方面就都是可控的。走的路线类似分词1-句法1-分词2-句法2………这种。

李:
有道理。不过白老师举例来说的人祸论实在不能让人心服。事实上，分词系统免不了要用 heuristics，对于每一个heuristic，无论如何表达，也无论如何安排先后次序及权重永远可以找出反例来，这是 heuristic 的本性。但我们最好不用（罕见的）反例来结论某种安排是人祸。如果不那样安排，这个人祸是避免了，另外一个更大的人祸很可能就在身边，因为所谓“没有了人祸的更高明的方案”其实并不能保证周全。这不是说方案与方案之间没有优劣，而是说，门户之见很容易让我们看到别人方案的缺点，忽视了自己方案的副作用。

白:
可以有一些另外的表述，比如结构冻结，比如分词永远在进行时，都能让人更好地理解所说方案的建设性。人贵在举一反三。如果从反例中只能看到个别、长尾、噪音乃至门户之见，那很可能就忽略了真正有意义有价值的问题。

李:
对，道理是这样的。不过，直觉还是很担心五元组进入分词程序的。晚上睡不好觉。汉语是二字词为主，五元散列的情况让人心慌，老觉得会当成外国人名给打入了另册。如果v是二字词，则另当别论，可以句法处之：“反正学习也学习不完”。换句话说，不是不知道这个现象可能需要句法：即便五元组参加了分词，同样的组合在句法还是要重复一遍，否则上面的7字组就不能做统一的分析和处置。这算是支持句法处置的一个可以接受的 argument，但是，词法结构规则在句法重复，听上去不经济，实践中个人认为并不是问题。多层系统的框架下，重复的不止这一项，否则也解不了乔老爷的递归魔咒。

刚开始入行的时候，老想着 generalizations（语言系学生的通病，被教授洗脑了，一直以 generalization 为语言学家天职），总是避免规则的冗余和重复。后来有几次看到了机器学习出来的符号规则，重复冗余简单到无语，反而受了启发。如今对重复冗余的耐受强多了：只要简单，何妨啰嗦，完全抛弃了铁路警察各管一段的理念。现在是词法做了句法做，句法做了到语义也不妨再做，螺旋式上升，相互照应，只要为了一个共同的目标就好。

科学网—【泥沙龙笔记：汉语就是一种“裸奔” 的语言】

【李白78：毛主席保证】

李:
“毛主席保证。”
这句口头禅是到北京后学会的。

白:
至少40年前就有这话

李：
我范进中举进了京城，可不就是三四十年前嘛。

以前在外省的时候，我们偶然也说：

“（我）向毛主席保证”

“我”有时候省略，但从来不省略“向”。进了京城，乍一听诧异，再一听别扭，久而久之反而觉得别致有味道：京片子“裸奔”（参见【汉语就是一种“裸奔” 的语言】），还是比咱乡下人放得开。连对神一样的毛主席，也照样裸奔。不明不白，把毛陷于非施事非对象的模糊尴尬地位。

毛主席保证，上面这个对毛主席裸奔的故事，句句是真。但为什么不索性省略说：

“毛主席保证，上面这个毛主席裸奔的故事，句句是真。”

因为即便裸奔也还是要达到交流的目的。所有的内衣都脱掉是不行的。如果省掉了介词 “对”，毛主席就是裸奔的人（【施事】）了。造谣污蔑伟大领袖搁文革那会儿，是要杀头的。

毛主席没保证，我们可以说毛主席保证。毛主席没裸奔，我们不能说毛主席裸奔。说到底就是习惯表达法的绑架原理，这就是约定俗成的真意。名无固宜，俗成了，任何记忆住的符号串就可以表达任何意义，不顾文法，不要逻辑，不讲道理。

为什么NLP闹了这么多年，各派各路不可开交，但有一点是大家心知肚明的共识，就是词典主义（lexicalist approach），不管以一袋子词统计模式的形式，还是以词专家（expert lexicon）的符号形式。总之，词典主义高于（抽象）文法，词典王国就是那花和尚，完全可以无法无天。

白:
其实不是没结构、不讲结构，而是固定用法捆绑了一个微结构。微结构不需要讲逻辑，是因为它的逻辑不需要分析，只需要呈现。而且不光在词汇和构词法的独立王国里活动，其能量经常外溢。

李:
外溢的例子，离合词算一个：绑架的词义，外溢到句法了：

“洗tm什么破澡？不洗！连个喷头都没有。要洗就洗星级饭店的澡，这不带星的澡，真心没法洗。”

【相关】

《朝华午拾：外婆的回忆》

我的外婆去世已经34年了，可她老人家的慈祥音容仍时常浮现在眼前。

作为医生的父母工作太忙，所以第一个孩子一出生外婆就来帮忙，从此看顾我们三个孩子15年，直到她去世。据说我哥哥小时候不老实，外婆只好摇着摇篮，哼着催眠曲，不敢稍有懈怠，有时候一个瞌睡过去，摇篮牵绳的手一停，他便大哭大闹。外婆说，这孩子带得太辛苦，到两年后我出生的时候，她还后怕。没想到，我小时候乖极了，从不哭闹。就是可怜兮兮的，老害病，每病必吐，常伴有高烧。还有夜盲症，最要命的是脱肛的毛病，每次入厕十分痛苦，一片狼藉，外婆要小心翼翼把脱肛顶回去。外婆一辈子生养过10个儿女，夭折过半，看我这样子，老担心我活不长。还好，因为是医生家庭，有病能及时处理，加上外婆的悉心照看，我慢慢度过了病孱的童年。有外婆照顾的孩子是幸福的，外婆总是把家整理得井井有条，热饭热菜，我们的童年无忧无虑，父母也因此可以没日没夜全力扑在工作上。

外婆是旧式妇女，小脚，没念过书，少言寡语，性情温和，从来没见过她发脾气。外婆的生活十几年如一日，足不出户，刻苦本分，与世无争，街坊邻居无不夸赞。每天一大早，天还没亮，外婆就起床，开始梳洗，她总是把自己收拾得干干净净，开始一天的劳作。看孩子，做饭菜，一刻不停。稍有空闲，她就坐在门前纳鞋底。她把碎布条用浆糊黏上晒干，一针一线纳成结结实实的鞋底，我们全家大小的布鞋都是她老人家做的。一直到她去世，留下的一大箱鞋底，我们还穿了好几年，后来才开始买塑料底的成品鞋穿。

父母每个月给外婆三块钱，作为我们孩子的零用钱。外婆手很紧，因为她要保证这零用钱维持三个孩子到月底。记得每天可以从外婆那里讨来两三分钱，我常常到街头买来一个热腾腾的小红薯头，回家跟小妹分享。这个故事我跟女儿讲，她很爱听，不时拿出来说笑一番：when you were my age, sweet patato was only two cents a piece and you always asked Granny, that is my Great Granny, for two cents to buy one and share with my antie GuGu, but never with my uncle DaBai.

记得文革初期大串联的时候，爸爸妈妈也随大流去上海杭州串联了一个多星期，由于交通堵塞不能按时回家。外婆带我们三个孩子在家，每天听高音喇叭传出各种消息，给人兵荒马乱的感觉。当年通讯不便，行踪无从打听，一家大小望眼欲穿久等父母不回。外婆急了，开始垂泪，我们孩子看见外婆哭了，也都哭了，一家老小怕失去依靠而哭成一团，连邻居也陪着掉泪。

文革第二年，外婆由于地主成分，被医院造反派勒令每天挂“反革命地主婆子”的牌子站街示众。可怜外婆小脚，哆哆嗦嗦，却要受此羞辱。这对我们孩子刺激很大，我们无论如何也无法把慈祥的外婆跟可恶的地主婆联系起来。还好，父母感觉形势不对，很快决定送外婆回乡下老家躲避，特地请我们家的至交三代老贫农的徐叔叔一路护送。徐叔叔回来说，外婆无法理解发生的一切，又舍不得三个孙儿，委屈伤心，走一路哭一路。乘汽车，过轮渡，转火车，再乘小轮穿过巢湖，最后要步行10里才到老家。最后那步行，走了一整天，人几乎瘫软。

幸亏送外婆回了老家，后来的情势越来越遭，武斗开始了。先是两派小将（“批联部”和“扫黑线”）拿钢钎匕首在街头械斗。有一场械斗就在我家门前，还记得我们又害怕又好奇，几个孩子爬到院子里一家的二楼上，透过临街的窗户观战。我胆子小，只瞄了一眼，看见双方手拿钢钎对峙的样子，然后听到口号声和厮杀声。这还是武斗初期，后来双方割据，拿起了真枪真炮，常常夜里听到枪响。我们全家也被秘密转移到批联部的司令部去了，我父母因此成了批派战时医院的核心医生（见（见《风雨春秋专栏》；《老爸－风雨几春秋》）。

革命大联合的时候，武斗停止，妈妈把外婆接回来了，我们恢复了跟外婆朝夕相处的日子。外婆没来的时候，我们放学回家，家里总是锁着门，我们脖子上挂着钥匙，常常要到手术室去找父母，等父母手术完回家。外婆来了，家才象个家，生活安定而有秩序。

1969（?）全家包括外婆和老姨，以及邻居至友何妈妈小慧姐在家门前合影

我13岁那年，外婆患口腔癌，右腮长出鹅蛋大一个瘤子。记得瘤子刚起的时候，我们经常用小手抚摸，希望它慢慢消失。可是，那瘤子还是越长越大，外婆自己也说：这是个毒瘤子，怕好不了了。外婆临终前，舅舅和表哥都从老家赶来，最后几天主要是舅舅在床前伺候。我听外婆喃喃说，儿女都在身边，该走了。

外婆去世那年说是71岁，可实际年龄应该是69。我记得外婆生前跟我说过，她虚报了两岁，用的是外公的年龄，为的是做个纪念。外公在我出生的1960年，在老家饿死，跟我爷爷和姑姑一样成为大跃进的殉葬品。外婆虽然从来没有提过外公的故事，可以看出她一直默默在心中纪念着他。

记于2007年九月二十二日中秋节前夕

原载科学网—《朝华午拾：外婆的回忆》

北大博雅演讲slides下载

北大博雅JDNLP

海报：周四下午一点北大二教211教室我有个学术演讲《洞穿乔姆斯基大院的围墙》谢谢各位新老朋友。

【李白77：基本短语是浅层和深层parsing的重要接口】

白:
句法的作用，第一是把远距离相关的成分拉到一个滑动窗口里来，第二才是在同一个滑动窗口里有多选的话，考虑语序因素来进一步缩小范围。

李:
说得好。第一个作用一多半是由 phrase chunking 完成的，这被认为是 shallow parsing，相当靠谱的一种操作。

白:
问题出在，如果在phrase chunking过程中出现多种可能性，混乱到chunk的边界都有分歧，这时候带着不确定性跑会很累。又回到休眠反悔的话题。边界不一致倒也罢了，中心词都不一致，更不好对付。

李:
问题不严重。关键是 chunking 基本上针对 basic XP （baseNP etc），只要具有前后条件查询的机制，搞定 boundary 一般没有问题。对于所谓 right-branching 递归，譬如 PP 的后修饰，等，shallow parsing 一般把这个问题推后，不去牵扯。

白:
形容词副词介词限定词这些都不担心，担心的是从句。从句递归以后，边界和中心词混乱的概率明显增加。

李:
shallow parsing 绝对不要管从句，连稍微复杂一点的多层 phrase 都被排除在外。这样一来，虽然理论上，窗口聚焦的任务不可能完成，但实践中，其实问题也不大，因为特别复杂和嵌套的句子，并不是语言事实的大多数，这是其一。其二，窗口的大小除了 chunking 把前后的修饰成分吃掉以外，系统还可以选择性跳过挡道的东西。事实上，deep parsing 其所以可以在 shallow parsing 的基础上进行，正是这个理由，不过做的时候小心一点罢了。这样来看，chunking 的核心就是搞定 boundary 和确定 head。这两个都不难。一旦搞定这两点，结构的基础就打牢了。至于结构歧义，它被自然地推后了。

白:
另外就是NN结构，经常是伪歧义，所以N+N这种，最好是白名单管理，条件不满足是断开的，有罪推定。而A+N，就应该是无罪推定。条件不满足就应结合。

李:
N+N 统计上看，就是合成词为主。A+N 就是合成词以后的短语层内部修饰，大体如此。

歧义分两种。短语内部的结构歧义可以休眠唤醒，不影响分析向深度进行。因为短语对于句法已经包裹得严严实实，里面藏一些搞不清的关系，属于人民内部矛盾。

白:
嗯，比如“两个英雄的母亲”你管他几个母亲几个英雄呢，反正对外的全权代表就是“母亲”。剩下的慢慢来。

李:
清官难断家务事，句子层的语法关系，一般没必要进入短语内部去参合（当然可以找到例证，短语内外的关系是有相关性的，别说短语，甚至句法的东西也有需要进入词法内部去协调的，但是统计上可以忽略这种 interaction）。

白:
远距离相关，要拉近的就是“母亲”，“英雄”无所谓。

梁:
人民内部矛盾，家里家外有别。

李:
第二个结构歧义是basic短语之间的，这个问题比较大。典型的譬如 pp-attachment，汉语中的“的”所涵盖的 scope 问题。deep parsing 的主要难点就是与这些短语之间的歧义战斗。但是可以设想一个简单的 deep parser 绕过这些问题，遵循休眠政策，就是一切关联一律就近原则。这样 parse 出来的句法树，不能直接对应逻辑语义和理解，但是作为一个结构基础，还是能起很大作用。

白:
这个是权宜之计，只不过有休眠兜底，不怕。

李:
原因是，理论上，这样一颗全树贯穿了所有节点，从任一个节点到任意的另一个句素节点，都有路径可达，不过是直接还是间接而已，道路是畅通的。譬如 PP-attachment，如果从VG未达想要check的PP，不过就是通过NP间接达到PP，一样可以找到你想要找到的某种PP。如果语用或产品是建立在这样 pseudo-deep-parsing 的基础上，完全可以考虑把 domain 的知识，ontology，heuristics 等等带进来，去求解想要的信息目标，这比关键词不知道要强多少倍。

白:
可以“句法制导”地去做。

李:
而且，到了这个地步，也可以根据情形，重新做局部 re-parsing，这个 re-parser 可以设计成特地为了休眠唤醒而制作的。

白:
休眠的数据结构设计好了，re-parsing可以很有章法。

李:
它有两个以前没有的有利条件：（1）量上，聚焦了。面对的不是大海，而是其中一个子集。面对的甚至不是全句，而是句子的某个部分。（2）语义限制条件可以放开手用，除了 domain 知识可以引入外，其他语义条件也可以用，因为这里求的是精准，而recall已经有娄底的了。

白:
最近也可以换成其他条件，比如统计上最般配之类。

李:
对，这个很有意思，不过实现起来有一定难度。理论上没有问题。最般配是有大数据基础的。怎么用好，看功力了（更多的是工程的功力）。

剑桥有一个老学者，以前很熟，他做过类似 Preference Semantics 的 Subact 语义条件的统计工作。有非常有意义的结果，可惜那个方向的结果，距离工程上应用还有一些实现上的挑战。但是，这些都是具体的细节问题，宏观上，这一路一定会大幅度提高 deep parsing 和理解的能力。没有疑问。

传统 parser 的一个致命的问题是内外不分，CFG 的 chart parser 是从词到短语到从句到所有的句法结构，一锅端。这个大大地限制了其 parsing 的深度、广度、鲁棒和效率。

白:
基本三条路：全息，带着所有选择跑；回溯，带着一个选择，备着所有其他选择；休眠，带着一个选择或一组一致对外的选择在主战场上分析，其他选择也不闲着，在另一个战场上以一定概率梦游。我看好休眠。

李:
phrase 这一刀很关键。实际上，phrase 是一个极其重要的层面。phrase 可以看成是有三妻五妾的大红灯笼的乔家大院。甭管内部争风吃醋你死我活。大院只有一个院子主人对外，就是老爷。其他的妻妾佣人宠物财物统统不作数。国家大事只在老爷之间进行。小家内部的矛盾可以无视，只在需要的时候用到。

白:
个别老爷之间有些扯不清楚，先用某种规则糊弄鬼子。

李:
休眠和梦游（唤醒）一般不在一个时间区间，所以一般没有瓶瓶罐罐的牵累。

白:
不清不楚的只能通过梦游获得扶正的机会。大院的边界是武断的，而这武断如果有大数据支持，就更胆儿肥了些。

李:
base-phrase 的边界不是挑战，不用大数据。倒是院子之间的关系， PP-attachement，等，大数据可以派上用场。

白:
我说的就是后一种。

李:
那个我验证过，绝对可以用上，也非常有效。就是在线实现非我所能。本质是 offline knowledge，real time use, 还不能 pre-computing，需要工程好手，也许有戏。

首发科学网《新智元笔记：基本短语是浅层和深层parsing的重要接口》

【相关】

《泥沙龙笔记：parsing 的休眠反悔机制》

《泥沙龙笔记：连续、离散，模块化和接口》