月度归档： 2016 年 6 月

泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（1/2)

立委NLP频道

【关于 parsing】

泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（2/2)

【语义计算沙龙：巨头谷歌昨天称句法分析极难，但他们最强】

【语义计算沙龙：parsing 的鲁棒比精准更重要】

《语义计算沙龙：基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家，机器学习不给力】

《泥沙龙笔记：狗血的语言学》

【deep parsing 小品：天涯若比邻的远距离关系】

《有了deep parsing，信息抽取就是个玩儿》

【语义计算沙龙：关于汉语介词的兼语句型，兼论POS】

泥沙龙笔记：在知识处理中，很多时候，人不如机

《立委科普：机器可以揭开双关语神秘的面纱》

《泥沙龙笔记：漫谈自动句法分析和树形图表达》

泥沙龙笔记：语言处理没有文法就不好玩了

泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普：NLP核武器的奥秘】

【立委科普：语法结构树之美】

【立委科普：语法结构树之美（之二）】

【立委科普：自然语言理解当然是文法为主，常识为辅】

【语义计算沙龙：从《知网》抽取逻辑动宾的关系】

【立委科普：教机器识英文】

【立委科普：及物、不及物与动词 subcat 及句型】

泥沙龙笔记：再聊乔老爷的递归陷阱

 【泥沙龙笔记：人脑就是豆腐，别扯什么递归了】

泥沙龙笔记：儿童语言没有文法的问题

《自然语言是递归的么？》

【从 colorless green ideas sleep furiously 说开去】

Parsing nonsense with a sense of humor

【科普小品：文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论以及各式树形图表达法

【泥沙龙笔记：依存语言学的怪圈】

【没有语言结构可以解析语义么？浅论 LSA】

泥沙龙笔记：聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记：NLP component technology 的市场问题》

【泥沙龙笔记：没有结构树，万古如长夜】

Deep parsing：每日一析

Deep parsing 每日一析：内情曝光 vs 假货曝光

Deep parsing 每日一析半垃圾进半垃圾出

【研发随笔：植树为林自成景（10/n）】

【deep parsing：植树为林自成景（20/n）】

【deep parsing：植树为林自成景（30/n）】

【语义计算沙龙：植树为林自成景（40/n）】

【deep parsing 吃文化：植树为林自成景（60/n）】

【deep parsing (70/n)：离合词与定语从句的纠缠】

【deep parsing (80/n)：植树成林自成景】

【deep parsing (90/n)：“雨是好雨，但风不正经”】

【deep parsing (100/n)：其实 NLP 也没那么容易气死】

Notes on Building and Using Lexical Semantic Knowledge Bases

【关于 NLP 以及杂谈】

【立委科普：NLP 联络图】

NLP 是什么，不是什么？做什么，不做什么？

泥沙龙笔记:漫谈语言形式

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

【立委科普：歧义parsing的休眠唤醒机制再探】

【语义计算沙龙：深层做出来了，抽取还会远吗？】

mei:
@wei 我提议过，你的parser，能做个API 吗？NLP as a service。如diffbot.com. They are good revenue. Single founder. Large impact. Recently got $10 million series A from ten cent.
还有，你能做几个语言？
diffbot 的NLP/IE 比FB 好。其实小公司比大公司做的好是常有的事。所以大公司只好靠acquisition
我:
现在就是 API，内部也是 API 调用。NLP 做 service 或 component technology 作为 business 以前很少见到挺得住的，但对于个人创业，是可能短期“成功”的，毕竟现在的形势也不同了。
我带领我们组做过 18 个语言，囊括所有主要欧亚主要语言。我自己亲手做的是英语汉语世界语，亲自指导过的是法语、俄语、土耳其语。
我:
你说的是 FB 的 deep text？？
mei:
FB 几次 NLP effort都差
现在形式是不同
Diffbot 很成功。每个大公司要买，他们不卖
我:
前两年我与FB里面的人聊天，他们才刚想 NL 的事儿，没什么概念，做得很浅。
Diffbot 是个什么背景？
马:
这家公司不算NLP吧他们主要做爬虫和正文抽取
我:
抽取可以不用 parsing，或者只用一点 shallow parsing 但抽取是 NLP 这个大伞下面的。另一方面，有了 deep parsing，抽取就是一个玩儿。
马:
他这个抽取不是IE而是从html里提取文本对文本的结构并无任何分析
我:
那是当年 whizbang！，一个路数。
当年做得很好泡沫破灭投资人撤资可怜几麻袋源码白菜价拍卖。最后 inxight 买了也没见消化自己也当白菜卖了。
马:
也许会历史轮回，也许会" This Time Is Different "
mei:
Diffbot 没做parsing做IE
crawling，取text只是第一步
白:
深层就算做出来了，怎么抽取还有很多问题。几个难点：1、多重否定：我不是没注意到这件事他没生气。2、多重模态：我知道他相信你不否认某某的领导能力。3、高阶表述：对油价快速上涨的预期减弱。
如果都还原成情感三元组：《对象、属性、极性》，貌似有问题。
你可以放过，前提是识别准确；如果没放过又做了错误识别，就玩大了。
mei:
IE parsing 都只是NLU 的一部分。真正的story understanding 且得做呢。研究生时学的story understanding/knowledge representations, 现在没一家做到。做NLU/AI且得做呢！
我:
白老师说的那些都见识过。Sentiment 做了四五年了抽取挖掘做了18年了能想到的都见到了。只不过绕弯不过三这是基本原则有时有意选择不做。不是不可以做是不必做。
白老师的所谓三元组的表达更不是问题因为表达是自己跟自己玩。识别了还能无法表达人不会被尿憋死的。
白老师认可一部分长尾可以选择不去做但警告说不做不过是漏掉长尾而已对于大数据漏掉不是问题问题是没漏掉却抓反了。这个对没有经验的开发者的确是个挑战。对于我们早已突破了。
白:
自己跟自己玩是因为同质化的东东放在一起有计算手段上的优势，来一个异质化的东东，只好撇在大锅之外了。伟哥有本事开小灶，其他人就难说了。
我:
因为选择不做与识别准确不在一个量级上。白老师说的这些问题对学习系统构成的挑战要比规则系统大很多。
白:
不怕漏识，关键是别误识
我:
对于学习不是选择做与不做的问题基本上是到不了选不选的那一步。因为缺乏结构只能撞大运。凡是绕了几层的结构对于缺乏结构的系统基本上是噪音如果标识的时候手工排除对学习更有利。不要指望解决它最好是不要干扰了学习把系统弄糊涂。
我们从来不是为深层而深层深层从 day one 就是与抽取挖掘无缝连接的就是为了支持语用的。不像 syntaxnet 离开应用还有 n 丈远。

冯志伟老师以及机器翻译历史的一些事儿

有群友问，冯志伟老师还好吗？联想到一些MT的历史，随笔记下。
冯老师的微博还很热闹啊（冯志伟文化博客的微博_微博），他四处讲学著作等身看照片神采奕奕的样子。学问的高峰虽已过，游离于主流非主流一线之外但老当益壮勤于笔耕教书育人传播科学。
中国机器翻译（MT）历史上有冯老师的一页他凭着多语言的天赋在法国时期实现了一个一对多（汉语到欧洲语言）的机器翻译。我的硕士论文也是一对多（世界语到英语和汉语），比起冯老师，就算玩具了，但做一对多MT的人很少很少。说的是当年。后来 SMT 盛行了，终于能 scale up 到多对多，尽管仍然是一个语言对一个语言对做的而我们当年做的一对多源语分析模块是共享的。
关于冯老师也有些故事。我的学长乔毅（硕士做的是法汉机器翻译，二刘老师文革后招收的MT首届研究生之一，其他的学员还包括冯老师、李卫东、黄秀铭等）告诉我，冯老师在这拨人中很特别，因为他处于两代之间，地位特殊。他实际上在文革前就介入MT的研究项目了，与二刘老师早有合作。由于文革的十年蹉跎，文革后二刘老师用招收研究生的方式让他归队，因此他实际上是以半同事、半学员的身份回来的。从资历上，二刘老师对他来说更像兄长和同事，而不是传统意义的导师。乔毅说，我们见两位刘老师，都毕恭毕敬称刘老师或刘先生，只有冯志伟例外，他称刘老师为老刘。
冯老师是个蛮豪爽的人，给人亲近感。记得89年香山会议上山，他气喘吁吁，跟我说，由于运动，他路上花了四五个小时才到，我问刘老师呢，他说，刘老师不同，他是圣人。冯老师最津津乐道的成就之一就是，他是第一个（或第一个之一）提出要用多标记做MT的。因为传统的MT都是在词类（POS）和词的基础上做，但POS 太大，词（直接量）太小，很难细线条成hierarchical 的规则系统以提高质量。因此当一个词带有多标记（譬如 ontology 的标记如 Human、Food 之类）参与规则条件自然是打开了一扇大门。不过这一点我觉得是针对西方主流MT系统的算法而言。中国的MT，二刘老师从60年代就开始使用“句子场”的数据结构，这个句子场里面的每一栏实质上就是一个词的多标记。
刘涌泉刘倬老师给我们上课，他们的说法是，MT 50 年代初期由美国率先，苏联紧随，中国自从 57 年从苏联取经就是第三个开展 MT 的国家了。到了 60 年代，中国 MT 的研究处于世界先进水平。主要的原因是，美国和苏联的研究重点都是英俄或其他欧洲语言之间的MT，而中国一开始就不得不面对两个完全不相干的语系之间的MT（俄汉、英汉）。这个特殊性迫使我们不得不把 MT 推向深入。
MT 后来的历史巧合是，到了 1966 年，美国遭遇了由【黑皮书】带来的 MT 寒冬，中国没有黑皮书，但有红卫兵，也同时遭遇了文革带来的科研寒冬。MT 的复苏是在文革后，西方差不多同时也复苏了。世事巧合，莫过于此。参见：ALPAC 黑皮书 1/9：前言，MT 杀手皮尔斯（翻译节选）。

QUOTE 【立委按】此前的博文摘要编译过皮尔斯论，这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物，他是以MT（Machine Translation，机器翻译）杀手的面目记载在领域历史里。1966年，他主持撰写的那篇世界著名（或臭名昭著）的 ALPAC 黑皮书，把热火朝天的机器翻译研究，一下子打入冷宫。丘吉教授认为，皮尔斯给自然语言处理泼冷水，促成对自然语言和人工智能很多项目的资助冻结，是有其洞察力和远见的。不管我们心内对他多么不自在，必须看到他的反对意见至今没有过时，仍值得我们认真反思。

【语义计算沙龙：其实 NLP 也没那么容易气死】

白:
“严把个人商用房客户准入关”
我:
这个句子我人脑也费了半天劲才明白讲的啥（“严把个人商用房客户准入关”=="对个人商用房客户应严把准入关”），尝试用parser也只好瞎碰了，果然乱得不是一处两处，甚至把 “准入关”词典化（拼音联想词组里面还真有这个词条）也还是不行：
t0626a
白:
“严把个人商用房客户准入关”
严还是个姓，上下文清晰时，可以用裸姓指代全名
“入关”也是词
“把”作动词用不如作介词用的概率高
“房客”也是词

我：
幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢？虽然也饶了几圈，backtracking ......
白:
这个例子是银行发的正式文件里的
纵向不确定性比较丰富，导致结构貌似不稳
“个人”是定语
我:
这个“严” 做状语也不好掌控因为更多是做谓语的
"个人"也有些难缠，词典不行因为有 “n个人” 的存在，只好后面补救了。
个人的定语问题倒是可以解决，但还是搞不定这句：
t0626b

算了，就当没看见。我投降。
白:
“准入”是有坑的，“把关”是有坑的。当“准入”+“关”生成“准入关”的时候，坑也要有同步的调整。
我:
谁（被）准入；为谁把关（把谁的关）？
白:
把什么事由的关。
我:
把VP的关
白:
“皇军要当你的家”类似
我:
“把学习英语的关”
“英语学习的关真不好把”
白:
“严把生猪进口质量关”
我:
“要把好业务关”
这个事由的坑可以是 VP or （abstract）NP，逻辑语义大体是 about：关于什么事儿的关

白:
“教室的地得扫了”
旅行的目的地得调整了
马:
气死NLP
的士的目的地得调整
我:
其实 NLP 也没那么容易气死 @马少平
t0626c
t0626d
t0626g

马:
哈，强大
我:
当然不能指望“世界第1”的谷歌NLP，靠的是世界第0 的立氏NLP。毛主席保证，上面的句子是一次通过，没做任何工作（当然此前一定是有工作的）。
白:
扫地的离合词处理
目的地，长词优先，不用特意做什么
我:
幸好 real world 的句子也有貌似困难其实无根本挑战的我们还有活路。
白:
反过来才有挑战性，看着是离合词，就是不该碰一块儿的。伟哥试试：“这地是这样地难扫。”
我:
t0626e
哈哈哈哈仰天大笑
李白曰过的：我辈岂是蓬蒿人
白:
很好
舍近求远得真解
我:
不过我心内是把它当成狗屎运的，只不过狗屎运常光顾愚公似的人。以前说过n次，NLP 是力气活。
白:
话说，离合词这个功能好像也没多久。
我:
两三月前？早就想做了盘算很久了实现是最近几个月的事儿。量词更近，才个把月。
白:
量词和本群有直接关系
我:
离合词的处理直接源于我13年前做英语的 phrasal verbs：take it off / take off the coat / take the coat off 之类（Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003）
对量词，的确是本群反复议论才被促上马的因为没有量词搭配 90%+以上的场合无碍以前一直拖着没做。

白:
“蔡英文说得不好。”
我:
这种还是休眠吧，hidden ambiguity，跟 “难过” 类似。真做就唤醒，用 word driven
t0626f
白:
和大语境有关
如果满篇都在说另一个蔡，就和蔡英文没啥关系了。
我:
是的，但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。
白:
分层不是单向，该交互时就交互
我:
word driven 是可以想象的，因为“蔡英文”这个词对于我们来说，的确是既透明又黑箱的：黑箱是，只要不是文盲，基本上都知道蔡英文是一个人名；透明是，尽管知道这是一个人名，我们也仍然知道这个词的内部结构，以及这个词的句法可能性：蔡 -- 英文，Topic - S 的潜在性，单从这个词，我们就知道。
白:
一个上下文提供了所提及对象的“场”，重复出现可以增加“场强”，左右句法层面对部件的“抢夺”。
我:
不过这些可以想象的操作，大概很少有人去做，选择不做为多，因为还有很多可做的事儿还没做完呢。
白:
分场景。在游戏场景，上下文中的活跃对象“场”是至关重要的，不仅对其中的NLP，也对智能角色的动作规划。用于NLP是捎带脚
我:
所有的 hidden ambiguity 都可以用 word driven 机制唤醒如果我们真想做的话。
而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说，死穴不一定就死。换句话说，在休眠唤醒理论（见文末【相关】链接）正式提出之前，这个挑战很可能是被认为无解或极其困难的
但是，我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现，证明了还是有救。“小王很难过” vs “小桥很难过”，如今在我们的中文舆情系统中处理得如此漂亮！（重温【立委科普：歧义parsing的休眠唤醒机制再探】）

白:
从一个包含NLP在内的更大系统视角来看，关键语境参数的实时刷新，受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点，在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以，观点的主人是谁，就需要甄别。
我:
至少在知识图谱的工作中，discourse 内的实体aliasing 以及 anaphor 的工作，成为整合抽取信息的相对可靠的关键元素，这一步可以 leverage document-internal 的线索，这才为下一步的跨文本的 information fusion 打下了基础。
跳过 discourse 直接做 fusion 是不智的。

【相关】

《泥沙龙笔记：parsing 的休眠反悔机制》

【泥沙龙笔记：NLP hard 的歧义突破】

【立委科普：结构歧义的休眠唤醒演义】

《朝华午拾：我的考研经历》

【NLP 是一个力气活：再论成语不是问题】

【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】

Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003

置顶：立委科学网博客NLP博文一览（定期更新版）】

导亦有道，我是这样做NLP导师的

我：
我是这样教导学生 NLP和 AI 的：
人工智能里面没有智能
知识系统里面没有知识
一切都是自己跟自己玩
一切都是为了自己玩自己的时候努力玩得似乎符合逻辑自然方便而且容易记忆和维护

学：
前面的听懂了，AI 这块有点懵懂

我：没关系前面听懂了是关键。后面是哲学，哲学的事儿不必那么懂。你都懂了我这个做导师的怎么吃饭呢？

学：
给功能词加 features 怎样才妥？

我：
功能词可以枚举，原则上可以没有 features，无所谓妥不妥。看你怎么用用起来觉得妥就妥觉得别扭或捣乱就不妥。如果你永远不用则没有妥不妥的问题给了与不给一个样因为永远没用到。没用到是可能的，譬如你总是为这个词写 WORD 的规则，不让它有机会被 feature 的规则匹配上那么 features 就是摆设也就谈不上妥不妥。

学:
有道理。本来就这么几个词，写WORD就好了，不需要为Feature伤脑筋。

我：
有点开窍的意思

学：
跟老师多交流，才能开窍，不然我就钻进自己的死胡同了。

我：
人都是这样的钻进n个胡同以后才能在 n+ 的时候开窍。没进过胡同就开窍的那不是天才那是死人。

学：
NLP 里面的知识表达，包括词典的 features，应该怎么设计呢？

我:
从词典表达 lexical features 到句法语义逻辑的表达，大多没有黑白分明的标准答案。
就是自己这么给了显得蛮合理也好记忆否则自己就不舒服或记不住。更重要的是给了 features 以后规则好写了规则自然简洁有概括性且方便维护。
almost everything is coordination
u assign
u use
no one is in between
no intelligence no god
as long as it makes sense to you (not to others) so u know what u r doing
as long as it is natural and easy to remember
as long as you find it convenient to use certain features in rules and rules are easy to read and easy to maintain
in principle u can assign anything to any words
or choose not to assign
what goes around comes around
you play with yourself
computer knows nothing
features are just 0s or 1s
WHAT GOES AROUND COMES AROUND
that is NLP in an integrated system
whether it refers to POS, chunking, SVO or logical form
it is to make your job easy and yourself comfortable
u have no need to make others happy unless your system is a middleware commodity to serve your clients
if your NLP and your NLP apps are within your own control
they are integrated in your system in your own architecture
everything is internal coordination
This is my lecture on NLP Architecture for Dummies

白:
you是谁？个人、团队、公司？

我:
good question, it is the architect in most cases: he has the say. Sometimes it can be a bit democratic if the architect wants to motivate his team, for example the naming right.

白:
是全局系统的architect，还是NLP这嘎达的architect？

我:
a bit of knowledge is named as f1 or f2, that is arbitrary and the major consideration is memonic-like, features must be easy to remember, but sometimes we let a team member decide its name, such practice often makes the team happy, wow I can act like God, wow I can decide a drop of the sea in the system language ...

白:
伟哥还没回答我最后一个问题: 是全局系统的architect，还是NLP这嘎达的architect？

我:
the former because we are talking about NLP and NLP apps in an integrated system:
apps 不是产品而是语义落地。落地后还有一个产品层面包括 UI 等那已经不劳我们操心了。落地是与产品的接口而已。NLP 核心引擎与 NLP 落地是一个无缝连接的系统这种 design 可以羡慕死人。
如果是有缝对接如果是两拨人马两个设计师甚至两个公司那就扯不完的皮擦不完的屁股成不了大事儿。NLP 和 NLP 产品可以分开而且应该分开但是 NLP 与 NLP落地最好不分开。NLP 落地包括（1） IE （2） MT （3） dialogue （mapping）（4） QA （5）...... 内部分层但外部不分开这就叫无缝连接

可以说 offshelf 害死人，component technology 没有啥前途。选择 offshelf 或 license components 往往是无奈之举，自己暂时没有能力或不具备条件做，也有找的借口冠冕堂皇：不要 reinvent wheels，最后害的还是自己。
我们已经害过几次自己了吃尽了苦头才有这 “十年一悟”，以前说过的：做工业NLP 自给自足是王道。

白:
这个，关键看公司拥有什么样的专家了。专家不同模式也不同。

我:
也与时代有关： 20 年后也许不必自给自足，就一样做好NLP落地。

【相关】

【立委科普：NLP 联络图】

【立委科普：自然语言系统架构简说】

自给自足是NLP王道

语义计算笔记：坐而论道谈“的”“地”

【立委按】以前在语言学圈子里有些高雅的沙龙，譬如在冯志伟老师回忆中津津乐道过的语言学沙龙，每周一次，通常在北大，参与的圈子很小，都是精英之精英，朱德熙（语言学大家，北大副校长）、陆捡明（汉语语法学家）、马希文（计算语言学家，传奇人才，白老师的导师）、冯志伟（计算语言学家）等。坐而论道，雅致之极，令人羡慕嫉妒恨不能入。如今时代不同了，这种沙龙还有吗？回答是，有，譬如白老师主持的【新智元语义计算群】即是：谈笑皆鸿儒，往来有白丁，微信群使得高大上的沙龙平民化了，但高度、大度、上度不浅反深，盖因所延揽的精英早已不再局限于小小的京城，而是遍及全球。白老师树大招风，与NLP有关的华裔背景的顶级专家学者毛姑姑也有90%了，或高论，多潜水，胜景跌出，风光无限。甚至连中国NLP旗手董振东老前辈也上了“贼船”，乐在其中。此番繁荣，拜技术所赐，先给张小龙敬个礼。

白:
“这本书的匆忙de出版，险些坏了大事。” 这里的“de”，是“的”还是“地”，为什么？
如果按照“从里到外”的原则，是“匆忙de”先跟“出版”结合，彼时“出版”尚未被强制，因此还是满格的动词属性，de理应为“地”。但是……个人语感为什么倾向于“的”，而且理论上找不出理由。
“今天真遗憾，错过了大师的精彩de指挥。” 这个就是百分之百的“的”了。
我:
既然白老师爱钻牛角尖儿，咱们就钻钻。
白:
难道这个“指挥”不是被强制的？
我:
不能说 100% 可能是 90%+ 吧。验证的话，可以用大数据。
白:
大数据里有错别字
我:
哪怕大数据里面出来的结果是 100%，用“超大数据” 也会发现不是 100% 而且不仅仅是由于错别字。
白:
验证如果找100个文字编辑，我没意见。
我:
这里面的道理就不是大数据这种表象了，而是某种语言学。
动词概念被性状概念的词修饰，在具体语言中的形式应该是怎样的？就是这个问题。到了汉语，默认的形式是：（1）前置（2）加“地”。凡是默认必有例外。如果大数据发现了例外或者 100 个文字编辑的内在句法趋向于一种例外的结果这个例外就有语言学上的说法。
这里面还有一个微妙之处：口语中是de1 de2不分的，因此上述形式的讨论只限于书面汉语，而书面汉语受到了文法规范化教育的灌输。因此至少从一个层面看，这个问题就是一个 moot point，因为每个人的受教育程度是不同的，而每个人的儿童时学会语言的过程则是相当类同的。这二者打架的结果就会出现不一致，因此 100% 很难。如果聚焦到 100 个文字编辑做裁判的话，实际上是放大了教育的影响。有意思的问题于是成为：本来 “的”是 de 的默认，而非默认的“地”的使用是受教育的结果，因此文字编辑应该趋向于在形状类概念修饰动词性概念的时候，使用“地”而不是“的”。但是，这个 case 却不是（假如白老师的语感或修养靠谱的话），正相反，受过教育的人在这个 case 中，更趋向于用 “的”。这是为什么呢？这里面必有更深层的说法。
还要继续吗？或者谁继续牛角尖下去？
白:
其实，我是在对“从里到外”和“从左到右”的原则在质疑。如果“从左到右”，名物化结构强制的痕迹在不断加重，用“的”就理所当然了。如果“从里到外”，强制在外层，里层在不确定情况下会追随标配。
我:
其实我也正想说到这点儿，就是发散太远，还没收回来。
白:
所以，我认为是“从左到右”的分析策略在起作用。
我:
左右就是词序形式。抽象一点，不是词序，而是【层次性】与【去层次性】在语义表达或理解中的矛盾体现。这在句法学界已经打了很久很久了。层次性是一派，去层次性（扁平化）是另一派。公、婆各有理。
白:
不需要那么极端，就是已经读进来但还没有构造成树的成分，是完全被动地等在那里，还是对后续的消岐有所影响的问题。

我:
层次性的理解涉及多性状概念的 scope 边界，这是乔姆斯基短语结构的真义。去层次性的理解不强调这种 scope 的严密性，而是把他们的配置看成是自由搭配。这是为什么 dependency grammar 的结构树放弃非终结节点的表达。
白:
结构强制发生在有明确结构预期的时刻，而不是真正等来了结构强制对象的时刻。
伟哥可以顺带看看“恢复疲劳”那段。
我:
层次性一派的假设： x1 de x2 de x3 == [x1 de [x2 de [x3]]]
去层次性一派的假设： x1 de x2 de x3 == x2 de x1 de x3
两个假设都可以找到语言事实的支持。
白:
应该有强去层次和弱去层次之分
强：等价；弱：sometimes等价
我:
相信层次化的理解和去层次化的理解，在相当多的人中其实是模糊的。人的语义，无论表达还是理解，都充满了模糊性，而这种模糊性基本上也不影响语义的语用。换句话说，怎么说都可以，人类在交流中基本不 care。
白:
对分析策略似有影响
我:
歧义不仅可以保留或休眠，直到语用，甚至可以 beyond 语用，一直到死：严格说到死的歧义超越了交流，不能算歧义，最多算伪歧义。从这一点看（伪）歧义，就发现很多问题是人自找的；董老师也说过类似的意思。“人” 指的是系统设计师。
白:
又漂了
我:
漂是因为某个思路还没到终点，意犹未尽，很难受的。
回到分析策略，自底而上最实在。自底而上与层次化自然相配，但也不必然采纳层次化的 representation。
说说恢复疲劳吧。这是个固定用法词典化的条目。
白:
结构强制是个特殊的操作，如果承认在短语“这本书的不出版”中，“不出版”是个状中结构，而再外层是个定中结构，于是结构强制就发生在这两层的衔接当中。“这本书的匆忙de出版”站在层次观点也是一样的，但我质疑层次结构在先结构强制在后。
我:
虽然汉语的动宾句法可以有 n 种逻辑语义，但是作为 open-ended 的句法语义解读，这 n 种解读不能是非自然的或满拧的语义。“恢复”与“疲劳”就是满拧。里面省略了的 FROM 就是反映这种蛮拧的。如果 FROM 不出现，那么必然要词典化用记忆去绑架。
白:
“维持骚乱”的说法也成立
我:
如果要探究为什么这种乍听上去矛盾的说法进入了人类的语言被词典化，简单的说法就是约定俗成。深究的话其实是因为矛盾的双方是共现频率极高的相关概念。因为高度相关，所以本来可以明晰的连接双方的句法手段（词序啊，小词 from、against 啊等）就显得太啰嗦，偷懒的人开始省去这些句法元素共同体开始接受这种省略。最后就进入了集体的固定用法的记忆。“从疲劳中恢复” >> “恢复疲劳”；“维持和平以防骚乱” >> “维持骚乱”。
白:
我的观点是，分析不在乎是不是词典化，生成在乎。哪怕是第一次看到这样的组合，也会放行的，因为张力的指向一览无余。
我:
分析不在乎，是语义不落地，只是休眠。管它什么宾呢动宾是无疑的。
白:
“维持骚乱”就不必有什么固定记忆，一看这俩词儿，就知道是从不正常状态努力进入正常状态。
我:
没进入固定记忆，是还在过程中。
董:
知网词典的词语，与两位讨论的有关，供参考：

W_C=打扫房间
G_C=verb [da3 sao3 fang2 jian1]
S_C=
E_C=
W_E=clean the room
G_E=verb [51cleanverb-0vi      ]
S_E=
E_E=
DEF={clean|使净:patient={room|房间}}
RMK=

W_C=打扫垃圾
G_C=verb [da3 sao3 la1 ji1]
S_C=
E_C=
W_E=sweep away rubbish
G_E=verb [51sweepverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={waste|废物}}
RMK=

W_C=打扫卫生
G_C=verb [da3 sao3 wei4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=cleaning
G_E=noun [7 cleaningnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={clean|使净:StateFin={spotless|洁}}
RMK=

W_C=恢复疲劳
G_C=verb [hui1 fu4 pi2 lao2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover from tiredness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={tired|疲乏}}
RMK=

W_C=恢复知觉
G_C=verb [hui1 fu4 zhi1 jue2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover consciousness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={dizzy|昏迷}}
RMK=

W_C=救火
G_C=verb [jiu4 huo3]
S_C=
E_C=
W_E=fight the fire
G_E=verb [51fightverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={fire|火}}
RMK=

W_C=救生
G_C=verb [jiu4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=lifesaving
G_E=noun [3 lifesavingnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救穷
G_C=verb [jiu4 qiong2]
S_C=
E_C=
W_E=help the needy
G_E=verb [51helpverb-0vi      ]
S_E=
E_E=
DEF={rescue|救助:StateIni={Circumstances|境况:host={group|群体}{human|人},modifier={poor|穷}}}
RMK=

W_C=救命
G_C=verb [jiu4 ming4]
S_C=PlusEvent|正面事件
E_C=
W_E=save somebody's life
G_E=verb [51saveverb-0vt,sobj      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救灾
G_C=verb [jiu4 zai1]
S_C=PlusEvent|正面事件
E_C=
W_E=provide disaster relief
G_E=verb [51provideverb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateIni={mishap|劫难:cause={NaturalThing|天然物}}}
RMK=

白:
比如“打击卖淫嫖娼”为什么不能是“打击卖淫嫖娼”而必须是“打击卖淫嫖娼”？就是因为一个正面一个负面，是拧巴的，两个正面，就顺当了。这说的是sentiment对分析的反作用。
我:
“维持骚乱”对我这个个体目前处于一种不接受的状态。并不因为拧巴我就接受它合法。如果我是语文老师，我会判错我自己也避免这样用也不会这样用。但是如果共同体在这个演变过程的终点选择接受也就是选择词典化，那么我只得也选择接受并加入我的词典。这是其一。
其二，拧巴的确在语言交流中起作用。拧巴迫使人放弃默认去探索其他的语义路径达成理解虽然心里可能依然别扭。心里别扭是因为还没有词典化黑箱化。
白:
参加维和部队，到非洲去维持骚乱。
好点没？
我:
有了上下文，当然别扭感好一些。（同理，我也可以这样加上下文：恐怖主义分子猖獗得很，他们要维持骚乱，我们怎能坐视不理。）
在 sentiment 中，有些故意矛盾的说法来表达讽刺，也是这个拧巴理解的过程。以前说过的 thank you for misleading me，thank 的正面褒扬与 misleading 的反面是拧巴的。理解放弃了默认，选择了 misleading，是客观sentiment对主观emotion的胜利。thank 的正面语义因此消失，被讽刺取代。
白:
“感谢你八辈祖宗”
我:
英语的 improve 是这样一个褒义词，以至于它不在乎宾语是正面反面。可是维持在汉语不是，因此“维持骚乱”的别扭感更强，除非是置于合适的上下文，或被语言共同体词典化绑架。

宋:
“这本书的匆忙的出版”和“这本书的匆忙地出版”都是合乎语法的，而且都是指称语。深入一层，“匆忙的出版”和“匆忙地出版”都受“这本书的”修饰，也都是指称语。再深入一层，“匆忙的出版”中的“出版”是指称语，“匆忙地出版”中的“出版”是述谓语。“匆忙的出版这本书”语法上是错的，“匆忙地出版这本书”没问题。一般来说，动词V的语用功能既可能是指称语，也可能是述谓语，依靠它的句法位置来区别。被“Adj的”修饰的V是指称语，被“Adj地”修饰的V是述谓语。修饰后得到的短语，“Adj的V”是指称语，“Adj地V”与V一样，既可能是指称语，也可能是述谓语，依靠它的句法位置来区别。
我:
基本同意宋老师。
顺便提一句，感觉与白老师对话的时候，常常是，似乎是两股道上跑的车，这不影响互相听得见；这两股道不是完全平行的而是中间老有交叉点。仔细想来，估计是白老师是广度优先的对话算法；而我是深度优先的算法：一条路径不穷尽不愿意回头，就是所谓 “漂”或发散性思维。因为对话是在有限时空中进行，无论什么算法都不可能穷尽路径，因此就造成白老师提纲挈领总站在云端俯瞰的效果，而深度优先的算法就成了啥了，捡了芝麻，丢了西瓜的印象。宋老师则不同，广度深度都有，但往往是隐而不发一锤定音。董老师更是大师了拈花微笑，howNet 拨千斤。就没有能超出 HowNet 的，简直就是如来佛的手掌心。
董:
“出版”，这对于Hownet曾有重要意义。HowNet当年就此要回答两个问题：第一，“出版”（或类似的“计算”、“分析”等）在汉语里也类似于英文既有动词词性，还有一个名词词性吗？这涉及在知网词典中，它们应有两个词条，还是只有一个词条？第二，“这本书的出版”和“这本树的不出版”，在理论意义上它们的区别是什么？
“出版”的问题，HowNet与宋老师是一致的。以前在我们对这个问题的说明时，我们说：“出版这本书”和“这本书的出版”中两个“出版”在核心语义上没有差别，所差的是：前者是有过程的，而后者是静态的，是一个事实。用比喻说，前者是一段视频，后者是一个镜头。这也就是宋老师的述谓性的和指称性的理论。HowNet基于这样的认识，“出版”这样的词语在词典中，只有一个词性，即动词，但对应着两个英文词条，动词和名词。
白:
“这本书的出版”揭示的结构强制现象概括为三句话：1、修饰语决定整体的词性；2、中心词保持原有的词性；3、修饰语填中心语的坑。
我:
Ontology 是逻辑的高于语言的。在 ontology 的顶层也有类似词类的东西,可以称作逻辑类：逻辑动词逻辑名词逻辑形容词。这个思考在hownet 得到印证。我个人的这个思考发源于对世界语的钻研及其与不同类语言的比较。我学过法语俄语加上英语汉语世界语，有足够的表征支持跨语言、高于语言的逻辑类的探索。特别是世界语的构词法对于这类研究的启示，当年感觉是醍醐灌顶。
白:
中心词的词性也可以“嫁鸡随鸡”，强制前保持原有词性，强制后由修饰语决定。此处特别容易走向拍脑袋。
我:
强制前强制后，原逻辑类都是恒定不变，它是这个语词概念的本质类别，不随句法词法而变。到了特定语言会有一个类似的 field，俗称 pos，这个是可以改变的。但是传统上 nlp 定义的 pos 任务很容易过火过犹不及结果是让开发者陷入依赖pos的误区（见【中文处理的迷思之二：词类标注是句法分析的前提】）。尤其是照搬英语pos做法到汉语的人特别要警惕 pos 的陷阱。【迷思】里蕴涵很多只可意会的实践体会和哲学思考，说给世界听但并不在乎世界听不听。陷阱本就是为人预备的栽进去也没啥不过是重复我们曾经的苦难而已。不说不忍，说了也就是菩萨心肠。

quote 需要说明的是，笔者并不反对先POS后Parser的中文处理策略，只是指出POS并非Parser的先决条件，还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路，一步半的策略也许更好。所谓一步半，就是做一个简单的 POS 模块（算是半步）把词类区分中比较大路容易的现象标注好，并不求对所有词类施行标注。

这里要提的建议是：推向极端可以不做汉语 pos，为了工程方便可以做，但不要过火不能依赖。
董:
说得太对了。我们在HowNet 那本书的最后单有一章，讲的是中文。其中批评了宾州中文树库，说那是照着英文套中文。特别举得例子是他们标注：年平均（adv）-增长3倍，同句中的年平均（adj）增长率，中文真是如此吗？我们中文的哪本词典里有如此区分词性的。英文词典里look是动词还是名词表的清清楚楚。我们中文是到真实文本中浮动的。英文的文法是百姓的文法，中文的文法是汉语学家的文法。
清:
董老师分析的透彻！
我:
董老师做 HowNet 的30年，所经过的思考，是我们一般人难以企及和想象的，所以我说，真地就好像如来佛的手掌心，有时候我们自以为自己有什么创新思维，最多也不过是个孙猴子，还不等到得意，就发现董老师高高在上拈花微笑呢。
白:
不过只要伪歧义控制得住，就算多几个POS，技术上也没什么大不了的。至少这不是个技术问题。
我:
问题是，这些都是相互关联的。多数人，特别是没有经过磨练的新毕业生，一头栽进去，根本就无法控制伪歧义。汉语处理一不留神就是个泥淖。
白:
毕业生学什么课太关键了，学了错的课，时间还不够用来消毒的。
杨:
精辟！

白:
NLP的精妙所在就是纵向不确定性（一个位置上取什么标签）和横向不确定性（哪两个标签之间有关联性，独享还是共享）互相交织，最后还给出一个确定的解。
我:
就好比一个迷宫。虽然说走出迷宫并非只有一条路径但能走出来的路径真心并不多，而且每条到达终点的路径都必然七曲八拐暗礁险滩。可以展示最终的形态很难展示历经的过程。有人认为只要最终形态是相对确定的这个路径就必然可以根据最终形态学出来。这就是黑箱子的哲学。似乎天然可行也赢得了全领域甚至全人类（大部分是外行）的理所当然的认同。我称它为学习乐观主义。有没有 catch 只有天知道白老师知道。
白:
七拐八拐真心不是障碍，障碍是目标函数是什么。
我：
七拐八拐关涉多层，不也是毛毛虫的一个部分？

【相关】

【中文处理的迷思之二：词类标注是句法分析的前提】

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

【新智元：parsing 在希望的田野上】

Deep parsing 每日一 fun：雨是好雨，但风不正经

气象局通知～～～原约定今日凌晨来的暴雨，因半路上被堵，耽误了点时间，或许今天下午到夜间赶到。这场雨如果下大了肯定不小，下小了也肯定……不能大，请市民再耐心等待！具体情况等气象台会上研究后报给市民。气象台温馨提醒：今天如果不下雨，明天不下雨的话，这两天就没有雨了，等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子，容易被撩，雨是好雨，但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a 下面是笔者对两条路线斗争的总结，也 parse parse see see 吧，QUOTE：

说什么两条路线斗争宗教门派之别主流非主流眼珠转与不转这些都不是本质本质就是鸡同鸭讲。隔行如隔山同行也隔山。隔了山还讲个球。鸡犬之声相闻老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科两路完全不是一个类型的人没有 chemistry 没有基本的共同背景、世界观和方法学没有共同语言兴趣迥异无法正常对话更甭提恋爱结婚最简单的办法就是一派灭了另一派眼不见为净。结果就是虽然被扫地出门了语言学对于多数的殿堂内人依然是格格不入而又回避不了。做了一辈子的某些主流 NLP 大牛不懂语言学常识的并不鲜见这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵，一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

My interview：
wei_interview
from http://www.netbase.com/about-netbase/

【相关】

【立委科普：语法结构树之美（之二）】

泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索

NLP核武器的奥秘

我总说，deep parsing 是NLP应用的核武器，有人以为夸张，今天就说说这道理儿。

NLP 的应用主要分两部分，一部分是对于 text input 的分析或“理解”，一部分是反映这种分析理解的 output（俗称语义落地，譬如 output 是另一个语言，就是MT；output 是 response，就是对话系统；output 是针对 input 问题的答案，就是问答系统；等等）。NLP 应用就是连接 input 到 output 的系统。其中第一部分是关键，核心就是 parsing，可以实现为作为条件的模式匹配，而第二部分很多时候不过是与第一部分对应的作为结论的 mapping 或 side effects。

在上述场景的抽象描述中，可以这样来看 parsing 对于处理text的作用。首先，input 的样本就是我们 parsing 的 dev corpus，样本中的语句相同或类似意义的是我们识别的对象。绝大多数情形，识别了就算 “理解” 了，系统就知道如何应对最合适。

自然语言的难点在于表达这些 input 的语句千变万化，因此用 ngram 枚举它们是不现实的。现实的办法是 parse 相同或类似意义的input语句成为结构树，然后在这些树上找共同 patterns，叫“最大公约树”吧（intuitively 叫最小才顺耳，就是这些树的common core，树大了的话就没有召回率了，白老师提议叫“最大公共子树”）。如果找不到，那就把这批句子分而治之直到可以找到几个所谓子树 patterns，写成逻辑或的模式规则。

Patterns 的宽严度调试得恰到好处就可以以有限的规则应对无限的表达了。宽严不外是调整结构arc的条件或节点（node）的条件，deep parsing 说到底就是创造这些结构条件的机器。

以不变应万变，用有限的patterns抓住无限的语言变化，这就是自然语言核武器威力的表现。

【相关】

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

Deep parsing: 每日一析，内情曝光 vs 假货曝光

白老师出的那个 minimal pair:
“这家公司卖给张三的内情曝光了。”“这家公司卖给张三的假货曝光了。”

测试一下，现在没有区分：
t0623
结构上粗线条是一样的没大问题可是同位与动宾的区别没表达出来。既然句法大筐子不变，只是 roles miss 掉了，应该可以在语义中间件中轻易解决，透过定语从句的路径以及约束条件。

一觉醒来，在中间件加了一条简单的找逻辑宾语填坑的规则，看看怎么样？改进版：
t06231
这条规则是说，如果定语从句谓语句法完了以后仍然有宾语坑未填满，那么它所修饰的NP就来跳坑，除了 “消息” 类的NP。“内情” 于是被堵在外面不跳，“假货”当然无所畏惧。至于 “内情” 与定从的同位语关系，可以做，但选择不做，因为定语的概念包含了同位语，比同位语大，目前没有感到有细分的必要。
上图中还有一个 catch，“公司”与 "卖给” 的逻辑主语没有做，而只是做了 “公司”与“假货”和“内情”的句法定语关系。目前也选择不做，等到需要的时候也不难在中间件中补。主要理由与上面同，偷懒而已。主语是arguments中最接近adjunct（定语就是一种 adjunct）的角色，细分的必要性不强。当然语义落地真地需要，那就或者在语义中间件补上，或者在落地时候唤醒。

【文傻和理呆的世纪悲剧（romance tragedy）】

计算语言学的尴尬

白:
我关心“老婆情人”在那个语境下为啥不是定中结构。
老王卖瓜自开涮，
创新形容瓜特甜。
老婆情人小三见，
买回刀劈报仇般，
我:
没看懂。似乎有个 context：
老婆情人小三见 == 老婆情人见小三 or
老婆情人小三见 == 老婆见情人小三？
诗人特权害死人
Nick:
老婆情人小三见==三缺一
洪:
老婆/情人/小三见
两者兼顾，读诗看图，歧义何出？误解消除。
情人/小三，心理概念；原型维度，因人而殊。
RW:
情人/老婆，心理概念；原型维度，因人而殊。
我:
情人（lover）与小三当然不同。小三虽然没有法统地位，但既然排了次序，就有了事实的地位（“事实婚姻”的事实）。因此还有小四小五之说，这个次序也可能有新来后到的意思，或反映了喜新厌旧，数字越大新人可能越受“老爷”的宠（沿袭三妻四妾的旧制度思维），虽然事实的地位在俗众的心目中似乎越低。
陈:
情人一般是有夫之妇？小三是未婚？
我:
情人比较浪漫，超脱，爱情唯上。与世俗的地位和次序脱钩，倒是有某种秘密的刺激。
Nick:
小三是有上位企图的，情人没有。so情人就是炮友的意思。法国人那种关系都叫情人？我:
情人一旦转成小三就低下了浪漫的头失去了独立性成了金屋藏的娇。广义的情人也可以转成夫人实现从浪漫到世俗的脱胎换骨。窄义的情人专对已婚而言那是法国英国贵族爱玩的公开的秘密游戏。
白:
你们都是发散思维，就我死啃一个点，结果没人回应。
我:
白老师的问题是老婆小三之间的顿号，是怎么进入人的语言心理的？虽然根本就没看见顿号的影子。为什么顿号不是“的”？
为什么呢？因为大数据！
白老师这次不是“窃喜”，而是感叹心有灵犀了吧
@白老师 “大数据" 是不是你心中老婆情人parsing的标准答案
白:
@wei 大数据中，老婆情人的对举用法远多于修饰用法，这是肯定的。另外老婆的情人有个更简约的用法“情敌”，放着不用偏要拐着弯说，浪费能源。现实中两个因素都在起作用。
我:
白老师的问题是太能干这个世界不够他玩的。又是语言学又是金融平台又是什么块什么链。否则的话拉出来我们搭个档做做 NLP 多刺激。就依照你那个 RNN 还是啥的路子走。别人的路子不敢信服。别人也很少懂这一边。
白:
身不由己啊
我:
说什么两条路线斗争宗教门派之别主流非主流眼珠转与不转这些都不是本质本质就是鸡同鸭讲。隔行如隔山同行也隔山。隔了山还讲个球。鸡犬之声相闻老死不相往来。白马非马计算语言学亦非语言学只剩下语言的计算这就是【计算语言学】的尴尬。这是一个非常奇怪的交叉学科两路完全不是一个类型的人没有 chemistry 没有基本的共同背景、世界观和方法学没有共同语言兴趣迥异无法正常对话更甭提恋爱结婚最简单的办法就是一派灭了另一派眼不见为净。结果就是虽然被扫地出门了语言学对于多数的殿堂内人依然是格格不入而又回避不了。某些主流 NLP 大牛不懂语言学常识的并不鲜见这在任何其他学科都是不可思议的。
但是语言学比共产主义还更像一个幽灵，一直在殿堂徘徊主流可以不转眼珠可是心里并不是想象的那么有底气一个潮流来可以鸡血一下忘记幽灵的飘荡但幽灵始终徘徊。

【相关】

【科普随笔：NLP主流的傲慢与偏见】

没有语言学的 CL 走不远

老教授回函：理性主义回摆可能要再延迟10几年

【科普随笔：NLP的宗教战争？】

Church - 计算语言学课程的缺陷（翻译节选）

泥沙龙笔记：从乔姆斯基大战谷歌Norvig说起

【NLP主流的反思：Church - 钟摆摆得太远（1）：历史回顾】

【Church - 钟摆摆得太远（5）：现状与结论】

《泥沙龙笔记：【钟摆摆得太远】高大上，但有偏颇》

【泥沙龙笔记：语法工程派与统计学习派的总结】

【科普小品：NLP 的锤子和斧头】

【新智元笔记：两条路线上的NLP数据制导】

置顶：立委科学网博客NLP博文一览（定期更新版）】

"快叫爸爸小视频" 的社会计算语言学解析

“快叫爸爸小视频” 这样的东西有社会语言学的味道随着时代和潮流翻滚。在微信朋友圈及其提供的小视频功能风靡之前小视频不是术语不是合成词也没有动词的引申用法。它就是一个定中结构的 NP，在句型中等价于说”把爸爸叫做小视频”，虽然常识是 “人（爸爸）不可以等价于物（视频）”。在语言的强制性subcat结构（叫NP1NP2）里面，常识是没有位置的。句法不需要顾及常识正如 “鸡把我吃了”的违反常识一样也正如乔姆斯基千古名句的 green ideas。
可是社会语言学登场了语言被置于流动的社会背景之下，小视频成了 technical term，然后又从术语融入了语言共同体的动词用法，正如谷歌从术语（专名）变成动词一样： “我还是先谷歌一下再回应吧”，“快小视频呀”，“一定要小视频这个精彩时刻”。
白:
“一下”强制“谷歌”为动词。半个括号已经有了另半个没有也得有。
我:
于是 subcats 开始 compete，有了 competition，有了结构歧义就有了常识出场的理由。顺应常识者于是推翻了句法的第一个 reading。
白:
你是我的小苹果，怎解？
我：
“你是我的小苹果”是强制性的句法啊，无论怎么理解这个苹果（到现在我也没有理解为什么把爱人或意中人叫做小苹果，是因为拿高大上的苹果比喻珍贵吗？）都与常识无关：你是我的 x，就是强行的句法等价关系。
“一下”强制“谷歌”为动词这一类看似临时的强制在语言共同体中逐渐从临时变成常态后就侵入了词汇。换句话说，“谷歌”在以前的词典里面是没有也无需“潜在动词”的标注（lexical candidate POS feature），因为几乎所有的动词用法都是零星的句法强制的无需词典 support 的。但是随着语言的发展 “谷歌”的动词用法逐渐变成了语言共同体司空见惯的表达方式（其动词用法的流行显得简洁、时髦甚至俏皮），这时候语言的用法被反映在语言共同体的集体词汇表中，我们模型这个共同体的语言能力的时候就开始标注其动词的可能性了。
金:
厉害，这抠的!金融语义在一边看热闹
我:
或问：这词典里面标注了（反映的是共同体集体意识到这种用法的流行）和不标注有什么区别？
当然有区别。标注了就意味着其动词用法作为一个合理的路径参与 parsing 的正常竞争；不标注虽然也不能排除临时的动词用法但是因为缺乏了底部的词典支持其动词用法的路径是默认不合法，除非句法（包括词法）的context逼迫它成为动词，这就是 “一哈”的所谓强盗句法：不仅词典是绑架的天堂，句法也可以绑架。
白老师说：“兼语理解（叫某人做某事）有谓词性的坑不饱和，双宾理解（叫某人某称呼）有体词性的坑不饱和。如果拘泥于结构，二者半斤八两。但如果结合语境，非兼语理解是颠覆性的，兼语理解是常识性的。放着常识性的理解不选选择颠覆性的理解，说明心头的阴云不是一天两天了。冰冻三尺。”
重温一下白老师作为对比，字字玑珠，而且妙趣啊。“冰冻三尺”就是社会语言学。
白
也可以说，冰冻三尺就是大数据
我:
我们学习语言学模型句法绝大多数都是针对现时的把语言看成是一个静态的剖面来研究它模型它。这个也没大错而且简化了问题。但是语言是流动的社会语言学强调的就是这个流动性。流动自然反映在大数据中。因此对于静态的语言模型需要不断的更新如果有大数据那就定时地 check 它。
白：
有个动态更新的中间件就够了
我:
陈原是个大家。他写的社会语言学很有趣味。在世界语场合有幸聆听过陈原先生的世界语演讲：那个才华四射、感染力和个性特色让人高山仰止。人家做语言学是业余本职工作是出版商。据说是中国最权威的出版家，也是个左派社会活动家。
洪:
虽然解放初才入党，但应该早就是中共地下党员，三十年代初就在三联当编辑，胡愈之邹韬奋的部下，以前《读书》上一直有陈原的《在语词的密林里》
我:
陈原的那次演讲与黄华(我做翻译的那次)的演讲都有一个共同的特点，就是表情丰富、富于感染力，能感受到人的 personality，都是“大家”。
aaa

【相关】

《我的世界语国》

《朝华午拾：欧洲之行》

【河东河西，谁敢说SMT最终一定打得过规则MT？】

Xi:
@wei ，评论一下李明教授的机器翻译。我纳闷这年头这么多人跨界来和你抢食啊？

我:
评论啥，我对MT无感了，都。
我现在是，胸怀知识图谱，放眼世界大同。早翻过MT那一页了。
不过话说回来，学自然语言的人如果入行做的就是规则机器翻译，那是上天的赐福。新一辈这种人没有了，所以很多入行多年的人，看到的语言世界，还是井底的一线天。
如果你在没有平台支持下被逼着去做机器翻译，你有福了。你必须从头开始做词典、做 tokenization，做 POS，做短语，做 SVO 句法，你还要做双语结构转换、WSD 词义消歧，最后还有目标语的生成，包括形态生成、调序，修辞上的一些 final touches。
总之方方面面你必须全部做到如果没有平台没有专用语言像我们做硕士论文那样用 general purpose language （COBOL，ALGOL，BASIC，甚至汇编）做，那就是在太上老君八卦炉里炼没得不炼成火眼金睛后去做 NLP 任何一个方面和应用都洞若观火。
现在的 CL 硕士博士呢动不动就下载一个软件包，瞅准一个子任务譬如切词，譬如 sentiment，譬如WSD，哪怕是做 MT，也不用涉及那么多的层次和模块。
老老年文：【立委科普：机器翻译】但并没完全失效。还有这篇：【立委随笔：机器翻译万岁】。
SMT 不用涉及那么多层次是因为迄今的 SMT 基本是在浅层打转从来就没有做到深层，论深度和结构远远不及我们 30 年前做的规则MT。
马:
但是比规则的系统实用啊
我:
河东河西啊。
如今董老师的系统等也打磨经年了，很难说谁更实用。论精度则绝对是后者强，甩出一条街去。
smt 的先驱应该是 ibm ，从加拿大议会英法双语语料开始的。

Guo:
Translation memory 算什么？

我:
说起这个概念，我还有掌故呢。以前记过，差不多也成了 MT 野史或外传了，见《朝华午拾：欧洲之行》，Victor 称作为 translation unit （TU）。他们的所谓的 Chinese Week，当时董老师也去了，我和刘老师也去了。傅爱萍大姐派人领我们参观了红灯区以后，并没有随着我们去参加这个活动。这个活动的设立与我当年为他们做的“汉语依存文法”的工作密切相关。
QUOTE 研究组的骨干还有国际世界语协会的财务总监，知名英国籍世界语者 Victor Sadler 博士，我在71届国际世界语大会上跟他认识。作为高级研究员，他刚刚完成一项研究，利用 parsed （自动语法分析）过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息，匹配大小各异的翻译单位（translation unit）进行自动翻译，这一项原创性研究比后来流行的同类研究早了5－10年。显然，大家都看好这一新的进展，作为重点向我们推介。整个访问的中心主题，仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人，预备下一步大规模的商业开发，汉语作为不同语系的重要语言，其可行性研究对于寻找投资意义重大。
索性把怀旧进行到底《朝华午拾：一夜成为万元户》：这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载：Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands. 我的工作应该是中国做依存关系最早最完整的作品了。所谓【美梦成真】就是这么个来历，跨越近 30 年，纸上谈兵的 syntax 终于化为现实的 deep parser。
刚才一边吃晚饭，一边琢磨这段MT外传，觉得还是有几点可以总结的，笔记如下，各位指正。
（1）荷兰这个多语 MT 计划本来是规则系统起家，用世界语作为媒介语，用的是依存关系文法的框架，实现的机制是 ATN （Augmented Transition Network），技术领头是德国语言学家舒伯特。
（2）可是做着做着，剑桥出身的 Victor 博士想出了统计的路线，定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit （有点像我们用的“句素”的概念），做了实验验证了这条路线的创新，把整个项目在收尾阶段翻了个个儿。而这时候（1989年），其他的MT研究虽然也有 IBM 等开始的统计 MT，但没有一个达到这样的深度。
（3）事实上，直到今天，回顾这个科研创新可以看出，根据 parsed 以后的双语数据库的平行对比，从统计去找 Translation Units，比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT，还是远高出一筹。
（4）在 SMT 中加入 parsing 并不是每个人都有这个条件，DLT 赶巧是先做 parser 做了四五年，有了这个基础。现在和今后的方向从宏观上来看是，SMT 应该重温类似 BKB 双语parsed平行语料库的尝试，走带入结构的道路，才有希望克服现在显而易见的结构瓶颈，譬如定语从句翻译的错误。

mei:
语言学家做MT注重语言的结构，深的浅的。我是ai出生，注重“知识“，互相通融的，但侧重点有区别。
Guo:
一谈到统计和规则，总不免让人想起，库恩的科学革命的结构。根本说来，统计和规则，对于什么是nlp，是有完全不同的定义的。站在统计的角度，古埃及文的解读，作者和鹰品的辨识，错别字的检查和矫正，文章可读性的分类，还有很多很多这样的，都是历史悠久的成功故事。说历史悠久，是因为他们早于乔姆斯基太多年了。但是从规则的角度看，这些大概都不属于nlp。

我:
规则也并非一定要是句法的规则，任何 patterns 包括 ngrams 都可以是规则。学习派用的是 ngram 的分布统计，规则派很难量化这些 ngrams 的统计数据，只好把“gram”定义为从线性序列到句法单位的一个动态 unit，用结构化的深度弥补统计性的不足。

Guo:
其实对于mt，统计这一派也更多的是从"机助"翻译甚至阅读来看问题。不管大佬们怎么吹牛，统计这一派从来不以理解人模仿人为目标。他们是非常工程性，实用主义的。

我:
当 gram 被定义为我导师刘倬老师所阐述过的“句素”以后，产生了两个飞跃：
第一是距离从线性走向平面，甚至远距离现象也可以被这种 “ngram” 抓住了：这类例证我此前显示过很多。第二是 gram 本身从直接量 (literal) 提升为一个具有不同抽象度的 features 的语言学单位总和，连ontolgy亦可带入。这两个飞跃使得应对自然语言错综复杂的规则，变得切实可行。
smt 我们迄今看到的流行成熟的系统，譬如大投入造就的百度和谷歌MT，其缺乏结构和parsing支持的缺点是如此显然，结构瓶颈随处可见。可反过来看董老师在群里显示出来的传统规则+知识的系统，结构的优势不言而喻。
也许从 scale up，从对付鸡零狗碎的成语性的 ngrams，董老师这类系统目前还无法匹敌百度谷歌 smt，但是假如以董老师系统为核心，给以同等的资源投入和维护，我觉得百度系统无法打得过规则 MT。当然最佳的办法是二者的某种结合，取长补短。我想说的是，如果硬要硬碰硬的话，在同等投入的基础上，谁敢拍胸脯说主流 smt 一定会胜过规则 mt 呢？
现在是不平等比较，根本不是 apple to apple 较量。历史把规则mt 推下了主流舞台，但是 smt 的人无论多么傲慢也还是应该看得见自己的短板和规则mt的亮点。

Guo:
统计这一派，其实有很多人试图引入结构，但鲜有能够有效减少perplexity的。核心的争论，就是问题到底出在哪儿？一种观点是，结构，并不承载太多的附加信息。另一种就是，我们还没有发现更好的更有效的数学模型。这就是为什么，好些人对深度神经就像打了鸡血。

我:
heterogeneous features 引入后的 evidence overlapping 以及 perplexity 等，是研究课题，不过说结构不承载太多附加信息等价于说 ngram 线性的 model 无需改变，这个 model 在20多年中已经被推向了极致，没有多少油水了。白老师说话，model 不对，语言长得啥样框架上就没留下空间，再多的数据，再deep的学习，也是必然遭遇瓶颈的。
的确在某些粗线条任务中譬如 document classification，一袋子词的ngram模型已经足以满足应用的需要，精度已经够高，结构即便加入也改进余地不大了：这不是我们需要讨论的。我们关注的都是那些显然遭遇瓶颈的任务，包括 MT、包括 IE、包括 Sentiment Analysis，这些任务，显然统计的路线在没有结构助力下，深入不下去。
到目前为止纵然有一些带入结构的尝试，但很可能是浅尝辄止，还不到结论的时候。
深度神经是一种训练的算法，与语言的结构深度没有必然联系。事实上迄今为止对于 text NLP 的深度神经的尝试，除了专门做中间件 parsing 的 research 如 SyntaxtNet 外，对于 NLP 应用方面的任务，基本上还是在语言浅层进行。带入结构的深度神经用于 text NLP，到底有几家在做？如果没做或还没做出结果来那么所谓 Deep Text 就是有意无意的误导（见【遭遇脸书的 Deep Text】）。

杨:
我理解：深度学习主要是可能在语意理解领域可能会有所改变

我:
譬如？
哪些任务是深度神经擅长、文法工程短板的语义理解呢？
凡是条分缕析的细线条任务，想不出来深度学习可做，文法工程不可做的，无论语义如何落地。

杨:
比如文字到图像的映射搜索呢？我不懂，瞎说的。当然这个目前远远不成熟只是猜想

我:
这个还真是没想到，因为其中一端是 text （captions？），可另一端是 image，对于学习，无论神经的深浅，这个任务只要有大量的 data （带有 captions 的图片集），就是一个很自然的学习的任务。而对于规则，这种形式化的语义落地（映射到图像）在图像那边如何处理并integrate 到规则系统中来对接，似乎没有显然而见的自然接口。

杨：
不过图像这块就不够成熟要做这个且早呢。

我:
好。短板不怕，只要心里有数就好。早就知道规则的“经典”短板了：
【手工规则系统的软肋在文章分类】。
QUOTE 人脑（规则）可能顾不上这么多细微的证据及其权重，但是人脑往往可以根据不同状况抓住几条主线，然后在其中调控，达到解决问题。在 deep parsing 这个 NLP 的关键/核心领域，规则系统的优势更加明显。
再有就是搜索。关键词检索的鲁棒、对付长尾 query 的能力，是规则系统难以匹敌的。
但是如果把关键词搜索作为 backoff，那么加入结构的精准智能搜索（我们叫 SVO search）就顺理成章了。

【相关】

【立委科普：机器翻译】
【立委随笔：机器翻译万岁】

《朝华午拾：欧洲之行》
《朝华午拾：一夜成为万元户》
【美梦成真】
【手工规则系统的软肋在文章分类】
【遭遇脸书的 Deep Text】

Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands.

Dr Wei Li on NLP (@LinkedIn)

Deep parsing 每日一析半垃圾进半垃圾出

白: 越南一架载有9人的巡逻机执行搜救任务时失踪，这失踪的CASA是去搜寻刚刚失踪的苏-30的。搜寻失踪的，自己也失踪了，得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了。

白老师看重的是不是人话的人话 “。。。得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了”。不是人话的话，我把它叫做半垃圾。

半垃圾我都不想试，笃定搞不定。犯“错”了吧心里别扭，又想逞能，就必然去debug一个其实也没啥bug的系统其结果很可能是得不偿失，或费九牛二虎之力不过是为了一个基本不会再次出现的长尾之长尾。如果无视吧，跟眼里揉了沙子似的。

好奇心害死猫，还是忍不住测试了，不过毛主席呢保证，绝不 debug，我说的是绝不! 也不进 unit test，任它 half-garbage in half-garbage out, 有当无好了：

t0617a

合上揉进沙子的眼呼呼去也，希望今夜无梦，至少无语言学的噩梦。

The Anti-Eliza effect, New Concept in AI

【关于人工智能】

我其实是个蛮可怜的“砖家”，一辈子只做一件事儿，除了 NLP 语言工程的一亩三分地，每日掘地三尺，愚公移山，对于化外之地，基本是白痴一枚。特别羡慕仰望那些学富五车融会贯通的达人，如董老白爷洪仙尼克。尽管如此，我却还是不满足于低头挖煤，不甘心做语言学腐儒，老有一种哲学家的心魔压迫着我，不时要不知天高地远地天马行空一番，但总是飞不远，最多是飞到 NLP 的顶头上层AI瞅瞅，hence 下面几篇关于AI的哲学随笔。自然语言理解（NLU）正是AI在语言领域的体现。

【新智元笔记：反伊莉莎效应，人工智能的新概念】

《新智元笔记：机器的秒杀人类和霍金的杞人忧天》

【新智元笔记：强弱人工智能之辩】

【泥沙龙笔记：强人工智能的伟哥测试】

重温AI历史上的思维实验：老外不会中文，正如机器没有理解

《语义三巨人》

《立委随笔：人工“智能”》

人机接口是机器人的面子

《新智元：通用的机器人都是闹着玩的，有用的都是 domain 的》

【泥沙龙笔记：从民科谈到五代机及其AI历史与现状】

【立委科普：自然语言parsers是揭示语言奥秘的LIGO式探测仪】

【关于NLP体系和设计哲学】

【立委科普：NLP 联络图】

【立委科普：自然语言系统架构简说】

《泥沙龙笔记：沾深度神经的光，谈parsing的深度与多层》

【立委科普：语言学算法是 deep NLP 绕不过去的坎儿】

《OVERVIEW OF NATURAL LANGUAGE PROCESSING》

《NLP White Paper: Overview of Our NLP Core Engine》

White Paper of NLP Engine

《泥沙龙笔记：deep，情到深处仍孤独》

《泥沙龙铿锵三人行：句法语义纠缠论》

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》

【泥沙龙笔记：再谈知识图谱和知识习得】

【立委科普：本体知识系统的发展历程】

Notes on Building and Using Lexical Semantic Knowledge Bases

NLP 是什么，不是什么？做什么，不做什么？

【关于信息抽取】

【关于人工智能】

【关于NLP方法论以及两条路线之争】

【新智元笔记：李白对话录 - RNN 与语言学算法】

【关于NLP方法论以及两条路线之争】

【新智元笔记：工程语法和深度神经】

《新智元笔记：再谈语言学手工编程与机器学习的自动编程》

《新智元笔记：对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记：【Google 年度顶级论文】有感》

《新智元笔记：NLP 系统的分层挑战》

《泥沙龙笔记：连续、离散，模块化和接口》

《泥沙龙笔记：parsing 的休眠反悔机制》

【立委科普：歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记：NLP hard 的歧义突破】

【立委科普：结构歧义的休眠唤醒演义】

【新智元笔记：李白对话录 - 从“把手”谈起】

《新智元笔记：跨层次结构歧义的识别表达痛点》

【立委科普：NLP 中的一袋子词是什么】

一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑

《立委科普：关键词革命》

《立委科普：关键词外传》

《立委随笔：机器学习和自然语言处理》

【泥沙龙笔记：语法工程派与统计学习派的总结】

【科普小品：NLP 的锤子和斧头】

【新智元笔记：两条路线上的NLP数据制导】

《立委随笔：语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

【why hybrid? on machine learning vs. hand-coded rules in NLP】

Why Hybrid?

钩沉：Early arguments for a hybrid model for NLP and IE

【李白对话录：你波你的波，我粒我的粒】

【泥沙龙笔记：学习乐观主义的极致，奇文共欣赏】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

泥沙龙笔记:铿锵三人行

《泥沙龙铿锵三人行：句法语义纠缠论》

【科普随笔：NLP主流的傲慢与偏见】

【科普随笔：NLP主流最大的偏见，规则系统的手工性】

再谈机器学习和手工系统：人和机器谁更聪明能干？

乔姆斯基批判

Chomsky’s Negative Impact

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

【语义计算沙龙：乔老爷的围墙，community 的盲区】

【新智元笔记：语法糖霜论不值得认真对待】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

【泥沙龙笔记：NLP 专门语言是规则系统的斧头】

【新智元：理论家的围墙和工程师的私货】

泥沙龙笔记：从乔姆斯基大战谷歌Norvig说起

【Church - 钟摆摆得太远（2）：乔姆斯基论】

【NLP主流的反思：Church - 钟摆摆得太远（1）：历史回顾】

【Church - 钟摆摆得太远（3）：皮尔斯论】

【Church - 钟摆摆得太远（4）：明斯基论】

【Church - 钟摆摆得太远（5）：现状与结论】

《泥沙龙笔记：【钟摆摆得太远】高大上，但有偏颇》

自给自足是NLP王道

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

语言创造简史

Notes on Building and Using Lexical Semantic Knowledge Bases

【NLP主流成见之二，所谓规则系统的移植性太差】

Domain portability myth in natural language processing (NLP)

【科普随笔：NLP的宗教战争？】

Church - 计算语言学课程的缺陷（翻译节选）

【科普随笔：NLP主流之偏见重复一万遍成为反真理】

【坚持四项基本原则，开发鲁棒性NLP系统】

【NLP 围脖：成语从来不是问题】

【NLP 是一个力气活：再论成语不是问题】

【立委围脖：对于用户来说，抓住老鼠就是好猫】

《科普随笔：keep ambiguity untouched》

【科研笔记：NLP的词海战术】

【在构筑一个模型时，枚举法是常用的必要的强盗分类】

没有语言学的 CL 走不远

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习？

手工规则系统的软肋在文章分类

老教授回函：理性主义回摆可能要再延迟10几年

一袋子词的主流方法面对社交媒体捉襟见肘，结构分析是必由之路

《通用的机器人都是闹着玩的，有用的都是 domain 的》

【关于信息抽取】

【关于人工智能】

【关于NLP体系和设计哲学】

遭遇脸书的 Deep Text

前几天脸书发布 Deep Text 新闻，在AI和自然语言理解领域引起热议，媒体上也闹出很大的动静。昨天笔者第一次亲身遭遇脸书的 deep text, 确认了其浅层无结构的本质，甭管它训练了多少层。
我跟女儿对话总是用脸书，她的圈子都用脸书，基本不用微信。她遇到一个烦扰有点着急，我就告诉她 take a deep breath，没想到脸书立即跳出了 Uber 的链接：我只要一按钮出租车就会来。
天哪这就是所谓 deep？很可能不过是个基于 ngram 的分类系统，哪里有 deep nlp 和结构的影子？
大概训练集里有不少 Take a ride， Take a cab，结果 take a deep breath 就也成了“出行”类事件了。这种信息抽取要是在 parsing 的结构基础上，哪里会出这样的笑话。
报道说什么deep text理解语言接近人的水平，牛皮吹没边了。比我们 parsing 支持的抽取能力和精准相差何止以里计。
这其实不是意外的发现，因为机器学习界一直就是在浅层做NLP，没有深度，没有结构，没有理解，缺乏细线条的分析 (parsing) 能力，大多是粗线条的分类 (classification) 工作。
对于分类系统只有输入text大机器学习才有效。如果是短消息，基本就是瞎蒙，关键词密度在短消息中没有了优势，缺乏 data points 的证据。
事实上，迄今的几乎所有的nlp应用，基本局限于无结构，机器学习 deep 不 deep 没有改变这一点。这很可能是为什么深度学习（DL）在 text 方面似乎不给力的症结所在。
宋老师前两天说话，学习 deep 了的好处是可以消化更多的训练数据，但是数据的增加永远是线性的，而 text 里面的结构性决定了语言的组合爆炸，因此深度学习不会因为增加数据而根本改观，稀疏数据依然是挑战。ngram 与 bow（bag of word） model 不变，再深的训练依然是在语言浅层挣扎，只能做粗线条的 nlp，却难以胜任细线条nlp的任务。ngram 只是语言结构的拙劣近似，缺乏结构是迄今的死穴。
parsing 基础上的事件抽取（event extraction）比ngram上的事件分类（event classification）高出岂止一头，一细一粗，一精一庸。

Deep parsing：每日一析

“西方人类比用得少，是因为西方的逻辑学产生的早。
t0614a
什么叫狗屎运？我的定义就是：遇到一个找茬的顾客，看到他藏着陷阱的“自然语言”语句，心里有点没数，但测试自己的系统，一次通过了。
今天是个好日子，撞了一个狗屎运，不必 debug
当然，真是通不过，需要 debug 也没啥，所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内，有一个顺达的对症下药之路，而不是为了这个 bug，没完没了折腾系统。
严格说，也可以找到瑕疵：理想的 parse 最好是对 “西方人” 耍个流氓，label 成 Topic，而不是 S，但这个 Topic 的流氓不见得比现在这个 parsing 强，半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。（S 是主语，Subj 是主语从句。)
对于半斤八两的句法分析路径怎么判断对错？
一个包容的系统，就认可两者，因为其间的区别已经很 sutble 了，连人很多时候也糊涂。所谓包容的系统，指的是，在语用层面做产品需要语义落地的时候，parser 对此类现象给出的两个不同的路径，应该不影响落地。这个对于句法和语用 integrated 的系统，是没有问题的。后者可以也容易实现这种鲁棒性。

对于汉语常见的 NP+XP+Pred 的现象，下列分析大都可以被包容：
（1） Topic + S + Pred
（2） [Mod + S] Pred
（3）[S + Pred] +Pred
when the second element XP can be Pred （V， A， or deverbal N）
包容的都是可以预见的，因为可以预见，因此可以应对，hence robustness