立委NLP频道

【立委科普：歧义parsing的休眠唤醒机制再探】

【研发心得：sentiment 的诡异】

我:
domain 很有意思，今天 study 客服的数据，发现我们现系统 tag “loyal customer” as positive，但实际上几乎总是 negative 抱怨。因为很多人（包括我自己，譬如跟电话公司打交道的时候）的抱怨总是这样开始：
I am your loyal customer for n years, blah blah [complaints: how can u treat me like that]

还有一些有意思的发现：new 这个词并不是啥褒义词，第一即便原义有一丝褒，但太弱，用得也太多。更重要的是，这个词最常出现在 promotion 的广告里面。客户情报里面很少用它表示褒义。那么 brand-new 呢？似乎稍微褒一些，但也很灰色，放过它可能更好。还有一个词叫 available，以前以为是好话，其实用起来很 tricky：说 no Pepsi available，不是说的 Pepsi 的坏话，很可能是说的好话，抱怨的是这么好的东西怎么没提供呢。诸如此类，不看 data 不知道。

白:
这么好的数据，不神经，糟蹋了

我:
大而言之，语义是泥坑；具体到 sentiment，几乎就是粪坑了。跳进去不仅可能被淹死，还会被呛死。

我等着神经在shentiment上来一个绝活。

目前为止，对手的 sentiment 全部用的学习，用没用神经就不知道了，但他们的 data quality 实在不敢恭维。

还有就是： I would kill for Pepsi，这样的说法是强烈的褒义：NND 为了 Pepsi 让我杀人都可以。这个倒不难逮住，无论是 pattern 去拿它，还是数据够了去训练出来它。

白:
可怜的米国人

我:
记得还有这么一句： Hell no man, pepsi or die. 这是对 pepsi 的极度褒扬：没 Pepsi 毋宁死（与自由同价：不自由毋宁死）宋柔:

宋:
@wei 可见，要做情感分析，对于所处理的语言必须有相当强的语感。国内的人做英语的情感分析恐怕不容易。

我：
昨天说了 sentiment data 的貌似诡异的事儿，明明说的是正面的词“loyal customer”，却几乎总是抱怨，至少是客服领域：原来人在表达情绪的时候，不仅会正话反说，而且还会先退一步。

今天再说一个案例：care about（关心）一般认为是正面的动词，甚至关心钱财，从正面角度也可以说明这个企业懂得为 stake holders 创造价值，可能是一个兢兢业业的好企业吧。但是在客服领域，绝大多数场合，这却是抱怨的开始。

"All AT&T cares about is money. Worst service ever."
AT&T is one of the most GREEDY companies I have ever saw. All they care about is the $$$$$.
"there aledged customer service is beyond ridiculous, they seem to care more about being paid than helping there customers"

等于说：你他妈只认钱，贪得无厌。

顺便一提，我也是 AT&T 很多年的“loyal”customer，完全认同上面的抱怨。看这家公司的账单，那真是跟天书一样，变着法儿跟你要钱。昨天来账单，我的电视涨了近30元，原来是 promotion 到期了，我就 call 他们，说，我们基本不看电视，时间和视屏都耗在网上了，不过是多年的习惯而已，你怎么一个月 charge 我 80 多刀，比互联网的 70 多刀的 charge 还大？你不给 discount，我就掐了电视算了。不过真要掐电视，领导怕不同意，如今的乐视盒子小米盒子啥的，节目虽多，还是不那么灵光，有时连不上。

结果客服说，现下没有新的 promotion 可以提供 discount，不过不久会有。说你要是电视少看，那就降一级吧，从 TV-family 降级为 TV-basic，那个才 19 块钱，来 20多个频道，你们也该够了。于是，我就降级了，然后一查看，说是TV 19 块，其实是 50 多块。什么 HD 费10快，receiver 费 15 块，录像费，等等等等。这种企业真该死。可是美国电信企业，好人不多，也就懒得挪动了。互联网+++ 再发达一些，这 cable TV 就该自生自灭了。

【相关】

舆情挖掘

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【语义计算：没有语言学的计算语言学，NLP的亚健康现状】

我:
大而言之，实词（对应概念）之间，只要发生句法关系，逻辑语义上就有个说法。
作为总原则去操作，句法标签总带着一个逻辑语义标签的做法，是有益无害的（最多是逻辑语义那边不增加新的信息，给个 dummy 的逻辑符号，assuming 句法标签对于语义落地足够了）。
但反过来，我们都知道，有不少逻辑语义是建立在没有句法直接联系的实词之间的所谓 hidden args, 语义中间件的主要任务就是挖掘出这些 hidden 的逻辑语义关系来。
还有一个突出的区别：对于句法 dependency，大体上要遵循一个老子的原则。而对于逻辑 dependency，这一条就废了：一个儿子有多个老子，对于逻辑是天经地义。因此这树形图也就变得诡异了。

白:
定语从句就是多个老子，用坑的话说，就是填一送一

我:
定语从句的老子儿子相互循环，直接对抗 acyclic 的天条，那是 DG（Dependency Grammar）的 formalism 引起的。DG 有一万个好，在这一点上还是露出了皮袍下面的“小”来。不过虽然君臣父子乱套，看上去挺窝心的，实际操作使用上也无大碍。要是单单为了这一点就采纳了叠床架屋的短语结构，不值得。

白:
我不认为树或者DAG是动不得的天条。语义那头已经是这样了，句法why not

我:
我无异议。不过多数语言学家和逻辑学家看不惯乱伦。

白:
而且我现在的填坑体系里根本就没有树。天生允许多爹，允许loop

我:
总得有个数据结构某种 internal representation 作为 output。我的老印搭档在实现这个 graph 的时候，遇到 loop，以前是 error，系统罢工。后来改成 warning。实践中我发现，这个 warning 对于 debug 还是有用的。遇到定语从句这种 loop by design 就忽略警告。但很多时候，那个警告帮助指出了多层规则系统的不合理之处。人的脑子蛮可怜，再有经验的语言学家，也看不过三步。因此在编码规则的时候，容易陷入局部思维。看到 warning 时候“回溯”，往往恍然大悟，原来全局上看，有些东西是不合理的，需要协调。

biao:
哥儿几个在这死磕语法似乎很难看到什么时候是出头之日。

liang:
据说，我们都是乘着“计算”这趟历史快车。跟着时代走。

白:
做股票可不是这样说哦，都是在讲“抄底”。

这要回归到一个老问题，状态机的学习。从非确定有限状态自动机到RNN只有半步之遥。从正则表达式直接编译到RNN的路径是畅通的。所以，规则和学习两条路都可以到达RNN。说得清的用规则，说不清的用学习，谁也不碍着谁。

我:
有数据的用学习缺乏数据的用规则。

另外说语法没有出头之日是小看了咱语言学家。等到 dl 先打败我的 parser 再说不迟。想起奥巴马与希拉里当年党内初选，希拉里老说奥巴马做副手不赖，可以与她搭档跟共和党竞争。奥巴马笑说，你一路输在我后面，说什么呢？当然，这些与潮流相左的话没人当真。一律当成妄人或民科的鼓噪而已。好在在应用现场，最终还是系统说话。

白:
对标注来说，上量，和自洽，是同一个问题的两面。

我:
我信服dl的power 但文本标注和domain化的挑战貌似没看到根本的突破。知识瓶颈 kills a cat。

白:
对我来说不存在两条路线竞赛不竞赛的问题。那个东西该长什么样是更重要的，这点一旦定下来，怎么弄成那个样都行。比如说，肯定不是树。所以树库再庞大也那个。

我:
端对端的理念是不要那个：不要结构不要语言学。

白:
那只是表象只不过把问题转化为中间黑盒子长什么样而已。

我:
问题是结构的目的是帮助克服domain化的挑战。没有结构每一个nlp的应用就是一个独立的问题，就需要无止境的带标数据，到哪里去克服这个知识瓶颈呢？一千个应用需要一千种带标大数据。在我这里不需要因为结构化了；我只要少量的数据样本让我知道任务的定义即可。专家天生懂得举一反n，谁叫我们是人呢，linguists，domain specialists ......

白:
这真的是表象
因为黑盒子不是仅仅学习可以得到，对规则进行编译一样可以得到。

张:
李白的discourse 省略太多，求Wei的分析

白:
所以关键是黑盒子本质上有没有容纳结构的能力。黑盒子长的模样不对，容纳结构就不力。之所以一任务一标注一训练，是因为不了解黑盒子容纳结构的通用能力。
也是因为这样拆分有利于持续发论文

wang:
白老师今天高见，“句法关系不是树结构”，领教！但是常规大部分句子，用树结构表示还是可以表达清晰的，除非您列出的那些刁钻的句子。我认为那是语言学家功课还没有做好，这些看似异类的句子（其实是现实合法句），还没有语言学家的事先分类归属。我现在的观点（也许以后会改变），句法处理过程中可以不是树结构，但是最终结果还是树，而不能出现环。

我:
无所谓啦。
社会网络里任何人都可能与任何人发生关系何况语词？

白:
环必然会出现
定语从句在汉语中是个并非偏门的表达方式

我:
他喜欢的女孩
什么女孩？ -- 他喜欢的女孩
他喜欢谁？ -- 喜欢女孩

白:
这个环形结构的思想大约在1998年就形成了。当时是在范畴语法的框架内表述的。后来一直想把范畴语法发展成可用的mechanism，遇到诸多困难。最近几年才转向，把当时的一些精华嫁接到依存语法中来，弄了个不伦不类没名没姓的坑论。@梁 @赵都有涉及这项工作。看到伟哥也果断打破树结构，拥抱俩爹，非常欣慰！董老师的框架，箭头方向和我一致：萝卜指向坑，修饰语指向被修饰语。伟哥的方向，随依存体系，反过来的。伟哥省略了小词。而在我的坑论里面，小词负载很重要的结构，“的”是构成定语从句环路的最核心节点。不仅“的”，像“地”、“得”之类也负载结构，也挖坑。

wang:
看来白老师这是深酿多年的酒了哈！希望这理论能取个好听的名字。更希望早日形成系统，发挥应有力量。

我:
【坑论】，不蛮好？
环形不明白的问利鹏。他自从解雇了小蜜就聘了自家领导做手下，并与新手下约法三章：一切服从领导。

我:
说到填坑，HPSG 里面有个说法：
对于 args，当然是 head 挖坑（subcat），期待（expect）那些 args 填坑。是 head 找 args。但对于 mods，一切反过来，不是 head 找 mods，而是 mod 去找 head。
所以对于词例化的 HPSG，修饰语的词也挖坑挖的是让 head 去填的坑。

刘:
为什么mod不能做head而把动词作为arg？

我:
但实际上我自己在 parsing 的操作中，两条路线都走过：
做过 head 去找 mods，大不了多几层，或来个循环。也做过 mod 去找 head。

mod 做 head 从语义表达上，是本末倒置吧，至少人看着不舒服。真要做，也可以做，可是 mods 是数量不定的，除非是短语结构，一层一层嵌套上来，让最远的 mod 做总 head。否则怎么表达多 mods 对于同一个 vp 的填坑要求呢？能想到的办法就是让同一个 vp 或 s 可以有 n 个 mods 的老子（说的是依存关系的表达）。总之，一般认为还是谓词做 head，既做 args 的 head 构成 arg structure 作为语义核心，也做 mods 的 head，表达边缘的语义（修饰限定）。

白:
这里有模糊地带。
比如，马上种树，必然种树，肯定种树，会种树。
副词和情态动词的边界情态动词就被认为是动词填情态动词的坑

范畴语法就是mod做head，比如形容词是n/n，你喂给它一个n，它吐给你一个经过修饰了的n。

副词就被认为是给核心动词戴帽子。我曾经坚持了很长时间喂一个吐一个的思路处理修饰词，后来证明有害无益。后来把方向扭过来了。

我:
喂一个吐一个的做法早早年我导师刘老师就是这么做的。所谓名词组抱团（就是我们说的 chunking），就是从head N 开始往左一个一个的吃。情态动词与副词有类似也有不同。说情态动词是 head 后面的动词是 dependent，这种处理有其优点。主要是情态动词与主语往往有一致关系，而且也常带有谓语的时体信息
但副词不同，让副词做 head 就有些反客为主了。

白:
这个地方是范畴语法和依存语法的重大差别。

我:
情态动词与后面动词，谁主谁副，很有说头。从句法上，情态动词做主，因为上述理由，最合适。从语义上（谓词的ontology），当然是后面的动词，因为情态动词是功能词，反映的是语法意义，概念意义很虚。当主语与谓语需要check语法上的一致关系的时候，应该 check 情态动词。而当主语与谓语需要 check 语义一致关系（最典型的是主谓搭配关系）的时候，就必须 check 后面的动词。这是两个矛盾的要求。一般都在一个体系内部协调解决，确保情态动词与后面动词的 acessibility，适应不同的需求。

有时候想，白老师这个群里交流的这些体会、经验、理论和实践，算不算 CL 和 NLP 方面的学问呢？要说是学问吧，好像这种学问没处发表。（语言学的刊物那边或许有一些 room，但掌管语言学的学者，对语义计算好奇多于了解和欣赏。）计算语言学这边吧，一律的学习啊学习，或者深度啊神经，根本没人拿这个学问当回事儿，或者也听不懂。

这真是一个有意思的怪象。
所以我说岂止是隔行如隔山同行也隔山。锤子不同，虽然做的是同一个事儿，也还是隔锤如隔山。白老师这样两边都不隔的，绝对是熊猫。

这种亚健康状态，终有一天会被领域认识到。

【相关】

科学网—计算语言学的尴尬

【语义计算：从神经机器翻译谈起】

【科普随笔：NLP主流的傲慢与偏见】

【科普随笔：NLP主流最大的偏见，规则系统的手工性】

【NLP主流的反思：Church – 钟摆摆得太远（1）：历史回顾】

【Church – 钟摆摆得太远（5）：现状与结论】

【从V个P到抓取邮电地址看 clear patterns 如何抵御 sparse data】

从前几天的例子：V个P （挣个毛、挣个求、挣个妹，等）
P={P，屁，头，鸟，吊，jiba，妹，鬼，......}
可以看到，小数据为依据的规则系统，有时候比大数据训练的系统，可能更加有效：更精准，更能对抗 sparse data 从而提高 recall（具有 clear patterns 性质的语言现象，可以一网打尽，完全没有 sparse data 的困扰），模拟语言现象更加直接，因此也更加容易debug和维护。

在 IE 历史上，直到 MUC-7，当时表现最牛的 NE 系统 NetOwl 就是基于 pattern rules 的，几乎所有的统计对手都拿它作为拼杀的对象。NetOwl 从 SRA spinoff 出去想以 NE 为技术基础，进行商业运作，一开始在分类广告业拿下了一些业务，终究不能持续赚钱，后来被 SRA 收回，逐渐销声匿迹了。后来追随潮流，系统里面也混杂了机器学习的模块。

从此在学界就再也见不到规则系统了，哪怕是对于规则非常适用的某些 NE 任务：譬如时间，数量结构，等。可见潮流之厉害，貌似所向披靡。但事物的本质和本性并没有改变，对于自然语言中的具有 clear patterns 的现象，依据小数据，经过人脑的归纳，行数据驱动去开发规则系统，仍然是如上述高效而高质量：工业界默默实行的人、团队和系统并不鲜见，只不过大家心知肚明，只做不说而已。

相对应，发动群众去标注大数据，然后用大数据训练一个系统如何？这是主流的默认、honored 的方法。如果数据足够大，其质量的确可以接近或匹敌规则系统。当数据量不理想的时候，就捉襟见肘了：或者 underkill （由于 sparse data，漏掉很多统计性稍弱的变体）伤害 recall，或者 overkill （smoothing 过度，把不该抓的现象抓进），影响了precision。

什么叫有 clear pattern 的语言现象呢？举个例子，抓取邮政地址，这个工作我自己作为一个 fun project 做过。美国地址大体是门牌、街道、城市、州、邮政编码，最后是国名，patterns 相当地 clear，可你可能无法想象上述 pattern 的构件变体之多，有些变体绝对是 long tails，再大的数据量也难涵盖其组合爆炸的本性。

如果你收集了一个巨大的美国地址库作为训练集（大数据），你完全可以设计一个学习系统来做这件事儿。而另一边，虽然也是 data driven，但只需要小数据样本，然后经过人的大脑去举一反三进行开发，最后到 raw data 的大数据中去验证反馈。可以拍胸脯的是，后一种办法做出来的系统绝对是高质量易维护，几乎天生地具有 sparse data 的免疫性。

云:
@wei ，地址parsing属于reg expressions就能搞定的事，我们大数据分析经常要做的事。这个和NLP没有多大的关系。这是一个context free的grammer，相对简单。

我: finite state，是 regex 就搞定，但不少人还是训练。这是其一。
其二是，自然语言复杂性比起相对简单的地址识别，不过是多了几层而已。都可以 finite. 譬如，subcat 说需要主语、宾语，还要一个宾语补足语，这与地址说需要一个街名、城市名和州名，也差不多。

云:
不一样的，
1. 街名
2. 城市
3. 州名
各自独立，互不依赖。
而主谓宾相互有上下文关系

我:
比喻都是跛脚的。anyway 二者都是 finite 装置可以搞定。地址由于其组件的独立性，利用 macros 调用，可以一层搞定，也可以不利用 macros 多层搞定。NL 通常要多层 finite 装置搞定。

其实我要说的是，自然语言看上去千丝万缕，复杂无比，但本性上、大面上是背后具有 clear patterns 的 monster。为什么自然语言有 clear patterns （所谓句法）在背后？乔姆斯基归结为 UG，是从娘胎里带出来的。有意思的是，语言学家看自然语言，看到的是章法，甭管这个章法多么地扑朔迷离。而没多少语言学训练的NLP工作者，往往看到的是一团纠缠不清的迷雾。

【相关】

【从IBM沃森平台的云服务谈AI热门中的热门 bots】

我:
哥仨老革命在去 IBM 的 traffic 中去大名鼎鼎的沃森（Watson）系统探秘

洪:
讲者是这位印度籍女士：http://researcher.watson.ibm.com/researcher/view.php?person=us-vibha.sinha:

郭:
比较有意思的是她后面讲的三点:

1. LSTM based intent recognition and entity extraction

2. "tone" recognition
这里tone指的是从一句话（书面语）反应出的说话人的喜怒哀乐和处事方式等

3. personality recognition
主要基于心理学的分类，用200到2000条tweets训练

她重点强调的是，通过增加tone和personality的识别，人机对话可以有更高的可接受度。

我:
唐老师诸位汇报一下昨天的听闻。上面郭老师也总结了几条，很好。我再说几点。
话说三位老革命慕名而去，这个 meet-up 一共才来了20几位听众吧大概湾区此类活动甚多 marketing 不够的话也难。据说北京的 AI 沙龙，弄个花哨一点的题目往往门庭若市。

1. 没有什么 surprises 但参加沙龙的好处是可以问问题和可以听别人问问题，而主讲人常常在回答的时候给出一些书面没有的数据和细节。否则的话，各种资料都在网上（最后的 slide 给了链接），要写利人似的调研报告，只要不怕苦，有的是资料。

听讲的另一个好处是，主讲人事先已经组织好材料讲解，可以快速了解一个项目的概貌。

2. 特地替唐老师问了他钟情的 Prolog，问你们有用吗，在什么模块用。主讲人说，没有用。我说有报道说有用到。她说，她没听说，至少在她主讲的已经产品化的这个沃森 chatbot 的组建 toolkit 里面没有 Prolog。当然她不排除某个小组或个人在沃森的某个项目或模块用到。IBM 对 AI 的投入增大，在沃森的名号下的各种研究项目和小组很多。

马:
我问过了IBM中国的，在沃森参加电视节目版本中没有用prolog，但是后续的版本中，确实用到了prolog

陈:
它是很多services构成，用不会奇怪，尤其是某些既有系统

我:

3. 现在不少巨头都在 offer 这样的 toolkit，问微软 offer 的 cortana 的 toolkit 与你们沃森的这套有啥不同。回答是，非常类似，不过她自认为沃森质量更好。亚马逊也有类似的 offer。

所以回来路上，我们就谈到这个 bots 遍地开花的场景。郭老师说，现如今谁要想做一个领域内的 bot，或自己的 app 做一个 bot 接口，根本就不需要编程。只要准备好领域的 experts，把数据准备好，用这些巨头的工具箱就可以构建一个出来。也一样可以 deploy 到 messenger 或嵌入其他场景，这几乎是一条龙的云服务。

当然用这些服务是要交钱的，但主讲人说很便宜很便宜的，郭兄说，真用上了，其实也不便宜。便宜与否放一边，至少现如今，bots 的门槛很低，需要的不是软件人才，而是领域数据的人。于是，我看到一种前景，以前毕业即失业的语言学家、图书馆业人士，将来可能成为 AI 的主力，只有对数据和细节敏感的人，最终才是 AI 接口的血肉构筑者，反正架构是现成通用的。这个细想想是有道理的。这是沃森 API calls 的价格。

我:
这就回到我们以前议论过的话题。AI 创业，如果做平台或工具箱，初创公司怎么敌得过巨头呢？我觉得几乎是死路。

大而言之做平台和工具箱创业的，历史上就没见过什么成功案例（不排除做了被收购那种，那也是“成功”，如果你的技术有幸被巨头看中：其实昨晚介绍的沃森系统的一个重要组件 AlchomyLanguage 就是收购的，洪爷知道收购的来路和细节）。

白:
麦当劳玩法，方便，质量可控，但绝非美食，虽然是“美”食。

我:
不错，这些巨头的 offerring 都是麦当劳式的流程。创业的空间，从工具角度，可以是中华料理的配方辅助工具之类。不过，还是那句话，最好绕过平台本身创业的思维，而是用巨头的工具或者自家建造匕首去做领域的 AI，这样的创业应该具有更大的空间和更多的可能性。

对于 NLP（AI之一种）我写过 n 篇博文强调，所有的 offshelf 的平台和toolkit（譬如历史悠久的GATE），甚至一个小插件（譬如 Brill Tagger or some Chinese word segmenter）都不好用。可以 prototyping 但如果稍微有点长期观点要建一个大规模的NLP的应用，还是一切自家建造为好。当然，自家建造的门槛很高，多数人造不起，也没这个 architect 来指挥。但最终是，自家建造的胜出，从质量上说（质量包括速度、鲁棒性、精度广度、领域的可适应性等关键综合指标）。

巨头的工具箱的产品 offers 一开始也不赚钱，但他们的研发积累已经做了，且还在不断投入，不产品化成工具箱不是傻瓜吗，赚多少算多少。如果真到了AI bots 遍地开花的时候，他们凭借巨大的平台优势，赚钱也是可能的。小公司这条路没门吧。如果你的 offer 的确 unique，譬如是中华料理，譬如是伟哥的 parsing，你可能会吸引一批使用者。但想赚钱必须有规模，而 component tech 或平台工具之类，在小公司的环境中，是成不了规模的。所以不要想赚钱的事儿。

赚钱靠的是产品，而不是工具，这是AI创业铁律。

当然，通过平台或工具打出影响，做 marketing，曲线救国创业，另当别论。
回到 meet-up：

4. bots 构建的核心当然是 conversations 的训练工具。IBM沃森的工具用的是深度神经。

对于 bots，input 是确定的，就是用 bots 的人的输入。自然语言的语音也好文字也好，语音反正也要转化为文字所以我们面对的就是人机接口中的“人话”，理论上无止境千变万化。

bots 的 output 呢？

在目前的框架里，在绝大多数实际场景，这个 output 都是以极为有限的集合
最典型的案例是为 apps（天气、股票、时间之类）做 bots 作为 apps 的人机接口，
其 output 就是 app 里面的 commands 集合。于是 bot 产品定义为从无限到有限的映射，这是一个典型的分类场景。于是沃森提供这个深度学习为基础的工具帮助你训练你所需要的 classifiers，这是标准做法无甚新意。

数据越多，分类质量越好。千变万化的死敌是稀疏数据。好在对于 bots，数据的收集会是一个边使用边加强的过程。如果你的 bots 开始有用户，你就形成了正循环，数据源源而来，你不断打磨、训练，这些都是可以 streamline 的流水作业，就越来越好。Siri 如此，Echo 也如此。

白:
分类本身是不带参数的，而bots的应对必须是带参数的，这是硬伤。
拿分类来做对话是看得到天花板的。

我:
I cannot agree more :=)

这里其实是有历史渊源的。IBM 做问答，一直是把问题简化为分类。18 年前我们在第一次 QA 竞赛（TREC-8）中交流就是如此，这么多年这个核心做法一直不变。当时我们的QA成绩最好，得分66%，沃森的系统印象是40%左右，他们的组长就追在后面问，我们思路差不多呀，都是 question intents（我们叫 asking points，比多数 intents 其实更聚焦），外加 Named Entity 的support。我说我们还用到了语言结构啊。

直到今天他们仍然是没有句法分析，更甭提深度分析。他们当年的 QA 就是基于两点：
1. 问句分类：试图了解 intents；2. NE。有了这两条，通过 keywords 检索作为 context，在大数据中寻找答案，对于 factoid questions 是不难的（见【立委科普：问答系统的前生今世】）。这就是沃森打败人类的基本原理，一点也不奥秘，从来没有根本改变。现在这一套继续体现在其 bots 工具箱 offering 里面。

洪:

昨晚Watson讲座听，
今早广告已跟进。
IBM可真下本，
今天我试Bluemix云。

我:
2. 因此 conversations 训练，其核心就是两条：一个是 intents classification （这个 intents 是根据 output 的需求来定义的），一个 NE，不过 NE 是他们已经训练好的模块（NE有一定的domain独立性），用户只是做一些微调和增强而已。

顺便插一句，这几天一直在想，AI 现在的主打就是深度神经，所有的希望都寄托在神经上。但无论怎么神经，都不改 supervised learning 的本性：所以，我的问题是：你怎么克服缺乏带标大数据的知识瓶颈？

ok 你把机器翻译玩转了。因为 MT 有几乎无限的 “自然” 带标数据（其实也不是自然了，也是人工，幸运的是这些人力是历史的积累，是人类翻译活动的副产品，是不需要开发者花钱的 free ride）。可其他的 ai 和 nlp 应用呢，你还可以像 MT 这样幸运这样享用免费午餐吗？

现在想，紧接着 MT 的具有大数据的热门应用是什么？非 bots 莫属。
对于 bots，数据已经有一定的积累了，其最大的特点在于，bots 的使用过程，数据就会源源而来。问题是这些数据是对路的，real life data from the field，但还是不带标啊。所以，bots 的前景就是玩的跟数据打仗：可以雇佣人去没完没了地给数据做标注。这是一个很像卓别林的【摩登时代】的AI工厂的场景，或者是列宁同志攻打冬宫的人海战术。看上去很笨，但可以确定的是，bots 会越来越“智能”，应对的场景也越来越多。应了那句老话，有多少人工，就有多少智能。然而，这不是、也不应该是唯一的克服知识瓶颈的做法。

毛:
嗯，有多少人工，就有多少智能。这话说得好。

我:
但这个景象成为常规也不错至少是帮助解决了一些白领就业。是用高级的专家知识去编写规则来提高系统质量，还是利用普罗标注去提高质量，从帮助就业和维稳角度看，几乎蛮力似的深度神经对于标注大数据的无休止的渴望和胃口，对于社会似乎更为有利。为了社会稳定和世界和平，我们该看好这种蛮力。我们做深度分析和理解的专家，试图尽可能逼真地去模拟人的智能过程，但对蛮力也应该起一份敬意。

将来的AI，什么人都可做：1. 你发现一个领域的 AI 需求； 2. 你雇佣一个对这个需求可以形式化定义的设计家； 3. 你调用巨头的一个通用的 AI 工具箱（譬如 TensorFlow）或面向专项产品的工具箱（譬如 bot 的沃森工具箱） 4 你雇佣一批失业但受过教育的普罗，像富士康一样训练他们在流水线上去根据设计家的定义去标注数据、测试系统，你于是通过 AI 创造了价值，不排除你的产品会火。因为产品火不火已经不是技术了，而是你满足需求的产品角度。

3. 但是正如白老师说的这种用分类来简化问题的 AI 产品化，走不远。它可能满足一些特定领域的特定的需求但是后劲不足是显然的。其中一个痛点或挑战就是，这种东西走不出三步，三步以上就抓瞎。如果你的应用可以在三步之内就基本满足需求，没问题。

bots 最显然的有利可图的应用场景是客服。一般而言，bots 取代和补充客服是大势所趋，因为客服的知识资源和记忆，根本没法与我们可以灌输给 bots 的知识来相比。利用知识去回答客户疑问，人不如机，是可以想见的。但是观察一个好的客服与客户的交互可以发现，三步的交流模型是远远无法满足稍微复杂一点的场景的。三步的说法是一个比喻，总之是目前的工具箱，对于较长时期的对话，还是束手无策。

bots 对用户话语的理解简化为 classification，以此为基础对用户的回答就不是那么简单了。目前提供的做法是：因为 intents 是有限的集合，是 classification 的结果，那么对于每一个 intent 可以预知答案（存在数据库的 hand-crafted text snippet）或回应（譬如展示一个图，譬如天气app的今日天气图表)。这些预制的答案，听上去非常自然、生动甚至诙谐，它们都是领域专家的作品。且不说这些预制的 snippets，如何根据classification hierarchy 本身需要做不同组装，在存于数据库里面的核心应答的预制以外，还可以加上情感的维度，还可以加上 personalized 的维度，这些都可以使得对话更加人性化、自然化，但每加一个维度就意味着我们开始接近组装式策略的组合爆炸后果。三步、三维以上就无法收拾。

我问主讲人，你的这些预先制定好的应答片段，按照你的工具的组装方式，不就是一个 decision tree 吗？回答是，的确，就是一个 decision tree 的做法。然后她说，有不少研究想突破这种应答模式，但都是在探索，没有到可以产品化工具化的阶段。

郭老师说，谁要是有本事把人机的 “自然对话”能够延长到 20 分钟，换句话说就是突破图灵测试，谁就是 AI bots 的真正破局者。如果你证明你能做到，巨头会抢着来高价收购你的。这是所有做 bots 的所面临的共同挑战。

据说小冰最高记录是与单一的人谈了九个小时的心。但那不是真正的突破，那是遇到了一个异常人类。正常的人，我的体会是两分钟定律，你与小冰谈话超不过两分钟。我试过多次，到了两分钟，它所露出来的破绽就让你无法忍受，除非自己铁心要自我折磨。其实工业界要求的连续对话，不是小冰这种闲扯。而是针对一个稍微复杂一点的任务场景（譬如订票）如何用自然对话的假象去把相关的信息收集全，来最大限度地满足客户需求。

累了，先笔记和评论如上。其余还有一些有趣的点儿可以讨论，以后再说。这是交给我们唐老师的作业。

郭:
Amazon’s $2.5M ‘Alexa Prize’ seeks chatbot that can converse intelligently for 20 minutes

洪:
亚马逊正设大奖，
chatbot赛悬赏。
对话若超廿分长，
两半米粒到手上。// 2.5M

【相关】

【立委科普：问答系统的前生今世】

Amazon’s $2.5M ‘Alexa Prize’ seeks chatbot that can converse intelligently for 20 minutes

【语义计算：从神经机器翻译谈起】

我:
机器翻译所蕴含的厚重和神圣，在新一代是不可理解的

刚入行的时候做的是外汉机器翻译，一直不大敢碰汉外，原因是汉语语法不好形式化，感觉太难了，当时想，这辈子怕都没指望了。现如今，汉语语法还真没有见到多少大规模形式化能实用的，按照以前的路子，那汉外机器翻译必然寸步难行，因为汉语分析是前提，然后才是转换和生成。

可谁能想到，机器学习越来越牛，人工翻译的双语资料作为人类活动的副产品，几乎“天然地”源源不断而来，这就成就了深度神经机器翻译。什么分析，什么生成，统统绕过去，端对端直接施行转换。Google Translate 因此可以在同一个模型架构下，支持几十种语言的互译。这简直就是神迹。可却是技术的事实。尤其不可思议的是，以前认为最难的的汉外翻译，反而进步最大（至少汉英是如此）。译文再不济，也给你个大概齐，不仅立等可取，而且还完全免费。比你学两年外语，带上词典死磕还一头雾水要强多少。除了天堂，天下哪里有这样的美事？

机器翻译（MT）是自然语言处理（NLP）领域历史最悠久的应用方向，从上个世纪50年代初发轫，承载了中外几代不知道多少人的青春和梦想，也包括青年时代的立委。如今，梦想化为现实，嵌入式机器翻译在互联网无孔不入，已经成为普罗大众手中招之即来挥之即去的便捷工具，每时每刻在默默服务着千百万互联网用户。女儿学汉语用它，学西班牙语用它，去日本动漫网页也用它，用到对它熟视无睹，把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在，不时报以嘲讽：真笨。可机器翻译呢，谦谦君子，玉树临风，虚怀若谷，无怨无悔。对于已经天然成为女儿这代人生活一部分的机器翻译，我满腹机器翻译的历史和掌故，却不知如何给她诉说。耳濡目染，她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义，可是我还是无法象对同辈人那样娓娓道来，如数家珍，传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是代沟，是技术的跨越式发展造成了两代人迥然不同的视角，令人感慨。 from 【机器翻译万岁】

刘:
@wei 深有同感。科学技术的发展真是出人意料，做梦也想不到机器翻译能到现在这个程度。我一个刚入门不久的学生跑NMT，轻松超过Moses十几个点，仅几年前，这还是天方夜谭，要是超出Moses五个点绝对可以发最高等级的论文、拿博士学位了。
而且现在用现有的深度学习工具编NMT程序，代码量跟SMT相比都很小，不像写一个SMT程序，要花大量时间处理小的细节。深度学习的工具本身太强大了。同一套工具，稍加修改，既可以做机器翻译，也可以做语言识别、图像识别。
深度学习并没有解决所有问题，但为我们解决一些难题提供了全新的框架，带来了新的希望，潜力还远远没有挖掘完，这给我们这些搞研究的也带来了巨大的机会

我:
很羡慕ing @刘那天与讯飞的院长谈这事儿，他也是超级兴奋，说以前以为大约四五年会有全方位的大突破，神经在大系统大应用上全面开花。现在他确信只要2-3年就可以了，到时候很多事情会超出我们的想象。他是这样描述的，非常由衷。感觉是作为一线领航者，他看到一种排山倒海的科学潜力正在转化为技术力量，面对巨大机会忍不住激动。这很感染人。这种心态我可以体会。

biao:
@wei 所以，哥儿几个在这死磕语法似乎很难看到什么时候是出头之日。

科大讯飞的确有过人之处。起码它的语音输入可以让你节约大量时间。
前几天有人在这里抱怨说输入码字太累。实际上现在语音输入完全可以帮助你非常轻松的输入，而且效果很好。
上面这两段话完全是讯飞语音输入的。一个字没有改，十几秒钟搞定，非常轻松。

刘:
我不敢预测哪些问题能解决哪些不能，但总体的进步是可预期的

我:
说语法没有出头之日是小看了咱语言学家等到dl打败我的 parser 再说不迟。
事实是迄今全世界最牛的 dl syntaxnet 仍然是我手下败将。
另一个事实是迄今没有sentiment系统在 open domain social media 这个几乎最难的 space，能赶上我们。Not even close ：the margin is almost 20 percentage points apart

所以我跟讯飞院长说你我是同一类人。不过你在舞台中央我在野。但是论信心和对nlp的展望心态和世界观惊人的一致。要不咱们互补、合作、合流，要不咱们就来个友谊赛，我就不自量力一哈。反正论年龄我输得起你们输不起 =）
（我输了就钓鱼去乐见ai一统天下于dl if they truly deliver as well as nmt did
可是 nmt 有data 而大多数 nlp 没有那么多clean labeled data 啊）

biao:
语法分析最大的问题是不灵活。鲜活的语言千变万化。一句话稍微变个说法，语法分析就抓狂了。

我:
根本不是这回事你的理解有误

白:
死守固定语序才这样但语法分析死守固定语序已经是老黄历了
你变个说法给伟哥试试他会告诉你一个robust的句法分析器能做到什么

从“计算”角度说，黑盒子容纳结构的能力是最本质的。从“语言”角度说，结构应该长什么样，比其他的事情更值得关注。
两栖人

biao:
先分析一个名句：
”其为人也孝悌而好犯上者鲜矣。”

我:
如果变个说法语法就抓狂要这劳什子干嘛。语法的目的不就是为了对付变体吗

白:
大战风车，其乐无穷

我:
你弄句文言做啥？这个 sublanguage 里面没钱，开发他有卵用。
“卵” 属于 P 系列：是现代汉语口语的脏字否定限定词，== fucking no，社会媒体口语的这个 sublanguage 我们倒是对付了，不妨试试。

biao:
你的机器怎么知道它是文言文，半文言文，还是白话文？他们都是中文。

我:
不在一个频道算了

biao:
“工欲善其事，必先利其器”。这是文言文还是白话文？大量的成语是文言文还是白话文？金庸的小说是文言文还是白话文？四大名著，是文言文还是白话文？鲁迅的文章是文言文还是白话文？
这些都是在现实生活中大量遇到的语言素材。绕是绕不开的。

白:
高频小体量，适合死记硬背。文言文句法上并不比白话文更难处理，某种程度上还容易。文言文没有白话文里那种NP、VP串烧。有词类活用，但有规律可循。

我:
文言文长句相对少。排比平行用法普遍也是形式痕迹。还有些非常固定的文言句式用到特定的文言虚字可以借力。等退休以后玩玩文言文应该是一个不错 time killer。文言词汇量大大减小，字基本就是词，但每个字的用法包括活用或引申用法就多一些。

白:
关键看WSD一选出错率会不会增大？

我:
有不小比例的wsd，等价于pos，pos搞定就搞定：老吾老。及物动词的“老”是一个活用义项，词典可以绑架为“尊崇”、“孝顺”之列，与作为形容词的“老（old）”的本义，以及作为名词的“老（the old，senior，parents）”都不同。
文言处理也少了切词错误的干扰基本没可切之词。字驱动的路子，有很多字典工作可做

白:
有些歧义是简化字造成，之前古籍并无。比如后，简化之前就有这个字，就是皇后的意思。以后的后，之前是“後”。做pos也好wsd也好，要考虑文本的基准。

我:
所谓更多的活用，可以在字典假想如果处于某种活用，它义项是什么，然后绑架，倒也便利。另外，现代汉语对虚词的省略似乎大于文言中虚字的省略，这也是文言处理的便利，虚字的频繁使用，给确定句子成分的边界创造了条件。

weidong:
娱乐一下：陈亢问于伯鱼曰子亦有异闻乎对曰未也尝独立鲤趋而过庭曰学诗乎对曰未也不学诗无以言鲤退而学诗他日又独立鲤趋而过庭曰学礼乎对曰未也不学礼无以立鲤退而学礼闻斯二者陈亢退而喜曰问一得三闻诗闻礼又闻君子之远其子也
标点断句先

我:
试了一下我的 parser，满篇都是 Next ；=）

weidong:
没有引号连话到哪儿结束都猜半天

我:
索性也试试前面要求的测试

其为人Next 也孝悌，而好犯上者 Next 鲜矣。
哈

以前学美国之音英语900句，都说有900句，英语的基本句型就搞定了。这些年，我都 unit tested 近两万句了。是不是差不多该搞定了？最近翻阅以前内部论坛的帖子，有这么一贴，好玩:

池子里说说无妨，万一明年中文核弹爆了，你们可以作证立委就是钱学森。
作者: 立委 (*)
日期: 2012/04/18 23:13:13
不说的话，将来被代笔，说中文核弹不是我的作品，找个旁证都找不到。

换句话说，各路身怀绝技的侠客剑法可能不同，但有个共识：就是我们面临技术核弹大爆炸的前夕。至于AI泡沫，那是商业上的炒作，技术的发展与成熟只是给了它一个炒作的话题而已。

【相关】

【机器翻译万岁】

【语义计算：没有语言学的计算语言学，NLP的亚健康现状】

【Parsing 的命根子是 subcat，逻辑的和语言的】

细说起来有两类句型分类：一类是逻辑上的，一类是语言上的。二者相互呼应，前者是内容（output 目标，也隐含了语义条件），后者是形式（input 的句法条件）。

逻辑上说，一个谓词需要几个 arguments，是由这个谓词的意义决定的，譬如 “哭/笑” 这样的谓词概念，需要一个施事 argument 来表达谁哭了笑了，所谓不及物谓词。

“爱/恨” 这样的谓词需要两个 arguments （所谓及物谓词），表达谁爱/恨谁了。
“给/赠与” 这样的谓词，需要三个 arguments，表达谁把什么给谁了。
“认为/声明” 这样的谓词，需要两个 arguments，其中一个是实体，表达谁的认为/声明，第二个 argument 要求一个 statement （嵌套的谓词结构），表达认为/声明的内容。

这种逻辑上的谓词子类的区分是语言通用的，因为它的根基是概念及其意义的完整性（谓词加上arguments就是所谓的argument structure，表达的是一个 statement）。

逻辑工作方面的集大成者就是董老师的 HowNet。

以上的逻辑谓词子类表现在不同语言，就是语言学上的 verb subcategories 及其 patterns。到了语言这个层次，辞典中一个动词的动词句型子类可以标示以下的subcategorization 的信息（及物不及物只是其简化标识，vt/vi, 牛津词典曾经用20多个子类标注每个词条的subcat，v1,v2, ..v21,...):

1. 能带几个 arguments
2. 这些 arguments 要求处于什么形态（主格，宾格，要什么介词，处于什么位置）

词典中这种子类信息的标注直接决定了一个parser的质量，是非常关键的预示信息。对于学习英语，熟悉这些句型信息也非常有用。我以前教英语的时候，经常要求学生看牛津词典或者朗曼词典后面的句型附录（朗曼的分类略有不同，印象是分了30多子类），务必熟悉这些句型的概念，然后在翻阅词典时候注意其标注。一个词经常分成n个义项，每个义项下的subcat分类标注往往不同，回去翻翻词典就看到了。

这后一步的工作，英语和中文我一直在做，n年了。董老师的中文系统目前也在做。只做不说的白老师或其团队也一定在做。subcat 是 quality parsing 的命根子。大家具体做法可能不同，但大而言之，还是差不多的。就是我们以前说的句法词典化。

【相关】

【一日一parsing：自然语言太难了吗？】

今天微博同仁圈子里盛传下面这个年末搞笑的帖子，标题是 #自然语言理解太难了#，其实一点不难，可见即便是圈子内人，如果没深入做过parsing，有时也被表象迷惑。

#自然语言理解太难了# 转发段子：今年基本已经结束了，我刚在群里问了很多朋友今年挣钱了没？大多朋友都有挣，而且挣得五花八门：有挣个屁的，有挣个锤子的，有挣个毛的，更有甚者挣个妹的，简直奢侈之极！最恐怖的是挣个鬼的！有的还可以，挣个球，下午我碰见一朋友，问今年挣了吗？他望着天空喃喃自语：挣个鸟！
看吧，只要肯努力，什么都能挣到 [坏笑]

liu:
乐呵乐呵，语言理解很不易啊。

白:
真心不难
基本上可穷尽

liu:
“挣”后面的惯常搭配和选择限制反而简单？

我:
早已解决

liu:
但是，“挣一辆车”就是它本身的含义了。

我:
简单确定的pattern 有限的词汇可填充项这是 pattern 的拿手好戏

liu:
这倒是的，它的“能产性”不高。

我:
如果训练有可能漏掉低频率填充项 sparse data
但对于确定性的 patterns 规则可以一网打尽。

liu:
蕴含、推理方面的理解反而是重要的？

我:
一辆车走通则
屁屎鸟、妹妈奶奶等走特定规则
我们做社会媒体分析的这类玩意儿早涵盖了

白:
“规则+例外”的总描述长度最短，就踩到点儿上了。高频用变量泛化，低频用实例枚举。

我：
parse results

图上只是显示这个结构被抓着了，没有显示系统“理解”这种用法的内部表达：实际上这个 chunk 抓住时，系统也就知道头词是动词“挣”，也知道这是一个口语化的动宾否定式，用了脏字，模式匹配规则“绑架”了这一切。

WD:
放个屁长个毛真歧义

白:
不是只针对这些话，是一般性的philosophy
这件事跟“挣”关联弱，跟“个”关联强。

WD:
鬼都挣不着
跟”什么女人“类似，有所谓元语否定用法
就是拒绝前一句话的陈述恰当性负面评价功能
什么一流大学=什么破大学
甲：挣了不少吧。乙：挣什么屁钱啊，都……

我:
“屁”“鸟”之类有一个英语 no 的用法，是汉语的np 否定式。一般认为汉语没有否定限定词 no，其实汉语有不过汉语的 no 混杂着负面情绪用的是脏字。而英语的 no 很单纯。
屁事儿： Nothing
没见屁人。在 “没” 后脏字成了 any，避免double negative 吧，英语也有：
Ain't see nobody == didn't see anybody

从这个例子说开去：“v个P”，P={P，屁，头，鸟，吊，jiba，妹，鬼，......}
从类似的现象可以看到，小数据为依据的规则系统，有时候比大数据训练的系统，更为有效：更加精准，更加能对抗 sparse data 因此而提高 recall（具有 clear patterns 性质的语言现象，可以一网打尽，完全没有 sparse data 的困扰），模拟语言现象更加直接，因此也更加容易debug和维护。

从此在学界就再也见不到规则系统了，哪怕是对于规则非常适用的某些 NE 任务：譬如时间，数量结构，等。可见潮流之厉害。反潮流者不得食，发不了论文，拿不到 grants，带不了学生，自然自生自灭。

但事物的本质和本性并没有改变，尤其是对于自然语言中的具有 clear patterns 的现象，依据小数据，经过人脑的归纳，数据驱动去开发规则系统，仍然是如上述，具有高效高质量。工业界默默实行的这类人、团队和系统并不鲜见，只不过大家心知肚明，只做不说而已。犯不着顶风作案。相对应，发动群众去标注大数据，然后用大数据训练一个系统如何？这是主流的默认 honored 的方法。如果数据足够大，其质量的确可以接近或匹敌规则系统。当数据量不理想的时候，就捉襟见肘了：或者 underkill （由于 sparse data，漏掉很多统计性稍弱的变体）伤害 recall，或者 overkill （smoothing 过度，把不该抓的现象抓进），影响了precision

什么叫有 clear pattern 的语言现象呢？举个例子，抓取邮政地址，这个工作我自己作为一个 fun 做过。出来的系统请邮局员工测试过，他们啧啧称奇。美国地址大体是门牌街道城市州邮政编码最后是国名，patterns 相当地 clear ，可你可能无法想象上述 pattern 构件的变体之多，有些变体绝对是 long tails 再大的数据量也不可能涵盖其组合爆炸的本性。如果你收集了一个巨大的美国地址库作为训练集（大数据），你完全可以设计一个学习系统来做这件事儿。而另一边，虽然也是 data driven，但只需要小数据样本，然后经过人的大脑去举一反三进行开发。可以拍胸脯的是，后一种办法做出来的系统绝对是高质量易维护，天生地具有 sparse data 的免疫性。

【相关】

自然语言的并列: preference semantics at its worst

NLU、NLP 多年来还有一个公认的难点，就是并列结构（conjoined structure）。并列在思维逻辑里没有地位，它是语言表达的产物。并列是语言学中最不讲道理的程咬金，它总是横插一刀，而且任性，在任一层次。一切的 subcat arg structures 或 mod-head patterns 都必须为它让道，否则就堵塞交通，让 parsing 的路线断链。然而，如果没有并列，自然语言就会难以容忍地单调枯燥，尽失精简。

举个简单例子：

1027a

这句话逻辑上展开以后怎么样呢？

颈椎间盘突出症的最常见和最典型表现是一侧颈肩部及上肢的酸痛
==>
颈椎间盘突出症的最常见表现是一侧颈肩部的酸痛
颈椎间盘突出症的最典型表现是一侧颈肩部的酸痛
颈椎间盘突出症的最常见表现是上肢的酸痛
颈椎间盘突出症的最典型表现是上肢的酸痛

这才牵涉两个并列，一个句子出现五六个甚至上十个并列，并不鲜见。语言不是逻辑。没有并列，语言面临组合爆炸式啰嗦。很难想象，传统的单层 parsing 系统，譬如教科书上经典的乔姆斯基式 CFG-based chart parsing，可以把各种并列处理妥帖。

Conjoin can be so f* hierarchical, even for a very deep, multi-level parsing system: conjoin remains a challenge if not very carefully/skillfully handled by a very experienced linguist 'cause the boundaries are tough to identify and they just appear at any levels at will. The conjoined elements are semantically parallel but the parallelness, which ideally should be used as conditions to help identify the conjoined structure and its scope, is unfortunately in practice all relative and fuzzy, which can hardly be enforced. food can be conjoined with food, of course, but look at this:

我喜欢肥肉和哲学。

food and knowledge, totally different monsters of semantics, can also be conjoined, it is preference semantics at its worst.

OK, I am not going to elaborate on solutions, which should be a long article by itself. This post serves as an introduction of this linguistic monster, to arouse the awareness of linguistic challenges in natural language parsing.

【相关】

【立委科普：如何自动区分同一批词表达的不同意义？】

这是上一篇自然语言理解（NLU）博客【如何自动识别同一个意思千变万化的表达】的姐妹篇。看上去似乎是同一个语言理解问题的两面，但实际上这个问题在自然语言领域的产生，很大程度上是因为一袋子词（bag of words）方法的流行引发的。此话怎讲？

本来，同一批词表达不同的意义是自然语言作为人类表达手段的题中应有之意。举个简单至极的例子：张三，李四，爱。是张三爱李四呢，还是李四爱张三呢？同一批词显然可以表达不同的意思。再如，用 “好”、“喝”、“酒” 造句，结果发现六种排列组合都是地道的汉语，表达了不同的意义：

好喝酒: love drinking alcohol
好酒喝: good alcohol to drink
酒好喝: the alcohol tastes good for drcinking
酒喝好: drink your alcohol to your satisfaction
喝好酒: drink good alcohol
喝酒好: drinking alcohol is good

好 (good/love/verymuch)、喝酒（分离词），两个词，三个字，四个义项，各种纠缠，不同语义。

大而言之，人类语言的词汇是相当有限的，表达日常用语99%+ 的词汇不过在万这个量级，而利用这些词来表达的不同意义是无限的。这种有限材料表达无限语义的本事就是所谓语言能力，这种能力的核心机制早已不再是谜，就是大大小小的文法（grammar）规则。自然语言深度分析（deep parsing）和理解，乃是利用词汇和文法去解析（decoding）语句的语义，区分不同意义蕴含在语义解析之内。主流机器学习的路线与传统的符号逻辑路线（又叫规则路线）的不同之处在于对词汇和文法资源的利用不同。前者最流行的一袋子词的模型利用了词汇，其对文法规则的模拟靠的则是粗鄙简陋的ngram近似（譬如，bigram 的“I love” 间接反映了主谓规则，“love you”则模型了动宾规则）。正因为主流的近似方法对于语言结构的模型太过粗鄙简陋，这才导致了不少主流系统难以区分“同一批词表达的不同意义”，这是所有一袋子词为基础的模型的命门。而这个问题在符号逻辑路线的 deep parsing 这边，从一开始就是直接的目标，一切 deep parsing 规则的建立都是直接模型人的语言理解过程。换句话说，主流的一袋子词技术虽然可以对文本的粗线条分类有效果，但面对同一批词的不同意义却容易捉襟见肘。而传统的规则路线利用 deep parsing，在这个问题面前显示了核弹般的威力。

好，我们撇开没有语言结构的一袋子词模型来看这事儿，问题于是简化为自然语言的经典问题：如何自动消歧？在讨论自然语言歧义的时候，我们总是预设的是同一批词或同一个词（某些消歧在中国老一辈NLPers，我的导师辈中因此也叫“同形区分”），因为不同词及其组合的意义不同是天然的，没有消歧的问题。

消歧的话题以前陆续谈过很多，大体的要点总结如下：

1. 同一种表达可能产生歧义是自然语言区别于计算机语言的重要特点，也是自然语言分析理解的难点所在。

2. 自然语言歧义一般分为两大类，所谓表达的多义就是这两类歧义的交织。一类是用词的多义（WSD，word sense disambiguation），一类是结构歧义（典型的结构歧义包括所谓 PP-attachement，譬如英语文句中的宾语后面的介词短语既可能是宾语的定语，也可能是谓语的状语）。

3. 结构歧义不难识别（identify），但消歧却不易，有时需要动用语言外知识，包括常识等。

4. 比较成熟的结构歧义的应对方法包括：（i）parser 通过 enriched subcat 的手段，把某些关键的常识及其ontology暗度陈仓引进，在parsing过程中消歧；（ii）parser 只识别歧义，输出非限定性结构（non-deterministic structures），消歧留待语义中间件模块，甚或等到领域的语义落地模块再进行（很多时候这个消歧任务自行消解，没必要进行，因为歧义空间不在语义落地的聚焦雷达上）；（iii）parser 采取默认路径，歧义的可能先行休眠，让词驱动的encoding埋下种子，等到后面的模块在一定的条件下唤醒。

5. 词汇消歧 WSD 是 NLU 的一个难点，但好在它总体上不影响 parsing，建议不在 parsing 和语义中间件时期做，可以留到语义落地的阶段，这样处理的好处是绝大多数 WSD 都不需要做功，因为他们不在语义落地的聚焦雷达上。

6. 留在聚焦雷达上的 WSD 任务，往往可以与语义落地手段融合起来同时解决，这个 practice 至少对信息抽取的语义落地有效。

累了，也差不多扯完了。年底了，觉得有文债似的，自己跟自己过不去，赶着跑着写这些劳什子，既充不了论文，也评不了教授。人真是奇怪的动物，骨子里都有雷锋的基因。Happy reading，不枉我辛苦码字。

【相关】

【立委科普：如何自动识别同一个意思千变万化的表达？】

【立委科普：歧义parsing的休眠唤醒机制初探】

【立委科普：歧义parsing的休眠唤醒机制再探】

【泥沙龙笔记：NLP hard 的歧义突破】

【立委科普：NLP核武器的奥秘】

【立委科普：语法结构树之美】

【立委科普：语法结构树之美（之二）】

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

【语言学家妄论深度学习和AI，旨在 invite questions】

与董老师调侃AI泡沫，不过泡沫归泡沫，这次ai热让我们看清了几点：

第一是大数据里面有名堂不全是虚的。

第二是长远一点看 ai 和 nlp 在领域里可以解决实际问题
譬如我们做的客户情报产品虽然发现市场没有预想的那么大但价值是确认了

第三是深度神经是技术突破真东西虽然目前被神话了。至少在 nmt 中我们看到了以前达不到的质量。语音方面已经提升了整个产业的水平。

第四是 nlp 与大数据结合让我们看到很多可能。虽然并不是每一种可能都可以满足某种社会刚需但nlp大规模实用的大门已经开启就看谁的市场角度对路了。

有一位风头正健冲在世界最前沿的深度学习大牛好友，看了我最新的博文【如何自动识别同一个意思千变万化的表达】, 回说：李老师你还没有理解深度学习啊，深度学习做这件事儿（识别一个 statement 的千变万化的语言表达）其实比较简单。

我不懂深度学习，那是肯定的。说这件事儿很简单，我有点存疑。至少目前所有做 bots 和问答系统的人，都在 fight 这个挑战，不能说已经完美解决。当然，Siri 这类显示了在 apps 上的应用，令人印象深刻。

Anyway，我的回答是，我们属于同类，心态和世界观是一样的。手里有把得心应手的锤子，世界就变成了钉子。区别只是锤子的不同，我不懂你的锤子，你也未必使得了我的锤子。术业有专攻，隔锤如隔山。但我确认，我的锤子可以对付这个钉子。

咱们还是来个友谊赛吧，否则这个世界多么单调。

无监督学习除了 clustering 在某些特定场景可以得到应用外，基本还是 research 的探索性质吧，没人指望它能大规模应用。clustering 到 classification 还有不小的距离，总得有某种监督或人参与才靠谱吧。那天我说，学习界啥时把机器放到raw data 的语言大海里，机器就跟小孩一样学会了语言，那才是牛逼翻天了。否则的话，你有你的知识瓶颈（巨量带标数据），我有我的知识瓶颈（专家经验），谁的瓶颈更大难说着呢。

深度神经学习前，semi-supervised 的研究很热。至少从研究角度，那个领域是令人兴奋和期待的。说的是以最少的监督（种子啥的少量带标数据，或者人工的规则做引子），结合 raw data 去试图引导系统按照指定的方向做事儿。听上去在轨道上，至少不是所谓完全的无监督那种让人觉得不靠谱。还有就是白老师的语义计算主张，不必用带标数据，但要用丰富的词典信息，结合 raw data 做 parsing，也用到深度学习模型RNN啥的，听上去也是可行的。这是因为词典信息里面已经隐含了深入的人工监督（语言学知识和用法），各种 expectations 譬如 subcat，然后到大数据里面去定位。

微博上有人问除了图像和语音，文本NLP方面，深度学习有突破吗？我的记忆中，至少n月前，相当普遍有说，深度神经在文本遭遇瓶颈（by 看到瓶子有一半是空的人），或文本有待突破（by 看到瓶子有一半是满的人）。由于DL乐观主义流行加上全世界的CL牛人都憋足了劲儿地攻关努力，据说最近收到的答案是：文本也很突破了。

于是我正面反面各问了一下，拷贝于下，在此一并求教方家：

谁能给个神经在文本NLP中突破的清单就好了, 看 so far 到底哪些是真突破，哪些仍是瓶颈？先起个头，突破似乎表现在：

1 NMT，例如谷歌翻译，特别是中到英，的确突破性发展了（百度声称更早神经了，但翻译质量远不如谷歌NMT令人印象深刻，虽然在前神经时代，百度的中文方面的SMT比谷歌强）；

2 SyntaxNet 至少在新闻正规文本上，parsing 比前突破了，已经达到 94%，虽然离应用还远，虽然不是声称的世界第一

关于神经在文本NLP上的瓶颈或缺陷也抛块砖：

1. 迄今的突破都是 supervised 的，倚赖的是 insatiable 的巨量带标数据：带标数据于是成为知识瓶颈；

2 对于众多领域和文体，神经系统基本没有适应性，除非假设有海量领域数据可以重新训练成功；

3 几乎所有 unsupervised 尝试都是研究性质，离应用还远；

4 模型庞大带来的costs：训练和运行对计算资源的高要求

5. 迄今的端对端系统的神经应用，未见用到语言结构或理解，隐含层里的葫芦据说人也解不透；

6. 貌似黑箱子，有说 debug 不易（统计模型黑箱子不易debug的毛病以前是公认的痛点，不过最近有深度学习大牛一再强调，这个箱子一点也不黑，debug 也容易，此瓶颈存疑）；

端对端除了 NMT，还有哪些投入大规模应用的文本处理系统？似乎还在探索中，成熟的不多。在IE和QA领域，不久应该会有某种突破，因为这两个领域的系统基本是端对端，只要somehow（人海战术？）得到了大量的带标数据，突破是可以期待的。不过，在这些方面，高明的规则系统已经有了很好很快的解决方案。不信，可以到时候拉出来遛遛。

【相关】

It is untrue that Google SyntaxNet is the "world's most accurate parser ...

【李白对话录之八：有语义落地直通车的parser才是核武器】

【谷歌NMT，见证奇迹的时刻】

【泥沙龙笔记：语法工程派与统计学习派的总结】

【新智元笔记：两条路线上的NLP数据制导】

《立委随笔：语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

【立委科普：如何自动识别同一个意思千变万化的表达？】

自然语言理解（NLU）的很多应用需要找到解答下列问题的算法：如何自动识别同一个意思千变万化的表达？譬如，问答系统或自然语言的任何人机接口，第一个问题就是如何理解不同用户千变万化的问题，以便从某个库里检索出合适的答案来。主流流行的做法仍然是绕过结构和理解，根据关键词、ngram以及 some word expansion，建立一个模型来计算不同问句的相似度。这种显然是偏离人类理解，最多可算是近似的做法被认为是理所当然，甚或唯一的算法，因为符号逻辑和语言规则那一套貌似模拟人类理解语言的做法早已从学界退出了历史舞台：学习界要竞争连对手都没有，只能自己跟自己玩。

以我骨灰级计算语言学家的身份，本篇就来专门谈谈这个问题的符号逻辑。都说语言学家迂腐得可以，云山雾罩，对牛弹琴。不信这个邪，你就是工程或学习的大牛，今儿个我也要把语言学的琴给你弹明白，不明白不收钱。（当然，明白了也没打算收钱。有心给小费的话，请转而打赏给任何公益项目为荷。）

我们把上述问题分解如下，更复杂的 cases 大多是这些部件的不同组合而已。

(1) 同一个意思的不同表达主要体现在用词的不同上，例如：

我没钱。
我很穷。
我买不起。
我就是个屌丝。
我银子不够。
我手头很紧。

（2）同一个意思的不同表达主要体现在结构的不同上，例如：

我没有那么多钱
钱我没有那么多
我钱没有那么多

同一个意思的不同表达所用的词不同结构也不同也是有的，那不过是上述两种情形的交织而已。任它千变万化，所牵涉到的变量是可以映射的。以上述场景为例，变量是：【human】【lack】【money】。其底层结构是：【lack】（【human】，【money】）。词典级的映射是：

【money】：钱，银子，美钞，RMB，￥，$ ......
【lack】：缺乏，没有，缺少，不够
【human】：我，你，他，人，.....
【lack】（，【money】）：穷，穷酸，买不起，手头+紧，......
【lack】（“人”，【money】）：屌丝

以底层结构为起点反推（乔姆斯基所谓生成），以上面的词典信息为驱动，加上一些简单的句法约束，包括容忍 optional 的随机成分（譬如加入程度“很”或强调“的确”，时态“已”等等），符号逻辑可以用计算文法（computational grammar）一网打尽语言的不同用词或结构的千变万化，不是清晰可见了吗？

一网打尽的前提是起点是一个定义明确的 logical statement，如果起点不确定，我们面对的是语言海洋，那就不好说了。因此，我一直跟人说，对于领域的问答系统，譬如，起点是 Q&A 的档案或者起点是一个 app 的可能的 commands，利用符号逻辑的自然语言理解技术，建造一个几乎一网打尽的自然语言接口，是完全靠谱，可以拍胸脯的事儿。

这里面的原理就在语言海洋的千变万化被聚焦了（据说深度学习也有了类似的时髦概念叫 attention，在 IE 领域，这个概念已经有 20 多年的历史了，IE 本身就是 NLU 的聚焦）。聚焦以后仍然有很多变式，让人眼花缭乱的不同说法，但是这些变化逃不过如来佛的手掌。聚焦的最大特点是 vocabulary 急剧浓缩，加上语言学文法的约束（此篇省略其细节，明眼人自可想象，这绝对是 tractable 的任务），貌似的千变万化于是被一张无形的符号逻辑网罩住。

顺便一提：很喜欢张学友一首歌，叫【一张无边无际的网】，说的是情网，用来代表文法也很贴切。文法就是NL的无边无际的网。我们做计算文法的人为什么乐此不疲，因为是在编织这张无边无际的网。尽管如此，仍然需要语义聚焦，才好最佳落地。

【相关】

【立委科普：问答系统的前生今世】

【deep parsing，deep learning 以及在对话和问答系统中的应用】

【泥沙龙笔记：弃暗投明，明在何方】

我:
just had a small talk with Tanya on US election, she was super angry and there was a big demonstration against Trump in her school too

行:
@wei
在我们这个群里，我们都见证了立委清晰的预测了川普对希拉里的领先优势。与传统媒体相比，这次社交网络所反映的民意更准确。也许更为重要的是分析整个选举过程中与时间相关的一些关键变量。
不过有一个问题和缺点，这个分析没有反映美国的选举人制度，事实上希拉里克林顿所取得的选票高于川普。如果能有回缩的地域分析，特别是，摇摆州的地域分析，比如说佛罗里达等的回溯

我:
是的。这次其实是千载难逢的机会，因为太多人关注，太多人 bet，应该认真当成一个项目去做，精心设计。

利:
不光是美国人关注，我们在国内也非常关注

行:
证明了新工具的力量。这也是这次川普当选的最正面的事件。

我:
我这种票友性质地玩，只是显示了大数据里面的确有名堂
但不是震撼性的。

利:
我跟美国的朋友们说：不管谁赢得了总统，都是大数据分析赢了

行:
等我有钱了，我来投你。

毛:
对，我也想过这个事，难点恐怕在于网上的信息恐怕难以分清出自何地？

我:
票友性质不是说的技术：技术是deep，靠谱和专业的，我从来都不小看自己；票友是说我对 domain （政治、大选）是票友，到现在对选举人制度还是模模糊糊，它到底怎么工作的

行:
lP地址不是相对能反映地域吗？

我:
推特是最大最动态的数据源，我们有推特的地理，应该大体足够从地理上区分了
我们也有种族，还有年龄和性别等信息。

行:
强烈建议回溯一下摇摆州。挖矿！非常值得进一步挖掘。

我:
没那个精力和兴趣了，公司缩水，也没有几个兵了，日常的琐务也要做
大数据不好赚钱。烧钱倒是哗哗的。

行:
需要设计出一个能赚钱的商业模式。技术是根本，但不是全部。

毛:
如果能把地理年龄这些结合进去，那你的系统大有前景。

Nick:
同意，伟哥可以写本书：
how is a presidential election won or stolen？把选举人票考虑进去

我:
有兵的时候，鸡毛蒜皮我不管，我爱怎么玩怎么玩，到头来连兵都保不住，还玩个球啊。一个教训，不要把技术开发得过头。小公司的构建内，任何一个部门都不宜超前太多，超前了，就意味着末路的来临。

Nick:
@wei 早就叫你弃暗投明

我:
弃暗投明倒有个明啊一厢情愿哪里行。

技术并不是越深入越先进越好，by nature 作为科学家，我们总是想越深越好
结果是产品来不及消化，技术总吃不饱，最后最先裁剪的就是技术呵呵反正也消化不了全部，你再优秀也没价值其实是有前车之鉴的：《朝华午拾 – 水牛风云》
十几年再来一次，仿佛时光倒转。

一个机构作为一个整体，必须保证大体相称的发展水平，才可相谐。一个部门太出色，overperforming，其他部门无法消化，也就成了目标。譬如研发，要质量我给你最好的质量，超过“世界第一”，要广度我给你整出20个世界主要语言的深度分析 (deep parsing)，cover 语言数据的 90+%，要领域化可以在两周内 deliver 一个 domain 所需的情报单位（一种关系，或一个事件），只要定义明确，产品的情报挖掘的瓶颈永远不在这个自然语言研发部门。结果呢，部门需要为部门的太好表现付出代价。这个世界就是这样诡异。

话说回来，一套技术在同一个公司挥洒了10年还没走人，对我这样害怕变动的人，公司也已经相当不易了。对得起我，我也对得起它了。当年没有我的技术，公司早死翘翘了。如今有了技术不能起飞，也怪不得我，公司从上到下，在这一点是共识：论技术和由此而来的数据质量，我们绝对领先对手。市场做不起来，打败不了对手，是技术以外的因由，我无能为力。另一方面也可以说，市场不成熟，技术变钱不是那么简单 market economy 决定的。

白:
NLP部门因为表现太好而不受欢迎，听起来是天方夜谭，如果不是伟哥亲历，谁信呀……

我:
反正我信。
我们吃不饱有日子了。一直都是我们催产品经理，而不是相反：求求你，给我们一个任务吧。产品经理说：就根据客户反馈小修小补吧。我们的数据质量已经行业领先很久了，一直是领先。

白:
用嘴投票还是用脚投票，这是一个问题

我:
新的 specs，或者出不来，或者出来了，我们 deliver 了，产品却实施不了。

严:
@wei 还是觉得公司产品方向太窄了，这么好的技术被局限在这么窄的应用范围。董事会老是要Focus。

邓:
听起来CEO应该负很大的责任啊

我:
据说是市场太小了，或饱和了。产品在一个 niche market，这个社会媒体大数据挖掘的market一度被疯狂追捧和夸大。几年下来发现，价值得到验证，市场也确实存在，但是就是不够大。拓展其他 market 需要有眼光的产品老总。对于“高新技术”，有眼光的产品老总比熊猫还稀少。高新技术比较适合做大公司的花瓶，其价值在于花瓶的股市效应。或者，适合一个巨大平台，帮助连接顾客和厂家：这个可以产生真正的价值，譬如 Facebook。高新技术对于创业其实很难，第一缺乏资源（不能吃一辈子VC），第二缺乏平台（连大数据都要花大价钱购买，更甭提顾客与厂家的network了），第三缺乏熊猫。好不容易都凑齐了，最佳的出路也就是有幸被巨头看重收购了事。这个概率不到十分之一吧。也就是说，你哪怕有再牛的技术，你这辈子活过了三个人的寿命，有机会创业10次，你可能创业成功，如果成功是以被收购作为标准的话。如果成功是以上市成为独角兽作为标准，那么你需要的机会数是下一个量级，五年一个轮回，你大概需要活500岁才可撞上狗屎运。

老总的眼光各有自己的局限，譬如，原来一直做 b2b saas 的就一直沿着以前的经验和熟悉的领域想技术的用场。超出经验领域之外是很难的。产品创新不再是技术的创新，而是产品层面不断加 features，越加越多。为了讨好不同的客户。结果是 90% features 基本没人用，产品也因此变得让人眼花缭乱了。为什么 agency 喜欢这样的产品？因为他们是 power users， features 越多，他们越爽。其他客户面对众多 features，只会晕菜，反而起反作用。

NLP 的真正威力是把数据转为情报，如果一个产品只需要一种情报，譬如舆情，无法消化其他可能有用的情报，NLP 就处于语义落地吃不饱的地位。你吃不饱，你的价值就丧失。

我:
洪诗人有空可以为nlp写一首挽歌，为nlp超出产品一叹。

悟:
李氏唐朝西游记
维度无穷NLP录
立宪定法三权六
委身侍主天地合
@wei 我先抛砖引玉, 见笑了

我:
这砖抛的，狂赞。
【相关】

Final Update of Social Media Sentiment Statistics Before Election

Trump sucks in social media big data in Spanish

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

Pulse：tracking US election, live feed，real time！

【大数据跟踪美大选每日更新，希拉里成功反击，拉川普下水】

【社煤挖掘：大数据告诉我们，希拉里选情告急】

Big data mining shows clear social rating decline of Trump last month

【语义计算沙龙：坐而论道 on 中文 parsing】

董:
刺死前妻男友男子获刑5年死者系酒醉持刀上门 -- 百度新闻
Stabbed her boyfriend man jailed for 5 years, the drunken knife door --百度翻译
Stabbed his ex-boyfriend boyfriend was sentenced to death for 5 years the Department of drunken knife door -- 谷歌翻译
不知道这样结果是什么智能？ -- 人工？鬼工？骗工？

白:
也是醉了

董:
我主要是要探讨“连动”--酒醉，持刀，上门。这三个动词在知网词典里都是有的。酒醉 -- {dizzy|昏迷:cause={drink|喝:patient={drinks|饮品:{addict|嗜好:patient={~}}}}}
持刀 -- {hold|拿:aspect={Vgoingon|进展},patient={tool|用具:{cut|切削:instrument={~}},{split|破开:instrument={~}}}}
上门 -- {visit|看望}
酒醉的上位可达：“状态”；持刀的上位可达“行动”，但它与“拿”不同，它是“拿着”，所以定义描述里多了“aspect=Vgoningon”;最后是“上门” 它是“行动”。于是我试下面的规则：
DefineVP1 0712 CN[*pos==`verb`,*def_h=={act|行动},*syl==`2`];L1[*pos==`verb`,*def_h=={act|行动},*def_s==`aspect={Vgoingon|进展}`,*syl==`2`]$L1[*log==`preceding`]@chunk(CN,L1)# // 酒醉持刀上门；
DefineVP1 0722 CN[*pos==`verb`,*def_h=={act|行动},*syl==`2`];L1[*pos==`verb`,*def_h=={state|状态},*syl==`2`]$L1[*log==`preceding`]@chunk(CN,L1)# // 酒醉持刀上门；
心里还是不踏实，因为没有大数据的支持。想听你们的意见。其他例子如：骑车上街买菜遇到一个老同学；

白:
直观感觉，状态的标签不是太好贴。比如，拿着刀子砍人，拿着是状态；抡起斧子砍人，抡起就不是状态？隔着玻璃射击，隔着是状态；打开窗户通风，打开算不算状态？
买菜和遇到老同学，谁是前景，谁是背景？谁是主线谁是旁岔，很难说。像伟哥这样一律next最省事。
打开保险射击，打开保险就不是状态

我:
伟哥于是成为懒汉的同义语。工业界呆久了想不懒都不成。我曾经多么勤勉地一条道走到黑啊。Next 的好处是拖延决策或者无需决策。可以拖延到语义中间件，有时也可以一直拖延到语义落地。更多的时候拖延到不了了之这就是无需决策的情形。

白:
董老师说的就是语义落地啊。花五毛钱打酱油，花五毛钱打醋。花五毛钱该贴啥标签？
要不是语义落地谁费这事儿。

我:
花 money vp
这个是 subcat 可以预测的模式。凡是subcat可明确预测的句型通常都不是事儿。给标签于是成为 system internal 的内部协调。

白:
关键是不知道该有多少标签，如何通过粒度筛选、领域筛选、时空背景筛选，快速拿到最有用的标签。

我:
通常的给法是：money 是 o （object），vp 是 c （complement），这是句法。
句法之上这几个节点如何标签逻辑语义也可以由 subcat 输出端强行给定。譬如可以给 vp 一个【结果】的标签，vp 是 “花钱” 的结果。
subcat 的实质就是定义输入端的线性模式匹配并指明如何 map 到输出端的句法和逻辑语义的结构。这种词典化的subcat驱动简化了分析算法而且包容了语义甚至常识。

董:
我是因为首先要解决句法关系引起的。例如：欢迎参观；争取投资，就是VO关系，而不是参观游览。也就是说，两个或更多的动词连着时，如何排除歧义？试着只给两个标签：动宾、连动。

我:
一般而言动宾是动决定的，连动可以是第一个动决定，也可以是随机的组合。后者有一个与conjoin区分的问题。
“欢迎” 在词典subcat 中决定了可以带 “参观” 这样的宾语，就事论事这个“欢迎-参观”的关系几乎是强搭配，与 “洗-澡” 类似。
连动也有词典 subcat 决定的，譬如 “去” vp，“驱车” vp，“出门” vp。
词典决定的东西没有排除歧义的问题就是词典绑架通过 subcat。只有随机组合才有歧义区分的问题。而动宾的本质是不随机，原则上不存在歧义一律是强盗逻辑本质就是记忆。可以假设人的动宾关系是死记在词典预测（expectation）里的，预测实现了动宾就构建了这符合 arg structure 的词典主义原则。

董:
负责挖坑，负责浇水，负责填土。。。动宾关系；

我:
负责 vp
为 vp 负责
后者是变式

董:
这么看来，动宾还是连动还是修饰（限定），都由词典解决了。统统做进词典里，就可以了。明白了。

我:
词典主义。随机度太大的组合比较难做进词典。所以一方面尽量做进词典，另一方面来几条非词典化的规则兜个底。
随机性而言似乎修饰大于连动连动大于动宾。

白:
如果只有这三个标签，当然做进词典是首选，就怕落地时要的不止这三个。

董：
33724688194454877

这是我刚才试的一个句子。我们为每个节点预留10个子节点。动词与动词也得包括这些。

我:
进不进词典主要不是有几个标签而是这个标签的性质。
语言学的理论比较文科，说的东西有些模糊，但大体还是有影子的。
语言学理论中一个最基本的概念区分就是 complement vs adjunct，这是句法的术语，对应到较深的层面就是 argument vs modifier。一般而言，arguments or complements 都是词典的主导词可以 subcat 预测的。HowNet 从语义层面对 args 已经做了预测。语言学词典（譬如英语的计算词典，汉语的计算词典等）就是要相应地从具体语言的句法表达方式的角度把 subcat 预测的 complements 定义出来。至于 modifier 和 adjuncts，他们的组合性随机，词典就难以尽收。最典型的就是普世的时间地点状语等。世界上的所有事件都是在时间和地点中进行。

白:
跑步去公园，去公园跑步。前者去公园的路上都在跑步，两个事件在时间上重合；后者只有到了公园才开始跑步，在时间上只是先后衔接。
如果语义落地需要对此作出区分，该有什么标签？怎么词典化？
动词为其他动词挖坑的情况都不难处理，难的是压根儿没有标配的坑。这是从ontology的事件根结点继承下来的。

我:
跑步去公园，去公园跑步。
先说第二句：【去 + NP + VP】这是可以词典预测的，万一预测不准，可以 fine-tune 条件，譬如：【去 + 地点 + 动作】，总之是词典预测的。既然词典预测了，那么该给什么标签就不是问题了。给什么都可以，要什么给什么。
再看第一句：跑步去公园。
去公园不是问题这是一个动宾 VP 是词典预测的：【去 + NP】或【去 + 地点】。
问题于是就成为 “跑步” 与 VP（人类动作）之间的关系。这种关系在哪里处理，词典可以不可以预测？

白:
吃口饭去单位，又是接续关系不是重叠关系了

我:
这个的确有些 tricky 但不是无迹可寻。

白:
跑会儿步去公园，也是接续关系了。

我:
偷懒的办法就是有一条非辞典化的模糊的规则 Next 连接二者。
费劲的办法也有：一个是 “跑步去” 词典化作为“去”的变体，“跑步”是对“去”的方式限定。

白:
现在的问题是，句法上承认next，语义上细化next

我:
另一个词典化的做法是，在“跑步”词条下，预测 movement 的动词 VP, 【去NP】、【来NP】、【到达NP】等等都符合条件，可以跟在“跑步”后面。

白:
为啥跑步加了时态，限定就失效？

我:
这个预测的subcat里面的句法规定是：
1. 本词不许有显性时态，不许分离；
2. 后面的 VP 必须是 movement；
3. 输出端：本词作为后一个 VP 的限定方式（句法叫方式状语：adverbial of manner）。
Binggo!
至于为啥？这个问题，系统可以不回答，系统可以是数据驱动的。
系统背后的语言学家可以一直为了 “为啥” 去争论下去，系统不必听见。总之是让 “跑会儿步去公园” 不能在此预测pattern中实现。词典化实现不了，那就只好找兜底的规则了，于是 Next 了。【限定】与【接续】的区别由此实现。前者是词典强盗，后者是句法标配。

白:
在词典之外搞几个标签模版也不难，句法上都对着next，只不过依据前后subcat细化了，这有多困难，而且清爽。

我:
亦无不可。差不多是一回事儿。一碗豆腐，豆腐一碗，就是先扣条件还是后补条件的区别而已。无论前后，总之是要用到词典信息，细线条的词典信息。

白:
看上去不那么流氓

我:
先耍流氓【注1】，还是先门当户对，是两个策略。
很多年前跟刘倬老师做专家词典。他是老一代无产阶级革命家，谆谆教导的是不能耍流氓，要门当户对，理想一致了才能结合成为革命伴侣。后来到了美国闹革命，开始转变策略，总是先耍了流氓再重新做人。其实都是有道理的。

白:
@董跑步和上班是先后关系，跑步和去是同时关系。

董:
这句分析后，有两个“preceding”，不符合我们理想的结果。我们要的是“跑步”是“去上班”的manner 才好。因为我们要准备用户提出更多的信息要求。例如：系统要告诉用户，我平时是HOW去上班的。

我:
刘老师做系统是在科学院殿堂里面，可以数年磨一剑，we can afford to 不耍流氓。来美国闹革命拿的是风投的钱，恨不能你明天就造出语言理解机器人出来，鞭子在上，不耍流氓出不了活。形势比人强，不养童养媳成不了亲，不抓壮丁打不了仗，于是先霸王，然后有闲再甄别。

董:
是的，我们现在连科学院殿堂都不是，而是家庭作坊，可以慢慢磨。其实已经磨了20多年了。

我:
我还记得当年我们为了一个不足100句的英语sample，翻来覆去磨剑磨了两三年，反复地磨平台、磨算法和磨规则。当时的董老师已经大数据（现在看也不是大数据了）开放集测试“科研一号”【注：中国MT划时代的第一款工业产品“译星”的前身】了。

董:
我们给我们的现在开发的中文分析的目标是：看看能最大限度地挖掘出多少信息。

我:
董老师20年磨出的 HowNet 打下了语言分析的牢固基础。现在是把普世的 HowNet 细化为具体语言的句法规定。路线上是一脉相承的。换个角度看，董老师在 HowNet 中已经把普世的 Subcat 的输出端统一定义了，现在是要反过来再进一步去定义具体语言的句法表达形式，也就是输入端的pattern和条件，然后把二者的映射关系搭上，大功即告成。先深层结构和 UG，然后回过头来应对每个语言的鸡零狗碎的形式。

董:
这倒是的，我们这个中文系统还没到半年，就有点模样了。词典22万义项，规则近4000条。当然，要真正交给用户，那还有一段磨的。

我:
蛮 impressive。我们开发四年多了，但绝对没有 8x 的规则量。

董:
这回我们不做中英翻译，因为英语生成我们做不起，又没有大数据的。其实做出来也只是给别人添砖加瓦，多一个陪着玩的。这种事情我们不玩的。

我:
对，MT 从大面上就拱手相让吧，数据为王。符号逻辑和规则路线现在的切入点就是应对数据不足的情境：其实数据不足比人们想象的要严重得多，领域、文体等等，大数据人工标注根本玩不起。不带标的 raw 数据哪里都不缺但那比垃圾也好不了多少。

宋:
"中国对蒙出口产品开始加征费用"

白:
这个哪里特殊？

宋:
中国对(蒙出口产品)开始加征费用, (中国对蒙)出口产品开始加征费用

白:
进口出口，应该站在自己立场吧

宋:
出口是自己的立场，但也有两种解读：蒙古出口，中国对蒙古出口。我一开始理解为后者，看了内容才知道是前者。

我:
这个 tricky，在争抢同一个介词“对”：对 np 征税；对 n 出口。
远距离赢。

白:
常识是保护自己一方的出口，限制非自己一方的进口

我:
远距离原则有逻辑 scope 的根据。但是具体看很难说因为汉语的介词常常省略。scope 的起点用零形式并不鲜见。
“对阔人征税” 可以减省为 “阔人征税”；“对牛肉征税” 可以简化为 “牛肉征税”。但 “对蒙古出口”，不可简化为 “蒙古出口”。本来也可以简化的，但赶上了 “出口” ，逻辑主语相谐。“牛肉” 与 “征税” 没有这种逻辑主谓的可能，于是“对”可省而NP的逻辑语义不变。

白:
势均力敌时，常识是关键一票

宋:
这个例子在我所看到的语境下是远距离赢，在别的语境下则不一定。因此，分析器是否应当给出两个结果，然后在进一步的处理中再筛选？

我:
给两个结果原则上没难度，但后去还是麻烦。

白:
其实关键是什么时候定结果，几个倒在其次

我:
"中国对蒙出口产品开始被加征费用"

加了一个被字哈哈可能是蒙古对中国的反制。

白:
两个对，有一个和被不兼容

【注1】所谓parsing耍流氓，指的是在邻近的短语之间，虽然他们之间句法语义关系的条件和性质尚不清晰，parser 先行把他们勾搭上，给个 Next 或 Topic 之类的虚标签，类似未婚同居，后去或确认具体关系，明媒正娶，或红杏出墙，另攀高枝，或划清界限，分手拉倒。

【李白对话录之10：白老师的麻烦不是白老师的】

我:

突然想起一句话怕忘了写在这：

“白老师的麻烦是他懂的我不懂我懂的他懂。”

谁的麻烦？

乔姆斯基说麻烦是白老师的

菲尔默说麻烦是我的

后一种语义深度分析的结论是如何得出的？

语义要多茁壮才能敌得过句法的标配啊。

而且这种语义的蛛丝马迹并非每个人都有捕捉的能力它远远超出语言学与一个人的背景知识和领悟力有关

遇到这种极深度的人工智慧目前能想出来的形式化途径还是词驱动比较靠谱如果真想较真探索的话

“麻烦问题毛病” 这类词有两个与【human】有关的坑

一个是标配表达的是所有关系 possessive

另一个是 about 要求填坑的是【event】或【entity】后者自然也包括【human】

白:

“他的教训我一辈子忘不了”

谁被教训？

我: 哈。

回到前面，近水楼台的【human】 “白老师” 是标配。

另一条词驱动的可能路径自然休眠。因为词驱动也就埋下来唤醒的种子。

上下文中遇到另一个【human】 candidate “我”，加上其他一时也整不清楚但终究可能抓到的蛛丝马迹，于是休眠唤醒了。

白:

好像sentiment在休眠唤醒中起比较重要的作用

我:

此句是一例本来是褒可不唤醒就是贬了。

白：

标配的麻烦，把负面情感赋与那谁，等到后面说的都是正面，纠结了，另一个human就有空子钻了。

我:

对对对

这个 trick 我们做了n年 sentiment 摸索出来了就在用。典型案例是： “Thank you for misleading me”

Thank 里表达的抽象的褒由于遭遇了 misleading 的较为具体的贬而转化为讽刺。

还有：“你做的好事儿 great”。这里 great 的讽刺也是有迹可寻的。

白：

more specific expressions承载的sentiment优先

我:

遇到过两次记者采访，两次都被问到你们教给机器 sentiment，机器可以理解正话反说和讽刺吗？

我的回答是：这是一个挑战但其中的一些常见的讽刺说法是可以形式化可以捕捉到的。举例就是上面。

白：

具体override抽象。

我:

yes yes yes

白：

如果二者纠结，具体承载的sentiment才是基调，抽象的反向sentiment不是抵消而是修辞手法的开关。

我:

我一直在强调，sentiment 的世界里面，主要是两类东西：一类是情绪的表达，一类是情绪背后的理由。

有些人只表达情绪，但有些人为了说服或影响别人，好恶表态的前后，会说一通理由：you make a point，then you need to support your point with arguments

所谓 sentiment analysis 很长一段时间领域里面以为那是一个简单的分类问题：thumbs up thumbs down。这个浅陋而流行的观点只是针对的情绪，而面对情绪背后千变万化的理由就有些抓瞎了。可是没有后者，那个sentiment就没啥特别的价值。

所谓讽刺，只是情绪的转向，正话反说。具体的理由是不能转向的，否则人类的交流就没有一个 protocol 而可以相互理解了。褒贬里面具体的东西我们叫 pros and cons，那个东西因为其具体，所以语义是恒定的，不会轻易改变。

情绪却不同。人是一个奇怪的动物，爱极而恨，恨极而爱，都有。甚至很多时候爱恨交织自己都搞不清楚。表达为语言，就更诡异善变。

英语口语中 sick 是强烈的褒义情绪，shit 和 crap 等词也不是贬义，bad ass is very positive too:

“The inside of a prius is bad ass no lie.” 是非常正面的褒奖。

人类在情绪表达中说反话，或者由于反话说常了 community 都理解成正话了，这种情形也屡见不鲜。

关键词的褒贬分类系统遇到这种东西不傻眼才怪：当然如果input很长，可以 assume 这类现象只是杂音，整个关键词分类还可以靠谱。但一旦是社会媒体的短消息，这种语言模型比丢硬币好不了多少。

汉语中老婆太喜欢老公了喜欢到不知道怎么好了就说杀千刀的。

再举一个今天遇到的 sentiment 实际案例：
@Monster47_eNd nah, you have no idea how bad I would kill to eat taco bell or any kind of shit like that.
瞧瞧里面的 sentiment triggers： bad；kill；shit 三个都是强烈的 negative triggers
谈论的 topic 是 Taco Bell，一家流行的墨西哥快餐连锁品牌。
这条短消息通篇没有褒义词出现，因此没有理解、缺乏结构的关键词系统只能得出贬义的结论。但这句话其实是对 Taco Bell 异乎寻常的褒奖用的是完全草根普罗的用语。

谷歌的神经翻译遇到口语化的句子也基本抓瞎，训练的数据严重口语不足（那是因为双语语料质量过得去的来源大多是正规文档，组织人力去标注口语，做地道的口语翻译，是一个浩大的工程，巨头也无能为力吧）：
@ Monster47_eNd nah，你不知道我會殺了多少吃塔可鐘或任何種類的狗屎。

尝试“人工”翻译一哈：
@ Monster47_eNd nah，你不知道为了能吃上Taco Bell 的东东，我會怎样不惜代价（哪怕让我杀人都行）。

简单的译法是：
想吃 Taco Bell 这样的垃圾，我他妈都想疯了。

谁要再说 sentiment 好做，我TM跟他急。这无疑是 NLP 中最艰涩的果子之一。
【相关】

【李白对话录之八：有语义落地直通车的parser才是核武器】

【立委科普：基于关键词的舆情分类系统面临挑战】

【立委科普：舆情挖掘的背后】

【李白对话录之九：语义破格的出口】

【李白对话录之七：NLP 的 Components 及其关系】

【李白对话录之六：如何学习和处置“打了一拳”】

【李白对话录之五：你波你的波，我粒我的粒】

【一日一parsing：“这瓶酒他只喝了一杯”】

白:
“这瓶酒他只喝了一杯。”
两个量词（瓶、杯）和一个名词（酒）关联。
三个问题：1、“这瓶酒”是什么成分？为什么？2、“一杯”是回指到句中的“酒”还是指到另一个省略了的“酒”？3、如果“喝”的逻辑宾语是杯中酒，那么瓶中酒又是什么逻辑角色？
就是说，如果把逻辑宾语看成“部分”，其相对的“总体”提前为“话题主语”或“大主语”，那么后者到底填了什么坑？目测已经没位置了

詹:
“语文他答对了三道题。”跟白老师例子类似。
他只喝了这瓶酒中一杯的量
这瓶酒他只喝了一口
这瓶酒他只喝了二两
“喝”事件可以设计一个“消耗量”的事件元素
“这瓶酒他喝了一大半”

白:
随意增减动词坑的数目总是不好，量词倒是可负载两种结构：一种是绝对量，一种是相对量。相对量有坑，绝对量没坑。

詹:
动词的坑的数量可以设计（因而可调）。消耗量设计为“喝”的一个坑，可以跟“讨论、谈、喜欢”这样的动词对比。“这瓶酒他们讨论了一杯”不能接受。因为“讨论”类动词没有预留这个坑
“这瓶酒他们讨论了一天。”
请教白老师说的绝对量和相对量具体如何理解？形式区别是什么？

白:
相对量和绝对量都是数量组合。绝对量与中心语结合，相对量中心语省略，但与同形的先行中心语形成远距离照应。
“山东聊城市”

我:

1121a
句法是清楚的。

白:
buyu是个大杂烩装了很多不同的东西，从填坑角度看更是五花八门缺少共性。

我:
那就加个标签【数量补语】，与其他补语对照：【程度补语】【结果补语】或【原因补语】等。如果想进一步区分 “喝了一杯” 与 “喝了一斤”，还可以进一步区分根据数量结构本身的子类即可。句法到这一步落地应该水到渠成了。

白:
那倒不必。喝了一口有点麻烦。可是这不是一个好的二元关系。
或者说，buyu才是真正的宾语，O反而只跟buyu发生直接关系，通过buyu才跟动词发生间接关系。O跟buyu的关系是明确的总分关系

我:
喝---酒应该是直接的关系否则语义不搭。

白:
一杯后面有个省略的酒
正常也可以说，走，喝两杯去。省略是肯定的，省略的是酒，则是通过先行词照应出来的。先行词是茶，省略的就是茶。杯和酒，也有强关联，不管语义上还是统计上。
试试：“这瓶酒张三只喝了一杯，李四却喝了三杯。”
要想把“一杯”和“三杯”都分析成buyu，还有点小难度呢。
“一瓶酒四个人喝，张三和李四各喝了一杯，王五和赵六各喝了两杯，瓶里还剩一杯，问这瓶酒共有几杯？”

我:

1121b

一致不一致只要后面是有准备的就可以我们在落地模块里面其实是有这个心理准备的，
并不指望句法分析出现完全一致的结果。关系标签只是落地的条件之一，不是全部条件，如果 x 和 y 的关系都有可能，对付不一致就是 x|y，一般不影响结果。

白:
“X杯”都分析成buyu吗？
不好的句法不一致多些，好的句法不一致少些

我:
一切都是平衡，某个条件宽了，另外的条件就可以弥补。

白:
遇到不好的句法，不一致不是不能对付，只是一边对付一边喷语言学家而已。

我:
哪里都一样。arsing 做不好可以喷 POS 模块开发人，OS 做不好可以怪词典学家没弄好。或者学习模块很操蛋对付不了 sparse data，但是说到底在一个真实开发环境里还是内部协调为纲。要是踢皮球，做不了好系统

白:
但是句法稍作调整，就可以做得更好。
我:

铁路警察各管一段是一个非常坏的原则，adaptive dev 才是正道。当然，凡事都一个度。

白:
补语和宾语补足语弄成两个东西，一个指向动词，一个指向名词。已经做了初一，还怕十五么?

我:
一杯和酒脱离上下文也有很强的特征上的不同而且也有ontology或大数据方面的高度相关性。因此句法把它们连成 x 也好 y 也好都不是大问题，因为各自的本性的、静态的标签是恒定的、随时可check 的

白:
这话推到极端，就是不要句法也行
可你老人家早就有话等在那里，有现成的梯子，为什么不用？
我现在要说，反正也没到顶，有另一部可以爬得更高的梯子，为什么不用？
与大数据或ontology的关系，自然语言是跑不掉的，波粒二象性摆在那里。
其中可以帮到句法的部分，封装成中间件直接拿来用，早已不是禁忌。

我:
真地没看到显然的必要性，起码对于抽取情报，V 连上了实体 N做 O，连上了数量做 Buyu，想从中抽取啥都可以。要细做，也最多是把 Buyu 和 O 再加一条通道，说 Buyu 是限定 O 的。

白:
看看上面的应用题。要解题，不知道总分关系怎么解？不把句法关系标成一致，怎么获取总分关系？

我:
自然语言理解落地为自动解题，作为复杂问答系统的一个分支，这个倒是确实要求比一般情报抽取要高。那天与胡总聊到高考机器人项目，胡总说，数学应用题道理上应该电脑是大拿吧。可惜，电脑读不懂应用题。自然语言理解是拦路虎。如果读懂了题，转化成了公式，电脑当然当小菜来解题。

白:
NLU做应用题，@约翰师兄三十几年前就在做了。

我:
做几何题，@严也兴趣了很久。

白:
用填坑来统领句法关系，就不会那么为难了。把二元关系进行到底，把词例化进行到底。吴文俊团队实际上也做了部分几何题理解的工作。不过数学家们认为这是脏活累活，没有学术价值。所以浅尝则止

wang:
机器做数学应用题，是验证自然语言理解效果的一个非常好的测试。但是没有市场。
本人2000年是在做小学数学应用题求解系统，当时也是为了检验自然语言理解效果的。当时系统，本群的刘群老师，周明老师，詹卫东老师，董强老师都见过，只是这些老师是否想起16年前的事就不得而知了。
当时演示的应用题“一条河里有4条小船，5条大船，河里一共有几条船？”--对于求解有几条小船，几条大船，或者颠倒顺序，都可以演示OK。但是在北大詹卫东老师把“一条河”改成“一个河”，系统就出不来结果，量词啊，量词没细致考虑。
这都是过去多年的事了，只是这个系统没有市场，最后只能搁浅。落不了地就被历史淹没了。记得当时台湾的中研院许文廉老师也做数学应用题求解。对于几何求解系统前几年看过文献，好像已经非常成熟了。可能语义理解的信息不是复杂，还是封闭环境非歧义语义，也许相对容易，这个后期我关注就不是很多了。

白:
应用题这东西，换个内容就是上市公司的报表，谁还敢说分析上司公司的报表没有市场？

wang:
白老师，我那个时候抱着系统广泛寻求市场，却没有市场关爱我。

白:
关键是不要被技术的表现形式所迷惑，要看穿技术的实质，有没有用是由实质决定的，不是由眼下的表现形式决定的。定位问题了。天上不会掉下个产品经理，最初的产品经理就是你自己。这世界上能看穿技术实质的人少之又少，要把技术包装对方向，还要扶上马送一程，理解的人才有可能多那么一点点。现在的教育里用人工智能逐渐多起来，但是系统更像系统而不是老师。要想让系统像老师，必须有NLP。像伟哥这样可以躺在垄断场景上高枕无忧，犯不着关注其他场景的人毕竟也是少数。

wang:
遗憾当初没有遇到白老师啊！以白老师的眼力，就活了。
觉得李老师也是在找更宽的场景。
回到昨天的话题“这瓶酒他只喝了一杯”。我的想法是“这瓶酒”--不是补语
应该是个强调部分。类似英语“It is .... that”
这瓶“酒”和一杯（“酒”），这酒是同质的事物，后者必须省略。不同质的事物，必须交代。

白:
还有不涉及量词的总分关系：“我们班的同学就他混到了正部级”
“我们班的同学”相当于瓶中酒，“他”相当于杯中酒。
总分关系，“总”表现为话题主语，“分”表现为动词的直接成分，主语或宾语。
但是按照移位理论，移出来的话题主语的原位必须是某个论元，所以一定要找到这个坑。

wang:
这种情况可否理解介词短语省略了介词“在...中”，（among）
单独“总”这个论元好像对应不了谓词，比如这里“混”

白:
英语介词短语可以修饰名词总直接对分，分对谓词
我早上核心观点就是这个

wang:
恩，同意白老师

我:
I drink a cup of tea
cup is O of drink and then tea is linked to cup??
this is not what has been practised for long
tea is O of drink and cup (or a_cup_of) is Mod of tea
these are standard treatments

白:
@wei 这个treatment我太同意了。
英语不能省略tea吧。
即使前面提及了tea
壶里的茶我只喝了一杯，英语怎么说？

我:
NMT: I only drank a cup of tea, how to say English?
壶呢？
原来神经做翻译的时候，怎么常见怎么来，拉下的词没处放，就不放，一笔抹去，眼不见为净。这倒是顺溜了，可不带这么糊弄吧以前的 MT，无论 SMT 还是 RMT，大概
不敢这么玩

白:
有些口译人士倒是真的如此

刘:
SMT也一样的，经常丟词，还有论文专门研究SMT的丟词问题

白:
我在上交所的时候，就领教过知名公司的随团口译。我们提出的尖锐问题，一律抹平了翻，尖锐的词儿影都没有。有时我不得不自己用英语纠正一遍。

我:
那就是 RMT 不敢丢，其实也不是不敢，是丢不掉。除非生成程序有意设计了丢的条件。默认，实词是不能丢的。
“壶里的茶我只喝了一杯” 应该是：
as for the tea in the pot, I only drank one cup of it.
“it" refers to the "tea"

白:
it，相当于移走的tea的trace 在汉语是空范畴在英语里总要有个真实代词。从伟哥的英译可以看出，他是真心不把“壶里的茶”当主语或宾语的。

我:
顺便一提，我觉得将来机器口译会有更好的用户体验
这是因为人的口译也就那么回事儿，糊弄的时候多，不合格的口译多，合格的在时间紧张的时候也老出乱子。这个观察在前些时候尝试用 NMT 翻译汉语到英语的时候就很清晰了。当时翻译到了英语以后，第一个震惊是，NND，神经真厉害，然后看到谷歌翻译下面有一个 speech 的按钮，就顺手一按，这一听，是第二个震惊，听上去比读居然更顺耳！读起来别扭或不合法的地方，给当今的语音合成一糊弄，居然那么自然，加上人的口译也是错误不断，相比之下，机器读出来里面有几个错就相当可以接受了。于是我用 iPhone 把那一段录音下来，放到了我的博客里面，让世人见识一下，机器口译不是梦。见：

【谷歌NMT，见证奇迹的时刻】

以前一直认为，口语到文字是第一层损耗，文字翻译是信息的第二层损耗，再从目标语文字到语音，是第三层损耗，损耗这样叠加下来，语音机器翻译是一个完全没谱的事儿。但实际上不是这么回事儿。
这第三层损耗，由于有人的陪绑和陪衬，不但不减分，反而加分。第一层的问题也基本解决了。当然前提是语音技术要神（经），语音合成要做得自然巧妙，而这些现在已经不是问题了。前几天讯飞合成一个广告词，居然声情并茂。

赵忠祥当年深陷录音门丑闻，声誉形象大减，那是错了时代。隔现在，赵大叔可以一口咬定那个录音是机器假冒的。

白:
啥时候声乐也能人工合成了，让帕瓦罗蒂唱我写的歌。

我：
白老师等着吧，不远了。

【我看好深度神经读唇术】

Nick：转载：谷歌人工智能唇读术完虐人类，仅凭5千小时电视节目！人类古老的技艺再次沦陷-搜狐科技!!!

南:
估计很快就有读心术了

Nick:
读心术和读唇术结合，细思恐极，星座是讲不下去了。。。

洪:
记得是 David G. Stork开创了这个领域。

葛:
根据脑电波可以读心

陈:
所有空间转换，如果有足够的训练数据，都可以尝试用深度学习拟合。

我:
读唇术真是神经的好应用啊可以想见它会重复语音的辉煌而且显然远远超出专家。

陈:
才40%正确率

我:
聋哑人的读唇能力我见识过。有一次招员一位白人“龙女”应聘。她跟我面试交谈，眼睛使劲盯着我的嘴唇，要吃了人似的。虽然我英语带口音不标准而且说话急促，她居然大体都“看”懂了。麻烦的不是她听话和理解的能力，而是我受不了她说话。由于她很多年耳聋，结果她说话的腔调越来越偏离人类。虽然我勉强听得懂但那是一种“深度神经”折磨。公司hr和主管都鼓励要她，hr 多少还有担心怕她说我们对残疾人有歧视。特别嘱咐如果基本能力够格交流沟通的缺陷不能作为不聘用的考量。我心里不情愿怕以后工作每天受听力折磨但还是勉强同意招。

结果 negotiate 待遇她居然狮子大开口比其他几位类似能力的 candidates 高出很多而且摆出不愿意讨价还价的样子。她的这个态度帮助我摆脱了不要她可能带来的良心不安。

发现残疾人的专项能力的发展可以让人惊诧她的读唇能力在我们普通人看来不可思议。面试她六七位同事都反映她的“听力”理解完全可以胜任工作之间所需要的沟通协调，说的能力也有只是偏离人类发音的趋势会越来越严重大概遵循的“熵最大”（maxent）原理孤立态混乱度无法逆转吧。

电脑有几乎无限的带标训练数据这个场景非常类似于mt 这么好的天然学习场景电脑超越龙女是必然的吧。报道说读唇专家不到百分之二十电脑能力高出一倍到百分之四十。不懂这都是哪门子专家，与我见到的龙女无法比。专家读播音员标准的说话，龙女读的是我们这些不同语言背景人的蹩脚英语。专家读唇之前已经熟悉这些播音员等于受过历史数据的培训，龙女以前跟我们素不相识。

马:
以前有个电影叫联合舰队，是根据真人真事改编的，主演也是原型担任。一个盲人，一个聋哑人共同上学，盲人用嘴型重复老师说的话，聋哑人通过唇读获得信息

我:
残疾人的补偿替代功能常超越我们的想象
电脑只要有超大数据也可以超越我们想象
看好这个方向。

马:
搜狗也刚做了一个唇读，识别率还蛮好的

【一日一parsing：他 / 喝了 / 三碗 / 汤】

bai:
“他汤喝了三碗”
问题：“三碗”指向“汤”还是“喝”还是自己的省略被修饰语？
问题：它和“他喝了三碗汤”在语义上等价吗？

马:
强调的内容不一样吧，前者强调喝了三碗的是汤不是别的，后者强调是三碗

我:
要挖出变式的 nuances，不如把表层结构包括词序的差异保存等到落地的时候由应用的需要来决定这种差异是不是有必要。脱离落地谈细微差别及其抽象表达，容易莫衷一是也容易丢了西瓜。

他喝了三碗汤
他喝了汤三碗
三碗汤他喝了
汤他喝了三碗
他汤喝了三碗
? 他三碗喝了汤
? 三碗他喝了汤

最后两个变式走在句法的边缘。

一个标签是 Mod，一个是 buyu，其余皆同，包括可分离动词合成词“喝汤”，表层结构的所有信息，包括词序，也都 accessible if needed。因为 parer 的内部 representation 通常是增量的、信息 enrich 的过程，除非是信息更新为了改正一个错误，过去的或历史的信息并不丢失。这也是我们以前说过的为什么休眠唤醒机制可以work，因为被唤醒的原始状态并没有丢失，一个子串永远可以重来，二次 parsing。推向极端就是，整个一个句子都可以推倒重来，因为原始的 token string 并没丢弃。当然，实际上的休眠唤醒几乎永远是针对句子中的一个子树，再糟糕的 parser 也不至于全错需要重新来过。

Topic 再进一步转为 S 就完美了，语义中间件还有细致的工作可做。

最后这两句句法边缘的句子不是不可能出现，但比较罕见，对于毛毛虫边缘的毛刺部分的现象，合法非法中间的数据，如果不常见，那就拉倒，parser 出啥结果都无需太 care，反正有做不完的活计，不值当在它们身上花时间。

【相关】

【李白对话录之八：有语义落地直通车的parser才是核武器】

bai：
“你牺牲了的战友不能瞑目。”
“张三打得李四脸都肿了。”

我:
张三打李四
...打得他脸都肿了
...打得他手都肿了
...打得脸都肿了
...打得心直哆嗦
...打得好痛快
...打得鼻青脸肿
...打得天昏地暗

这些后续与第一句的不同组合，有些可以转成白老师的句式
s v o v 得 vp --> s v 得 s2 vp

bai:
填坑角度看不一样，前面topic填名词坑还是动词坑还是与坑无关。天昏地暗可以当一个形容词。拆开来看天和地都不能成为填“打”的坑的共享萝卜。
谓词结合的不同方式，只有显式地描述坑和萝卜才说得清

我:
对，不是都可以转，必须后一个s2是前一个 o 的时候，才可以转。如果 s2 回指第一个 s, 那就是另一组了。
“天昏地暗” 是成语形容词，黑箱子词，句法拆不开。
我用 vp 表达的不是 vp 是“谓语p” 的意思包括 ap。以后得创造一个合适的标签 PredP
只剩下一个主语的坑待填。对于主语，谓语是ap 还是 vp，不重要。人家自己已经内部摆平了，不关主语事儿。

bai:
类似：(a/b)*(b/c)=a/c

我:
谁脸肿了？
李四。
谁手肿了？
不好说，但张三比李四可能更大，因为打人借助的工具往往是手。打人最常打的部位是脸，
而不是手。这个 minimal pair 真心诡异：

张三打李四打得他脸都肿了
张三打李四打得他手都肿了

也是中文文法很操蛋的鲜活例证。

bai:
没啥，常识都是软的，一碰到硬证据就怂。
你不说对方手上挨打，那就是打人者手肿，说了，那就是挨打者手肿。语言和常识推理已经融为一体。各种标配都是随时准备让位给例外的，例外不出山，标配称大王。

我:
白老师的段子是张口就来啊。这个说段子的功力很神。

bai:
在填坑时，先不管三七二十一按标配填，再给例外一个权利，可以override标配。
试试
“你渴了饮水机里有水可以喝。”
缩合条件。

我:
马上出门回来再试
喝水不就是 “有 o 可以 vt”？蛮常见的。
有书可读
有澡可洗

bai:
但填坑结构是跨前后件的。
啥句法标签呢？

我:
补足语，逻辑 vo 单标。graph 也不管它怎么绕了，看上去合理就行。反正用的时候都是子树匹配，落地甚至可以是 binary 关系组的匹配。原则上，任何 node 可与任何 node 发生暧昧，不讲门当户对。
一张分析全图（the entire tree）的元逻辑性（meta logicality）可以不管它，只要个体的 dependency 有说法就行了。英语也是：“have a book to read”
句法标签是宾语 ➕ 宾补，后加逻辑vo
到了逻辑语义层或语用层、抽取层，句法的层次理论和原则不算数了。

bai:
“他有三个保镖保护着。”
句法上其实有条件带点笼统性地把坑共享的标配拿出来。

我:
有 np vt，vt 的标配是 np 做宾语（o），若要 s 做逻辑宾就需要外力。

bai:
这房间有三扇窗户可以通风采光。连逻辑宾都不是，最多算间接逻辑宾

我:
我的理解是逻辑主语。两个主语都说得通，全部与部分。

bai:
“这房间”对于“通风采光”来说是填什么坑呢？

我:
主语啊。窗户也是主语，不过是整体和细节的区分而已：
窗户通风了，房间自然通风。

bai:
这套音响有七个音箱和两个低音炮可以营造出环绕立体声效果。

我:
这样不断营造语用现场，其实导致的不是语言学关系的矛盾，而是语义 interpretation 的挑战。
语言学关系的标签，本性是弹性的，哪怕标签取名不一定合适或容易误导（譬如主语误导为施事，其实未必）。主语也好、宾语也好，都是万能的筐，什么 interpretation 都可能。话题（Topic）就更甭提了。
常识来说立体声效果的营造，应该是立体装置的总体，这些装置的个体达不成这个效果。这是知识内部的争论，与语言表达背后的结构关系不大。知识内部也可 argue 立体装置中某个装置是决定性的，那个装置效果出来了，立体效果就基本出来了。
这是两套系统，两个层面。结构关系，与我党对历史事件的原则一致，宜粗不宜细，留下语义解释或争论的空间。

bai:
那就干脆粗到不分主宾语，只计数目，不计语序方向，更不计subcat的相谐，装到框里再说。在遇到多种填坑戴帽可能性的时候，再把这些法宝一个一个祭出来。吃瓜打酱油的捎带着做细了。不是为了做细而做细，是为了增加确定性而做细。这就有意思了，比如量词搭配。看起来是在细化修饰关系，可顺带把逻辑宾语搞定了，纯粹是搂草打兔子。

我:
不是不可。实践中，往往在句法关系或标签的 representation 的极端做法之间，做个折衷。更多是为了方便。说到底，一切句法语义计算的表达，都是人自己玩，方便原则不过是让人玩的时候，少一点别扭而不是求一个逻辑完备性。representation 作为语言理解的输出，本质是人的逻辑玩偶。爱怎样打扮都可以。这个本性是所谓强人工智能的克星。

bai:
我还不那么赖皮……

我:
强ai 更赖皮

bai:
刚性的局部可以顺带给柔性的全局注入一小丢丢刚性，但是出发点就没指望全局会百分之百刚性。

我:
连语义的终极表达都一头雾水，说什么强智纯属扯淡。

bai:
强AI我反对，语义表示太过任意我也不赞成。总要有个松紧带勒着。

我:
system internal 是做现场的人的现实。很多东西就是有一个模模糊糊大的原则，或有相当弹性的松紧带。下面呢，就是一个系统内部的协调（system internal coordination）。在人叫自圆其说，在机器就是内恰。

bai:
二分法是要的，一部分role assignment，一部分symbol grounding。前者是深度NLP的必修课，后者跟现场关系更大些。
过松的松紧带，红利已经吃得差不多了。新兴的松紧带，不紧点就没有投资价值。

我:
投资价值与宣传价值还有一些不同。投资价值对松紧不会那么敏感，除非是投资与宣传（marketing）紧密相关的时代，譬如当下ai泡沫的时代，或当年克林顿的时代。
投资价值的落脚点还是语义落地（semantic grounding）。至于怎么落的地，松啊、紧啊，不过是给一个宣传的说法。昨天我还说，syntaxnet 和很多 dl 都是开源的，要是好落地为产品，还不是蜂拥而上。现实是，不好落地。
所谓核武器是这样一个工具，它有一个明确的落地途径，至少从方法学上。system internal 的落地管道，被反复验证的，余下的主要是领域打磨和调试。

bai:
现在很多公司是万事俱备，就差核武器

我:
syntaxnet 至少目前状态没有这个。虽然也是 deep parsing，但并不是所有的 deep parsing 都是核武器，要看是谁家的、怎样的 deep parser 才有核武器的威力。

bai:
你没看上眼的，我们可以不用讨论

我:
看上眼的dl，是有海量带标数据的（最好是自然带标数据，无需组织人去标注），端对端绕过显性结构的，里面满肚子谁也猜不透的隐藏层黑箱子的机器，譬如神经机器翻译（ nmt）。

bai:
带标看标在什么地方。标在字典里OK，那算数据资源建设。标在语料里，即便假定标注体系在语言学上是正确的，还要考虑做不做得起呢，何况语言学上错误的标注体系，更让人怀疑有没有价值和意义去如此大动干戈了。

我: 回家了，可以测试：“你渴了饮水机里有水可以喝。”

逻辑的坑都没到位。句法的框架不能算离谱。就是这样。至于叫补足语还是叫 Next，也无大关系，反正后续语义中间件需要这么一个桥梁做细活。“有 NP V” 的句式以前调试过，比想象的复杂，一直没搞定，就放置一边了。

bai：
“有电话可以打”“有空调可以吹”“有大床可以睡”
不必然是逻辑主语，不必然是逻辑宾语，甚至不必然是必选坑。两个谓词中间被NP穿插的，朱先生书里叫“连谓结构”。类似伟哥的next。

我：哈。

bai:
大床居然是S

我:
目前词典没有收可分离合成词 “睡床” 或 “睡大床”。默认做主语也是可以的。循 “有什么什么发生了” 的句式，何况 “睡” 做不及物动词的时候更多。不是说分析对了，而是说错得有迹可循。汉语“有”在句首的时候，常常是 dummy，如果 “有” 前有个 NP，那么后面的 NP 做主语的机会就相应减少了。
白老师曰: 大床居然是 S：

有两个哥们，一个叫大床，一个叫小床。大床爱睡懒觉，小床爱撒酒疯。有大床睡，就有小床喝，一刻不得安宁 .... 【谁接龙？】

bai:
白老师还曰，任何成分皆可为专名。

我: =:)
吾谁与归？

bai:
时不我待

我:
想起文革时期的莫须有群众举报，结论是：事出有因，查无实据。然后是有则改之无则加勉就是教育被污名者自认倒霉，没的冤枉。
说实心话，昨天白老师说很多公司是，万事俱备，只欠东风。时不我待，我手心的疑似东风如何才能刮起？

bai:
专名是一种层次纠缠。
事出有因，查无实据；有则改之无则加勉。这是那年代的套话
方言，成了小说里的人名；文章，成了现实中的人名。
找谁讲理去。
只能用“结构强制”，从外部施加影响，再辅以大数据。

我:
说事出有因是文过饰非。
不过 nmt 测试的结果常常连事出有因都很难。一个长句只有一个字不同，而且这个不同的字还是同质的，nmt 翻译结果却有很大的不同。这个现象非dl专家无法解释和理解

bai:
所以规则层面的、用可理解的特征直接表示的知识如何混入大数据直接参与学习甚至“编译”，非常重要。

我:
所谓符号逻辑派就是错了也错得事出有因 debug 也知道症结所在

bai:
符号逻辑派缺乏的是柔性，不知道认怂，一错到底。

我:
yeh 见过这种人还不少

【相关】

【李白对话录之九：语义破格的出路】

【李白对话录之七：NLP 的 Components 及其关系】

【李白对话录之六：如何学习和处置“打了一拳”】

【李白对话录之五：你波你的波，我粒我的粒】

【李白对话录之九：语义破格的出口】

白:
“国内大把的钱想出逃”
钱不会“想”。但是“出逃”只有一个坑，除了“钱”没有其他候选。这种情况下句法优先，语义的不匹配，到语用（pragmatics）层面找辙。一个语用出口是拟人、人格化，把钱人格化。另一个语用出口是延展使动用法，钱的主人“想”使钱出逃。

我:
1117a
出口的问题也许不必存在。句法搞定的东西默认是语义不出场语用不解释，除非落地需要这种解释。落地通常不需要。譬如 mt，一个语言的语义不谐而产生的转义通常可以平移到目标语，哪怕是八杆子打不着的语种之间。譬如乔姆斯基的 green ideas，直译成汉语，同样可以反映乔老爷想 make 的 point：句法确定的时候可以排除语义。

白:
聚焦句法的人看到的是half full，聚焦全局的人看到的是half empty。

我: 哈
这里谈的是默认。默认做法是、一直是，语义破格是默认许可的，句法破格才需要语义出场。因为自然语言中，句法确定场合下语义破格太常见了，常见到见怪不怪。无需解释。而受体在理解过程中常常各有各的理解根据这个人的教育和素养而不是语言学后者个体差异不大。

白:
默认的主体是谁
分析器么？分析器我同意。但默认的主体不必然是分析器。

我:
换句话说，如语义破格一定要给一个语用出口的话，很可能莫衷一是，标准很难制定。譬如乔老爷的破格的 green ideas，我们语言学家的理解与普罗的理解在语用层面相差太大。但是在句法层面，精英与普罗是一致的，虽然普罗可能不知道主谓宾定等术语。

白:
钱想出逃，在应用场景中是有意义的，不管精英普罗，并没有大的分歧

我:
洗钱的意思？

白:
不一定，也有正常的恐慌.包括本地赚了人民币觉得不安全的，以及外资觉得不想继续玩下去的。

我:
这些破格带来的附加的意义，是听众体会出来的。每个人的体会即便大体方向一致，也很多差异。白老师的理解，比我的理解要丰富，比普罗更不同。很难形式化。即便能形式化也很危险，因为有强加于人限制其他可能的缺陷。

白:
这不重要，重要的是面向大众中和精英的预警都要take it into account。

我:
也许只要指出某个关节语义破格就可以了，至于这个破格意味什么让人各自琢磨。其实破格的事儿指出不指出大家都心知肚明。

白:
伟哥说的是模块视角，不是系统或服务视角。换到服务视角，即便面向普罗，但是定位也可以是让普罗觉得专业，精英觉得不外行。一个带有修辞性语义破格的表述只有把附加意义掰开揉碎了才能向后传播，跟其他信息滚在一起发酵。在NLP同行间心知肚明的事，要想在知识情报各个piece之间引发chemistry，必须还原为掰开揉碎的形态。形成看上去专业的影响链、作用链。

我:
语义计算提供多种可能在语用中发酵是个好主意，可能提升人工智能的深度。

白:
所以，一个有追求的服务，不会迁就普罗的非专业理解，而是想办法把专业的理解用普罗便于接受的形式展现出来。

我:
不过也有可能是潘多拉的盒子

白:
不喜欢不买便是

我:
发酵到不可收拾不收敛，语义破格的确是 nondeterministic，本性就是发散。其本质是诉诸的人类的想象力。

白:
有些破格已经是家常便饭了
像这句家常便饭就是。

我:
“家常便饭”的破格通常固化到词典里面去了。绑架以后就把破格合法化了可以不算是破格了。只是词源上可以看到两个语义对于同一个词。系统是看成两个个体的尽管实际操作我们常常绕过wsd，不做区分但是如果需要区分词典是给出了两条路径的。

白:
但和本意还是两个义项
“没怎么特意准备，就是家常便饭，大家随意吃哈。”
家常便饭遇到吃，和难过遇到小河，是一个性质。

我:
感觉正好反着
家常便饭遇到吃是常态默认；就好比难过遇到人【human】。
家常便饭甚至谁也遇不到，也还是默认为本义【food】。
“难过” 稍微模糊点谁是本义谁是转义可以 argue，但通常按照 hidden ambiguity 的原则，词法大于句法，“难过”因此本义是 sad。

白:
计算机只管一个是本义、另一个是转义，其他不care

我:
转义带有强烈的句法组合色彩，是 difficult to cross。
当然这一切都听人的安排，遵从便利原则。
语义计算没有人工便没有语义，没有语义就谈不上计算。
说到底人的语义 design 以及系统内部的协调的考量，是语义计算的出发点数据是语义计算的营养基地。

白:
如果说到相似性，就是固定组合里面的词素和外面的词素产生了搭配趋势，改变了原来的结合路径。

我: 对。
“这条河很难过。”
lexical entry “难过”里面的词素“过”与外面句法的词素“河”发生了 VO 的关系纠缠。
“这孩子很难过。”
就没有纠缠，桥是桥路是路。

白:
本义的家常便饭，和外面的“吃”有纠缠，转义的没有纠缠；本义的难过和外面的“小河”有纠缠，转义的没有。本义的不一定是概率最高的，譬如本义的“难-过”就可能比不上转义的“难过”概率高。

我:
所以说，要遵从便利原则，系统内部协调。本义、转义的区分不重要，重要的是内部协调：哪个义项最方便作为标配。一旦作为标配，就不必考虑纠缠的条件了。只有不是标配的选项才需要条件，或者需要唤醒。一般而言是概率高的做标配。或者条件混沌、难搞定的那个做标配。然后让条件清晰的去 override 标配，此所谓 system internal coordination。遵循 longest principle，具有 hidden ambiguity 的“难过”，词典标配可以是 sad

白:
选最高概率的作为标配是情理之中，但标配如果恰好是本义，就不需要纠缠去唤醒本义了。“把国民经济搞上去”

我:
最高概率原则保证的是，万一系统没有时间充分开发，标配至少保证了从 bag of word 的传统模型上看，数据质量最优。我们实践中也遇到过决定不采用概率最大的作为标配，这是因为概率大的那个选项，上下文条件很清晰，规则容易搞定。而概率小的选项却条件模糊，所以索性就扔进词典做了标配。所有这些考量都是 system internal，与语言学或词源学上的本义、转义没有必然的对应联系。

白:
吃豆腐，标配是本义，搭配在本义内部纠缠，遇到sex上下文时进入转义。不一定显性，隐形的sex也在内。比如，“张三的豆腐你也敢吃？” 当然，张三卖的豆腐有食品安全问题时，也可以这么问。后者更加specific，是“例外的例外”

我:
例外之例外不得超过三层，这是我的原则，甚至不超过两层。虽然人使劲想，可以一直想到更精巧的例外之例外来。系统不要被带到沟里去。曾经由着性子这么干过，一路追下去，自以为得计。在某个时间的点，一切都 ok，但除非封装为黑箱，只要系统还在继续开发中，那种追求例外之例外的开发路线，结果是捉襟见肘，不堪维护。鲁棒的系统不允许规则具有嵌套层次的依赖性。【科研笔记：系统不能太精巧，正如人不能太聪明】

白:
这话放在比特币上，一堆人会跟你急。比特币的设计实在是太精巧了。

我:
超人例外。电脑例外。机器学习例外。
肉身凡胎的人做自然语言系统，stay simple，stay foolish 怎么强调也不过分。

白:
“人家都出轨了，你为啥还没上轨”这标题有意思

我:
机器学习例外是因为反正就是个黑箱子，里面有多少参数，调控成了怎样都是一锅粥，在 retraining 之前，这就是一锤子买卖，好坏就是它，不跟人类讲理。

白:
无规则的系统例外

我:
无 symbolic rule 的系统例外。规则的广义似乎也包括黑箱子系统。严格说该是，无可以让人干预的 symbolic rule 系统例外，如果是 symbolic，但是人不得干预，那也无妨。跟封装等价。

白:
完全词例化的系统也是无symbolic rule的系统吗？

我:
在我这里是。每一条都可以做符号逻辑的解释，都遵循某种语言学的思路。

白:
人只能干预词典

我:
1117b
句法是超然的，处变不惊。只有语义甚至修辞，才需要把出轨与上轨联系起来，感受其中的“深意”。interpretation 是围绕人跳舞的，譬如我们做 sentiment，把大选舆情挖掘出来，至于如何解读，各人面对挖掘出来的同样的情报，会各自不同。很多人想让机器也做这个解读，基本是死路。上帝的归上帝，凯撒的归凯撒。剥夺人的解读机会，简直蛮不讲理，而且也注定无益。

白:
在证券领域，就是智能投研和智能投顾的关系。

我:
解读的下一步是决策。机器不能也不该做决策。

白:
智能投顾也可以是机器人，但根据一份智能投研报告，不同的智能投顾机器人可以做出不同的投资决策。机器真做决策。但是决策机器人和语义分析机器人之间有防火墙。在投资领域，机器比人强。人过于贪婪和不淡定。人处理信息特别是把握瞬间机会的能力不如机器。做对冲的不利用机器是不可想象的。

我:
这个我信。
甚至银行的那些投资顾问，遇到过不止一个了，老是忽悠我们每年定期去免费咨询他们，感觉他们的平均水平低于一台机器。按照他们几乎千篇一律的所谓投资建议去投资，不会比遵循某个设计良好的系统的建议，更有好处。这些顾问应该被机器把饭碗砸了，省得误导人。
【相关】

【从 colorless green ideas sleep furiously 说开去】

【李白对话录之八：有语义落地直通车的parser才是核武器】

【李白对话录之七：NLP 的 Components 及其关系】

【李白对话录之六：如何学习和处置“打了一拳”】

【李白对话录之五：你波你的波，我粒我的粒】

Small talk with Daughter on US Election

just had a small talk with Tanya on US election, she was super angry and there was a big demonstration against Trump in her school too

T:
I don't want him to win
I don't want him to do well
Or else another racist gets electedMe:

Me:
neither did I
IF he does very badly, he will be impeached;
or at least he will not be reelected in 4 years.
But now that he is, we can keep an open mind.
There is an element of sentiment he is representing: so-called silent majority, that is why most polls were wrong.

By the way, many have praised my social media analysis just before the election, mine was way better than all the popular polls such as CNN. This is not by accident, this is power of big data and high tech in the information age:

Final Update of Social Media Sentiment Statistics Before Election

with deep NLP and social media, we can pick up sentiments way more reliable and statistical than the traditional polls, which usually only call 500 to 1000 for opinions to hope they represent 200 million voters. My mining and analysis are based on millions and millions of data points. So in future we have to utilize and bring the automatic NLP into things like this as one important indicator of insights and public opinions and sentiments

So in future, we have to utilize and bring NLP into things like this as one important indicator of insights and public opinions and sentiments.

T:
daddy
you're amazing
Your technology is amazing

Me:
I got lots of compliments for that, but yours mean the most to me.

What happened in the election as I had been tracking using our NLP sentiment tool was:

1. Clinton was clearly leading in the period after the recording scandal of Trump and before the FBI started reopening Clinton's email case: Big data mining shows clear social rating decline of Trump last month.

2. Clinton has always been leading in Spanish speaking communities and media, but that did not seem to be sufficient to help revert the case: Trump sucks in social media big data in Spanish.

3. The event of FBI re-opening the email investigation gave Clinton the most damage: Trump's scandal was cooling down and the attention was all drawn to Clinton's email case so that the sentiment has a sharp drop for Clinton (【社煤挖掘：大数据告诉我们，希拉里选情告急】)

4. When FBI finally reissued a statement that there was no evidence to charge Clinton only 2 days before the election, time was too short to remedy the damage FBI did in their first event of reopening the case: my big data tracking found that there was some help but not as significant (【大数据跟踪美大选每日更新，希拉里成功反击，拉川普下水】).

5. Then just before the election, I did a final update of the big data sentiment tracking for the last 24 hours versus last 3 months, and found that Trump had a clear leading status in public opinion and sentiments, so I decided to let the world know it although at the point most everyone believed that Clinton was almost sure to win.

T:
Oh my god dad your machine is the smartest tracker on the market
Dad your system is genius
This is exactly what media needs
You should start your own company
This is amazing
I think this would be the planets smartest machine

Me:
I do not disagree, :=)It was a tight competition and with good skills, things could turn different in result. In terms of popularity votes, they are too to be statistically different, so anything at the right timing could have changed the result.

It was in fact a tight competition and with good skills, things could turn different in result. In terms of popularity votes, they are too to be statistically different, so anything at the right timing could have changed the result.

On retrospect, FBI did a terrible thing to mess up with the election:
they reopened a case which they did not know the results
just 10 days before the election which made a huge difference.
On the other hand, the recording scandal was released too early
so that although it hurt Trump severely at the time, yet it allowed FBI to revert the attention to Clinton

In future, there should be a strict law disallowing a government agency
which is neutral politically by nature to mess up with an election within a time frame, so Trump's winning the case to my mind has 80%+ credit from the FBI events.
What a shame

[Related]

Big data mining shows clear social rating decline of Trump last month

【置顶：立委科学网博客NLP博文一览（定期更新版）】

《朝华午拾 - 水牛风云》

朝华午拾 - 我的世界语国（五）: 水牛风云

作者：立委

纽约州水牛城是我来美奋斗挣扎了八年的地方，我的世界语国也经历了许多的风雨起伏。

我是在美国网络热潮中来到这家创业公司的（见《朝华午拾－创业之路》）。在世纪末网络泡沫破灭之前，我协助老板获得了1000万美元的风险投资。钱一下多得好像永远用不完似的。老板决定停薪留职，不再承担她的大学教授责任，来到公司当任全职CEO。开始的 executives 就老板和我两个人。我们踌躇满志，准备大干一场，开发自然语言技术支持的新一代问答系统。

跟钱同时进来的是压力。如果我们无能快速组建团队，老板对投资人就无法交代。扩员的压力很大，我和老板漫天做招工广告，每当发现一个合适对象，并成功招纳，就相互祝贺。如果有一周一个也没有招到，就有挫折感。

当时的气氛跟中国大跃进类似，理性被压抑，冒进被称颂。投资人来视察时，得知我们新的办公楼还在接洽，旧的办公室太过拥挤，难以适应迅速扩张的需求，竟然提议两班倒，“人停机不停”。我们明知科研和开发不是靠“革命热情”和人海战术就可以飞跃的，但是在当时的那种气氛下，也没有办法跟投资人说清这个道理。作为经理，我只好因势利导，每个周末以身作则，来公司加班，并鼓励员工至少周末加班一天。平时每天晚上六点半左右我出去买各式快餐，好像大跃进吃公共食堂的样子，为届时还在办公室的员工提供免费晚餐。

董事会要求我们尽快从当时的五六个员工至少扩充到50－60人的规模。我作为第一位副总，被赋予为我的研究开发组招工扩员20－30人的任务。我的组需要三类人才，一是研究科学家，要懂机器学习算法，跟踪最新学术动态，二是软件工程师，能够开发和优化 real life 软件模块，三是语言学家，可以编制和维护机器语法和词典等软件资源。前两类人比较紧缺，语言学家相对好办。我先从加拿大招来两名语言学家，又在德国招来一名，加上一名中国籍女博士，组建了一支语言学博士队伍。董事会还嫌我们扩张速度不够，不能符合他们的大跃进要求。我们于是实施员工引荐的奖励办法，非经理的员工推荐一人，一旦受聘，可得一千美元奖金。作为经理，内举不避亲，我着手在我的两个社会圈子，华人和世界语朋友中，继续扩招。华人圈子主要是中国的留学生和新移民，前后招进10名。其中多是先跟我做暑假实习生（interns），然后留下来成为正式员工。他们多还没有毕业，也没有北美工作经验，需要留在水牛城继续学业，能够来到公司一边工作，一边完成学位对他们是绝好的选择（水牛城工作机会很有限，我们公司被认为是比较理想的所在）。老板对中国学生印象很好，认为他们比印度同学更加踏实能干，所以对我偏向在华人留学生中招员表示支持。

世界语圈子里，我跟加拿大世界语协会主席P先生认识多年，他的博士已经念了七年多了，因为毕业即失业的压力，一直在系里耗着不毕业。我于是去信请他来面试，邀请他加盟我的研究开发组。他询问待遇如何，我告诉他如果被录用，比他现在的 sessional instructor 的工资高出两三倍，他自然喜出望外。拿到 offer 以后，他和他的世界语太太欢天喜地，开车从西海岸沿一号公路横穿加拿大，经多伦多一路开车到水牛城报到。由于他的到来，水牛城成为世界语俱乐部的新据点，来自邻城多伦多和 Rochester 的世界语朋友，也纷纷来他的公寓聚会，我的世界语圈子也随之扩大了。

早在温哥华念博士时期，我就认识了P先生。其实他可以算我的师兄，在我进入语言学系前他就在我系读博士，到我去的时候，他转到邻城的另一所大学继续他漫长的博士生涯。我们在地区性的语言学会议和世界语会议上都见过面，他给我的印象是比较典型（stereotyped）的语言学家，有点迂腐，善于做田野工作，detail-oriented，懂得很多门外语，适合当秘书或编辑。我觉得经过培训，他可以胜任机器词典语法的编制维护任务。我离开温哥华前，和他也有一些个人交往，一次开北美语言学会的时候，曾在他家留宿。还有一次开北美西北地区世界语会议以后，我搭乘他的车回温哥华。一路上，他和太太两个兴奋异常，用世界语高谈阔论，突然发现汽车没油了。半夜三更，我们被困在高速公路旁边。当时我们是学生，为省钱都没有加入汽车协会（CAA），所以也无法向CAA求援。P先生后来硬是步行到下一个高速出口边的汽油站，请求好心人帮忙送来一管汽油，我们才得以平安回家。

P先生是在欧洲参加世界语大会时认识太太的。太太是当地的世界语积极分子，跟前夫离异后带着女儿生活。她性格爽朗，滔滔不绝，说话爱夸张，表情丰富。谈起她和P的相识相爱，总是眉飞色舞。她把丈夫看得很高很大，现在丈夫博士还没有答辩就找到了工作，经济一下子翻身了，她的喜悦更是溢于言表。为了表达对我举荐和接纳的感激，她自己绘画，制作一批手工艺卡片送给我的太太，还赠送我一本柴门霍夫传记，扉页写满了对我的溢美之词。

P先生来后，工作按部就班，倒也兢兢业业，但跟现有的几位语言学家相比，也并不突出。我们只做英语，他的外语专长也无法表现。他也不大懂公司文化中的个人表现和隐形的加班要求，总是按时上下班。也难怪，他和太太有很多世界语协会的杂务，编辑加拿大世界语协会通讯，发展会员等等。看的出来，他们满意现状，很 enjoy 目前的生活。我心内认同这样的劳逸结合的生活方式，但自己不得不过另一种生活：每天天很晚才回家，周末总是加班，难得有时间陪孩子和太太。

有一次跟P聊天，我提到想把同样是世界语者的资深D博士招来，可是联系不上，P先生说可以在世界语朋友中查询他的下落。过了两一个月，他兴冲冲告诉我联络上了，说D博士目前在一家社区学院担任临时讲师。我马上打电话给他，一拍即合，邀请他前来面试。D博士曾经是我的”上司”（见《朝华午拾－我的世界语国（四）: 欧洲之行》）：当年在荷兰公司以世界语为媒介语的机器翻译项目DLT中，他负责指导和审查我承包的汉语形式语法。我想，作为资深语言学博士，又跟我一样实际从事过多年的机器翻译工作，他也许可以帮助我指导这个越来越大的团队。

面试并不顺利。D博士年岁较大，反应有点迟钝，我也感觉有些失望，至少他不象是个 group leader 的人才。不过，心里想，他也许经历的挫折较多，至少经验是有的，作为一个 team member，想必没有问题。老板跟我说，D很老实，但是不象是个能干的人，不主张招。不过，如果我觉得能用上，还是由我定。我咬咬牙，还是招了，但没有给资深人士待遇，年薪跟其他语言学家拉平。尽管如此，对于D博士，这无疑是自荷兰公司工作后的多年漂流生涯以来的最好工作。他和他的世界语太太也是欢天喜地来到水牛城，而且来了不久就买了房子，俨然要在水牛城扎根。后来得知，D博士的母亲听到儿子得到一份不错的工作的喜讯，决定提前把家产划给他，资助他在房价便宜的水牛城置办房产。

说到这里，有必要介绍一下语言学家供过于求的北美劳务市场。在西方，有很多冷门专业不断制造着社会不需要的人才，这些专业的大部分博士毕业即失业。冷门专业包括我们从小迷信其威力的数学和物理，我主修的语言学也是其中之一。这些专业的博士生除了谋求教授职务，在社会上很少有需要其专门技能的岗位。可是教授职位毕竟很有限，往往一个职位出来，就有上百个博士和博士后申请，对于不是一流大学的博士，求教职简直比登天还难。拿语言学来说，就我所知，甚至MIT的博士，也常常需要经过两三轮清贫的博士后中转（博士后是真正的学术“苦力”，一年两万左右薪水，经济上比餐馆打工强不了多少），运气好的最后可能找到一个二流或三流大学的教职。

这就是我所学的可怜的语言学的现实，好在我的研究方向跟电脑有关，运气稍好。可是很多我的同学终身潦倒落魄。少数头脑灵活的丢掉专业转行去干别的，更多的人不能适应社会的需要，只好在大学做临时讲师（sessional instructor，僧多粥少，这种工资很低的临时工也很难找），或者接点翻译或编辑的零活，勉强糊口。别小瞧这些语言学博士，他们尽管没有多少创造性，棱角也早已磨圆了，可个个都是饱学之士，多数都会五六种外语，会十几种外语的也不在少数。我的世界语朋友P先生和D博士就是他们的代表。这些落魄而清高的语言学博士，囊中羞涩，在北美很难得到女士的垂青。可是在前共产主义的东欧，借助世界语的特殊场合，却可能喜结良缘。D博士在荷兰公司的项目完结以后，辗转东欧各国，教授了几年英语，同时投身当地世界语运动。回美国的时候，跟P先生一样，带回来一个世界语者太太。

我们在语言学家中大量招工的行动引起了媒体的关注。当时，我们的几个竞争对手包括AnswerLogic.com 也一样到语言学家中招工，形成了一道社会风景。我们这些活动经过《华尔街日报》题为”No Longer Just Eggheads, Linguists Leap to the Net”的采访报道后，在社会上和语言学界引起强烈反响（甚至中文报纸《世界日报》也编译了华尔街日报的报道），一时间似乎为语言学家开辟了一条新路。作为参与者，我为自己能够帮助同行创造就业机会感到欣慰和自豪。在公司内部，尽管由于劳务市场的供需影响，语言学家作为 knowledge engineers，比同等学历的软件工程师工资要低，我还是尽量为他们谋求高于市场价格的待遇。一时间，公司仿佛成为语言学家的天堂。

然而，好景不长。D博士差不多是我们疯狂扩招的最后一个了。世纪末，网络泡沫终于破灭，Nasdaq 科技股市场一落千丈，投资人变得异常挑剔和谨慎。AnswerLogic 拿钱比我们早，烧得比我们快，轰轰烈烈闹腾了不到两年，终于随着Nasdaq的坍台而销声匿迹。还有一家搞自然语言有相当年头的公司，日本投资人决定撤资，拍卖股权，公司负责人找到我们，认为我们两家的技术有很大的互补性，希望我们贱价购买，并接纳他们的技术骨干：负责人实在不忍心对技术骨干裁员。我们的另一个对手，曾经拿到三千万巨额投资，集中了世界一流科学家的 Whizbang! 也遭遇滑铁卢，投资人在烧了一千多万美元以后，决定撤资，撕毁合同，放血大拍卖：他们的所有技术，包括源程序和说明，everything must go! 价格已经降到一两百万美元，让我们不得不动心。可是我们泥菩萨过河，自身难保，没有能力和精力消化这些技术，只好放弃这个“deal of the century”。股市垮台不到一年，几十家在我的 watch-list 中的对手，只剩下两三家，跟我们一样勉强维持，惨淡经营，朝不保夕。

我们当时还剩下约五百万投资，加上不断增长的政府项目的进项，还没有到山穷水尽。当然，投资人也可以中途撤资，但他们最终还是决定继续支持下去。不过，董事会决定重金引进职业经理人，我的老板只好屈居第二。新的CEO精明强干，哈佛MBA出身，此前领导过三家高科技创业公司，并成功转手出售给大公司，有不错的 track record。他的担子很重，在 high-tech 公司纷纷关张的恶劣形势下，必须带领公司闯出新路，度过难关，伺机发展。当时，问答系统的先行者 AskJeeves 盛极而衰，股票一跌千丈，董事会因此认定我们一直在开发的问答系统没有市场，指令转向开发新产品。

CEO上任以后，连续两周听我们详细介绍技术细节，比较我们的技术跟可能的竞争对手的异同，开始咨询一些外面的高参，探询新产品的路子。同时，他不动声色地考虑如何重组（re-org）公司，减少开支，轻装前进。对于高科技公司，最大的开支是人力资源，re-org 就意味着裁员。他随身总带着一个花名册，上面标有每个员工的职务和工资，他不时在上面写写划划，有的打叉，有的标上问号。最先打叉的就有D博士。这也不怪，D博士来了不久，就犯了几个低级错误，闹了不少笑话，他老朽无能的评价很快就反馈上来了。我很为难，但是知道难以保护他，他确实不上手。我至今也不明白，一个名校博士，有六年相关的实际工作经验，怎么这样不入。他也没有到老糊涂的年岁呀。

D博士自己也有所觉察，有危机感。他有点木纳，不善于迎合其他主管，觉得我是他的唯一的救命稻草，于是请我和全家做客，P先生夫妇作陪，联络感情。他的用心我很明白，可我确实无能为力，在公司正式宣布裁员名单前还必须小心保密。这次请客真让我犯难，跟太太一商量，觉得不能不给他们夫妇一个面子，但又不能让他们有错觉我有能力保护他。最后决定我一个人去，带上礼物赴宴。女主人使出全身解数，做了一顿极为丰盛的晚餐，用的餐具也很讲究，可是我没有任何胃口和心情，硬着头皮应付。气氛有点凝重，连平时爱热闹，喜欢多话的P太太，察言观色，也收敛很多。P先生夫妇转着弯子替D博士美言，我只能微笑不语，这是我在世界语国所经历过的最别扭的晚宴。

裁员计划暂缓，因为CEO和董事会还在协商多大的裁员幅度既能节省开支，支持公司开发出新产品，又不伤筋骨，保存骨干。终于，在CEO到来的第三个月，裁员指标在管理层下达，我做梦也没有想到，我们辛苦发展的60多员工的公司，居然要砍掉一半。这下不但D博士保不住，连P博士（P先生当时已经答辩，顺利拿到了博士学位，正春风得意）也必须走人。由老板和天使投资人任命的四个年轻副总，也开掉三个，甚至天使投资人的亲弟弟也不能幸免。老的VP就剩下我一个，好腾出位子让CEO引进资深经理人员，组建新的领导班子。公司的第四号员工，一个挺能干但爱抱怨的西班牙小伙子，也列入黑名单。我感到痛心，毕竟大家同舟共济，一路走过来，我说服老板和我的老搭档、瑞典籍的第一号员工一起去跟CEO说情，还是没有成功。CEO跟我说：I know it’s a great pain, especially for those you have worked with for long. But we all want the comnpany to succeed and this is the only way to survive this tough time. I have done this numerous times, believe me, it works. 说的是老实话，可是作为经理，要开掉自己亲手招来的员工，是什么滋味：job 是员工的命根子，你不能把人送上天堂，转手又打入地狱。

煎熬不止这些。我保护华人员工的私心也受到挑战。经过多轮内部讨价还价，最后决定10名华人员工必须裁掉两位。大家乡里乡亲，砸人饭碗的事情怎么忍心去做。就在这个当口，我两年前招进来的中小学同学C博士跟我谈起，他由于个人原因，已经决定海龟（后来应聘招标成为名校的博导和正教授，事业一片光明），但是不想在裁员风潮中辞职，怕人误会是表现不佳，不得不离开。我心内暗喜，他的离开至少救了一位。我说，你不用当心，我们可以安排你在裁员风潮过后离开，而且公司会为他饯行，表彰他两年来的贡献。还剩最后一位华人员工，看样子是保不住了。我不死心，私下跟我的资深助手一起，沟通CEO刚招进来的资深工程副总，说服他工程组需要一位我们研发组出身的既懂技术又懂工程的人，作为两个组的桥梁，这样在新产品开发中可以加速技术转移。说的也是实情，但一切在于权衡。副总新到，对我们老人有所依仗，现在CEO把工程组裁员重组和产品开发的任务交给他，他多方权衡，终于接受我们的方案，接纳了我们推举的人，使我松了口气，总算保全了华人员工。

在大裁员的那一周，我整夜整夜失眠，心急如焚，茶饭不思。更加残酷的是，裁员实施当天，我作为经理，必须履行职责，跟被裁的员工个别谈话，做好善后。不管怎样小心，最后还是有风波，一位被裁的白人女质量检测员，平时受过我的批评有积怨，加上看到华人员工均完好无损，扬言我们有种族歧视和性别歧视，要到法院告我们。公司后来找人沟通，说服她私了了。我的西班牙同事，也是一个实心眼，经常打电话给我，想回到公司，可是开他的人都在台上，怎么可能。他还几次回来看我和其他老同事，跟我说对公司念念不忘，充满love-n-hate的感情。我的中国同事担心他想不开，做什么绝事，劝我躲开他。我了解他的为人，同情他的遭遇，还是一直跟他保持良好的关系，并在他寻找新的工作时给予强烈推荐。

回想起来，不动大手术，公司难以为继，也就没有后来的复苏，成功地开发出市场需要的产品，使得投资人愿意进一步追加二期和三期的资金。可是，我和老板毕竟是书生，没有职业经理人的“铁石心肠”，感情上很难接受裁员的残酷现实，无法面对员工的惊惶和绝望。

我不能忘记P太太听到丈夫被裁、天雷轰顶一样的反应。裁员前夕，他们夫妇正计划利用每年的假日去参加北美世界语会议，老板跟我商量，决定暂先不告诉他们裁员的消息，以免影响他们的心情。可以想见，当他们在世界语国欢度一周回来后落到深渊的感受。从我们这里出去，P博士回到加拿大担任了一段园林工人，后来好像找到一份临时秘书的工作，在某大学帮忙。D博士此后失业很久，一直找不到工作，也不知他刚买的房子怎么了结。

好久好久，裁员的阴影挥之不去。太太安慰我说：你已尽了努力，他们的工作在紧缩时确实是可有可无，无法保全。唯一可以自我安慰的是，他们本来是没有机会的，我毕竟给了他们机会，并没有因此耽误他们的其他机会。

我很佩服CEO，在随后开发新产品和技术转移过程中，跟他配合默契。但在他领导公司走向成功的路上，我总觉得有“一将功成万骨枯”的悲凉。命运使我凑巧进入小公司的senior management，八年下来，我的体会是，经理，这不是我等意志薄弱者应该干的活计。

Wei Li
记于2006年独立节

立委《我的世界语国》入《世运人物志》

【相关】

《朝华午拾：用人之道》

《朝华午拾－创业之路》

Pulse：实时舆情追踪美国大选，live feed，real time！

http://www.netbase.com/presidential-elections2016/

Clinton has been mostly leading the social media sentiment :

Screenshots at 4:50pm 11/8/2016:

11082016a

110820160450b

110820160450c

110820160450d

110820160450e

Again go check our website live on Pulse:

http://www.netbase.com/presidential-elections2016/

[Related]

Big data mining shows clear social rating decline of Trump last month

Final Update of Social Media Sentiment Statistics Before Election

Final update before election:

timeline-comparison-2
Net sentiment last 24 hours: Trump +7 ; Clinton -9. The last day analysis of social media. Buzz:

timeline-comparison-3
So contrary to the popular belief, Trump actually is leading in social media just before the election day.

Compare the above with last month ups and downs to put it in larger context:

Last 3 month sentiment: Trump -11; Clinton -18.
Buzz for Trump never fails:

timeline-comparison-4

Trump's Word Clouds:

sentiment-drivers-6

sentiment-drivers-7 sentiment-drivers-8

Clinton's Word Clouds:

sentiment-drivers-9

sentiment-drivers-10

sentiment-drivers-11
Trump 3-month summary:

trumpsummary3m

Clinton 3-month summary:

clintonsummary3m

Ethnicity:

ethinic

RW:
伟哥的东西，好是好，就是没有体现美国的选人制度
Xin:
主要是白人黑人和亚裔人数比例并没有代表实际的选民百分比。
RW:
理论上讲，只要有一方得到所有选票的23%, 他或她就可能当选

[Related]

Big data mining shows clear social rating decline of Trump last month

A Veteran Spy Has Given the FBI Information Alleging a Russian Operation to Cultivate Donald Trump

【大数据跟踪美大选每日更新，希拉里成功反击，拉川普下水】

昨天发布了【社煤挖掘：大数据告诉我们，希拉里选情告急】，鉴于大选的临近和选情的瞬息万变，我们决定用我们的社煤挖掘的核武器，每日跟踪大数据选情。

美国大选大数据一日一更新，11/1/2016 前24小时，看FBI事件发酵后的走势最新动态：

timeline-comparison-52

1101us

嗨过去 24 小时，克林顿赶上来了也：两人打平，都是 -12%。热议度克林顿更甚，这也难怪，FBI 重启以后，议论焦点从老川转移到老喜身上。看看BPI这图，这一对真是冤家啊，纠缠在一起：

川大叔整个被喜大妈包住了，严严实实，比孙悟空的紧箍圈还厉害。Note：里面的圈是川普，外面的圈是希拉里，貌似希拉里气场如今大过老川了。照这个趋势，克林顿希望蛮好。

昨天晚上看新闻，说虽然 FBI 重启对克林顿选情影响很大，传统的新闻民调 CNN poll 还是希拉里领先五个百分点，其他的民调有曾一度只领先一个百分点的记录。虽然都比以前的领先幅度缩小，但仍然领先。川普阵营批判说这些个民调都是被操纵的，他们那边的民调是川普领先。这些个极小数据的民调极易偏差，公婆各有理，还是 put aside，咱们看真正的大数据：这是川普与希拉里最近24小时的 big data summary 对比

1101huanpu24

1101clinton24

回顾重温一下一周来（10/25-11/1）的走向，作为希拉里选情起伏的背景：

timeline-comparison-53

到现在为止的一周平均 net sentiment，Trump 是 2%，Clinton 是 -12%，可见希拉里的反击，主要不是把自己的 social rating 提升了（过去一天还是 -12），而是把对手拉下水了，让川普从周平均的 +2 拉到现在的冰点以下 -12。克林顿用的是什么伎俩赶上来的呢?

朋友说，大招来了：原来拉川普下水是找到了川普与普京勾搭的新证据啊：

50740893092863278

Donald Trump Used Legally Dubious Method to Avoid Paying Taxes

约:
有点标题党，内容还算靠谱:

希拉里这次要坐牢？

施:
这次选举是测试大数据有效性的一个试金石，我感觉可能无效....
另：美帝国主义的人民群众也太不成熟了，一点自己的信念都没有？都受舆情影响，吃瓜群众表示不懂

南:
关键是很多选民都没有被社交媒体覆盖到吧

施:
情绪和投票时间的关系是什么样的？

Nick:
没错。伟哥说这么多没用，就一句话：谁能上。

张:
看样子是川普了，我很好奇这个家伙上来会是什么结果

我:
我这才是实事求是，动态跟踪，全方位大数据信息。“谁能上”那算个啥啊？
在胶着的选情下，那就是赌命，有没有大数据，都可以一赌，也都有不小的概率猜中，或猜不中，没有半点营养。如果是非胶着状态，大数据预测比其他预测更准。我坚信。要学那个AI大嘴巴，谁不会？他们根本连技术细节都没有，不过是制造了一个话题，顶了一个AI的帽子，利用普罗和媒体对AI的敬畏。我的选情追踪和分析，比那个高出不知几个数量级，这还真不是吹的。今天的选情趋势如果能够持续，大选日前没有新的定时炸弹被引爆，我预测克林顿当选的可能性可达80%

Nick:
@wei 是骡子是马，拉出来溜溜。就一句话：谁赢。

我:
这样吧，大选日前一天，我做个预测，根据一直到那一刻的综合大数据 analytics，现在不行，选情还在变化，并且显然有胶着的迹象。

Xi:
@wei ，别那么保守！得老莫者，得天下！肯定是Hillary赢了。。。

Nick:
@wei 这算什么本事？

我:
尼克是星座骗女青年骗惯了，只知道短平快如何得手，顾不了失手的后果了。
反正我有大数据有平台有深度parisng 我就这么每日追踪不打无准备之仗。
以唐老师的说法，得老墨者得天下，那是克林顿无疑了，西班牙语舆情那是一面倒，克林顿高高在上，从来没有下来过。

白:
伟哥这是要把谁能上做成红学的节奏。
最后，谁能上不重要了，为了谁能上而秀肌肉的人互撕。

我:
重在过程不在结果。
这次大选好富有戏剧性和悬念, 具有观赏性和互撕性，跌宕起伏精彩纷呈

阿:
我开了个盘口目前二人押川普四人押希太欢迎加入
重在结果不在过程

我:
问一句为什么希拉里推特说的三点facts
第一条说 fbi 并未重启电邮门调查，只是提议重启。

Nick:
@wei 加入盘口，eat your own dog food

我:
第二个 fact 是 fbi director 自己并不清楚新发现的邮件有多少相关
据信很可能是已经审查过的邮件的另一个拷贝。
这个 director 涉嫌扰乱大选，对一个不知结果的新线索可以按程序重启调查但在大选前造成舆论难逃干扰大选的怀疑，他可能也有违法乱纪的麻烦。

【相关】

【社煤挖掘：大数据告诉我们，希拉里选情告急】

CNBC‎: AI system finds Trump will win the White House and is more popular than Obama in 2008

Trump sucks in social media big data in Spanish

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

Big data mining shows clear social rating decline of Trump last month

Trump sucks in social media big data in Spanish

【社煤挖掘：大数据告诉我们，希拉里选情告急】

这是最近最近一周的对比图：

的确显得不妙，川大叔领先了。是不是因为FBI重启调查造成的结果？
这是过去24小时的图：

这是一个月的涨跌对比：

timeline-comparison-25

至此局势基本清晰了：希拉里的确选情告急。MD 这大选真是瞬息万变啊，不久前还是喜妈领先或胶着，如今川大叔居然翻身了，选情的变化无常真是让人惊心动魄。

这是last week：

timeline-comparison-26

这一周喜婆，很被动很不利。过去24小时一直在零下20上下，而老川在零上10左右，有30点的差距 NND：

timeline-comparison-27

看看更大的背景，过去三个月的选情对比：

timeline-comparison-28

原来是, 喜大妈好容易领先了，此前一直落后，直到九月底。九月底到十月中是喜妈的极盛期，是川普的麻烦期。

至于热议度，从来都没有变过，总是川普压倒：

timeline-comparison-31

眼球数也是一样：

timeline-comparison-32

一年来的狂热度（passion intensity）基本上也是川普领先，但喜婆也有不有不少强烈粉她或恨她的，所以曲线有交叉：

timeline-comparison-33

这个 passion intensity 与所谓 engagement 应该有强烈的正相关，因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来。这家伙那么多年，难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet，可是这家伙太狡猾，可能一辈子做商人太过精明，连染有液体的内裤也不曾留下过？是时候从 closet 拿出来了。反正这次大选已经 low 得不能再 low 了，索性 low 到底。不过如果要是有，不会等到今天，大选只剩下一周、先期投票已经开始。

这么看来，作为 data scientist，我不敢不尊重 data 一厢情愿宣传喜妈的赢面大了。赶巧我一周前调查的那个月是克林顿选情的黄金月，结果令人鼓舞。

我们的大数据平台有 27 种 filters，用我们的大数据工具可以对数据做不同的组合切割，要是在会玩的分析师手中，可以做出很漂亮的各种角度的分析报告和图表出来。地理、时间只是其中两项。

电邮门是摧毁性的。FBI 选在大选前一周重启，这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了，虽然对于数据的分析能力和角度，远不如我们的平台的丰富灵活。他们基本只有一个 engagement 的度量，连最起码的 sentiment classification 都没有，更不用说 social media deep sentiments 了。无论怎么说，希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票，还需要研究。

朋友提醒所谓社会媒体，其实是 pull 和 push 两种信息的交融，其来源也包含了不少news等，这些自上而下的贴子反映的是两党宣传部门的调子，高音量，影响也大，但并非真正的普罗网虫自下而上的好恶和呼声，最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图，我们只留下 twitter，FB，blog 和 microblog 四种社会媒体，剔除了 news 和其他的社会媒体：

timeline-comparison-49

下面是推特 only，大同小异：

timeline-comparison-50

对比一下所有的社会媒体，包括 news 网站，似乎对于这次大选，pull 和 push的确是混杂的，而且并没有大的冲突和鸿沟：

timeline-comparison-51

希拉里为什么选情告急？看看近一个月的希拉里云图，开始红多绿少了：

sentiment-drivers-43

sentiment-drivers-44

对比一下川普的云图，是红绿相当，趋向是绿有变多的趋势，尤其是第二张情绪（emotion）性云图：

sentiment-drivers-45

sentiment-drivers-46

再看看近一周的云图对比, 舆论和选情的确在发生微妙的变化。这是川普最近一周的sentiment 云图：

sentiment-drivers-47

sentiment-drivers-48
对比喜婆婆的一周云图：

sentiment-drivers-49

sentiment-drivers-50

下面是网民的针对希拉里来的正负行为表述的云图：

sentiment-drivers-51

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普最近一周的呼声：

sentiment-drivers-52
vote 的呼声超过 not vote for him

这是最近一周关于克林顿流传最广的posts：

clinton_trouble

FBI 重启调查显然被川普利用到了极致，影响深远。

Most popular posts last week by engagement:

clinton_trouble1

Most popular posts last week on Clinton by replies and comments:

clinton_trouble2

Some random sample posts:

clinton_tposts_random
negative comments are rampant on Clinton recently:

clinton_tposts

29367bc4bae054ee9a6262d9cccdfed6

如果这次希拉里输了，the FBI director Comey 居功至伟。因为自从录音丑闻以后，选情对希拉里极为有利，选情的大幅度下滑与FBI重启调查紧密相关。媒体的特点是打摆子，再热的话题随着时间也会冷却，被其他话题代替。这次的问题在，FBI 重启电邮门调查的话题还没等到冷却，大选就结束了，媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期，已经冷却，被 FBI 话题代替了。从爆料的角度，录音丑闻略微早了一些，可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看最近一周的#Hashtags，也可以了解一点社会媒体话题的热度：

word-cloud-23

与事件有关的有： #fbi #hillarysemails #hillarysemail #podestaemails19 #podestaemails20
Negative ones include: #wikileaks #neverhillary #crookedhillary #votetrump

Look at the buzz around Hillary below: the biggest is "FBI" in the brands cloud mentioned with her in the last week's data:

word-cloud-24

The overall buzz last week:

word-cloud-26

这是最近一周有关希拉里话题的emoji图：

hullery1weekemoji

虽然说笑比哭还，希拉里及其阵营和粉丝却笑不起来，一周内用到这个话题的emoji总数高达 12,894,243 。这也是社会媒体的特点吧，用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

现在的纠结是，【大数据告诉我们，希拉里选情告急】，到底发还是不发？为了党派利益和反川立场，不能发。长老川志气，灭吾党威风。为了 data scientist 的职业精神，应该发。一切从数据和事实出发，是信息时代之基。中和的办法是，先发一篇批驳那篇流传甚广的所谓印度AI公司预测川普要赢，因为那一篇的调查区间与我此前做的调查区间基本相同，那是希拉里选情最好的一个月，他们居然根据 engagement alone 大嘴巴预测川普的胜选，根本就没有深度数据的精神，就是赌一把而已。也许等批完了伪AI，宣扬了真NLU，然后再发这篇【大数据告诉我们，希拉里选情告急】。

FBI director 说这次重启调查，需要很长时间才能厘清。现在只是有了新线索需要重启，不能说明希拉里有罪无罪。没有结论前，先弄得满城风雨，客观上就是给选情带来变数。虽然在 prove 有罪前，都应该假定无罪，但是只要有风声，人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱，就更惊心动魄了。如果不是有背后的黑箱和势力，这个时间点的电邮门爆炸纯属与新线索的发现巧合，那就是希拉里的运气不佳，命无天子之福。一辈子强性格，卧薪尝胆，忍辱负重，功亏一篑，无功而返，保不准还有牢狱之灾。可以预测，大选失败就是她急剧衰老的开始。

一周前有个记者interview川普，川普一再说，希拉里这个犯罪的人，根本就不该被允许参加竞选。记者问，哪里犯罪了？川普说电邮门泄密，还有删除邮件隐瞒罪恶。当时这个重启调查还没有。记者问，这个案子不是有结论了吗，难到你不相信FBI的结论？川普说，他们弄错了，把罪犯轻易放了。这是一个腐烂的机构，blah blah。可是，同样这个组织，老川现在是赞誉有加。这就是一个无法无天满嘴跑火车的老狐狸。法律对他是儿戏，顺着他的就对，不顺着他心意的就是 corrupt，rigged，这种人怎么可以放心让他当总统？

中间选民的数量在这种拉锯战中至关重要，据说不少。中间选民如果决定投票，其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的，如今满世界说一方不好，合理的推断就是去投另一方了。现在看来，这场竞赛的确是拉锯战，很胶着，不是一方远远超过另一方。一个月前，当录音丑闻爆料的时候，那个时间点，希拉里远远超过川普，毫无悬念。一个月不到，选情大变，就不好说了，迹象是，仍然胶着。

不过，反过来看，川普的 popularity 的确是民意的反映。不管这个人怎么让人厌恶，他所批判的问题的确长久存在。某种意义上，Sanders 这样的极端社会主义者今年能有不俗的表现，成为很多年轻一代的偶像，也是基于类似的对现状不满、对establishment的反叛的民意。而希拉里显然是体系内的老旧派，让人看不到变革的希望。人心思变的时候，一个体系外的怪物也可以被寄托希望。至少他敢于做不同事情，没有瓶瓶罐罐的牵扯。

上台就上台吧，看看他造出一个什么世界。

老闻100年前就说过：
这是一沟绝望的死水，清风吹不起半点漪沦。不如多扔些破铜烂铁，爽性泼你的剩菜残羹。
。。。。。。
这是一沟绝望的死水，这里断不是美的所在，不如让给丑恶来开垦，看它造出个什么世界。

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

Big data mining shows clear social rating decline of Trump last month

Big data mining shows clear social rating decline of Trump last month

Trump sucks in social media big data in Spanish

As promised, let us get down to the business of big data mining of public opinions and sentiments from Spanish social media on the US election campaign.

We know that in the automated mining of public opinions and sentiments for Trump and Clinton we did before, Spanish-Americans are severely under-represented, with only 8% Hispanic posters in comparison with their 16% in population according to 2010 census (widely believed to be more than 16% today), perhaps because of language and/or cultural barriers. So we decide to use our multilingual mining tools to do a similar automated survey from Spanish Social Media to complement our earlier studies.

This is Trump as represented in Spanish social media for the last 30 days (09/29-10/29), the key is his social rating as reflected by his net sentiment -33% (in comparison with his rating of -9% in English social media for the same period): way below the freezing point, it really sucks, as also illustrated by the concentration of negative Spanish expressions (red-font) in his word cloud visualization.

By the net sentiment -33%, it corresponds to 242,672 negative mentions vs. 121,584 positive mentions, as shown below. In other words, negative comments are about twice as much as positive comments on Trump in Spanish social media in the last 30 days.

This is the buzz in the last 30 days for Trump: mentions and potential impressions (eye balls): millions of data points and indeed a very hot topic in the social media.

This is the BPI (Brand Passion Index) graph for directly comparing Trump and Clinton for their social ratings in the Spanish social media in the last 30 days:

As seen, there is simply no comparison: to refresh our memory, let us contrast it with the BPI comparison in the English social media:

Earlier in one of my election campaign mining posts on Chinese data, I said, if Chinese only were to vote, Trump would fail horribly, as shown by the big margin in the leading position of Clinton over Trump:

This is even more true based on social media big data from Spanish.

This is the comparison trends of passion intensity between Trump and Clinton:

The visualization by weeks of the same passion intensity data, instead of by days, show even more clearly that people are very passionate about both candidates in the Spanish social media discussions, the intensity of sentiment expressed for Clinton are slightly higher than for Trump:

This is the trends graph for their respective net sentiment, showing their social images in Spanish-speaking communities:

We already know that there is simply no comparison: in this 30-day duration, even when Clinton dropped to its lowest point (close to zero) on Oct 9th, she was still way ahead of Trump whose net sentiment at the time was -40%. In any other time segments, we see an even bigger margin (as big as 40 to 80 points in gap) between the two. Clinton has consistently been leading.

In terms of buzz, Trump generates more noise (mentions) than Clinton consistently, although the gap is not as large as that in English social media:

This is the geo graph, so the social data come from mostly the US and Mexico, some from other Latin America countries and Spain:

Since only the Mexicans in the US may have the voting power, we should exclude media from outside the US to have a clearer picture of how the Spanish-speaking voters may have an impact on this election. Before we do that filtering, we note the fact that Trump sucks in the minds of Mexican people, which is no surprise at all given his irresponsible comments about the Mexican people.

Our social media tool is equipped with geo-filtering capabilities: you can add a geo-fence to a topic to retrieve all social media posts authored from within a fenced location. This allows you to analyze location-based content irrespective of post text. That is exactly what we need in order to do a study for Spanish-speaking communities in the US who are likely to be voters, excluding those media from Mexico or other Spanish-speaking countries. communities in the US who are likely to be voters, excluding those media from Mexico or other countries. This is also needed when we need to do study for those critical swing states to see the true pictures of the likelihood of the public sentiments and opinions in those states that will decide the destiny of the candidates and the future of the US (stay tuned, swing states social media mining will come shortly thanks to our fully automated mining system based on natural language deep parsing).

Now I have excluded Spanish data from outside America, it turned out that the social ratings are roughly the same as before: the reduction of the data does not change the general public opinions from Spanish communities, US or beyond US., US or beyond US. This is US only Spanish social media:

This is summary of Trump for Spanish data within US:

It is clear that Trump's image truly sucks in the Spanish-speaking communities in the US, communities in the US, which is no surprise and so natural and evident that we simply just confirm and verify that with big data and high-tech now.

These are sentiment drivers (i.e. pros and cons as well as emotion expressions) of Trump :

We might need Google Translate to interpret them but the color coding remains universal: red is for negative comments and green is positive. More red than green means a poor image or social rating.

In contrast, the Clinton's word clouds involve way more green than red: showing her support rate remains high in the Spanish-speaking communities of the US.

It looks like that the emotional sentiments for Clinton are not as good as Clinton's sentiment drivers for her pros and cons.

Sources of this study:

Domains of this study:

Automated Suevey

Dr Li’s NLP Blog in English

Did Trump's Gettysburg speech enable the support rate to soar as claimed?

Last few days have seen tons of reports on Trump's Gettysburg speech and its impact on his support rate, which is claimed by some of his campaign media to soar due to this powerful speech. We would love to verify this and uncover the true picture based on big data mining from the social media.

First, here is one link on his speech:

DONALD J. TRUMP DELIVERS GROUNDBREAKING CONTRACT FOR THE AMERICAN VOTER IN GETTYSBURG. (The most widely circulated related post in Chinese social media seems to be this: Trump's heavyweight speech enables the soaring of the support rate and possible stock market crash).

Believed to be a historical speech in his last dash in the campaign, Trump basically said: I am willing to have a contract with the American people on reforming the politics and making America great again, with this plan outline of my administration in the time frame I promised when I am in office, I will make things happen, believe me.

Trump made the speech on the 22nd this month, in order to mine true public opinions of the speech impact, we can investigate the data around 22nd for the social media automated data analysis. We believe that automated polling based on big data and language understanding technology is much more revealing and dependable than the traditional manual polls, with phone calls to something like 500 to 1,000 people. The latter is laughably lacking sufficient data to be trustworthy.

timeline-comparison-14

What does the above trend graph tell us?

1 Trump in this time interval was indeed on the rise. The "soaring" claim this time does not entirely come out of nowhere, but, there is a big BUT.

2. BUT, a careful look at the public opinions represented by net sentiment (a measure reflecting the ratio of positive mentions over negative mentions in social media) shows that Trump has basically stayed below the freezing point (i.e. more negative than positive) in this time interval, with only a brief rise above the zero point near the 22nd speech, and soon went down underwater again.

3. The soaring claim cannot withstand scrutiny at all as soaring implies a sharp rise of support after the speech event in comparison with before, which is not the case.

4. The fact is, Uncle Trump's social media image dropped to the bottom on the 18th (with net sentiment of -20%) of this month. From 18th to 22nd when he delivered the speech, his net sentiment was steadily on rise from -20% to 0), but from 22nd to 25th, it no longer went up, but fell back down, so there is no ground for the claim of support soaring as an effect of his speech, not at all.

5. Although not soaring, Uncle Trump's speech did not lead to sharp drop either, in terms of the buzz generated, this speech can be said to be fairly well delivered in his performance. After the speech, the net sentiment of public opinions slightly dropped, basically maintaining the fundamentals close to zero.

6. The above big data investigation shows that the media campaign can be very misleading against the objective evidence and real life data. This is all propaganda, which cannot be trusted at its face value: from so-called "support rate soared" to "possible stock market crash". Basically nonsense or noise of campaign, and it cannot be taken seriously.

The following figure is a summary of the surveyed interval:

trump1

As seen, the average public opinion net-sentiment for this interval is -9%, with positive rating consisting of 2.7 million mentions, and negative rating of 3.2 million mentions.

How do we interpret -9% as an indicator of public opinions and sentiments? According to our previous numerous automated surveys of political figures, this is certainly not a good public opinion rating, but not particularly bad either as we have seen worse. Basically, -9% is under the average line among politicians reflecting the public image in people's minds in the social media. Nevertheless, compared with Trump's own public ratings before, there is a recorded 13 points jump in this interval, which is pretty good for him and his campaign. But the progress is clearly not the effect of his speech.

This is the social media statistics on the data sources of this investigation:

trump2

In terms of the ratio, Twitter ranks no 1, it is the most dynamic social media on politics for sure, with the largest amount of tweets generated every minute. Among a total of 34.5 million mentions on Trump, Twitter accounted for 23.9 million. In comparison, Facebook has 1.7 million mentions.

Well, let's zoom in on the last 30 days instead of only the days around the speech, to provide a bigger background for uncovering the overall trends of this political fight in the 2016 US presidential campaign between Trump and Clinton.

timeline-comparison-15

The 30 days range from 9/28-10/28, during which the two lines in the comparison trends chart show the contrast of Trump and Clinton in their respective daily ups and downs of net sentiment (reflecting their social rating trends). The general impression is that the fight seems to be fairly tight. Both are so scandal-ridden, both are tough and belligerent. And both are fairly poor in social ratings. The trends might look a bit clearer if we visualize the trends data by weeks instead of by day:

timeline-comparison-16

No matter how much I dislike Trump, and regardless of my dislike of Clinton whom I have decided to vote anyway in order to make sure the annoying Trump is out of the race, as a data scientist, I have to rely on data which says that Hillary's recent situation is not too optimistic: Trump actually at times went a little ahead of Clinton (a troubling fact to recognize and see).

timeline-comparison-17

The graph above shows a comparison of the mentions (buzz, so to speak). In terms of buzz, Trump is a natural topic-king, having generated most noise and comments, good or bad. Clinton is no comparison in this regard.

timeline-comparison-18

The above is a comparison of public opinion passion intensity: like/love or dislike/hate? The passion intensity for Trump is really high, showing that he has some crazy fans and/or deep haters in the people. Hillary Clinton has been controversial also and it is not rare that we come across people with very intensified sentiments towards her too. But still, Trump is sort of political anomaly, and he is more likely to cause fanaticism or controversy than his opponent Hillary.

In his recent Gettysburg speech, Trump highlighted the so-called danger of the election being manipulated. He clearly exaggerated the procedure risks, more than past candidates in history using the same election protocol and mechanism. By doing so, he paved the way for future non-recognition of the election results. He was even fooling the entire nation by saying publicly nonsense like he would totally accept the election results if he wins: this is not humor or sense of humor, it depicts a dangerous political figure with ambition unchecked. A very troubling sign and fairly dirty political tricks or fire he is playing with now, to my mind. Now the situation is, if Clinton has a substantial lead to beat him by a large margin, this old Uncle Trump would have no excuse or room for instigating incidents after the election. But if it is closer to see-saw, which is not unlikely given the trends analysis we have shown above, then our country might be in some trouble: Uncle Trump and his die-hard fans most certainly will make some trouble. Given the seriousness of this situation and pressing risks of political turmoil possibly to follow, we now see quite some people, including some conservative minds, begin to call for the election of Hillary for the sake of preventing Trump from possible trouble making. I am one with that mind-set too, given that I do not like Hillary either. If not for Trump, in ordinary elections like this when I do not like candidates of both major parties, I would most likely vote for a third party, or abstain from voting, but this election is different, it is too dangerous as it stands. It is like a time bomb hidden somewhere in the Trump's house, totally unpredictable. In order to prevent him from spilling, it is safer to vote for Clinton.

In comparison with my earlier automated sentiment analysis blogged about a week ago (Big data mining shows clear social rating decline of Trump last month)，this updated, more recent BPI brand comparison chart seems to be more see-saw: Clinton's recent campaign seems to be stuck somewhere.

Over the last 30 days, Clinton's net sentiment rating is -17%, while Trump's is -19%. Clinton is only slightly ahead of Trump. Fortunately, Trump's speech did not really reverse the gap between the two, which is seen fairly clearly from the following historical trends represented by three different circles in brand comparison (the darker circle represents more recent data): the general trends of Clinton are still there: it started lagging behind and went better and now is a bit stuck, but still leading.

Yes, Clinton's most recent campaign activities are not making significant progress, despite more resources put to use as shown by bigger darker circle in the graph. Among the three circles of Clinton, we can see that the smallest and lightest circle stands for the first 10 days of data in the past 30 days, starting obviously behind Trump. The last two circles are data of the last 20 days, seemingly in situ, although the circle becomes larger, indicating more campaign input and more buzz generated. But the benefits are not so obvious. On the other side, Trump's trends show a zigzag, with the overall trends actual declining in the past 30 days. The middle ten days, there was a clear rise in his social rating, but the last ten days have been going down back. Look at Trump's 30-day social cloud of Word Cloud for pros and cons and Word Cloud for emotions:

Let us have a look at Trump's 30-day social media sentiment word clouds, the first is more about commenting on his pros and cons, and the second is more direct and emotional expressions on him: sentiment-drivers-38

sentiment-drivers-37
One friend took a glance at the red font expression "fuck", and asked: who are subjects and objects of "fuck" here? In fact, the subject generally does not appear in the social posts, by default it is the poster himself, reflecting part of the general public, the object of "fuck" is, of course, Trump, for otherwise our deep linguistics based system will not count it as a negative mention of trump reflected in the graph. Let us show some random samples side by side of the graph:

trumpfuck

trumpfuck2
My goodness, the "fuck" mentions account for 5% of the emotional data, the poor old Uncle Trump is fucked 40 million times in social media within one-month duration, showing how this guy is hated by some of the people whom he is supposed to represent and govern if he takes office. See how they actually express their strong dislike of Trump:

fucking moron
fucking idiot
asshole
shithead

you name it, to the point even some Republicans also curse him like crazy:

Trump is a fucking idiot. Thank you for ruining the Republican Party you shithead.

Looking at the following figure of popular media, it seems that the most widely circulated political posts in social media involve quite some political video works:

trumpmedia

The domains figure below shows that the Tumblr posts on politics contribute more than Facebook:

domains-6

In terms of demographics background of social media posters, there is a fair balance between male and female: male 52% female 48% (in contrast to Chinese social media where only 25% females are posting political comments on US presidential campaign). The figure below shows the ethnic background of the posters, with 70% Caucasians, 13% African Americans, 8% Hispanic and 6% Asians. It looks like that the Hispanic Americans and Asian Americans are under-represented in the English social media in comparison with their due population ratios, as a result, this study may have missed some of their voice (but we have another similar study using Chinese social media, which shows a clear and big lead of Clinton over Trump; given time, we should do another automated survey using our multilingual engine for Spanish social media. Another suggestion from friends is to do a similar study on swing states because after all these are the key states that will decide the outcome of this election, we can filter the data by locations where posts are from to simulate that study). There might be a language or cultural reasons for this under-representation.

trumpethinics

This last table involves a bit of fun facts of the investigation. In social media, people tend to talk most about the campaign, on the Wednesday and Sunday evenings, with 9 o'clock as the peak, for example, on the topic of Trump, nine o'clock on Sunday evening generated 1,357,766 messages within one hour. No wonder there is no shortage of big data from social media on politics. It is all about big data. In contrast, with the traditional manual poll, no matter how sampling is done, the limitation in the number of data points is so challenging:
with typically 500 to 1000 phone calls, how can we trust that the poll represents the public opinions of 200 million voters? They are laughably too sparse in data. Of course, in the pre-big-data age, there were simply no alternatives to collect public opinion in a timely manner with limited budgets. This is the beauty of Automatic Survey, which is bound to outperform the manual survey and become the mainstream of polls.

trumpdayhour

Authors with most followers are:

trumpmedia2

Most mentioned authors are listed below：

trumpauthors

Tell me when in history did we ever have this much data and info, with this powerful data mining capabilities of fully sutomated mining of public opinions and sentiments at scale?

trumppopularposts

DONALD J. TRUMP DELIVERS GROUNDBREAKING CONTRACT FOR THE AMERICAN VOTER IN GETTYSBURG

Automated Suevey

Dr Li’s NLP Blog in English

【社煤挖掘：川普的葛底斯堡演讲使支持率飙升了吗？】

反正日夜颠倒了，那就较真一下，看看大数据大知识，对于川普的葛底斯堡演说的所谓舆情飙升到底是怎么回事。先给几个links：

报道的是本月22日川大叔的历史性演说，旨在振奋人心，做竞选的最后冲刺，大意：
寡人与美国人民有个约定，看我的，believe me

中文舆论中，这篇似乎流传最广：【川普重磅演讲致支持率飙升全球股市将暴跌?】。

因为川普演说是22日，为了看舆情的飙升对比，可以以22日为中心取前后几天的社会媒体大数据做分析，看个究竟。至少比传统民调打五百、一千个电话来调查，自动民调的大数据（millions 的数据点）还是靠谱一些吧。

timeline-comparison-14
这张趋势图怎么看？

1 川普在这个时间区间总体的确是上升。飙升之说，不完全是无中生有（准确地说，其实是捕风捉影，见下）。

2 但是，仔细看舆情（net sentiment）图可以发现，川普这段时间基本上还是一直没有摆脱负面舆情多于正面舆情的局面，舆情曲线除了22号当天短暂超越冰点，总体一直是零下。

3. 飙升之说经不起推敲，因为凡飙升，必须是事件后比事件前的舆情，有明显的飞跃，其实不然。

4. 事实是，川大叔近期舆情的谷底是本月18号（零下20+），从18号到22号他 deliver speech 前，他的舆情已经有比较明显的提升（从 -20 到 0），而从 22 号到 25 号，舆情不升反略降，飙升从何谈起？

5. 虽然没有飙升，但川大叔这次表演还是及格的。至少 speech 后，舆情没有大跌，基本保持了接近零度的基本面。

6 由此可见，媒体造势是多么地捕风捉影。以后各位看到这种明显是宣传（propaganda）的帖子，可以多一个心眼了：通常的宣传造势的帖子都在夸大其词（如果不公然颠倒黑白或歪曲事实的话），从所谓“舆情飙升”到预计“股市暴跌”，都是要显示川普演说的重量级。基本是无稽之言，不能当真的。

下图是这个调查区间的数据小结：

trump1

这个区间的平均舆情指数是 -9%，2.7 million 的正面评价，3.2 million 的负面评价。

-9% 是一个什么概念，根据我们以往对政治人物的多次舆情调查来看，这不是一个好的舆情，但也不是特别糟糕，属于平均线下。但是，与川普自己的总体舆情比较，这个区间表现良好，有 13 点的提升，但这个提升并非所谓演说飙升带来的。

这是社煤数据源的统计：

trump2

从比例看，推特永远是最 dynamic，量也最大，总热议度 34.5 million mentions，推特占了 23.9 million。不少社煤的分析 apps 干脆扔掉其他的数据源，只做推特，作为社会媒体的代表，也基本上可以了。但是，感觉上还是，只做推特，虽然大数据之量可以保证，但可能偏差会大一些，因为喜欢上推特跟踪政治人物和话题，吐槽或粉丝的人，只是社会阶层中的一部分，往往是比较狂热的一批。推特这个公共平台，本来就长于偶像和followers（粉丝或“黑”）互动。其他的社会媒体可能更平实一些，譬如 Facebook 上的发言基本是说给朋友圈的。Facebook 也有 1.7 million 的热议。

好，我们把区间放大，看 last 30 days 的趋势，作为这次演说前后趋势的一个背景。

timeline-comparison-15
这是 9/28-10/28 的川普与克林顿舆情趋势对比图，by days；仔细解读前，总体印象是够纠缠的。这两位老头老太也真是，剪不断理还乱，不是冤家不碰头，呵呵。两位都那么多丑闻缠身，性格都很tough倔强。看看一个月来 by weeks 的曲线也许更明朗：

timeline-comparison-16

不管我多么厌恶川普，也不管我为了厌恶川普而决定选举并不喜欢的克林顿，作为 data scientist，不得不说，希拉里最近的情势不是很乐观：川普居然开始有点儿领先克林顿的趋势了，NND。

timeline-comparison-17

上图是热议度（mentions）的对比。这个没的说，川普天生的话题大王，克林顿无论如何也赶不上。

timeline-comparison-18

这是舆情烈度的对比：喜欢或厌恶川普的还是更加狂热，虽然印象中希拉里克林顿比起其他政治人物所引起的情绪已经要更趋于激烈了。可是川普是个政治异数，还是更容易引起狂热或争议。

川普在演说中特别强调选举被操纵的危险，他显然在夸大这种危险，为将来的不承认选举结果做铺垫。挺恶心人的。现在的情况是，如果克林顿大幅度领先，川大叔再流氓也没辙。如果是拉锯接近，就麻烦了，老川和川粉几乎肯定要闹事。可现在的选情显得有些胶着拉锯，这也是为什么很多人包括保守派开始有倡议，说为了川普，请投票克林顿。本来我是要投第三党的，或者弃权不投，但是这次选举不同，危险太大，川老是个定时炸弹，而且不可预测。为了防止他撒泼，还是投给克林顿好。至少让他看看，马戏团的表演是上不了台面的，由不得他胡来。沐猴而冠变不成林肯。

对比我一周前做的自动民调 Big data mining shows clear social rating decline of Trump last month，下面这个品牌对比图似乎更加拉锯，克林顿最近选情不是很佳。

最近30天，克林顿是 -17%，川普是 -19%，略领先于川普。所幸，川普的这次演讲并没有真正扭转两人的差距，从下面这张历史趋势品牌对比看，克林顿从开始的舆情落后，变为领先的趋势还在：

不过最近克林顿的选情是原地踏步，并没有明显进展。比较克林顿的三个圈可知，最淡的圈是过去30天的前10天，明显落后于川普，后两个圈是最近20天，基本原地，只是圈子变大了，说明竞选的投入和力度加大了，但效益并不明显。而从川普方面的三个圈圈看趋势，这老头儿实际的总体趋势是下跌，过去三十天，中间的十天舆情有改观，但最近的十天又倒回去了，虽然热议度有增长。（MD，这个分析没法细做，越做越惊心动魄，很难保持平和的心态，可咱是 data scientist 啊。朋友说，“就是要挖点惊心动魄的”，真心唯恐天下不乱啊。）看看川普的30天社煤的褒贬云图（Word Cloud for pros and cons）和情绪云图（Word Cloud for emotions）吧：

sentiment-drivers-38

sentiment-drivers-37
朋友一眼看中了那红红的 fuck 舆情，问：“fuck”的主语和宾语是谁？

主语一般不出现，默认是普罗网虫，fuck 的宾语当然是川普，否则上不来他的负面情绪云图：

trumpfuck

trumpfuck2
天，fuck mentions 占据了情绪数据的 5%，老川在一个月里被社煤普罗 fuck 了近40万次，可见这家伙如果上台会有多少与他不共戴天的子民。看上面怎么吐槽 fuck 的：

fucking moron
fucking idiot
asshole
shithead

you name it，甚至疑似共和党人也fuck他：
Trump is a fucking idiot. Thank you for ruining the Republican Party you shithead.

看 popular media，貌似流传最广的大多是视频：

trumpmedia

Tumblr 超越 Facebook 成为社煤老二？

domains-6

从来没用过 Tumblr 这名字也拗口怎么这么 popular？

西方媒体吐槽的，男女比较均衡：male 52% female 48%，对比中文社媒，明显是女人少谈政治的：才占25%。这次调查的种族背景分布：

trumpethinics

还是白大哥占压倒多数。族裔信息占社煤帖子中的近一半，所以这个社煤族裔分布的情报应该是靠谱的。黑大哥第二，占 13%，亚裔才 6%。墨大哥 8%，与其人口比例不相称吧（？）：由于语言或文化障碍，under-represented here？？

这个有点意思，喜欢到社煤吐槽的人，集中在周三和周日的晚上，晚九点达到高峰, 譬如关于川普话题的社煤，在周日晚上九点高达 1,357,766, 一个小时就有一百三十五万帖啊，够大数据吧。

trumpdayhour

这还才是 sampling 的 data, 推特sampling占总量大约十分之一吧，如果是 data hose （要额外付钱的）一网打尽的话，数据量又要增加一个量级。不过，对于大数据情报挖掘，再增加一个量级已经没有什么意义了，不会实质上改变调查的结果的。说明一下，那个周日的统计量应该是过去一个月的调查中的周日的总和，一个月有四个周日，那个数据应该除以4，然后乘以10，才是川普数据周日九点的那是时间区间的真实量。总之是地地道道的大数据。相比之下，传统民调，不管怎么抽样，感觉都是儿戏，有点胡闹：
500 个电话，说是代表了两亿人的民意舆情，不是儿戏是什么。不过，前大数据时代，那是没办法的办法。自动民调是大势所趋。

下图是影响最大 followers 最多的 authors：

trumpmedia2

Most mentioned authors below：

trumpauthors

什么时代有过如此丰富的信息与如此强大的数据挖掘能力？

RW:
@wei 你实际上可以好好搞一个大选预测引擎，利用你现在的methodology, finetune 一下，可以吸引很多眼球。效果好，下次就可以收费了。一炮而红，还有什么是更有效的marketing?

我:
我要是有微信数据的话，不打炮也会红。什么都不用变，就是现在的引擎，现在的app，只要有微信，什么情报专家也难比拟。为什么现在发布中文舆情挖掘不如英文挖掘那么有底气？不是我中文不行，而是数据源太 crappy 了。闹来闹去也就是新浪微博、天涯论坛、中文推特或脸书。至少全球华人大陆背景的，这个压倒多数，都在用微信，而数据够不着，得不到反映。

李:
@wei 我公司有团队做着类似的事情

我:
你能染指微信数据？

李:
微信个人数据只有腾讯有。

看看流传最广的社煤帖子都是什么？

trumppopularposts

从 total engagement 指标看，无疑是川普自己的推特账号，以及 Fox ：这大概是唯一的主流媒体中仅存的共和党的声音了。也不怪，老川在竞选造势中，不断指着鼻子骂主流媒体，甚至刻薄主持人的偏袒。历史上似乎还没有一个候选人与主流媒体如此对着干，也没有一个人被主流媒体如此地厌恶。

展示到这里，朋友转来一个最新的帖子，说是用人工智能预测美国大选，川普会赢：Trump will win the election and is more popular than Obama in 2008, AI system finds，quote：

"But the entrepreneur admitted that there were limitations to the data in that sentiment around social media posts is difficult for the system to analyze. Just because somebody engages with a Trump tweet, it doesn't mean that they support him. Also there are currently more people on social media than there were in the three previous presidential elections."

haha，同行是冤家，他的AI能比我自然语言deep parsing支持的 I 吗？从文中看，他着重 engagement，这玩意儿的本质就是话题性、热议度吧。早就说了，川普是话题大王，热议度绝对领先。（就跟冰冰一样，话题女王最后在舆情上还是败给了舆情青睐的圆圆，不是？）不是码农相轻，他这个很大程度上是博眼球，大家都说川普要输，我偏说他必赢。两周后即便错了，这个名已经传出去了。川普团队也会不遗余力帮助宣传转发这个。

Xi:
那个印度鬼子也有点瞎扯了。
知道ip地址跟知道ssl加密后的搜索的内容是两码事儿啊！
不知道是记者不懂呢，还是这小子就是在瞎胡弄了。

洪:
印度ai公司预测美国大选，有50%以上测准概率，中国ai公司也别放过这个机会

毛:
伟哥为什么认为川普必赢？不是说希拉莉的赢率是 95% 吗？

南山/邓保军: 不是wei说的

我:
这叫横插一杠子。川普要赢，我去跳河。。。

毛:
哦，伟哥是在转述。

我:
跳河是玩笑了，我移民回加拿大总是可以吧。

李:
韩国这个料就爆得好。希拉里在关键时刻，也有可能爆大料

我:
问题是谁爆谁的料。两人都到了最后的时刻，似乎能找到的爆料也都差不多用了。再不用就不赶趟了。很多地方的提早投票都已经开始了，有杀手锏最多再等两三天是极限了，要给媒体和普罗一个消化和咀嚼的时间。

毛:
@wei 但是老印的那个系统并非专为本届大选而开发，并且说是已经连续报准了三届呀？

我:
我的也不是专为大选开发的呀。而且上次奥巴马决定用我们，你看他就赢了，我们也助了一臂之力呢。

毛:
你们两家的配方不同？

我:
奥巴马团队拥抱新技术，用舆情挖掘帮助监测调整竞选策略，这个比预测牛一点点吧。预测是作为 outsider 来赌概率。我这个是 engage in the process、技术提供助力呵呵。当时不允许说的。

李:
奥巴马有可能会去硅谷打工唉

毛:
是否在舆情之外还有什么因素？

李:
原来你那个奥巴马照片不是蜡像呀

我：
假做真时真亦假呀。

002_510_image

【相关】

Big data mining shows clear social rating decline of Trump last month