月度归档： 2020 年 7 月

当前推荐数：1 推荐人：张珑

【李白之28：“天就是这样被聊死的”】屏蔽留存

【李白之28：“天就是这样被聊死的”】

屏蔽已有 2275 次阅读 2017-2-8 07:10 |个人分类:立委科普|系统分类:科研笔记| parsing, 自动分析, 休眠唤醒

白:
“天就是这样被聊死的。”

我:
说谁呢？

梁:
@wei ，I also admired your “层次纠缠“ comment.

我:
哦那是刘少奇主义, 吃小亏占大便宜。真的，反单层parsing的传统潮流，悄悄地不知道占了多少便宜了，不吃点亏都觉得不好意思了

白:
“的”可以“买一送一”或者“卖一送一”。比如“卖火柴的小女孩”中，“小女孩”既可以作为整个定中结构的代表正常对外填坑，也可以“无偿”填定语从句内部“卖”的坑；“这本书的出版”既可以作为整个定中结构的代表正常对外填坑，也“无偿”对内接受定语部分“这本书”的填坑。“无偿”的意思是，一个括号配一个反方向括号后，对方消失了自己还在。多“饶”了一次匹配机会。现在从坑的角度看，最不情愿的一个处理就是把形容词的使动用法处理成一可选的坑。如果坑可以强制出来就好了。

我:
多一次匹配机会，就是一个儿子可以有两个老子，类似一个是生父，一个养父。对外填坑是句法的显性 dependency，对内无偿就是逻辑语义的隐性 dependency，中外皆然。“小女孩”就是如此，“小女孩”做“卖火柴”的【逻辑主语】。而“卖火柴”其实是“小女孩”的【定语】：让自己的显性的儿子去做自己的隐性的逻辑老子。到了谓词指称化就不同了，对外填坑不变，爱啥啥。对内的逻辑关系则反过来，自己的显性的句法定语儿子（adjunct），被用来填充为自己的隐性的逻辑儿子（argument）。“这本书” 做 “出版” 的逻辑宾语。与英语平行。

this book‘s publication；girl selling matches
? the sell-matches girl

白:
这两件事，被我统一成一件事了。

我:
统一的好处是？

白:
词典化，没有规则，只有词典和原则，一条原则管两头。到原则层面，只需要解决什么条件下谁提供bonus。

我:
一边是 NP ，一边是 V 或 VP。如果是 NP 的 V，V有坑，尽管 V 指称化了。那么 NP 就去填坑（宾语，或主语），如果是 VP 的 N，那么 VP 有主语的坑，N正好填。

白:
根本不看POS，只有买单和卖单。一对多的订单、一对一的订单、可以提供bonus的一对一订单。

我:
POS 也没啥，不过就是填坑中几百上千个可能的约束条件的一个而已。我要 Human 来填坑，与我要名词来填坑，对系统不过就是条件的宽窄不同而已。这是从填坑的角度看 POS。对于设坑的一方，当然无所谓 POS，V 也好 N 也好 A 也好，他们有没有坑，有几个坑，都可以认为是词典化的 subcat 规定的。都直接量（词）驱动了，自然就不谈 POS 了，因为 literal 永远比任何抽象信息量更足。

据说当年一个叫 Small 的人首创专家词典（Expert Lexicon），里面全部是词例化的规则，没有任何抽象规则，可以想象这样的系统在一个狭窄的 domain 里面的可行性。譬如在天气预报的 domain 里。词条 “下雨”里面规定要到左边去找 “老天”，到右边去找 “很猛、很急”，等等。

白:
肯定不是这样的。

我:
在一个小词汇表中是可行的的而且准确有点组合爆炸而已。这是没有任何抽象的本义。一旦有抽象，哪怕是词例化，也必须引入 features，而不是直接量之间的交易了。lexical-POS 就是最简单的一个 feature。

白:
原则不看POS，matcher要看。但原则不放水，matcher就没有bonus给。

“张三这两条建议是关于修宿舍的。”

这里面，“建议”有两个坑，“张三”填了一个，然后这个词的“母体”填给“是”了，剩下一个坑成了没娘的孩子。后面当“关于修宿舍的”作为一个整体与“修宿舍”剩下的没娘孩子（human）不匹配的时候，匹配点会迁移到前一个没娘孩子（info，建议的内容）进行匹配。

我:

白:
这不是说，建议的内容就一定是“关于修宿舍”，万一“是”换成了“不是”呢？只是说，这一萝卜一坑，存在着语义类型上的关联。至于肯定否定，那是由围绕着谓词的修饰语决定的。

我:
肯定否定是另一层次的东西，无需牵扯进来。说到底就是 “建议” 有 Subcat，里面有 human agent，和 “关于 content” 的 PP 的规定。human S 连上了，【关于】的坑暂时没连上，但也不难。

白:
建议谁修宿舍，文本中找不到，作罢

“他死去多年的战友就埋葬在这里。”

“他”要憋着不参加后面的VP，直到被定语从句修饰的中心语露面，填入中心语所带的坑，才算了结。什么样的“过程性”控制策略能给出这个选择？

宋:
他死去多年，儿女都已经长大的战友埋葬在这里。

白:
嗯，其实谓词部分是收束的，只有谓词部分对外需要消解。所以，需要栈，但栈不必很深。栈和RNN是不矛盾的。栈顶元素可以作为输入的一部分，对栈的操作可以作为本轮输出的一部分。

我:
查一下后条件不就解决了？在主谓规则中，一个 np 与一个 vp 不着急结为 s，往后查一下条件再决定。

没问后条件，错了。可以加上：

白:
往前看一个，只能做等待与否的决策，不能做结合与否的决策。等待就意味着要记忆某种东西。

我：
等待与否与决策与否，这里不是一个简单的答案。因为涉及两个问题：一个是“他死” 的主谓问题，一个是“死”做定语（兼“战友”的逻辑谓语）的问题。如果不考虑二者相交，第一个问题当成一个独立的问题，当然可以决策，不过是问合适的条件包括后条件而已。这样“他死”本来的主谓错误可以避免，但还是需要有人（“埋葬”）接盘。从相交的角度看，关键是定从句型的处置安放在何处合适的问题，定从解决好了，顺带也就解决了“他死”要不要就近连主谓的问题。涉及的句型也不那么复杂：

NP+VP+de+N

就是一个四元组。把上述句型在做主谓之前 fine-tune 到正好涵盖【定从】，问题就解决了。宋老师的句子是难一些，难在那个 VP 复杂化了，VP 实际是两个 VP 用逗号并列了（其实应该用顿号的，可国人把逗号当万金油，没办法）。这倒也罢，第二个谓语本身也是一个主谓结构：“儿女都已经长大”。“儿女长大” 与 “身体健康” 类似，都是那种句型紧凑的典型的【主谓谓语】。这类主谓只能有限扩展，跟通常主谓的自由度无法比，也因此可以考虑先行解决，给个标签，作为整体，它有一个逻辑主语的坑（通常是其前的 Topic 去填）：实质上是对付一层的中心递归（center recursion）。总之是有些难缠，但并非无迹可寻，要做也可以做，考验的是细活。等低枝果实都摘差不多了，再去磨这个细活好了，现在不必。

白:

他那些杀红了眼，刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑，把“战友”捎带上还可以解释。“刺刀”的坑是“枪”，“枪”的主人是human，这弯儿拐的。句法非标配的坑，靠语义中间件凌空凿开一个坑，才能把定语从句的钩子钩上。第一个“那些”如果去掉：

？他杀红了眼，刺刀上沾满血的战友们可管不了那些了。

好像不通了。或者说链条断开了。所以凌空开凿的坑无法填装远距离的“友元”。

我:
看样子这个 “那些” 是个关键的小词，应该善加利用：

human+那些+[human action] + 的+human

麻烦的是 human action 的谓语的扩充性。如果这个句型足够的频繁（感觉上是的），那么一个策略是，对于那个【定从谓语】的界定可以放的很宽，一路扫描下去，直到发现【的+human】，就把这个【定从】的性质卡住了。定语定性以后，再慢慢对付里面的monsters，这个策略可能管用。

他的那些blahblah的朋友们

管它 blah 有多长、多复杂。一个 token* 就卡住了。还有一个策略就是 patching，对上面的那颗“循规蹈矩”而出错了的树做修补:

S1[X那些] + Pred1 + Conj + Mod(Pred2)+S2+Pred3

要问五个链条才能修补全，也不知道能概括多少现象，值得费这么大力气，会不会弄巧成拙。道理上是可行，问了这五个链条了，然后

（1）离婚 S1 和 Pred1
（2）结合 S1 与 S2，让 S1 zuo S2 的定语
（3）切断 Conj
（4）用新的 Conj 链接 Pred1 和 Pred2

可以做个实验玩玩，看这条路可行不。
MY GOD 值不值得做先放在一边，可的确做成了！

这个太tm牛了。我都不得不崇拜自己了。

还是那句话，没有翻不了的案子，毛太祖钦定的文化大革命都彻底否定了。这样的翻案 patching 应该没有副作用，因为都是 word driven 和非常 restricted 的现象。

同一条规则略加微调（没有“那些”但原主语是 human），就把宋老师的难题一并解决了。休眠唤醒术好使，以后要多使，这比条件不成熟的时候霸王硬上弓轻松多了。

白:
不对呀……
怎么是“他”死去？应该是“战友”死去才对。另外，“战友”并没有“长大”，“长大”的是战友的“儿女”。

我:
鸡蛋里挑骨头啊。明明“儿女”是“长大” 的 S。长大的战友，不过是一个边界不合适的 XP 懒得在 patching 的时候再动手术去重新修理边界而已。

白:
就是说，定语从句的两个分句，第一个“死去”的坑被提取出来，由中心语“战友”反填；第二个“长大”的坑由“儿女”填充，同时“儿女”挖了一个新的human类的坑，由中心语“战友”反填。

我:
真要修理也不是不可以，但已经没有啥意义，因为逻辑语义上已经阻止了 “战友” 做 “长大” 的主语。对，“他” 不该是 “死去” 的 S，这个我去查查 code

白:
要简化也是“儿女长大的战友”，而不是“长大的战友”

我:
那是因为偷懒共享了 “那些”的规则。得，我分开来一步步来。
目前的机制可以改关系，暂时不可改边界。有空了写个 specs 让工程师增加边界调整的功能。不该有的 S 没有删去，是个 bug，规则是对的。对数据结构做手术，要做干净、不拖泥带水、不留后遗症，还需要磨一阵子。不过苗头是好的。

白:

“目前尚未毕业、导师已经超过六十三岁且不是院士的博士研究生要来教务处登记。”

谁不是院士？导师，还是博士研究生？如何确定？两个conj并列，是一股势力；“导师”辖域延展，是另一股势力。

我:
不用 common sense 出场？

白:
后一股势力因为“导师”自带的坑得到“博士研究生”在右侧遥相呼应而得到加强。当然“博士研究生”自身也因距离更近参与“不是院士”的逻辑主语坑的争夺。定性分析这是打个平手。common sense之外似乎看不到一锤定音的结构性要素。或者换个说法，大数据里，“导师”和“院士”共现的频度，与“博士研究生”和“院士”共现的频度比起来，谁高？

一提common sense就有把问题搞复杂的嫌疑，提大数据则明显把问题简化了。

我:
不错。现在的问题是，应该怎么挖掘和表达大数据的这些隐含了常识的知识，使得需要用的时候，够得着。人手工费那么大劲精心构建的 ontology 和常识，目前用起来还是不能得心应手，挖掘的东西应该呈现怎样的形态才好用呢。

白:
词向量可直接反映共现。

我:
在两个词抢夺同一个词的时候，最简单的办法就是看他们的两两共现来决定力量对比。这个听起来简单，但这种三角争夺是 on-the-fly 的，共现数据可以预先计算并 index，三角计算必须是 at run time，感觉上有一个不小的 overhead

白:
现场直接变成算距离了，index出来是向量，向量的距离直接反映共现。而且是“应该的”共现而不是“现实的”共现，中间加上了互通有无。互通有无是数学模型帮我们做的。

我:
大数据出来的统计不都是“应该的”么？都只是一种趋向。增加一个砝码，不是铁定。（一定有违反大数据统计的反例在。）

白:
不是这个意思，是说很多数据是稀疏的

宋:

（1）应该做大数据挖掘，与专家的规则结合起来。白硕建议比较两对共现频次，我觉得比常识知识库靠谱。

（2）这种大数据中的知识挖掘应当是实时的。应该有某种大数据存放的中间形式，支持快速的实时统计。这种中间形式会比原始的线性字符串对于统计更高效，同时应当有一定的通用性。

白:
在降维中稠密化了，原来语料中直接没搭上钩的，经过降维处理也可以搭上钩了。

宋:
（3）恐怕会有一些问题不是单纯的词语共现所能解决的。

白:
算距离，复杂性主要跟维度有关。维度降下来了，不仅数据稠密了，而且计算开销也下来了。@宋老师的（3）完全赞同。共现的数学模型，build和run的确是分离的。我:

我:
synonym 或 clustering 就是降维和数据稠密化吧，但同时也抹平了。不知道目前有没有哪个系统真地在歧义判别时候用到大数据统计的。

白:
word embedding并不严格抹平，但可以拉近，而且如果只为了比较大小，距离算到平方和足矣，没必要再开方。

我:
对，根本不需要精确计算，只需要相对的结论，谁强谁弱，或打平。

康：【首届语言与智能高峰论坛会议邀请函】 …

白:
这种会怎么不请伟哥啊……

阮:
第一届会议重在推动，伟老师估计会泼凉水。

白:
我们大家还在混圈子，伟哥已经高处不胜寒了。

我:
一觉醒来左眼发跳原来是白老师。冷不丁开个涮由头却是啥高峰会议。
认真滴说休眠唤醒是正道开始尝甜头了。感觉以前syntax下力可能太大太苦，不如把负担更多转嫁给语义唤醒。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1032238.html

上一篇：【语义计算：耍一耍中文 SyntaxNet 和百度翻译】
下一篇：【李白之29：依存关系图引入短语结构的百利一弊】

Trap of Information Overdose

当前推荐数：1 推荐人：马德义

【杞人忧天：可怕的信息极乐世界】屏蔽留存

【杞人忧天：可怕的信息极乐世界】

屏蔽已有 3677 次阅读 2017-1-17 01:09 |个人分类:立委科普|系统分类:科普集锦| 信息过载, 抵抗诱惑

今天想

信息过载的

问题，

有点感触。

我们生在大数据信息过载的时代。以前一直觉得作为NLPer，自己的天职就是帮助解决这个过载的问题。就好像马云的宏愿是天下没有难做的生意，我们玩大数据的愿景应该就是，天下没有不能 access 的信息。于是谷歌出现了，用粗糙的关键词和数不厌大的气概，解决了信息长尾问题。于是我们开始批判谷歌，信息长尾解决的代价是数据质量太差。于是人智（AI）派来了，借力深度作业（deep processing, whether deep learning or deep parsing），企图既要解决大数据的长尾，也要大幅提升数据质量，让全世界对于信息感兴趣的心灵，都有一个源源不断的信息流。这是从我们从业者的角度。

今天换了个角度想这个问题，从信息受众的角度。作为消费者，作为白领，我们从人类的信息过载的战役不断优化的过程中得到了什么？我们得到的是，越来越高质量的、投我所好的信息流。以前是在过载的海洋、信息垃圾里淹死，如今是在精致的虚假的满足里噎死。感受不同了，但反正都是死。哪怕做鬼亦风流，死鬼却从不放过我们。于是我们花费在朋友圈、新闻apps、娱乐apps的时间越来越多。无数天才（很多是我的同行高人）绞尽脑汁研究我们的喜好，研究如何黏住我们，研究什么诡计让我们拼死吃河豚。

一个人敌不过一个世界，这是铁律。七情六欲血肉之躯的消费者个体敌不过无数盯着消费者喜好的商家及其帮凶（包括在下）。于是我们沉沦了，成为了信息的奴隶。我们同时也不甘心，在努力寻求自救，不要在糖罐里甜腻死，虽然这甜越来越幽香、巧妙，充满诱惑。我们就这么一路挣扎着。但随着信息技术的提升，中招的越来越多，能自救的越来越少。

世界有n十亿人，m千万个组织，在每时每刻产生信息。假如我们把自我信息满足的门槛，用各种 filters 无限拔高，拔高到千万分之一，我们面对的仍然是 n百人和m个组织的产出。当技术提升到我们可以 access 这个高纯度但仍然能淹死人的信息的时候，我们一定相见恨晚，乐不思蜀，有朝闻道夕死可矣的感觉。这是一个可怕的极乐世界。

我们作为消费者在打一个注定失败的自虐之仗，试图抵制抵制不了的诱惑。说一点个人的应对体会，结束这个杞人早忧天的议论。这个体会也从朋友中得到印证过。

体会就是，有时候我们可以学林彪副统帅，不读书不看报，突然就掐了信息源和apps，专心做自己的事儿。一个月甚至半年过去，回头看，自己其实没有损失什么，而且完成了拖得很久的工作（其中包括如何去用语言技术提高信息质量诱惑别人的工作，不好意思，这颇滑稽，但无奈它是在下借以安身立命的天职）。

同行刘老师有同感，他是做事儿的人。我问他要不要加入群，咱们大伙儿聊聊NLP啥的。刘老师说，我这人经不起诱惑，曾经加入了n多群，一看话题有趣，就忍不住要看、要回应、要投入。结果是做不完手头的事儿。后来一横心，退了所有的群，就差把手机扔了。刘老师的做法也是一种自救。

其实我们最后还是要回到信息流中，再坚强的灵魂也不可能苦行僧一样长时期拒绝高品质信息以及消遣式信息享受。一味拒绝也自有其后果。意志力强的是在这两种状态中切换。更多的人意志力不够，就一步步淹没。退休了被淹没，也可算是福气。年轻人被淹没，这就是罪过，而恰恰是后者才是最 vulnerable 的群体。

“忽视

信息视而不见

”乃是白领劳动者的生存技巧，但对于涉世未深的年轻人很难很难。据观察，在信息轰炸中淹没（info-addiction），其问题的严重性已经不亚于吸毒和酗酒，感觉与游戏的泛滥有一拼，虽然我没有统计数据。

因此，我想，人智可以缓行，我们没必要那么急把全世界的人生和时间都吞没，可以积点德或少点孽。同时，希望有越来越多的人研究如何帮助人抵制信息诱惑，抵抗沉沦。理想的世界是，我们既有召之即来的高质量信息，又有挥之即去的抵制工具在（类似戒毒program）。虽然后者的商业利益少，但却是拯救世界和人类的善举。

最可怕的是在下一代，可以看到他们的挣扎和无助。games、social media 和 internet 吞噬了无数青春。而世界基本是束手无策，任其沉沦。家长呢，只有干着急。我们自己都不能抵制诱惑，怎么能指望年青一代呢。充满 curiosity 和躁动的心灵，注定受到信息过载的奴役最深。其社会成本和代价似乎还没有得到应有的深入研究。

今天就扯到这儿，希望不是信息垃圾。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1028040.html

上一篇：【李白之17：“我的人回来了, 可心还在路上”】
下一篇：Trap of Information Overdose

当前推荐数：7 推荐人：姬扬 武夷山 侯沉 冯国平 dachong99 xlsd table

发表评论评论 (6 个评论)

删除 |[6]用户名 2017-1-28 00:30: 评论已经被科学网删除

删除 |赞[5]文克玲 2017-1-17 19:14: 碍于情面，保留了三个朋友圈。
于是，每天要花20分钟以上来删微信。

删除 |赞[4]birdparadise 2017-1-17 14:30: 好文！论点脱俗，有智慧！

删除 |赞[3]岳雷 2017-1-17 14:10

删除 |赞[2]jao 2017-1-17 13:54: 求打救。

删除 |赞[1]李坤 2017-1-17 13:43: 信息是沼泽我们身陷其中而不得出

【李白之19：三探白老师的秘密武器】屏蔽留存

【李白之19：三探白老师的秘密武器】

屏蔽已有 2236 次阅读 2017-1-20 04:07 |个人分类:立委科普|系统分类:科研笔记| parsing, 语义计算, 依存关系

【立委按】专业探讨的时候，第一要义是互相搞懂各自的术语。老司机的毛病是经年积淀，自成体系，自创术语，不拘一格。白老师有一套自己的术语，立委也有一套术语。好在过去一年来，在白老师的语义计算群唠嗑唠久了，互相开始明白了各自术语的所指。但对于后学，很可能就麻烦了。为深入虎穴，三探奥秘，我把相关术语编辑在篇末，供各位查阅，不准确处可请白老师指正。

白：
我们先解决“谁和谁发生关系”而不必具体明确“是何种关系”，只笼统地分成：“a是b的直接成分”、“a是b的修饰成分”以及“a是b的合并成分”三种情况。

洪:
@wei 八九十年代 Steven Small 有套Word Expert distribute parsing理论，当时ucsd的Garrison Cottrell和 umass的 wendy lehnert也有类似研究。

白:
word expert理论当年也跟踪过，因为跟汉语实际相差太远，后来不了了之了。

我:
Small 的工作以前常引用，因为我导师刘老师给自己的 MT 机制也取名叫专家词典。术语撞车了，不得不引。句法词典化作为大的方向，在parsing的人以及整个的NLP共同体，长期以来是有相当大共识的，虽然各有做法不同（GPSG以后盛行的词典主义的LFG和HPSG就是这种共识的一个反映）。白老师的分步走，想来是一条结合大数据和词典化的大道。第一步只做 dependency，而且允许以后反悔。只依赖词典，先塔个句法的架子，靠中间件的语义化操作来减除伪歧义的困扰。Parsing 的语义化不外两个层面，一路是 nodes 的语义，即wsd；另一路是 arcs 的语义，就是 matcher 的结构消歧工作，为了求解靠谱的 parses（白老师所谓二元关系）。其后的细线条逻辑语义解析，包括部分二元关系的休眠唤醒以及揭示隐藏的逻辑语义关系，算是深度语义计算。这两路靠的都是大数据与初始结构的“恋爱”结果来克服知识瓶颈，而不是靠带标的treebank。其中最有意思的工作应该是这个无监督大数据与初结构的恋爱学习过程，貌似水性杨花漫天撒网愿者上钩，最后根据统计性落实各自秉性与最佳搭配。等着听白老师这个无监督的核爆炸吧，大数据引爆这种针对 deep parsing 的语义知识习得，据说可借力深度学习的 RNN 机制。

白:
不务虚了，讨论点昨天出的具体的例子吧。总会有突如其来的不带介词的NP，让没有坑的VP措手不及。躲得过初一躲不过十五。大数据会告诉我们什么呢？比如，“那堆砖让我垒了鸡窝了”，垒，没有预备坑给“那堆砖”，怎么办？

我:
不务虚那请教白老师几个问题：第一层词典化二元parsing 是 nondeterministic 吗
还是绝对 deterministic？那么粗糙的 parsing - 如果是后者的话，对后去的学习和反悔感觉会不够给力。

白:
大数据变了，结果会不同。这算nondeterministic？

我:
不算。那是两套系统，依据的是不同的数据和训练，在不同的时间框架。
不是说不需要大数据吗？连二元关系的性质都模糊，就是先勾搭上而已。

白:
不需要带标大数据。性质可以模糊，但约束必须明确。比如萝卜什么时候占名额什么时候不占名额。Matcher不是语义中间件，他要用到语义中间件。wsd也要用到。一个确定节点标签，一个确定留下的二元关系。

我:
约束不就是词典里面的挖坑，实际中的填坑 ➕ 挖坑么？用的是 cat，因为一个词可以有多个 cats（or subcats），所以调用了 WSD 模块来决定。根据这个决定来填坑构成二元结构。好像就是这么个过程。

白:
“这碗猪”还记得吧。

我:
不搭没关系吧 - 开始的时候。

白:
【碗，猪】这个二元关系有还是没有，问中间件。没有，就不建立arc。虽然cat相配，也不建。

我:
那是大数据训练以后的事儿了，训练之前呢？语义中间件就是一个大数据训练出来的类似 hownet 的资源。在训练之前大数据怎么结构化的？

白:
训练是独立的，跟matcher无关，跟ontology有关，ontology是结构化的

我:
无监督训练，总要有个啥吧。训练是独立的 offline 进行，利用大数据得出的语义相谐的统计性历史总结，作为 parsing 的资源。Matcher 是 online runner，来对新的 input 做 parsing 的。这跟我们专家去写 patterns 道理一样。训练的结果包含 ontology，
训练的支持难道不是结构化的大数据？这个结构怎么来的？谁给的第一推动？

白:
这是一个冷启动窗口长短的问题。matcher可以只看3个，大数据看13个。大数据的13个中包含被matcher拉近到3个的概率不低。

我:
拉近不是结构化的作为吗？

白:
大数据中非结构化的词串，十三个词里面“碗”和“猪”的共现，以及背后subcat的共现，同“碗”和“汤”的共现相比，这数据有统计意义不？我说的是“包含”。

我:
有意思。非结构化词串就是 ngram，13 词区间大体就是一个子句的长度，再长也没啥统计价值的关联了。

白:
碗，背后的subcat是“容器”“餐具”；汤，背后的subcat是“液体”“食物”。统计subcat共现，可以脱离具体的词例，获得大样本。在大窗口里进行，跑都跑不掉。所以，有无结构的说法是含混的。从parse角度讲，冷启动时无结构；从ontology角度讲，冷启动时结构很丰富。

我:
嗯，为了统计性，脱离具体词，先用 hownet 或 wordnet 支持一下。

白:
冷和热的唯一区别，就是有了冷的基础，热应该更好做。因为大窗口的关联都挖出来了，小窗口更不在话下。

只有一种情况，就是热的情况下，小窗口里面的关联，是把大窗口都覆盖不到的远距离关联拉近了的结果，这种会失手。

我:
好，在 onyology 支持下，在13词窗口内，系统学到了“碗”与“汤”的搭配，so what？

白:
在遇到这碗猪的时候，会选择不match，把“这碗”留着，让“猪”去找自己的坑

我:
这口气得憋多久啊

白:
就是所谓的“过程性因素”，用中间件的查询结果来控制，而不是用手编的语言学知识或规则来控制。

我:
停下的意思类似于入栈。稍有闪失就沉底出不来了。

白:
对啊，RNN+栈。入栈，等着填坑

我:
不知道栈有多深

白:
出不来的情况，参见刚才的例子 “那堆砖让我垒了鸡窝了”。在“垒”只有两个坑的情况，“那堆砖”就是进去了出不来的，如果不想其他办法的话。

荀:
如果这种二元决策是确定性的过程，如果出错，填入的坑的萝卜就得靠唤醒了。

白:
不妨仔细推演下这个例子。

我:
赶巧这个【工具】的坑，处于可有可无的边缘。“垒” 其实也可以带三个坑的。

白:
如果大数据中，存在着大量“砖”带着明确的介词和“垒”共处一个窗口的情况呢？或者投射到subcat上，“建筑材料”带着介词和“建筑行为”共现？

荀:
如何辨认“工具”和“施事”就很重要了

我:
【工具主语】与【人主语】几乎有类似的统计性。

荀:
需要用启发式信息，引导RNN训练，这个引导过程是至关重要的。

白:
这里有“我”，已经明确会填坑。我说的是，没有坑可填不可怕，翻翻大数据，历史上别人用它带什么介词，就把那个介词补上好了。然后就堂而皇之地做状语了。这些东东，有了ontology和大数据的结合，就不要人来操心了。

荀：
把subcat嵌入到RNN中，用启发式信息结合LM训练方式引导RNN编织权重。

我:
如果加上显性形式“用”，工具作为萝卜有很多数据。

白:
我昨天出了那么多例子，伟哥居然没觉出用心良苦：

“这些纸能写很多字”
“这些铁可以打很多钉子”

荀：
[用]这些铁可以打很多钉子
[在]这些纸能写很多字

白:
从形式上，为严谨起见，我们不会去给这个句子凭空添加任何一个莫须有的介词，但总可以用一个不占位置的虚介词吧……
【phi】这些铁可以打很多钉子。

荀:
利用大数据可以做“小词“还原，这对缺少标记的汉语很重要了。

白 :
哈
至少有了这个phi，栈里的不会出不来了。

荀:
借助大数据，RNN做“还原”这类事情很在行。把小词“虚化”，也是一种subcat处理。抓住了小词就抓住了汉语结构命门，白老师在这上花足了心思。对句子做“结构归一化”处理。

白:
推而广之，就是利用大资源+大数据把看起来不那么规范的句子有理有据地整理成更规范的，这样parser负担就轻了，无需独自面对复杂情况。“这场火多亏消防队来得及时”，这里的“这场火”同样面临“没给留坑”的尴尬。但是，把句子中的“火”“消防队”两个实词送入中间件，可以发现与他们共现频次相当高的“救”。有“救”垫底，就可以引入及物的虚动词phi，这样萝卜和坑就相安无事了。

荀:
白老师提到的parser需要确定的三种关系，权重信息编织在网中了，在应用时，词典发出请求，RNN做认定。Parsing就是做<W1,W2,Relation>认定的过程， W1或者W2 可以是小词。功夫在于Relation定义，在承载结构的小词处理以及<W1,W2,Relation>训练过程，白老师对这些都有一套不同以往的做法。

我:
如果没有坑可跳，就自己挖个坑去跳，这也是 mods 的常规了。在形态语言中，mods 有显性小词或词尾帮助确定该怎么挖坑自裁。在裸奔的汉语，形式没了，只好靠搭配。

白:
救火这个例子，已经不是subcat嵌入了，根本就是词嵌入。

我:
wait：“这场火多亏消防队来得及时”，这里的“这场火”同样面临“没给留坑”的尴尬。

咱们走一走这场火。哪里出来的“救火”，“消防队”本体里面的吗？Hownet 里面肯定有。

常规的做法是，遇到句首 np 没法填坑，就给个 topic 标签。有点像英语的 as for，with regards to，topic 很像pp做的状语。往后找一个谓语挂靠：“这场火” 挂靠到 “来”。

白:
人家只有一个坑，还是给human预留的。

我:
不需要啊。状语是随机的。状语可以看成是不填坑，而是挖坑，挖个坑让谓语填进去
或者让自己跳进去再去找主儿。

白:
比如“为了”？

我:
想不出来为什么要绕那么大弯，让“救火”出来救驾。Topic 式状语，无需那么清晰的标签，就是把np 降级为 pp。至于什么 p 什么格，另说着。

世界语有个万能介词 je，柴门霍夫这样解说：介词就是格，都是确定性语义的。
几十个介词就是几十个格。但是如果有一个状语，你不知道哪个介词合适
或者你懒得费劲琢磨什么格合适，你就用 je。与前面提的phi，异曲同工啊。

白:
那样活儿太糙。补介词合适还是补动词合适，大数据说了算。

我:
用了 je 就确定了其地位。不是没有道理。人如果要清晰，他可以有清晰的形式，譬如介词或词尾。如果他不用，那就模糊。虽然模糊，句法地位和关系还是大体确定了。这类模糊要确定语义关系，可以在后面的语义模块（我以前也叫它语义中间件）决定，而不是白老师的中间件在parsing 过程中调用。我选择把二者分开，因为这类情形句法没有到走投无路，就算耍个流氓亦无不可。先躲过初一，到15再说。其实 15 到了，要求很可能与初一不一样了。人走茶凉不了了之也是有的。

白:
数据支持的话，可以冒进一点。中间件就是在过程中调用啊，否则有啥用。

我:
deep parsing 的过程可以分两个阶段，两个模块：句法和语义。我叫语义中间件是指它在句法模块之后，产品语义落地之前，夹在中间。怎么没用？几乎所有的 hidden 逻辑语义，都可以留到这里做，而不必在句法模块做。

不仅句法模块内部可以多层去做，句法到逻辑语义，也可以分开，成为两个层面的 parsing，Syntactic parsing to semantic parsing。非谓语动词的主宾等都可以后延，
句法只要确定其状语还是定语或补足语身份即可。对于谓语的主宾等，也可以先在句法做一个糙活，到语义中间件再细化或修正。糙活是不到不得已不调用 ontology，如 np 主语，管他【human】还是【instrument】：

张三砍了李四
斧头砍了李四

开始都是同一个parse。

张三吃了大餐
乌云吃了月亮

也是如此。

白:
现在还都没说定性，只说定位，谁跟谁有关系。结论是，就这么糙的事儿，也得动用ontology。

我:
句法不必要太细。语义可以细，但那个活儿可以悠着点，做多少算多少。

回到白老师前面给的句子，试试我目前语义模块还没丰富完善的 parsing：

“那堆砖让我给搭鸡窝了”
“这辆车能坐六个人”
“这个方向不被看好”
“这些铁可以打很多钉子”
“这些纸能写很多字”

see，句法架子是出来了，但未尽如意的语义还有一步之遥。这一步补不补，不紧急，因为语义落地的时候，如果是 integrated 一体化的直通车，而不是提供给第三方做 offshelf support 的，就可以在落地模块内部协调。譬如，“坐车” 带了“六个人” 为 O，ideally，语义模块应该把 “六个人” 从句法的 O 转为逻辑语义的 S。但是，如果是内部协调，转不转也无所谓。O 不过是一个符号而已。词驱动落地的时候，“坐车”的 arg 是 O 或 S，完全不必计较。当然，如果要补足这一步，虽然琐细，但真要做也不难。在没弄清楚多少利益之前，懒得做这细活。同理：“那堆砖”最好是加一条线，连上“搭”，标签是【Instrument】。“这个方向不被看好”已经把表层的小词 “被” 带入考量，直接给了 O，一切到位，没有可做了。“打铁” 和 “钉子”，最好是加上标签【Result】。最后一句，最好给 S 进一步加上逻辑语义标签【Instrument】or 【Material】，但其实落地也未必需要这个，就是加上了显得很酷，很智能，让人看着爽，倒未必是对落地产品真地就有多大利益。

【术语 Index】

Matcher：the syntactic parsing program，有时候我们叫 runner，在白老师的系统里面，就是接受输入文句，对其二元依存关系解析的模块。

WSD：与 community 的依据义项划分的定义有别，白老师的 WSD 模块指的是：在词负载结构的体系里，一个具体的词负载了好几种可能的结构，结合上下文选择其中一种的模块，称之为wsd模块。事实上，这里的WSD 是利用大数据得来的词与词或其上位概念之间的语义相谐，来决定采纳某种区分一个词不同用法的扩展的 POS tags or 白老师所谓 subcats，来帮助结构消歧。粗线条义项的区分成为二元关系结构消歧的副产品。当（细线条）义项区别不影响结构的时候，义项区分就不是这个WSD模块的任务。

二元关系：两个词之间的句法依存关系（bianry dependency）。白老师的系统分为三类：修饰关系（如定语、状语），算元（args）关系（如主语、宾语）和合并关系。

POS（cat）：part-of-speech (or category，相对于 subcat 子类而言）词类，不必是 PennTree 定义的集合。作为模块，指的是根据系统给定的词类标准，自动做词性标注。一个词可能跨类，POS 模块可以根据上下文决定最合适的类别（词性）。在白老师的系统中，是所谓 WSD 模块做这个 POS 的事儿，来供给 Matcher 充当合法填坑的 candidates。在白老师的系统，我们可以把 POS 的词性标注理解为粗线条的 WSD。不影响结构的词义区分不是白老师所说的 WSD 模块的任务，虽然 community 的 WSD 不是这样定义的。

subcat：subcat 的原义指的是谓词的子类，这个子类对应了这个词的特定句型（譬如，双宾句型，宾+宾补句型，等）。白老师说的 subcat 扩展到不一定具有对应句型的子类。譬如，碗，背后的subcat是“容器”“餐具”；汤，背后的subcat是“液体”“食物”。这实际上是本体语义（ontology）的层级结构，如 ISA taxonomy chain：碗 ISA 餐具，餐具 ISA 工具，工具 ISA 商品；商品 ISA 人造物品；人造物品 ISA 物品；物品 ISA 实体（逻辑名词，这是这个 chain 的顶端节点 TOP 了）。

“耍流氓”：指的是对于二元依存关系不能定性，但是可以认定具有某种关系。汉语句法中，句首的名词短语在没有确定其性质是主语、宾语或定语、状语之前，往往先给它一个 Topic 标签，挂靠到后面的谓语身上，白老师认为这就是耍流氓。同理，当两个实词之间的关系基本可以确认，但是不能定性的时候，我们往往根据其出现的先后次序，让 parser 给一个 Next 的标签把二者连上，作为一个增强句法分析器鲁棒性（robustness）和查全率（recall）的打补丁的手段。这也算是先耍一下流氓，因为理论上后去还是需要语义模块去确认是何种关系才算深度分析到位。如果是两个中文动词一先一后系统给了 Next，其默认关系是【接续】，就是汉语文法书上所谓的“连动”结构。

Topic：汉语分析中，句首名词短语如果不直接做主语、宾语等，很多分析就给一个Topic（主题）的标签。汉语文法的一个突出语言句型现象就是所谓双主语句（常常分析成一个Topic or 大主语，加一个小主语：譬如，他身体特别好。这家公司业绩直线上升。）由于这种关系逻辑语义的性质不明，聊胜于无，所以也称这种二元关系的建立为“耍流氓”。

Next：两个词一先一后，但不能确认他们发生了什么句法语义关系，系统常常给一个特殊的关系标签，叫 Next，其默认关系是【接续】。这是一个增强句法分析器鲁棒性（robustness）和查全率（recall）的打补丁的手段。由于这种关系逻辑语义的性质不明，聊胜于无，所以也称建立这种二元关系为“耍流氓”。

mod：修饰成分或关系。包括定语、状语、补语。

arg：算元成分或关系。包括主语、宾语、（宾语）补足语或间接宾语。

Hownet：董振东前辈发明的面向MT和NLP服务的跨语言本体知识（ontology）网络《知网》的英文名称。

小词：教科书上叫做功能词。包括介词、连词、代词、副词、感叹词、联系动词等。

伪歧义：也叫伪路径，指的是 parsers 产生出来的貌似成功但没有价值的结构分析路径。伪歧义，是相对于真（结构）歧义而言。真的结构歧义的典型案例是某些 PP-attachment 的现象，同一个 PP 可以理解为两种可能：做宾语的后置定语；或做谓语动词的后置状语，这两个 parses 都是有效的语义解析。但是，很多传统的 parsers，会产生很多貌似成功解析输入文句的分析路径（numerous parses），给人以文句结构歧义严重的假象，但其实这些不同路径大多没有区别意义，是为伪歧义。这是一个困扰了传统 parsing 很多年的难题。白老师和立委的系统都利用不同的策略（包括休眠唤醒机制）很好地解决了这个问题。

中间件：白老师的所谓语义中间件，指的是在 ontology（本体知识库，如 HowNet，WordNet）的支持下，通过大数据训练得出来的语言词汇之间的语义相谐（各种关系之间的语义搭配）的知识库。这个中间件被 WSD 和 Matcher 模块调用作为对于输入文句的 parsing 的资源。立委以前的NLP博文种的所谓语义中间件虽然有与白老师的中间件相同的一面，但却是不同的所指。在立委的 deep parsing 的系统种，语义中间件不是一个知识库资源，而是指的句法模块后面的语义模块。这个模块利用句法框架，负责深度分析的逻辑语义细化、隐含的逻辑语义关系的解析、休眠唤醒新的语义结构关系（包括改正此前的错误路径），如果需要的话，也可以在这个模块做一些词义消歧工作（WSD的本义）。总之，这个语义模块是独立于领域，夹在句法分析之前和领域的语义落地之前，为了更好地服务于语义落地。为了不再混淆术语，立委考虑今后不再称此模块为中间件，而是把术语让出，就叫语义模块。

萝卜：指的是那些参与谓词结构（所谓 argument structure）所要求的实体角色的词，譬如充当主语、宾语、补足语的成分。谓词结构通常被认为是一个语句的核心语义。谓词以动词为主（但也有形容词和名词做谓词的），在词典主义（lexicalist）的系统中（白老师和立委的系统均属于词典主义），一个谓词的潜在的结构都标注在这个词的词典信息 subcat 里面。换句话说，谓词的 subcat 规定了它期望什么样的成分（所谓挖坑），需要什么样的词（萝卜）来填。譬如，“走路”挖了一个坑，需要一个优选语义位【human】的名词萝卜来充当其施事主语。再如，“喜欢” 挖了两个坑：谁喜欢什么。充当主语的是【human】名词，充当宾语的是几乎任何词。

坑：就是依存关系（dependency）的被预期的节点。对于谓词，其坑就是它预期的算元（args）成分，主语、宾语、补足语。对于修饰关系（mods），譬如定语、状语和（汉语）的补语，一般认为是附加的边缘语义，不占坑。也可以看成是修饰语预期了谓词，或看成是谓词不占坑地吃掉了修饰语。

填坑：一个词（包括代表短语的头词）根据谓词对坑的句法（甚至语义）要求，充当了其谓词结构的成分，建立了与谓词的二元关系（binary dependency），这个建构过程叫做填坑。谓词结构的成分填满了，核心语义就完整了，这个状态叫 saturated。

萝卜指标：指的就是坑。所谓不占萝卜指标，是说的一个词可以合法填两个坑的情形，其中一个坑不影响其填另一个坑的能力。听上去似乎与坑与填坑的概念出发点相违背，但在依存关系图的构建过程中，是必须考虑一个萝卜填多个坑（一个儿子多个老子）的情形才可以把依存关系进行到底（有些一个萝卜多个坑的情形在短语结构表达中，可以借助非终结节点避免）。

优选语义：最早由著名人工智能和机器翻译前辈 Wilks 提出的概念，指的是在本体网络（ontology）中，概念之间的语义相谐表现在自然语言的表达的时候，呈现的是一个区间，而不是一个固定的语义约束。譬如，【eat】这个概念对于【受事】的优选语义是【food】，但是这只是其优选，并不是一定要是【food】。语言表达的时候，优选语义可以根据句法的约束条件不断放松，以至于达到完全不相谐的程度（nonsense）。乔姆斯基认为，句法可以独立于这些语义相谐的约束，举的就是句法约束决定结构关系，偏离优选语义到极端的例子：Colorless green ideas sleep furiously。对于形态语言，句法独立性的原则有较多的证据。对于汉语，这个原则需要打折扣，合理利用优选语义的约束就成为汉语解析的关键依据。立委 parser 改造使用了 HowNet 来弥补句法形式的不足。白老师的系统是依靠大数据训练出来的中间件来实现优选语义的对 parsing 的约束。

逻辑语义：指的是深层结构关系。最早起源于乔姆斯基的深层结构和费尔默的深层格（关系）。中国NLP和MT的旗手级前辈董振东老师发扬光大，深化了这方面的研究，指出解析逻辑语义是深度自然语言理解的关键：所谓理解一个句子，主要就是理解了这个句子里面概念之间的逻辑语义，谁是施事，谁是受事，时间、地点、条件，等等。在 community，对应于所谓 role labeling 的任务。一般而言，主谓宾定状补之类的句法关系比较粗糙，这些是表层关系，一个语言深度解析器（deep parser）不仅要解析（decode）句法关系，而且要进一步揭示后面的逻辑语义关系，包括细化句法关系（譬如句法主语可以进一步标注为施事、受事、工具等逻辑语义，句法宾语可以标注为受事、对象、结果等逻辑语义，诸如此类），和揭示隐含的逻辑语义关系（所谓 hidden links，就是句法上没有直接联系但逻辑语义上具有直接联系的结构关系，譬如宾语是宾语补足语的隐藏的逻辑主语）。

休眠唤醒：在李白的系列研讨中，这个术语指的是一种把可能性较小的路径暂时搁置的parsing策略，被搁置的路径可以在适当的条件下被唤醒。这种策略据信反映了人的语言解析的过程，可以从段子、相声抖包袱等现象看到这个过程的表现。立委有系列博文专谈这个机制。譬如：【立委科普：结构歧义的休眠唤醒演义】

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1028715.html

上一篇：【李白之18：白老师的秘密武器再探】
下一篇：【李白之20：得字结构的处置及其结构表达】

当前推荐数：1 推荐人：史晓雷

神经机译：川普宣告，米国人民今天站起来了屏蔽留存

神经机译：川普宣告，米国人民今天站起来了

屏蔽已有 2452 次阅读 2017-1-21 06:16 |个人分类:立委科普|系统分类:海外观察| 就职演讲, 川普, 神经机器翻译, 谷歌翻译

虽然有跨国抄袭嫌疑，川普宣告，人民当家作主，米国人民今天站起来了!

川普今天总统登基，发表就职演说，谷歌神经翻译如下，请听（作为一个老机译，给这篇机器翻译打分的话，我会给忠实度85分，顺畅度90分，可懂度95分，个人觉得已经超越人工现场翻译的平均水平）：神经机器翻译的现场录音。

我们，美国公民，现在加入了伟大的国家努力，重建我们的国家，恢复其对我们所有人民的承诺。
在一起，我们将决定美国和世界的路线许多，未来几年。我们将面临挑战，我们将面临艰难，但我们将完成这项工作。

每四年，我们将采取这些步骤，进行有秩序和和平的权力转移，我们感谢奥巴马总统和第一夫人米歇尔奥巴马在这一过渡期间的恩典援助。他们是壮观的。谢谢。

然而，今天的仪式具有非常特殊的意义，因为今天我们不仅仅是将权力从一个政府转移到另一个政府，或从一个政党转移到另一个政府，而是我们从华盛顿转移权力，并将其交还给你，人民。

长期以来，我们国家首都的一个小团体获得了政府的奖励，而人民承担了成本。华盛顿蓬勃发展，但人民没有分享其财富。政治家兴旺，但工作离开，工厂关闭。企业保护自己，但不是我们国家的公民。他们的胜利不是你的胜利。他们的胜利不是你的胜利。虽然他们在我们国家的首都庆祝，但没有什么可以庆祝在我们的土地上奋斗的家庭。

所有的变化从这里开始，现在，因为这一刻是你的时刻，它属于你。

它属于今天聚集在这里的每个人，每个人都在整个美国。这是你的一天。这是你的庆祝。而这个，美利坚合众国，是你的国家。

真正重要的不是哪个党控制我们的政府，而是我们的政府是否由人民控制。

2017年1月20日将被记住为人民成为这个国家的统治者的那一天。

我们国家被遗忘的男人和女人将不再被忘记。

每个人都在听你的。你来自成千上万的人成为历史运动的一部分，世界从未见过的那些喜欢。

在这个运动的中心是一个关键的信念，一个国家存在为其公民服务。美国人想要他们的孩子的伟大的学校，他们的家庭的安全的邻里，并为自己好的工作。这些是对义人和公义的公正和合理的要求。

但对于我们太多的公民，存在一个不同的现实：母亲和儿童陷入我们内部城市的贫困;生锈的工厂散落像墓碑横跨我们国家的景观;教育制度与现金齐齐，但使我们年轻美丽的学生失去了所有的知识;和犯罪，帮派和毒品偷走了太多的生命，抢夺了我们国家这么多未实现的潜力。

这美国大屠杀停在这里，现在停止。

我们是一个国家，他们的痛苦是我们的痛苦。他们的梦想是我们的梦想。他们的成功将是我们的成功。我们分享一颗心，一个家，一个光荣的命运。我今天所做的宣誓就是对所有美国人的忠诚宣誓。

几十年来，我们以牺牲美国工业为代价丰富了外国产业;补贴了其他国家的军队，同时允许我们的军队非常悲伤的消耗。我们捍卫了其他国家的边界，拒绝为自己辩护。

在海外花费了数万亿美元，美国的基础设施已经失修和腐烂。我们已经使其他国家富有，而我们国家的财富，实力和信心已经消失了地平线。

一个接一个地，工厂关闭了，离开了我们的岸边，甚至没有想到数百万和数百万留在美国工人。我们的中产阶级的财富已经从他们的家里被剥夺，然后再分配到世界各地。

但这是过去。现在，我们只看到未来。

我们今天聚集在这里，正在发布一项新法令，在每个城市，每个外国首都和每一个权力大厅上听到。从今天起，我们的土地将有一个新的愿景。从这一天开始，它将只有美国第一，美国第一。

每一项关于贸易，税收，移民，外交事务的决定都将使美国工人和美国家庭受益。我们必须保护我们的边界免受其他国家的蹂躏，使我们的产品，偷窃我们的公司和破坏我们的工作。

保护将导致巨大的繁荣和力量。我会为我的身体每一口气，为你而战，我永远不会让你失望。

美国将再次赢得胜利，赢得前所未有的胜利。

我们将带回我们的工作。

我们将带回我们的边界。

我们将会

Google Translated from:

TRUMP: Chief Justice Roberts, President Carter, President Clinton, President Bush, President Obama, fellow Americans and people of the world, thank you.

We, the citizens of America, are now joined in a great national effort to rebuild our country and restore its promise for all of our people.
Together, we will determine the course of America and the world for many, many years to come. We will face challenges, we will confront hardships, but we will get the job done.

Every four years, we gather on these steps to carry out the orderly and peaceful transfer of power, and we are grateful to President Obama and First Lady Michelle Obama for their gracious aid throughout this transition. They have been magnificent. Thank you.

Today's ceremony, however, has very special meaning because today, we are not merely transferring power from one administration to another or from one party to another, but we are transferring power from Washington, D.C. and giving it back to you, the people.

For too long, a small group in our nation's capital has reaped the rewards of government while the people have borne the cost. Washington flourished, but the people did not share in its wealth. Politicians prospered, but the jobs left and the factories closed. The establishment protected itself, but not the citizens of our country. Their victories have not been your victories. Their triumphs have not been your triumphs. And while they celebrated in our nation's capital, there was little to celebrate for struggling families all across our land.

That all changes starting right here and right now because this moment is your moment, it belongs to you.

It belongs to everyone gathered here today and everyone watching all across America. This is your day. This is your celebration. And this, the United States of America, is your country.

What truly matters is not which party controls our government, but whether our government is controlled by the people.

January 20th, 2017 will be remembered as the day the people became the rulers of this nation again.

The forgotten men and women of our country will be forgotten no longer.

Everyone is listening to you now. You came by the tens of millions to become part of a historic movement, the likes of which the world has never seen before.

At the center of this movement is a crucial conviction, that a nation exists to serve its citizens. Americans want great schools for their children, safe neighborhoods for their families, and good jobs for themselves. These are just and reasonable demands of righteous people and a righteous public.

But for too many of our citizens, a different reality exists: mothers and children trapped in poverty in our inner cities; rusted out factories scattered like tombstones across the landscape of our nation; an education system flush with cash, but which leaves our young and beautiful students deprived of all knowledge; and the crime and the gangs and the drugs that have stolen too many lives and robbed our country of so much unrealized potential.

This American carnage stops right here and stops right now.

We are one nation and their pain is our pain. Their dreams are our dreams. And their success will be our success. We share one heart, one home, and one glorious destiny. The oath of office I take today is an oath of allegiance to all Americans.

For many decades, we've enriched foreign industry at the expense of American industry; subsidized the armies of other countries, while allowing for the very sad depletion of our military. We've defended other nations' borders while refusing to defend our own.

And spent trillions and trillions of dollars overseas while America's infrastructure has fallen into disrepair and decay. We've made other countries rich, while the wealth, strength and confidence of our country has dissipated over the horizon.

One by one, the factories shuttered and left our shores, with not even a thought about the millions and millions of American workers that were left behind. The wealth of our middle class has been ripped from their homes and then redistributed all across the world.

But that is the past. And now, we are looking only to the future.

We assembled here today are issuing a new decree to be heard in every city, in every foreign capital, and in every hall of power. From this day forward, a new vision will govern our land. From this day forward, it's going to be only America first, America first.

Every decision on trade, on taxes, on immigration, on foreign affairs will be made to benefit American workers and American families. We must protect our borders from the ravages of other countries making our products, stealing our companies and destroying our jobs.

Protection will lead to great prosperity and strength. I will fight for you with every breath in my body, and I will never ever let you down.

America will start winning again, winning like never before.

We will bring back our jobs.

We will bring back our borders.

We will ......

【谷歌NMT，见证奇迹的时刻】

【关于机器翻译】

【置顶：立委NLP博文一览】

【立委NLP频道】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1028954.html

上一篇：【李白之18：白老师的秘密武器再探】
下一篇：【李白之20：得字结构的处置及其结构表达】

郭:
Amazon’s $2.5M ‘Alexa Prize’ seeks chatbot that can converse intelligently for 20 minutes

当前推荐数：4 推荐人：岳雷 冯国平 houzhenyu yangb919

发表评论评论 (4 个评论)

删除 |赞[4]yangb919 2017-1-22 08:11: 神经机译牛逼

删除 |赞[3]岳雷 2017-1-21 15:25: 米国人民今天站起来了

删除 |赞[2]wqhwqh333 2017-1-21 10:45: 从神权、君权到民权；从打天下、家天下到选天下，世界在不断改变。

删除 |赞[1]张珑 2017-1-21 10:01: 翻译的基本能看懂啊，太牛了

【从IBM沃森平台的云服务谈AI热门中的热门 bots】屏蔽留存

【从IBM沃森平台的云服务谈AI热门中的热门 bots】

屏蔽已有 2485 次阅读 2016-12-20 04:19 |个人分类:立委科普|系统分类:科研笔记| 沃森, BOT, 人机接口, chatbot, 对话机器人

我:
哥仨老革命在去 IBM 的 traffic 中去大名鼎鼎的沃森（Watson）系统探秘

洪:
讲者是这位印度籍女士：http://researcher.watson.ibm.com/researcher/view.php?person=us-vibha.sinha:

郭:
比较有意思的是她后面讲的三点:

1. LSTM based intent recognition and entity extraction

2. "tone" recognition
这里tone指的是从一句话（书面语）反应出的说话人的喜怒哀乐和处事方式等

3. personality recognition
主要基于心理学的分类，用200到2000条tweets训练

她重点强调的是，通过增加tone和personality的识别，人机对话可以有更高的可接受度。

我:
唐老师诸位汇报一下昨天的听闻。上面郭老师也总结了几条，很好。我再说几点。
话说三位老革命慕名而去，这个 meet-up 一共才来了20几位听众吧大概湾区此类活动甚多 marketing 不够的话也难。据说北京的 AI 沙龙，弄个花哨一点的题目往往门庭若市。

1. 没有什么 surprises 但参加沙龙的好处是可以问问题和可以听别人问问题，而主讲人常常在回答的时候给出一些书面没有的数据和细节。否则的话，各种资料都在网上（最后的 slide 给了链接），要写利人似的调研报告，只要不怕苦，有的是资料。

听讲的另一个好处是，主讲人事先已经组织好材料讲解，可以快速了解一个项目的概貌。

2. 特地替唐老师问了他钟情的 Prolog，问你们有用吗，在什么模块用。主讲人说，没有用。我说有报道说有用到。她说，她没听说，至少在她主讲的已经产品化的这个沃森 chatbot 的组建 toolkit 里面没有 Prolog。当然她不排除某个小组或个人在沃森的某个项目或模块用到。IBM 对 AI 的投入增大，在沃森的名号下的各种研究项目和小组很多。

马:
我问过了IBM中国的，在沃森参加电视节目版本中没有用prolog，但是后续的版本中，确实用到了prolog

陈:
它是很多services构成，用不会奇怪，尤其是某些既有系统

我:

3. 现在不少巨头都在 offer 这样的 toolkit，问微软 offer 的 cortana 的 toolkit 与你们沃森的这套有啥不同。回答是，非常类似，不过她自认为沃森质量更好。亚马逊也有类似的 offer。

所以回来路上，我们就谈到这个 bots 遍地开花的场景。郭老师说，现如今谁要想做一个领域内的 bot，或自己的 app 做一个 bot 接口，根本就不需要编程。只要准备好领域的 experts，把数据准备好，用这些巨头的工具箱就可以构建一个出来。也一样可以 deploy 到 messenger 或嵌入其他场景，这几乎是一条龙的云服务。

当然用这些服务是要交钱的，但主讲人说很便宜很便宜的，郭兄说，真用上了，其实也不便宜。便宜与否放一边，至少现如今，bots 的门槛很低，需要的不是软件人才，而是领域数据的人。于是，我看到一种前景，以前毕业即失业的语言学家、图书馆业人士，将来可能成为 AI 的主力，只有对数据和细节敏感的人，最终才是 AI 接口的血肉构筑者，反正架构是现成通用的。这个细想想是有道理的。这是沃森 API calls 的价格。

我:
这就回到我们以前议论过的话题。AI 创业，如果做平台或工具箱，初创公司怎么敌得过巨头呢？我觉得几乎是死路。

大而言之做平台和工具箱创业的，历史上就没见过什么成功案例（不排除做了被收购那种，那也是“成功”，如果你的技术有幸被巨头看中：其实昨晚介绍的沃森系统的一个重要组件 AlchomyLanguage 就是收购的，洪爷知道收购的来路和细节）。

白:
麦当劳玩法，方便，质量可控，但绝非美食，虽然是“美”食。

我:
不错，这些巨头的 offerring 都是麦当劳式的流程。创业的空间，从工具角度，可以是中华料理的配方辅助工具之类。不过，还是那句话，最好绕过平台本身创业的思维，而是用巨头的工具或者自家建造匕首去做领域的 AI，这样的创业应该具有更大的空间和更多的可能性。

对于 NLP（AI之一种）我写过 n 篇博文强调，所有的 offshelf 的平台和toolkit（譬如历史悠久的GATE），甚至一个小插件（譬如 Brill Tagger or some Chinese word segmenter）都不好用。可以 prototyping 但如果稍微有点长期观点要建一个大规模的NLP的应用，还是一切自家建造为好。当然，自家建造的门槛很高，多数人造不起，也没这个 architect 来指挥。但最终是，自家建造的胜出，从质量上说（质量包括速度、鲁棒性、精度广度、领域的可适应性等关键综合指标）。

巨头的工具箱的产品 offers 一开始也不赚钱，但他们的研发积累已经做了，且还在不断投入，不产品化成工具箱不是傻瓜吗，赚多少算多少。如果真到了AI bots 遍地开花的时候，他们凭借巨大的平台优势，赚钱也是可能的。小公司这条路没门吧。如果你的 offer 的确 unique，譬如是中华料理，譬如是伟哥的 parsing，你可能会吸引一批使用者。但想赚钱必须有规模，而 component tech 或平台工具之类，在小公司的环境中，是成不了规模的。所以不要想赚钱的事儿。

赚钱靠的是产品，而不是工具，这是AI创业铁律。

当然，通过平台或工具打出影响，做 marketing，曲线救国创业，另当别论。
回到 meet-up：

4. bots 构建的核心当然是 conversations 的训练工具。IBM沃森的工具用的是深度神经。

对于 bots，input 是确定的，就是用 bots 的人的输入。自然语言的语音也好文字也好，语音反正也要转化为文字所以我们面对的就是人机接口中的“人话”，理论上无止境千变万化。

bots 的 output 呢？

在目前的框架里，在绝大多数实际场景，这个 output 都是以极为有限的集合
最典型的案例是为 apps（天气、股票、时间之类）做 bots 作为 apps 的人机接口，
其 output 就是 app 里面的 commands 集合。于是 bot 产品定义为从无限到有限的映射，这是一个典型的分类场景。于是沃森提供这个深度学习为基础的工具帮助你训练你所需要的 classifiers，这是标准做法无甚新意。

数据越多，分类质量越好。千变万化的死敌是稀疏数据。好在对于 bots，数据的收集会是一个边使用边加强的过程。如果你的 bots 开始有用户，你就形成了正循环，数据源源而来，你不断打磨、训练，这些都是可以 streamline 的流水作业，就越来越好。Siri 如此，Echo 也如此。

白:
分类本身是不带参数的，而bots的应对必须是带参数的，这是硬伤。
拿分类来做对话是看得到天花板的。

我:
I cannot agree more :=)

这里其实是有历史渊源的。IBM 做问答，一直是把问题简化为分类。18 年前我们在第一次 QA 竞赛（TREC-8）中交流就是如此，这么多年这个核心做法一直不变。当时我们的QA成绩最好，得分66%，沃森的系统印象是40%左右，他们的组长就追在后面问，我们思路差不多呀，都是 question intents（我们叫 asking points，比多数 intents 其实更聚焦），外加 Named Entity 的support。我说我们还用到了语言结构啊。

直到今天他们仍然是没有句法分析，更甭提深度分析。他们当年的 QA 就是基于两点：
1. 问句分类：试图了解 intents；2. NE。有了这两条，通过 keywords 检索作为 context，在大数据中寻找答案，对于 factoid questions 是不难的（见【立委科普：问答系统的前生今世】）。这就是沃森打败人类的基本原理，一点也不奥秘，从来没有根本改变。现在这一套继续体现在其 bots 工具箱 offering 里面。

洪:

昨晚Watson讲座听，
今早广告已跟进。
IBM可真下本，
今天我试Bluemix云。

我:
2. 因此 conversations 训练，其核心就是两条：一个是 intents classification （这个 intents 是根据 output 的需求来定义的），一个 NE，不过 NE 是他们已经训练好的模块（NE有一定的domain独立性），用户只是做一些微调和增强而已。

顺便插一句，这几天一直在想，AI 现在的主打就是深度神经，所有的希望都寄托在神经上。但无论怎么神经，都不改 supervised learning 的本性：所以，我的问题是：你怎么克服缺乏带标大数据的知识瓶颈？

ok 你把机器翻译玩转了。因为 MT 有几乎无限的 “自然” 带标数据（其实也不是自然了，也是人工，幸运的是这些人力是历史的积累，是人类翻译活动的副产品，是不需要开发者花钱的 free ride）。可其他的 ai 和 nlp 应用呢，你还可以像 MT 这样幸运这样享用免费午餐吗？

现在想，紧接着 MT 的具有大数据的热门应用是什么？非 bots 莫属。
对于 bots，数据已经有一定的积累了，其最大的特点在于，bots 的使用过程，数据就会源源而来。问题是这些数据是对路的，real life data from the field，但还是不带标啊。所以，bots 的前景就是玩的跟数据打仗：可以雇佣人去没完没了地给数据做标注。这是一个很像卓别林的【摩登时代】的AI工厂的场景，或者是列宁同志攻打冬宫的人海战术。看上去很笨，但可以确定的是，bots 会越来越“智能”，应对的场景也越来越多。应了那句老话，有多少人工，就有多少智能。然而，这不是、也不应该是唯一的克服知识瓶颈的做法。

毛:
嗯，有多少人工，就有多少智能。这话说得好。

我:
但这个景象成为常规也不错至少是帮助解决了一些白领就业。是用高级的专家知识去编写规则来提高系统质量，还是利用普罗标注去提高质量，从帮助就业和维稳角度看，几乎蛮力似的深度神经对于标注大数据的无休止的渴望和胃口，对于社会似乎更为有利。为了社会稳定和世界和平，我们该看好这种蛮力。我们做深度分析和理解的专家，试图尽可能逼真地去模拟人的智能过程，但对蛮力也应该起一份敬意。

将来的AI，什么人都可做：1. 你发现一个领域的 AI 需求； 2. 你雇佣一个对这个需求可以形式化定义的设计家； 3. 你调用巨头的一个通用的 AI 工具箱（譬如 TensorFlow）或面向专项产品的工具箱（譬如 bot 的沃森工具箱） 4 你雇佣一批失业但受过教育的普罗，像富士康一样训练他们在流水线上去根据设计家的定义去标注数据、测试系统，你于是通过 AI 创造了价值，不排除你的产品会火。因为产品火不火已经不是技术了，而是你满足需求的产品角度。

3. 但是正如白老师说的这种用分类来简化问题的 AI 产品化，走不远。它可能满足一些特定领域的特定的需求但是后劲不足是显然的。其中一个痛点或挑战就是，这种东西走不出三步，三步以上就抓瞎。如果你的应用可以在三步之内就基本满足需求，没问题。

bots 最显然的有利可图的应用场景是客服。一般而言，bots 取代和补充客服是大势所趋，因为客服的知识资源和记忆，根本没法与我们可以灌输给 bots 的知识来相比。利用知识去回答客户疑问，人不如机，是可以想见的。但是观察一个好的客服与客户的交互可以发现，三步的交流模型是远远无法满足稍微复杂一点的场景的。三步的说法是一个比喻，总之是目前的工具箱，对于较长时期的对话，还是束手无策。

bots 对用户话语的理解简化为 classification，以此为基础对用户的回答就不是那么简单了。目前提供的做法是：因为 intents 是有限的集合，是 classification 的结果，那么对于每一个 intent 可以预知答案（存在数据库的 hand-crafted text snippet）或回应（譬如展示一个图，譬如天气app的今日天气图表)。这些预制的答案，听上去非常自然、生动甚至诙谐，它们都是领域专家的作品。且不说这些预制的 snippets，如何根据classification hierarchy 本身需要做不同组装，在存于数据库里面的核心应答的预制以外，还可以加上情感的维度，还可以加上 personalized 的维度，这些都可以使得对话更加人性化、自然化，但每加一个维度就意味着我们开始接近组装式策略的组合爆炸后果。三步、三维以上就无法收拾。

我问主讲人，你的这些预先制定好的应答片段，按照你的工具的组装方式，不就是一个 decision tree 吗？回答是，的确，就是一个 decision tree 的做法。然后她说，有不少研究想突破这种应答模式，但都是在探索，没有到可以产品化工具化的阶段。

郭老师说，谁要是有本事把人机的 “自然对话”能够延长到 20 分钟，换句话说就是突破图灵测试，谁就是 AI bots 的真正破局者。如果你证明你能做到，巨头会抢着来高价收购你的。这是所有做 bots 的所面临的共同挑战。

据说小冰最高记录是与单一的人谈了九个小时的心。但那不是真正的突破，那是遇到了一个异常人类。正常的人，我的体会是两分钟定律，你与小冰谈话超不过两分钟。我试过多次，到了两分钟，它所露出来的破绽就让你无法忍受，除非自己铁心要自我折磨。其实工业界要求的连续对话，不是小冰这种闲扯。而是针对一个稍微复杂一点的任务场景（譬如订票）如何用自然对话的假象去把相关的信息收集全，来最大限度地满足客户需求。

累了，先笔记和评论如上。其余还有一些有趣的点儿可以讨论，以后再说。这是交给我们唐老师的作业。

洪:
亚马逊正设大奖，
chatbot赛悬赏。
对话若超廿分长，
两半米粒到手上。// 2.5M

【相关】

【立委科普：问答系统的前生今世】

Amazon’s $2.5M ‘Alexa Prize’ seeks chatbot that can converse intelligently for 20 minutes

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1021860.html

上一篇：【语义计算：从神经机器翻译谈起】
下一篇：【从V个P到抓取邮电地址看 clear patterns 如何抵御 sparse data

当前推荐数：1 推荐人：周健

发表评论评论 (3 个评论)

删除 |赞[2]张海涛 2016-12-20 10:32: 当年的Watson是建在UIMA（Unstructured Information Management Architecture）的基础上的，确实使用Prolog（The Prolog Interface to the Unstructured Information Management Architecture，https://arxiv.org/ftp/arxiv/papers/0809/0809.0680.pdf）。

删除 |赞[1]张海涛 2016-12-20 10:05

“IBM沃森的工具用的是深度神经。”
"直到今天他们仍然是没有句法分析，更甭提深度分析。"
当年Watson打败Jeopardy!冠军后，IBM Journal of Research and Development出过专辑，对于Watson的构造的描述好象不是这样的。比如parsing是这样描述的：http://ieeexplore.ieee.org/document/6177729/
“Two deep parsing components, an English Slot Grammar (ESG) parser and a predicate-argument structure (PAS) builder, provide core linguistic analyses of both the questions and the text content used by IBM Watson™ to find and hypothesize answers. Specifically, these components are fundamental in question analysis, candidate generation, and analysis of passage evidence. As part of the Watson project, ESG was enhanced, and its performance on Jeopardy!™ questions and on established reference data was improved. PAS was built on top of ESG to support higher-level analytics. ”

现今的Watson的建构和多年完全不一样了吗？

李维回复张海涛： Thanks. Good to know.

2016-12-20 14:101 楼（回复楼主）

【语义计算沙龙：三角关系的 chemistry 种种】屏蔽留存

【语义计算沙龙：三角关系的 chemistry 种种】

屏蔽已有 1963 次阅读 2016-9-6 23:25 |个人分类:立委科普|系统分类:观点评述| 歧义, 结构, 句法, 中文分析

白:
朴泰恒小组成绩不好，今天不一定能进决赛
上面例子，“小组”怎么摆，是个考验。
原意是“在小组赛阶段的”

梁:
朴泰恒今天小组成绩不好。
孙杨小组第一。

白:
以人命名的小组也是存在的

梁:
是啊，感觉“小组成绩不好”是谓语。这里小组也不是“朴泰恒的小组“，考验来了。

我:
不是说大数据吗看某某某小组是不是够资格

t08061

t08062

t08063

t08064

t08065

梁:
@wei 很棒！有个 Topic.

宋:
@wei 确实很好。但是确实能区分两种“小组”，还是只顾一头？

我:
没有大数据，应该是只顾一头吧，可以试试另一头的典型案例

宋:
即使有大数据，还得区分时代、地域、行业等，不好办。
而且，这就成了有监督的学习了，需要做语料标注。

白:
不一定宋老师。可以词典里离线加标签，目标文本在线只需计算标签密度，不涉及监督学习。

宋:
具体解释一下吗？

我:
词典习得本质上是无监督的 ngram 频率做底。假设北京大学不在词典应该可以学出来，某某某小组亦然。白老师说的是在线词典化通过现场计算。

宋:
@wei 就这个例子而言，对比“朴泰恒小组”和“朴泰恒……小组”的频率，是吗？

我:
能不能解决这个问题：北京大学、中学、小学要立刻全部动员起来
xyz 相交切分的通则：xy 强还是 yz 强，这个道理上可以在线检索计算
“北京大学” 还是 “大学、中学” 强

宋:
如果看作交搭型歧义问题，那么在大数据中，肯定是“小组成绩”频率高过“朴泰恒”的频率，除非朴泰恒这个人太红。因此，以此决定句法结构，似乎理由不足。

我:
人是怎么决策的呢？
这里可能涉及大数据的范围问题。
数据不是越大越好尤其不能杂大而杂就把领域抹平了，而很可能这是领域知识

宋:
对，我糊涂了。

白:
其实，和人名结合是兜底的，要学的只是不和人名结合的高频词串。
向右结合的条件不满足，就默认向左好了。
大数据不是这么用的。

宋:
不过无论如何，一般来说，X小组比不上小组成绩。这里是领域知识问题，不大好用词频去处理。

我:
先说一下篇章现象 one sense per discourse.
如果同一篇中还有某某某小组再现。那个原则是过硬的可以在篇章内搞定，这时候大数据认输。

宋:
张三小组第一，李四小组第二。

白:
@宋柔这个是歧义

我:
分为四级
第一级是词典绑架北京大学基本如此
第二级是篇章原则
第三级是领域数据
第四级才是大数据超领域的
涉及到专名术语的走不到超领域的大数据，大数据抹平了领域知识反而不妙

白:
词例级如此，特征级未必
特征级可以把xx小组一起拿上来统计。

我:
明白。不过具体操作起来，还是一笔糊涂账。xxx 小组与小组成绩打架，要赢多少算赢？在多大的数据里？如果特别悬殊好说，稍微有些接近就是烂帐，or 烂仗。

白:
另外，针对篇章可以计算特征密度，如果某种特征密度显著比其他特征高，也可用。比如体育特征显著，“小组”做前缀就优先级较高。

宋:
我在11年人民日报中检索，“小组赛”1013次，“小组成绩”4次，“小组赛成绩”两次，人名+小组3次。对于一个毫无体育比赛知识的人，如果有一般的比赛知识，知道比赛会出成绩，就能推知“小组比赛”是一个短语。首先是从黏着的“赛”黏着到“小组赛”，知道有“小组赛”这个术语，并能理解这是分小组而比赛。由于知道比赛会出成绩，就能推知“小组成绩”是一个短语，指某人在小组赛中的成绩。人名+小组7次，但都与体育无关：赵梦桃小组，郝建秀小组等，都是棉纺厂的。一个人，没有体育比赛知识，但有一般的比赛知识，又有语言知识，就可以有这样的推理

我:
“周恩来思想深刻谈吐幽默”，vs. “毛泽东思想深刻”
“思想” 与 “小组” 类似

宋:
1940年代以前，汉语中好像没有“人名+思想”作为一个词的。此后，“毛泽东思想”频率越来越高。但其他人名+思想就不能成词。

我:
这个政治有意思：从此其他人名+思想成为禁忌：我花开来百花杀啊。

白:
@宋 “小组循环赛”“小组出线”“小组第一”……等各种组合均以“小组”为前缀，如果只对实例，其实比“朴泰恒小组”好不到哪里去。统计频度多一点少一点都做不得结构优选的依据。但是如果抽象地考察“前缀模式”和“后缀模式”的优先程度受什么影响，必然会追溯到特征以及特征在篇章中的密度分布。如果“体育”或“竞赛”特征及其密度优势显著，“小组”倾向于做前缀，否则倾向于做后缀。如果前缀所带的实例碰巧在大数据里固然好，不在，也可通过特征及特征密度间接获得友军的支持。同样，如果“人名”“任务名”特征或特征密度显著，“小组”倾向于做后缀。

【相关】

【置顶：立委NLP博文一览】

【立委科普：歧义parsing的休眠唤醒机制再探】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1001313.html

上一篇：【中文处理小品：1234应犹在只是56改】
下一篇：大加速器的意义有明面儿的和背面儿的

【没有翻不了的案子，兼论专家vs学习的现状】屏蔽留存

【没有翻不了的案子，兼论专家vs学习的现状】

屏蔽已有 1985 次阅读 2016-7-22 23:53 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 自动分析, 专家系统, 深度神经

白:
分层不是要害，one way才是

我:

什么叫 one way? 没有不可推翻的。原则上讲，如果某个现象足够突出，值得去做，NLP 就没有翻不了的案子。连毛太祖钦定的文化大革命都全面否定、彻底翻案了。

Parsing的分层设计本身隐含了语言学的流程和算法，但与一切的语言学规则一样，规则的背后就是例外。只不过规则及其例外构成的 hierarchy 在同一层表现，而分层的例外则在 pipeline（管式）中处置。经常是做几层就加一层 patching 做例外处置或修正，也有留到最后通过【词驱动】（word-driven）去唤醒的。词驱动不单单是词，可以是任意可能 trigger 歧义休眠及其唤醒的 ngram。（非词驱动的唤醒，如果需要，还需要研究，目前不太清晰。）但凡是可以词驱动的，问题就不大，因为词驱动聚焦了特定的歧义现象，错误的 parse 在聚焦为有限子树patterns以后是可以预计的，当然也就可以修正。错误不怕，就怕错误不可预测。可预测的 consistent 的错误，在管式架构下不是挑战，不必担心其 error propagation，如果设计者具有“负负得正”的准备和机制的话。

白:
唤醒的ngram再进一步，就是一个CNN了。parsing用明网RNN，休眠唤醒用暗网CNN。相得益彰啊。

我:
听上去高大上，cnn fox abc 呵呵

白:
多层卷积

我:

我骨子里是相信数据的，相信大数据的自动学习，因为太多的语言细节隐含其内，终归是可以挖掘出来帮助parsing和理解的。但不大相信短期内可以改天换地，匹敌专家的经验积累。

syntaxnet 已经被我剁成稀泥了。但同时也注意到 statistical parsing 的精度在最成熟的文体 news 方面，很多年 stuck 在 80 以下，syntaxnet 确实突破了 90，这个成就让他们忘乎所以一把、吹点不符合实际的牛也是情有可原的，虽然多年前我们就把规则系统做到了 90 以上的parsing精度，当时的感觉是理所当然，貌似苦力不值得弹冠相庆（不是蛮力，当然也不可能仅仅是力气活，还有架构者的设计匠心和类似 dark art 一样不可言传的绝技，譬如经年经验加研究而来的 NL“毛毛虫”的formalism及其实现，等等）。没有炫耀，就这么一直默默地领先了“主流”很多年。

虽然仍然无法匹敌规则系统，但深度神经的运用的确使得统计型parser有了新闻领域内的90的突破。很好奇他们如今用了多大的训练库，还用了什么 tricks（据报道行内达人声称真正能玩转深度神经系统的大牛全世界不过百人，因为里面不仅仅是科学，还是 art），其他人多快可以重复结果？最后的大问题是，cnn rnn 等深度神经的牛算法，多快可以移植到新的文体、新的domain和新的语言，这种成功移植的最低条件（譬如最少需要多大的带标数据）是什么。未来的某个时候，如果新的文体新的语言，就像流水线一样，可以高质量快速自动学习出来一个个可应用的 parser 出来，语言学专家们也就死得其所，可以安然地“永垂不朽”了。

不过，在共产主义神经大同真能实现之前，专家还不愁饭碗。

在 parsing 这个NLP核心任务方面，要赶上专家的系统质量也并非易事，因为专家的系统已经证明可以做到非常接近人的分析水平，而且文体和领域独立，鲁棒、线速且可以 scale up，这对学习有诸多挑战。Deep parsing，专家一边是 production system，已经达到实用的高度，学习一边还是 research 在努力追赶，这就是 parsing 质量的现状。可很多人误导或被误导，把深度神经未来可能的成功当成现实或铁定，完全无视专家系统现实的存在。

【泥沙龙笔记：语法工程派与统计学习派的总结】

《新智元笔记：NLP 系统的分层挑战》

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

【NLP 是一个力气活：再论成语不是问题】

【科普随笔：NLP主流的傲慢与偏见】

【关于NLP方法论以及两条路线之争】专栏：NLP方法论

【置顶：立委NLP博文一览】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-992281.html

上一篇：【随笔：台湾不可小觑】
下一篇：Is Google SyntaxNet Really the World’s Most Accurate Parser

Dr Wei Li on NLP (English) 屏蔽留存

Dr Wei Li on NLP (English)

屏蔽已有 2099 次阅读 2016-6-17 20:34 |个人分类:立委科普|系统分类:科研笔记| NLP

Episodes of “Colorless green ideas sleep furiously
February 17, 2016
The Anti-Eliza Effect, New Concept in AI
January 20, 2016
The mainstream sentiment approach simply breaks…
November 20, 2015
Hierarchy of Information Objects
November 18, 2015
Pre-Knowledge-Graph Profile Extraction Research…
November 16, 2015
Pre-knowledge-graph Research: Task Definitions of…
November 16, 2015
Linguist is born, not acquired
July 6, 2015
“Ruminations on NLP and Communism”
July 4, 2015
Social media mining on credit industry in China
June 26, 2015
Parsing nonsense with a sense of humor
June 24, 2015
Dad, can you explain Chomsky’s X-bar Theory to me?June 20, 2015
Chomsky’s Negative Impact
June 19, 2015
Chinese First Lady in Social Media
June 9, 2015
Automated survey based on social media
June 3, 2015
Parent-child Principle in Dependency Grammar
June 1, 2015
Why Hybrid?
May 30, 2015
Introduction of Netbase NLP Core Engine
May 28, 2015
Overview of Natural Language Processing
May 27, 2015
Coarse-grained vs. fine-grained sentiment analysis
May 25, 2015
So-called Big Data
May 24, 2015
On Big Data NLU
May 22, 2015
Deep parsing is the key to natural language understanding
May 21, 2015
How long does a pendulum need to be to swing once…
May 19, 2015
Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering
May 18, 2015
Domain portability myth in natural language Processing
May 17, 2015
Notes on Latent Semantic Analysis
May 16, 2015
Notes on Building and Using Lexical Semantic Knowledge Bases
May 15, 2015
Big Data Mining via Deep NLP
May 8, 2015

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-985260.html

上一篇：Deep parsing 每日一析半垃圾进半垃圾出
下一篇：【河东河西，谁敢说SMT最终一定打得过规则MT？】

"快叫爸爸小视频" 的社会计算语言学解析屏蔽留存

"快叫爸爸小视频" 的社会计算语言学解析

屏蔽已有 2529 次阅读 2016-6-21 11:35 |个人分类:立委科普|系统分类:科研笔记| 大数据, 社会语言学, 词汇演变

“快叫爸爸小视频” 这样的东西有社会语言学的味道随着时代和潮流翻滚。在微信朋友圈及其提供的小视频功能风靡之前小视频不是术语不是合成词也没有动词的引申用法。它就是一个定中结构的 NP，在句型中等价于说”把爸爸叫做小视频”，虽然常识是 “人（爸爸）不可以等价于物（视频）”。在语言的强制性subcat结构（叫NP1NP2）里面，常识是没有位置的。句法不需要顾及常识正如 “鸡把我吃了”的违反常识一样也正如乔姆斯基千古名句的 green ideas。
可是社会语言学登场了语言被置于流动的社会背景之下，小视频成了 technical term，然后又从术语融入了语言共同体的动词用法，正如谷歌从术语（专名）变成动词一样： “我还是先谷歌一下再回应吧”，“快小视频呀”，“一定要小视频这个精彩时刻”。
白:
“一下”强制“谷歌”为动词。半个括号已经有了另半个没有也得有。
我:
于是 subcats 开始 compete，有了 competition，有了结构歧义就有了常识出场的理由。顺应常识者于是推翻了句法的第一个 reading。
白:
你是我的小苹果，怎解？
我：
“你是我的小苹果”是强制性的句法啊，无论怎么理解这个苹果（到现在我也没有理解为什么把爱人或意中人叫做小苹果，是因为拿高大上的苹果比喻珍贵吗？）都与常识无关：你是我的 x，就是强行的句法等价关系。
“一下”强制“谷歌”为动词这一类看似临时的强制在语言共同体中逐渐从临时变成常态后就侵入了词汇。换句话说，“谷歌”在以前的词典里面是没有也无需“潜在动词”的标注（lexical candidate POS feature），因为几乎所有的动词用法都是零星的句法强制的无需词典 support 的。但是随着语言的发展 “谷歌”的动词用法逐渐变成了语言共同体司空见惯的表达方式（其动词用法的流行显得简洁、时髦甚至俏皮），这时候语言的用法被反映在语言共同体的集体词汇表中，我们模型这个共同体的语言能力的时候就开始标注其动词的可能性了。
金:
厉害，这抠的!金融语义在一边看热闹
我:
或问：这词典里面标注了（反映的是共同体集体意识到这种用法的流行）和不标注有什么区别？
当然有区别。标注了就意味着其动词用法作为一个合理的路径参与 parsing 的正常竞争；不标注虽然也不能排除临时的动词用法但是因为缺乏了底部的词典支持其动词用法的路径是默认不合法，除非句法（包括词法）的context逼迫它成为动词，这就是 “一哈”的所谓强盗句法：不仅词典是绑架的天堂，句法也可以绑架。
白老师说：“兼语理解（叫某人做某事）有谓词性的坑不饱和，双宾理解（叫某人某称呼）有体词性的坑不饱和。如果拘泥于结构，二者半斤八两。但如果结合语境，非兼语理解是颠覆性的，兼语理解是常识性的。放着常识性的理解不选选择颠覆性的理解，说明心头的阴云不是一天两天了。冰冻三尺。”
重温一下白老师作为对比，字字玑珠，而且妙趣啊。“冰冻三尺”就是社会语言学。
白
也可以说，冰冻三尺就是大数据
我:
我们学习语言学模型句法绝大多数都是针对现时的把语言看成是一个静态的剖面来研究它模型它。这个也没大错而且简化了问题。但是语言是流动的社会语言学强调的就是这个流动性。流动自然反映在大数据中。因此对于静态的语言模型需要不断的更新如果有大数据那就定时地 check 它。
白：
有个动态更新的中间件就够了
我:
陈原是个大家。他写的社会语言学很有趣味。在世界语场合有幸聆听过陈原先生的世界语演讲：那个才华四射、感染力和个性特色让人高山仰止。人家做语言学是业余本职工作是出版商。据说是中国最权威的出版家，也是个左派社会活动家。
洪:
虽然解放初才入党，但应该早就是中共地下党员，三十年代初就在三联当编辑，胡愈之邹韬奋的部下，以前《读书》上一直有陈原的《在语词的密林里》
我:
陈原的那次演讲与黄华(我做翻译的那次)的演讲都有一个共同的特点，就是表情丰富、富于感染力，能感受到人的 personality，都是“大家”。
aaa

【相关】

《我的世界语国》《朝华午拾：欧洲之行》

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-985924.html

上一篇：【河东河西，谁敢说SMT最终一定打得过规则MT？】
下一篇：Deep parsing 每日一析：内情曝光 vs 假货曝光

【文傻和理呆的世纪悲剧（romance tragedy）】

当前推荐数：2 推荐人：李颖业 张云

计算语言学的尴尬屏蔽留存

计算语言学的尴尬

屏蔽已有 4087 次阅读 2016-6-22 15:06 |个人分类:立委科普|系统分类:教学心得| 计算语言学

白:
我关心“老婆情人”在那个语境下为啥不是定中结构。
老王卖瓜自开涮，
创新形容瓜特甜。
老婆情人小三见，
买回刀劈报仇般，
我:
没看懂。似乎有个 context：
老婆情人小三见 == 老婆情人见小三 or
老婆情人小三见 == 老婆见情人小三？
诗人特权害死人
Nick:
老婆情人小三见==三缺一
洪:
老婆/情人/小三见
两者兼顾，读诗看图，歧义何出？误解消除。
情人/小三，心理概念；原型维度，因人而殊。
RW:
情人/老婆，心理概念；原型维度，因人而殊。
我:
情人（lover）与小三当然不同。小三虽然没有法统地位，但既然排了次序，就有了事实的地位（“事实婚姻”的事实）。因此还有小四小五之说，这个次序也可能有新来后到的意思，或反映了喜新厌旧，数字越大新人可能越受“老爷”的宠（沿袭三妻四妾的旧制度思维），虽然事实的地位在俗众的心目中似乎越低。
陈:
情人一般是有夫之妇？小三是未婚？
我:
情人比较浪漫，超脱，爱情唯上。与世俗的地位和次序脱钩，倒是有某种秘密的刺激。
Nick:
小三是有上位企图的，情人没有。so情人就是炮友的意思。法国人那种关系都叫情人？我:
情人一旦转成小三就低下了浪漫的头失去了独立性成了金屋藏的娇。广义的情人也可以转成夫人实现从浪漫到世俗的脱胎换骨。窄义的情人专对已婚而言那是法国英国贵族爱玩的公开的秘密游戏。
白:
你们都是发散思维，就我死啃一个点，结果没人回应。
我:
白老师的问题是老婆小三之间的顿号，是怎么进入人的语言心理的？虽然根本就没看见顿号的影子。为什么顿号不是“的”？
为什么呢？因为大数据！
白老师这次不是“窃喜”，而是感叹心有灵犀了吧
@白老师 “大数据” 是不是你心中老婆情人parsing的标准答案
白:
@wei 大数据中，老婆情人的对举用法远多于修饰用法，这是肯定的。另外老婆的情人有个更简约的用法“情敌”，放着不用偏要拐着弯说，浪费能源。现实中两个因素都在起作用。
我:
白老师的问题是太能干这个世界不够他玩的。又是语言学又是金融平台又是什么块什么链。否则的话拉出来我们搭个档做做 NLP 多刺激。就依照你那个 RNN 还是啥的路子走。别人的路子不敢信服。别人也很少懂这一边。
白:
身不由己啊
我:
说什么两条路线斗争宗教门派之别主流非主流眼珠转与不转这些都不是本质本质就是鸡同鸭讲。隔行如隔山同行也隔山。隔了山还讲个球。鸡犬之声相闻老死不相往来。白马非马计算语言学亦非语言学只剩下语言的计算这就是【计算语言学】的尴尬。这是一个非常奇怪的交叉学科两路完全不是一个类型的人没有 chemistry 没有基本的共同背景、世界观和方法学没有共同语言兴趣迥异无法正常对话更甭提恋爱结婚最简单的办法就是一派灭了另一派眼不见为净。结果就是虽然被扫地出门了语言学对于多数的殿堂内人依然是格格不入而又回避不了。某些主流 NLP 大牛不懂语言学常识的并不鲜见这在任何其他学科都是不可思议的。
但是语言学比共产主义还更像一个幽灵，一直在殿堂徘徊主流可以不转眼珠可是心里并不是想象的那么有底气一个潮流来可以鸡血一下忘记幽灵的飘荡但幽灵始终徘徊。

【相关】

【科普随笔：NLP主流的傲慢与偏见】

没有语言学的 CL 走不远

老教授回函：理性主义回摆可能要再延迟10几年

【科普随笔：NLP的宗教战争？】

Church – 计算语言学课程的缺陷（翻译节选）

泥沙龙笔记：从乔姆斯基大战谷歌Norvig说起

【NLP主流的反思：Church – 钟摆摆得太远（1）：历史回顾】

【Church – 钟摆摆得太远（5）：现状与结论】

《泥沙龙笔记：【钟摆摆得太远】高大上，但有偏颇》

【泥沙龙笔记：语法工程派与统计学习派的总结】

【科普小品：NLP 的锤子和斧头】

【新智元笔记：两条路线上的NLP数据制导】

置顶：立委科学网博客NLP博文一览（定期更新版）】

发布于

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-986168.html

上一篇：【河东河西，谁敢说SMT最终一定打得过规则MT？】
下一篇：Deep parsing 每日一析：内情曝光 vs 假货曝光

当前推荐数：5 推荐人：武夷山 闵应骅 郑小康 刘钢 邱嘉文

发表评论评论 (2 个评论)

删除 |赞[1]闵应骅 2016-6-22 15:45: 别说是你这里那复杂充满歧义的诗，就是普通的语言，也有许多不是计算语言。所以，我一直相信：计算和自然语言、人工智能，差远去了！; 李维回复闵应骅：

2016-6-24 00:011 楼（回复楼主）

deep parsing (90/n)：“雨是好雨，但风不正经”】屏蔽留存

【deep parsing (90/n)：“雨是好雨，但风不正经”】

屏蔽已有 3033 次阅读 2016-6-24 14:36 |个人分类:立委科普|系统分类:科研笔记| parsing, 句法分析, 中文处理

Deep parsing 每日一 fun：雨是好雨，但风不正经

气象局通知～～～原约定今日凌晨来的暴雨，因半路上被堵，耽误了点时间，或许今天下午到夜间赶到。这场雨如果下大了肯定不小，下小了也肯定……不能大，请市民再耐心等待！具体情况等气象台会上研究后报给市民。气象台温馨提醒：今天如果不下雨，明天不下雨的话，这两天就没有雨了，等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子，容易被撩，雨是好雨，但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a
QUOTE：

说什么两条路线斗争宗教门派之别主流非主流眼珠转与不转这些都不是本质本质就是鸡同鸭讲。隔行如隔山同行也隔山。隔了山还讲个球。鸡犬之声相闻老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科两路完全不是一个类型的人没有 chemistry 没有基本的共同背景、世界观和方法学没有共同语言兴趣迥异无法正常对话更甭提恋爱结婚最简单的办法就是一派灭了另一派眼不见为净。结果就是虽然被扫地出门了语言学对于多数的殿堂内人依然是格格不入而又回避不了。做了一辈子的某些主流 NLP 大牛不懂语言学常识的并不鲜见这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵，一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

【相关】

【立委科普：语法结构树之美（之二）】

【新智元：parsing 在希望的田野上】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-986563.html

上一篇：【立委科普：NLP核武器的奥秘】
下一篇：【语义计算沙龙：坐而论道谈“的”“地”】

当前推荐数：1 推荐人：郭战胜

deep parsing 小讲座】屏蔽留存

立委科普：deep parsing 小讲座】

屏蔽已有 2866 次阅读 2016-5-26 23:59 |个人分类:立委科普|系统分类:教学心得| parsing, 语义, 句法歧义, 语用

就上面的parsing实例开一个小讲座吧。群里的学生辈的提问，老师辈的指正。

上图中显然把 “还” 分析错了，道理也明显，因为“还”这个词是特别常用的小词，副词性质，但在此句是用作动词，意思是“归还”。这样的错误就需要系统做细功夫去应对，因为稍不留神，你解决了这个 case，你引起更大的问题，毕竟在绝大多数场合还是个小词嘛。怎么个细活：可以考虑 “还” 与“信用卡” 的动宾搭配，等于是把“洗澡”类的搭配延伸一下就可以了。

上图第二句的分析，就是我以前说过的结构歧义的应对。你看整个句法树，有三个 O （宾语）的路径。其中两个是正确的【到-上海】；【买-上海的飞机票】。第三个 O 【到-上海的飞机票】是不对的。可以说，“到上海”和“买飞机票”，但不可以说“到飞机票”。这类结构歧义在汉语特别普遍，因为汉语没有宾格，加上汉语的小词 “的”的辖域是一个很大困扰。

在实践中，我们的策略就是句法分析尽量保存歧义（keep ambiguity），把可能的途径全部标示出来或休眠起来，这样就为下一步的语义模块（我叫语义中间件）或者下一步直接做语用层面信息抽取的模块，打下了修正和利用的基础。下面的问题就是，休眠了或保留了多种结构歧义，但是到用的时候（语义落地为产品的时候），唤不醒或辨不清真想要的正确路径怎么办？

这话说起来长了，但简单的回答是，在句法阶段，我们的 parser 核心引擎是独立于 domain 和应用场景的，同一个 parser 可以为各种中文应用服务（舆情，问答系统，自动文摘，智能 bots，等等）。因此，要识别保留或休眠尽可能多的结构歧义路径，不要勉强去排歧。但是到了具体语义落地为产品的阶段和模块，我们就进入了应用的语用考量，换句话说，我们的语义目标聚焦了，或者我们的 domain 固定了。这时候，排歧的条件就比漫无目标的大海一样的句法阶段好太多了。譬如我做舆情，我就聚焦到舆情相关的歧义上，而整个语义大海的其他部分就隐去了，这时候，我因为所有的路径都还在，我就可以根据聚焦以后的词驱动规则去做合适的选择。

理论上讲，词驱动的细线条排歧也可以糅合到句法阶段去做，但是那样的话，你面对自然语言大海，你的核心引擎，就会太庞大了，即便你有能力和资源一点点去做词驱动。这样也是不合适的，因为你很可能做了很多无用功，而且很难维护。事实上也不现实：聚焦与不聚焦大不一样。到了应用场景，问题都是聚焦的。有经验的NLP系统架构师不会那么做。

当然，如果某个语义排歧对于很多应用都可以预见有好处，那么也可以在句法模块以后，进入产品应用之前，做一个语义中间件去做这个工作：句法 --》语义 --》语用（语义落地）----》支持产品应用，句法模块是核心，是核武器，但是不要叠床架屋，陷入语义泥潭。条件创造好，后去还有语义中间件可以做一些工作，最后在语义落地的语用层面，因为语义聚焦了，有些难题也可能自然消解和简化了。

这才是NLP做产品的正道、王道。

再进一步说一点，为什么同样一个歧义的难题，后面做，比前面做要合理和合适？道理就在，自然语言太复杂，我们需要分而治之，一步一步从浅层做到深层。在句法规则做线性的模式匹配的阶段，我们的上下文视野是有局限的，局限于线性序列的羁绊。过了句法阶段以后，我们就有树结构了，这时候，我们的上下文条件就清晰了。你想啊，一维转二维了，通过一个 graph（术语叫 dag）来看结构中的上下文，与通过一个线性序列来看上下文，前者比后者的排歧条件好太多了。线性的结构化是NLP的一个质的飞跃。结构图中的 patterns （就是 sub-trees）可以从任一个合适的角度去概括。

其实你们也已经能看到，我现在的这个 deep parser 不是完美的，你总可以发现这里那里的错误，这是所有的 real life 系统免不了的。但是，所有这些错误，都不会总体影响句法分析的进行。错误被局限在局部范围内，这就是我一再强调的，要自底而上层层推进。这样的系统才鲁棒，才能落地为产品。

【外一则】

说说做 deep parsing 的体会吧。

中文的确缠人一些，多数欧洲语言的deep，难度也没那么大。做细了当然要功夫，但总体难度不比 chunking 大，对于俄语和德语，就更容易。

这就跟谈恋爱结婚一样，两个 XPs 看对眼了，眉来眼去觉得条件合适了，就结合了。动名形这些大词有 subcat 的细类，决定与谁谈恋爱。至于 Modifier 和 Adveribial，就直接去傍大款，找靠山。找到了，就投身做小了。不像subcat的明媒正娶，做小的可以有n个，小三啊小四啊。

最后大家差不多都配对了，那就合成了一个共产主义大家庭，分析树就形成了。共产不共妻，虽然在一颗大树下，里面的小两口还是有向直接联系的，不与他人共享或混杂。大家庭里面的核心仍然是小两口为主的 argument structures。

可叹的是这种结构秩序与人类或commnity大家庭一个德性，就是处处不平等。（生来人人平等之所以成为口号和我们世世代代的理想，乃是因为人类社会从来也是不平等的。）

主语谓语小两口，谓语做主。动词宾语小两口，男尊女卑，动词决策。至于小三小四的时间地点程度原因结果等等条件状语，甭管她们多么体贴，多么面面俱到，根本就是二等三等公民。到了修饰语的小五小六们就更惨了，那是大家庭的佣人，与奴隶无异，根本就上不了台面，只能伺候着主语宾语这些小主子，远远望着老爷。

语言成分的 hierarchy 啊。

【后记：新智元语义计算群的相关讨论笔记】

白:

伟哥的两个例子做些补充：一是兼语动词的提示作用：“提醒sb做sth”是一个比较成套路的用法，尽管不是“提醒”的唯一用法，但是会给“还”的动词义项加分；二是“明天到上海的飞机票”从填坑角度出现错配，因为飞机和人到上海才是关键，票到不到上海（物理上）并不是最主要的问题，客票电子化以后，不出票、不打印票、事后打印票的情形大量存在，语言处理上理解为“明天到上海的飞机+票”才更符合填坑的规范，知识处理上“明天”和“去上海”都来填“飞机票”的坑才是正解。

宋:

明天到纽约的飞机票呢? 明天起飞,后天到,也可以说明天到纽约的飞机票. 再加上时差,就更糊涂了。得允许糊涂。

白: 哈

首先是，时间词和介词短语可以并列修饰“飞机”，但不是修饰“飞机票”？再说，里面可能有隐含动词，比如“起飞”？细究起来，买的是“航班服务”，票是享受航班服务的凭证，但是已经虚化了（没有相应物理实体）。航班服务有许多选项，出发地、目的地、起飞时间、航空公司、服务等级（舱位）、乘机人之类。那个是知识层面的事情。语言层面究竟做什么，除非之间把“飞机票”就当作“航班服务”，买凭证是面子，买服务是里子。“明天”是服务开始的时间，与“去上海”并列，共享那个“的”。“飞机票”和“去上海”不是填坑的关系。“去上海的航班”，是说以去上海为内容的航班，航班本身不填坑，反而是去上海要填航班的坑。

宋:

明天和到上海可能是并列关系，也可能是状中关系。并列关系时说的是起飞时间，状中关系说的是到达。有歧义。正式的通知需要更精确的表达方式。

白:

正式无歧义的表示是“明天飞往上海的航班”。考虑到时差，甚至可能是“昨天到夏威夷”。“往”的参照点是未然，“到”的参照点是已然。“去上海”也比“到上海”准确。伟哥原文是“去”，我中间跟“到”混用了。“明天去上海”作为定语从句可以成立了，但不是提取结构，不发生向从句内部的填坑。不是提取结构，就只能是总括结构，被修饰成分以修饰成分为内容。也就是说，被定语从句修饰的“飞机票”是属于那个非标配的小集合的。

宋:

考虑到时区的差别，说话人与听话人是否在同一个时区，说话人是以自己所在的时区为参照还是以听话人所在时区为参照也是影响意义的因素。

白:

伟哥分析树原文是“到”，后面也有与“去”混用。套近乎的话，就应该说“来”而不是“去”。“往”和“到”是相对于过程的，“来”和“去”是相对于说话人的。把听话人的参照点赋予说话人，是一种套近乎，就跟“咱”类似。

宋: 可计算吗？

白: 也不排除狗比狐狸算得更深

宋: 这个例子能否说明下棋程序有空子可钻？

白: 空城计也是，诸葛亮知道司马懿知道诸葛亮谨慎，所以反常理而行之。如果狗知道狐狸知道狗信守承诺，而且狗知道狐狸在关键时刻不信守承诺，就可以将计就计。然后还可以作无辜状。

我：白老师在绕口令呢？ QUOTE 如果狗知道狐狸知道狗信守承诺，而且狗知道狐狸在关键时刻不信守承诺，就可以将计就计

宋: 知道应改成认为。

白：或者认定。计谋的逻辑。

宋：对，认定。

我：

不尽如人意，也懒得调了（有一个patching没到位，掉链子了）。这话非白老师宋老师这样的大知识分子不能说的。也是乔姆斯基毛毛虫的毛边了，不值当花气力了。

白: 有主观性。对有主观性的认知作主观性的表达，反而更客观。

还有“回”。伟哥在美国出生的孩子第一次来中国，也叫“回”，是吧？

我: 甜甜从来都是把中国当成外国但她知道这是对她最重要的外国

QUOTE 甜甜自记事起，就住在这里，水牛城自然是她心目中不可替代的唯一故乡。记得四年前第一次带甜甜回北京探亲，第一天的晚上住在姥姥家，一切对她是那么陌生，没有她已经习惯的美国卡通电视，她满脸委屈地吵着闹着要回家（“I want to go home!”）－－当然是回水牛城的家。我告诉她这就是家呀，是妈妈的家，她怎么也无法认同。

from 《朝华午拾：乡愁是一张无形的网》

【相关】

【立委科普：美梦成真的通俗版解说】

【立委科普：语法结构树之美】

【立委科普：语法结构树之美（之二）】

《新智元笔记：NLP 系统的分层挑战》

《泥沙龙笔记：连续、离散，模块化和接口》

《泥沙龙笔记：parsing 的休眠反悔机制》

【立委科普：歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记：NLP hard 的歧义突破】

【立委科普：结构歧义的休眠唤醒演义】

【新智元笔记：李白对话录 - 从“把手”谈起】

《新智元笔记：跨层次结构歧义的识别表达痛点》

【置顶：立委科学网博客NLP博文一览（定期更新版）】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-979987.html

上一篇：【泥沙龙笔记：强人工智能的伟哥测试】
下一篇：【新智元笔记：工程语法与深度神经】

AI不再需要“程序猿”，未来数据比代码重要-新智元-微头条(wtoutiao.com)

当前推荐数：3 推荐人：庄世宇 xlianggg bridgeneer

学习乐观主义的极致，奇文共欣赏】屏蔽留存

泥沙龙笔记：学习乐观主义的极致，奇文共欣赏】

屏蔽已有 2821 次阅读 2016-5-20 05:58 |个人分类:立委科普|系统分类:教学心得| 深度学习, 程序猿, 规则系统

洪：

大数据上火车跑，

告别编程规则搞。

garbage in & garbage out，

烧脑码农被废掉。

我: 最近心智元那篇深度学习要代替程序猿的译文很有看头，是学习（ML）乐观主义的极致，但又呈现了两条路线合流的某种迹象，有的可唠。白老师洪爷尼克一干人熟悉ai两条路线你死我活斗了半个多世纪的，跟我党10次路线斗争类似，看这篇的极端乐观主义，最终宣告斗争结束世界大同的架势，可以评评掐掐。抛几个玉看能不引来啥砖砸。

【1】 quote：编程将会变成一种“元技能（meta skill）”，一种为机器学习创造“脚手架”的手段。就像量子力学的发现并未让牛顿力学失效，编程依旧是探索世界的一种有力工具。但是要快速推进特定的功能，机器学习将接管大部分工作。

这个说法听上去怎么与白老师前一阵说的有类似或平行的味道？

洪:

这种鸡血文，可别仔细读，否则@wei 你就前功尽弃邯郸学步了

我:

它代表了这股“热”的一种极致。还是比ai取代或消灭人类，更加“理性”一些，调子是乐观主义的。

洪:

老@wei 你还是要待价而沽，找机会当老黄忠，杀一回nlp夏侯渊啥的，抖抖威风。赶紧做benchmark，你为刀斧手，syntaxnet啥的为鱼肉。

我:

杀一回nlp夏侯渊根本不是问题。

现在说的是取代程序猿，凭什么他们成为劳工中的贵族。

【2】谷歌搜索真地从规则和 heuristics 调控正在过度到深度学习吗？这是里面爆料的新发展？

（benchmarking 我心里有数，稳操胜券：新闻媒体如果所报 94 为确，那么大家都已经登顶，基本不分伯仲，没多大余地了。一旦超越领域限制，哈哈）

我疑惑的是这个报料：quote 甚至，Google搜索引擎这座由人工规则建立起来的“大厦”也开始仰仗这些深度神经网络。2月份，Google用机器学习专家John Giannandrea替换掉了多年以来的搜索部门负责人，还开始启动一个针对工程师的“新技能”再培训项目。“通过培养学习机制，我们不一定非要去编写规则了。”Giannandrea告诉记者。

这个转移如果是真地，对于搜索这么大的一个产业，在根基上做这种转移，在这种热昏的大气候下，哈哈，是福不是祸，是祸躲不过，谷歌这座搜索大厦是不是面临倾覆的前兆？不过想来即便想在 existing 手工调控的搜索路线中夹带新货，management 也不会冒进，估计是逐渐渗透和试验，否则不是自杀？

关于这个，有一些背景，见我以前的博文：《再谈机器学习和手工系统：人和机器谁更聪明能干？》

还有 [转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习？

Nick:

我赶脚伟哥最近修改resume和google开源parser有关系。再不改嫁就真砸手里了。

说到两条路线斗争，最极端的符号派当属定理证明，我最近在写篇定理证明简史。你们想听啥，告我一声，我再加料。

白:

那篇不需要“程序猿”的文章，理论上是错的，懒得转也懒得评。

我:

谁能证实谷歌搜索要走深度学习取代规则调控的路线？

Nick 真以为 SyntaxNet 对我是威胁吗？是一个 alert，是实。

南:

Nick大师逗你玩呢

我:

威胁还太远。alert 是因为确实没想到这一路在新闻领域训练能这么快达到94的高度，因为这个高度在我四五年前达到的时候，我是以为登顶了，可以喘口气，不必再做了。从应用角度，确实也是 diminishing returns 了，没有再做的价值了。如果想争口气的话，有些已知的地方还可以再做圆，那还是等退休没事儿的时候玩儿比较合适。

问题不在那里，问题在这儿：

【3】领域转移和语义落地

机器学习的系统天生地难以领域转移，SyntaxNet 恐非例外。你花费牛劲儿，把各种 features 设计好，优化了，加上真正海量的训练数据，在一个领域譬如新闻媒体，达到了最优的 benchmark 譬如 94%，但是一旦转换领域，performance 直线下滑是常见的问题。除非 retrain，这个谈何容易，不论。

陈:

新闻能做到的话，在其他领域，无非就是积累数据

我: 你的说法是经典的。

quote 当然，还是要有人来训练这些系统。但是，至少在今天，这还是一种稀缺的技能。这种工作需要对数学有高层次的领悟，同时对于“有来有往”的教学技巧有一种直觉。“使这些系统达到最优效果的方法差不多是一门艺术”，Google Deepmind团队负责人Demis Hassabis说。“世界上只有寥寥数百人能出色地完成这件事。”

（这么说来还不错，世界上还有几百号大牛可以玩转它。另一条路线断层了，能玩转的会有几十人吗？）

以前就不断听说，同一个算法，同一批数据，甚至基本相同的 feature design，不同人训练出来的结果大不相同。虽然科学上说这个现象不合理，科学的东西是可以完全重复的，但是如果参杂了艺术或某种 tricks，说不清道不明的经验因素啥的呢。不用说得那么玄，重新训练的确不是一个简单的过程重复。

Self-quote：

问题的另一方面是，机器学习是否真地移植性那么强，象吹嘘的那么神，系统无需变化，只要随着新数据重新训练一下就生成一个新领域的系统？其实，谈何容易。首先，新数据哪里来，这个知识瓶颈就不好过。再者，重新训练的过程也绝不是简单地按章办事即可大功告成。一个过得去的系统常常要经历一个不断调控优化的过程。

说到这里，想起一段亲历的真实故事。我以前拿过政府罗马实验室10多个小企业创新基金，率领研发组开发了一个以规则系统为主（机器学习为辅，主要是浅层专名标注那一块用的是机器学习）的信息抽取引擎。我们的政府资助人也同时资助另一家专事机器学习的信息抽取的团队（在美国也是做机器学习很牛的一家），其目的大概是鼓励竞争，不要吊死在一棵树上。不仅如此，罗马实验室还选助了一家系统集成商开发一套情报挖掘应用软件，提供给政府有关机构试用。这套应用的内核用的就是我们两家提供的信息抽取引擎作为技术支撑。在长达四年的合作中，我们与集成商有过多次接触，他们的技术主管告诉我，从移植性和质量改进方面看，我们的规则引擎比另一家的机器学习引擎好太多了。

我问，怎么会，他们有一流的机器学习专家，还常年配有一个手工标注的团队，引擎质量不会太差的。主管告诉我，也许在他们训练和测试的数据源上质量的确不错，可是集成商这边是用在另一套保密数据（classified data）上，移植过来用效果就差了。我说，那当然，训练的数据和使用现场的数据不同类型，机器学习怎么能指望出好结果呢，你们该重新训练（re-training）啊。你们用他们引擎五年来，重新训练过几次，效果如何？主管说：一次也没有重新训练成过。重新训练，谈何容易？我问：你们不可以组织人自己标注使用领域的数据，用他们的系统重新训练？主管说：理论上可行，实践上步步难行。首先，要想达到最优效果，当然是根据我们的数据重新标注一个与引擎出厂时候大体等量的训练文本集来。可那样大的数据标注，我们根本无力做成，标注过程的质量控制也没有经验。结果是我们只标注了部分数据。理论上讲，我们如果把这批自己的数据加到引擎提供者的训练数据中，重新训练可以把系统多少拉到我们的领域来，效果总会有提高。但是我们不是信息抽取和机器学习专家，我们只擅长做系统集成。机器学习用新旧数据混合要想训练得好，要牵涉到一些技术细节（甚至tips和tricks）和一些说明书和专业论文上不谈的微调和小秘密。尝试过，越训练效果反而越差。我问：那怎么办？遇到质量问题，怎样解决？他说：没什么好办法。你们不同，我们只要例示观察到的错误类型，你们下一次给我们 update 引擎时基本上就已经解决了。可我们把问题类型反馈给机器学习开发者就不能指望他们可以改正，因为他们见不到这边的数据。结果呢，我们只好自己在他们的引擎后面用简单模式匹配程序打补丁、擦屁股，可费劲了。

我当时的震惊可想而知。一个被NLP主流重复无数遍的重新训练、移植性好的神话，在使用现场竟然如此不堪。学习大牛做出来的引擎在用户手中四五年却连一次重新训练都实施不了。系统成为一个死物，完完全全的黑箱子。所有改进只能靠隔靴搔痒的补丁。
from 【科普随笔：NLP主流成见之二，所谓规则系统的移植性太差】

即便是同一个大厨，做了一锅好饭菜以后，下一锅饭菜是不是同样好，也不是铁定的。

【4】这一点最重要，白老师批评。如果你的“模型”就不对，你怎么增加数据，怎么完善算法，你都不可能超越。这里说的是自然语言的“样子”，即白老师说的“毛毛虫”（见 [转载]【白硕- 穿越乔家大院寻找“毛毛虫”】）。

整个自然语言的边界在哪里？不同语言的“样子”又有哪些需要不同调控的细节？

这些东西有很多体悟，并不是每一种都可以马上说清楚，但是它是的确存在的。无视它，或对它缺乏认识，最终要栽跟头的。

Nick:

那得看是什么餐馆，麦当劳每天味道都同样，路边馄饨摊每天各不相同。

我: exactly 麦当劳每天一样的代价是低品质，它要保持 consistency 就不可能同时保持高品质，只能永远在垃圾食品的标签下。

Nick:

我意思是你今能卖麦当劳的价钱，再不嫁，明就馄饨摊了。

我:

鼎泰丰来湾区了，小笼包子比他家贵出好几倍。前两天一尝，果然名不虚传。被宰认了，因为心甘情愿，谁叫它那么好吃呢。

我又饿不死，何苦卖麦当劳呢？怎么也得成为鼎泰丰吧。

最不抵，我开个咨询公司也有饭吃，没必要看贱自己。

现在就是，如何领域突破，如何语言突破？换一个语言，本质上也是换一个领域。因为只有这两项突破，才能真正NLP广泛落地为产品。94 很动听了，后两项还在未定之数。这种领域和语言的突破与毛毛虫什么关系很值得思考。

洪爷说的“鸡血”文的最有意思的地方是，机器学习终于从过去遮遮掩掩的自动编程黑箱子，被鸡血到正式宣告和标榜为终极的自动编程。程序猿下岗，资料员上岗，在最上面的是几百号能玩转黑箱子魔术的超人。一切搞定，环球太平。一幅多么美妙的AI共产主义图景。

【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】

《再谈机器学习和手工系统：人和机器谁更聪明能干？》

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习？

【科普随笔：NLP主流成见之二，所谓规则系统的移植性太差】

[转载]【白硕- 穿越乔家大院寻找“毛毛虫”】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

Comparison of Pros and Cons of Two NLP Approaches

《立委随笔：语言自动分析的两个路子》

why hybrid? on machine learning vs. hand-coded rules in NLP

【科普随笔：NLP主流成见之二，所谓规则系统的移植性太差】

【科普随笔：NLP主流最大的偏见，规则系统的手工性】

【科普随笔：NLP主流的傲慢与偏见】

【科研笔记：系统不能太精巧，正如人不能太聪明】

【NLP主流的反思：Church - 钟摆摆得太远（1）：历史回顾】

《立委随笔：机器学习和自然语言处理》

与老前辈谈 NLP 及其趋势

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-978466.html

上一篇：【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】
下一篇：【李白对话录：你波你的波，我粒我的粒】

【让机器人解读洪爷的《人工智能忧思录》（4/n）】

当前推荐数：1 推荐人：张骥

【让机器人解读洪爷的《人工智能忧思录》（2/n）】屏蔽留存

【让机器人解读洪爷的《人工智能忧思录》（2/n）】

屏蔽已有 2108 次阅读 2016-3-2 10:55 |个人分类:立委科普|系统分类:科研笔记| 人工智能

数字识别模版认，机械臂动reinforcement。若说人也如此行，将信将疑难convinced。
如意算盘扒拉曾，赴美留学取真经。到时心灰更意冷，只因京城响枪声。
认知科学只好扔，找处回头练编程。OCR识字model train，邮编地址自动认。
得博辞校工作寻，微软AOL先后蹲。然后两度初创进，预测模型可掘金。
如此廿年IT混，人老珠黄白发生。电脑换代却没停，286到四核芯。
CPU能力大提升，GPU更快画图形。单机游戏动画真，联网计算笼罩云。
电脑处理速度增，视听数据图文声。Big Data&Machine Learning，用AI捕风捉影。
神经网络又复兴，Deep Learning此次称。Hidden Layers八九层，无监督先pre-train。

IT Tycoons嗅觉敏，就像鲨鱼闻血腥。各学王老虎抢亲，然后造车紧闭门。

【相关博文】

人工智能忧思录_zhazhaba_新浪博客

【让机器人解读洪爷的《人工智能忧思录》（3/n）】

【让机器人解读洪爷的《人工智能忧思录》（2/n）】

【让机器人解读洪爷的《人工智能忧思录》（1/n）】

【泥沙龙笔记：机器 parsing 洪爷，无论打油或打趣】

【NLP主流的反思：Church - 钟摆摆得太远（1）：历史回顾】

老革命遇到新问题，洪爷求饶打油翁

【围脖：做 parsing 还是要靠语言学家，机器学习不给力】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-959923.html

上一篇：【让机器人解读洪爷的《人工智能忧思录》（1/n）】
下一篇：【让机器人解读洪爷的《人工智能忧思录》（3/n）】

对于 tractable tasks, 机器学习很难胜过专家》屏蔽留存

新智元笔记：对于 tractable tasks, 机器学习很难胜过专家》

屏蔽已有 3503 次阅读 2015-12-26 19:50 |个人分类:立委科普|系统分类:科研笔记| parsing, 机器学习, 信息抽取, 规则系统

我们 “语义计算” 群在讨论这个句子的句法结构：The asbestos fiber, crocidolite, is unusually resilient once it enters the lungs, with even brief exposures to it causing symptoms that show up decades later, researchers said.

我说，it looks fine in its entirety. "once-clause" has a main clause before it, so it is perfectly grammatical. The PP "with even brief exposures to it" is an adverbial of "causing ...": usually PP modifies a preceding verb, but here it modifies the following ING-verb, which is ok.

然后想到不妨测试了一下我们的 parser，果然，把 PP 连错了，说是 PP 修饰 enters，而不是 causing。除此而外，我的 parse 完全正确。这也许是一个可以原谅的错误。如果要改进，我可以让两种可能都保留。但是统计上看，也许不值得，因为一个 PP 面对前面的一个谓语动词和后面的一个非谓语动词，修饰前者的概率远远大于修饰后者。

张老师问: 是否此句在你的训练集里？如是统计方法。否则太不容易了

我说，我这是语言学程序猿做的规则系统，不是统计方法。句子不在我的 dev corpus 里面。parsing 是一个 tractable task，下点功夫总是可以做出来，其水平可以达到接近人工（语言学家），超越普通人（非语言学家）。说的是自己实践的观察和体会。靠谱的 parsing，有经验的语言学程序猿可以搞定，无需指靠机器学习。为了说明这个观点，我测试了我的汉语 parser：

这个汉语句子的 parsing，只有一个错误，“语言学”与 “程序猿” 之间掉链子了（说明 parsing 还有改进余地，汉语parsing开发晚一些，难度也大一些，当前的状况，掉链子的事儿还偶有发生）。但整体来看基本也算靠谱了。所以，即便是比英语句法更难的汉语，也仍然属于 tractable 人工可以搞定的任务。

语言学家搞不定的是那些千头万绪的任务，譬如语音识别（speech recognition），譬如文章分类 (document classification)，譬如聚类习得 (clustering-based ontology acquisition) 。这些在很多个 features 中玩平衡的任务，人脑不够用，见木不见林。但是对于 deep parsing 和信息抽取，解剖的是一颗颗树，条分缕析，这是语言学家的拿手好戏，都是 tractable 的任务，当然可以搞定。（甭管多大的数据，一句句分析抽取完了存入库里，到retrieve的时候还是需要“挖掘”一番，那时候为了不一叶障目，自然是需要用到统计的）。

在条分缕析的 tractable 任务上（譬如，deep parsing），我的基本看法是：有NLP经验的语言学家立于不败之地。而机器学习，包括深度学习（deep learning，当前呼声最高的机器学习神器），也许在将来的某一天，可以逼近专家水平。值得期待。最多是逼近语言学家，但是要超越人工，我不大相信。再牛的机器学习算法也不可能在所有任务上胜过专家的手工编码，这个观点本来应该是显然的，但是学界的多数人却天然地认为深度学习总是可以超越人工系统。

parser 的直接目标不是语义求解，而是提供一个靠谱的结构基础，这样后续的（语用层面的）语义理解、信息抽取、舆情分析、机器翻译、自动文摘、智能秘书或其他的NLP应用，就可以面对有限的 patterns，而不是无限的线性序列。从这个目标来看，我们的中文英文的 parsers 都已经达标了。

【相关】

手工规则系统的软肋在文章分类

《立委随笔：语言自动分析的两个路子》

再谈机器学习和手工系统：人和机器谁更聪明能干？

【why hybrid? on machine learning vs. hand-coded rules in NLP】

Comparison of Pros and Cons of Two NLP Approaches

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-946065.html

上一篇：《泥沙龙笔记：再谈 cyc》
下一篇：《新智元：有了deep parsing，信息抽取就是个玩儿》

【围脖：做 parsing 还是要靠语言学家，机器学习不给力】

当前推荐数：3 推荐人：华春雷 徐令予 陈辉

发表评论评论 (4 个评论)

删除 |赞[2]hongyan123 2015-12-28 15:47: 这样的parser也不在少数，问题是怎么grouding，这是和语境有关的，和个体经验知识有关的。所以，一个parser只是一把剃刀，但并不证明它能正确发挥其作用。; 李维回复王进：可以理解你提出的困扰、困难。但是：（1）“这样的 parser 不在少数”，是你看不出区别，不是这个 parser 太普通：这个 parser 是独一无二的，否则算我白吃了30年NLP的饭；（2）问题是 grounding，自然没错，那是在某类应用中 parser 落地所面临的挑战，但本文不是谈的这个话题，那个需要针对具体应用专论；（3）我没想证明这个parser一定能正确发挥作用：再牛的核武器遇到一个不懂使用的人，也炸不死敌人，反而可能自伤。其实，一般而言，parser 根本就不该用 offshelf 的，自己用才顺手，才能做成事儿。

2015-12-29 01:241 楼（回复楼主）赞|

删除 |赞[1]华春雷 2015-12-26 20:49

信息技术只是在“形式”的计算和理论方面很成功；而在其“涵义”的理论研究方面非常失败。例如关于“语义”的研究实际上仍然是“形式”层面的研究性质。所以，单独地研究语义学，只能在信息的”形式“层面上研究来研究去，会走向虚空，或走火入魔的。
这个问题的解决，还在路上。我们后来采取的解决方法是，将对信息"涵义”的研究转向生态学的理论角度，这将有助于发现信息的“形式”背后的生成原因。也就是信息的”涵义“问题。

[1]华春雷 2015-12-25 02:25

李维回复华春雷：不太懂您的理论及其意义。我的目的很简单，这里一切自动的形式分析都是为了完成某个自然语言的任务提供结构基础。这些任务包括数据挖掘、舆情分析、问答系统等。

2015-12-27 00:331 楼（回复楼主）

[转载]【ZT：王伟 - 李老师的观点整理】屏蔽留存

[转载]【ZT：王伟 - 李老师的观点整理】

屏蔽已有 1006 次阅读 2016-1-6 10:13 |个人分类:立委科普|系统分类:科研笔记| NLP |文章来源:转载

近期李老师的发言甚多，然因群的流沙量大而急，很多值得留住的沙金（或金沙）还没等抓在手里，就被后面的新沙冲掉。趁热把刚抓的一点，赶紧留在微博中（长微博）驻留片刻，也算帮李老师整理学术思想吧，描述中若有错则立改，此文若有其他版权纠葛，通知本人则删。

1.通过汉语系统和英语系统开发的实践，验证了语言间差距不是那么大。

2.自然语言的规则和不规则的比例，其实占据了一个恰到好处的比例。一方面规则化的，人类好掌握，趋向能被规则的越多越好，以减轻人类的记忆负担。另一方面，不规则的那些，不都是可以规则化，过于规则简化，那些已经规则化的规则也会出问题。规则与不规则是趋于在一个动态的平衡点上。词法繁则句法简，而词法简则句法繁。

3.对于知识源，使用人工整理的好，还是机器学习的好？本体体系和概念知识源，宜大师级人物整理，因为高涵盖，高稳定，独立于语言，付出虽多但整理精细。而对于领域本体，则量太大，人整理不起，机器整理则更胜。

4.自然语言中只有很少一个子集可以映射到形式逻辑的数学表达。

5.知识图谱需要parsing,parsing不需要知识图谱。

6.负责的说，语言中有99%可以结构化（语法学算法+语言知识库），那1%暂时不好剥离。所以语言学还是可把握的。

7.语言学长尾现象非常明显，其实只抓其前部的一定量，足够应对绝大多数情况。

8.NLP的应用，尽量别沾上语义，这语义是黑洞，很难抽身而出。

小评：

李老师不愧徜徉于NLP海洋数十载，感受颇深。

1.对于语言的规则化和非规则化，我们都知道是存在的，但常常搞不定是怎样的分布，常常担忧前途的路还有多远？是已经过了路的一大半了，还是辛苦这般过的路连一半都不到。李老师给了相对量上的回答，没有亲自地广度深耕，怎会有此言，在大多数人对自然语言多样性把握还是个迷蒙的时期，这相当于汪洋海上的灯塔。这也是促发我写此文的动机。

2.对于语言共性的学说，我们都知道，但是从实践者给出比一定量上的理论论证，要厚实更多。这一点同一语系差别不大，而不同语系差别要大。

3,对于知识源使用，采用互参的方式，既不放弃人类的卓越贡献，也不能视机器的好结果而不见。"人+机",将会在未来很长一段时间扮演着互为同学，互为老师的角色。我们不看出身成分几何，只看结果的优劣和发展的态势。

4.数学是人类科学对其他学科某个方面的浓缩（类似哲学也是浓缩），是个强有力的工具，但其他学科有些是不能被替代。对于语言的丰富性，至少现有的数学描述虽然在不断逼近，但是不周全。

5.知识图谱基于parsing，这是自然。其实也可反作用于parsing。只可惜提供的功力目前很有限，甚或过于零星。所以力微也言轻。

6.语言中99%可以结构化，这只有是工作做到量了，才可看到。对于复杂句子，需要的支撑知识绝不是小量级的可以盖的。李老师针对的社交媒体语句情况可能也有其自身特点吧。

7.语言现象的尾巴有多长，大多数人只能是神龙见首不见尾。对于我等而言，在前端的一定量上就够折腾了，即便有心就很难管尾了，何况尾也随便看到的，现在觉得的难或特例的那些，说不定都不是尾，只因功力不够才，无法分清头尾而已。

8.语义的黑洞掉进去多少英豪不知，多少壮年至而暮年未见归。董振东老师那也是30载的功力而成知网，且仍在完善中。难怪李老师也只是在边缘转转。话说语义，也有太多解读。毕竟前辈举各种力，各种资源，成就了少量基本的本体源，语义库。这确实是大幸，不然我们中的高人在这个时期才上手此事，那NLP的进展肯定还要晚几何。我认为，不管多难，语义是必须要碰的，但要因人、因能力、因需求、因资源上手。或许我们这等，就是在句法Parsing的后面而进入语义parsing（这里有歧义，请自行理解）的那些探路者。真正要逼近自然语言理解，怎能少了语义这道菜？李老师的parser，感觉上威力十足，剖析小句，如同庖丁对牛。但从应用的层面看，毕竟还是中间件，不是终端件。就像早期“光纤进万户，就差一公里”。如何才能把威力用起来，也许语义正是能帮助铺就用户的那“一公里”的利器。对此李老师若是力所能及更好，或者能鼓捣别人把语义的沙子扬起来，下游带动上游发展，这岂不也是一件美事？

from http://weibo.com/p/1001603927690506824474

【相关】

【新智元笔记：深度 parsing 的逻辑化】

from http://blog.sina.com.cn/s/blog_729574a00102wf63.html

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-948432.html

上一篇：【围脖：做 parsing 还是要靠语言学家，机器学习不给力】
下一篇：【新智元笔记：深度结构分析的逻辑化】

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】屏蔽留存

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

屏蔽已有 3417 次阅读 2016-1-14 21:47 |个人分类:立委科普|系统分类:科普集锦| 自动机, 形式语言, 乔姆斯基, 形式文法 |文章来源:转载

【立委按】

白硕老师这篇文章值得所有自然语言学者研读和反思。击节叹服，拍案叫绝，是初读此文的真切感受。白老师对乔姆斯基形式语言理论用于自然语言所造成的误导，给出了迄今所见最有深度的犀利解析，而且写得深入浅出，形象生动，妙趣横生。这么多年，这么多学者，怎么就达不到这样的深度呢？一个乔姆斯基的递归陷阱不知道栽进去多少人，造成多少人在 “不是人话” 的现象上做无用功，绕了无数弯路。学界曾有多篇长篇大论，机械地套用乔氏层级体系，在自然语言是 context-free 还是 context-sensitive 的框框里争论不休，也有折衷的说法，诸如自然语言是 mildly sensitive，这些形而上的学究式争论，大多雾里看花，隔靴搔痒，不得要领，离语言事实甚远。白老师独创的 “毛毛虫” 论，形象地打破了这些条条框框。

白老师自己的总结是：‘如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念，那就应该承认：向外有限突破，向内大举压缩，应该是一枚硬币的两面。’ 此乃金玉良言，掷地有声。

标签：乔姆斯基语言学自然语言处理线速

看标题，您八成以为这篇文章讲的是山西的乔家大院的事儿了吧？不是。这是一篇烧脑的技术贴。如果您既不是NLP专业人士也不是NLP爱好者，就不用往下看了。

咱说的这乔家大院，是当代语言学祖师爷乔姆斯基老爷子画下来的形式语言类型谱系划分格局。最外边一圈围墙，是0型文法，又叫短语结构文法，其对应的分析处理机制和图灵机等价，亦即图灵可计算的；第二圈围墙，是1型文法，又叫上下文相关文法，其对应的分析处理机制，时间复杂度是NP完全的；第三圈围墙，是2型文法，又叫上下文无关文法，其对应的分析处理机制，时间复杂度是多项式的，最坏情况下的最好渐进阶在输入句子长度的平方和立方之间；最里边一层围墙，是3型文法，又叫正则文法，其对应的分析处理机制和确定性有限状态自动机等价，时间复杂度是线性的。这一圈套一圈的，归纳整理下来，如下图所示：

乔老爷子建的这座大院，影响了几代人。影响包括这样两个方面：

第一个方面，我们可以称之为“外向恐惧情结”。因为第二圈的判定处理机制，时间复杂度是NP完全的，于是在NP=P还没有证明出来之前，第二圈之外似乎是禁区，没等碰到已经被宣判了死刑。这样，对自然语言的描述压力，全都集中到了第三圈围墙里面，也就是上下文无关文法。大家心知肚明自然语言具有上下文相关性，想要红杏出墙，但是因为出了围墙计算上就hold不住，也只好打消此念。0院点灯……1院点灯……大红灯笼高高挂，红灯停，闲人免出。

第二个方面，我们可以称之为“内向求全情结”。2型文法大行其道，取得了局部成功，也带来了一个坏风气，就是递归的滥用。当递归层数稍微加大，人类对于某些句式的可接受性就快速衰减至几近为0。比如，“我是县长派来的”没问题，“我是县长派来的派来的”就有点别扭，“我是县长派来的派来的派来的”就不太像人话了。而影响分析判定效率的绝大多数资源投入，都花在了应对这类“不像人话”的递归滥用上了。自然语言处理要想取得实用效果，处理的“线速”是硬道理。反思一下，我们人类的语言理解过程，也肯定是在“线速”范围之内。递归的滥用，起源于“向内求全情结”，也就是一心想覆盖第三圈围墙里面最犄角旮旯的区域，哪怕那是一个由“不像人话”的实例堆积起来的垃圾堆。

可以说，在自然语言处理领域，统计方法之所以在很长时间内压倒规则方法，在一定程度上，就是向外恐惧情结与向内求全情结叠加造成的。NLP领域内也有很多的仁人志士为打破这两个情结做了各种各样的努力。

先说向外恐惧情结。早就有人指出，瑞士高地德语里面有不能用上下文无关文法描述的语言现象。其实，在涉及到“分别”的表述时，汉语也同样。比如：“张三、李四、王五的年龄分别是25岁、32岁、27岁，出生地分别是武汉、成都、苏州。”这里“张三、李四、王五”构成一个名词列表，对这类列表的一般性句法表述，肯定是不定长的，但后面的两个“分别”携带的列表，虽然也是不定长的，但却需要跟前面这个列表的长度相等。这个相等的条件，上下文无关文法不能表达，必须走出第三圈围墙。

再说向内求全情结。追求“线速”的努力，在NLP领域一直没有停止过。从允许预读机制的LR(k)文法，到有限自动机堆叠，再到基于大型树库训练出来的、最终转化为Ngram模型（N=5甚至更大）的概率上下文无关文法分析器，甚至可以算上统计阵营里孤军深入自然语言深层处理的RNN/LSTM等等，都试图从2型文法中划出一个既有足够的语言学意义、又能达到线速处理效率的子类。可以说，凡是在与统计方法的搏杀中还能活下来的分析器，无一不是在某种程度上摆脱了向内求全情结、在基本尊重语言学规律基础上尽可能追求线速的努力达到相对成功的结果。这个经过限制的子类，比起第三圈围墙来，是大大地“压扁”了的。

如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念，那就应该承认：向外有限突破，向内大举压缩，应该是一枚硬币的两面。我们希望，能够有一种形式化机制同时兼顾这两面。也就是说，我们理想中的自然语言句法的形式化描述机制，应该像一条穿越乔家大院的“毛毛虫”，如下图所示：

据笔者妄加猜测，这样的“毛毛虫”，可能有人已经找到，过一段时间自然会见分晓。

【相关】

【新智元：parsing 在希望的田野上】

【新智元：理论家的围墙和工程师的私货】

乔姆斯基批判

泥沙龙笔记：再聊乔老爷的递归陷阱

泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（2/2)

《自然语言是递归的么？》

语言创造简史

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-950422.html

上一篇：【新智元笔记：反伊莉莎效应，人工智能的新概念】
下一篇：【新智元笔记：理论家的围墙和工程师的私货】

当前推荐数：0

发表评论评论 (2 个评论)

删除 |赞[1]徐令予 2016-1-15 08:37: 图片显示有问题。; 李维回复徐令予：谢谢，问题解决了。

2016-1-15 10:121 楼（回复楼主）

【新智元笔记：WSD与分析器，兼谈知识图谱与分析器】屏蔽留存

【新智元笔记：WSD与分析器，兼谈知识图谱与分析器】

屏蔽已有 3292 次阅读 2015-12-4 01:07 |个人分类:立委科普|系统分类:教学心得| 知识图谱, WSD, parser, 分析器

我: 热闹啊。一路扫过去: 印象是这里大概是搞NLP和语义的人最集中的地儿了，托白老师的福。大树底下好乘凉。二是现在讨论很杂，大概是大家伙儿热情太高。

wang: 白老师在，人正常说话能看出破绽，那机器就无抬头日啊

@wei 昨天挺不好意思，耽误老师太晚

我: 昨天泼冷水，是从我个人角度

不知道你已经钻进去了，没有退路了，：）

wang: 李老师，精力也是令人佩服！还好，基本出来了啊

白: 权当预处理了，第0层。也符合伟哥的分层思想。

我: 那是有熬出头的意思，因为成果在望？我以前枪毙过一个加拿大的 WSD 公司。

wang: 前面我已经提到，不用太好的WSD也可以支持不错的句法分析，--这是我的结论。因为我的3级语义码识别，可85%的精度，而这是纯多义词情况比例，而正常句子一般47%的多义词。

嗯，李老师文中提过

我: 哦文中说过了。人老了，记不住自己都说过啥。反正喷得多了，就成了维吾尔族姑娘，也不怕白老师们抓小辫子了。

白: WSD不是一个解决方案，只是可以和分析器形成流水作业的一道工序。当解决方案用就大错特错了。如果目标在深层的话。

wang: 白老师，确实皆通，句句问到点子上，白老师总结的对，是而这流水协同作用。

我: 关键的要害是，吃力不讨好

wang: 这样，全句的词义消歧92左右，包括单义词，这个正确率，确实不影响太多的句法分析。若算一级语义分类正确率的话，还要再高些。

我: WSD 肯定可以帮到句法，但是费工太大。世界上的事体，没有不能补偿的。譬如眼瞎了，耳朵就灵敏了。不用WSD，别的资源就来补偿了，也可以走得很远。实在绕不过去, 就 keep ambiguity untouched，等到语用的时候再对付。语用的时候，语义问题一下子缩小到一个子集，一个domain，所以原来大海一样的 WSD，就变得 tractable 了，有时甚至自然而然就消失了，不再是问题了。

wang: 嗯，我也不总是一下有解，有些留到后层处理。结果良好，可以接受。

同意，确实有些看似问题，后来不用解决也自然解决

白: 伟哥的意思，解空间是人定的，你搞不清是a还是b，就在论域里增加一个ab好了，后面自有机会把论域再缩小的。不要为了一定要在信息不足的条件下强行分出a还是b，把系统搞重。

我: @白硕对，白老师说话清楚多了。

第 0 层的想法也对。因为 WSD 这东西可以依靠 density，而 density 是可以在一篇文章的 discourse 下做的。这个有拉动全局帮助局部的好处。

白: 嗯，董振东老师举的“薄熙come”的例子犹如在耳。

我: 这个加 ab 的状况对于完美主义者心里觉得别扭。但其实，模糊是自然常见的状态，而清晰才是少见的人力的结果，而且还保不定会被翻盘。既然是自然状态，那么就应到不得不清晰的时候去对付它。而不是先清晰了，再去等着不断翻盘。

白: 这个就是量子力学里的叠加态，保留到最后坍缩。

wang: 嗯，刚才也谈到翻盘的，有些压根前期就清晰不了。

我: 不过话说回来，如果先做 WSD 多少把太不像话的枝枝蔓蔓减除一些。然后做句法应该还是有益的，只要小心就好。

wang: 嗯，的确减不少。比如一个句子多义词，按平均5个义项算，句子长了各种组合也有很大的规模。

白: 这个，人有时不是这样的。在信息不足时强行坍缩，遇到trigger再翻盘的情况，在段子里一把一把的。我们都被耍弄得很开心。

我: WSD 是个不一定需要结构就可以做个大概的东西。因为全盘的 density 对于 WSD 的影响，比局部的结构对它影响，一般来说，更大一些。这样，discourse 的威力就可以发挥了。道理就在，WSD 虽然是针对个体的词，但是一个 discourse 里面的词的共现，是有很自然的语义相谐性。n 个多义词在同一个 discourse，互相作用，互相消歧。

白: 我就给它定位第0层

他窗口很小，哪里看得见density。

wang: 我接受白老师定义的0层。

是这样的，况且更多是单义词。连续几个多义词在一起也有，处理也还可以，就是连续未登陆词，会出问题

白: 伟哥知道薄熙come的典故吗？

我: 不知道这个典故，但是似乎可以想见董老师的机智和幽默。跟董老师太熟了。

薄熙来了。

薄熙来走了

薄熙come了。

薄熙come走了。

类似这样的?

白: 说的是某汉语文章译成英语，文中出现了5次薄熙来，译成英语后，四次翻译成“Bo Xilai”，一次翻译成“Bo Xi Come”。

wang: 这样啊,

我: 那个系统还是蛮了不起的。

敢于对抗 one sense per discourse 的大原则。我们一般是不敢的。

wang: 从篇章提取关键核心词进行制导，会有改善，但也有改错的时候

我: 你反正是做粗线条，而且是 n-best。目标不是真地消歧，而是减负，譬如从原来的5个，减到3个（3-best）。

wang: 把句法分析结果进行分层，组成篇章理解框架，这样的高级层处理也许，比单句作战要好，---现阶段，只是想想，不敢干。

说的对。

白: 某年我在百度和谷歌翻译上测试周恩来、薄熙来、朱云来，效果依次递减。

wang: @白硕专有名词词典，能及时跟进，可能就好很多

白: 分析器的lookahead，也是减负，一个道理。

wang: 我目前是选3个，有些很明显分数很大，基本取Top1

白: 但他只看cat不看subcat，典型的活人叫那啥憋死。

wang: 白老师说我？

白: 不是，说分析器，LR（k），包括我自己提出的角色反演算法，都是这个毛病。

wang: main cat 确实误导很多，

我: 哪家分析器只看 cat 不看 subcat？cat 算个球啊，太大太空太少。

白: 不是工程用的。@wei

wang: 同意李老师，subcat 太细也不是好事，但是解说容易懂，

我: 想做分析器，基本靠 cat，那是 CL 教科书玩具系统留下的后遗症。

最大的后遗症来自：

S --》NP VP

NP --》 DT JJ* NN+

VP --》 V

VP --》 V NP

被这么灌输了一阵子，看自然语言就当儿戏了。所以才会有共识：lexicalist ，这可能是 NLP 领域这么多年最大的共识了。没有人不认为不需要词典化。词典化的方案各个不同而已。

白: 这话分两截说，一是那么定义的问题要用那种系统去做，二是那么定义问题是不对的所以不该那么做。

wang: 我觉得CFG，自由太过了，加上cat 太粗，因此这个处理，很难跳出。加上词汇化，又太稀疏。词汇化n元开大了，稀疏问题相当严重。

白: cat是可自定义的，没有谁一定说非得NP，VP。关键是自定义work的，都要到词例化层级。

我: POS 的地位是阴错阳差弄出来的。

结果是大家误以为，必须做 POS，而且 assume POS 是个 solved problem，然后在 POS 上做分析器，擦不完的屁股。

白: @wang 你这个n=5也是醉了。

wang: 我是语义码,同义词词林义项1400个，比几万，十万词构成规模，还是轻量级。

跳过POS我认为是个进步，但是后面的还是有很多问题要解决。

刘: 在SMT里面ngram的n=5甚至更多都不少见，现在的neural language model已经超过ngram了，rnn、lstm可以更好的利用远距离依赖。

wang: 刘老师晚上好！

刘: 你好！好久不见了

wang: 是啊，好久不见。白老师来大连，我不凑巧没见着，李老师太远，呵呵

白: 如果想要处理段子，还是激进一点好，太保守会消灭笑点的。

我: 觉得白老师有时也走火入魔，一天到晚想着段子，这个对做 real life NLP 是 “过度思维”。

白: @wei real life NLP并不是只有一种

我: 段子的事儿，可以启迪思维，但做的时候，就该放在一边。

白: 看应用场景

@刘群处理WSD的RNN可以和处理句法的RNN流水。

我刚想说5-gram真是巧合，记得多年前你的学生和骆卫华同一天答辩那次，就是用的5-gram。

洪:

李维擂鼓佟佟佟，

分明书生老黄忠。

转战各群显神勇，

定军山找不轻松。

我: 最后一句湿不懂 @洪涛Tao

雷: @wei 老当益壮的意思

我: 哦四大名著唯一没看下去的是《三国》，不知道定军山与黄忠的实体关系，这个需要 IE 一下就好了，看 “三国图谱” 一目了然。

洪: @wei 你需要找你的定军山，具体地说，找你的夏侯渊。

我: 特佩服读破万卷书的人，譬如洪涛这样的简直就是神人，或人神。

我从小读书就慢，所以读书少，要是在西方的教育体系下，早就淘汰了。

看我女儿上课，那教科书参考书都比砖头还厚，都是一目十行的人才能对付。

我看一个句子，要读三遍，咀嚼五遍，然后进一步退三步地反刍。

洪: 老李今天的作业，看在一个陌生领域，如何迅速建图谱

我: 图谱的问题已经解决，就是工作量了。这是说的真心话，不是胡吹。

图谱的抽取挖掘，比起舆情真地不是一个量级的难度。

舆情都做的，回头做图谱，没有做不成的，不管啥 domain，你给钱，我就做。

白: 可以和郝总PK了

wang: 各位老师，我先下了，各位多聊，温馨提示：白老师也要注意休息！各位聊好 88！

洪: @wei 要不说你老黄忠。可能比老黄忠还老黄忠，因为都不用诸葛亮使激将法。

我: 陌生领域做图谱，关键是要有一个好的分析器。只有这样，domain 的 porting 才可以做得很薄很快。而分析器基本是不变的，现成的，那剩下还有啥难的？

你 parsing 做浅了，IE 图谱就必须做深，反之亦然，parsing deep 了，IE 就是薄薄的一层。

反正不管到那个领域，语言还是那个语言，文法还是那个文法，只有词汇（术语，ontologyy）才有最大的差异。

洪: 国内大家都晚安。我也赶紧跑，否则十有八九成为老李刀下的夏侯渊

我: 晚安晚安。

【相关】

词义消歧（WSD）

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-940905.html

上一篇：衙门文化（后续）
下一篇：【新智元笔记：词类消歧没那么漂亮，也没那么重要】

当前推荐数：3 推荐人：谢平 黄永义 shenlu

发表评论评论 (1 个评论)

删除 |赞[1]黄永义 2015-12-4 17:57: 讲得很形象！

有感于人工智能的火热屏蔽留存

有感于人工智能的火热

屏蔽已有 3336 次阅读 2015-11-3 05:22 |个人分类:立委科普|系统分类:科研笔记| 人工智能, NLP

独: 从最近几天的文章来看，人工智能已经不仅仅是被炒作了，已经成了玄学，宗教，甚至邪教了。信之得永生，不信被淘汰，还让不让我们愉快的瞻仰了？

这是很有意思的社会现象。人工智能（AI）曾经那么神秘和流行，记得我刚入行的80年代，有同行开始把机器翻译做到电子词典里去，广告上非要加上人工智能的字样去吸引人。后来呢，机器学习热潮起来以后，人工智能作为老一代的玩具技术开始式微，名声越来越坏。

如今，机器学习"被"借尸还魂，趁着深度学习的热潮，合二为一，AI 一下子又成了香饽饽。所有关于AI的媒体宣传，全部似曾相识。AI 的历史上，总是这样大起大落。

机器学习当年躲 AI 唯恐不远，楚河汉界，泾渭分明。

可是从大众媒体来看，还是AI对于宣传好使。它刺激人的想象空间，与各种科幻紧密相连。最有意思的是，人类的忘性真大，再"被"臭的东西也可以重新芬芳起来。

如今，旧的 AI 已死，没有躲避的必要了。现在是可以利用它，但要忌讳的是过度消费。

如今，AI = DL，这是大多数人的潜意识，至少。

很多人以为规则类的 NLP 等同于旧的 AI，或者至少是其中的一个分支，所以规则派 NLP 会随着旧 AI 寿终正寝。可是，恰恰在这一点，我有严格区分，因为事实不是这样子的。

旧AI就是60年代70年代的那些玩具系统，极端的domain specific，也只能做玩具实验。唯一不 domain specific 的旧 AI 是 cyc，这是旧 AI 的最大亮点，但如今也是 stuck there，原因不仅仅是常识的包罗万象使得知识形式化太过繁难（愚公移山总还有希望），更因为常识本身就是人类知识的缺省机制，无法单靠它打天下，更难以做推理。最后还有一个巨大的 overhead 的拖累。不排除很远的将来 cyc 这路有复兴的可能。

总之，旧AI面对的是世界知识，或者是专项知识（玩具世界所需要的），或者是常识（cyc），因此难以 scale up。NLP 则不同，NLP 面对的是语言学知识，而作为核心的句法是 tractable 的，因此可以 scale up。这种区别决定了其命运的不同。

做一个能 scale up，达到（甚至超过）一般人分析水平的 deep parser，已经不是梦想，而是现实了。

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-932959.html

上一篇：《立委科普：机器可以揭开双关语神秘的面纱》
下一篇：贴身小蜜的面纱和人工智能的奥秘

当前推荐数：4 推荐人：李竞 许培扬 刘洋 陆泽橼

发表评论评论 (2 个评论)

删除回复 |赞[2]pksc 2015-11-4 19:25: 人工智能热或许与这篇论文有关，虽然表面上不想承认http://www.ccf.org.cn/sites/ccf/hycjneirong.jsp?contentId=2608217341188

删除回复 |赞[1]童勤业 2015-11-3 11:02: 人工智能最大的特点是没有智能,人工智能如何会超过人呢?真是这样还需要研究大脑吗?

泥沙龙笔记：再聊世界语及其文化屏蔽留存

泥沙龙笔记：再聊世界语及其文化

屏蔽已有 2006 次阅读 2015-10-4 04:01 |个人分类:立委科普|系统分类:人文社科| 文化, 语言学, 世界语

谈世界语和老柴老乔以及老马老恩： http://blog.sciencenet.cn/blog-362400-925052.html

南: 没注意到，你们居然谈esperanto…… 这个群几乎是啥都有人在行，无语

白: 爱死不难读。

不是，白老师，是爱斯（才）不难读的: 《立委随笔：Esperanto: 爱斯不难读》，所以我几天就学会，两个月就拿它写论文了。这个事迹，我师姐写过，《师弟轶事：疯狂世界语》

白: 哈哈, 爱得死去活来，自然不难读了

南: 爱死佩兰拖

Nick: @wei 你得编段世界语鼓词十八摸，让鹏爷场，否则他不会买账的。

不过，白老师说世界语是垃圾，我还是很诧异。一般搞语言的人，或者无视它，或者喜欢它，厌恶它则有点蹊跷。

南: 我初中时赶时髦学过一阵子，但是觉得没啥意思最终没有坚持下来。但奇怪的是我同时期就开始喜欢编程语言。

毛: 爱死不来读

我女儿学了，跟我说，有啥用啊。她会西班牙语，学起来容易。我说，没啥用，就是因为没用，学起来才没压力，没功利，纯粹是 fun 和对语言的新奇。现在我们父女对话，倒是不怕别人看到，反正一般人不懂。

南: 编程语言在解决问题过程中能体会到思维的美丽。世界语，我感觉不到语言表达的美丽。纯个人感觉，没有啥理由。

表达的美丽在我这里是表达的自由。我学语言学，对于世界语的表达丰富性体会特别深。同样的意思，爱怎么表达都可以。这个语言学特点我正经写过文章发表的，作为一个 chapter，用世界语发表在 Li, Uej (Wei) 1991.
Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp707-723. La Laguna: Universidad de La Laguna

不仅仅是语序的自由，而且其他的语言形式也是比“纯自然语言”来得丰富。因为纯自然语言常常是倚重一种形式，或者是倚重语缀，或者是倚重小词。二者同时倚重的很少，总是大体有个不同的比例，因此语言才分成不同的类型。但世界语是人造的，柴大师为了表达的丰富性，有意吸取尽可能多的不同语言形式，这样来自不同类型语言背景的人可以找到自己倚重的形式来表达。其结果是，同一个意思，表达的方式多于纯自然语言。语序的自由加上同一个意思既可以用小词来表达，也可以用语缀来表达，是世界语的一个特别有意思的语言学特点。

南: 可能是我还没有学到可以自由运用的地步，无法体会。

对于普通人，可能不会涉及那么多形式，可对于我，这种丰富性和表达的自由，让我觉得空前的语言学满足。

洪: 记得巴金一直提倡世界语

是巴金是国内最老的世界语之友了，年轻时学过。同情和支持世界语的还有蔡元培冰心鲁迅胡愈之陈毅，高尔基托尔斯泰罗曼罗兰。还有爱因斯坦铁托。毛泽东也被忽悠了一阵子。见《中外名人论世界语》。社会语言学家和出版家陈原可以流利用世界语演说我听过生动的很也幽默。我的导师刘涌泉也是世界语之友。

一不小心，我后来也被编入《中国世界语名人录》里了，有本书收了我《我的世界语国》系列。

北: 我愿意做一个坚定地反对世界语的人

你和白老师的反对都没听到坚实的理由。不过是说因为人造的，显得单调，丑陋。这个理由是仁者见仁智者见智。

北: 对啊人造的语言就是反人类的事

我觉得美是我真地感受到美，而且我有这个条件去领略其表达丰富性，我不仅能写，也能说。你觉得丑也是你的感受。

比起语音上类似的意大利语和法语，世界语听起来也的确单调多了。加上很多人说起来生硬，磕磕巴巴。因为老柴是在简洁和单调中玩平衡，所以会牺牲一些听觉的美感。

北: 没错所以您宣传我反对两不妨碍。

但是好的世界语朗诵也真地很好听，国内有几位优秀的世界语电台的播音员。听他们说世界语是一种听觉上的享受。

毛: 世上本没有路，走的人多了，就成了路。

北: 那也只是您觉得好听我相信觉得好听的人很少很少。实际上我觉得法语也很难听。

不是每个人说都好听，毕竟大多数世界语者都是拿他做辅助工具。不过电台播音员和一些出身在世界语者家庭一生下来就说世界语的人，他们的世界语与其他语言从听觉上和语音上，基本处于同一个水平，绝对没有生硬和难听的感受。

北: 即使您说好听的播音员我相信觉得好听的人仍然很少。我说的丑陋不是语音上的是文化上和内涵上的单调。这种丑陋与人工设计出来的某某主义制度如出一辙。对于我来说这都是突破底线的完全无法接受的丑陋。或者说与主义制度一样是反人类的。

文化上没有民族的根基，这一点是有道理的。以前有说，民族的才是世界的。没有根基就显得贫乏。这个批评我同意有点道理。为了弥补这一点，世界语运动中，以及柴门霍夫本人，为世界语逐渐创造了另一种文化的基础。就是那种普世的、大同的、理想主义的文化。

北: 这种文化与某某运动一样已经为世界人民所抛弃了。

本来语言是语言，文化是文化，可以勉强分开来。

毛: 好好，小孩子别吵了，再吵城管叔叔可就要过来了。

就是拿它纯粹当工具。有些理呆喜欢世界语，就讨厌其类似国际共产主义的文化背景。但是真正的世界语者却一直在强调理想主义的一面，有意识把这种文化基因，发扬光大。也正因为此，世界语也招来了一些非议。因为作为工具，顶多是好用不好用的争论，没人会带有那么大情绪去厌恶或热爱。但是一旦融入了文化因素，好恶就开始作怪。

我个人一方面是语言学家，拿它当做工具去领略其美妙。另一方面又是文傻和骨子里的大同主义者，或社会主义者。所以对其特有的世界大同文化背景心里是认同并为之兴奋的。柴门霍夫本人创造世界语就是有崇高的大同动机，这一点他多方面阐述过。

Philip: 是不是 Java 才是普世码农的共同语言？

北: 语言的文化属性远远强于其工具属性

所以从一开始，世界语就不单纯是工具，而是作为一种主义和运动的形式在发酵。

北: @Philip php才是最好的编程语言！

我要说的是，世界语文化上有先天缺陷，因为没有民族根基。但是它比起其他纯工具的方案，还是更多一些特别的文化基因，更具有人文主义情怀，世界语圈子里也弥漫这种人文格调和自我优越感，曾一度深深吸引我。这种文化就是世界大同的理想。

白: 站在印欧语视角的世界大同，就是世界印欧语化。

白老师，那也是没办法的事儿。世界语几乎做到了极限。技术上，很难找到一个方案，非印欧化，但又不能排斥印欧。毕竟，印欧语言在世界语言的比重和影响是无法超越的。

北: 所以我反对世界语就在这里打着工具主义的旗号行文化同化之实大奸大恶不过如此。没有人需要这样一个普世方案。

白: 所以当我们面对看书、看电影、看演出的时候，世界语并不会给我们同一个看。并不照顾汉语母语者哪怕半分。

“照顾”了也，客观上看。譬如数字系统与汉语是几乎完美一致的。不像法语，也不像英语（11到20不规范），世界语的数字系统与汉语几乎一一对应。另外，汉语的句子如果词对词翻译成世界语，比起翻译成任何其他印欧语言，其结果是更加顺达。因为世界语的表达力在小词和语缀间是兼容的。而大多数印欧语言是一种繁复的语缀形式。倚重的是语缀的繁复，结果就离汉语更加遥远。

RW: 所以，汉语更接近世界语？

白: @RW 不可能有这样的结论

世界语的语缀可以极其简单，很多时候可以用类似汉语的小词（主要是介词）来表达各种语义。比起印欧纯自然语言，汉语更接近世界语。这个结论没错。虽然世界语的来源是印欧语言的公约数，但是它与汉语的距离，比起任何单个的印欧自然语言的确更近。这个我可以做语言学的证明。

北: 有个有趣的问题我国官方队世界语什么态度呢？

RW: 我想表达的是，汉语有汉语的优势

中国政府和党一直是支持世界语把它作为一个御用的部门。中国老世界语者独立性很差，一直有点媚上的味道，也是生存之道，无可厚非。

RW: @wei 能否比较粗犷地说，世界语是拉丁语的简化版？

北: 奥不过这些年知道世界语的人很少了

有人说，世界语是简化的拉丁语，这么说主要是从拉丁语在历史上是事实上的欧洲世界的书面共同语的角度，觉得世界语也抹平了印欧语言可以做共同语言。

严格地说，不是拉丁语的简化，因为拉丁语只是印欧语系三大旁系之一。而世界语的确是吸收了三大旁系（拉丁、日耳曼和斯拉夫）的所有的长处，并加以简化的。

白: 官方态度那是因为世界语很弱。如果像天主教或者绿色和平组织那样成为跨国大NGO，你试试。

柴门霍夫的天才怎么赞誉也不过分。

RW: 然后就和汉语神似？可见汉语不差嘛

真地与汉语相对接近。

RW: 柴老精通中文吗？

但是那不是因为设计时候考量了汉藏的因素，柴大师不懂汉语的。

北: 这就是关键的差别之一 @wei 老师，我就认为语言只有特点，无所谓长处短处。

但是因为人类语言是有很多共性的，而柴门霍夫是追求共性的大师。追求语言形式的多样化, 在这种追求过程中，自然而然地，与汉语接近了。

RW: @wei 我绝对可以想象世界语的简洁和中文神似

@RW 你的想象没错，我可以验证。

RW: 我想说的是中文有它的先进性

根据我的语感和经验，的确有神似的方面。我以前的世界语语言学特点的论文中也举例过（举的还是文言的例子呢），好像也阐述过这个类似的意思。

RW: 我女儿可以说很好的拉丁语，非常优美。

中文的 “先进性”，简洁是一。印欧语言不简洁，是因为叠床架屋。这种叠床架屋的繁复语缀，有它严谨的一面，也有它不简洁的缺点。不简洁的结果是，冗余信息多，这个对交流和通讯工具是有好处的，可以抗干扰，消歧义。但是却失去了简洁的 “美”。

RW: 但中文也有其无法比拟的优美感！

这么说吧，在 90% 的情况下，冗余是不必要的，是多余的，但是作为语言的文法规定，你还是必须要冗余。但是在 10% 的时候，你会发现这些繁复带来的冗余是非常有利的。它消除了歧义。语言因此严谨。而中文倒是简洁，既没有语缀，而且小词也是能省就省，甚至语序也是有相当自由度的。这样一来，中文的表达显得特别简洁和自由，最大程度地不依赖显性的语言形式（语序，语缀，小词），而是靠上下文去”意合“。这对于人通常不是问题，而且成就了简洁和自由的美，但是却丧失了严谨性。同时在 10% 的情形下造成了理解上的困扰。

RW: 但缺点也显而易见，中文的系统性越来越少。英语实际上是个很不错的平衡。语言不能太累赘，梵文有十几个变格，是很精确，但不能传下来。

同意，英语是个不错的平衡，就那么三四个语缀，词尾 -ed -ing -s，但是这三四个语缀可是顶了大用的。

世界语的词尾也不多，格也只有一个（宾格），比起拉丁语是简化太多了。

~~~~~~~~~~~~~~~

白: 目前看，五线谱成为音乐世界语，地位比爱死不难读牢固多了。

查: 直接对应钢琴的键简单直接

笑得最后笑得最好，现在断言爱斯不难读的结局还为时过早。

大数据的信息化时代，不定哪一天人类突然聪明了，超越了国家政治和民族差异，要建立一个松散的全球共同体。那个时候要选一个有根基有实践有底蕴的中立语言作为 official 工作语言的话，除了 Esperanto，也没多少选项了。

白: 那时候机器翻译早就过关了吧，我对机器翻译过关的信心都比这个大。

你看如今 TPP，还有好多这个P那个P的经济共同体，弄得人眼花缭乱，本质上就是世界大同前的种种迹象。

机器翻译与世界语可以并行，二者互补，为世界大同服务。关键的一条是，选择任何自然语言都是明显偏向某些民族的，也是政治不正确的。Esperanto 的中立性，奠定了自己独一无二的有利地位。当然，历史上出现过200多种人造语方案，基本都是中立的，但是有这么多实践的人造自然语，唯此一家。

查: 世界语是yy吧有正常人用吗？

我心中的理想社会与柴门霍夫完全相同：从此一个人一辈子只需要学两门语言。

一个是跟父母和社区自然而然学出来的母语，一个是面对世界需要学的国际辅助语言。

把现在学第二外语（英语、西班牙语等）的宝贵时间解放出来以后，人类的科技进步和生产力会大大解放。

反复的 benchmarks 结果表明，世界语的学习一般只需要我们现在学第二外语的五分之一的时间。

查: 世界语还是洗洗睡了吧谁用啊浪费那时间还不如学黎曼几何虽然也没用

如果人的一辈子在最美好的青少年时代，平均为学英语等第二外语花费了一万小时的话，我们说的是每个人就会节约 8000 小时的青春。

查: 呵呵你这是理科生思维@wei

八小时算一天，那就是节省生命1000天，而且节省的是生命最美好的年华。

查: 学习英文也是一种享受。

对于愿意学其他外语作为享受的是另外一回事。这里说的是，为了生活和工作，不得不学的外语。

查: 假设你说流利的世界语哪个学术会议你听得懂？

查理，乱弹琴，我说的是理想社会，你跟我说现实，不是捣乱么。

白: 机器翻译也是理想，到时候学一种语言就够了。

理想社会是需要n代人的过度最后确立的。

查: 理想社会那就用edi吧还要语言干吗？

现实的不合理，是显然的。我为什么花那么多时间学英语？

白: 这不过是个技术问题。语言之间的大同，放到机器里去吧

就是一个工具而已，好用就行，花费的时间应该越少越好。

查:以后所有的交流都采用edifact 就不需要语言了@wei

白: 不花时间岂不更好？

当然，机器翻译也是一个路。

也许真地就只要学一门语言就管一辈子了。比世界语的大同更好。

白: 大鼓可能还是翻译不了，不过大鼓也翻译不成世界语。

查: 联合国标准不需要翻译@wei

那都不是事儿。

以后的世界学一门以上的语言的人，都是专家。是真正爱好语言的，而不是被迫学习外语的人。这些人可以用来对付机器翻译难以胜任的任务。

查: 现在孩子会三门语言很普通。你对未来的预测是错的@wei

也许吧。目前来看，机器翻译的大同胜过世界语大同的概率，更大一些。不过这两个预测都是建立在批判目前的强制性外语教学的基础之上，浪费了太多的青春。

有人天生喜欢学语言，就跟有人喜欢学多门乐器一样，另当别论，不能与被迫学外语以求生存相提并论。

最最可悲的是，很多人学外语劳而无功。赔了夫人折了兵，外语还是学不会，学不好。毛泽东就是一位，找再好的老师也没用，他老人家就不是学语言的材料。直到老，据说就是学会了几个孤单的不成句的哲学术语, 什么辩证法之类。

科学网—灵感有如神授，巧夺岂止天工

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-925135.html

上一篇：泥沙龙笔记：漫谈语言形式
下一篇：泥沙龙笔记：汉语就是一种 “裸奔” 的语言

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

当前推荐数：2 推荐人：刘全慧 icgwang

发表评论评论 (1 个评论)

删除回复 |赞[1]icgwang 2015-10-11 11:05: “ 理想社会那就用edi吧还要语言干吗？”，对，理想的就是用体外粉碎机咀嚼后直接倒肚里的快餐文化！甚至都不用吃，直接插上电源就灵感和能源都有了，要食物咀嚼和营养酵解干吗？

《泥沙龙笔记：铿锵众人行，parsing 可以颠覆关键词吗？》屏蔽留存

《泥沙龙笔记：铿锵众人行，parsing 可以颠覆关键词吗？》

屏蔽已有 3661 次阅读 2015-10-10 08:52 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 关键词, 结构, 自然语言

我: 汉语的躶体准成语：你不理财，财不理你。穿上小词的衣服就是：你如果不理财，财就不理你。（如果 ... 就 ...）。也可以穿戴更多一点：如果你不理财的话，那么财就不会理你。（如果 ... 的话 / 如果 ... 那么 ... 等。）穿得越多，越没有歧义，越容易理解，当然也越容易电脑处理。可是国人觉得那样不简约，不能显示我语之性感。

现代汉语的框式结构是非常漂亮的小词结构，漂亮在它不仅给了左括号，也没忘记右括号，这样一来，边界歧义的问题就消弭了。这个框式手段，是比西方语言更高明的显性形式，应予大力推广，以彰显我语严谨的一面。框式结构更多的例子：因为 ... 所以；虽然 ... 但是；在 ... 中/上/下/间。

顾: 英语也有省略小词: no pain, no gain.

我: 语言是线性表达，因此常常有边界不清晰的问题存在。数学语言（譬如公式）也是线性的，想到的办法就是括号。汉语不知道哪个年代发明的这个框式手段，基本就是括号的意思。这个很高明。

顾: 而且似乎某些高能人群倾向于省略小词。例如华尔街投行和硅谷人士的某些交流中，如果小词太多反而被鄙视，被认为不简洁不性感，这大概是人性，不是中国独有。举一例，出自Liar's Poker, 某trader跳槽，老板以忠诚挽留，他回答，“You want loyalty, hire a cocker spaniel”

我: 有了框式结构，语言不仅清晰了，而且灵活了。灵活是因为左右括号如此明晰，以致于可以放宽括号内成分的句法条件。

Nick: 可以处理括号的都是什么自动机？我理论忘光了。

我：多层括号需要的是中心递归，就是乔姆斯基的 CFG，有限状态不能对付n层括号。上面的汉语案例大多只使用单层括号，没有用到括号的嵌套（"如果...的话" 与 “如果......那么”可以算有一层嵌套，左括号共用一个小词“如果”，右括号不同，可以放在两个模块层去做），不需要栈结构，不需要递归和回溯。

白: 有限状态加计数器，是毛毛虫，可以对付括号，保证线速。

顾: 注意这里主从句之间是逗号，不是问号。我刚才特定去书里查对了没错。

RW: long time no see 是华尔街英语的典范！

我: 成语不怕，成语都是可枚举的、有限的，就是个存贮记忆问题。成语的极致就是编码，包括密电码，acronyms 如 IBM，ABC 就是密码式成语。成语是NLP中不用讨论的话题。可以讨论的是，产生式“类成语”，譬如“一X就Y”（如一抓就灵，一放就乱）, "不X不Y"（如，不见不散，不服不行）。这个有点讨厌，因为词典对付不了，可是又不符合一般的句法，通常用小的规则来对付。（小规则是大规则的例外。）

顾: 但某些高能人群，尤其是科学家和教授，尤其是在思辨场合下，小词就少有省略。而汉语在写数学教材时，也多用小词。因此是否用小词跟语言用途也有关，愚以为不能否认汉语追求简洁优美是弱点，也不能认为汉语不善加小词或准确表达概念和逻辑。

我: 还是有个程度吧，汉语小词常可省略，总体上就是一个爱躶奔的东方美女。

顾: 偶爱裸体美女。

我: 偶也爱躶体美女，东方的尤甚，因为亲切，可是 ...... 欧化句式侵入后，白话文运动以来，可以看到一种加小词的趋向，小词在汉语发展道路上开始产生影响了。是吃了伊甸园的智慧树的果子知羞了？

顾: long time no see据认为是汉语入侵英语之后产生的，只是大家觉得自然，英美人也用了。这个语句困扰我很久，在网上查了据说是如此，但未必是严肃考证。

我: long time no see 是最直接的展示我东方躶体美女的一个案例。西人突然悟过来，原来语言可以如此简洁，这样地不遮不掩啊。他们觉得可以接受，是因为赶巧这对应了一个常用的语用（pragmatic）场景，朋友见面时候的套话之一，不分中外。在有语用的帮助下，句法可以马虎一些，这也是这类新成语（熟语）形成的背后理由。

RW: 我只在老外和中国人打招呼时听他们说过，没见过他们互相之间用过。因此，我觉得他们没有接受这是一个常规用法。

顾: 另外，我觉得如果要分析理解语言，也不能拘泥于句子结构。句子之间的含义同样重要，如果过于依赖小词，可能难以将句中和句间的关联统一理解。而如果看句子之间的联系理解，英文在句间小词也很少用。

我: 用语义（隐性形式）当然好，但是不容易写一个形式化的系统去 parse 啊。用小词（显性形式）的话，那就好办多了。

白: 伟哥还是说说“我是县长”是怎么hold住的吧。问题的实质是，有限状态自动机没有lookahead 能力，如果语义跟着同步走，有很多构造（合一）会是明显浪费的。

Nick: @wei 白老师问:"我是县长派来的"

我: “的字结构”很讨厌。大体上就是英语的 what-clause 对应的句法形式。但比 what-clause 还难缠，因为该死 “的” 字太 overloaded 了。

雷: 中心嵌套也可以是线性的？

白: 某些可以是，全集不是。比如，a^nb^n，可以线性parse。

我: 当然可以线性，除非嵌套是无限层。如果是无限层，栈也要溢出的，无论memory多大。中心嵌套本质上不是 ”人话“，这个我和白老师有共识。乔姆斯基之谬，以此为最。

雷: 问题是有些text有冷不丁的多层。有些国内的新闻稿有。

我: 举例，看是人话还是数学？

雷: 当然我们可以排除这些极少数。有些翻译有。

我: 用递归回溯对付嵌套，不过是理论上的漂亮，没有多少实践的意义。

白: 记得everybody likes somebody转换成否定式很难搞。基本归到不是人话一类。

我: 不是人话，就不理睬它！语言中要抓的现象那么多，什么时候能轮到中心嵌套？

白: “我是县长派来的”，是人话，还没揭锅呢

我: I am the one who was sent by the county mayor，这大体是对应的英语吧。英语的 what-clause 只能用于物，不能用于人。“苹果是县长送来的”，the apple is what the county mayor sent

白: 我的问题不是翻译，是有限状态木有lookahead能力，局部生成“我是县长”的问题咋避免。

我: 避免不难。不过就是加大规则的长度而已。有限状态的规则可以任意加长后条件（post-condition）。至于前条件（precondition）比较麻烦，因为前条件改变了 matching 的起点，容易乱套。

白: 短的规则还在啊。根据哪一条，长的压制短的？

我: 对，叫 longest principle，这是所有matching的基本原则，无论是词典查询还是模式匹配。有两个方法用后条件（1）加长后条件，以确保 pattern 本身是要抓取的对象，譬如第一近似就是 check 县长后面不是动词。（2）加长后条件来排除例外：这样的规则是没有结论的规则，就是为了排除例外的。这样一来，下一条短规则就可以成功，而且没有误抓的困恼了

白: 除非你那已经不是纯FSA了。纯FSA只看当前吃进字符做决策。往后check就相当于LR（k）了。

我: 我的 FSA 从来不是纯的，是 FSA++。这个昨天就说过的，我随时要求我的工程师去对这个 formalism 做很多的扩展，直到他们抱怨影响了线性速度为止。

白: 那就不奇怪了。

我: 在做 NLP 平台过程中，会有很多的各式扩展才好应对自然语言parsing的需要。很多人以为一个标准的 formalism 拿来用就好了，那哪行？也因此，编译器只能是内部自己实现（built in house），而不能使用 off-shelf 的，因为后者你根本无法扩充，也难以优化速度。

雷: LR或RR都是线性的。

白: 对。我还以为发生奇迹了呢。

我: 不是奇迹么？抓到老鼠就是奇迹。

白：套用一句潮话：这不科学呀。

我: 如果标准的 formalism 不能碰的话，那么有经验的设计师与一个新毕业生比，就没有任何优势了。我们说生姜老的辣，就是因为老生姜可以很容易把经验的需要转化成软件的 specs，而新手搞不清如何去定义。白老师，”这不科学啊“ 的批评声音我常听到。一个是来自我太太，在日常生活中，她一个本科生经常对我这个首席（科学家）呵斥，你一点不讲科学！另一个是来自我一个短暂时期的老板，这个老板是学界主流，她看我写的 proposal，说这里面缺乏 science。

我心里说，邓小平也没有 science，他不是把一个大国也治理了。烹小鲜而已。

白: 白猫黑猫拿到耗子都是科学的，狗拿到耗子就略微那个了点，所以澄清不是狗拿的还是很有必要的。

雷: @wei 白老师追求的是形式美。你的是工程美。两者一直你拖我拉的往前走。

我: 狗啊猫啊，是主观定位，无所谓呀，FSA，还是 FSA++，标签而已。我看自然语言是俯视的，成了习惯。太阳底下没有新鲜事儿，因为见到的语言现象太多了。

白: 总是要交流的呀

我: 当然，也不能乱来，前提是任何"不科学"的扩展，不能最后引致灾难：一个是速度的灾难。一个是不可维护、不可持续发展的灾难。如果这两点可以掌控，就问题不大了。对速度我很敏感，愿意为此自我束缚手脚，只要证明某个扩展影响了线性速度的本性，我就投降，然后选择折衷方案。

雷: 抛弃中心嵌套，cfg就是线性的。

我: cfg 的痛点还不是中心嵌套导致的速度问题，根本缺陷在单层，眉毛鼻子一把抓，不分共性与个性，这才是致命的。

白: 我天天玩工程，不过我们的工程师如果突然说他使用了某个形式化机制但其实不纯粹，我还是会跟他较真的。狗肉好吃，不能成为挂羊头的理由。

Nick: 赞同白老师。spagetti对大工程不行。

我: 你们是主流，站着说话不腰疼。不挂羊头, 语言学家早死绝了。我17个政府项目全部是挂羊头得到的。

Nick: 伟哥可能有绝活，不愿说。

我: 绝活有，细节不谈，谈原则。原则就是，你要做精算师或工程师的老板，而不是相反。绝大多数语言学家没这个底气，只能打下手，做资料员。

雷: nlp的难点或苦活不在parsing，而是知识工程方面的整合

白: 上下通气

雷: 呵呵，形象

白: 米国股市里有知识工程概念股么？

顾: 这是大数据啊！Data Thinker可以。。。(此处省略一千字)

Nick: 中国有？

白: 木有。讯飞在往这方面发展，但眼下不是。

我: 挂羊头卖狗肉的故事在这里：《在美国写基金申请的酸甜苦辣》。Quote：

说到含金量，其实很多课题，特别是面向应用的课题，并不是什么高精尖的火箭技术（not rocket science），不可能要求一个申请预示某种突破。撰写申请的人是游说方，有责任 highlight 自己的提议里面的亮点，谈方案远景的时候少不了这个突破那个革命的说辞，多少迎合了政府主管部门好大喜功的心态，但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。（纯科学的研究，突破也不多吧，更何况应用型研究。）应用领域“奇迹”的发生往往植根于细节的积累（所谓 the Devil is in the details），而不是原理上的突破。而对于问题领域的细节，我是有把握的。这是我的长处，也是我提出科研方案比较让人信服的原因。有的时候，不得不有迎合“时尚”的考量，譬如领域里正流行 bootstrapping 等机器自学习的算法，虽然很不成熟，难以解决实际问题，但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作，由于科研的探索性质，最终的解决方案完全可以是另一种路子。说直白了就是，挂羊头卖狗肉不是诚实的科研态度，但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

我: 不挂羊头，必死无疑，生存之道决定的。同意雷司令 parsing 问题解决后，真正的关键在挖掘（知识工程）以及最终建立预测模型。

白：NLP应用场景是很考验想象力的。

我: 非结构数据突然结构化了。面对结构的海洋，传统的数据挖掘需要拓展才好应对。挖掘目前做得很浅，就是 retrieval 里面的一个小东西，凑合事儿。parsing 是见树，mining 才见林。以前没有条件见林子 mining 没有实验基地，限制了它的发展和深入。

昨天与xiaoyun还谈到这个，我们都觉得，哪怕只利用 parsing 的一个部分，譬如只做SVO（主谓宾），理论上也是对所有现存关键词技术驱动的应用的一个颠覆，因为突然多了一个维度。以前所做的不过是 baseline 而已，如今只要有大数据、大计算、大存储，再加上mining，那么凡是关键词技术生存的地方都可以革命，包括搜索、分类、聚合为基础的等等的应用。这个总体趋向是明晰的，条件也基本成熟，现在是考验想象力的时候，然后就是脚踏实地一个应用一个应用的去做

白: 还是要想新的商业模式，革关键词的命，从商业角度未必成立。关键词是拿来卖的，你把人命革了，卖什么？总要有个替代品吧，总不会卖FSA吧。

我: 革命不是杀头，parsing 对关键词，就是爱因斯坦对牛顿。到了语义语用层，关键词，或者叫驱动词（driving words），也是不可或缺的。

Nick: 卖regex到也不见得不可能

我: 抽取挖掘搜索，往往需要两条腿，一条是关键词，另一条就是结构。

如果 regex 可以卖了，离开直接卖 parse 就不远了。

其实我们的 power users 已经开始要求直接用简化的 parse 去满足他的信息需求了。

用户是可以训练出来的。我们整整一代人都被关键词训练过、洗脑过了。以致于当自然语言接口技术刚刚尝试的时候，不少用户抱怨说：关键词多简单，跟机器说话，要自然语言干嘛？

Power users 在简单的关键词之上用 boolean query 的很多，有些 query 看上去又臭又长又难看，不也忍受了。也见到过创业者，就是用 domain ontology 加上 boolean 作为技术基础，也满足了一个 niche market 的需求而生存的。

Nick: 这是说的哪家公司？

我: 两年前在北京调研时候遇到的，名字忘记了。他们一点也不保守，把 query 直接给我们看，我心想这是一目了然啊，很容易复制的。可贵的是，他们先一步找到了那个市场需求，定义了那个 niche market，也找到了客户，后去就是那些 queries 的库不断更新维护而已。

我: @Nick 说，spagetti对大工程不行。Google 搜索是大工程吧，看一下里面的 spagetti： http://blog.sciencenet.cn/blog-362400-804469.html

【相关博文】

朝华午拾：在美国写基金申请的酸甜苦辣

《泥沙龙笔记：铿锵三人行》 2015-10-08

泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索

泥沙龙笔记：汉语就是一种 “裸奔” 的语言

泥沙龙笔记：漫谈语言形式

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-927003.html

上一篇：社媒大数据的困境：微信的风行导致舆情的碎片化
下一篇：【置顶：《泥沙龙笔记》汇总一览】

当前推荐数：8 推荐人：谢平 黄永义 赵凤光 shenlu bridgeneer xiyouxiyou biofans icgwang

发表评论评论 (4 个评论)

删除回复 |赞[4]icgwang 2015-10-11 10:06: ——哪怕是（名）词的层面也要加冠词“定冠”，比较讲究服饰！

删除回复 |赞[3]icgwang 2015-10-11 10:03: 与其说汉语裸奔，不如说西语尸化，是一种尸化后并且入殓了的语言，小词就是入殓的饰品。

删除回复 |赞[2]icgwang 2015-10-11 09:59: no pain no gain ,类的裸式，恰好是语调，重音类在发挥作用的情形．汉字有调性，西语词没有．重音也只在单词层面起作用，没法想汉语句子那样在句子里的单词间游弋循环．

删除回复 |赞[1]xiyouxiyou 2015-10-10 17:01: no pain no gain 还是no pay no gain？我只知道no zuo no die

泥沙龙笔记：《Ruminations on NLP and Communism》屏蔽留存

泥沙龙笔记：《Ruminations on NLP and Communism》

屏蔽已有 1831 次阅读 2015-7-4 00:36 |个人分类:立委科普|系统分类:人文社科| 科普

我的科学网博客，各种专栏，五花八门。但有两个专栏与nlp有关，一个叫【立委科普】，一个叫【社媒挖掘】。一个偏理论，一个偏实践。两个加在一起有200多篇博客了，欢迎各位有闲光临指教。除了nlp，我的专栏【朝华午拾】可以推荐一下，那里多是人生小故事，放在历史的框架下，有传奇味道。

洪:[强]常去读的

Nick:@wei 毛老是用微信写书，你是用微信写博客。洪爷是微信写史诗

刚整理的笔记在：泥沙龙笔记：再聊乔老爷的递归陷阱

毛: 你把这些博客梳理贯通一下，就是挺好一本关于应用语言学的随笔，比方说《Ruminations on NLP》。

已经试图用超链把博文都连接成图谱了。有些差不多成了车轱辘话。跟洪爷的诗看齐，洪爷这么写下去，但凡是大千世界的话题，没有不入他诗的，你说啥，他的诗库里都能找着n个描述。

洪爷博学，无所不诗。我是砖家，只论NLP（Natural Language Processing），这么写下去，只要是NLP的话题，我的库里也都有n个论述，从不同角度反复论，不怕redundancy，因为人的记性很差，只有在冗余的条件下，庶几可以传达。

其实，乔姆斯基和马克思都有这个毛病，车轱辘话反复论。当年看砖头一般厚重的《资本论》大部头，才体会到，同一个论点，原来可以如此反复唠叨。苦口婆心啊。否则如何成事的呢？

马克思的唠叨导致了20世纪的共产革命，席卷了大半个地球，影响了人类的三分之二，持续半个多世纪，牺牲了无数人，也唤醒了无数人。

毛: [偷笑] 你梳理一下，把它们union在一起，不就得了?

早就梳理过了。

梳理在这里：【立委NLP相关博文汇总一览】: 1. 关于NLP方法论; 2. 关于NLP分析; 3. 关于NLP抽取; 4.关于NLP挖掘; 5. 关于NLP应用; 6. 关于 Chinese NLP; 7. 关于NLP的社会媒体大数据舆情挖掘; 8. 关于NLP的掌故趣闻。

够勤勉了吧，这两天去更新一下这个图谱。

余致力NLP凡n多年，其目的在求交流之通畅，信息之自由，语言之归一，世界之大同。积n年之经验，深知欲达到此目的，必须启蒙后进，科学普及，同心协力，共建通天之塔，因作文鼓而吹之。处理尚未成功，同志仍需努力。

丁: @wei 没有共产主义，就没有今天的福利社会，欧美不会像今天那样好

说的是。就是牺牲太大了。
应该可以有一个牺牲较少，也达到资本（商品社会）与福利（社会主义）平衡的社会的途径吧。当然，历史无法假设。

马恩列斯毛，马恩是理论家，理论家永远免罪，思维无禁区。后三位可能就不是那么容易可以免责了，这点与希特勒类似。希特勒也促进了人类进步，第三次大战一直没来，与希特勒给人类的教训有关。共产风和纳粹都是如此。

毛: 牺牲的多少且不论，不公平的是：牺牲的和享受的不是同一群人。天下事最不公平者莫过于杀鸡儆猴。你杀猴儆猴也可，打猴儆猴也罢，干吗要把无助的鸡给牺牲了，而且还一杀就是一大片。

R: 第三次世界大战没来，很大程度上是因为核武器的出现

毛: 核武器的使用倒真是杀猴儆猴，日本人发动战争，就用在日本人头上。

洪: 边听歌剧Doctor Atomic边打油

《尼克松访华》总听，// Nixon in China— John Adams的现代歌剧
爱屋及乌新作寻。
《原子弹博士》也订，// Doctor Atomic
刚刚收到就放映。

奥本海默科学人，
UCBerkeley书生。
二战主持曼哈顿，
一帆风顺核弹成。

婴儿出世不由人，
fatman and little boy两孪生。
奥氏只管造其成，
难管之后其命运。

飞机载孩两次行，
广岛长崎分别扔。
两城变成蘑菇云，
魔力惊骇天外神。

人类暴力级别升，
全然毁灭居民城。
世界大战戛然停，
日本投降签协定。

此后世界无安宁，
笼罩核武恐惧症。
奥氏郁郁志难申，
六十二岁即走人。

奥氏曾告杜鲁门：
科学竟也沾血腥！
反战反核投热诚，
晚年活动为和平。

看一小时天色昏，
全家吃饭要出门。
我就关机按暂停，
另找时间再聆听。

English version at:

"Ruminations on NLP and Communism" 2015-07-04

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-902697.html

上一篇：人机接口是机器人的面子
下一篇："Ruminations on NLP and Communism"

泥沙龙笔记：真伪结构歧义的对策（2/2) 屏蔽留存

屏蔽已有 3054 次阅读 2015-9-21 21:21 |个人分类:立委科普|系统分类:科普集锦| NLP, parsing, ambiguity, 结构歧义, 伪歧义

泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（2/2)

【立委按】读者的反应是，这次笔记是《立委科普》专栏中最深奥的。看得稀里糊涂，不明觉厉。的确，没有专业背景不行，这两篇不算严格意义的科普，当然也不是科唬，而是严肃的探讨，希望对后学和同仁更有价值。

好了，咱们接着聊，第二章：为什么多层系统，尤其是多层 FSAs ，不受伪歧义的困扰？

白: 只要证明毛毛虫以外不是人话，就只管放心玩毛毛虫好了。

头头绪绪，怎么讲好呢？

白: 伪歧义跟规则的递归形式无关，跟规则的词例化水平和压制机制有关。但是，要hold住十万百万量级的规则，CFG一开始就必须被排除在外。

对。

说到底是规则的个性与共性关系的处理，这是关键。这个不是我的发现，我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为专家词典（expert lexicon ）系统，就是因为我们把个性的词典规则与共性的句法规则分开了，并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对，单层的 CFG 基本是死路。眉毛胡子一把抓，甚至所谓词典主义的 CFG 流派，譬如 HPSG 也不能幸免，不出伪歧义才怪呢。如果规则量小，做一个玩具，问题不严重。如果面对真实自然语言，要应对不同抽象度的种种语言现象，单层的一锅炒的parsing，没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合，但是在树本身的选择数目都在爆炸时，这种整合是不能指望的。

可以说得具体一点来阐释其中道理。分两个小节来谈，第一节谈多层系统中，单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制，比如“美国和中国的经济”’。“张三和李四的媳妇”

如果这两种伪歧义都有自然的应对方式，那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦，学文科的，生存下来不容易，各位包涵了。说到现在，从白老师的眼中，都是偏离主题核心了的。

白: 抽象的并列，天然优越于抽象的长短不齐。似乎并不关乎词例，词例化的、次范畴化的规则，都好理解。抽象的结构化压制，处于什么地位呢？

但是难得大家围坐在一起，忍不住借题发挥一下，顺带进一步阐释了上次“上海会面”上的论点：我对乔老爷既爱且恨，爱他批判单层统计派的一针见血；恨他一竿子打翻一船人，敌我不分，重理论轻事实。

白: 是因爱成恨好吧

我们实际上半条身子在统计派的船上，大家都是有限状态；半条身子在语言派船上，毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word，而我们的有限状态是真正的 ngram，这个”gram“ 就是刘老师当年一再强调的 “句素”，是一个动态的句法单位，可以是词、短语或者小句，随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的，因为它反映的是真正的语言学，统计学家天然不懂。

白: 世界上只有深层派和浅层派，这是复旦美女教授教导的。我认为只要touch深层，无论什么派都会殊途同归。

先说单层内部的伪歧义。这个白老师心里应该没有疑问了，不过为了完整还是先讲它。

单层的有限状态说到底就是一个 regex （正则表达式），只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层，面对的单位就是 words （or tokens）。如果是句法关系的解析层，面对的单位就是短语（可以看作是头词，它代表了整个短语，“吃掉”了前后修饰语）。

对于单层，有两种结构歧义，一种是伪歧义，占多数；一种是真歧义，占少数，但存在。单层系统里面的每一条规则都是一个 pattern，一个缩小版的局部 parser （mini-parsing），试图模式匹配句子中的一个字符子串（sub-string）。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。

白: 然后？

这是难免的：因为描述语言现象的规则条件总是依据不同的侧面来描述，每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多，相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分，是那个部分使得 parsing 越来越强大，涵盖的现象越来越多。至于相交的部分，结论一致的规则表现为伪歧义，这是多数情形。结论不一致的规则如果相交则是真歧义。这时候，需要一种规则的优先机制，让语言学家来定，哪条规则优于其他规则：规则成为一个有不同优先度的层级体系（hierarchy）。

白: 在线？

FSA Compiler 事先编译好，是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系，不能初一十五不一样。

个性的现象优先度最高。共性的现象是默认，优先度最低。这个很自然。一般来说，语言学家大多有这个起码的悟性，什么是个性现象，什么是共性。

白: ”张三的女儿和李四的儿子的婚事“

如果优先语感不够，那么在调试规则过程中，语言数据和bugs会提请语言工作者的注意，使得他们对规则做有意义的优先区分，所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity，这是个铁律。在非单调推理中也是如此。

这个优先权机制是所有实用系统的题中应有之意。

优先级别太多太繁，人也受不了。实际情形是，根本不用太多的优先级别区分，只要三五个级别、最多八九个优先级别的区分就足够了。

白: 我还是觉得优先级初一十五不一样的时候一定会发生，而且统计会在这里派上用处。

一切是数据制导，开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义，恰好就落在了原来的伪歧义的区间里面。这时候，虽然有n条规则都产生了 local parses，他们之间没有优先，那就随机选取好了，因为他们之间没有 semantic 的区别价值。

换句话说，真歧义，归优先级别控制，是数据制导的、intuitive 的。伪歧义则随机选取。这一切是那么自然，以至于从业者根本就没有真正意识到这种事情可能成为理论上的困扰。

关于初一15的问题，以及白老师的具体实例，等到我们简单阐释第二节多层之间的伪歧义的应对以后，可以演示。

第二章第二节，多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义，不外是围追堵截，这样的应对策略在开发过程中也是自然的、intuitive 的，数据制导，顺风顺水。围追堵截从多层上讲，可以在前，也可以在后。在前的是，先扫掉例外，再用通则。在后的是先做默认，然后再做修补（改正，patching）。道理都是一样的，就是处理好个性和共性的关系。如果系统再考究一点，还可以在个性中调用共性，这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识，甚至常识（根据应用需要），共性里面就是句法模型之间的变式。

好，理论上的阐释就到此了，接下去可以看实例，接点地气。白老师，你要从哪个实例说起？我要求实例，加问题的解释。

白硕: “中国和美国的经济”。这就是我说的初一十五不一样。

这是真的结构歧义，Conjoin （联合结构）歧义。在语言外知识没带入前，就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义，其他的还有 “的”字结构的歧义。这些歧义在句法层无解，纯粹的句法应该是允许二者的共存（输出 non-deterministic parses），理论上如此。句法的目标只是区分出这是（真）歧义（而这一点在不受伪歧义困扰的多层系统中不难），然后由语义模块来消歧。理论上，句法和语义/知识是这么分家的。但是实践中，我们是把零散的语义和知识暗度陈仓地代入句法，以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

缺省优先由”大数据“定，原则上。统计可以提供启发（heuristics）。

白: 有次范畴就能做出缺省优先。不需要数据。

当然。次范畴就是小规则，小规则优先于大规则。语言规则中，大类的规则（POS-based rules）最粗线条，是默认规则，不涉及具体的次范畴（广义的subcat）。subcat based 的其次。sub-subcat 再其次。一路下推，可以到利用直接量（词驱动）的规则，那是最优先最具体的，包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的，就联合结构而言。但是，about 次范畴，理论上有太多的层。

那是，联合结构消歧中的次范畴不是很好用，因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet，里面的 taxonomy 可以很深，统统用来作为次范畴，不太现实。但理论上是这样使用的。

白: 再一个，“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗？

上例的问题和难点，白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象？

白: 上例是处理深度的问题，各自理解即可。歧义叠加，只有更加歧义了。可是实际相反，叠加限制了歧义。

在分层处理中，我们是这样做的:

（1）Basic NP, 最基本NP层的结果是：NP【张三】的 NP【女儿】和 NP【李四】的NP【儿子】的 NP【婚事】

（2）Basic XandY, 最基本的联合结构层：在这个层次，如果条件宽，就可能发生联合错误，错把【女儿和李四】联合起来。这个条件可以是 HUMAN，二者都符合。而且在 95% 的现象中，这个条件是合适的。如果条件严的话，譬如用 RELATIVES 这个语义次范畴（HUMAN的下位概念），而不是 HUMAN 来限定的话，这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢，这实际上决定于设定的目标，没有一定之规。做细总是可以做到更好质量，大不了多加几层 NP 和 XandY 的模块（FSAs），但还是增加了开发和维护的负担。如果做粗一点，只要所造成的 parsing 质量上的后果能控制在应用可接受的范围，那也未尝不可，因为说到底，世界上没有完美的系统。上帝允许人类的不完美。

雷: 联合类的问题一直是nlp的难点。

白: 把这个换成“AB的中点与AC的中点的连线”？同样的结构。

另一个思路，就是多层协调中的修补。对于上述两个例子，修补的办法似乎更好。与其分多层，代入各种繁琐的语义条件来消歧，不如任他出错，然后根据pattern的平行因素加以修正。在多层系统中，这个常常是有效的策略，也符合开发的总体规划。先把系统大体弄得work了，可以对付多数现象，然后有时间和余力了，后面可以 patching。前提是，错误是 consistent 和 predictable 的。对于多层管式系统（pipeline system），错误并不可怕，只要这种错误 consistent 有迹可循，后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation（错误放大）的难题。其实，多层系统也可以做到负负得正（矫枉过正是也）。一个好的系统设计，是后者，通过 data-driven，可以做到把错误放大控制到最低限度，并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行，太细则边际效益大减。

上例中 “中点与AC” 可以联合，不过是一个暂时的内部错误而已，后面可以修正。总之，这些都不是根本的 challenge，想做就可以做，实际操作上，也可以选择不做。问题大了，就做；用户发飙了，就做；否则就无视。很少有歧义是做不出来的，功夫和细节而已。最终决定于值得不值得花这份力气，有没有这样的开发时间和资源。

白: 做与不做，有可能影响架构选择。补丁有好处也有后遗症。

NLP 可以做一辈子，在基本机制（优先机制，修正机制，范畴、次范畴机制，专家词典等）由平台实现提供以后，慢慢磨到最后就是 diminishing return，与爬山类似，这决定了我们何时罢手。如果85%的精度作为parsing的目标，那么系统会选择不做一些稀有的现象。有了这个 85%，已经可以满足很多应用的要求了。

有了 85% 做底，还可以让机器变得智能起来，自动地自我提高，所谓 self-learning，这是研究课题了，但是是可以实现的。实际上在我指导的实习生实验中已经实现，不过就是不大实用而已。

白: 再看“馒头吃光了”？

这个例子更容易讲清楚,。在系统的某一层，可以有个规则把某种 “V+光" parse 成为动补结构，这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

好，这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例，譬如，”黑洞吃光了“，那么或者修正它，或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则，如果需要的话。至于这么做值得不值得，那是应用层面的决定。很多时候是不必要的。错了就错了，不过是显得系统缺乏专家的知识，so what？

即便是人，也决定于他的知识面，小学生和文盲一般不能正确 parse 理解 ”黑洞吃光“ 的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要，那是语言内的句法知识（最多说是句法子范畴或小规则，但不涉及专业知识），是所有国人的默认理解。

白: 这一点非常重要。一个开放，一个封闭。一个外部，一个内部。

外部的事儿，就算没有专业知识，也可以大数据招呼。

今天似乎可以结束了，说到底，就是

一，平台需要提供一些基本机制来处理共性与个性的关系，从而应对歧义，这些在 FSA formalism 的教科书定义中可能不存在，或被忽略，但却是实用系统不可或缺的。

二，NLP 的确是个力气活，有无限的可能深入。当然，我们可以选择不深入，可以选择何时罢手。

至于大数据招呼，那个在前述的自学习上也必须用到。

雷: 人在语言理解中也会发生许多歧义。如果机器发生的理解歧义同人的歧义，这个反而正常了。

我们教授机器做到 85%，大数据基础的自学习可以让它自行提高到 90%，这个是部分证实了的，可惜还没有发表出来，以前说过，懒得成文。都骨灰级老革命了，谁在乎那个。

雷: 大数据太笼统了。言语理解有太多层了。比如，比喻或隐喻。

白: 他就是要抹平这些层 @雷

我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest，比 PennTree 大好几个量级。

啰里啰嗦，把大家都吓跑了，只剩咱哥仨了？

雷: 这些抹平是暂时的还是永久的？

白: 实用主义的

雷: 同意，实用主义

对。实用主义，就是小平的猫路线。

这次神侃算不算基本回答了疑惑，可以得出 ”伪歧义在多层系统中不是困扰“ 这个结论？

白: @wei 是，非常感谢

不过，我们一方面实用制导，一方面没有忘记基本面和大局。与纯粹的实用主义，头痛医头，脚痛医脚，还是不同。

雷: @wei 这些可以发表在你的博客吗？@wei 许多东西在博客里更好更有指导意义

既然讲了，就博客吧。这种积一辈子挖煤的经验之谈，正式论文中罕见，也算一件功德。

难得的是白老师还有雷司令身为主流精英，居然能一开始就高于主流，不排斥异端或少数派。

所以上次上海聚会，我就说，火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。

白: 可以再关心一下NLP的商业模式，怎么能讲一个好故事。我们说fsa也好分层也好，资本都是不感冒的。

雷: 是，商业模式, 如李长官以前说的，怎么2c，而不是仅仅2b

白: 只要聚焦于深层，一定会殊途同归。

但我知道也有很多统计死硬派，甚至大牛，是不尿这壶的。

白: RNN记在统计账上，但已经是深层了。

滑稽的是发现有些死硬派做了n年NLP，却真地不懂语言学，有个别大牛连常识都不懂，让人跌破眼镜。当然这个只能内部说说，不能博客的。所以往往是互相地不尿对方那一壶，与宗教之战类似。

RNN 我还需要学习，才敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何，我不知道。

可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来，也殊途同归。

其实多层 FSAs 本质上就是 ngram 的花样，不过 gram 不再仅仅是词了，而是等于或大于词的句素。能以动态句素作为 ngram 的对象，是因为多层的原因，跟剥笋子一样，层层扒皮，gram 当然就是动态的了。这一点很关键，是乔姆斯基都没想到的 power。

白: 对，边扫描边归约，边抛出句素。

黄: ngram是简单的统计，这几年也有许多进展，representation learning 算是深度学习在自然语言处理的热点。

这里面最 tricky 的不是机制而是细节。魔鬼在细节，就是指的这个。FSA 是”古老“简单的机制了，细节就是玩平衡，玩模块之间的协调。玩得好的就好比中餐的大厨，可以做出满汉全席来，玩不好的还不如麦当劳、keywords。到这一步，经验因素开始起作用。没碰过n次壁，甚至几万小时的炼狱，这个火候掌握不好。

白: 句素的个头大，影响范围就大，相当于抛得就远。可以进入远距离的滑动窗口，伟哥说的Ngram的缺点就不存在了。

黄: 很多新的模型都试图去capture long distance, sentence, paragraph的依赖关系，这里头可做的事情很多。

这类系统很难做得表面上漂亮光洁，总是在混沌中前行，要忍受不完美。这方面的忍受，数学家不如语言学家。他们天生追求简洁完美，不愿意将就。

白: dirty是必然的

ngram 的缺点是主流的缺点，不是语言多层派的缺点。恰好相反, ngram 多层以后，很容易比任何 CFG 做得细致深入，以至于，想怎么深入就怎么深入, 如果持续开发的话。

黄: 我感觉统计模型的优点之一是在某种程度上加上了semantic，比pure syntactic有很多好处

CFG 那套单层范式，无论统计模型还是传统文法加以实现，真地深入不下去，是框框决定的。两边都玩过，这种对比太强烈了。我对我的博导说过， HPSG 真地不好用，那边费那么大劲的事儿，在我这儿是小菜。说拿的是牛刀，可对象不是牛，而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表（相当于语言的head中心词）之间发生全局相互作用的地方。真是神了。

为世界和平和人类福祉计，统计模型和规则系统一定是要融合和弥补的，in some form。

这个忽视统计的教训我们也有过。如果没有统计的概念，没有大数据的制导，往往拍着脑袋而过度开发，最终是系统的臃肿不堪，甚至报废。我们语言学家是一种可能走火入魔的动物。必须要用数据制导和工程操作规范来制约我们，不能由着我们任性胡闹。

白:飞机要起飞了。关机。到北京再继续。

今天到此，特别谢谢白老师的互动和精彩的及时点评。

黄: 大胆假设，小心求证。复杂模型的威力如果有了海量带标数据没准能发挥。这几年好些统计模型都是老树开花。

黄老师还沉浸在主流的傲慢与光荣中，呵呵。

黄: 不好意思。

当然，任何奇迹都可能发生，就如在图像和语音中发生的奇迹一样。也许 deep learning 在 parsing 方面会有突破。可以想见，很多 DL 研究者正在朝着这个目标奔跑，似乎谁跑得快，谁就可以摘除NLP皇冠上的明珠。

不过这边厢有半个多世纪的传承和几十年的积累，奇迹已经发生了。

我最乐观的预测是，统计的奇迹一旦发生，从功能上也就是多层规则派奇迹的再现。从今后扩展上，也许更具优势？

拭目以待-ing。

乔姆斯基批判

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-922450.html

上一篇：泥沙龙笔记：真伪结构歧义的对策（1/2)
下一篇：【旧文翻新：温哥华，我的梦之乡】

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

当前推荐数：1 推荐人：陈辉

发表评论评论 (4 个评论)

删除回复 |赞[2]李维 2015-9-24 15:35: 一不小心，把我以前的关于有限状态不是确定性状态的回复覆盖了，懒得重写了。总之，有限状态是一个 formalism，用来描写输入串如何模式匹配，而确定性和非确定性（deterministic、nondeterministic）是指的输出结果的形式。

删除回复 |赞[1]srrc 2015-9-21 23:09: 这种方法总觉得离人对语言的理解有偏差，人阅读会有回溯。但很多情况下，读如花园小径句子并不需要重读，可见人脑中本身就有多种后选，这与确定性状态有悖。; 李维回复：有限状态（finite state）不是确定性状态。有限状态只是一个formalism，一个捕捉语言句型和现象的工具，并非不允许不确定的状态。更加接近这个概念的是 deterministic，有限状态的方法并不是天然地输出 deterministic results，虽然实际上还是 deterministic 的过程实用。Non-deterministic 的结果，如果真地需要和有益的话，也还有其他的方法和技巧在系统中体现。

2015-9-21 23:491 楼（回复楼主）赞|回复; 李维回复：微博的一些评论转抄如下：

王伟DL
文章透露着落地的经验（经历）的光泽，不同的人对此文吸收和反射的谱线也会不同。我贪婪地一连看完，很多地方只觉得在理，的确是是是，有些地方也想表己见，却欲辨已忘言。“...指与大语料库对应的 grammar trees 自动形成的 forest，比 PennTree 大好几个量级。",好羡慕这个大块头！大块头有大智慧！

@算文解字:这篇顶级高手对话，充满思想，可以当武林秘籍参悟的文章，竟然没人转。。。强烈推荐啊！

算文解字
依存关系的确更好用//@立委_米拉: (1) 分层是正道。最起码要两层，基本短语层和句法关系层。（2）顺便一提，作为生成结果，短语结构的表达远不如依存关系的表达。短语结构叠床架屋，不好用，也不够逻辑和普世（不适合词序自由的语言）。当然，这后一点是另外的话题了，不仅仅是 CFG vs FSG 之争了。

算文解字
也对，镜老师批评的是用同一层次的规则处理不同层次的现象的"原教旨"CFG生成方法，提出的对策为FST分层处理。而在CFG下用coarse2fine的（分层）策略，也算是殊途同归了。//@沈李斌AI: 没必要排斥CFG。CFG树是生成结果，不是生成步骤。设计好coarse to fine的生成策略，控制每一步的perplexity和recall

2015-9-24 15:242 楼（回复楼主）

《泥沙龙笔记：铿锵众人行，parsing 可以颠覆关键词吗？》屏蔽留存

《泥沙龙笔记：铿锵众人行，parsing 可以颠覆关键词吗？》

屏蔽已有 3661 次阅读 2015-10-10 08:52 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 关键词, 结构, 自然语言

顾: 英语也有省略小词: no pain, no gain.

我: 有了框式结构，语言不仅清晰了，而且灵活了。灵活是因为左右括号如此明晰，以致于可以放宽括号内成分的句法条件。

Nick: 可以处理括号的都是什么自动机？我理论忘光了。

白: 有限状态加计数器，是毛毛虫，可以对付括号，保证线速。

顾: 注意这里主从句之间是逗号，不是问号。我刚才特定去书里查对了没错。

RW: long time no see 是华尔街英语的典范！

我: 还是有个程度吧，汉语小词常可省略，总体上就是一个爱躶奔的东方美女。

顾: 偶爱裸体美女。

RW: 我只在老外和中国人打招呼时听他们说过，没见过他们互相之间用过。因此，我觉得他们没有接受这是一个常规用法。

我: 用语义（隐性形式）当然好，但是不容易写一个形式化的系统去 parse 啊。用小词（显性形式）的话，那就好办多了。

Nick: @wei 白老师问:"我是县长派来的"

我: “的字结构”很讨厌。大体上就是英语的 what-clause 对应的句法形式。但比 what-clause 还难缠，因为该死 “的” 字太 overloaded 了。

雷: 中心嵌套也可以是线性的？

白: 某些可以是，全集不是。比如，a^nb^n，可以线性parse。

雷: 问题是有些text有冷不丁的多层。有些国内的新闻稿有。

我: 举例，看是人话还是数学？

雷: 当然我们可以排除这些极少数。有些翻译有。

我: 用递归回溯对付嵌套，不过是理论上的漂亮，没有多少实践的意义。

白: 记得everybody likes somebody转换成否定式很难搞。基本归到不是人话一类。

我: 不是人话，就不理睬它！语言中要抓的现象那么多，什么时候能轮到中心嵌套？

白: “我是县长派来的”，是人话，还没揭锅呢

白: 我的问题不是翻译，是有限状态木有lookahead能力，局部生成“我是县长”的问题咋避免。

白: 短的规则还在啊。根据哪一条，长的压制短的？

白: 除非你那已经不是纯FSA了。纯FSA只看当前吃进字符做决策。往后check就相当于LR（k）了。

我: 我的 FSA 从来不是纯的，是 FSA++。这个昨天就说过的，我随时要求我的工程师去对这个 formalism 做很多的扩展，直到他们抱怨影响了线性速度为止。

白: 那就不奇怪了。

雷: LR或RR都是线性的。

白: 对。我还以为发生奇迹了呢。

我: 不是奇迹么？抓到老鼠就是奇迹。

白：套用一句潮话：这不科学呀。

我心里说，邓小平也没有 science，他不是把一个大国也治理了。烹小鲜而已。

白: 白猫黑猫拿到耗子都是科学的，狗拿到耗子就略微那个了点，所以澄清不是狗拿的还是很有必要的。

雷: @wei 白老师追求的是形式美。你的是工程美。两者一直你拖我拉的往前走。

白: 总是要交流的呀

雷: 抛弃中心嵌套，cfg就是线性的。

我: cfg 的痛点还不是中心嵌套导致的速度问题，根本缺陷在单层，眉毛鼻子一把抓，不分共性与个性，这才是致命的。

白: 我天天玩工程，不过我们的工程师如果突然说他使用了某个形式化机制但其实不纯粹，我还是会跟他较真的。狗肉好吃，不能成为挂羊头的理由。

Nick: 赞同白老师。spagetti对大工程不行。

我: 你们是主流，站着说话不腰疼。不挂羊头, 语言学家早死绝了。我17个政府项目全部是挂羊头得到的。

Nick: 伟哥可能有绝活，不愿说。

我: 绝活有，细节不谈，谈原则。原则就是，你要做精算师或工程师的老板，而不是相反。绝大多数语言学家没这个底气，只能打下手，做资料员。

雷: nlp的难点或苦活不在parsing，而是知识工程方面的整合

白: 上下通气

雷: 呵呵，形象

白: 米国股市里有知识工程概念股么？

顾: 这是大数据啊！Data Thinker可以。。。(此处省略一千字)

Nick: 中国有？

白: 木有。讯飞在往这方面发展，但眼下不是。

我: 挂羊头卖狗肉的故事在这里：《在美国写基金申请的酸甜苦辣》。Quote：

说到含金量，其实很多课题，特别是面向应用的课题，并不是什么高精尖的火箭技术（not rocket science），不可能要求一个申请预示某种突破。撰写申请的人是游说方，有责任 highlight 自己的提议里面的亮点，谈方案远景的时候少不了这个突破那个革命的说辞，多少迎合了政府主管部门好大喜功的心态，但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。（纯科学的研究，突破也不多吧，更何况应用型研究。）应用领域“奇迹”的发生往往植根于细节的积累（所谓 the Devil is in the details），而不是原理上的突破。而对于问题领域的细节，我是有把握的。这是我的长处，也是我提出科研方案比较让人信服的原因。有的时候，不得不有迎合“时尚”的考量，譬如领域里正流行 bootstrapping 等机器自学习的算法，虽然很不成熟，难以解决实际问题，但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作，由于科研的探索性质，最终的解决方案完全可以是另一种路子。说直白了就是，挂羊头卖狗肉不是诚实的科研态度，但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

我: 不挂羊头，必死无疑，生存之道决定的。同意雷司令 parsing 问题解决后，真正的关键在挖掘（知识工程）以及最终建立预测模型。

白：NLP应用场景是很考验想象力的。

白: 还是要想新的商业模式，革关键词的命，从商业角度未必成立。关键词是拿来卖的，你把人命革了，卖什么？总要有个替代品吧，总不会卖FSA吧。

我: 革命不是杀头，parsing 对关键词，就是爱因斯坦对牛顿。到了语义语用层，关键词，或者叫驱动词（driving words），也是不可或缺的。

Nick: 卖regex到也不见得不可能

我: 抽取挖掘搜索，往往需要两条腿，一条是关键词，另一条就是结构。

如果 regex 可以卖了，离开直接卖 parse 就不远了。

其实我们的 power users 已经开始要求直接用简化的 parse 去满足他的信息需求了。

Nick: 这是说的哪家公司？

我: @Nick 说，spagetti对大工程不行。Google 搜索是大工程吧，看一下里面的 spagetti： http://blog.sciencenet.cn/blog-362400-804469.html

【相关博文】

朝华午拾：在美国写基金申请的酸甜苦辣

《泥沙龙笔记：铿锵三人行》 2015-10-08

泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索

泥沙龙笔记：汉语就是一种 “裸奔” 的语言

泥沙龙笔记：漫谈语言形式

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-927003.html

上一篇：社媒大数据的困境：微信的风行导致舆情的碎片化
下一篇：【置顶：《泥沙龙笔记》汇总一览】

当前推荐数：8 推荐人：谢平 黄永义 赵凤光 shenlu bridgeneer xiyouxiyou biofans icgwang

发表评论评论 (4 个评论)

删除回复 |赞[4]icgwang 2015-10-11 10:06: ——哪怕是（名）词的层面也要加冠词“定冠”，比较讲究服饰！

删除回复 |赞[3]icgwang 2015-10-11 10:03: 与其说汉语裸奔，不如说西语尸化，是一种尸化后并且入殓了的语言，小词就是入殓的饰品。

删除回复 |赞[2]icgwang 2015-10-11 09:59: no pain no gain ,类的裸式，恰好是语调，重音类在发挥作用的情形．汉字有调性，西语词没有．重音也只在单词层面起作用，没法想汉语句子那样在句子里的单词间游弋循环．

删除回复 |赞[1]xiyouxiyou 2015-10-10 17:01: no pain no gain 还是no pay no gain？我只知道no zuo no die

泥沙龙笔记：《Ruminations on NLP and Communism》屏蔽留存

泥沙龙笔记：《Ruminations on NLP and Communism》

屏蔽已有 1831 次阅读 2015-7-4 00:36 |个人分类:立委科普|系统分类:人文社科| 科普

洪:[强]常去读的

Nick:@wei 毛老是用微信写书，你是用微信写博客。洪爷是微信写史诗

刚整理的笔记在：泥沙龙笔记：再聊乔老爷的递归陷阱

毛: 你把这些博客梳理贯通一下，就是挺好一本关于应用语言学的随笔，比方说《Ruminations on NLP》。

马克思的唠叨导致了20世纪的共产革命，席卷了大半个地球，影响了人类的三分之二，持续半个多世纪，牺牲了无数人，也唤醒了无数人。

毛: [偷笑] 你梳理一下，把它们union在一起，不就得了?

早就梳理过了。

够勤勉了吧，这两天去更新一下这个图谱。

余致力NLP凡n多年，其目的在求交流之通畅，信息之自由，语言之归一，世界之大同。积n年之经验，深知欲达到此目的，必须启蒙后进，科学普及，同心协力，共建通天之塔，因作文鼓而吹之。处理尚未成功，同志仍需努力。

丁: @wei 没有共产主义，就没有今天的福利社会，欧美不会像今天那样好

说的是。就是牺牲太大了。
应该可以有一个牺牲较少，也达到资本（商品社会）与福利（社会主义）平衡的社会的途径吧。当然，历史无法假设。

R: 第三次世界大战没来，很大程度上是因为核武器的出现

毛: 核武器的使用倒真是杀猴儆猴，日本人发动战争，就用在日本人头上。

洪: 边听歌剧Doctor Atomic边打油

《尼克松访华》总听，// Nixon in China— John Adams的现代歌剧
爱屋及乌新作寻。
《原子弹博士》也订，// Doctor Atomic
刚刚收到就放映。

奥本海默科学人，
UCBerkeley书生。
二战主持曼哈顿，
一帆风顺核弹成。

婴儿出世不由人，
fatman and little boy两孪生。
奥氏只管造其成，
难管之后其命运。

飞机载孩两次行，
广岛长崎分别扔。
两城变成蘑菇云，
魔力惊骇天外神。

人类暴力级别升，
全然毁灭居民城。
世界大战戛然停，
日本投降签协定。

此后世界无安宁，
笼罩核武恐惧症。
奥氏郁郁志难申，
六十二岁即走人。

奥氏曾告杜鲁门：
科学竟也沾血腥！
反战反核投热诚，
晚年活动为和平。

看一小时天色昏，
全家吃饭要出门。
我就关机按暂停，
另找时间再聆听。

English version at:

"Ruminations on NLP and Communism" 2015-07-04

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-902697.html

上一篇：人机接口是机器人的面子
下一篇："Ruminations on NLP and Communism"

[转载]所谓乔姆斯基大战谷歌Norvig 屏蔽留存

[转载]所谓乔姆斯基大战谷歌Norvig

屏蔽已有 1973 次阅读 2015-6-20 21:51 |个人分类:立委科普|系统分类:观点评述| NLP, 乔姆斯基, chomsky, Novig |文章来源:转载

关于乔姆斯基和统计学习的两种文化（编译） (2013-09-25 08:21:18)

转载▼

标签：乔姆斯基普遍语法人工智能概率模型统计学习

分类：科学与人生

关于乔姆斯基和统计学习的两种文化

原文：http://norvig.com/chomsky.html

作者：Peter Norvig（Google公司研究主管，人工智能专家）

一背景

2011年是麻省理工学院（MIT）建校150周年。2011.5.3-5日，MIT举办了“大脑、心智与机器（Brians，Minds and Machines）”专题研讨会（属校庆系列活动之一）。网址：http://mit150.mit.edu/symposia/brains-minds-machines

研讨会期间有一场主题讨论会（Keynote Panel），题为：黄金时代——人工智能、认知科学与神经科学的发端巡礼

讨论会全程视频：http://techtv.mit.edu/videos/13200-keynote-panel-the-golden-age-a-look-at-the-original-roots-of-artificial-intelligence-cognitive-science-and-neuroscience-

讨论会主持人是哈佛大学心理系教授 Steven Pinker。

参加讨论的人有：

Sydney Brenner, 索尔克生物研究所高级研究员（2002年诺贝尔奖得主，在基因编码领域有突出贡献）
Marvin Minsky, 麻省理工学院媒体艺术与科学教授
Noam Chomsky, 麻省理工学院语言与哲学系教授
Emilio Bizzi, 麻省理工学院脑科学研究所教授
Barbara H. Partee 麻省大学语言与哲学系教授
Patrick H. Winston 麻省理工学院人工智能与计算机科学教授

在讨论会最后，Pinker向Chomsky发问，如何看待概率模型近年来在认知科学领域到处开花的趋势。概率方法在人工智能、认知科学的黄金时代（上世界70-80年代）并不是科学舞台上的主角。
http://languagelog.ldc.upenn.edu/myl/PinkerChomskyMIT.html

Chomsky的回应：
（1）确实有许多研究工作在尝试用统计模型来解决各种各样的语言学问题。其中有一些取得了成功。但是大多数是失败的。

（2）那些取得成功的应用，是因为把统计方法跟语言的基本属性（比如普遍语法的属性）结合起来使然。比如在连续语篇中如何识别单词的边界。

（3）如果不考虑语言的实际结构就应用统计方法，那么所谓的成功不是正常意义下的成功。就科学研究的历史经验来说，这种意义上的成功并非主流。这就好像研究蜜蜂行为的科学家只是对着蜜蜂录像，通过记录蜜蜂的历史行为，加以统计分析，来预测蜜蜂未来的行为。也可能统计方法可以预测得很好，但这算不上科学意义上的成功。研究蜜蜂的科学家并不关心这种预测。

二 Peter Norvig对Chomsky的上述看法发表评论

Norvig的文章探讨了以下5个问题：
1） Chomsky的主要观点是什么？他是正确的吗？
2）什么是统计模型？
3）统计语言模型取得的成绩到底怎么样？
4）在科学研究的历史中，有类似这样的成功吗？
5） Chomsky不喜欢统计模型的到底是什么？

Norvig逐一回答了这些问题。主要内容如下：

（1）

Chomsky的主要观点：
A. Chomsky认为统计语言模型取得过工程意义上的成功，但不关科学的事。
B. 为语言事实建模就像收集蝴蝶标本。科学（尤其是语言学）想要的是基本原则。
C. 统计模型无法理解，并不是关于研究对象的洞见。
D. 统计模型或许可以对一些现象做出精确的模拟，但这是迷途。人们并不根据前面出现的两个单词去预测后面一个单词。人们生成句子（词语序列）的方式是从内在的语义到树结构，再到表层的线性词语序列。
E. 统计模型已经被证实无法用于学习语言。因此语言必然是天生的。用语言模型去解释语言是浪费时间。

Norvig的主要回应：
A. 工程上的成功确实不是科学目标。不过科学和工程是比翼齐飞的。工程上的成功可以作为科学上成功模型的证据。
B. 科学是事实和理论的混合体。理论过分凌驾于事实之上并不可取。在科学史上，不断积累事实是科研正途，并非异类。关于语言的科学也不应例外。
C. 包含几十亿个参数的统计模型确实难以直观理解。个人确实无法核查每个个体参数的意义所在。但是，人们可以通过了解整个模型的特性而获得对于统计模型合理与否的认知：即一个统计模型是怎样有效的，或者为什么无效，它是如何从数据中学到模型函数的，等等。
D. 基于词概率的Markov（马尔科夫模型）确实无法对所有的语言现象建模。这就像没有概率的简单树结构模型无法对所有的语言现象建模一样。我们需要的语言模型是可以覆盖词、树结构、语义、上下文、语篇等等不同层次语言现象的更复杂的概率模型。Chomsky不能因为旧的统计模型的缺点就一概否定所有的统计语言模型。研究如何解释语言（比如语音识别）的人当中，绝大多数人都认同，解释是一个概率问题。当一个语音流到了我耳朵里，要把这串语音流恢复为说话者的意义，是一个概率问题。爱因斯坦说过，让事情变得简单，直到不能再简单为止。许多科学现象都有随机性。最简单的模型就是概率模型。语言也是这样一种现象。因此概率模型是表达语言事实的最好工具。
E. 1967年，Gold定理指出了形式化的数学语言在逻辑推导上的理论限制。但是，这跟自然语言学习者面临的问题毫无关系。无论如何，在1969年，我们就知道了，概率推理不受这一限制的约束（Horning证明学习概率上下文无关文法PCFG是可能的）。我同意Chomsky所说的，人类具有学习语言的天赋。但是我们对如何获得概率化的语言表示，对统计学习，都还缺乏足够的知识。我认为很可能人类学习语言涉及到概率和统计推理，但是我们并不清楚细节。

（2）

统计模型是一种数学模型，通过给定的数据，训练得到。统计模型通常是概率模型，但并不一定如此。二者的区别很重要。

数学模型：一个数学模型是对变量关系的定义。可以用函数形式定义，即从输入到输出的函数。例如：y = mx + b。也可以用关系的形式定义。例如：(x,y) 满足某种关系。

概率模型：描述随机变量的可能取值的概率分布。例如 P(x,y)。概率分布不再是严格的确定的函数关系。比如：y = f(x) 是确定性的函数关系。

训练模型：通过统计推断，在收集的数据基础上，选取最好的模型，通常也就是选取模型的参数。比如上面例子中y = mx + b 这一函数中的参数m和b。通过选取参数的方式来确定模型。

在Chomsky之前，Claude Shannon提出了通信的概率模型，其基础正是单词的Markov链。如果你有一个10万词的词表，考虑一个二阶Markov模型（该模型刻画了一个单词出现的概率如何依赖其前面的两个单词），那么要确定这个模型的参数，你需要10^15这么多的数据（即10万*10万*10万的三维矩阵的数据量）。要学习获得这个模型，就必须收集数据，同时得想办法处理那些不存在数据的位置（即三维矩阵中值为0的那些位置）。大多数（但并非全部）概率模型都是通过参数训练获得的模型。许多训练模型（也并非全部）是概率性质的。

再看一个例子，牛顿的重力引力模型：两个物体之间的吸引力跟它们的质量和距离的关系为：
F = G * m1 * m2 / r^2

这里G是万有引力常量。这是一个训练模型的例子，因为G是由随机试验测定的结果决定的。同时，这又是一个非概率模型（确定性模型），因为它描述了一个明确的函数关系。Chomsky大概不会反对这种意义上的“统计模型”。Chomsky对统计模型的批评主要是针对Shannon那样的需要天文数字那么多的参数的统计模型，而不是只有一两个参数的模型。

万有引力模型还有一个显著特点。该模型是连续的和定量描述的。而语言学中的传统模型往往是离散的、范畴化的、定性描述的。一个词要么是动词，要么不是，并没有关于它的“动词性”（verbiness）的量化程度描述。

还一个相关的概率统计模型是“理想气体定律”（ideal gas law）。这个定律描述了气压 P 跟气体分子数 N ，温度 T ，以及Boltzmann（玻尔兹曼）常量 K 之间的函数关系：

P = N * K * T / V

这个公式是从统计力学的基本原理导出的。它是不确定的、不准确的模型。一个完全准确的模型应该是描述每一个个体的气体分子的运动。但这个模型忽视了单个气体分子的位置的不确定性。尽管它是一个统计概率模型，尽管它不能描述全然的真实情况，但是它对气体的整体状况提供了良好的预测 —— 这种关于气体的深刻洞察是无法通过了解单个气体分子的真实运动状况而获得的。

现在，让我们来考虑单词拼写的非统计模型。有一条著名的英语拼写规则：I应在E之前，除非I在C之后
（I before E except C，参见：http://en.wikipedia.org/wiki/I_before_E_except_after_C）

描述这个现象的概率、训练的统计模型则是：

P(IE) = 0.0177 P(CIE) = 0.0014 P(*IE) = 0.163
P(EI) = 0.0046 P(CEI) = 0.0005 P(*EI) = 0.0041

这个模型是从英语万亿词级语料库（corpus of trillion words）中获取的统计数据（http://norvig.com/ngrams/）。
P(IE) 表示该语料库中的一个单词含有"IE"的概率。
P(CIE) 表示该语料库中一个单词含有"CIE"的概率。
P(*IE) 表示该语料库中一个单词含有"IE"但"IE"不在"C"之后的概率。
P(EI), P(CEI), P(*EI)含义仿此类推。

统计数据表明："IE" 确实比 "EI" 常见（0.0177 : 0.0014)，
"IE" 在 "C" 之后出现的情况确实相对少见，但是 P(CIE) > P(CEI)。
这是跟传统规则相反的。即便在"C"之后，"IE" 仍然比 "EI" 更常见（0.0014 > 0.0005)。
包含"CIE" 的单词例子如：science，society， ancient，species等等。

上述拼写规则的不足是它的精度（Accuracy）不够高。

Accuracy("I before E") = 0.0177 / (0.0177+0.0046) = 0.793
Accuracy("I before E except after C") = (0.0005+0.0163) / (0.0005+0.0163+0.0014+0.0041) = 0.753

更复杂的统计模型可以在拼写检查这样的应用中使精度达到现在的十倍。（http://norvig.com/spell-correct.html）

再看最后一个例子，这个不是统计模型，但是是富于洞察力的一个模型。

高等法院法官握手理论（Theory of Supreme Court Justice Hand-Shaking）：

高院开庭时，所有法官都会和其他法官握手。法官参加人数为n，取值范围0-9。在给定n的情况下，总的握手次数 h 是多少？下面是三个可能的答案：

A. h = n * (n-1) / 2
B. h = Σi = 1 .. n (i - 1)
C. (n, h) 有如下对应表
（0,0) (1,0) (2,1) (3,3) (4,6) (5,10) (6,15) (7,21) (8,28) (9,36)

公式A背后的原理是：每个人跟其他人握手次数为 n*(n-1) ，但这样把“张三-李四”和“李四-张三”握手分别记了两次，所以总握手次数应除以2

公式B背后的原理是：为避免重复记次，先对法官按年龄排序。只记岁数大的人跟岁数小的人的握手次数。

公式C背后的原理是，逐一遍历n从0到9的所有情况，把所有握手次数记录下来，构建n和h的对应表。

有的人可能喜欢A模型，有的人可能喜欢B模型，还有些不喜欢乘法和加法的人则可能钟意C模型。但其实这三个模型说的都是一回事 —— 其实是同一个理论 —— 都是从 n 到 h 的函数，可以覆盖n的所有可能取值。可能A 跟 B模型比C模型更有用。因为前两个模型更一般化，可以应付n值增大的情况。

（3）

统计语言模型取得的成功到底怎么样？

成功在这里定义为：对世界做出准确的预测。

· 搜索引擎：100%的训练和概率模型
· 语音识别：100%的训练和概率模型
· 机器翻译：NIST中排名靠前的系统100%的使用统计方法。一些商用系统使用统计和规则混合的方法。在机器翻译系统可以处理的4000种语言对中，统计方法的系统都表现更出色，除了日语-英语之间的翻译。对于日-英机译系统，最好的统计机器翻译系统跟混合系统的表现相当。
· 问答系统：研究尚不成熟。多数统计和概率方法的系统使用搜索引擎来实现问答。IBM的Watson系统完全是概率和训练模型。Boris Katz的START系统是混合系统。所有的系统都至少使用了一些统计技术。

再看一些计算语言学家感兴趣，但不是用在终端用户的技术：

· 词义消歧： SemEval-2比赛中排名靠前的系统100%使用统计技术。多数是概率模型，一些使用概率模型加知识库（例如Wordnet）规则的混合模型。
· 指代消解：主要的系统都是统计方法。 Haghighi and Klein的系统是混合系统，其中规则方法比训练模型更重要。该系统的性能跟统计方法的系统相当。
· 词性标注：主要的系统格是统计方法。Brill标准器是混合系统。它从统计数据中学习确定性的规则。
· 句法分析：大多数成功的句法分析系统是统计方法的，主要是概率模型。

显然，说统计模型在语言处理方面所取得的成功有限，是不准确的。事实是，统计模型在语言处理的各项任务中，已经取得了压倒性的优势。

另一个视角是看研究人员的态度。在计算语言学家中，统计方法已经成为被接受的主流方法。（Norvig自己在经历了14年的规则方法后转向概率方法）

上述理由可能会被视为是“工程视角”，那么，接下来，就来看“科学视角”吧。

（4）

在科学史上，统计模型有过成功的先例吗？

Chomsky认为，科学史上罕有统计模型的成功例子。
Chomsky的意思是，“精确的模型化这个世界”在科学研究中是罕见的。科学史上的成功标准是，提供对世界的解释 —— 事物为何是它现在这个样子，而不是描述它怎样成为这个样子。也就是说，科学关心的是why的问题，而不是how的问题。

科学的词典释义是“通过观察和试验，对物理和自然界的结构和行为的系统研究”。就这个定义而言，科学对why和how的问题是并重的。看一看《科学》（Science），亦可以达到以管窥豹的效果。Norvig随机地从《科学》中选取了一篇文章的标题：

Chlorinated Indium Tin Oxide Electrodes with High Work Function for Organic Device Compatibility （具有高功函数的氯化铟锡氧化电极的有机元件兼容性）

（科学杂志文章地址：http://www.sciencemag.org/content/332/6032/944.abstract）

这篇文章关注“精确地模型化世界”胜过“提供对事物的解释”。

Norvig翻检了一期《科学》杂志的全部标题和摘要，另外也看了一期《细胞》杂志。还有2010年诺贝尔物理学奖、化学奖、生理和医学奖的工作。

结论是，这些研究工作100%的重视“精确地模型化这个世界”胜过“提供对这个世界的解释”。Norvig同时也承认，分辨这二者并不容易，这是一个没有清晰定义的问题。
Norvig甚至还考虑把这个问题抛给土耳其机器人（Mechanical Turk）来回答。不过有朋友告诉他这实在是太难为机器人了。

（5）

Chomsky不喜欢什么样的统计模型？

统计模型跟概率模型常常难分彼此。Chomsky反对的是概率模型。

Chomsky（1969）写道：必须认识到，“一个句子的概率”是完全没有用的概念，不管在什么意义上，这都是一个没用的概念。”

Chomsky（1957）写道：
我认为……概率模型没有对句法结构的基本问题给出有意义的解释。

Chomsky的依据可以用下面的例子来说明：

1） I never, ever, ever, ever, ... fiddle around in any way with electrical equipment.
2） She never, ever, ever, ever, ... fiddles around in any way with electrical equipment.
3） * I never, ever, ever, ever, ... fiddles around in any way with electrical equipment.
4） * She never, ever, ever, ever, ... fiddle around in any way with electrical equipment.

无论句子中的ever重复多少次，都不影响1、2是合语法的，而3、4是不合语法的。因此，一个n元马尔科夫概率模型在碰到句子中的ever个数超出n值的时候，就分不清1跟3或者2跟4的区别了。概率马尔科夫模型对英语的描写因而是有限的。

这个批评没错。但这只是对马尔科夫概率模型的批评，并不意味着所有的概率模型都因此而要遭到同样的批评。从1957年到现在，已经发展出许多概率模型。上面这4个例子，可以用有限状态模型来描述。此外PCFG（概率上下文无关文法）可以有更强的能力。PCFG比单纯基于范畴的上下文无关文法更容易学习得到。每一个概率模型实际上都是一个确定性模型的超集（superset）。后者只不过是将概率值严格地限定为0、1二值而已。对概率模型的合理的批评必然是因为它们表达能力过强，而不是因为它们的表达能力不够。

在《句法结构》一书中，Chomsky提出了一个著名的例子，同时也是对有限状态概率模型的一个批评：

（a）colorless green ideas sleep furiously （无色的绿色思想狂怒地睡觉）
（b）furiously sleep ideas green colorless （狂怒地睡觉思想绿色无色的）

尽管a、b的任何部分都是未见于历史上的任何英文文献的，但a是合语法的，b是不合语法的。

就整个句子而言，Chomsky显然是正确的。但说到句子中的“部分”，则并不尽然。下面是一些部分出现的例子：

· "It is neutral green, colorless green, like the glaucous water lying in a cellar." The Paris we remember, Elisabeth Finley Thomas (1942).
· "To specify those green ideas is hardly necessary, but you may observe Mr. [D. H.] Lawrence in the role of the satiated aesthete." The New Republic: Volume 29 p. 184, William White (1922).
· "Ideas sleep in books." Current Opinion: Volume 52, (1912).

撇开关于“部分”的争议不说，实际上，基于统计训练的有限状态模型可以区分上面a、b两例。Pereira（2001）就提出了一个这样的模型，在增加了词类信息后，对新闻语料进行期望最大化的参数训练，计算结果是例a的概率是b的概率的20万倍。为了说明这不是因为这两个句子在新闻语料训练得到模型中有如此区别，Norvig用Google图书语料库（1800-1954）的训练模型重复做了计算，结果是例a的概率为例b的10万倍。如果可以在树结构的基础上计算，则对句子“合语法性程度”的估计效果会更好。而不是像Chomsky提出的基于范畴的语法那样，仅仅只是区分“合语法/不合语法”。

Chomsky对统计模型的另一个异议是，儿童在只有10^8秒的时间里，如何学习10^9那么多的参数（实际上，现在的统计模型的参数已经远远多于1960年代的10^9这个数量级了）。

确实，没有人会提议，儿童学习这些参数是一个一个学的。正确的假设是，那些接近0的参数是批量学习的（就像割韭菜一样，一刀下去一茬尽在手中），而那些高概率值的参数则随着观察数据的不断增加而持续更新。没有人认为马尔科夫模型是对自然语言的一个严肃的模型。但是，概率化的训练模型可以比范畴化的无训练模型更好地表达自然语言。

一个自然语言的科学理论必须正视这样的事实，母语者对很多短语和句子的合语法性，也有拿不准的时候。因此，概率模型可以比范畴化的形式语法模型做的更好。比如：

1） The earth quaked.
2) ? It quaked her bowels.

quake这个动词一般在词典中都标记为不及物动词（intransitivie）。因此，根据基于范畴的形式语法模型，上面例1是合语法的，例2是不合语法的。

但是，例2这样的句子又确实有这样的用法。于是基于范畴的形式语法模型就陷入了两难的困境。接受例2和排斥例2都有问题。像这样的问题，在概率语法模型中，就不存在困难。只需要说quake的不及物用法是概率很高的用法，及物用法的概率很低就可以了。

Steve Abney还指出过，概率模型用于对语言变化建模，也更有优势。

Norvig指出，看起来，合语法性并不是范畴化的、确定性的判断，而是概率性的。花时间观察真实语料中的例句是值得的，与此同时，通过内省自己的语言直觉来研究合语法性，也无不妥。观察和直觉在科学研究的历史中并不相悖。只不过，从来都是观察，而不是直觉，在科学研究中占据主流地位。

Chomsky对统计模型的异议主要来自“精确描写”和“科学解释”之间的对立。达尔文对生物学的研究以富于深刻的洞察而著名。但他更强调“精确描写”的重要性。达尔文说“错误的事实对科学研究的进程是有伤害的，而且会有长期影响。但有少量证据支持的错误的观点对科学研究的伤害要小得多。”物理学家费曼也说“物理学可以不需要证明而进步，但没有事实则不可能进步。”

三两种文化

2001年统计学家Leo Breiman发表了一篇文章《统计建模：两种文化》（Statistical Modeling：The Two Cultures）。(Leo Breiman是加州大学伯克利分校统计学教授http://www.stat.berkeley.edu/~breiman/）

一种是数据建模文化（data modeling culture）。
一种是算法建模文化（algorithmic modeling culture）。

前一种文化的要点是：自然界可以被看作是一个黑盒子，有相当简单的模型把输入数据跟输出数据对应起来（在这个过程中，可能有随机的噪音掺入）。统计学家的任务是选择一个基本的模型，可以反映自然界的这种真实的数据对应关系。

后一种文化的要点是：自然界的黑盒子不一定能靠简单的模型来描写。复杂的算法（比如支持向量机SVM、决策树、深度信念网）可以估算出从输入数据到输出数据的函数，但是，我们不能期望这样的函数形式可以反映自然界的真实本质。

大约98%的统计学家是前一种文化的拥趸，2%的统计学家和许多其他领域的研究者（特别是研究复杂现象的学者）支持后一种文化。

Chomsky着力反对的是后一种统计文化。不是仅仅因为这样的模型是基于统计的（或基于概率的）。而是因为这样的模型宣称是对现实的精确刻画，但却不易被人解读。同时这样的模型没有对自然的生成过程做出解释。换言之，算法建模只是描述了发生了什么，但没有回答为什么会这样的问题。

Breiman在文章中解释了他为何反对第一种文化（数据建模）。基本上，基于数据建模得到的那些结论都是关于数据的，而不是关于自然本身的（Norvig在2000年听火星登陆计划负责人James Martin说过，他作为太空工程师的工作不是登陆到火星上，而登陆到由地质学家提供的“火星模型”上）。问题是，如果模型对自然的刻画不够好，那么由这些模型得到的结论就可能是错的。比如，线性回归（linear regression）是统计学家的百宝囊中最强大的工具之一。因此，许多分析都从“假设数据是由线性模型产生得到的……”开始。如果数据实际上不是由这样的线性模型产生，那么对实际模型应该长什么样就会缺乏足够的分析。此外，对于复杂的问题，往往有许多不同的好的模型可供选择，它们对数据的适应性相差无几。统计学家如何做出选择呢？Breiman想说服我们放弃这样的信念：我们可以得到关于自然的模型的唯一形式。如果我们能得到一个模型，该模型可以对观测数据做出很好的解释，并且能对未出现的数据做出不错的预测，我们就应该感到很满意了。Chomsky则走上相反的一条路：他更喜欢简单的优美的模型，因此而放弃能很好地刻画数据的模型（这样的模型在数学上可能是很复杂的）。Chomsky认为数据（他称之为语言表现 language performance）是不能作为语言学的研究对象的，语言学真正面对的对象是语言能力（language competence）。

2011年1月份，电视名嘴Bill O'Reilly 因“潮起潮落，你如何解释”而掀起争议。他是信上帝的。反对者嘲笑他不知道潮汐现象可以用太阳、地球、月亮的引力作用来解释。这个解释最早是1776年由Laplace提出的。当拿破仑问Laplace为何在他的解释中造物主没有一席之地，Laplace说，“我不需要这个假设。”O'Reilly似乎也不知道Deimos和Phobos等等其他关于太阳系的天文知识。不过，O'Reilly却不以为然，批评者认为他在天文学方面的无知并没有什么了不起，因为他的支持者们认为他直接触及到了更本质的问题——为什么（Why）？他不关心潮汐怎样（How）工作。他要问的是，它们为什么工作。为何月亮在恰当的距离来制造美妙的潮汐。为什么引力这样工作？等等等等。O'Reilly是对的。这些问题只能靠编造故事、宗教或哲学来回答，科学回答不了这样的问题。

Chomsky的哲学理念是：我们应该关注深层的“为什么（why）”，只是解释表层的现实是不够的。在这个意义上，Chomsky其实跟O'Reilly是同路人。Chomsky相信语言理论应该简单且可理解，就像线性回归模型那么简单，我们需要做的，只是估计斜率和截距。

举个例子，考虑著名的 pro-drop（代词脱落）语言（这个概念来自Chomsky 1981)。英语中，可以说 “I'm hungry” 但是在西班牙语中，同样的意思要说“Tengo hambre”（字面上相当于：have hunger），代词（主语）Yo 脱落了。Chomsky的理论是，语言系统有一个 pro-drop参数。该参数的取值，在西班牙语是“ture”（真），在英语是“false”（假）。如果我们可以找到描述所有语言的为数不多的参数，并且确定每个参数的具体取值，我们就真的理解了语言。

问题是，语言的现实比这个理论要杂乱得多。下面是英语中pro-drop的例子：

· "Not gonna do it. Wouldn't be prudent." (Dana Carvey, impersonating George H. W. Bush)
· "Thinks he can outsmart us, does he?" (Evelyn Waugh, The Loved One)
· "Likes to fight, does he?" (S.M. Stirling, The Sunrise Lands)
· "Thinks he's all that." (Kate Brian, Lucky T)
· "Go for a walk?" (countless dog owners)
· "Gotcha!" "Found it!" "Looks good to me!" (common expressions)

语言学家可以为如何解释上面这些现象争个没完没了。但语言的多样性似乎远比用布尔值（true or false）来描述pro-drop参数值要复杂。一个理论框架不应该把简单性置于反映现实的准确性之上。

从一开始，Chomsky就把注意力放在了语言的生成性上。从这个方面来说，非概率性的理论是合理的。如果Chomsky把注意力放在语言的另一面“理解（解释）”上，如同Claude Shannon所关注的那样，Chomsky或许会改变他的说法。在“理解”这一面，听话人需要对收到的信号进行消歧，决定哪种可能的解释概率最高。这很自然地会被看作是一个概率问题。语音识别的研究者如此看待对语音的解释。其他领域的研究解释的科学家也是如此。天文学家Laplace在1819年的时候就说过：“概率理论只不过是让人们的常识能够计算。”

Chomsky不喜欢统计模型，还有一个原因。因为统计模型会让语言学成为一门经验学科，而不是数学。而Chomsky更喜欢把语言学看作是数学。Chomsky（1965）：“语言学理论是心理的，关心的是比实际行为更基础的心理现实。观察语言的实际应用或许可以提供一些证据，但是并不能构成语言学的主题。”

无法想象Laplace会说，观察行星的运动不能构成轨道力学的主题。

物理学家会研究理想的、从实际世界中抽象出来的力学（比如忽略摩擦力），但是这并不意味着摩擦力不能成为物理学的研究主题。

语言是复杂的、随机的、不确定的生理过程，受到进化和文化变迁的影响。构成语言的不是一个外在的理想实体（由少量的参数设定），而是复杂处理过程的不确定的结果。因其不确定性，用概率模型来分析语言就是必然选择。

转载自： Yankee_Tootle的博客
中文原文：http://blog.sina.com.cn/s/blog_591858120101bhpi.html
英文原文：http://norvig.com/chomsky.html

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-899452.html

上一篇：泥沙龙笔记：从乔姆斯基大战谷歌Norvig说起
下一篇：Parsing nonsense with a sense of humor

当前推荐数：0

发表评论评论 (1 个评论)

删除回复 |赞[1]陈辉 2015-6-21 09:14: 黑字+暗背景有利于阅读

泥沙龙笔记：聊聊 NLP 工业研发的掌故屏蔽留存

泥沙龙笔记：聊聊 NLP 工业研发的掌故

屏蔽已有 7109 次阅读 2015-6-27 22:17 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 自然语言

泥沙龙笔记：把酒话桑麻，聊聊 NLP 工业研发的掌故

尼克介绍的那个讯飞语音输入，简直是神器，向我们的语音同行，脱帽致敬。相信语音是统计的天下。Nuance作为源头的爱疯Siri和讯飞的语音，都快登峰造极了，叹服。

两年前 Nuance 语音以上，要往 text NLP (Natural Language Processing) 发展，找过我多次，作为他们新实验室头儿的候选人。互动了很久。这要是进去，可不是就进入了统计学家和精算师们的海洋，虎口啊（笑）。精算师们的头脑里压根儿就想不到统计外还有其他。

后来他们把老革命家Ron Kaplan 从微软 Powerset 挖去，做了他们这个部门的头儿。Ron 是 PARC实验室的老将。早期 FSA 算法研究的推手（之一）。他们当时的电脑硬件的限制，对线性和效率要求极为苛刻。他津津乐道的就是当年怎么在最苛刻的硬件条件下，做出名堂来。后来他想让我做他的副手，毕竟他老人家比我还老，希望找一个能带队伍打仗的。我们相谈甚欢，有很多共同语言，因为他也是规则派，线性派，也做过 deep parsing，有很多共同的感受。

这里面涉及NLP的一些掌故，就索性在这里说说。大家都知道的是，施乐的PARC实验室是世界上最著名的IT发明创造的发源地。他们有本事招揽天下最优秀的科学家和天才发明家，但没本事开发产品，都是为他人做嫁衣裳。于是成就了乔布斯，乔布斯又成就了微软，如此等等，才有我们今天的电脑和IT大业。

这件事儿对施乐很刺激。于是十五六年前，PARC 决定尝试肥水不外流。自己 spin-off 一些 start ups, 对 PARC 的成果做技术转移和产品孵化。其中搞NLP这块的，就spin off了一家叫做 Inxight 的公司，大家应该听说过，那是工业界的NLP leader。PARC 名声大啊，除了自己投资外，吸收其他投资也不难，前后圈了10+轮风投。他们在 PARC FSA（有限状态自动机）研究的基础上，推出一个 LinguistX 的平台，从浅层开始做起，Stemming, POS，NE，多语言。FSA 特别擅长 stemming （主要是削尾）和 morphology（词法分析），就是对词的各种分析。

这样唠叨下去，太慢，还是要长话短说。

总之是，一开始还不错，因为搜索引擎市场里面，做多语言的都要stemming，他们也就有了一些客户。可是世界上有多少家做搜索引擎？以前百家齐放还好，后来天下归一就难了。

雷: 如果可能，希望短话长说

总之是，NLP 做平台的，做 component technology 的，很难在市场生存发展。Inxight 在融资10+轮后，终于撑不住了。那些当年雄心勃勃要在工业界掀起NLP革命的Inxight的创始人们（四个创始人，我认识三位），也都跟我差不多，随着这个行业一同老去，还是看不到希望。（我个人算幸运的，先是赶上了世纪末的大跃进（互联网泡沫），如今又赶上了大数据，似乎见到了NLP真正的工业曙光）。

RW:@wei component technology 很难生存，这句话到位

他们也真能，圈了那么多钱，终于无疾而终。白菜价卖给了 SAP。

高科技的事情大多如此，一旦被巨头买下，科技创新就死，然后就是不了了之。

毛:不奇怪

见过很多这样的。这 Inxight 进了 SAP 就是如此。这里面的故事非常 telling，因为若干年后 SAP 与我现在的公司达成战略伙伴，要用我们的social这块。开始接触的时候，我说，你们的 Inxight 呢，不是听说后来也做了 sentiment 吗，而且是 NLP leader 出身啊。进一步接触才明白，那叫一个天壤之别。将别三日，江河日下啊，廉颇老矣不能饭，不足道也。

回头再说这 PARC，Inxight 虽然不成，这个“上世纪的技术” FSA 并没死，前仆后继者还有。Component technology 很难活，但是从这个源头，还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset，Ron 是拿它做 parsing，向深度进军。另一家是BASIS，现在还活着，在旧金山，只做 stemming，多语言，那是向广度进军。

Powerset 其实很值得赞佩，因为他做的parser工业最靠谱（除了在下的外，呵呵）。但是钱要烧完了. 总得有个产品啥，它没有。只做出了一个技术 demo，证明 parsing 对搜索有用，比关键词高一筹。概念上证明了，关键词做不到的搜索，NLP parsing 是有用的。

RW:那怎么活？@wei

Nick:@wei powerset我还较熟悉。powerset现在还在吗？

还在，但跟死了一样，头儿和主要技术人都走了，技术本身基本也没融入微软产品。

Parsing 对搜索的好处是精准，因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司，关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问，就可以整出非常漂亮的结果。行内叫做 SVO search（主谓宾支持的结构化搜索）。结果一定是漂亮的，因为把句法结构加入了，微软必须是主语，并购必须是谓语，那么出来的结果就不会不干净。SVO 就是parse的主干，主谓宾，语言学叫 argument structure，是 parsing 的核心结构。

当时，Powerset 钱快烧完的时候，还想不出来做什么产品，Ron 的团队着急了。嚷嚷着超越Google，可是只有个高效的parser，没法说服人啊。于是想到，找一个什么不大不小的对象开刀合适呢，因为 parsing 是有成本的。他们口口声声，是要做下一代Google，取代关键词搜索。Google 最多是牛顿，Powerset 要做爱因斯坦。

这些宏观上的忽悠，完全没有问题，因为原理没错，parsing 是 keywords 的爱因斯坦，可是工程上有成本的考量啊。结果他们想了一招，拿 wiki 开刀。wiki 当时的那个量，还比较合适做demo，Ron 于是在互联网的大海找到了这么一滴水。

Nick:@wei 这是何时的事？

六七年前吧。他们于是把wiki parse 了一遍，做了一个 demo 给大家看，蛮impressive，于是，微软就买了。他们也算善终了，至少投资人没亏，小赚一笔。微软的心态，是不管三七二十一，只要宣称能取代Google 的技术，先拿下再说，管他消化得了消化不了。因此 Powerset 比 Inxight 的风投结果好，至少没有贱价出售。如果 Powerset 错过了微软这个冤大头，那就比Inxight 还惨。

RW:是不是最终又给微软毁了？

微软当然毁了它，比SAP 还不如。

Nick:貌似powerset还做search整合，把好几个搜索结果拿来从他们这过一下

前几年我做多语言deep parsing项目，招人的时候，去 Powerset 挖到一位，很能干的。本来高高兴兴做 parsing，是从 PARC 被 Ron 带出来的，后来微软吃掉后，被分配去做 query 的分析。query 在搜索是啥,不就是两三个词的组合么,一个做语言语法分析的人,现在必须抠那几个词，为了一些细琐的需要（应用上自然很重要），简直郁闷极了。这位其实懂很多欧洲语言，也有电脑素养，我挖他过来做大数据的语言分析，他自然很开心。Ron 不乐意了，曾明着跟我说过。可他也没法，他自己勉强在微软帮助支撑了两三年，最后还是去了 Nuance，祝他在 Nuance 可以开一个新局面。

Nick:parsing完再搜索vs搜索完parsing，哪个效果好？

这都扯到哪里了。这些掌故说起来一大车，包括当年的 Whizbang！那可是名校计算机主任亲自出来领头做的NLP 公司啊，特别擅长网页layout的机器学习，从中做信息抽取，最后比我的前一个公司 Cymfony 结局还惨。世纪之交高科技泡沫破灭，我们挺住了，开发了产品，他们的3000多万的投资人却中途撤资了，最后各种技术贱卖，100万即可买到所有的源码和技术说明，先找到我们，说是最适合的买主，我们当时没精力消化这些，后来是Inxight买了。

雷: 说起来话长，故事好听

再往前的掌故还有Answerlogic问答系统，也是在上一轮 bubble 时候闹腾得特欢的NLP 公司。钱烧完了，就完了。

RW:这句话经典！[微笑]

所以说，这 NLP 要做成，不容易。不是技术不到位，技术参差不齐，但是优秀的引擎（精准、鲁棒、高效）是已存的现实。我敢打包票。

RW:是不是有ahead of the market 之嫌？@wei

技术不是问题（笨蛋不算，你要是找到一个只会忽悠的笨蛋，那是 due diligence 太差，怨不得人）。

Nick: 嗨，老套路，骂别人是为了夸自个。

可不，卖瓜王爷。不过，那也是客观事实，内举不避己，不能因为自己能就偏要说不能，最后还是要系统说话。

当然，这玩意儿要做好（精准达到接近人的分析能力，鲁棒达到可以对付社会媒体这样的monster，高效达到线性实现，real time 应用），确实不是一蹴而就能成的。这里有个n万小时定律。大体是，NLP入门需要一万小时（大约五年工龄），找到感觉需要两万小时，栽几个有意义的跟头需要三万小时，得心应手需要四万小时，等你做到五万小时（入行25年）还没被淘汰的话，就可以成精了。那是一种有如神助、如入无人之境的感觉，体会的人不多。打住。

高精的NLP技术虽然很难，但技术的确不是问题，问题在于产品。从 NLP引擎 mapping 到产品或产品的 features，这里面有千百种组合，哪种组合能在市场上站住，到目前为止基本是盲人摸象的过程。

RW: 否则不叫风投

为了减少盲目性，产品经理和制定产品策略的老总至关重要。

高技术公司的产品老总在宏观上了解NLP的潜力，同时深谙市场的卖点，了解客户的需求和痛点，可以具体制定产品和产品features的specs给 NLP developers，只有这样合作才能成事。

回尼克的问题, parsing 和搜索的关系。parsing 完再搜一定是效果好的，因为搜不到就backoff 到关键词。你可以肯定高于搜索，问题是成本。搜索完再根据情况调用parsing，也是可行的。

Nick:我就是这个意思。我印象当年powerset给我看的demo是先搜后parsing。

但是这个问题，更准确的表述应该是，一个query来了，有个 routing 的process，这个 routing 可以包括局部搜索探路，也可以包括其他的策略，总之是，应该可以找到一类 query，这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应，而结构最拿手的。如果这个子集能大体确定，那么 parsing 在互联网搜索上是大有可为的。其实，目前的搜索巨头，在利用 parsing 的路上走得太慢。原因我不清楚，但是明显是利用不够。话说回来，如果巨头都能那么灵活，也就没有小公司的活路了。

Jing:用户量大了后用户的历史行为就间接人肉parsing了。

历史行为那是另一个侧面和角度，可以满足信息需求的一个部分。历史行为确实也等于间接利用了人工的parsing的结果，因为人在选择点击阅读某个网页的时候是扫描理解（parse）了链接上的标题的。但那不能涵盖 parsing 所能起的全部作用。

Jing:query understanding包括这个步骤。你前面提到的那个分去做query的哥们完全可以做这个呀

query understanding 是非常重要的一个环节，可是做的人痛苦啊，两三个词玩不出语言学的名堂来，没意思。做 text 的人面对的是整个互联网。query 是语言中的一个分子，那种感觉是不一样的。

【相关博文】

泥沙龙笔记：从乔姆斯基大战谷歌Norvig说起 2015-06-20

乔姆斯基批判 2015-06-15

把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-901032.html

上一篇：“运动”损伤与体重有很大的关系
下一篇：权利？义务？说说“父亲们休产假”的事儿