分类： 杂类

【开复老师说：AI 是最好的时代，也可能是最坏的时代】

【校长对话录：向有道机器翻译同仁致敬】

校长:
因为缅因州法条文少了个逗号，牛奶公司吃官司付出500万美金：

Maine law requires time-and-a-half pay for each hour worked after 40 hours, but it carved out exemptions for: The canning, processing, preserving, freezing, drying, marketing, storing, packing for shipment or distribution of: agricultural produce; meat and fish products; and perishable foods. What followed the last comma in the first sentence was the crux of the matter: "packing for shipment or distribution of." The court ruled that it was not clear whether the law exempted the distribution of the three categories that followed, or if it exempted packing for the shipment or distribution of them. Had there been a comma after "shipment," the meaning would have been clear.

原来我这些年学的都是假英文

不过法庭favor劳工，就已经甩天朝几万条街了。在那片国土，只有高端人口才可以随意耍流氓。。。

李:
“缅因州法律规定，在40小时后，每小时的工作时间为1.5美元，但它却为:罐装、加工、保存、冷冻、干燥、销售、储存、包装运输或分发农业产品提供了豁免。肉类和鱼类产品;和易腐食品。在第一句话中最后一个逗号是问题的关键:“包装运输或分配。”法院裁定，不清楚该法律是否豁免了随后的三种类别的分配，或是否豁免了对其装运或分销的包装。如果在“装运”之后有一个逗号，意思就清楚了。”

这是有道翻译，比像我这样的英语专业生在时间压力下去翻译这段，要强多了。顺便向有道同人致敬一下，他们超越了名震天下的谷歌翻译。谢谢他们提供的免费服务，我经常用它，其实是愿意付费的。MT 连同互联网，与水和空气一样，成了不值钱的必需品。

“1.5 美元” 是一个巨大的错译，应该是一倍半加班费的意思，神经机器翻译的错译问题已经是一个被反复曝光的痛点，在追求顺畅（达雅）的同时，牺牲了精准（信）。

我是这么看机器翻译走向的：

（1）机器翻译一定会译错，所以认真使用前需要核对。
（2）核对所花时间比一切靠人翻译节省太多人工了。翻译员市场萎缩以后，大批译员会退出，少量留存的是那些知道善用机器的核对员，这个工作不会被取代：核对校订的需求永远存在。
（3）机器翻译本身在进步，明天的错应该比今天的少。
（4）论顺畅机器越来越赶上或超越人因为机器是在海量数据里面找 norm，而一个个体，无论学了多少年的外语，都是有限的语言接触，偏离 norm 的可能远大于机器，因此更容易生硬，尤其是在时间压力下。我本人偏好顺畅，更甚于精准，因为翻译错误我一眼可以看出来做译后编辑，但顺畅我老感觉自己还有很多力不从心的时候，需要机器帮助。自己常觉得写不顺，但评判顺不顺还是容易很多。因此，翻译工作先交给机器，然后自己校订，无论纠错，还是找出个别不顺达的细节，都容易很多，因为苦活累活机器做了。

校长:
@wei 有道翻译可以免费用么？amazing!

李:
http://fanyi.youdao.com/
try it yourself
天下真有免费午餐的。

有道的傻瓜式袖珍翻译器大约100多美元可以买一台周游世界的时候用。

校长：
@wei 我靠！你没感受到同行竞争压力？

李:
感到压力的应该是讯飞。他们也出了个翻译器，好像很贵？
这个行业整体提升了，保持领先已经很难。巨头谷歌也不能。

我早跟MT说拜拜了，前几年还较劲，觉得统计MT鲁棒是鲁棒，意思也勉强可以出来，但出来的译文惨不忍睹，想着有空怼一怼统计。神经翻译出来后，基本熄灭了狂妄，顾左右不言他，反给它做宣传，吹喇叭了。(【谷歌NMT，见证奇迹的时刻】) 当然，任何技术都有短板（行话叫知识瓶颈），譬如进入一个没有人工翻译大数据可以学习的领域，神经系统就抓瞎了，譬如电商数据的机器翻译目前的可用度不到 30%（相比较：在新闻领域，机器翻译的可用度高过90%），就是说几乎完全不可用。

校长:
正确选择
典型的乱拳打死老师傅

李：
AI 这次炒热其实是有群众基础的，不完全是媒体鼓噪和精英忽悠。一个是神经机器翻译，一个是语音识别（如讯飞的自动速记和语音输入），还有一个是人脸和图像识别，这三块儿的进步，不是忽悠，而是现实。还有一个对话，从苹果的 Siri 开始，虽然还有磕磕绊绊，虽然绝大多数普罗还是拿它当玩具，落地应用的产品多不成熟，但 Siri 还是启蒙了大众和教育了市场。这些都是普罗百姓可以亲眼见证和切身体会的科技奇迹。这些个东西激发了草根的想象力。于是，AI 热在民间还是很时髦正面的形象。

留个证据图以防哪天系统退化（虽然是小概率事件：但马斯克昨天说科技并不自动进步逆水行舟不进则退它举的是航天技术在 SpaceX 前停滞不前反而退化的例子） MT奇迹不得重复。先防着别人怀疑假造，说不可信：

校长:
本来就是不进则退。很多科幻片里面未来都是破破烂烂破铜烂铁。就是天上一堆飞船在shithole上面飞。我认为那更接近未来的发展方向。

李：
那个是科幻，对科幻，no comment

今天，领导在网上查看 IKEA 网页上的商品，问几个单词怎么讲，我说以后不用问我了，我给你的 iPhone 装了有道，比我强多了，还 handy，可她懒得查词典。我说，你不用查，拍个照就行了，打开 app 有个“拍照翻译”的按钮。wow：

挑错永远可以挑，能做到这么贴心、intuitive，乔布斯再世，也不过如此了。

Guo:
@wei 真要给你泼泼冷水了。哈，也不能太不顾事实啊。“复习空气”，完全不搭啊。这可是连“流畅”也不及格的。打住吧！

李:
还有 39.9克。

原文是:
Airy, soft seersucker duvet covers with a naturally crinkled texture. The beautiful cotton fabric breathes and feels cool against your skin, which is extra comfortable during warm summer nights.
Size: Twin

这玩意儿我不查词典也翻译不了，特别是第一句。领导以为我是英语大拿，这辈子没少拿这些东西问我，我哪里记得住这些家庭主妇关心的“领域词汇”啊？每次我被问住了，形象分就损减一分，一辈子下来，在家里我这英语专家的光环已经消磨殆尽了。呵呵。

郭:
看看微信自带的翻译：

轻盈、柔软的泡泡纱被套，具有自然的皱褶质感。美丽的棉织品呼吸和感觉凉爽的皮肤，这是特别舒适，在温暖的夏季夜晚。
大小：双胞胎

李:
不错不错。这就是我说的，这是整个行业的技术提升，不是哪一家可以专美的了。语音、图像和MT。

$39.99 翻译成 39.9克原来是因为 OCR 识别成 39.9g 了哈。实在说，9 跟 g 长得的确差不离儿，加上在数字后常见，也是事出有因。可惜了前面那个 $ sign 的痕迹。

哈，领导以前迷信我是英语大拿，这辈子没少拿这些东西问我，我哪里记得住这些家庭主妇关心的“领域词汇”啊？每次我被问住了，形象分就损减一分，一辈子下来，在自家这英语专家的光环已经差不多消磨殆尽了。呵呵。

回过来想，以前我们常常赞佩的那些大学问家过目不忘，词汇量超大，现在想来算啥，再大也比不上一个小U盘，脑子里被词汇填满，实在有点浪费。反正随身有iPhone，iPhone 里面有【有道】，有道不仅有本地词典，还可以接得上云，脑袋是无限延伸了的。可是托福 GRE 还在考那些稀奇古怪的词，明知道好不容易记住了，考完了，还是会忘掉。跟不上时代啊。

这个也好玩请看：

这张截屏里头两句很顺最下一句莫名其妙：原因是我不小心按了英语的话筒说的却是汉语哈哈。这岂止是垃圾进垃圾出啊。但它一本正经给你匹配完全错位的语音也不设个置信下限一样翻译出莫名其妙貌似顺畅的句子来。

“英语按钮” 转写成 “英语的二牛”（为什么不是二妞呢），继而翻译成 English two cattle.

有道自己做的翻译器却把自己的品牌名“有道”，在英语读出来一个古怪的读音哈。我说的是 “这个我得反映给有道”，成了“这个我的反应跟有道理”，考虑到我的口音，难为它了，倒也情有可原。

下面的实验是读一段英文新闻

翻译基本没问题。

接着到文学城找一篇中文新闻，读给它听：

不可思议地顺畅精准，甚至那些百分比那些数字也能“听懂”我的口音。

有点吓倒了。老革命心脏也不都好。

最后是我阅读的新闻的网页截屏有兴趣可以自己对照一下。

这一切是在我这种普通话不标准有口音干扰的信道中发生的。错误放大理论会说这种翻译是完全不可能的，见证的不是奇迹，只能是AI魔术。

想起来谁说过的名言：“NLP 不是魔术，但是，其结果有时几乎就是魔术一般神奇。”

【相关】

【谷歌NMT，见证奇迹的时刻】

【立委随笔：猫论，兼论AI福兮祸兮】

有道的机器翻译（http://fanyi.youdao.com/）

谷歌翻译 https://translate.google.com/

有道的机器翻译（http://fanyi.youdao.com/

【开复老师说：AI 是最好的时代，也可能是最坏的时代】

李:
李开复老师最近发文说：
“据我估计，大约一半的工作将在未来十年消失。在全球范围内，人工智能和机器人将很快被人工智能和机器人取代。这一巨大的挑战给一种叫做“普遍基本收入”的旧观念注入了新的活力。在这种观念中，政府为每个公民提供稳定的津贴，不论他们的需要、就业状况或技能水平。”

这就是我前几天说的，AI福兮祸兮很难定（【猫论，兼论AI福兮祸兮】）。因为人类对工作（job）的情结，以及社会观念和按X（劳、资、权等）分配的制度，都受到很大挑战，不一定来得及适应。

Ming:
这的确是大趋势，但未来十年有些夸张了吧

李:
是不是10年不好说，但AI取代人类很多工作是肯定的，其取代速度肯定比人类的观念改变和社会制度的适应要快很多很多，因此最坏的时代不完全是危言耸听。这跟霍金马斯克之流说 AI 自主思维控制人类，完全不同。前者不仅是危言耸听，而且匪夷所思，尽管出自名人大嘴。后者却是真切的人类自身的威胁，AI 不过是 trigger。

开复老师继续说：

“那么，我们应该盲目地给每个人1万美元吗?绝对不是。”

“乐观主义者天真地认为，UBI将成为人们专业重塑自我的催化剂。但是，只有当硅谷的领导者们把他们自己的角色投射到所有将要被转移的工人身上时，UBI才有意义。事实上，如果我们谈论的是一个成功的硅谷企业家，他或她的技能、创业、经验和网络可能成功地帮助将一个中等的UBI收入转化为下一个科技帝国。但这种情况肯定不会发生在那些生活在失业会因传统经济衰退而加剧的地区的失业工人身上。”

“免费发放给失业工人的钱可能会意外地帮助一些人找到工作，但更有可能的是，他们很快就会找到一份新的工作，而且很快就会被淘汰。这是我们在整个劳动力市场看到的一个熟悉的模式。曾经在工厂装配线上工作的卡车司机很快就得再次学习，成为其他的东西。大多数失业的工人不会有远见预测哪些职业会在人工智能革命中幸存下来，因此不知道如何最好地使用UBI货币来确保未来的稳定。”

Qing:
硅谷的领导者们真把自己当颗葱了

李：

下文是：“我们必须共同努力，找到一个全面的解决方案，包括建立新的职业、价值观和社会规范，而不是重新分配现金，并希望得到最好的结果。我们需要重新培训和适应，让每个人都能找到合适的职业。这里有五个必要条件:

1 保证生存。

首要任务是建立和支持项目，以确保没有人挨饿或没有住房和基本的卫生保健。”

这第一条是同情论，就是说，知道你没用，但必须养着你跟养pets同理，这叫人道。作为基点是对的，但总觉得观念上有点不对。

首先被养的“没用的”人，并不是被其他同类或组织养。这个观念必须改变。如果相信人生来平等的天律，生来平等的本义至少包括我们赖以生存的地球上的原始资源应该人人有份。“没用”的人实际上是让出了自己的原始资源，给了社会去用来创造财富（或保护环境，譬如决定闲置），财富部分回流给他们（基本生存在现代社会，比起出让的资源来说，微不足道，其实经济上不参与价值创造的人其实是“亏”了），天经地义，没有“被养”的问题（硬要算谁养谁，那是精英阶层被大众的资源所支持产生出来的巨大社会财富养到富得流油：天平是往精英阶层倾斜，远远谈不上对普罗的平等）。

Qing:
以人类这个操性，多半还是要打一架的

李：
“2 最大化创造性的工作。

只有人类才能创造和提出新的创新。人工智能今天不能跳出框框思考，它只能优化由人类定义的问题。因此，在早期教育中，我们必须确保系统不会抑制好奇心、创造力、批判性思维和个性。在中学和高中，我们应该增加对有天赋和有才能的项目的资助。在大学里，我们需要帮助有创造力的学生学习人工智能工具的程序。”

行:
布热津斯基的奶嘴理论

李:
这第二个说法是，在可能被养的人群中，通过优化教育的机制，百里挑一找出“精英”去养人（做管理者、参与生产），如此延续社会的科技进步和财富创造。

“3 增加社会就业机会。

爱不能表达爱和移情，也不能建立不可替代的社会关系——只有人能。与那些不容易被教授的创造性职业不同，人们可以在大量的社会职业中接受培训。此外，我预计人工智能将产生数万亿美元，消费者支出将随之增加，并将用于民间服务。

这意味着需要人类接触的服务工作——社会工作者、治疗师、教师和生活教练——将会供不应求。此外，新的社会工作将会被发明，在这个过程中，人类将成为顾客和人工智能之间的中间人。例如，当使用人工智能诊断工具时，一位医疗顾问可能帮助病人排除故障并提供补充建议。其中一些工作甚至会得到很高的报酬。”

就是说大都去做服务性工作？很多服务机器人做得更专业：譬如按摩椅比平庸按摩师更具有优势。但总有顾客与机器人之间的”中间人”和“协调人”（或随机应变性）的工作在？

Qing:
做好多手准备吧

李:
“4 鼓励唯意志论。【貌似译错】

我们需要建立更多的志愿者项目来帮助那些对高技能职业兴趣不大的退休和失业工人。我们还应该考虑补偿志愿者。”

“5。重新定义的职业道德。

每个人都需要有一种自我价值感和自我实现感——他或她相信他或她的存在是有意义的。不幸的是，工业革命错误地灌输了一种社会规范，即自我价值应该主要来自于职业道德——如果你努力工作，你就会得到回报。但是因为人工智能，基于重复性任务的工作很快就会消失。”

“我们需要重新定义新的劳动力范式的职业道德观念。一份工作的重要性不应仅仅取决于它的经济价值，而应由它对社会的贡献来衡量。我们还应该重新评估我们的观念:延长工作时间是获得成功的最佳途径，应该消除与服务行业相关的耻辱。”

“即将到来的人工智能革命将带来最好的时代或最坏的时代。结果将取决于我们是否会被天真的乐观主义所陶醉，或致力于全面解决问题。显然，UBI是不够的。我们要认真、迅速地进行辩论。只有到那时，这场神奇的革命才会引领我们走向创造性的复兴。”
（原文在《华尔街邮报》由有道现场翻译。）

第五点很有道理：工作所带来的荣誉感和高人一等的自我感觉需要被新的观念取代否则 AI 时代会重复工业革命时代的悲剧：在越过温饱线以后，社会财富越增长，人类的多数人越不幸福。

行:
一开始社会（部落）的发展水平由50%的人的水平决定；
工业社会由10-20%的决定；
20世纪由1-2%的决定；
21世纪后由0.00001-0.0001%的决定；
其余的一部分从事辅助工作；越来越多的从事非效率性工作。

李:
如果说工业革命时代财富的增长至少减少了忍饥挨饿的人群在“生存权”层面上改善了人类，多少弥补了精神上不幸福和焦虑。

到了 AI 取代工作时代，前者的优势不复存在，因为基本上已经没有人忍饥挨饿需要改进。那么其副作用一面即引起更多的焦虑痛苦则被放大。所以 AI 福兮祸兮，看来是祸更大。因为人类社会适应的速度没有科技进步的速度快。这就是开复说的可能是最坏的时代。

行:
不会
工业时代的大多数人肯定比贫困的农业时代的人幸福。

李:
从挨饿到吃饱饭，肯定增加了幸福感，这是飞跃性增加，没有疑问，生存权是最基本的。但如果都不挨饿了，失去工作感觉到自己无用无价值就是纯粹增加痛苦。

行:
满血打怪去。回复到，戴着乌纱帽，骑着小毛驴，吟诗作画的悠闲文人时代。

李:
以上议论过程里，我顺便做了一个AI现场实验：开复在华盛顿邮报这篇是英文，我用有道的机器翻译过来（http://fanyi.youdao.com/），未加修饰，看来以假乱真，也基本不影响我们的阅读、领会和讨论。这是真实世界的AI剥夺翻译员工作市场的一个鲜活实例。搁以前，翻译这篇文章，怎么也得半天时间。

行:
现在任何一台机器都可能取代了过去几百万人的工作，人因此失去工作了吗？

一个人的功率小于一马力，0.75千瓦。现在一台百千瓦，万千瓦的机器比比皆是，兆千瓦的机器也不希奇，人不还得更卖命的工作？！只是不要在上述邻域试图跟机器比大小。

关于技术进步，我有两个观点：一是圈圈理论。即圈圈越大，边界越大，遇到要解决的未知问题越多。二是水舟理论。技术如水，人类在舟。水涨船高。

AI作为一种技术，概不能外。不要自我感觉太好！只是大部分要承认天才和自己的无能。就象你围棋下不过柯洁又咋了？

技术进步像马克思说的，给人真正的自由发展创造了条件。只是之前人的发展重点是解决效率问题，今后人的自娛自乐互娱互乐，甚至与机器人娱乐可能成为产业前沿。

李:
摩登时代我们看到了两个极端：一个是失业的痛苦；一个是在业的忙得要死过度竞争高度紧张随时面对失业的威胁。二者都是幸福感的反面。正常的、合理的社会不应该是这样的。

工业社会解决不了的这些后工业时代可以解决吗？

Ming：
理想情况下，应该研究一下技术进步速度与社会人类幸福感之间的关系，从而寻求一个最佳的发展模式和速度。但现在国家的界限还未消除，不同国家，不同意识形态之间还有竞争。竞争之中，当然是技术进步越快越有优势。在这种情况下，无法奢谈对技术进步的控制。

李：
这就是我说的，也许AI应该缓行（虽然知道缓行不了，人类的一切大多是命定）。

行：
现在的技术进步不是很大程度解决了血汗工厂和高比例失业问题吗？摩登时代预言的地狱并没有到来。总体上，更快的速度和幸福感正相关。正象中国最长寿的地区是雾霾重重的北上广，而不是所谓的长寿之乡巴马之类的地方。

【相关】

华尔街邮报李开复原文

【立委随笔：猫论，兼论AI福兮祸兮】

【猫犹如此，人何以忧，霍金之论谬矣】

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

【NLP答问：关于parsing 和自然语言理解】

【立委按】人工智能热潮下，进入自然语言领域的新人也随之增多。新人的好处是喜欢问问题。于是有了答问。

新人:
读过您的parsing方面的系列博文，parsing 及其落地应用的种种，很有意思的领域。把 parsing 这一块做好就非常 exciting 了，能落地就更棒啦

答:
必须落地。否则站不住脚。parsing 做好根本不是问题，已经做了N次了，been there done that（【谷歌SyntaxNet是“世界上最精确的解析器”吗？】）。NLP 是个力气活，但不是看不到头的活儿。达到接近专家的水平是验证过的。落地有所不同，落地需要找到切入点，需要有一套领域化的有效方法。

力气活指的是迭代：就是不断的迭代，每天迭代10次，一年就是3600次。设计思想和框架机制对路了，剩下的就是不断地根据数据制导，去修正系统，保证走在正路上，避免或尽可能减少 regressions，终会达到彼岸。

新人:
力气活是真的，我之前做 NLU badcase 分析，后来能看到准确率确实在上升。我相信迭代的力量。

现在的 parser 已经足够好了吗？您博客中提到的休眠唤醒机制，世界知识的引入，非确定性表达的问题都已经解决得差不多了吗？

答:
还没有，时间和人力的投入不够，一切重起炉灶，系统架构更加合理科学，但血肉不足。没关系，目标导向，急用先做。有些来不及做的，先放在那里。

新人：
想起您博客中各种奇怪的例子

答:
那是刁难系统的，多是语言现象的犄角旮旯，其实不值得太花力气。古怪的句子的好处是测试鲁棒性（robustness）或者测试有没有补救措施（backoff），主要精力还是应该花在统计性强的常用句子身上，不能被长尾牵着鼻子走。

做中文 parsing 特别让人兴奋，比做英语等要有意思多了，后者太缺乏挑战性了。

新人：
嗯，中文本身很有魅力

答:

看上去一个字符串人看着都头晕，如果能自动 parse 出结构来，很让人开心的。

新人：
“看上去一个字符串人看着都头晕”这句感觉对 parsing 挺难的？

答:
不妨试试：

这个当然有问题，但很容易修正。现在的序列是：NP，CL，AP，这个 CL 是一个插入语，最后的结果应该是在NP与AP之间建立主谓关系，把插入语附加上，就完美了。（CL 是 clause，M 是定语，R 是状语。）修改后的结果：

这个结果还合理吧？

新人:
是不是把“看上去”作为RP，就能fix之前的问题了？

答:
主要还是带有插入语性质的 “NP人看着（都）AP"，插入语“人看着”是 RP（副词性短语），“看上去”也是RP，但在句首，好办。

新人:
如果去掉“看上去”，整个句子是“一个字符串人看着都头晕”，改之前的 parser 能解析正确吗？

答:
不能，因为没有处理好这个插入语。与“看上去”无关。插入语在语言中是很有限的表达法，迟早可以穷尽，原则上不是问题。

你以前做过什么parsing有关的工作？遇到过什么挑战？

新人:
之前做parser的离合词这一块。例如“吃了一顿饭”这样的结构，可以从语料中很容易统计到，例如“吃不吃饭”这样的就相对少，只能靠观察。当时是这么做的。首先从研究离合词的论文里找出一个两个字的离合词列表，例如'AB'。然后用'A.*B'在语料中筛选句子，对选出的句子做pos，然后统计'A.*B'中间'.*'的部分的pos组合，但是“吃不吃饭”这样的结构在词性标注的时候就没法搞定了。

答:
这不是简单的离合，而是夹杂重叠。A不AB，是一个相当普遍的现象，对于所有 V+N 离合词都有效的。退一步，V不V 也是一个确定的选择疑问句式。

“对选出的句子做pos，然后统计'A.*B'中间'.*'的部分的pos组合”

做POS 后，你在统计什么？

新人:
当时的需求是，判断"AxxxB"是不是词“AB”的离合现象。因为想提高泛化能力，所以想从语料里产生词性级别的pattern，比如“吃了一顿饭”对应的pattern是“v u mq n”（限定 v 和 n 是单字）。比如“吃不吃饭”词性标注的结果是“吃_v 不_d 吃饭_v”，从词性的层面就不能用“v d v”来匹配了

答:
那两个v是重叠，需要unification机制的，单看POS，根本没戏。如果只是统计 POS-序列，没有什么意义，

新人:
做完了才发现，确实没什么意义。。

答:
是啊，因为就是一个动宾结构，这个 POS 序列，与 NP 中的修饰语序列应该是一致的。

新人:
当时就我一个人在瞎做，都是我拍脑袋想的方法，比较挫

答:
这个不用做统计，就可以想见的。

新人:
能想出来的是有限的呀，肯定有想不到的情况。。

答:
离合词不难处理，它是搭配的一种。搭配现象的本质都是词典的搭配规定与规则的实例化（instantiation）的机制，就是词典与句法需要平台机制上有一个灵活的接口。英语的短语动词 take NP off；put NP on；subcat 句型中对 PP 的 P 的要求（borrow sth from sb），汉语中量词与名词，这些都是搭配现象。

"能想出来的是有限的呀，肯定有想不到的情况。" 但那不是离合词的问题，那是 NP 的问题。NP 当然有很多种组合可能，拍脑袋是想不全的。所以要数据制导，要迭代。类似你上面的语言调查，也是一种。所有的语言现象，不仅仅是NP，都需要数据制导。都有想不到的序列。不过从 POS 序列着手，是远远不够的。POS 太粗，根据 POS 做 NP 或做其他现象，最后都是窟窿。

新人:
是的，最后做了个字+pos 的规则

答:
字太细，POS 太粗，加在一起，抓了两头的确会好很多。但是从字到 POS 中间还有很多，譬如【human】以及类似的一整套的本体概念网络（ontology）可以利用（譬如董老师的《知网（HowNet）》）。

新人:
【human】是什么意思？

答:
譬如 “演员”，“总统”，“那家伙”，。。。。就是语义概念标签。【human】是最常用到的标签了，比 N 细线条一些，比 “演员”这些关键词是粗线条了。所以说，一个系统不能光靠最粗的POS分类，也不能光靠最细的关键词，还需要语义概念的 ontology。

新人：
引入语义造成的歧义问题，是用句法来解决吗？比如“演员”是一首歌名

答:
引入并不造成歧义。要是有歧义，那个词不引入也还是歧义的。与引入无关。引入语义只会增加词的信息量，多一些可利用的手段。不是因为引入，所以需要消歧。歧义如果需要解决，也是那个词本身需要这么做。但很多时候，歧义是不需要解决的。

{演员 N}，这里有两个信息：（1）演员（2）N。{演员 N 【human】【song】}，这里多了两个信息。原来没引入之前，我们根本不知道 “演员” 是什么，不是什么。现在引入语义以后，我们至少知道了 “演员”不是人就是歌。它不可能是其他的1000种可能性，譬如起码，演员不是【furniture】，不是【sentiment】，不是【location】。所以引入新的信息不是增加歧义了，而是大大缩小了歧义的可能性。

新人:
明白了

答:
至于区分歌与人，那个任务叫 WSD，很多应用可以绕过去不做。我写过一篇，说的就是 WSD 很难，但绝大多数应用不需要做（【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）。

新人:
说实话我不是对 parsing 感兴趣，是对自然语言理解感兴趣，我想知道通用自然语言理解的道路在哪里，但是也不知道往哪个方向发力。

答:
parsing 与自然语言理解有什么不同？为什么对后者有兴趣，对前者无所谓？什么叫理解呢？

新人:
以前我一直觉得 parsing 和分词一样，是一种基础的组件。然后我觉得常识才是自然语言理解的核心。不过看了您讲文法和常识的那篇博客（【立委科普：自然语言理解当然是文法为主，常识为辅】），最近也在重新思考这个问题

答:
parsing 强调的是对语言结构的理解，WSD 强调的是对词的理解。粗略的说，语言理解至少包括这两个大的方面。既要知道这个词对应的是什么概念，也要知道这些概念在句子中表达怎样的关系。其实后者更重要。纲举目张啊。做一条项链光有珍珠不成，更需要的是串子，好把散落的珍珠连起来。

新人：
我说下我对自然语言理解的粗浅的想法啊。比如“我喜欢吃苹果”。从句法上很容易就能解析出来，但是计算机通过什么方式才能理解“我喜欢吃苹果”和“我讨厌吃苹果”的区别？虽然能通过词典知道“喜欢”和“讨厌”是不同的概念，那么要怎么这两个概念有什么方向什么程度的不同？然后要怎么表示这种不同？

答:
然后怎样呢？你前面的话没说完啊

新人:
我也不知道要怎么理解这种不同啊。确实，没有句法是不行的。

答:

1 计算机根本没有什么理解不理解。说计算机理解了人类，那是胡扯。说计算机不理解，也是高抬了机器。人类意义的“理解”根本不适合机器。

2. 所谓自然语言理解，那只是一个比喻的说法，千万不要以为电脑能自主“理解”（或者“不理解”）人类语言了。

3. 所以，自然语言理解的本质就是把语言表达成一个内部的数据结构，根据这个结构，比较容易地落地到应用所需要的方向去。譬如情感分析的应用需要区分正面情绪（如 “喜欢”）和反面情绪（譬如 “厌恶”）。

4. 换句话说，所谓理解，不过是人跟人自己在玩，与电脑智能没一毛钱的关系。

5. 既然是人自己跟自己玩，那就要看一个系统的内部表达（所谓理解）的设计能不能用有限的表达和逻辑，去捕捉无限的语言表达方式；能不能根据这个表达和逻辑，达到（或模拟）人在理解了语言之后所产生的那些效应。譬如人看了一句话可以判断是什么情感，情感的强烈程度，谁对什么产生的情感，等等，因此可以得出舆情分析的结论，计算机可以不可以也达到类似的分析效果？

6 因此脱离应用（理解以后的效应）谈理解，很难。应该通过应用来验证所谓理解。

7 所谓端到端的系统，就是直接模拟应用：里面的过程是黑箱子，叫不叫理解无所谓。

8 符号逻辑派的先理解后应用，不过是用人可以理解的方式把这个理解到应用的过程，透明化。透明化的好处，比较好 debug，可以针对性解决问题。这是黑箱子系统的短板。如果有海量带标（应用效果的标注）数据，黑箱子的好处是可以很快训练一个看上去很不错的系统。如果没有，标注数据就是一个令人生畏的知识瓶颈。

新人：
我是一直从类似微软小冰那种对话系统来考虑自然语言理解，所以不太能接受seq2seq的对话生成系统…

答:
闲聊系统，因为人的对话无时无刻不在进行，理论上有无穷的带标数据，其实可以训练出很好的以假乱真的闲聊机器人的。一个 MT ，一个闲聊，这两个应用具有天然的海量数据，是少有的知识瓶颈不严重的应用方向。多数NLU应用没有这么幸运。所以不得不组织成千的标注队伍，还是赶不上应用现场的变化中的需求。

新人:
MT 感觉和闲聊机器人还是不一样？闲聊机器人的系统在单轮的时候可以以假乱真，但是在多轮的时候基本都不能维持对话的连续性。

答:
多轮的挑战可能还是源于稀疏数据，这是因为虽然对话的数据是海量的，但是从 discourse 的角度看一个完整的对话篇章，数据就可能很稀疏了。每个对话都是一个特定的话题，以及围绕这个话题的对谈序列。从话题和对谈序列的角度来看，数据就不再是海量的了。突破口应该在对于不同对话序列从篇章脉络角度做有效的抽象，来克服稀疏数据的短板，学会篇章的应对技巧，easier said than done，这个显然有相当的挑战性。篇章（discourse）向来是计算语言学中最不容易形式化的部分。

新人:
我个人觉得如果是通用/闲聊场景，即使有海量数据，对话的话题和序列还是很可能大部分和可获得的数据集的不一致。

答:
那自然，组合就会爆炸。爆炸了当然数据就稀疏了。

新人：
很多场景还是有办法细分成小的垂直场景，然后通过在系统设计上做一些功夫来达到一个比较好的效果的吧？

答:
垂直当然有利多了。垂直了，就成了子语言，很多歧义也自动消解了。垂直了，就聚焦了，剩下的歧义也就好办了，词驱动（word-driven）也有了发力的场景。

【相关】

【立委科普：自然语言理解当然是文法为主，常识为辅】

【谷歌SyntaxNet是“世界上最精确的解析器”吗？】

【语义网笔记：本体与知识图谱之辨】 – 立委NLP频道

【与董老师对话：什么是知识图谱？】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题，并分享给各位。面对层出不穷的新生术语和流派，董老师谦逊为怀，不耻下问，让我受宠若惊。我的来自实践的一些粗浅见解，岂及知识大师董老师学问之万一，不胜惶惶。董老师是我一辈子最仰慕的前辈导师，他的逻辑语义学说（逻辑语义及其在机译中的应用）是我入行的导航，他的《知网》（HowNet）是探索人类知识体系结构和常识表达的一个丰碑，其价值必将超越时间和流派（参见我写的《语义三巨人》）。在很长的时期，董老师是中国计算语言学界的旗帜和对外交流的大使，是中国第一个把机器翻译系统推向大规模实用的先驱（“译星”）。30年前在中关村高立公司兼职搞MT研发的时候，我就有幸与董老师在一起半年左右，当面聆听教诲，受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系，开始酝酿《知网（HowNet）》，酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍，终成正果。我出国前不久，那是1989年风波前夕，中国自然语言界在香山开了个研讨会（年会？），我的导师刘倬先生与董老师在会上就NLP所做的对话，人称“刘董对话”，成为大会热议的主题，此段掌故仍记忆犹新，【立委小传】中有记叙。如今董老师80高龄，离而不休，依然在自己家里亲自上线做系统，深入探索自然语言句法和语义解析，其精神令晚辈高山仰止。

91年出国前在高立合影留念（右下1是董老师，2是我，3是刘倬老师，4是高立CEO）

董:
请给我点启蒙：为何叫”gragh“了？不叫”KB“或”ontology“了。why Google called it "graph"? What does it mean by "graph"?

李：
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google. Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题--知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例，来说明：在什么情况下必须用到知识图谱了，然后该系统就调用了只是图谱，于是就解决了那个难题了。这样我也许能理解了，也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子他是怎么炒热这个概念的。

搜索每个人都用，你给一个关键词，它回给你一系列文章的链接，这些文章与之相关，用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾，实际上，越是长尾罕见的关键词query，效果往往越好，这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多，搜索的是实体名，譬如明星，VIP，好莱坞大片或世界500强。对于这类搜索，返回相关文章序列让人看，实在太粗糙了。

于是，他们事先把相关信息结构化、组织好，相互链接，存在某个地方，起了个名字叫知识图谱。然后一旦查中，就把这整合浓缩了的，比较全面完整，并且充满相关链接的实体信息，和盘托出。结果大家都知道了，无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念，早谷歌十几年我们就提出，而且也实现了，实现在国防部的反恐情报分析挖掘系统中，也实现到我们的b2b品牌情报的商业产品中（参见《知识图谱的先行：从Julian Hill 说起》）。不过当时起名 Entity Profile（EP），而不是 KG （Knowledge Graph）而已。

@董振东这应该是回答了非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了，然后想象当年的没有图谱的搜索结果来做比照，说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索，然后可视化展示。其他的图谱应用可以是回答问题，再进一步可以是通过图谱关联做一些推理。理论上，信息组织成图谱了，结构化了，就可以做很多事。

董:
谢谢，李维。再多问一句：这种种图谱，是机器自己做呢，还是人手工做呢？

李:
谷歌是购买 freebase 做为基础，基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了，怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile（刚开始叫 Correlated Entity，CE，也是反映了实体互相关联的本质），简称 EP，我自己不知道怎么翻译好，就译成“实体概览”。后来这个术语也还是流行了，不过到了中文，一般翻译成了“画像”，而不是“概览”。譬如，电商领域大家都谈“商品画像”、“用户画像”，约定俗成。

画像比图解还俗一点，可大家都用，也习惯了。Note 这是图谱的实体名词为中心的一个信息角度，还有另一个以事件动词为中心的图谱角度，目前还没有约定俗成的统一术语命名。MUC （Message Understanding Conference）的信息抽取共同体里面，一般称事件图谱为为 Scenario Template（ST），我归类为 Predefined Event （PE），为的是与 SVO （Subject Verb Object）为核心的 open ended General Event （GE）比照。把 events 序列串成一个story的结果，叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想，我叫它信息体理论（Theory of information Objects, 参见《科学网—前知识图谱钩沉: 信息体理论》），成型在我给国防部项目的最后报告里，此不赘述。当然人微言轻，这些思想在今后的知识图谱的发展中，肯定会被别的等价或类似的术语替代，有话语权又能让共同体接受的往往是巨头。可以拭目以待。

董:
说得好！

李:
近年哈尔滨刘挺老师那里，开始宣扬一个“事理图谱”，似乎闹出一些动静，这就是沿着 event 这条线，概念上非常接近 scenario。事件图谱（or 事理图谱）与实体图谱，虽然二者交叉，你中有我，但事件图谱比实体图谱更难构建，应用起来也更具挑战性。一切还在 evolve。

然而，万变不离其宗。其实这一套所谓知识图谱背后的概念体系，并没有超越《知网》（HowNet）的设计哲学。董老师应该感觉欣慰，语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同，术语名词不过是皮囊。HowNet 是打语义结构体系基础的，是元知识（meta knowledge）体系，面对万事万物的本体（ontology）。而当我们一旦进入问题领域，我们面对的不再是本体概念，而是一个个实体（individual entity）。于是实体名（Named Entity，NE）成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology，来作为其 schema 的定义和软约束：这在定义图谱的时候需要用到。

董:
很多年前，刘挺他们曾让我去他们团队，他们跟我讨论过如何建立，例如夫妻关系，在网上搜索相关的事件。这跟实体类相关一样，不从底层来，怕是不好做的。如果是就事论事，那还好，不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释，我知道更多了。

李:
确实更加贴近应用，是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是，把我们在NLU （NaturalN Language Understanding）做无边无沿自动句法解析（parsing）的 SVO（主谓宾）类的语义表达放在一边，重新定义了领域应用驱动的实体抽取和事件抽取（领域事件的例子有“高管变动”事件，CXO上台下台的情报）。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用，创立了信息抽取（Information Extraction，IE）这个领域，也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘，但我们其实可以继续SVO的解析而做得更精准，更具有领域普适性，增强快速领域化的能力。这一点（以parsing支持IE）已经经历十几年的反复实践，其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情，是在我们的分析基础上的再开发。例如：“从轻”的根据之一是“共同犯罪”，而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同...”等等提取的。

李:
实体图谱个人画像（很像履历表）中的一类重要关系就是人与人之间的关系，包括夫妻关系，上下级关系，其他家庭关系等。这就是一个事实的挖掘（公司里面叫 org chart），应该是数据驱动的。

董强做的也是领域数据抽取和挖掘，结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘，绕过了 parsing 和本体知识库。一般来说也是可行的，前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了（有利白领就业，应予鼓励）。尽管如此，人工标注总是一个极大的知识瓶颈（knowledge bottleneck），除非要标注的任务是单一不变，或像机器翻译（MT）那样是自然形成的（人译从来就有，因此永远有积累的海量标注在）。

董：
是的，在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门，受益匪浅。

李：
不敢。祝董老师和全家，平安夜平安喜乐，圣诞节幸福吉祥！

1989年在荷兰，与董老师及BSO多语机器翻译项目组长合影

【相关】

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行：从Julian Hill 说起》

北大博雅演讲slides下载

北大博雅JDNLP

海报：周四下午一点北大二教211教室我有个学术演讲《洞穿乔姆斯基大院的围墙》谢谢各位新老朋友。

【李白雷宋74：乔老爷的递归陷阱】

李：
咱们可以聊聊为什么叫 center 递归，很多人不做区分。自然语言中，right branching 递归很常见，也常可以超过三层。说的人，听的人，都不感觉是负担。道理就在，虽然“左括号”在不确定的位置，但他们都归于统一的右边界。这样一来就不需要栈（该死的栈！）结构的机制来对付它，有限状态就可以了。乔姆斯基没法拿这个常见的所谓递归来批判有限状态，因此他不得不举 center 递归作为杀手锏。可问题是，自然语言几乎没有什么center 递归。

雷:
The man who the woman who had lost all the keys was calling all day finally came

白:
关于印发关于学习落实关于进一步深化改革的决定的若干意见的通知…… center recursion的中文例子

李：
这些是人话吗？亏老乔是语言学祖师爷！乔老爷反复给我们洗脑：这不仅是人话，而且是人话的本质。

这就是牵强附会，登峰造极地牵强附会。

雷:
right branching 递归是线性的，而center embedding不是线性的

李：
这里面就形成了这么个trap，信服他的人，一个是源于他的权威性, 另一方面是把常见的右递归当成了支持乔老爷的证据。乔形式上没有误导，因为他是严谨的、聪明的，但实际上达到了误导的效果。这就是“递归教”的 fallacy.

雷:
这个是right branching sentence：
The dog slept on the doorstep of the house in which it lived.

李：
右递归太常见了，听上去也不牵强。典型的句式是 vp 的嵌套：
to ask sb to beg sb to order sb to …

雷:
我来理解一下你的意思：center embedding recursive sentences 不存在，或不出三层，所以是finate state的？

李：
不是不存在，是如此罕见与牵强，而且也从来不超过三层，除非你是恶作剧，因此它绝非语言本性。

雷:
不足为道，本来就是线性的。CFG的parsing在理论上是cubic，就是因为这个center embedding

白:
这么多计算手段怎么会被center recursion憋死，自动机加几个计数器就可以线性了，只要计数器不爆表。

李：
拿恶作剧和语言游戏作为语言能力的证据，是乔老爷的最大忽悠。

雷:
我觉得这是数学家和哲学家的通例：形式上的完美。而我们做NLU的，从来就不把这个当真，是不是？

李：
既然最多不过三层, 那么多层有限状态即可轻松应对，三层就是 3x，当然还是线性

雷:
语言学系的人不到计算机系串门

李：
世界上有人把简单的问题复杂化，递归便是一例。

雷:
呵呵，因为我们不是数学家出身？我同意你的说法：就只有几层，有方法可以对付，不必搬出递归来。

李：
他那些理论真地是折磨人，云山雾罩的。有时候感觉，全世界语言学家被他玩得够苦。我还算幸运，我们系比较开通，学句法的时候躲开了乔姆斯基，拿hpsg来充数。hpsg 至少比 gb 接地气，尽管它像个要争宠的小妾，每一个分析都要以乔老爷的主流作为假想对象，反复辩白，妾身清白。

雷:
加州那边不受什么影响吧，走的是另一个路子，如， cognitive grammar, Fillmore

李：
Fillmore 了不起，但过分细琐. Framenet 很好的概念但不实用，以前写【语义三巨人】专门论过。因为它处于语义和语用之间，不尴不尬。

雷:
我专门研究过framenet，觉得还是不够细，同你的琐碎不是一回事。是每个动词的用法还不够全，还有就是Verbnet。感觉是虎头蛇尾，后面都是学生做的，真正要用起来还不够全面。

李：
我看法正相反。我也仔细研究过它。以后找机会展开与你辩论。

白:
伟哥看过来，你的中递归

QJ:
咋了，堆栈溢出了？

雷:
呵呵，一山一寺酒一壶，三层。

李:
还真有这么狗血的不是人话的东西存在。服了我党苏州委员会。

另，再看里面的括号的中递归形式：《 ..<...<...《...》...>...>...》，凭什么这样用括号呢？双单单双......。如果双单都用，应该是交错而行，否则索性一双到底或者一单到底。

wiki 上给的英文中递归（center recursion）的狗血例子是：

A man that a woman loves
A man that a woman that a child knows loves
A man that a woman that a child that a bird saw knows loves
A man that a woman that a child that a bird that I heard saw knows loves

An interesting theoretical point is that sentences with multiple center embedding are grammatical, but unacceptable. Such examples are behind Noam Chomsky's comment that, “Languages are not 'designed for parsability' … we may say that languages, as such, are not usable.” (Chomsky, 1991)

from https://en.wikipedia.org/wiki/Center_embedding

乔老爷的 grammaticality 论，unacceptable 还 grammatical，如此偏执，也只有乔老爷这样的人神才敢了。还有这个 languages are not designed for parsability 的论点，直接与语言的交际通讯本质相抵触。

The linguist Fred Karlsson provided empirical evidence in 2007 that the maximal degree of multiple center-embedding of clauses is exactly 3 in written language. He provided thirteen genuine examples of this type from various Indo-European languages (Danish, English, German, Latin, Swedish). No real examples of degree 4 have been recorded. In spoken language, multiple center-embeddings even of degree 2 are so rare as to be practically non-existing (Karlsson 2007).

也就是说，这种东西统计上是不存在的。是臆想出来的语言学问题，然后把整个 parsing community 给绕进去。雷司令为此搭进去好几年时光，试图去求解它，终于发现只要有中递归就不存在线性算法。

白:
去掉中递归，计算复杂性从接近立方级一下子变成了线性。吃水不忘挖井人啊……

云:
不过计算机语言里这种递归比比皆是啊，尤其是 recursive decedent parser。

白:
人的短时记忆不允许。7加减2，常委数量，也就是三到四对括号，再多了就晕菜。这个可以佐证伟哥的统计结论。

雷:
不怕一万，就怕万一，冷不丁的来

白:
嗯，那就反刍呗。in memory不要搞

李:
还有一个狗血的语言学问题，也是乔老爷造的孽：所谓 binding theory。本来是语言中很小的一个现象，结果被无限夸大，引发了无数论文和论战。由 Binding theory 的三条原则而来的有那么点实践意义的规则，我15年前指导一个实习生，用了不到两个小时就实现并调试完成，后来一直没遇到什么有统计意义的挑战。

可见，一个简单的工程问题，可以怎样地被理论家无限复杂化，烦琐哲学害死人。伟大的理论家害死一代学人。

白:
学人仍然是学人，谁也没被害死，只是又想当学人又想搞工程的被害死而已。这是两种不同的打开方式，老乔根本就当另一种打开方式不存在。

宋:
自然语言规则必须受到人类认知能力的约束，否则就称不上自然语言了。

白:
认知能力有个体差异，也有亚文化差异。

宋:
7加减2应该就是人类共同的认知约束。

白:
内存不够就拿笔作记号呗。

李:
有意思的是，谁创造的标点符号，三层括号：

{ ... [ ...(...)...] ...}

怎么就明白大中小三层就足够了？

白:
摆明了就常委的菜下饭。
多一层也不该憋死人，难受一点而已。艺术一点，难受的程度可以小一点。

李:
已经有人做过大数据调查，多一层也不行，没有超过三层的。

白:
我还是坚持分析要更鲁棒，生成坚决不说。

宋:
自然语言一般来说应该是能听懂的话。如果线形的语音流无法使一般人听明白，非得要落到文字上，左右来回扫描，甚至要用笔做记号，就不自然了。

白:
公文不一定。公文是官场亚文化催生出来的东东。

宋:
非自然语言的确切信息的表达，表格是一例，图形也是一例，再复杂就要用数学公式，必须有足够的数学修养才能看明白。

白:
人能意识到的“回文”，可绝不止7加减2。“上海自来水来自海上”轻轻松松就打到上限。

李:
9-gram，还在 7+2 的极限内。来个 19-gram 的回文，就真服了。人脑就是块豆腐，这方面说过大天去，也无补。人成为万物之灵，绝对不是因为有个记忆能力，或以记忆机制做底的语言递归能力。

首发科学网【泥沙龙笔记：再聊乔老爷的递归陷阱】 & 《泥沙龙笔记：狗血的语言学》

【相关】

乔姆斯基批判

Chomsky's Negative Impact

【语义三巨人】

11月25号在深圳12月8号在北京，我分别有个NLP的特邀报告

本月底（11月25号）在深圳给个中文NLP的学术主题演讲

报告题目：中文自动句法解析的迷思和痛点报告人：李维（京东硅谷研究院）

报告摘要：深度中文信息处理的核心是自动句法语义解析（deep parsing）。长期以来，由于中文文法缺乏显性形式手段，没有形态，功能小词常常省略，中文深度自动解析显得举步维艰，很容易陷入中文分词和短语抱团的浅层漩涡难以自拔。迄今为止的中文NLP应用大多局限于浅层分析或者端对端的系统，并没有做到语言的深度结构分析和语义理解，而后者才是自然语言万变不离其中的奥秘所在，也是中文NLP快速领域化的一条根本出路。本次演讲从通向中文深度解析之路的迷思入手，梳理中文自动处理的痛点并提出和展示可行的对策。主题涉及：中文分词（含切词、合词）与解析的关系，词类识别（POS）与句法角色的关系，离合词（如“洗澡”）带来的词典与句法的接口问题，针对结构伪歧义的细线条词典化道路，以及针对错误放大的休眠唤醒机制（负负得正）。

个人介绍：李维博士，现任京东硅谷研究院主任研究员，领导Y事业部硅谷NLP团队，研发自然语言深度解析平台及其NLP应用，目前聚焦于中英文大数据情报和舆情挖掘，以及智慧供应链应用。李维NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索、机器翻译等等。加入京东前，李维在硅谷社交舆情公司Netbase任首席科学家，Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个美国国防部的信息抽取创新研究项目（PI for 17 SBIRs）。Netbase期间，设计并指挥团队研发了精准高效的20种自然语言的理解和应用系统（英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等），产品服务财富500强。特别是汉语和英语，具有世界一流的分析精度，并且做到鲁棒、线速，scale up to 社会媒体全网大数据。李维是Simon Fraser University计算语言学博士，中国社会科学院研究生院机器翻译硕士，在国际学术刊物和大会上发表论文约30篇。2015年，李维被评为SFU 杰出校友（建校历史上50名之一)。

from

http://conference.cipsc.org.cn/annual2017/

下月初（12月8号）在北京的架构师峰会上也要给个talk

专题演讲嘉宾：李维（博士）

京东硅谷研究院主任研究员

李维博士，现任京东硅谷研究院主任研究员，领导Y事业部硅谷NLP团队，研发自然语言深度分析平台及其NLP应用，目前聚焦于大数据情报和舆情挖掘，以及智慧供应链应用。NLP深度分析平台具有广阔的应用前景，方向还包括客户情报、信息抽取、知识图谱、问答系统、智能搜索、智能客服、自动文摘等。

加入京东前，李维在硅谷社交舆情公司Netbase任首席科学家，Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个美国国防部的信息抽取创新研究项目（PI for 17 SBIRs）。Netbase期间，指挥团队研发了精准高效的20种自然语言的理解和应用系统（英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等），产品服务财富500强。特别是汉语和英语，具有世界一流的分析精度，并且做到鲁棒、线速，scale up to 大数据，系统质量有第三方评测认定大幅度领先竞争对手（”best of class” by Forrester，Pivot Labs Analytics）。他领导研发或参与的各类NLP应用产品获多项工业界奖项，早期包括INFORMATICS’92 (新加坡) 银奖，近十年包括企业社煤平台行业领先者（A LEADER IN THE FORRESTER WAVE），消费者商品技术（CGT）首选奖等共计17 项工业奖项，多次被主流媒体报道，包括《华尔街日报》《纽约时报》《华盛顿邮报》《财富》MSN，CBS，NBC等等。

李维是Simon Fraser University计算语言学博士，中国社会科学院研究生院机器翻译硕士，发表论文二十余篇，美国专利三项，并多次受特邀就NLP自动分析和大数据挖掘做主题演讲，近年的演讲活动包括哈佛大学医学院，台湾中研院，中国科学院和中文信息学会。2015年，李维被评为SFU 杰出校友（建校历史上50名最杰出校友之一)。

演讲：自动深度语法分析是自然语言应用的核武器

文本自然语言处理（NLP）是人工智能的重要方向，是继图像和语音处理技术（感知技术）突破之后的一个令人期待的关涉认知技术的核心环节。

大数据文本给自然语言处理提供了广阔的场地。本次演讲通过深入介绍自然语言自动分析的历史和现状，勾画出自然语言技术的应用前景。重点在展示和论证深度自然语言自动分析对于自然语言技术应用的革命性作用，这些应用包括智能搜索，情感分析，数据挖掘，问答系统和智能助理等。迄今为止的自然语言应用大多局限于浅层分析或者端对端的系统，并没有做到语言的结构分析和语义理解，而后者才是自然语言表达信息的奥秘所在。自然语言深度分析的技术正在成熟，已经到了显示威力的前夕。

演讲过程中将结合知识图谱和大数据舆情挖掘，来展示深度语法分析（deep parsing）的原理和威力。

演讲提纲：

人工智能的历史和现状简介：从感知到认知
自然语言技术的历史和现状：端对端的突破，大数据和深度学习的革命，知识瓶颈的困境，深度分析的对策
深度分析是什么？非结构的结构化
什么样的深度法分析是自然语言技术应用的核武器
应用举例：知识图谱
应用举例：舆情挖掘
应用举例：智能搜索和问答系统
结语

听众受益：

对于人工智能与自然语言的从业人员，以及对自然语言技术感兴趣的人士（学者、学生、投资人、企业家、IT人士）开阔眼界，了解动态以及促进技术的产品化有益。

from http://bj2017.archsummit.com/presentation/123

【李白66：“青春期父母指南”的语义计算】

李：
朋友圈看到一本书书名是：【青春期父母指南】（副标题：如何和谜一般的青春期孩子相处呢？）定语青春期不是指向父母的，而是指向父母的儿女。

有意思的是，定语“青春期”不是指向“父母”的，而是指向父母的孩子。书名的结构是 NP：N1+N2+N3：N1 is neither semantic Mod of N2 nor of N3, but of something only implied yet not mentioned in text. Grammatically we might still label N1 as Mod of N2, not of N3, N2 is grammatical Mod of N3, and semantic Obj of N3.

当然也不能完全排除这个指南是给处于青春期的父母（teenager moms or dads）

白:
青春期有坑，父母有坑，指南有坑。没有“的”的填坑关系和修饰关系互斥。父母填青春期的坑，是一解。青春期自己升格（处于青春期的某某human子类型），再填父母的坑，是另一解。

李:
后一条路不好掌控。凭什么升格，什么时候不升格？

白:
后面没有相谐的被修饰语，又有人需要这个被修饰语。升格也是有准入条件和优先顺序的。“是什么”是语言学，“选什么”是NLP。讨论语言学和讨论NLP，不是一股劲儿。当父母填青春期的坑的时候，父母自身的坑也只能借助升格来处理。不在这里升格，就在那里升格。要么父母处于青春期，谁的父母没交代；要么父母的孩子处于青春期，孩子是谁没交代。那个没交代的对象就是升格升出来的。

李:
没交代是常态。记得当年学句法课，教授花了很长时间讲解 complement 与 adjunct 的区别，说前者是需要交代结构（及其语义）才算完整，后者是可有可无（可多可少）的附加语。但其实在语言中，需要交代的常常不交代不出现；可有可无的往往具有语义的重要性。这道线很难划。语言不是按照逻辑设计的。

白:
语言也不是按照树设计的。多爹、非树是常态。

李:
几乎所有的及物动词都能省略宾语。省了以后，那个没出现的宾语，或者需要根据常识去理解，或者是根据上下文去理解，或者你知我知地通过心灵感应去理解，或者误解。也或者根本就不去（充分）理解：糊涂说糊涂听也一样交流。人类交流中 unspecified 的信息太普遍了大家熟视无睹了。貌似交流也没受到阻碍。

白:
允许名词有坑，这都不是事儿。像上面例子，好像就逼着听话人选择哪个是没交代的。而不能是两个都没交代。

李:
青春期的坑是【human】，父母是【human】，这就算对上了。交代了。至于【父母】的坑，标题上下文里没见着，只好拉倒，stay unspecified。没有升格的理由。

白:
你这是从左到右思想作怪。那我问：“多动症父母指南”呢？

李:
从右到左试试？

“父母”的坑是【human】，左边的“青春期”不是【human】，但是青春期的坑里有一个尚未出现的【human】。如果要让正解出现，不仅需要从右向左，而且还要从别人的坑里面挖出一个根本没见影子的萝卜来。就算挖出来了，填进去的是谁还是一笔糊涂账，最多只能以常识默认推测之。

白:
把“青春期”处理成N+，不存在挖别人坑里萝卜的问题，但前面一些不严谨的表述需要修改。

对前面一些表述的修改：1、“青春期”是修饰语，无坑。2、“父母”取N输出，不在乎/N坑是否饱和，不是“升格”，而是正常的萝卜输出。图上两个方案，（2）的饱和度更高

【相关】

【泥沙龙笔记：科学哲学宗教与人生】

尼:
罗素说科学够不着的哲学，哲学够不着的宗教。科学和宗教有交集，如生死，意识，自由意志等。我有篇未完长文 "当我们谈论生死时我们在谈论什么" ，准备作为我《人工智能简史》最后一章。再长的话，得问洪爷了。
@洪邓总问哲学和宗教啥关系。我昨晚没回复。你接茬说。

邓:
原始问题是宗教、哲学和科学的关系是啥？

白:
科学尽头是哲学，哲学尽头是八卦。

邓:
宗教呢？

白:
宗教尽头是科学啊

洪:
好比有个大鱼缸，
鱼游随便哲学想。
科学只限缸内忙，
缸外有宗教对象。

尼:
@洪缸能自动变大或变小吗？

邓:
@白 @洪你俩意见貌似相反

洪:
缸是人所能感知的；如果人类感知进步了人，例如开了天眼啥的，边界就能扩大

邓:
我等白老师和洪爷打起来

邓:
罗素原话怎么说的？
白老师和洪爷彼此惺惺相惜，不打……

白:
缸外有缸

邓:
请白老师明示。解说解说。

马:
探索哲学的小孩

尼:
这小屁孩把想哲学的鱼都给捞走了

邓:
你们都是禅宗的

洪:
身心灵各有其缸，
有界有墙可以撞。
科学自觉不骑墙，
宗教墙外寄希望。

李:
除了红包与痛苦为真一切皆假。宗教貌似也远不能普度众生，最多是抚慰一小片。至于科学则是鸦片。让所谓科学家在虚假的高高在上中，求得半片玩积木的兴奋和满足。

邓:
立委登场，讨论正式开始，

彭:
已有的宗教如果不能普渡众生，就只能创新教，当教主了。@wei

李:
当教主肯定更惨。做个追随者至少还可以把负担转嫁教主的重负转谁呢？

白:
不同领域，宗教尽头到来的时点不同。有的早有的晚。

洪:
假设鱼缸水不浑，
科学/哲学可显灵。
鱼缸壁若玻璃弄，
宗教可以很理性。

李:
面对终极问题一切那么苍白。高人不高哲人不哲敬畏之心难存。

邓:
白老师本质上是认为科学发展会终结宗教？

张：
还有一种可能就是科学发展证实了宗教

邓:
洪爷的说法是两者之间有无法逾越的边界？

李:
都不能解决人类的痛苦问题。

白:
说的就是人类的痛苦问题，科学一定会有办法。

邓:
刺激神经中枢吗？

白:
不是人类整体的痛苦，是一个个具体个体的痛苦。

张:
具体个体的身体痛苦通过科学一个个在解决了。但是精神层面的痛苦无法解决的。就像科学对我们身体的自愈能力一无所知一样。

白:
精神痛苦需要举例，然后看搞定它的途径和时间表

洪:

鱼跃出水有可能，
科学宗教一时懵。
落回或许先知成，
天慧法佛眼开睁。

白:
@张现阶段科学不等于科学。

邓:
@白终极的科学是不是等价为绝对真理？

白:
不是。搞科学一般都怕谈“真理”。

张:
精神痛苦的例子太多了，幼年丧母、青年丧父、中年丧妻、老年丧子、失恋，被甩。。。

邓:
如果科学认为不存在真理，宗教又把自己定义为真理，那么是不是可以理解为完全两件事？

张:
估计在地球上找到绝对真理的时候我们要移民外太空了。科学的真理好像是相对的，而宗教的真理是绝对的。

白:
失恋跟记忆关系很密切。如果可以干预和改变记忆，对待失恋的态度也会有所不同。

邓:
原来@尼大师提到“自我”的容器问题，就是那个换头术悖论，跟白老师这个观点探讨的方向一致吧。

鸣:
精神痛苦，多与欲望相关

白:
执着都是有物质基础的。现在不敢动这个物质基础，主要是怕误伤。如果定点改变，确保不误伤，改了又何妨。离开要解决的问题，真理的绝对还是相对就是个伪问题。有了要解决的问题，大家就直接比疗效好了，不必涉及那些伪问题。

张:
失恋不要被忘记。那也是一种情感需要被回忆的。有了痛苦才有反差，否则人生又有什么意思。

白:
想保留反差就谁也别找，不想反差太大就定点微剂量清除记忆，在这点上宗教活儿太糙，论精准还得寄希望于科学。

邓:
@白 “基督教是现代科学的接生婆”跟您的说法一致吗？

白:
也不尽然吧……

邓:
宗教的尽头是科学

张:
或者科学的尽头是宗教

邓:
现在是张老师力战白老师

张:
来搅浑水。
白老师是严谨的科学家，我们是来搅搅乱。

邓:
必须有人捣乱才能激发白老师讲话的欲望。

白:
娱乐而已。

邓:
@尼大师该你了。向白老师开炮。咱们那天关于这个主题聚聚。顺便听白老师弹琴。
@白《those were the days》这歌用曼陀铃应该不错。

尼:
好多讨论的词汇没法定义。例如，"人文"在文艺复兴时的意思是为了和“神”唱反调，科学也算人文，但几经周转，人文语义迁移了。在中国，就成文科生的意思了。

邓:
请大师先定义词汇

尼:
哲学也一样。一种方便的定义是哲学就是哲学系教的那些玩意。那恐怕现在的哲学和100年前哲学不一样了。再过10年，逻辑就不算哲学了。我得开会去，晚上喝两口再聊。

阮:
对于一个生命有穷的个体来说，科学能解决的问题少之又少，当科学不能解决时，就赖宗教获得个体幸福了。因此，科学的终端是宗教。

白:
@阮宗教就是昨天的科学

李:
一个显而易见的事实是科学技术的进步带来了物质繁荣但人类的精神问题没有减少貌似日趋严重，至少是停滞的感觉与科技的一日千里无法比拟。

白:
人类不好伺候啊。
穷也矫情，富也矫情。

阮:
科学伺候的是客观世界，宗教伺候的是人类精神世界，目的不同。

张:
白老师，宗教比科学早啊

白:
对啊，宗教的明天是科学。一个意思。

李:
宗教要真伺候得好为什么还有那么多迷途羔羊？
譬如执着心，佛教甚至fl功都有很多放下执着心的教义，道理是深刻的，几乎无懈可击，可是怎么那么违背人性难以接受？

张:
其实科学和宗教确实很难放在一起，科学也许永远找不到最终的答案。

阮:
这世上有这么多无知的人，为什么不说科学伺候得不好？

白:
@阮不一定啊。你以为高保真音响只是伺候耳朵的？不是的，是伺候听觉欣赏的。

马：
@阮看你怎么定义终端。科学和技术要分开。享受属于技术。

阮:
@白科学求真，让人类获得享受是副产品。

李:
好吧就说死亡不可抗拒这个我等可以接受（虽然也是经历很多才接受的）。那么在我们死亡之前的这些日子里，我们每个人都想减免痛苦，可痛苦依然挥之不去。

马:
所谓死亡只是换了一个躯体而已。

白:
说不定吃一种药就不怕。又减少痛苦又不上瘾。到时候再痛苦就矫情了。

dl:
人之所以痛苦，在于欲望，而其中相当部分欲望，与个体独立性反相关，社会科技越发达，社会越富有，反而大家都落不着好了，这就是现代社会的一个毛病。典型的是权力的欲望。

白:
藏族人对死的态度很豁达

李:
痛苦二字也许太抽象但我们多少人没感受过一个 “累” 字。人生真累。活着真累。

dl:
越是发达的社会，越是号称平等自由的社会，人们从权力方面获得的满足感越少。越是专制，反而每层都能找到权力的感觉。

阮:
人类麻烦事太多，除了生死，还有一堆其他的。科学帮助解决问题，不能解决的就用宗教。

白:
能量极小化，就是懒；物质极大化，就是贪。

李:
其实这种累的感觉，不是简单的欲望不得满足。

白:
都想出人头地才累。

dl:
归根结底，出人头地也是权力欲望。没有雄心壮志，就比较容易快乐。

熊:
虚其心，实其腹，弱其志，强其骨，美国政府在做的。

白:
权力欲望也一定有物质基础的。吃药可医。早晚的事。

李:
在古代流行的是简单的快乐。进入文明社会简单的快乐的能力现代人丧失了。
我们的远亲猿猴就没有人类这么多这么深这么厚的痛苦。

dl:
以前皇帝的物质条件未必比现在普通人好啊，但是快乐太多了。现代社会另外一块问题，就是虚伪性，其中最大的就是婚姻制度，也是导致痛苦的主要原因。本来古代制度性解决的问题，现在需要每个聪明人耗尽自己的才智，其实也解决不了问题。@wei 主要是一夫一妻制度的推广造成的。

李:
那就废除这个制度好了。可群婚也不会幸福。

dl:
太多成功学，个人奋斗案例，给大家打鸡血，也是导致大家辛苦的原因。美国鼓吹的那一套人人奋斗也是大家痛苦的原因。以前不成功还可以把原因推到制度上，现在只能埋怨自己了，能不痛苦吗。

邓:
看高手过招真心快乐。@白将来我们都喝老爸茶、弹琴、斗嘴。

李:
过度紧张过度竞争恶性竞争肯定是罪魁之一。

dl:
人之所以快乐，无外乎比别人优越那么一点点。也许现在宗教存在的意义，就是我失败了，能让我找到一点点借口。否则就是赤裸裸的自我解剖，太痛苦，没几个人受得了。

李:
找不到工作社会上混得不好肯定不快乐。
但有一个不错工作的人也往往快乐不起来

白:
这点借口，科学也会给的。将来都ai了，找不到工作是常态。

dl:
很重要的一点，和身边的人比较起来，是不是优越。最谦虚的人，内心也是希望得到别人的恭维的。最不在乎的人，他在乎的东西，超乎我们的想象，除非这个人完全破罐破摔。

白:
把自己贬低到常人难以接受的水平，来恭维别人的人，一定极其阴暗，破坏力不可低估。自尊心是守恒的。这里按下去，就意味着一定会在其他地方冒出来。

李:
回想起来人生中比较真切的快乐的确有就是助人为乐远比自己得到好处快乐得多。这个助人为乐首先是亲友。看到自己爱的人亲友由于自己而改善了境遇那种满足幸福感相当不赖。如果觉得自己可以帮助全世界，快乐就源源而来。

dl:
@wei 这也算一个麻醉剂。中国人这个达则兼济天下的思想，本来就是高高在上的。
明白嘛，高高在上。帮助他人，也是体现自己优越感的好地方，当然客观上是有好处的。仔细分析，从内心来讲，并不比我要出人头地高尚多少。

白:
精英已经失去了代表人类平均感受的资格。

dl:
@白现代社会的痛苦，就是精英阶层弱化的痛苦。

白:
去精英化

李:
暴发户回家乡办学就是这种幸福的展示。

dl:
@wei 你说的这种东西，并非精英阶层追求的东西，而是把精英阶层平民化的过程。这里有一种不可调和的东西存在。

李:
雷锋的快乐就是，做好事不留名，记在日记里自我欣赏的感觉超级棒。

高:
雷锋不识字，何故多记事

dl:
@wei 雷锋这种现象，主要还是愚民策略的一个证明

李:
一介武夫无权无钱不富不贵但没人否认，雷锋是幸福的每一天活得那么充实满足。

dl:
反正在这个群里，我得到的快乐，肯定没有我的粉丝群里得到的多，这是肯定的。原因是肯定的，这个群里大家都很自我。没有人太屌谁，这就是以后社会发展的一个趋势。

白:
反过来说，精英扎堆儿的地方，不适合精英自我表扬。

桂:
李白是计算语言学界活雷锋。

dl:
所以每个人权力获得感会大幅下降，这是必然的。预测以后的世界，每个人的存在感问题会更大。这会是一个主要问题。

白：
唱戏当皇上也是爽的。
以后ai发达了，nlp发达了，慕容复何至于那么孤单，可以乱真的奴才臣子还不是要多少有多少？权力欲真那么难满足吗

dl:
@白反正我不会和机器人谈恋爱。
这个每个人细细体察内心就可以知道

李:
不要说那么绝对。没人会拒绝快乐，快乐来自人和机器不重要。

白:
来自药物和现实乃至虚拟现实，也不重要，关键是不要有副作用

dl:
精英阶层的人士，快乐在于控制和影响力，不在于太物质的东西。而世界趋势在背道而驰。庸俗化正在席卷全球。
@白吃药也许可以。五石散。魏晋南北朝，其实也是一个世家没落的时代，和现在有点像。

白:
所以科学宗教哲学，说到底都是solution，是骡子是马，最后都要在problem面前遛遛。

dl:
@白同意。问题是这里面存在不可调和性。发展趋势和人快乐的基础之间有不可调和性。这是现代社会的一个重要问题。庸俗化引起的权力满足感丢失，可能是问题的核心。

顾:
科学和宗教类同，只不过科学适用面宽些，预测能力强些。

白:
人太多了，逆选择一下也是必要的。这么辛辛苦苦伺候都快乐不起来的人，还是哪儿凉快哪儿呆着去吧。

dl:
目前解决方案，就是创立一个公司，然后去当土皇帝。这才是正道。所以要创业。这才是创业的终极目标啊。公司目前是满足权力感最好的形式。

白:
权力自由但财务不自由的创业，好不到哪儿去。

dl:
@白这就是你说的唱戏当皇帝也快乐啊。

白:
自己印钱啊，虚拟货币。
想象力太受现实束缚了。

dl:
@白我只是调侃一下而已

白:
我调侃两下行不

dl:
当然可以。以后都去参加拜公司教就好了。这就是宗教。solution直面最核心的问题，精英阶层存活的意义就在于此。

白:
ai让你唱戏当皇上比真皇上还爽，连个不爽的理由都找不出来。

dl:
@白现在很多人沉醉于虚拟网络，可能也和这个有关系。找到了存在感。但是如果获得太容易，就没优越感了。存在感其实在某些意义上等同于优越感。

白:
那容易啊，工作量证明，挖矿挖到了的当皇上。

dl:
@白其实发明一种机制，让人去做梦，这样人的一生其实不需要活动。可以拍一个电影，以后少数精英人士操纵社会，大多数人生下来，就被装在器皿里培养做梦，大家觉得如何？都很快乐。其实社会本质未尝不是这样？

邓:
今天讨论这么热闹@尼得发个红包。

【李白之44：“明确”是老子还是儿子，需要明确】

白:
“北京大学率先明确入雄安路线图”。“明确”是副词还是动词，需要先明确。

李:
我觉得这不是问题的关键。pos 在抽象层面只规定非常宽泛的框框。关键还是语义之间的相谐。正确的问题不是pos，而是 “明确” 在这里是状语（儿子），还是谓词（老子）。在【明确＋ vp】里面，pos 上它没有什么限制，所谓跨类词。跨类就是两可。对于跨类这是一个没啥意义的问题或者说这是一个 circular 的问题。

“明确”的最常见的 subcat 带的是 np，但是在 “明确v” 出现时，这个 v 可能是 vp，因此 “明确”可能做其状语。也可能这个 v 是np内部的修饰语。

（1）明确规定游泳违规
（2）明确规定严明纪律这两条是整顿金融秩序的关键所在
（3）我们要明确规定条例

大数据可以帮到（1）；（2）是排比的力量压住了大数据，把潜在的动宾可能激发出来。但排比因素的形式化实现还需要探究（虽然形式特征在人看来是蛮明显的）。（3）仍然歧义：“明确（地）规定（相关）条例”，还是　“明确（一下）（有关）规定（方面的）条例”？大数据似乎选择前一个解读，为什么我们仍然感觉得到后一种解读的可能性。设想如果大数据中 “规定条例” 比例开始高到可以与 “明确规定” 相匹敌的时候，这就是大数据也搞不定的边界之争。

白:
“北京大学率先明确入雄安路线图”这个例句中，“明确”只有一种走得通的词性，就是动词S/N,X。如果是副词，“入”就会过饱和。虽然过饱和也是能处理的，但放着正常饱和的不用却去用过饱和的，终究不妥。因为“入雄安”只剩下一个坑了。副词“S+”不会改变萝卜数和坑数。

李:
“率先明确入雄安的是习大大吗？当年是毛主席率先明确入京的。虽然有人提议仍在南京建都。”　什么叫入的过饱和？

看样子 “明确” 的subcat 也有带 vp 的，虽然不如带np的 subcat 用得广。

另。假设 native speaker 的语感与大数据（作为语言共同体语言表现的代表）吻合（实际上当然不会总是吻合），那么大数据搞不定的歧义就应该视为真歧义。大数据能搞定的就是伪歧义尽管这个伪歧义以前被认为是句法真歧义。“以前”指的是没有大数据语义中间间或没有语义或常识消歧手段的句法分析器的那个时期。

【相关】

《李白之零：NLP 骨灰级砖家一席谈，关于伪歧义》

【立委兄：温哥华都市游 2/3】

没办法只好返回Max家去吃晚饭，刚到Max家没多久，雨停了，太阳出来了，时不我待，我们饭也不吃，立马背起相机，直接再去与SFU大学连成一片的本那比山公园照落日晚霞去了。功夫不负有心人，到本那比山公园时机正好，登顶之后，眼前豁然开朗。葱郁的绿里点缀着红黄，极目远望，水光山色尽收眼底。BurnabyMountain Park 奇特的雕塑群（日本雕塑Kamui Mintara sculptures，由日本雕塑家 Nuburi Toko 和他的儿子所创作，象征着人类、动物、自然和上帝的和谐统一），秋日叶色微红的树林，和湖、云、山、峡、光融为一体，远处一两汪不知是湖还是海的碧水，让人仿佛置身在童话世界中，这才是美丽的秋景呀，色彩艳丽，如诗如梦。

与SFU大学连成一片的本那比山公园BurnabyMountainPark

10月20、21、22日天气不好，雨季的温哥华，对它没脾气，我们只得去商场和奥特莱斯转了转，顺道去参观一家湖北籍华人正在建造的木结构三层大别墅。

温哥华小区中林荫道

10月23日星期六，早晨天气转好，我们准备去惠斯勒（Whistler），没出城前有两处路边景点让我们兴奋不已，都在河边。

一处在弗雷泽河旁，是朦胧美，轻雾如纱，烟锁秋波，一层轻纱般薄雾在河面上飘来荡去，河对岸的树林和农舍时隐时现，一切都掩映在宁静、纯净、虚幻的晨雾怀里。那淡淡的地雾，那隐隐的树林，那静静的水面，活灵灵显出一个世外桃源。

另一处在皮特河旁，当车路过皮特河大桥时，我们眼前又一亮，被眼前美丽深深地震撼，赶紧下了主干道，停在河傍，端起相机不停地拍摄，机会难得。远处山峦披着多层薄雾，河两侧处处可见红的黄的树，湛蓝的河水倒映流光山色，黄草依依在河边随风而笑，宛如仙境。这情让人心灵涤净，这景让人飘飘欲仙。

弗雷泽河旁朦胧美，轻雾如纱

皮特河流光山色

走出温哥华前

走出温哥华，进入海天高速公路 Sea to Sky Highway (99号高速公路)。海天公路蜿蜒於太平洋和群山之间，由海洋、河谷、冰川及高山峻岭所铺陈。道路内侧是山峰林立、悬崖陡峭，另一面则是碧波万顷、海水湛蓝，沿途经过多处海湾、瀑布等风景区，景色如诗如画，还有绿色的小岛、高高的雪山，蜿蜒而上的公路，海天相连的景色尽收眼底，一如其名，完全展现由海至天的丰富样貌。

海天公路路过一个非常有特色的高尔夫球场。整个球场顺着山势而建，背山面海，高低错落，真不知老外的灵感怎么得来，设计出如此之美的球场。只是我们找不到俯视这球场的高台，照不出它的神采来。

到香农瀑布（Shannon Falls），虽落差335米，但我们看瀑布太多，就没停下来了。后来路过一个不知名的观景台，居高临下拍了一下海湾的大景观。在斯阔米什小镇（Squanmish），我们休整了一下，发现加拿大民众都在为万圣节筹备各色南瓜及物品，看来西方对这个节日挺重视的。村对面的史坦沃斯峰 Stawanus Chief 很雄奇，很高耸，坐缆车可以登顶，可一览海天高速公路四周美景，可惜我们没上去。

海天高速公路 Sea to Sky Highway

路边山坡高尔夫

斯阔米什小镇

【相关】

【立委兄：加拿大自驾游东部风光摄影选粹 1/2】

【立委兄：加拿大自驾游西部风光摄影选粹 2/2】

【立委兄：加拿大东部枫叶游（8/11）】

二十八天加拿大自驾游东部篇

在小城停留几个小时后，我们驱车赶往距圣安妮大峡谷大约9公里处小村庄 Sainte-Anne-de-Beaupré，我们在小村庄著名的圣安妮大教堂旁预订了一个汽车旅馆--海岸公寓汽车旅馆 Condo & Motel des Berges. 多伦多到魁北克的40号高速路，两侧都是茂密的枫树，如果时间合适，枫景会很壮观，可惜我们今年来的不是时候，枫叶推迟盛红期了。到旅馆服务处，其大门紧闭，留下一个条子，让我们自已在门口小盒子里拿钥匙进房。国外旅馆手续简便，走时也不查房，交钥匙就可走人。安顿好住处，我们立即去圣安妮大峡谷，这是一处赏枫名地。圣安妮大峡谷的门票CAD13.50一人。刚进圣安妮大峡谷大门，还有些金色的枫叶，但到峡谷后，只能偶尔见到变黄变红的叶子，看不出是魁北克的“枫”景之最。说什么：山谷红黄的枫叶漫山遍野，峡谷由于在谷底、山腰和山顶枫叶变红时光不一，有丰盛层次感，我完全没感觉到。瀑布很一般，枫景很一般，没有了秋色，峡谷完全无法吸引到我们。该死的气候，今年天气热的太长，延缓了枫叶变色时间，今年我们武汉桂花也延缓15至20天才盛开哟，理解理解。

圣安妮大峡谷

从峡谷返回我们来到住处，欣赏住处的圣安妮大教堂及四周美景。圣安妮大教堂是一座宏伟的哥特式建筑，矗立在圣劳伦斯河边的这座纯白色教堂，17世纪1658年建立，历史悠久。350多年里，五次扩重建，可惜在20世纪初毁于一场大火。1926年重建。教堂前面的广场上有一个喷水池，青铜铸造的圣安妮怀抱着幼小的圣母玛丽亚安详地站在那里，雕像和喷泉融为一体。大教堂的内部金碧辉煌，气势震撼，我们进去时，主教正在宣教。

第二天一早。我们起床想照圣劳伦斯河日出和朝霞。这一天早晨天气十分寒冷，在河边我们穿了冬季衣物，仍感寒气逼人。可我们旁边一对老外老夫妇，穿着短裤也在河边拍照，本认为他们从车里出来不会很长时间，没想到他们比我们还久，真佩服他们，老外就是不怕冷，我们惭愧。天气虽冷，也时阴时情，但风景确实不错，我们照得尽兴。

圣安妮大教堂

小村庄Sainte-Anne-de-Beaupré

【相关】

【立委兄：二十八天加拿大自驾游前言】

【立委兄：二十八天加拿大自驾游结语】

【立委兄：加拿大东部枫叶游（10/11）】

【立委兄：加拿大东部枫叶游（11/11）】

【立委兄：加拿大西部自驾山水游（13/16）】

二十八天加拿大自驾游西部篇

2日一早，当我起床打开窗户，不由得惊叫：太美呢，太美呢！蓝蓝天空下，白白的雪山，一条云雾缠绕在山间，朝霞印照在山顶，多彩多姿，金光闪烁，不是仙境胜似仙境。原来昨晚是山下下雨，山上下雪，清晨突然转晴，就展现出这神奇的景色来。我们呼着极清新的空气，冒着寒凤，拿着相机，在住宿门外不停地拍摄，太让人心动了。

落基山旅馆四周的好照片

随着我们赶紧打包上路，去朱砂湖拍日出下梦幻般的湖景，我们两天前就对那个地方充满期待。果然上天眷顾我们，给我们很多惊喜，枯黄的草，绚丽的霞，碧蓝的水，山顶的雪，多层的云，洁净的天，这些要素全都具备，实在是可遇不可求。诸要素构成了一幅难得的美丽画卷，让人爱不释手。不停的拍，不停的拍，说来你可能不信，当我们拍完照后，天气又大变，一股厚云从西向东飘来，不一会儿大雨倾盆。虽然我们无法再去我们发现的另一摄像点即1号公路与1A号公路交汇处去取景拍照，但我们心愿已足，便开车直奔优鹤 Yoho National Park 国家公园。

阴雨下的朱砂湖

日出下的朱砂湖

【相关】

【立委兄：二十八天加拿大自驾游前言】

【立委兄：二十八天加拿大自驾游结语】

【立委兄：加拿大西部山水游 (2/16)】

【立委兄：加拿大西部山水游 (3/16)】

【立委兄：加拿大西部山水游 (4/16)】

【立委兄：加拿大西部山水游 (5/16)】

【立委兄：加拿大西部山水游 (6/16)】

【立委兄：加拿大西部山水游 (7/16)】

【立委兄：加拿大西部山水游 (8/16)】

【立委兄：加拿大西部自驾山水游 (9/16)】

【立委兄：加拿大西部自驾山水游 (10/16)】

【立委兄：加拿大西部自驾山水游 (11/16)】

【立委兄：加拿大西部自驾山水游 (12/16)】

【立委兄：加拿大西部自驾山水游（13/16）】

【立委兄：加拿大西部自驾山水游（14/16）】

【立委兄：加拿大西部自驾山水游（15/16）】

【立委兄：加拿大西部自驾山水游（16/16）】

【立委兄：加拿大西部自驾山水游 (12/16)】

二十八天加拿大自驾游西部篇

我们今晚住处不在班芙镇，而在离班芙20公里外的坎莫尔Canmore小镇的落基山旅馆，我们在这住两晚。这是我们这几天住得最好的旅馆，楼上楼下，日式联排别墅式的，二室二厅二厕一厨，十分干净和方便。

坎莫尔Canmore小镇的落基山旅馆

10月1日国庆节，天仍下着雨，我们在班芙镇转了一转，天空雾蒙蒙的，自然去硫磺山顶也无意义了，就再去路易斯湖了。环绕湖畔有许多条健行路径，加拿大国家公园大多建有许多许多步行道，人家对体育与锻练都很执着。另外湖边还有一条登山路径，可一直到达山顶。在山顶可俯览翡翠般的露易斯湖，由于天气不佳，我们只在湖边走了一下，没有上山去拍路易斯湖全景了。露易斯湖三面环山，层峦叠嶂的露易斯湖，仍然翠绿静谧，在宏伟山峰及壮观的冰川的衬映下秀丽迷人。我相信如果不是天气太差，这里一定是现实中的世外桃源，毕竟它久富盛名。下午就回到住处，自己做晚歺去了。傍晚雨仍在下，我们心情自然糟透了，明天就要离开班芙了，没拍几张班芙四周的好照片，该死的天气不给力呀。

班芙镇Banff

班芙镇Banff四周自然风光

【相关】

【立委兄：二十八天加拿大自驾游前言】

【立委兄：二十八天加拿大自驾游结语】