泥沙龙笔记：学习乐观主义的极致，奇文共欣赏】

屏蔽已有 2821 次阅读 2016-5-20 05:58 |个人分类:立委科普|系统分类:教学心得| 深度学习, 程序猿, 规则系统

洪：

大数据上火车跑，

告别编程规则搞。

garbage in & garbage out，

烧脑码农被废掉。

AI不再需要“程序猿”，未来数据比代码重要-新智元-微头条(wtoutiao.com)

我: 最近心智元那篇深度学习要代替程序猿的译文很有看头，是学习（ML）乐观主义的极致，但又呈现了两条路线合流的某种迹象，有的可唠。白老师洪爷尼克一干人熟悉ai两条路线你死我活斗了半个多世纪的，跟我党10次路线斗争类似，看这篇的极端乐观主义，最终宣告斗争结束世界大同的架势，可以评评掐掐。抛几个玉看能不引来啥砖砸。

【1】 quote：编程将会变成一种“元技能（meta skill）”，一种为机器学习创造“脚手架”的手段。就像量子力学的发现并未让牛顿力学失效，编程依旧是探索世界的一种有力工具。但是要快速推进特定的功能，机器学习将接管大部分工作。

这个说法听上去怎么与白老师前一阵说的有类似或平行的味道？

洪:

这种鸡血文，可别仔细读，否则@wei 你就前功尽弃邯郸学步了

我:

它代表了这股“热”的一种极致。还是比ai取代或消灭人类，更加“理性”一些，调子是乐观主义的。

洪:

老@wei 你还是要待价而沽，找机会当老黄忠，杀一回nlp夏侯渊啥的，抖抖威风。赶紧做benchmark，你为刀斧手，syntaxnet啥的为鱼肉。

我:

杀一回nlp夏侯渊根本不是问题。

现在说的是取代程序猿，凭什么他们成为劳工中的贵族。

【2】谷歌搜索真地从规则和 heuristics 调控正在过度到深度学习吗？这是里面爆料的新发展？

（benchmarking 我心里有数，稳操胜券：新闻媒体如果所报 94 为确，那么大家都已经登顶，基本不分伯仲，没多大余地了。一旦超越领域限制，哈哈）

我疑惑的是这个报料：quote 甚至，Google搜索引擎这座由人工规则建立起来的“大厦”也开始仰仗这些深度神经网络。2月份，Google用机器学习专家John Giannandrea替换掉了多年以来的搜索部门负责人，还开始启动一个针对工程师的“新技能”再培训项目。“通过培养学习机制，我们不一定非要去编写规则了。”Giannandrea告诉记者。

这个转移如果是真地，对于搜索这么大的一个产业，在根基上做这种转移，在这种热昏的大气候下，哈哈，是福不是祸，是祸躲不过，谷歌这座搜索大厦是不是面临倾覆的前兆？不过想来即便想在 existing 手工调控的搜索路线中夹带新货，management 也不会冒进，估计是逐渐渗透和试验，否则不是自杀？

关于这个，有一些背景，见我以前的博文：《再谈机器学习和手工系统：人和机器谁更聪明能干？》

还有 [转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习？

Nick:

我赶脚伟哥最近修改resume和google开源parser有关系。再不改嫁就真砸手里了。

说到两条路线斗争，最极端的符号派当属定理证明，我最近在写篇定理证明简史。你们想听啥，告我一声，我再加料。

白:

那篇不需要“程序猿”的文章，理论上是错的，懒得转也懒得评。

我:

谁能证实谷歌搜索要走深度学习取代规则调控的路线？

Nick 真以为 SyntaxNet 对我是威胁吗？是一个 alert，是实。

南:

Nick大师逗你玩呢

我:

威胁还太远。alert 是因为确实没想到这一路在新闻领域训练能这么快达到94的高度，因为这个高度在我四五年前达到的时候，我是以为登顶了，可以喘口气，不必再做了。从应用角度，确实也是 diminishing returns 了，没有再做的价值了。如果想争口气的话，有些已知的地方还可以再做圆，那还是等退休没事儿的时候玩儿比较合适。

问题不在那里，问题在这儿：

【3】领域转移和语义落地

机器学习的系统天生地难以领域转移，SyntaxNet 恐非例外。你花费牛劲儿，把各种 features 设计好，优化了，加上真正海量的训练数据，在一个领域譬如新闻媒体，达到了最优的 benchmark 譬如 94%，但是一旦转换领域，performance 直线下滑是常见的问题。除非 retrain，这个谈何容易，不论。

陈:

新闻能做到的话，在其他领域，无非就是积累数据

我: 你的说法是经典的。

quote 当然，还是要有人来训练这些系统。但是，至少在今天，这还是一种稀缺的技能。这种工作需要对数学有高层次的领悟，同时对于“有来有往”的教学技巧有一种直觉。“使这些系统达到最优效果的方法差不多是一门艺术”，Google Deepmind团队负责人Demis Hassabis说。“世界上只有寥寥数百人能出色地完成这件事。”

（这么说来还不错，世界上还有几百号大牛可以玩转它。另一条路线断层了，能玩转的会有几十人吗？）

以前就不断听说，同一个算法，同一批数据，甚至基本相同的 feature design，不同人训练出来的结果大不相同。虽然科学上说这个现象不合理，科学的东西是可以完全重复的，但是如果参杂了艺术或某种 tricks，说不清道不明的经验因素啥的呢。不用说得那么玄，重新训练的确不是一个简单的过程重复。

Self-quote：

问题的另一方面是，机器学习是否真地移植性那么强，象吹嘘的那么神，系统无需变化，只要随着新数据重新训练一下就生成一个新领域的系统？其实，谈何容易。首先，新数据哪里来，这个知识瓶颈就不好过。再者，重新训练的过程也绝不是简单地按章办事即可大功告成。一个过得去的系统常常要经历一个不断调控优化的过程。

说到这里，想起一段亲历的真实故事。我以前拿过政府罗马实验室10多个小企业创新基金，率领研发组开发了一个以规则系统为主（机器学习为辅，主要是浅层专名标注那一块用的是机器学习）的信息抽取引擎。我们的政府资助人也同时资助另一家专事机器学习的信息抽取的团队（在美国也是做机器学习很牛的一家），其目的大概是鼓励竞争，不要吊死在一棵树上。不仅如此，罗马实验室还选助了一家系统集成商开发一套情报挖掘应用软件，提供给政府有关机构试用。这套应用的内核用的就是我们两家提供的信息抽取引擎作为技术支撑。在长达四年的合作中，我们与集成商有过多次接触，他们的技术主管告诉我，从移植性和质量改进方面看，我们的规则引擎比另一家的机器学习引擎好太多了。

我问，怎么会，他们有一流的机器学习专家，还常年配有一个手工标注的团队，引擎质量不会太差的。主管告诉我，也许在他们训练和测试的数据源上质量的确不错，可是集成商这边是用在另一套保密数据（classified data）上，移植过来用效果就差了。我说，那当然，训练的数据和使用现场的数据不同类型，机器学习怎么能指望出好结果呢，你们该重新训练（re-training）啊。你们用他们引擎五年来，重新训练过几次，效果如何？主管说：一次也没有重新训练成过。重新训练，谈何容易？我问：你们不可以组织人自己标注使用领域的数据，用他们的系统重新训练？主管说：理论上可行，实践上步步难行。首先，要想达到最优效果，当然是根据我们的数据重新标注一个与引擎出厂时候大体等量的训练文本集来。可那样大的数据标注，我们根本无力做成，标注过程的质量控制也没有经验。结果是我们只标注了部分数据。理论上讲，我们如果把这批自己的数据加到引擎提供者的训练数据中，重新训练可以把系统多少拉到我们的领域来，效果总会有提高。但是我们不是信息抽取和机器学习专家，我们只擅长做系统集成。机器学习用新旧数据混合要想训练得好，要牵涉到一些技术细节（甚至tips和tricks）和一些说明书和专业论文上不谈的微调和小秘密。尝试过，越训练效果反而越差。我问：那怎么办？遇到质量问题，怎样解决？他说：没什么好办法。你们不同，我们只要例示观察到的错误类型，你们下一次给我们 update 引擎时基本上就已经解决了。可我们把问题类型反馈给机器学习开发者就不能指望他们可以改正，因为他们见不到这边的数据。结果呢，我们只好自己在他们的引擎后面用简单模式匹配程序打补丁、擦屁股，可费劲了。

我当时的震惊可想而知。一个被NLP主流重复无数遍的重新训练、移植性好的神话，在使用现场竟然如此不堪。学习大牛做出来的引擎在用户手中四五年却连一次重新训练都实施不了。系统成为一个死物，完完全全的黑箱子。所有改进只能靠隔靴搔痒的补丁。
from 【科普随笔：NLP主流成见之二，所谓规则系统的移植性太差】

即便是同一个大厨，做了一锅好饭菜以后，下一锅饭菜是不是同样好，也不是铁定的。

【4】这一点最重要，白老师批评。如果你的“模型”就不对，你怎么增加数据，怎么完善算法，你都不可能超越。这里说的是自然语言的“样子”，即白老师说的“毛毛虫”（见 [转载]【白硕- 穿越乔家大院寻找“毛毛虫”】）。

整个自然语言的边界在哪里？不同语言的“样子”又有哪些需要不同调控的细节？

这些东西有很多体悟，并不是每一种都可以马上说清楚，但是它是的确存在的。无视它，或对它缺乏认识，最终要栽跟头的。

Nick:

那得看是什么餐馆，麦当劳每天味道都同样，路边馄饨摊每天各不相同。

我: exactly 麦当劳每天一样的代价是低品质，它要保持 consistency 就不可能同时保持高品质，只能永远在垃圾食品的标签下。

Nick:

我意思是你今能卖麦当劳的价钱，再不嫁，明就馄饨摊了。

我:

鼎泰丰来湾区了，小笼包子比他家贵出好几倍。前两天一尝，果然名不虚传。被宰认了，因为心甘情愿，谁叫它那么好吃呢。

我又饿不死，何苦卖麦当劳呢？怎么也得成为鼎泰丰吧。