见鬼:科学网连这篇后来正式发表在专业杂志上的文章也屏蔽了!留存于此。
上篇博文【科普随笔:NLP的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。
需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。
不过关于NLP过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。
虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it
近来浏览几篇 NLP (Natural Language Processing) 领域代表人物的综述,见其中不乏主流的傲慢与偏见,令人惊诧。细想之下,统计学界的确有很多对传统规则系统根深蒂固的成见和经不起推敲但非常流行的蛮横结论。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)可怕的不是成见,成见无处不在。真正可怕的是成见的流行无阻。而在NLP这个领域,成见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些成见成为常态。因此想到立此存照一下,以后再一条一条细论。下列成见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些成见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条成见找一个相应的 crappy 规则系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是其要害所在。
-
【成见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:没有知识瓶颈)。
-
【成见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习因为算法和系统保持不变,转换领域只要改变训练数据即可(言下之意:移植性强)。
-
【成见三】规则系统很脆弱,遇到没有预测的语言现象系统就会 break(什么叫 break,死机?瘫痪?失效?),开发不了鲁棒(robust)产品。
-
【成见四】规则系统的结果没有置信度,鱼龙混杂。
-
【成见五】规则系统的编制越来越庞杂,最终无法改进,只能报废。
-
【成见六】规则系统的手工编制注定其无法实用,不能scale up,只能是实验室里的玩具。
-
【成见七】规则系统只能在极狭窄的领域成事,无法实现跨领域的系统。
-
【成见八】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。
-
【成见九】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。
-
【成见十】从结果上看,机器学习总是胜过规则系统。
所列“成见”有两类:一类是“偏”见,如【成见一】至【成见五】。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型,浅尝辄止,然后遽下结论(jump to conclusions)。盗亦有道,情有可原,虽然还是应该对其一一纠“正”。成见的另一类是谬见,可以事实证明其荒谬。令人惊诧的是,谬见也可以如此流行。【成见五】以降均属不攻自破的谬见。譬如【成见八】说规则系统只能分析规范性语言。事实胜于雄辩,我们开发的以规则体系为主的舆情挖掘系统处理的就是非规范的社交媒体。这个系统的大规模运行和使用也驳斥了【成见六】。
上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 :)
【系列姐妹篇】
【其他相关篇什】
why hybrid? on machine learning vs. hand-coded rules in NLP
原载 《W. Li & T. Tang: 主流的傲慢与偏见:规则系统与机器学习》
【计算机学会通讯】2013年第8期(总第90期)