【掌故:“白头宫女说微软”】

想到一个简单的区分NLP文傻和理呆的试金石:听到P和NP,首先想到介词和名词短语的是前者;首先想到计算复杂性的是后者。二者同时想到的是超人。这个群估计一多半是理呆,文傻属于珍稀品种,应予保护。

很长一段时间,听到 IE 我就想的是信息抽取这个改变了我人生道路的研究领域。而不是微软的那款破劳什子。

曾几何时,微软帝国征服世界,指哪打哪,不可一世。WordStar 后是 Word Perfect 教育了市场,可是 Word 一来,溃不成军。1-2-3 曾何等 popular,可 Excel 席卷过来,片甲不存。到了 Netscape 开拓了互联网的广阔疆土,IE 上场,集中优势兵力,泰山压顶。据说当年的微软 campus,帝国霸气毕露,臣民情绪激昂,日夜兼程,IE 团队的 QA组不间断测试与 Netscape 的各项指标的此起彼伏,直到全面压倒,于是在帝国为自己的对手举行了一场隆重的葬礼,场面壮观而感性。

那是怎样的一个帝国时代,微软股票连续分裂,仍不断上扬,记得在视窗95(?)发布的当天,全美的电视台全天候报道这个软件巨无霸,播音员把微软的OS和Office比喻为信息时代为自己开的现金账户,财源滚滚而来,来自全世界消费者。

就在微软如日中天的时候,1996年吧,我有幸一瞥帝国风采,作为他们NLP组 short listed 的候选人,被招去面试。从温哥华到西雅图 Redmond 总部,一个小小的候选人,HR 居然给订了头等舱和五星酒店。

Bill Gates 当时对NLP组寄予很高期望。MindNet 那个 demo 蛮 impressive 的,一个基于词典定义自动parsing建立起来的一个知识图谱。各种关系线条(其实基本等价于把维基百科map到图谱的内部数据结构去),很炫酷。可没人知道怎么用这个图谱。来自定义的知识,基本构成是一个本体知识库(ontology),并没有多少情报知识。落地显示价值方面有很大挑战,总之是探索了近十年,也没落地下来。后来据说是利用它和parsing,试图落地到MT。结果 Brill 来了,带领的机器学习组叫 NLG(NL Group,not NL Generation),几个月就做出了一个 MT 与 这个老牌的 NLP 组,做企业内恶性竞争,NLP 一败涂地。这是统计NLP碾压规则NLP的一个历史性案例,发力点是有海量自然带标数据(人工对照译文)的MT,也不奇怪。最终导致 NLP 组的大裁员。好像除了英语和日语,其他语种的NLP小组全部遣散。

要说情报知识图谱由于其情报性,由于大数据的信息过载,还有落地到产品、显示价值的一些空间,一个本体知识库要落地,就艰难多了。本体知识库,by nature,相对固定有限,可以人工穷尽,不像情报知识那样具有流动性,需要大数据的持续更新处理。你做得再花哨,毕竟是自动从数据生成的,必然具有噪音,而且逻辑不完备。你怎么跟董老师这样潜心30年研发出来的深思熟虑 精心设计的本体知识体系 HowNet(知网)去 pk 呢?所以战略上,MindNet 就走错了路。也是当时的条件所限。他们的那个基于规则的 parser,鲁棒倒是还鲁棒(比起多数局限于实验室的规则系统),但太粗线条了,精准远远不够。他们当年没有办法拿那种质量的 parser 去应对各种自然语言的文体和数据源,于是聚焦在词典的定义这个子语言上去细磨。定义的句式不外是 “a is b’s c” 这样的句式,容易拉出一个本体知识链条出来。能想出这么一个应用不成熟技术的切入点,也真是难得。

记得当年还利用这个parser做过 grammar checking,在 Word 内。根本就无法用,几乎全是 false alarms。后来好像是找了另一家的 grammar checker 纳入了 Word,经过这么多年,终于变得可用了。当然,目前最好用的 Grammar Checker 并不在 Word 内,而是可自由下载的 Grammarly,已经渗透市场,无孔不入了。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论