【掌故：“白头宫女说微软”】

想到一个简单的区分NLP文傻和理呆的试金石：听到P和NP，首先想到介词和名词短语的是前者；首先想到计算复杂性的是后者。二者同时想到的是超人。这个群估计一多半是理呆，文傻属于珍稀品种，应予保护。

很长一段时间，听到 IE 我就想的是信息抽取这个改变了我人生道路的研究领域。而不是微软的那款破劳什子。

曾几何时，微软帝国征服世界，指哪打哪，不可一世。WordStar 后是 Word Perfect 教育了市场，可是 Word 一来，溃不成军。1-2-3 曾何等 popular，可 Excel 席卷过来，片甲不存。到了 Netscape 开拓了互联网的广阔疆土，IE 上场，集中优势兵力，泰山压顶。据说当年的微软 campus，帝国霸气毕露，臣民情绪激昂，日夜兼程，IE 团队的 QA组不间断测试与 Netscape 的各项指标的此起彼伏，直到全面压倒，于是在帝国为自己的对手举行了一场隆重的葬礼，场面壮观而感性。

那是怎样的一个帝国时代，微软股票连续分裂，仍不断上扬，记得在视窗95（？）发布的当天，全美的电视台全天候报道这个软件巨无霸，播音员把微软的OS和Office比喻为信息时代为自己开的现金账户，财源滚滚而来，来自全世界消费者。

就在微软如日中天的时候，1996年吧，我有幸一瞥帝国风采，作为他们NLP组 short listed 的候选人，被招去面试。从温哥华到西雅图 Redmond 总部，一个小小的候选人，HR 居然给订了头等舱和五星酒店。

Bill Gates 当时对NLP组寄予很高期望。MindNet 那个 demo 蛮 impressive 的，一个基于词典定义自动parsing建立起来的一个知识图谱。各种关系线条（其实基本等价于把维基百科map到图谱的内部数据结构去），很炫酷。可没人知道怎么用这个图谱。来自定义的知识，基本构成是一个本体知识库（ontology），并没有多少情报知识。落地显示价值方面有很大挑战，总之是探索了近十年，也没落地下来。后来据说是利用它和parsing，试图落地到MT。结果 Brill 来了，带领的机器学习组叫 NLG（NL Group，not NL Generation），几个月就做出了一个 MT 与这个老牌的 NLP 组，做企业内恶性竞争，NLP 一败涂地。这是统计NLP碾压规则NLP的一个历史性案例，发力点是有海量自然带标数据（人工对照译文）的MT，也不奇怪。最终导致 NLP 组的大裁员。好像除了英语和日语，其他语种的NLP小组全部遣散。

要说情报知识图谱由于其情报性，由于大数据的信息过载，还有落地到产品、显示价值的一些空间，一个本体知识库要落地，就艰难多了。本体知识库，by nature，相对固定有限，可以人工穷尽，不像情报知识那样具有流动性，需要大数据的持续更新处理。你做得再花哨，毕竟是自动从数据生成的，必然具有噪音，而且逻辑不完备。你怎么跟董老师这样潜心30年研发出来的深思熟虑精心设计的本体知识体系 HowNet（知网）去 pk 呢？所以战略上，MindNet 就走错了路。也是当时的条件所限。他们的那个基于规则的 parser，鲁棒倒是还鲁棒（比起多数局限于实验室的规则系统），但太粗线条了，精准远远不够。他们当年没有办法拿那种质量的 parser 去应对各种自然语言的文体和数据源，于是聚焦在词典的定义这个子语言上去细磨。定义的句式不外是 "a is b's c” 这样的句式，容易拉出一个本体知识链条出来。能想出这么一个应用不成熟技术的切入点，也真是难得。

记得当年还利用这个parser做过 grammar checking，在 Word 内。根本就无法用，几乎全是 false alarms。后来好像是找了另一家的 grammar checker 纳入了 Word，经过这么多年，终于变得可用了。当然，目前最好用的 Grammar Checker 并不在 Word 内，而是可自由下载的 Grammarly，已经渗透市场，无孔不入了。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复