泥沙龙笔记:聊聊 NLP 工业研发的掌故 屏蔽留存

泥沙龙笔记:聊聊 NLP 工业研发的掌故

屏蔽已有 7109 次阅读 2015-6-27 22:17 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 自然语言

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

尼克介绍的那个讯飞语音输入,简直是神器,向我们的语音同行,脱帽致敬。相信语音是统计的天下。Nuance作为源头的爱疯Siri和讯飞的语音,都快登峰造极了,叹服。

两年前 Nuance 语音以上,要往 text NLP (Natural Language Processing) 发展,找过我多次,作为他们新实验室头儿的候选人。互动了很久。这要是进去,可不是就进入了统计学家和精算师们的海洋,虎口啊(笑)。精算师们的头脑里压根儿就想不到统计外还有其他。

后来他们把老革命家Ron Kaplan 从微软 Powerset 挖去,做了他们这个部门的头儿。Ron 是 PARC实验室的老将。早期 FSA 算法研究的推手(之一)。他们当时的电脑硬件的限制,对线性和效率要求极为苛刻。他津津乐道的就是当年怎么在最苛刻的硬件条件下,做出名堂来。后来他想让我做他的副手,毕竟他老人家比我还老,希望找一个能带队伍打仗的。我们相谈甚欢,有很多共同语言,因为他也是规则派,线性派,也做过 deep parsing,有很多共同的感受。

这里面涉及NLP的一些掌故,就索性在这里说说。大家都知道的是,施乐的PARC实验室是世界上最著名的IT发明创造的发源地。他们有本事招揽天下最优秀的科学家和天才发明家,但没本事开发产品,都是为他人做嫁衣裳。于是成就了乔布斯,乔布斯又成就了微软,如此等等,才有我们今天的电脑和IT大业。

这件事儿对施乐很刺激。于是十五六年前,PARC 决定尝试肥水不外流。自己 spin-off 一些 start ups, 对 PARC 的成果做技术转移和产品孵化。其中搞NLP这块的,就spin off了一家叫做 Inxight 的公司,大家应该听说过,那是工业界的NLP leader。PARC 名声大啊,除了自己投资外,吸收其他投资也不难,前后圈了10+轮风投。他们在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。

这样唠叨下去,太慢,还是要长话短说。

总之是,一开始还不错,因为搜索引擎市场里面,做多语言的都要stemming,他们也就有了一些客户。可是世界上有多少家做搜索引擎?以前百家齐放还好,后来天下归一就难了。

如果可能,希望短话长说

总之是,NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。那些当年雄心勃勃要在工业界掀起NLP革命的Inxight的创始人们(四个创始人,我认识三位),也都跟我差不多,随着这个行业一同老去,还是看不到希望。(我个人算幸运的,先是赶上了世纪末的大跃进(互联网泡沫),如今又赶上了大数据,似乎见到了NLP真正的工业曙光)。

RW:@wei component technology 很难生存,这句话到位

他们也真能,圈了那么多钱,终于无疾而终。白菜价卖给了 SAP。

高科技的事情大多如此,一旦被巨头买下,科技创新就死,然后就是不了了之。

:不奇怪

见过很多这样的。这 Inxight 进了 SAP 就是如此。这里面的故事非常 telling,因为若干年后 SAP 与我现在的公司达成战略伙伴,要用我们的social这块。开始接触的时候,我说,你们的 Inxight 呢,不是听说后来也做了 sentiment 吗,而且是 NLP leader 出身啊。进一步接触才明白,那叫一个天壤之别。将别三日,江河日下啊,廉颇老矣不能饭,不足道也。

回头再说这 PARC,Inxight 虽然不成,这个“上世纪的技术” FSA 并没死,前仆后继者还有。Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。

Powerset 其实很值得赞佩,因为他做的parser工业最靠谱(除了在下的外,呵呵)。但是钱要烧完了. 总得有个产品啥,它没有。只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。概念上证明了,关键词做不到的搜索,NLP parsing 是有用的。

RW:那怎么活?@wei

Nick:@wei powerset我还较熟悉。powerset现在还在吗?

还在,但跟死了一样,头儿和主要技术人都走了,技术本身基本也没融入微软产品。

Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。

当时,Powerset 钱快烧完的时候,还想不出来做什么产品,Ron 的团队着急了。嚷嚷着超越Google,可是只有个高效的parser,没法说服人啊。于是想到,找一个什么不大不小的对象开刀合适呢,因为 parsing 是有成本的。他们口口声声,是要做下一代Google,取代关键词搜索。Google 最多是牛顿,Powerset 要做爱因斯坦。

这些宏观上的忽悠,完全没有问题,因为原理没错,parsing 是 keywords 的爱因斯坦,可是工程上有成本的考量啊。结果他们想了一招,拿 wiki 开刀。wiki 当时的那个量,还比较合适做demo,Ron 于是在互联网的大海找到了这么一滴水。

Nick:@wei 这是何时的事?

六七年前吧。他们于是把wiki parse 了一遍,做了一个 demo 给大家看,蛮impressive,于是,微软就买了。他们也算善终了,至少投资人没亏,小赚一笔。微软的心态,是不管三七二十一,只要宣称能取代Google 的技术,先拿下再说,管他消化得了消化不了。因此 Powerset 比 Inxight 的风投结果好,至少没有贱价出售。如果 Powerset 错过了微软这个冤大头,那就比Inxight 还惨。

RW:是不是最终又给微软毁了?

微软当然毁了它,比SAP 还不如。

Nick:貌似powerset还做search整合,把好几个搜索结果拿来从他们这过一下

前几年我做多语言deep parsing项目,招人的时候,去 Powerset 挖到一位,很能干的。本来高高兴兴做 parsing,是从 PARC 被 Ron 带出来的,后来微软吃掉后,被分配去做 query 的分析。query 在搜索是啥,不就是两三个词的组合么,一个做语言语法分析的人,现在必须抠那几个词,为了一些细琐的需要(应用上自然很重要),简直郁闷极了。这位其实懂很多欧洲语言,也有电脑素养,我挖他过来做大数据的语言分析,他自然很开心。Ron 不乐意了,曾明着跟我说过。可他也没法,他自己勉强在微软帮助支撑了两三年,最后还是去了 Nuance,祝他在 Nuance 可以开一个新局面。

Nick:parsing完再搜索vs搜索完parsing,哪个效果好?

这都扯到哪里了。这些掌故说起来一大车,包括当年的 Whizbang!那可是名校计算机主任亲自出来领头做的NLP 公司啊,特别擅长网页layout的机器学习,从中做信息抽取,最后比我的前一个公司 Cymfony 结局还惨。世纪之交高科技泡沫破灭,我们挺住了,开发了产品,他们的3000多万的投资人却中途撤资了,最后各种技术贱卖,100万即可买到所有的源码和技术说明,先找到我们,说是最适合的买主,我们当时没精力消化这些,后来是Inxight买了。

说起来话长,故事好听

再往前的掌故还有Answerlogic问答系统,也是在上一轮 bubble 时候闹腾得特欢的NLP 公司。钱烧完了,就完了。

RW:这句话经典![微笑]

所以说,这 NLP 要做成,不容易。不是技术不到位,技术参差不齐,但是优秀的引擎(精准、鲁棒、高效)是已存的现实。我敢打包票。

RW:是不是有ahead of the market 之嫌?@wei

技术不是问题(笨蛋不算,你要是找到一个只会忽悠的笨蛋,那是 due diligence 太差,怨不得人)。

Nick: 嗨,老套路,骂别人是为了夸自个。

可不,卖瓜王爷。不过,那也是客观事实,内举不避己,不能因为自己能就偏要说不能,最后还是要系统说话。

当然,这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的monster,高效达到线性实现,real time 应用),确实不是一蹴而就能成的。这里有个n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉,体会的人不多。打住。

高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。

RW: 否则不叫风投

为了减少盲目性,产品经理和制定产品策略的老总至关重要。

高技术公司的产品老总在宏观上了解NLP的潜力,同时深谙市场的卖点,了解客户的需求和痛点,可以具体制定产品和产品features的specs给 NLP developers,只有这样合作才能成事。

回尼克的问题, parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。

Nick:我就是这个意思。我印象当年powerset给我看的demo是先搜后parsing。

但是这个问题,更准确的表述应该是,一个query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。原因我不清楚,但是明显是利用不够。话说回来,如果巨头都能那么灵活,也就没有小公司的活路了。

Jing:用户量大了后用户的历史行为就间接人肉parsing了。

历史行为那是另一个侧面和角度,可以满足信息需求的一个部分。历史行为确实也等于间接利用了人工的parsing的结果,因为人在选择点击阅读某个网页的时候是扫描理解(parse)了链接上的标题的。但那不能涵盖 parsing 所能起的全部作用。

Jing:query understanding包括这个步骤。你前面提到的那个分去做query的哥们完全可以做这个呀

query understanding 是非常重要的一个环节,可是做的人痛苦啊,两三个词玩不出语言学的名堂来,没意思。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。

【相关博文】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 2015-06-20

乔姆斯基批判 2015-06-15

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

【置顶:立委科学网博客NLP博文一览(定期更新版)】


http://blog.sciencenet.cn/blog-362400-901032.html

上一篇:“运动”损伤与体重有很大的关系
下一篇:权利?义务?说说“父亲们休产假”的事儿

 

10  戴德昌 李伟钢 陈辉 黄永义 徐耀 麻庭光 武夷山 赵凤光 yunmu bridgeneer

发表评论评论 (3 个评论)

删除 回复 |赞[3]赵凤光   2015-6-29 10:49
胜者为王,剩

删除 回复 |赞[2]麻庭光   2015-6-28 08:09
有意思的5万小时定律,那可是一代人的时间,需要入门精准运气而又不被淘汰,这是可望而不可求的机遇。

删除 回复 |赞[1]黄永义   2015-6-28 06:01
闲话不闲,解释关键。

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据