《AI 赚钱真心难》

朋友圈看到关于风投之神孙正义的新闻《大溃败!今天,阿里最大股东断臂求生!》,令人感慨。

上帝似乎是公平的,他让上一波科技革命赚取太多的富豪,在新一波泡沫中吐回来,做了必要的死在沙滩上的前浪。他不亏,谁亏?What comes around goes around,这是最值得吐血的对象。

这一波AI泡沫,比上一波互联网泡沫,更加诡异。你说它全是泡沫吧,背后其实有很多干货。你说它是真的吧,除了马斯克特斯拉的自动驾驶和少数AI项目,绝大多数AI无法规模化落地,成为可以带来利润的生产力。这个诡异怪象让很多风投滴血,甚至把很多AI专家也搞糊涂了。

到底是巫术还是奇迹,为什么出不来产品,为什么靠AI赚钱这么难?

迄今为止,AI赚了钱或得了利的主要是三种人:第一种是赚了风投的钱,吐血的是大大小小的孙正义。第二种是搭了巨无霸的顺风车,那些IT大厂不惜巨资做AI,不是因为AI给他们做出了赚钱的产品,而是想靠炒作AI提升股价,最终是让股民买单。大厂无一例外不敢不上,不能不鼓吹AI,无论其创始人对AI是真了解还是门外汉。他输不起,泡沫起处,你不冲浪冒险,你连游戏都玩不了,入不了局。 第三种才是真正找到了市场切入点,把AI落地做成了规模化产品,占住了某个领域市场,也彰显了 AI 的威力。可惜,这第三类跟大熊猫似的,非常珍稀,而且多是九死一生侥幸生存下来的。包括特斯拉的自动驾驶,也是大难不死,现在才见到了曙光。

各大AI巨头及其团队和平台呢?就数他们的动静大,尤其是如今大数据的时代,讲的是机器算力和数据为王。有人形象地称之为“军备竞赛”,这使得过往在AI研究界领先的大学教授处于弱势,大学实验室在数据和机器两方面都无法匹敌IT大厂。其实要是细算,也不是大厂的AI平台在赚钱。看得见的最大利益还是AI的话题性和热度,对于帮助维持和提升股价极为有利。譬如谷歌搜索,这一波AI热之前的技术依然是主体。你要说新的谷歌搜索更加强大,是融入新的AI(例如知识图谱),那当然也没错;但本质上还是以前的关键词搜索以及广告模式在源源不断地赚钱。谷歌的 AI 平台说是全世界都在用,赚了多少钱?微软、亚马逊倒是靠云服务赚钱了,这云服务说是融入了 AI 也不能算错,但本质上是计算资源的优化,而不是AI,至少不是 硬核AI。Alexa 智能对话不是 AI 吗?也用到了云。但智能对话一直是赔本的买卖。可这是端口,就好像上一波互联网革命时门户网站是端口一样。不能不上,赔本也要做。希望寄托在AI的明天,而不是当下。

机器翻译本来是个可以赚钱的产业,也恰好是这一波AI神经网络突破的最好体现。可各大厂一拥而上的互联网免费服务模式,活活把这个产业做死了。总之,迄今为止,纯靠AI赚钱,而不只是烧钱,还是熊猫般珍稀。所以说AI是泡沫,大体是对的,只不过不经历这波泡沫,你没有通向明天的门票。

我帮助创业、服务了10年的 Netbase,现在看来算是在社会媒体大数据舆情自动挖掘的市场真正站住了。靠的是硬核AI语言技术,属于熊猫类 success story,连续多年被列为美国NLP市场屈指可数的几个 players 之一。但那也是侥幸,是在烧了七八千万投资以后才站住的。同期创业的几十家做舆情的AI初创,全部灰飞烟灭。算是尸骨堆里爬出来的熊猫,美国只此一家了,世界上真正的对手还有一家英国的 BrandWatch。

最后谈谈AI落地成功故事中的奇葩,特斯拉的自动驾驶。在众多自动驾驶的团队中,特斯拉自动驾驶眼看要成为软件摇钱树了。

特斯拉自动驾驶最新的版本是 2020.24.6.1,昨晚刚收到自动更新。主要改进是绿灯过十字路口不再需要用户首肯了,可以自己前行。这个功能它其实早就有了,就是压着不给用户,为了谨慎,或者为了吊人胃口。现在给了,被宣扬为向 city self-driving 进军路上的一个里程碑。为此,这套所谓的全自动驾驶(FSD,Full Self-Driving)软件从7月1号开始再加价1000美元,从现在的 7000 增加到 8000,这是想刺激还没有购买 FSD 的车主,赶快在提价前上车,为特斯拉 Q2 因疫情停工而疲软的营收添砖加瓦。这是AI赚钱的活生生的例子。

马斯克这么一来,特斯拉软件和硬件的比例进一步向软件倾斜了。约4万美元的模型三,其中自动驾驶软件就是一万,占了大约四分之一。这个比重在汽车制造企业是难以思议的高,属垄断价格,没有竞品。

一万软件是这样的:基本的辅助驾驶(叫 auto-pilot 功能,主要是自动直线行驶和自动跟车这两项)是以2000-3000美元的价格算在特斯拉的售价里面,现在是标配必选。可选项是所谓FSD,额外的7000美刀(过两天就是 8000),主要功能包括:自动进出停车位、自动换线、高速公路上全自动(包括高架桥自动选择匝道,从一条高速换到另一条高速)、识别并执行红绿灯、智能召唤,还有尚待实现的十字路口转向,最后就是马斯克所谓 feature-complete 的可以执行点到点的自动驾驶能力。虽然马斯克声称今年年底前完成 FSD feature complete,没有人认为他可以做到,FSD 本质上是在销售还没有完全实现的 AI 能力。

软件的特点是,一旦实现了功能,软件的复制成本基本是零,这就使得同样的成本投入,利润空间可以非常巨大,一切取决于用户的数量。马斯克是特别功于算计的商人(企业家),打着AI的招牌,不断压榨粉丝。其实到网上调研一下就知道,论先进性和性能表现,特斯拉的自动驾驶,比先进的系统,差距还很大。为了节省成本,坚决拒绝激光雷达精准测距的特斯拉,不得不依靠计算机视觉(CV,computer vision)实现自动驾驶,天然处于不利地位,只能在背后利用信息融合的算法来仿真激光雷达的景深测距效果,做起来非常吃力。但是,也正因为此,特斯拉是唯一真正把自动驾驶交付到普通客户手中的厂家,因此他有垄断定价权。没有第二家做到这一点。自动驾驶强的,成本下不来,无法量产和普及。自动驾驶刚起步的,还在非常有限的辅助驾驶里面出不来,无法让人体验到可以称得起自动驾驶的能力。谁说AI不能赚钱呢?运气之外,还是要看AI企业家的艺高胆大啊。

 

 

【相关】

大溃败!今天,阿里最大股东断臂求生!

【NLP自选系列2020专栏连载】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《大数据人工智能时代的无中生有》

最近玩自称经过大数据训练的智能人脸上色的软件(colorize app),把收集到的黑白照片一股脑送进去试验。看黑白时代的亲朋旧友的留影,一个个突然鲜活起来,让人惊喜。分享给老友怀旧,大家都感觉很神奇。先看看当年的女神夏梦的彩色还原,还有小花陈冲。对了,还有光彩照人的绝代风华奥黛丽·赫本。

 

 

 

 

不要看胳臂和腿,还有手,彩色背景下跟乌爪子似的。这个软件专注人脸上色,还没顾上其他。人脸上色还是很到位的,不温不火,非常自然。我当年的黑白婚照也重放光彩了哈:

记得在黑白时代,照相馆里面有为照片上色的服务。一切全手工制作,描眉画眼,粉腮白肤,总是透着一种假,根本不如电脑上色的圆润自然。

这是什么黑科技?答曰,这是大数据时代人工智能的拿手好戏。“无中生有”的极致,乃是大数据AI的特长。

前两天看【新智元】的两篇报道,均配有样例图示。第一则是《杜克大学:AI工具精细还原模糊图像,可瞬间将分辨率提高64倍》。

第二则是《中科院DeepFaceDrawing:只需提供小学生水平的简单线条,便可生成逼真肖像》。

老友说:这个太牛了,警察可以根据画师的画大大缩小搜查范围。没摄像头的地方,只有有人看到嫌疑人,都可以用到这技术。

将来的应用可能是这样,根据目击者得来的简单素描,通过参数设置,生成一系列清晰图片,唤起目击者的记忆和印象,从中选择最近的那张。所谓脑补,或曰想象,大抵如此。

以前一直有个误解,以为“想象”、“脑补”(包括通过常识、场景知识和专业知识进行脑补)这种东西是人工智能不可企及的区域。这种东西是不大容易说清楚的,是知识的积淀,经验的积累。传统的符号派人工智能也做过尝试(譬如建立巨大无比的常识库如 cyc,试图施行常识推理),但是终归是太繁复,灰色地带大,缺乏确定性,效果和效益都遭遇挑战。没想到如今大数据与人工智能的结合,特别是深度神经网络技术的突破,为这些东西打开了一扇奇迹般的大门。无中生有不再是美梦一场。

做过常规音影处理的同学都知道,高清度的对象降低维度(譬如从彩色降到黑白)到低清度,没有任何问题,因为信息是处于减少的状态。但逆过程就是挑战,因为需要“无中生有”。 这个挑战以前认为是不可克服的,巧妇也难为无米之炊呀。再大的魔术师也不能真正地无中生有吧?你看他台上从空盒子里面变出一只鸭出来,你心里明白那是假的。这只鸭子肯定是藏在哪里,魔术师用了障眼法,把观众唬住了而已。物质不灭,无中生有是绝对不可能的事情。魔术师自己也承认:魔术都是假的,各有巧妙不同。可人工智能的魔术却不是假的!

关于无中生有,AI老司机老毛说:其实也没那么神,数学上就有外推和插值,还有凭经验猜测,甚至可以随机插值。

这才叫知者不神,神者无知,hence 科普。人在无知的状态中,是很容易神化对象的,这是人的本性,否则人没法解释,也感觉不安。人工智能历史上有个现象,说的就是人对未知的神化,叫“伊莉莎效应”( 拙文《反伊莉莎效应,人工智能的新概念》有介绍)。古往今来所谓奇迹,大多是常态的神化。反过来,也不能因为AI从业者时刻在创造或大或小的奇迹,就失去了庆祝的欣喜。每天面对屏幕中自己创造的奇迹,体验无中生有的上帝般的自由,也是人生一乐。我们走在无尽的大路上,由必然王国逼近自由王国,虽不能至,心向往之。

抒发完职业豪情,回头细看无中生有的背后。物质固然不灭,可观念世界似乎有所不同,更富弹性。然而最大熵定律仍然决定了,信息世界只会越来越趋向混沌,而不是反过来变成清晰。信息补漏是需要资源和能量的,从哪里来的呢?三个字,大数据。当然,光有数据,没有AI能力也不行。这是大数据AI的时代。

孤立地看一张照片,模糊转清晰,黑白转彩色,没有可能凭空而来。但是,有了大数据就不同了。而且这种大数据是天然的“带标数据”(labeled data)。以前说过,机器翻译大数据是天然带标,因为有人类翻译的历史积累。因此特别适合做端到端(end to end)的深度学习,所能达到的翻译质量,比很多学了好多年外语的人的翻译还要通顺得多。现在遇到的这个场景是另一类“自然”带标大数据的端到端场景。无论黑白转彩还是模糊转清晰,所有这些需要“无中生有”的应用场景,都有一个共同特点,就是可以对于大数据对象做“反操作”,从而把自身变成无穷无尽的带标大数据。一切都是全自动的,不需要人工标注,这是多么理想的大数据学习应用场景,不出奇迹也难。把收集到的彩色照片,一锤子全部砸成黑白,端到端的对应就建立起来。剩下的就是拟合了。

这种学习出来的无中生有,会有问题吗?当然有。第一是方向可能偏了,“还原”出来的东西与心目中的印象产生或大或小的距离。第二是趋同,大数据的统计本性,结果是中庸化了。如果原来的对象有独特的特征,大数据脑补是很难还原出独特性的。

对于第一个问题,解决办法前面说了,可以通过某种参数,或者通过某种随机因素,生成一系列候选,而不是唯一的结果,总会有一款比较接近你的想象、记忆或原物。对于第二个问题,其实可以通过大数据的定向化来逐步解决。譬如专门对亚裔建立大数据,专项处理亚裔图像还原的工作。同理,还可以把南方人北方人分开训练。

无中生有的工作,我们20年前就开始做。当年给罗马实验室做项目,遇到的一个难题是历史文献都是全大写。我们的自然语言引擎见到大写,常常当成专有名词了,质量是断崖式下跌。当时,很多 teams (包括 BBN)组织力量标注大写的文献,然后重新训练系统。而我的团队与 IBM 是第一个差不多同时决定不为信息抽取的目标做重新训练,而是先训练一个大小写还原的前处理器。结果整体质量大幅度提升,虽然当时还没有深度学习,用的是传统的机器学习。这是因为恢复大小写的工作可以做得很好,有几乎无穷的自然带标的训练数据(同样是利用大小写规范的文档一锤子砸成全大写)。

至于符号派经典机器翻译中无中生有的故事,上次的科普《语言形式的无中生有:从隐性到显性》已经介绍过了。那根本没用机器学习,但是也还是可以通过蛛丝马迹“无中生有”地生成欧洲语言的形态(形态生成)。那个无中生有的原理不同,依靠的是源语言(中文)文字中的信息冗余,外加语言习惯里的种种  heuristics (表达的习惯性总结),有时候还要加上一些类似“常识”的概念相谐的“脑补”。但老式符号机器翻译中的无中生有终归感觉很吃力,“功耗”很大。在无中生有这个课题上,不得不说,对于任何具有源源不断天然带标大数据的场景,还是大数据深度学习的路子最为强大。深度学习一统机器翻译天下,说明了大数据AI的压倒性优势。同理,图片还原也必然是大数据AI的领地,我们会看到越来越多的应用。可以预见,黑白电影时代的佳作,最终可以自动还原为彩色。

 

 

【相关】

反伊莉莎效应,人工智能的新概念

语言形式的无中生有:从隐性到显性

【NLP自选系列2020专栏连载】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

乔姆斯基批判

已有 7986 次阅读 2015-6-15 00:01 |个人分类:立委科普|系统分类:观点评述|关键词:学者| NLP语言学乔姆斯基

【立委按:微信泥沙龙,谈笑鸿儒,高朋满座,信马由缰,言无所忌,摘之与同仁分享。】

【泥沙龙对话录】

今儿个咱要吐槽乔老爷,不吐不快。

开题:乔姆斯基,对领域的误导,或负面影响,与他对语言学的革命性贡献,一 样大。

他的hierarchy,是天才绝顶的理论,是不可泄露的天机,从而奠定了形式语言的基础,用来创造、解释,或编译计算机语言,是完美的指导。

可是,完美往上走一步,就可能成谬误。乔姆斯基拿这套理论,硬往自然语言套,导致整个领域,在所谓自然语言是free,还是sensitive,还是 mildly sensitive等不靠谱的争论中,陷入泥潭。

太多的人被引入歧途,理所当然地认定,因为自然语言复杂,因此需要 powerful的文法。这个 powerful,是世界上用的最误导的词。

工程师发现,有限状态好用,但经不起理论家的批判:你那玩意儿太低级,不够 powerful,只能拿来凑合事儿。

实际上,做过大工程的人都明白,对象的复杂,并不是使用复杂机制的理由,有本事使用简单机制对付复杂的对象,才是高手。

乔姆斯基最大的误导就是,用所谓自然语言的center递归性,一杆子打死有限状态,他所举的center递归的英语实例,牵强和罕见到了几乎可笑的地步,绝非自然语言的本性。结果一代人还是信服他了,彻底地被洗脑,理所当然以为必须超越有限状态才可以做自然语言深度分析。

为了所谓语言的递归性,人脑,或电脑,必须有个堆栈的结构才好,这离语言事实太远,也违背了人脑短期记忆的限制。世界上哪里有人说话,只管开门而不关门,只加左括号不加右括号,一直悬着吊着的?最多三重门吧,一般人就受不了了。就算你是超人,你受得了,你的受众也受不了,无法 parse 啊。说话不是为了交流,难道是故意难为人,为了人不懂你而说话?不 make sense 嘛。

既然如此,为什么要把不超过三层的center循环,硬要归结成似乎是无限层的递归?

(毛老:递归成了他的宗教。)

不错。乔老爷的递归误导语言学,坑了NLP太久。我对他的语言学不感冒,对他对NLP的误导,更感觉痛心。一个如此聪明强大的人,他一旦误导就可以耽误一代人。被耽误的这一代是我的前辈一代(上个世纪70年代80年代),他们在自然语言理解上的工作几乎一律为玩具系统,在实际应用上无所作为,从而直接导致了下一代人的反叛。老一代被打得稀里哗啦,逐渐退出主流舞台。

在过去30年中,统计NLP的所有成就,都是对乔姆斯基的实际批判,因为几乎所有这些模型,都是建立在ngram的有限状态模式的基础之上。


(洪爷:从乔姆斯基的所作所为,就能分出构造机器智能和解构人类智能难度上的差异。他五十年代略施小计就把形式语言夯成了计算机的Cornerstone,可是穷毕生精力,总是在重构其语言学理论。
毛老:如果没有乔老的那些理论,人们能做出计算机语言编译吗?)
洪爷:语法mapping到语义,总是要做的,不必须用形式语言,就像现在做nlp的人也不必须懂语言学。还是 David Marr,David Rumelhart 等立意高远,总想找到人机等不同智能实现上的共通计算机制。
刘老师:Marr 也是人神级别的
毛老:跟上面问题类似的是:如果没有图灵和冯诺依曼的理论,人们会造出计算机么?
洪爷:Babbage的分析机可行,Ada的程序/算法也早可行。其实,问题不在于出冯诺依曼还是马诺依曼,问题在于,不管他们的理论表面上如何不同,可能都受同样的约束,能力上可都能都等价。而Chomsky 研究的是这些约束能力。
毛老:那图灵不是更加么?
洪爷:Turing 从机器一侧,Chomsky从人一侧。)

洪爷说的是事实,过去三十年不懂语言学做NLP的占压倒多数。但那不是健康状态。不过,语言学里面也很混杂,进来的人很容易迷糊。但是,语言学里面确实有一些指导性的东西,了解与不了解大不一样。比如索绪尔,就值得琢磨。索绪尔说的大多是原则性的,有哲学的意味,是传统的非科学性的语言学,特别具有宏观指导意义,可以提醒自己不至于陷入细节的纠缠,而忘记了方向。他谈的是共性与个性的关系,语言和言语,规则与习惯,共时与现时,都很洞察、到位。

(白老师:我觉得线速、柔性很关键,多层次递归和远距离相关必须搞定。方法不限,八仙过海。)

那些已经搞定了,伪歧义也不是问题,都搞定了。有一种叫做cascaded FSA的方法,与软件工程的做法极其类似,就能搞定这些。前提是指挥者架构者不能失去全局,要胸怀索绪尔,而不是乔姆斯基。架构和interfaces设计好,下面就是模块的开发,匠人的干活,可以做到很深,接近逻辑表达,比chomsky的文法深。传统规则系统受乔姆斯基CFG影响太大,很不好用,而且也无线性算法,所陷入的困境与神经网络以及一切单层的统计系统类似。正如多层的深度学习被认为是AI的突破一样,有限状态一多层,一 cascade,以前天大的困难,递归啊远距离啊伪歧义啊,就消解于无形。

(白老师:数学上的函数复合。)

就这么一个简单的道理,结果至今批判规则系统的人,还在打稻草人,以为规则系统都是CFG那么愚蠢和单层。


乔姆斯基对nlp的误导,还在于它的短语结构的表达法。那个phrase structure破树,叠床架屋,为了追求所谓语言共性,太多的assumptions,既不经济也不好用,却长期成为 community standards,误导了不知多少人。起码误导了 PennTree,通过它误导了整个领域。,

(白老师:某种意义上,nlp是应用驱动的。与应用匹配,Ngram也不算误导。与应用不匹配,HPSG也算误导。抽象的误导不误导,让语言学家掐去吧。一个topic问题,扯了这么多年。)

语言学家打烂仗的事儿多了,说起来这与乔老爷也有很大关系。有个 self,相关的所谓 Binding Theory也是论文无数,大多垃圾,这与老乔的负面影响直接相关。为追求 universal grammar,和脱离语义的generalizations,走火入魔,大多是无谓的口水战争,既不能推进科学,也不能推进应用,唯一的好处是帮助了很多语言学博士的选题,培养出一茬接一茬的语言学博士。可是,毕业了还是找不到工作。老乔由于其超凡的智力和名气,帮助提升了语言学的地位,但他没有能力影响市场,结果是全世界语言学家过剩,懂得茴字五种写法的落魄腐儒,如过江之鲫,谁能给他们就业机会?


这里面的要害在,所有的语言分析,不可能为分析而分析,都是为了求解语义的某种需要,可老乔强调的语法纯粹性,要脱离语义才好研究终极的机制,这个argument有历史的革命意义,有某种学术价值,但非常容易形而上学和片面化,结果是语言学家脱离了目的,脱离了需要,在争论一种分析,或一个模型与另一种的优劣。其实这些相争的方案,只要系统内部相谐,都大同小异,根本就没什么本质区别,而且没有客观的可量度的评判标准,那还不打成一锅粥。

(刘老师:摆脱语义,直接进入语用?)

哪里,乔老爷是要直接进入共产主义,要世界大同。他对语义不感兴趣,更甭提语用。语义在他属于逻辑,不属于严格意义的语言学。句法语义是分割开来的两个范畴,句法必须自制。

(白老师:句法自制是错误的。)

对传统语言学完全不分家的那种分析,老乔有革命意义,也确实推进了结构研究,但凡事都是过犹不及。句法自制推向极端,就是本末倒置,失去方向。

我做博士的时候,在一个小组会上,举一些汉语的例子,作为证据反对一刀切的句法自制,说老乔有偏差,看到的语言事实不够,结果被我导师劈头盖脸批了一通,言下之意,不知天高地厚。我当然口服心不服。

问题是,我一辈子只思考一个问题,只要醒着,头脑里除了语言,就是文法,除了词汇,就是结构,突然有一天觉得自己通达了,看穿了语言学上帝,乔姆斯基。

原来,智商高,不见得离真理近,智者乔老爷,也不例外。

(洪爷:老乔不是上帝,他只是让咱看到来自造物主的理性之光。)

形式语言理论,非人力可为,绝对属于天机,单凭这,乔就是人神。

吐槽乔老爷,一次抱怨完,明儿依旧是偶像。

【后记】

到了我们的年代,俄语退居其后了,所以我本科的二外选的是法语,到研究生才选了俄语做三外,不过全还给老师了。虽然语言是还给老师,体悟到的语言学却长存,所以也不冤。到 30 年后的今天主持 multilingual program,带着参考书,我还一样可以指导法语和俄语的 NLP 研发,语言的不同,换汤不换药也。

不管我怎么批判乔姆斯基,我还是服他到不行:他老人家的威望可以把 Universal Grammar 这种乍听很荒唐的观念,转化成一个让人仰视的语言哲学理念。UG 的真理之光由此不被遮蔽。当然最厉害的还是他的 hierarchy 形式语言理论,那几乎不可能是人的理论,那是上帝之光,尽管乔老爷在描述的时候,不免机械主义,hence 造成了极大的误导。



【相关博客】

巧遇语言学上帝乔姆斯基

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 

Chomsky’s Negative Impact

泥沙龙笔记:再聊乔老爷的递归陷阱

【置顶:立委科学网博客NLP博文一览(定期更新版)】

[4]tuqiang   2015-6-15 22:56乔姆斯基那一套可以做计算机里面数学式子的分析,离开自然语言差了十万八千里。

 回复  : 话说回来,没有自然语言的数学化研究和启示,他老人家也提不出形式语言理论来。至少从形式上,他能把人类语言和电脑语言统一起来,达到一种人力难以企及的高度。如果没有乔姆斯基,电脑理呆们打死也不会对词法分析,句法分析,语义求解,parsing 等感兴趣,并如数家珍地谈论这些语言学的概念。这是其一。

其二,正因文乔老爷自己也知道他的形式语言理论的抽象过头了,难以回到自然语言的地面,才有他穷其一生在自然语言的语言学方面的继续革命,革自己的命,花样翻新,试图找到一个终极的普遍文法的自然语言解构。这次他就没有那么幸运了,虽然在学界依然所向披靡,无人能敌,但却与电脑科学渐行渐远,被连接语言学和电脑应用的计算语言学领域所抛弃。也许不该说抛弃,但是自然语言领域大多把他当菩萨供起来,敬神鬼而远之,没多少人愿意跟他走。
2015-6-16 03:541 楼(回复楼主)

 

《聊聊 NLP 工业研发的掌故》

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

尼克介绍的那个讯飞语音输入,简直是神器,向我们的语音同行,脱帽致敬。相信语音是统计的天下。Nuance作为源头的爱疯Siri和讯飞的语音,都快登峰造极了,叹服。

两年前 Nuance 语音以上,要往 text NLP (Natural Language Processing) 发展,找过我多次,作为他们新实验室头儿的候选人。互动了很久。这要是进去,可不是就进入了统计学家和精算师们的海洋,虎口啊(笑)。精算师们的头脑里压根儿就想不到统计外还有其他。

后来他们把老革命家Ron Kaplan 从微软 Powerset 挖去,做了他们这个部门的头儿。Ron 是 PARC实验室的老将。早期 FSA 算法研究的推手(之一)。他们当时的电脑硬件的限制,对线性和效率要求极为苛刻。他津津乐道的就是当年怎么在最苛刻的硬件条件下,做出名堂来。后来他想让我做他的副手,毕竟他老人家比我还老,希望找一个能带队伍打仗的。我们相谈甚欢,有很多共同语言,因为他也是规则派,线性派,也做过 deep parsing,有很多共同的感受。

这里面涉及NLP的一些掌故,就索性在这里说说。大家都知道的是,施乐的PARC实验室是世界上最著名的IT发明创造的发源地。他们有本事招揽天下最优秀的科学家和天才发明家,但没本事开发产品,都是为他人做嫁衣裳。于是成就了乔布斯,乔布斯又成就了微软,如此等等,才有我们今天的电脑和IT大业。

这件事儿对施乐很刺激。于是十五六年前,PARC 决定尝试肥水不外流。自己 spin-off 一些 start ups, 对 PARC 的成果做技术转移和产品孵化。其中搞NLP这块的,就spin off了一家叫做 Inxight 的公司,大家应该听说过,那是工业界的NLP leader。PARC 名声大啊,除了自己投资外,吸收其他投资也不难,前后圈了10+轮风投。他们在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。

这样唠叨下去,太慢,还是要长话短说。

总之是,一开始还不错,因为搜索引擎市场里面,做多语言的都要stemming,他们也就有了一些客户。可是世界上有多少家做搜索引擎?以前百家齐放还好,后来天下归一就难了。

如果可能,希望短话长说

总之是,NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。那些当年雄心勃勃要在工业界掀起NLP革命的Inxight的创始人们(四个创始人,我认识三位),也都跟我差不多,随着这个行业一同老去,还是看不到希望。(我个人算幸运的,先是赶上了世纪末的大跃进(互联网泡沫),如今又赶上了大数据,似乎见到了NLP真正的工业曙光)。

RW:@wei component technology 很难生存,这句话到位

他们也真能,圈了那么多钱,终于无疾而终。白菜价卖给了 SAP。

高科技的事情大多如此,一旦被巨头买下,科技创新就死,然后就是不了了之。

:不奇怪

见过很多这样的。这 Inxight 进了 SAP 就是如此。这里面的故事非常 telling,因为若干年后 SAP 与我现在的公司达成战略伙伴,要用我们的social这块。开始接触的时候,我说,你们的 Inxight 呢,不是听说后来也做了 sentiment 吗,而且是 NLP leader 出身啊。进一步接触才明白,那叫一个天壤之别。将别三日,江河日下啊,廉颇老矣不能饭,不足道也。

回头再说这 PARC,Inxight 虽然不成,这个“上世纪的技术” FSA 并没死,前仆后继者还有。Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。

Powerset 其实很值得赞佩,因为他做的parser工业最靠谱(除了在下的外,呵呵)。但是钱要烧完了. 总得有个产品啥,它没有。只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。概念上证明了,关键词做不到的搜索,NLP parsing 是有用的。

RW:那怎么活?@wei

Nick:@wei powerset我还较熟悉。powerset现在还在吗?

还在,但跟死了一样,头儿和主要技术人都走了,技术本身基本也没融入微软产品。

Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。

当时,Powerset 钱快烧完的时候,还想不出来做什么产品,Ron 的团队着急了。嚷嚷着超越Google,可是只有个高效的parser,没法说服人啊。于是想到,找一个什么不大不小的对象开刀合适呢,因为 parsing 是有成本的。他们口口声声,是要做下一代Google,取代关键词搜索。Google 最多是牛顿,Powerset 要做爱因斯坦。

这些宏观上的忽悠,完全没有问题,因为原理没错,parsing 是 keywords 的爱因斯坦,可是工程上有成本的考量啊。结果他们想了一招,拿 wiki 开刀。wiki 当时的那个量,还比较合适做demo,Ron 于是在互联网的大海找到了这么一滴水。

Nick:@wei 这是何时的事?

六七年前吧。他们于是把wiki parse 了一遍,做了一个 demo 给大家看,蛮impressive,于是,微软就买了。他们也算善终了,至少投资人没亏,小赚一笔。微软的心态,是不管三七二十一,只要宣称能取代Google 的技术,先拿下再说,管他消化得了消化不了。因此 Powerset 比 Inxight 的风投结果好,至少没有贱价出售。如果 Powerset 错过了微软这个冤大头,那就比Inxight 还惨。

RW:是不是最终又给微软毁了?

微软当然毁了它,比SAP 还不如。

Nick:貌似powerset还做search整合,把好几个搜索结果拿来从他们这过一下

前几年我做多语言deep parsing项目,招人的时候,去 Powerset 挖到一位,很能干的。本来高高兴兴做 parsing,是从 PARC 被 Ron 带出来的,后来微软吃掉后,被分配去做 query 的分析。query 在搜索是啥,不就是两三个词的组合么,一个做语言语法分析的人,现在必须抠那几个词,为了一些细琐的需要(应用上自然很重要),简直郁闷极了。这位其实懂很多欧洲语言,也有电脑素养,我挖他过来做大数据的语言分析,他自然很开心。Ron 不乐意了,曾明着跟我说过。可他也没法,他自己勉强在微软帮助支撑了两三年,最后还是去了 Nuance,祝他在 Nuance 可以开一个新局面。

Nick:parsing完再搜索vs搜索完parsing,哪个效果好?

这都扯到哪里了。这些掌故说起来一大车,包括当年的 Whizbang!那可是名校计算机主任亲自出来领头做的NLP 公司啊,特别擅长网页layout的机器学习,从中做信息抽取,最后比我的前一个公司 Cymfony 结局还惨。世纪之交高科技泡沫破灭,我们挺住了,开发了产品,他们的3000多万的投资人却中途撤资了,最后各种技术贱卖,100万即可买到所有的源码和技术说明,先找到我们,说是最适合的买主,我们当时没精力消化这些,后来是Inxight买了。

说起来话长,故事好听

再往前的掌故还有Answerlogic问答系统,也是在上一轮 bubble 时候闹腾得特欢的NLP 公司。钱烧完了,就完了。

RW:这句话经典![微笑]

所以说,这 NLP 要做成,不容易。不是技术不到位,技术参差不齐,但是优秀的引擎(精准、鲁棒、高效)是已存的现实。我敢打包票。

RW:是不是有ahead of the market 之嫌?@wei

技术不是问题(笨蛋不算,你要是找到一个只会忽悠的笨蛋,那是 due diligence 太差,怨不得人)。

Nick: 嗨,老套路,骂别人是为了夸自个。

可不,卖瓜王爷。不过,那也是客观事实,内举不避己,不能因为自己能就偏要说不能,最后还是要系统说话。

当然,这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的monster,高效达到线性实现,real time 应用),确实不是一蹴而就能成的。这里有个n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉,体会的人不多。打住。

高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。

RW: 否则不叫风投

为了减少盲目性,产品经理和制定产品策略的老总至关重要。

高技术公司的产品老总在宏观上了解NLP的潜力,同时深谙市场的卖点,了解客户的需求和痛点,可以具体制定产品和产品features的specs给 NLP developers,只有这样合作才能成事。

回尼克的问题, parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。

Nick:我就是这个意思。我印象当年powerset给我看的demo是先搜后parsing。

但是这个问题,更准确的表述应该是,一个query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。原因我不清楚,但是明显是利用不够。话说回来,如果巨头都能那么灵活,也就没有小公司的活路了。

Jing:用户量大了后用户的历史行为就间接人肉parsing了。

历史行为那是另一个侧面和角度,可以满足信息需求的一个部分。历史行为确实也等于间接利用了人工的parsing的结果,因为人在选择点击阅读某个网页的时候是扫描理解(parse)了链接上的标题的。但那不能涵盖 parsing 所能起的全部作用。

Jing:query understanding包括这个步骤。你前面提到的那个分去做query的哥们完全可以做这个呀

query understanding 是非常重要的一个环节,可是做的人痛苦啊,两三个词玩不出语言学的名堂来,没意思。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。

【相关博文】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 2015-06-20

乔姆斯基批判 2015-06-15

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

已有 7109 次阅读 2015-6-27 22:17 |个人分类:立委科普|系统分类:科研笔记|关键词:学者| NLPparsing自然语言