《朝华之二十四:南下硅谷》

这是一个跨越1/4世纪科研美梦终成真的真实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解蓝图,其核心是对千变万化的中文文句施行自动文法解析。这幅蓝图距离现实太过遥远,其实现似乎遥遥无期,非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,自动解析已经投入真实世界的大数据应用,从舆情监控到领域事件:“The mission impossible accomplished!”

美梦成真

 

这是一个跨越1/4世纪科研美梦终成真的真实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解蓝图,其核心是对千变万化的中文文句施行自动文法解析。这幅蓝图距离现实太过遥远,其实现似乎遥遥无期,非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,自动解析已经投入真实世界的大数据应用,从舆情监控到领域事件:“The mission impossible accomplished!”

我们人类的语言说简单也简单,说复杂也复杂。简单到不管多笨的人,也大都从小就学会了语言,交流没问题。但是人学会语言,大多知其然,不知其所以然。只有专门研究语言的语言学家一直在尝试对人类语言讲出点所以然来。可语言这东西,不研究也就罢了,一研究就发现它真是上帝的恶作剧,复杂得很,深不见底。

几千年的探索,终于总结出一种叫文法的东西,用它可以对语言的内在规律做一些总结。这样,千变万化的语句就可以分析成有限的句型结构,从而帮助语言的理解和把握。人类本能的语言理解能力也因此显得有迹可循了。这就是我们在学校文法课上老师教给我们的知识,特别是一种语句分析的结构图的画法,条分缕析来建立主语、谓语、宾语、定语、状语、补语(“主谓宾定状补”)等结构联系。这一切本来是为了加强我们的语文能力。电脑出现以后,就有人工智能的科学家想到,要教会电脑人类语言,这个领域叫自然语言理解,其核心是对人类语言做自动解析,解析结果往往用类似文法课上学到的树形图来表达。自动语言解析很重要,它是符号语言处理与可解释语言理解的核心技术。一个质量优良、抗干扰强(所谓鲁棒)而且可以部署到大数据场景的自动解析引擎,就是个核武器。有了这样的自动解析,就可以帮助完成很多语言任务,譬如人机对话、机器秘书、情报抽取、舆情挖掘、自动文摘、热点追踪等等。也有不少日常语言处理应用, 譬如机器翻译、文章分类、垃圾过滤、作者鉴定、自动文摘等,不分析,不理解,只是把语言当成黑匣子,把任务定义成通过某个黑匣子从输入到输出的映射(所谓“端到端”),然后用深度神经网络来学习模拟,也可以走得很远。这些绕过了结构和理解的近似方法,是主流的主导性做法。对于具有“天然带标”的大数据的应用(如机器翻译、聊天机器人)以及粗线条分类等任务(如垃圾过滤、作者鉴定),端到端深度学习往往有效。但是,对于大量缺乏标注数据的领域应用场景,基于结构解析的符号NLP具有自身的用武之地。

自动解析语言方面,英语研究得比较充分。中文还在探索阶段,原因之一,是中文比欧洲语言难学,歧义更严重,大规律少,小规律和例外较多,不太好把握。因此有不少似是而非的流行说法,诸如,“词无定类,入句而后定”,“句无定法,意合而已矣”。总之,中文自动解析是一项公认的很有意义但非常艰难的任务。为中文解析制定形式文法是其中的基础建设。

出道之初的上世纪80年代,初出茅庐的立委为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个《中文依存文法》,涵盖了现代汉语几乎所有的重要句型,画过无数的中文依存关系句法树,看上去真地很美。但那只是纸上谈兵。虽然设计这套文法是为机器处理,真要实现起来谈何容易。事实上,在当时那只能是一场科研美梦。

现在回看当年的蓝图,对照近年在机器上实现的依存句法解析器,一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,一直梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于迎来了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。    

请欣赏青年立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(当时只能用纯文本编辑器数着空格和汉字去“画树”,构成了下面奇特的树图姿态)。对照新鲜出炉的中文句法解析器全自动生成的婀娜树姿,不得不说,美梦成真不再是一个传说。

(1) 25年前的蓝图(美梦):

25年后的实现(成真):
(2) 25年前的蓝图(美梦):

25年后的实现(成真):

(3)25年前的蓝图(美梦):

25年后的实现(成真):

(4) 25年前的蓝图(美梦):

25年后的实现(成真):

但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。

(5) 25年前的蓝图(美梦):

25年后的实现(成真):

(6)25年前的蓝图(美梦):

25年后的实现(成真):

胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶,  并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。
 
记于2013年十月15日

安娜离职记

说技术的力量,需要有应用的物化,否则技术是无力的、苍白的。技术通过产品而发挥力量。因此,幸运的技术人参与创业,需要遇到幸运的产品开发环境,才有施展的舞台和实现的可能。核心技术只是技术产品的一个条件,其他各个层面,无论哪个环节不给力,都可能翻船。

高新创业公司经历过两类:一类是先有技术,后开发产品;另一类是先有产品雏形,再引进技术(人才)。作为技术人,我来美"创业"(其实是以技术加入创业)的第一个东家属于第一类,先研究,做原型引擎,然后寻找应用领域,最后开发工业级产品。我后来加入的硅谷初创是第二类。先有客户,后有粗糙的引擎,最后才引进技术,把产品希望寄托在技术与人工的耦合上。这条路子让我觉得新鲜和刺激,觉得可以试一下,看技术转移能不能如鱼得水,发挥出来。先有客户和应用领域的好处是显而易见的,就像干革命有了遵义会议一样,避免了黑暗中的漫长摸索。与客户的高亲密度,使得一切研发和投入都有一个确定的方向。

第一类公司有很多是教授出来开办的。美国的体制鼓励教授办公司,可以是兼职,忙的时候也可以把学校教授的位子停薪留职几年,以专心领导公司。这类公司通常是先申请政府的研发基金,做原型系统,与教授在大学实验室里面的玩具系统无大差别。等系统到一定规模了,就要寻找市场切入点了。这条道路艰巨而漫长。

二次创业的公司则完全是另一条道路。说起来难以置信,没有产品怎么会有客户呢?没有技术怎么叫技术公司呢?这是因为在用户和产品之间,还有一种专业服务;同理,在工程和技术之间,也有一种人力资源的手工做法。故事是这样的,公司的两位创始人对企业信息市场及其需求很熟悉,他们确立的目标是利用互联网信息作为资源,帮助企业客户收集产品创新的情报。有了这个目标,于是去寻找需要这些情报的客户,先是免费替人服务。价值得到肯定后,开始按照专业服务模式向客户收费。客户一个订单来,他们日以继夜,利用谷歌搜索筛选,仗着对问题领域的了解,夜以继日,人工整理出各种情报的报告。整理成客户容易接受的形式,一手交货,一手收钱。这自然是亏本买卖,但对于企业家创业者,发现市场需求和服务客户是第一位的,初期完全可以不计工本,服务力争精益求精。这样互动的过程使得公司对客户更加了解,专业服务的流程更加有效。同时,因为不满意通用搜索引擎谷歌的粗线条,于是开发了自己的针对这一任务的搜索原型系统,加入了一些粗浅的语言技术。这个内部使用的原型系统技术含量很低,但是具有特定的产品方向,还是帮助节省了人工,一个订单下来,借助这样的系统,大约还需要人工干预几十个小时,才可交货。

这时候,技术的奇迹开始发生。具体说来,奇迹发生的起点是由一位老司机(在下是也)的加盟,他带来了NLP技术。NLP使得创新公司成为名副其实的技术公司,专业服务的原手工操作经过半自动的阶段最终一步步为全自动语言处理所取代。这里面的故事有很多插曲,安娜离职记就是其一。

安娜是个很可爱的俄罗斯上进女青年,从小弹钢琴跳芭蕾,小学没毕业即随父母移民美国。她身材高佻,性情温和,举止得体,善解人意,给人一种古典但不古板,现代却不俗艳,阳光而浪漫的印象。文科背景的安娜是我们的专业服务分析员,兢兢业业,一丝不苟。自动化之前,给客户的报告总是经过她的后编辑和润饰,才放心提交给客户。当年招来这样一位俄罗斯女郎,给满屋工程师男同学的办公室带来了温馨柔和的气息。自然地,大家都喜欢她。

然而,安娜突然辞职了,很快就要离开,大家都舍不得。想到午餐时不再有她的说说笑笑,餐后也不能邀她打乒乓球了,小伙子们都失落落的。我问她一定要离开么?

她回说,我喜欢这个环境,是因为在这里我接触的都是你这样的世界上最聪明的人,因为你们太聪明了,结果我的发展道路堵死了,只好痛下决心离开了,我还是去专业咨询公司做我擅长的分析工作去吧。两年来,我亲眼目睹我的20小时的人工怎样被你的20秒全自动搜索所替代,而且结果往往比人工更全、更有一致性。

她说的不假。确实是技术的转移抢走了她的饭碗。但公司并没打算辞她,决定让她转型做在线客户服务,可她思前想后,觉得年轻轻不能放弃自己的专长,只好决定离开了。作为技术带头人,她的离开与我直接相关。这是一个活生生的机器取代人工的例子。

我加入公司的时候,品牌情报的订单必须有长时间的后编辑,手动增删修补,分析归纳,才能提供给客户。后编辑人员我们称为信息分析员,要求语言能力强,阅读理解一目十行,具有分析综合的技能。安娜就是信息分析员中的佼佼者。经她过手的分析报告,客户特别满意。

可是公司需要成本核算。核算的结果是,人工可以用,但要适度,否则入不敷出,是亏本买卖。当时平均每个搜索分析的情报订单需要人工22小时方能完工,这22小时叫做“芒刺”时间(pain time, 既是分析员的痛, 更是公司的痛)。要想赚钱,理想的芒刺时间需要控制在两个小时之内,在当时想也不敢想。老板找我谈的时候,就把它定为主要目标,但并没有设置时间限度,因为没有人知道其可行性以及达成这样的目标需要多少资源。我自己也不清楚,只是感觉到了这个重担。一年又过去了。我们实现了在一个主要分析领域完全铲除芒刺时间的目标,把搜索分析从初期的22小时人工,发展成为产品定型后的全自动20秒立等可取,无需任何人工编辑。得之桑榆,失之东隅, 两年的奋战取得了超出所有人预料的成就,但同时也失去了一位可爱的俄罗斯女郎。 

我上船以后,三个月把系统的核心部分换血了。半年下来结果明显改善。情报挖掘的任务从主要依赖人工,转为半自动。一个订单的人工参与时间,从原先的22小时后编辑,锐减至两个小时。其后,经历了半小时,10分钟等里程碑,直至全自动。


公司早期员工合影,2007

芒刺时间缩短到两小时的时候,老板喜不自禁。他告诉我,你的技术给我们的业务带来了革命性变化。我们的立足已经不是问题。只要我们愿意,维持一个机器加人工的服务,发展成年入几千万的情报性专业服务企业指日可待。但是,只要有人工,就不能真正规模化发展,盘子就做不大。不管多大风险,我们还是决定放弃这条服务型公司的道路,而是要做全自动的产品升级,让系统可以服务所有的分析客户,而不是局限于服务我们的内部人工(安娜这样的),或者只提供给需要专门训练的超级用户(power users)使用。我们的目标是让世界上每个分析员都离不开我们,就如普罗离不开谷歌一样。为此,我们必须做到芒刺时耗为零。前景不可限量。

哈,这口气,貌似想称霸世界了。硅谷是个有意思的地方。这方水土盛产百折不挠,心比天高的企业梦想家。但市场并非梦想家的乐园,95%的梦想家牺牲了,不到5%得以生存,其中不过1%最终做大,真正是一将功成万骨枯。虽然如此,硅谷牌企业梦想家仍然前赴后继,生生不息。我其实很喜欢这些企业家,他们的坚韧豪情很感染人。


公司成长期员工手拿客户产品合影,2009

全自动后,系统的响应时间也经历了从三分钟直到20秒,最后卡在了工程架构的瓶颈上。调查表明,专业分析员除外,一般客户的耐心不容超过三秒,20秒的等待时间是太长了。后来公司请来了资深工程大牛,配合核心技术的更新,产品终于实现了即时响应的全自动化,响应时间基本与搜索引擎类似。一个话题进来,一眨眼的功夫,各种角度的情报分析报表和图示化就呈现出来。背靠巨大的舆情知识图谱,这些情报都是相互关联的网络,用户可以随心所欲聚焦情报的一个侧面,瞬时生成全新角度的情报呈现。

记于2008年四月

与公司创始人迈克合影,2014

今天是个好日子

今天是个好日子。
今天真是个好日子。

什么日子呢?这么说吧,就好比陈景润证出1+1=2的那天,算不算个好日子。

写完上面几句话,兴奋了一天,终于轰然到下,难得地一觉睡到自然醒。所以,确切地说,应该是:昨天是个好日子。

我们搞研发的工匠,一辈子辛勤劳作,大多是蚂蚁啃骨头,所做很平凡,看上去也很枯燥。积累的是资源,操作的是实验。在这些漫长的日常平淡枯燥的工作中,偶然会有征服世界的幻觉,昨天就是这样一个时刻。

如果我说我灵机一动,解决了一个世界难题,一个世纪难题,那肯定是狂人痴语。可是,该怎么说这件事呢?有一个研发课题,有巨大的商业应用价值,很多人想都不敢想,有些人想了,尝试了,根本找不着北,我昨天灵机一动,解决了这个课题。这样的说法可以接受么?当然,这仍然是狂人痴语,可是我找不到更客观谦逊的说辞了,一切就当人生插曲看好了。重在心情和感受的真切。

具体细节不能讲,专利也好,商业秘密也好,一切在未定之中。但可以假语村言,与老友分享一下工匠的喜和乐。

故事是这样的。产品副总几个月前找到我,说,我们是做商业情报的,商业情报的重中之重是客户心理,我们的技术可以挖掘客户心理么?

听上去像开玩笑,我不假思索地说:“no, we cannot read people’s mind”(不,我们无法读心。).

他说,明白,我们不是算命先生,指的当然是用语言形式表达出来的客户心理情报。

我说:只要语言上有痕迹,倒是可以考虑试试。说到底,一辈子挖煤,NLP不就是从形式到内容吗?

我的要求很简单,给我语言数据样本,说什么样的语言表达(形式),需要从中提取的是什么样的情报(内容)。我就可以大体知道我们可以不可以挖掘出来,能挖掘到什么程度。这种判断力我是有自信的。一般来说,只要有关的语言表达法有迹可循,用我们多年积累的工艺,总是可以很准确地挖掘出情报的,瓶颈在覆盖面(即recall,召回): 情报挖掘任务中难吃的果子大多由于覆盖面太小。大体说吧,至少得有50%的覆盖面才有比较确定的应用价值。

于是,数据样本来了。立委的判断也出来了,拍了胸脯:可以做。然后就是带领团队蚕吃桑叶一样农村包围城市,步步为营,覆盖了样本。看上去很美,感觉也不错,样本输入黑匣子,指望的情报就挖掘出来。我很高兴。产品副总也很高兴。我们眼看要做成一个没有人能做的成就。

一周前,我做了个试验,找到一个足够大的具有代表性的真实语料样本,让黑匣子夜里去挖掘,看看挖掘出什么名堂。第二天早上一看,傻眼了,挖掘量远远不如预期。

怎么回事呢?仔细抽查了样本,详细分析数据,发现了这样一个令人丧气的事实:语言表达有显性和隐形两种,产品组给我们提供的是显性样本。这也没什么不对,因为显性表达的用词和结构有明显的模式,产品经理标注样本比较明确易行。也因此我敢拍胸脯说能行。本来想,就算显性表达和隐性表达一半一半,如果我们能挖掘前一半,只要我们能处理海量数据,由于语言普遍存在的信息冗余现象,我们还是可以提供客户心理挖掘的服务,使其成为我们产品的杀手级情报。

想得太美,可现实是不利的。分析表明,客户心理的语言表达90% 以上是隐形的,显性表达只是冰山一角。客户上帝啊,你有什么想法,喜好和牢骚,为什么不直说呢?我们是多么想了解上帝的心理啊。

苦恼。苦恼了一周。现在这样的覆盖面,根本没有可能做成征服商业情报世界的杀手级应用。

产品副总也苦恼。说,“recall, recall, that is killing us”. 怎么办呢?蚂蚁啃骨头,不断啃,做一点算一点,覆盖面总能慢慢改善吧。客户心理是商业情报的皇冠明珠,不管多难,目标多遥远,还是要做。

前天夜里就被这个recall恶魔缠了一宿。到了凌晨四点,恍惚中开了天目,灵感不期而至。当时那个兴奋,真想大叫。看大小领导仍在熟睡。一个人到外屋,兜了几十个圈子,反复验证自己的想法,确认无误,我给公司发了一个短信:

Recall is not an issue in this case. Stay tuned. (覆盖面肯定不是问题。)

口气很肯定,也卖了个关子,吊吊胃口。尤其是产品副总,他被这个恶魔缠得不比我轻。上午一见到他,我说:这样说吧,理论上的覆盖面是100%,实际操作上的覆盖面,不管怎么测量,我拍胸脯保证在 80% 以上。怎么样?

Too good to be true. (理想到难以思议。)

他很信任我,知道我不是口出狂言的那种,平时在产品和研发打交道的时候,我都是讨价还价的保守派,能做十分,我只担保八成。今天出此大言,其中必有奥秘。他急于知道,我只给了个引子。具体细节还是等到会上谈吧。召集的是特别会议,包括管理层以及产品组和工程组的技术骨干,有些骨干向来是以挑剔为能事的。首先让他们来检验,看能不能从我的鸡蛋里面挑出骨头来。

一只黑笔,一块白板,立法委员在上面涂鸦。陈景润当年算1+1也是这种场面么?

问题一大框。最终是,蓝图无懈可击,操作性毋庸置疑。当然,实现过程中还有细节可以斟酌,一切最终要看大规模实验的证明。

今天,oops,昨天,真是个好日子!

记于2009年十二月22日

 

《朝华午拾》电子版目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据