《立委随笔:做一条程序狗,外加哲学猫》

最近脑海里老浮现卓别林的摩登时代的镜头。软件工程的摩登时代就是大数据迭代。我就迷信这个迭代。

自从工程架构师把 pipeline 转起来以后 我就可劲儿往里面填数据(raw data),填鸭似的 反正是 raw 的,领域数据不嫌多。 结果就造成摩登时代的再现。Server 不用吃喝 连油都不用加,24 小时在那儿转呀,人停机不停。人就被赶着去看结果 做 regressions 测试呀。人的本性,眼里揉不得沙子。只要醒着,看到毛病就冲动,忍不住会动系统,就好像是本能迭代。气还没喘匀 新一波结果又出来了。好奇心杀不死科学家 ,但能杀伤码农呀,赶紧去看结果。real world 大数据嘛 啥都有 结果肯定是喜忧参半。看到高兴处 可以得意片刻,更新 baseline,让进步消失在数据海洋中。不高兴呢,就本能要改进系统,于是陷入人机交互的迭代“死循环”。

人被数据赶着走 等于是被 bug reports 赶着走,只不过缩短了 reporting 的过程 把客户的可能抱怨化为开发者自我的反省。只要数据真实对路(来自应用领域),量足够大不怕 over-fitting,bugs 至少是扎眼的 bugs 就会消灭在萌芽中,消灭在摩登时代的开发工程流程中。在如此流动型连续迭代中提升品质,多么爽,时时刻刻都有成就感。

只不过累得成了狗。程序猿成了程序狗。


但累,并且快乐着。

聪明的 AI 科学家希望这个迭代过程是全自动的。这边只要不断喂粗饲料 (raw big data),那边就无数次迭代出来一个智能理解系统,多么美丽的神话。据说机器认识猫 就是这么出来的,的确非常激动人心。希望某一天机器理解语言也能这么给整出来,比儿童学语言,效率高亿万倍。在那一天到来之前 我就做条狗 跟摩登时代拼了。

胡乱感慨一句。

昨天跟老搭档聊天谈做研究的人与做产品的人的不同。他非常感慨 特别是年轻人 说这些年轻人大多名校毕业 特别聪明 做 AI 大数据 算法玩的很溜。可就是不懂工程迭代的必要性 也没那个耐心。老以为 AI 产品可以一蹴而就。


大哲牛顿(Nutan)啊 在深思。

猫和狗很有比照 懒猫勤犬。但一个埋头拉车;一个老在深思,做哲学家,路都不屑看,可脑袋并没闲着。

哲学,尤其是对体系架构以及机制(formalism)的设计哲学(design philosophy),其实是极端重要的,否则程序狗再勤奋,也成不了大事。哲学猫架构好了话,程序狗多多益善。否则就可能叠床架屋,知识越多越不堪重负,最终导致系统报废,这是有前车之鉴的。

记得某年某月有个面试官问过我,假如经费没有限制,你希望做什么?这种所谓考验想象力和创造力的题目听上去很弱智:你说老实话吧,显得没高度,说大话吧,譬如学着谷歌说要解决人类长生不老的终极问题,或者学着扎根伯格的口气说要彻底根除人类疾病,或学 Elon Musk 说要帮助地球人移民外太空的话,又有些痴人说梦,因为这个世界只有不到10个超牛才有说梦而不被视为白痴的资格和本钱。其实心里的答案也是有的,就是:假如经费没有限制,我就做个50% AI 哲学猫和50%的 NLP 驯兽师,然后雇佣并培训 1001 条程序狗,买断天下的领域大数据,每天就指挥程序狗做各个领域的语言理解的迭代,扫平语言障碍,建成世界大同的巴比伦通天塔。

 

【相关】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【李白之39:探究自然语言的毛毛虫机制】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白70:计算语言学界最“浪漫”的事儿】

白:

根据什么知道“他人”不是三个动词共享的逻辑宾语?—-相谐性!

李:
【human】vs【physical-object】?丢失【physical-object】vs 丢失【human】?
丢失“孩子”呢?假如是直接量相谐的统计对比,“丢失-设备”与“丢失-他人”,前者完胜。
如果是上升到类别上去做对比,丢失-【physical】与丢失【human】就有可能会势均力敌,假如 “丢失-孩子” 的说法在语料里面特别高频的话。

直接量对比最好,可是总有数据稀疏不足为据的担心。类别对比克服了稀疏数据,也可能走偏。“申领”类似,似乎也可能申领【human】? “ 损坏”好像比较单纯,很难“损坏人类”(人类够皮实的?)。到了“转借”问题复杂了,是个双宾词,大数据里面,跟 【human】与跟【physical】的都很多。当然,现场已经让【human】(“他人”)占了坑,只剩下【physical】的可能,如果要把这一套符号逻辑加入大数据相谐的统计里面去,貌似也不是很好整,虽然琢磨起来总是头头是道的。

白:
三个动词共享的话,备选坑的subcat取最小公共上位。
损坏的坑不是human,甚至不是animate,看来只能是physical
大家都从它。

李:
最小公共上位,实现起来又多了一层,而且预设了 并列结构的正确识别。看看这个问题的完满解决牵涉了多少不同层面的预设:

(1)预设并列结构识别
(2)预设最小公共上位
(3)预设排除已经占据的坑的类别

这里面的每个预设,说起来都很合理,但揉进一个算法里面就感觉有相当挑战。这只是就这一个案例的应对思路所做的抽象。遇到其他案例,也会出现其他听上去合理的应对。然后把这些合理应对整合起来成为一套相谐性checking的算法,感觉上不是一点点的挑战。

白:
显然这时候就看出来中间件分离的好处。相谐性检查也好,求最小公共上位也好,都是matcher向中间件请求,中间件回应matcher的关系,中间件并不介入matcher自身的逻辑,不介入待分析文本的结构性判断。

梁:
两个词的相谐性,可以计算出来么?或统计出来吗?

白:

李:
处得久了 粘在一起 chemistry 就确定了。大数据可以。就是如何实施的 know how 了。

白:
“避免了一个十亿人口数量级的核大国彻底倒向美国和日本成为死敌”
和谁成为死敌?谁和谁成为死敌?

1、十亿人口的核大国和日本
2、美国和日本
3、十亿人口的核大国和缺省主语
4、十亿人口的核大国和美国

李:
我昨天下午也搞定了一个痛点: 就是 “学习材料” 类。完满解决这个问题 其实有几个坎儿。凑合事儿也可以,但总觉得对于这么普遍的现象,还是形成一个一致的比较完美的解决才好,类比以前对于离合词“洗澡”的解决方案那样。

说个有趣的汉语缩略现象:

南美北美 –> 南北美
上位下位 –》 上下位
进口出口 –》进出口
AxBx –> ABx

some more examples: 红白喜事,冷热风,高低端,东南向,南北向,软硬件,中青年,中老年,黑白道,大小布什 ……

这些个玩意儿说是一个开放集(合成词)吧,也没有那么地开放;说封闭吧,词典也很难全部枚举。它对切词和parsing都构成一些挑战。这是词素省略构成合成词的汉语语言现象,还原以后是 conjoin 的关系 (Ax conj Bx),至于 ABx –> AxBx 的逻辑语义,还真说不定,因词而异,可以是:(1) and:南北美 –> 南美 and 北美;大小布什 –>大布什 and 小布什;(2)or:冷热风 –> 冷风 or 热风;正负能量 –> 正能量 or 负能量;(3)range:中青年 –> from 中年 to 青年,中老年 –> from 中年 to 老年;(4)and/or: 进出口 –> 进口 and/or 出口;(5)一锅粥(and/or/ranging): 高低端 –> 高端 and/or 低端 or from 高端 to 低端。

白:
小微银行;三五度

李:
逻辑语义解析先放一边(很可能说话的人自己就一笔糊涂账,不要勉强听话人或机器去解析 and、or 还是 ranging),就说切词和parsing的挑战怎么应对就好。冷热风 在传统切词中是个拉锯战:【冷热】风 vs 冷【热风】;“南北美”:【南北】美 vs 南【北美】。

看官说了,还是 南【北美】 似乎对路。可那个撂单的“南”怎么整呢?

白:
词不都是切出来的,也可以是捏出来的

李:
【国骂】,切词切词,只让我切,不让我补,这不是憋死我吗?不具体说雕虫小技了,要达到的目标是:Input:南北美;output:【南美 conj 北美】。

问,难道切词或 parser 还能补语言材料?当然能。不能的话,bank 怎么成的 bank1 (as in bank of a river)和 bank2(as in a com李rcial bank)?举个更明显所谓 coreference 的例子:John Smith gave a talk yesterday. Prof Smith (== John Smith), or John (== John Smith)as most people call him, is an old linguist with new tricks.

白:
高低杠、南北朝、推拉门、父母官……

李:
This last example below demonstrates the need for recovering the missing language material:

A: Recently the interest rate remains low.
B: How low is the rate (== interest rate)?  // 不补的话,就不是利率了,而是速率。

所以 parsing 中适当补充语言材料,重构人类偷懒省去的成分,也是题中应有之义,虽然迄今绝大多数系统都不做,也不会做,或没有机制或相应的数据结构做。

白:
不该补的也要那个。反方向的还不普遍?比如“海内外”

李:
听上去好像我的系统做了似的。必须说句老实话,目前还没做。虽然没做,这些个东西老在心里绕。绕老绕去问题清晰了,candidate 策略s 也有了,就是等一个时间点,去 implement。做实用系统有一个毛病,千头万绪,大多是跟林彪似的,急用先做。不急用的,甭管心里绕了多少回,往往是一等再等,几十年等一回,那一回有时候似乎永远不来似的,有时都就等到白头了。其中一个办法描述如下:假如 “南北韩” 不在词典里,但“南韩”和“北韩”都在,“南北”也许在,也许不在,不管他。切词的结果不外是:南/北韩 or 南北/韩。“揉”词的算法可以放在切词之后。最简单的算法就是再查两次词典,如成功,就把切词结果加以改造,爱怎么揉怎么揉。

(1) Input: A/Bx
Is Ax in lexicon? If yes, then
output: Ax conj Bx

(2) Input: AB/x
Are Ax and Bx both in the lexicon? If yes, then
output: Ax conj Bx

(3) Input: 海内/外:
Is 海外 in the lexicon? If yes, then
output: 海内 conj 海外

张:
李白对话将载入计算语言学历史

李:
前些时候,还真有个出版商寻求合作,要出版个啥 NLP 系列。旁门左道,从来没想要出书的,甚至写了也不管有没有读者。总之没拿读者当上帝。自媒体时代,写已经不仅仅为了读,写主要是为了写,日记疑似。与其读者做上帝,不如自己做上帝。反正也不指读者养活自己,完全是共产主义义务劳动,而且是高级劳动。此所谓,说给世界听,可并不在乎世界听不听。后来想起《对话录》,我说,也许你应该去找白老师。如果白老师愿意,倒是可以选辑修订成册。里面不乏精品,譬如最近的这篇:【李白69:“蛋要是能炒饭,要厨师干啥用?”】。

张:
计算语言学界最浪漫的事就是不忙的时候(坐在摇椅上)看李白悠悠地“怼”,慢慢地“坑”

白:
如果前缀两个字,就比较容易接受:大江南北、长城内外

李:
“大江南北、长城内外” 不同,“大江南” 、“大江北” 不在词典,而是句法组合。“大江-南” 是句法,“大江-南北” 也是句法,没有必然的必要性去补足构词材料。

白:
但是相比共享后缀,语义并无结构上的特别之处。所以补足只是针对同类现象的部分解决方案。按构词规则捏出一个有微结构的合成词才是根本。

“欧洲一体化已死,何须中国分裂?”  有个“它”或者“之”,关系会更明确。

李:
那就有点不伦不类了。“欧洲一体化已死 何须中国分裂之”,听上去成诗句了,好比
“花开花落两由之”。

白:
多好。如果像我引用的那样,就比较麻烦,总得有些关于统一和分裂相对关系的铺垫才能正确理解“中国”在其中的使动角色。

李:
想起个故事 在我知道胡适之是胡适之前,我写了句 “胡适之名句”,那还是高中的时候。高中同班一个公认的秀才,老夫子,读书巨多,平时颇孤傲,会背诵古文观止。 他马上对我刮目相看,他没料到我居然知道胡适乃是胡适之。别小看一个之,知道不知道它当年被认为是有学问与孤陋寡闻的重要区别。天地良心 我的确不知道胡适还有个之。后来知道了,不禁哑笑,哈,被学问了。秀才最后成了一辈子最铁的朋友,现在也在米国,做大学教授 系主任多年。

白:
英语“xxx specific”怎么翻译才地道?直译为“yyy特定的”读起来很不爽。比如“language specific”我宁愿麻烦点翻译成“针对特定语言的”。见到“语言特定的”这样的翻译,总感觉不舒服。但是,汉语处理已经必须处理这种因为直译导致的语言现象了。因为我们左右不了人家的翻译质量。

昨天徒步时看到的“旅游厕所”让我对降格又深入了一步。简单地看,这是动词“旅游”降格做定语修饰“厕所”。但是,1、“厕所”无法反填“旅游”的坑,这和“打火机”不同。2、“厕所”并不是与“旅游”的坑完全隔绝,它是给旅游者上的厕所。构词的微结构里面虽然没有直接出现“上”,但是这个“上”却是连接“旅游”和“厕所”的枢轴。跟前些天讨论的“孟姜女哭倒长城”里面那个没出现的“修”,有的一比。述语动词“哭”和结果补语“倒”没有相谐的共享坑,但是深层次通过“修”和“丈夫”的坑,延展开来实现了共享。

王:
我感觉是“旅游(用)厕所“,这样绑定是否可行。“上“有点窄,但“用”面大,覆盖广,只要没有反例就好。类似英语动词+ing。traveling toilet。学英语时,v+ing,分词和动名词,用来旅游的厕所 or 旅行着的厕所(移动厕所)。不知对构造新词是否有帮助。

白:
直觉“旅游”和“厕所”也是通过“上”实现了回填。等下我画个图验证一下。“用”也还是意犹未尽,不是严格用填坑关系串起来的,是一个虚动词,“上”是一个实例。

梁:
我有点忘了,“孟姜女哭倒长城”是孟姜女晕倒了,还是长城倒下了?好像两种理解都可以。

白:
长城倒了。
旅游[的](上、用……)[的]厕所

双线是“旅游”成为“厕所”定语的路径。简化一下:

把phi_1、phi_2缩并到“旅游”,形成虚拟节点“旅游'[S/N]”的话,上图就进一步简化为:

回填结构昭然若揭。phi_1是“旅游者”,phi_2是“上、用……”。

王:
第一个图好理解,简化后自己有点跟不上了,呵呵!当然白老师心中是门清的,只要可操作就是好的。

李:
为了一个定语 弄出两个无中生有的节点 才把这根线搭上,够绕的。某人 v 了厕所
此人 旅游,因此 旅游厕所就是为某些旅游的人所v的厕所。萝卜坑貌似搭上了,不过绕了这么一大圈搭上了又有啥好处呢?

白:
1,如果对不能反填置之不理,这一步大可不必。2,深层语义结构本来如此,顺藤摸瓜找到相谐的反填路径,看起来是句法任务,实际已经是语义任务。所以parser只做到降格就可以收工了。

李:
对于 “v (的)n”,知道 v 是 n 的修饰语 是根本,v 的坑 对于语言理解不重要,或无关系,因为语言中的谓词,填不上坑或不值得填坑的,是常态 是多数。需要填坑的(处于clause里面的)谓语动词是少数,多数是非谓语动词。即便谓语动词 一来也常省略萝卜
二来可填的坑 句法痕迹也比较明显直白,不会那么绕,少数远距离例外。

白:
对句法不重要,对语言理解不能说不重要。无中生有只是假装,其实联想到的实例都是有的。旅游厕所真的就是那个意思啊…… 难不成碰到了那个意思还要过河拆桥,告诉别人不存在这个桥。

王:
我觉得白老师对新词的剖解挺好,词生有根,把根找到是件有意义事情。当然在有些处理新词场合,可能不需要处于隐形的中介出场。一旦需要时,能有套路可找到,那么这价值就体现了。这也是机器搜刮了词典中的多种关联后得到吧。不排除有些情况可能找不到,也有可能找出了多个。这可能更大视野来考虑相协。

白:
刚才用“坑论”试了一票英语例句,巨爽。

李:
Man 填了万能词 is 又填 fat 中间还来个 +N  看上去有点复杂 (N+ 是定语,+N 应该是后补同位语)。/N 在身边没找到萝卜 就进休息室了 +N 守株待兔 等待左边来客,这一套蛮绕。

白:
@wei 别看man填了那么多坑,除了一个花了额度,其他都是免费的,而且都说得清来由。这个免费额度的机制,看来真的是universal 。

“自从有了智能移动电话,我的智能、移动和电话都在减少……” 这段子,又涉及微结构了。

宋:
“制裁没起作用,朝鲜又爆炸了氢弹。”其中,“制裁”的受事是“朝鲜”。机器没有相关的背景知识,能发现这种论元关系吗?

李:
“制裁没起作用 美国只有先发制人一途了。”

白:
“制裁没起作用,中国躺枪。”

李:
对于 hidden 论元 既然说者都不愿显性表达出来,为什么要挖出来?在哪些应用场景 需要挖出 hidden roles 哪些场景不需要?机器翻译基本不需要,信息抽取和大数据挖掘的应用也基本不需要,explicit 论元都成山成海冗余无度呢。自动文摘的场景不需要。阅读理解的场景似乎是需要的,但这也看哪一种level 的阅读理解,四级阅读与六级阅读 要求不同。总之 感觉多数场景不需要。实用主义来看 做了也白做 何况做也难做好。

白:
这根本不是个别词的问题,而是场景的问题。在先行的大场景中各自什么角色,决定了填“制裁”坑的萝卜是谁。向后找萝卜,方向反了。

“耳朵聋了,莫扎特的音乐照样演奏。”
“耳朵聋了,贝多芬的音乐照样演奏。”

吕:
这个需要接入外界知识了

白:
第二句有歧义,第一句没有。原因,就是大家知道莫扎特和贝多芬谁耳朵聋了。可以把“贝多芬耳朵聋了”看成一个先行场景,“联立地”决定后续空白坑的填充。重要的事情说三遍,只要语言不要常识不要常识不要常识。Simultaneous anaphor

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白60:事理图谱之辨】

宋:
“普京称,特朗普问了一些尖锐的问题,显然他对某些事情的细节很感兴趣,所以他也尽可能地详细地回答了他。”(来源:看看新闻)三个“他”各是谁,机器能识别码?

白:
这也是“事理图谱”的覆盖范畴,甲问乙,乙答甲。

李:
他回答他,句法绑定理论(Binding Theory)决定了不是一个人。
x 问y ==> y回答 x, 这个知识 hownet 恐怕有。第三个 “他” 于是绑定 “特朗普”,第二个“他” 于是不可能是“特朗普”,上下文只剩一个“普京”,那就是“他”了。至于第一个 “他”,语言的就近原则就对了,绑定“特朗普”。如果用知识推理,那就蛮复杂:需要在 【提问】 与 【感兴趣】 的概念之间,建立某种互为因果的联系:

x 问关于y 的问题 《==》 x 对 y 感兴趣

这是符号逻辑。至于大数据如何反映,“事理图谱”如何表达和支持,这里面水不浅。

不太明白的是,这所谓事理图谱,到底是本体类的图谱(ontology graph),还是情报类的图谱(intelligence graph)。从命名看,应该偏重本体。那就跳进一个大泥坑。 本体不是不可以自动图谱化(严格一点的术语叫知识习得,knowledge acquisition,而不是情报类的信息抽取 information extraction,【语义网笔记:本体与知识图谱之辨】),但是很难很快奏效,也很难打过 hownet 和 cyc,除非是先从 domain 本体着手,各个击破。情报类图谱就是靠 domain 取胜的,本体图谱也应该是这个方向。

白:
本体/情报这个区分完全是工程化的,原理机制方面看不出来不同。所谓原理机制,无非就是核心动词怎么传播,坑怎么跳接。打 和 伤,打传播到伤,打两个坑,其中受事那个坑跳接到伤的当事。明白传播和跳接,这个游戏就可以玩下去了。面向领域见效快些,产品好包装些。面向本体见效慢些,可能不走产品的路子而走公共服务的路子。但这是商业模式问题而不是技术问题。

李:
情报的立足点是个体(NE),本体的立足点是群体类型 (categiry concept),目标相差远去。后者 人工具有显著优势,所以说 想打败 hownet 并非易事。这是从知识本身、 知识的获取和表达来看。至于知识的应用、知识的推理、推理中的模糊与逻辑的平衡等等,又是另一个挑战。而情报图谱的应用相对简单,无论是支持搜索还是挖掘。支持预测比较难些。本体知识因为并非情报,而是常识或专业知识,属于教育的范畴,谈不上搜索、挖掘和预测。

白:
说来说去还是商业模式。定性预测和定量预测又是两回事。涨不涨,和涨多少点,不一样。

李:
我想说的是所谓事理图谱,是个吃力不讨好的活计。高校里面立项做个研究可以,应用上基本可以无视。学了半天也不过就是学会了诸如 【x 从 y 那儿 买 了 z】 ==  【y 卖了 z 给 x】, 【x 吃饱了 ==》 x 不饿】等等。 这种事理哪里用得着去学,拍着脑袋可以想出来更多、更周全、更体系、更逻辑。

白:
法律文书处理需要。证词这么表述,起诉那么表述。这还只是paraphrase。如果涉及到行为与后果,还是要在动作之间传播,比如打与伤。如果要打造alphago级别的律师,这点事儿是必须搞定的。最起码的。说这事儿没有效益,可能过于托大。

李:
两码事儿:本体知识图谱是一码事儿,利用这个图谱做有效的推理应用是另一码事儿。前者基本没有效益,有那个力气 不如把 hownet 进一步完善。后者才是痛点。

白:
我是说从建设的内容看,你分不清是给研究用的还是给应用用的。

李:
谁先把 hownet 或 cyc 里面的知识体系(时髦词叫 “图谱”)用起来,用到 50% 就很了不起了。

白:
绝对不是那个路数。应用的人没那么傻,有现成的好东西不用。问题不是不用,是路数不对。不可用。

李:
傻不傻,要先看到应用实例才好。事理图谱成功应用的突破,咱等着看吧。

cyc 的失败不是知识获取的失败,这方面愚公移山,知识增量获取,知识只会越来越丰富。知识丰富了,没法用才是问题。

白:
就说跳接这事儿,用重武器和用轻武器有本质不同。用轻武器同样可以做的事儿,为啥要用重武器。重武器的副作用太大。

李:
如果事理图谱,也像情报图谱一样,追求的是图谱的建立,那就没有情报图谱的成功可能。

白:
你要等他,要养他。还要顺着他。其实应该他顺着你。

梁:
小声问一句,事理图谱是因果关系图谱吗?

白:
不完全是

李:
我理解就是本体图谱。搞不清对象是常识还是专业知识,还是兼而有之。

白:
有些因果上没道理的事情,事理上有道理。比如,该来的没来–》我是不该来的;
不该走的走了–》我才是该走的。

李:
这样的事理,已经不再独立于语言和文化了。那就比普世(universal)的常识和专业知识更加广泛了。

白:
作案是专业知识,作案里动作之间的关联是常识,没有常识托底的专业知识是有断层的。法律条文是专业知识,案情的描述靠很多常识勾连在一起。在分析案情与法律条文适配性的时候,必须二者兼而有之而且在结合部无缝切换。

李:
对,是个 hierarchy 。

白:
paraphrase可以有更简单的处理方法,就是相对行为在转换为内部表示时是标准化的:
买和卖,娶和嫁,借和贷,都可以。这个不算推理,甚至也不算传播,内部表示都是个trans就得了,只不过参数摆的地方不一样。

李:
真正在应用中的痛点是:

1. 不是没有知识,而是有了知识也不知道如何用
2. 很多时候没有知识也达到了目的,所以见知识就用,往往弄巧成拙
3 就事论事容易,总可以谈出背后一大堆“事理”出来:本群的很多有趣的讨论和钻牛角尖,就显示了这些事理。但是要想找到一个高效的通用算法,来用这些事理知识,那是真地很难。

白:
在不知道知识长什么样时,谈算法是很空的一件事,算法和表示几乎是同时确定的,而不是表示在先,算法在后。

李:
情报图谱的表示与算法可以分开。可以把情报挖掘,建立一个图谱表达。至于别人用什么算法去用它,可以是另一回事儿。其实,我各行各业的分析员一直都在手工做情报图谱,他们并不懂什么算法不算法。自动生成的情报图谱,只要提供一个类似 sql 的搜索图谱的接口就完事。但是,本体图谱不同。它本身不是情报,都是吃饱了不饿这类“废话”,没有应用价值。所以,一定要想清楚如何用它,才能显示价值。

白:
paraphrase和传播是必须的。无方向感的推理可以免了。

李:
想清楚如何用它是比获取和表达,难度大得多的事儿,这里面包括想清楚何时和如何不用它。

白:
用它从来不是问题,问题的关键是“它”是谁。如果是hownet或者cyc,基本可以打住了。一定是把知识的使用圈到一个很务实的圈子里,足够轻,然后才谈得上获取和表达。本体重实体和实体的构成类型,事理重事件和事件之间的传播和激活。这俩早晚要区别对待。混在一起打乱仗是要死人的。现在技术层面的问题是解决坑的跳接。

李:
打乱仗的常见案例是,不知道何时不该用 不能用“事理”。对于不合事理的事儿,自然不能用事理理之。

【相关】

【语义网笔记:本体与知识图谱之辨】

【泥沙龙笔记:再谈知识图谱和知识习得】 

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【立委科普:本体知识系统的一些历史掌故和背景】 

《对于 tractable tasks, 机器学习很难胜过专家》

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【生涯花絮:1989年的老照片】


1989 年荷兰 董老师、立委访问 BSO  机器翻译组,组长 Witkam 请客并合影

董振东老师翻出来一张老照片,让我想起往事。说话快30年了。1989,我不过是刚入行两年的初生牛犊, 而董老师已经完成了中国第一个实用MT【译星】产品的研发,风华正茂。

“出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】(Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands),概括了几乎所有的重要句型,纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期,如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画,对照最近在机器上实现的依存句法分析器(dependency parser),一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于看到了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。”  摘自《中文之心,如在吾庐

“1989年夏天,我和导师刘倬去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前,我跟荷兰BSO(Buro voor Systeemontwikkeling BV)公司的机器翻译研究组一直有联络,应约为他们的以世界语作为媒介语的多语机器翻译系统 DLT,编写了一部现代汉语依从关系的形式句法。他们听说我们要来欧洲,就邀请我和我的导师,还有中国机器翻译界知名人物董老师,会后顺道访问他们的实验室一周,做学术交流,共同讨论汉语句法里的一些疑难问题。这次活动,他们称作 Chinese Week.

“我们是应慕尼黑机器翻译峰会的召集人,西门子公司的S先生特邀,提交论文,介绍我们的JFY英汉系统。这是我第一次出国,一切陌生而新鲜。大会在大酒店的拱圆形讲演大厅举行,气派豪华。我的导师是俄语出身,所以派我上台宣讲论文。初生牛犊不怯场,我报告完后,回答了两个问题下场,正赶上中场休息时间。大概东方面孔的报告人很少,慕尼黑电台的记者现场采访了我,询问我的观感,还好没有涉及64的问题(当时64刚过,风声很紧,我们办到一半的出国手续,又重新审查一遍,险些泡汤)。

“游览阿姆斯特丹后,我们按计划去Utrecht的BSO公司访问一周。DLT 项目研究组十几个人,一半是语言学家,一半是工程师,看得出来,这是个气氛融洽的团队。德国世界语者 Klaus Schubert 博士是系统枢纽“依存关系句法”(dependency grammar)的设计人,在项目第二阶段继 Witkam 成为项目组长。71届大会后招进来的美国世界语者 Dan Maxwell 博士,负责东方语言的句法项目的承包、质询和验收,是我的直接领导(十年河东,十年河西,后来我成为他的 boss,这是后话,见《朝华午拾:水牛风云》)。Dan一看就是老实人,照顾我们客人殷勤有加。我看到他早上骑自行车来上班,笑着跟他说:“我在北京上班跟你一样”。

“研究组的骨干还有国际世界语协会的财务总监,知名英国籍世界语者 Victor Sadler 博士,我在71届国际世界语大会上跟他认识。作为高级研究员,他刚刚完成一项研究,利用 parsed (自动语法分析)过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息,匹配大小各异的翻译单位(translation unit)进行自动翻译,这一项原创性研究比后来流行的同类研究早了5-10年。显然,大家都看好这一新的进展,作为重点向我们推介。整个访问的中心主题,仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人,预备下一步大规模的商业开发,汉语作为不同语系的重要语言,其可行性研究对于寻找投资意义重大。

“期间,Victor以世界语朋友身份,请我到他家吃晚饭。他住在离公司不远的一栋公寓里,太太来开门,先跟丈夫轻吻,然后招呼我进来。太太也是世界语者,忘了哪国人了,总之是个典型的世界语之家,家庭用语是世界语。Victor告诉我,太太实际上会一些英语,但是用英语对她不公平啊。太太很和善,跟我说,他们俩非常平等,她做饭,Victor洗碗。我说,这跟我家的分工一样,我最爱洗碗这种简单劳动。她笑着说,“Victor, vi havas helpanton hodiau (你今天有帮手了)”。饭后Victor洗碗,并没有让我插手,我站在旁边陪他聊天,一边看他倒进大把的洗涤液,满是泡沫把餐具拿出来,用干布擦干。我告诉他们,这跟我的做法不同,我们总是怀疑化学制品有毒或副作用,最后必须用清水涮净才好。太太不解地问:“洗涤液如果有毒,厂家怎么能生产呢?” 这倒把我问住了。Victor夫妇和蔼可亲,我感觉在老朋友家一样,饭后一边吃甜点和水果,一边闲聊,尽兴而归。”  摘自 《朝华午拾:欧洲之行

30多年前,我在社科院硕士报考专业上填写了“机器翻译”四个大字,内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式化,感觉太难了。
把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 B 一套,B 到 A 一套,语言对一多就有一个类似系统数组合爆炸的问题。于是,怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出,主要有两类:一类是所谓基于媒介语的设计思想;另一类是合一文法(unification grammar,又叫 constraint-based grammar)支持的方案。第一种方案很动听,因为如果有一种比较中性可以表达意义的媒介语,那么每个语言只要编制两套针对媒介语的互译系统,就可以实现通过媒介语而成的任意语言对的翻译。这幅图画是如此美妙,为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索,有主张全新设计一套基于逻辑的形式语言(日本曾经联合亚洲其他国家实施过这个方案),有主张利用或者改造世界语(Esperanto,立委出道当年也曾著文鼓吹过世界语作为媒介语,荷兰一家公司BSO也曾尝试过),还有研究者坚持认为只有采用自然语言(譬如英语,或者简化版英语)做媒介语才现实可行。第二类合一文法的研究在理论上也很诱人,它的兴起伴随着新型计算机语言 Prolog 问世:合一运算是 Prolog 语言的内置特性。所谓合一文法,就是排除蕴含在传统计算文法(computational grammar)里面的语言分析和生成的过程性,在合一文法的旗下出现过一系列以后缀G(gammar)命名的形式化系统方案(formalisms),如 GPSG,HPSG(立委的博士课题就是在HPSG这个框架下做的机器翻译实验)等。因为语言规则不再具有单向性,那么分析文法和生成文法就可以是同一套语法,由这套文法支持的系统是做分析还是做生成,是在文法资源被调用的时候才得以确定。理论上,A 语言翻译为 B 语言,与 B 语言翻译为 A 语言,在语言资源上归一以后,开发系统的工程就节省了一半,对于多语互译的效率虽然不如媒介语方案高,省工一半也还是非常诱人的。长话短说,这两类方案都是传统的基于规则的系统,虽然都做过相当程度的研究探索,但最终由于局限于手工规则系统难以 scale up 而没成大气候,最终修成正果的还是后起的统计型机器翻译(statistical MT)。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法,原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统,近几年也有对于缺乏对照翻译数据的语言对,通过语料更丰富的语言作为媒介语绕个弯的做法。
 
机器翻译(MT)是自然语言处理(NLP)领域历史最悠久的应用方向,从上个世纪50年代初发轫,承载了中外几代不知道多少人的青春和梦想,也包括青年时代的立委。如今,梦想化为现实,嵌入式机器翻译在互联网无孔不入,已经成为普罗大众手中招之即来挥之即去的便捷工具,每时每刻在默默服务着千百万互联网用户。女儿学汉语用它,学西班牙语用它,去日本动漫网页也用它,用到对它熟视无睹,把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在,不时报以嘲讽:真笨。可机器翻译呢,谦谦君子,玉树临风,虚怀若谷,任劳任怨。对于已经天然成为女儿这代人生活一部分的机器翻译,我满腹机器翻译的历史和掌故,却不知如何给她诉说。耳濡目染,她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义,可是我还是无法象对同辈人那样娓娓道来,如数家珍,传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是一般意义上的代沟,是技术的跨越式发展造成了两代人迥然不同的视角,让人欣慰更感慨。摘自 《机器翻译万岁》

“学自然语言的人如果入行做的就是规则机器翻译,那是上天的赐福。新一辈这种人没有了,所以很多入行多年的人,看到的语言世界,还是一线天。如果你在没有平台支持下被逼着去做规则机器翻译,你有福了。你必须从头开始做词典、做 tokenization,做 POS,做短语,做 SVO 句法,你还要做双语结构转换、WSD 词义消歧,最后还有目标语的生成,包括形态生成、调序,修辞上的一些 final touches。总之,从语言分析到语言生成,方方面面你必须全部做到。如果没有平台 没有专用语言 像我们做硕士论文那样用 general purpose language (COBOL,ALGOL,BASIC,甚至汇编)做,那就是在太上老君八卦炉里炼,没得不炼成火眼金睛。现在的 CL 硕士博士呢,动不动就下载一个软件包,瞅准一个子任务 譬如切词,譬如 sentiment,譬如WSD,哪怕是做 MT, 也不用涉及那么多的层次和模块。

“索性把怀旧进行到底 《朝华午拾:一夜成为万元户》: 这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载:Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands.  我的工作应该是中国做依存关系最早最完整的作品了。所谓 【美梦成真】 就是这么个来历,跨越近 30 年,纸上谈兵的 syntax 终于化为现实的 deep parser。刚才一边吃晚饭,一边琢磨这段MT外传,觉得还是有几点可以总结的,笔记如下。
(1) 荷兰这个多语 MT 计划本来是规则系统起家,用世界语作为媒介语,用的是依存关系文法的框架,实现的机制是 ATN (Augmented Transition Network),技术领头是德国语言学家舒伯特。
(2) 可是做着做着,剑桥出身的 Victor 博士想出了统计的路线,定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit (有点像我们用的“句素”的概念),做了实验验证了这条路线的创新,把整个项目在收尾阶段翻了个个儿。而这时候(1989年),其他的MT研究虽然也有 IBM 等开始的统计 MT,但没有一个达到这样的深度。
(3)事实上,直到今天,回顾这个科研创新可以看出,根据 parsed 以后的双语数据库的平行对比,从统计去找 Translation Units,比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT,还是远高出一筹。(当然现如今的深度学习对MT的革命性推进,虽然仍然没有利用显式的语言结构,但真正海量数据的深度学习似乎有效弥补了结构的不足,不像此前的 SMT 那样捉襟见肘。)
(4)在 SMT 中加入 parsing 并不是每个人都有这个条件,DLT 赶巧是先做 parser 做了四五年,有了这个基础。现在和今后的方向从宏观上来看是,SMT和NMT 可以重温类似 BKB 双语parsed平行语料库的尝试,走带入结构的道路。深度神经是一种训练的算法,与语言的结构深度没有必然联系。事实上 迄今为止 对于 text NLP 的深度神经的尝试,除了专门做中间件 parsing 的 research 如 SyntaxtNet 外,对于 NLP 应用方面的任务,基本上还是在语言浅层端对端进行。”  摘自 《河东河西

 

【相关】

 

【泥沙龙笔记:弃暗投明,明在何方】

我:
just had a small talk with Tanya on US election, she was super angry and there was a big demonstration against Trump in her school too

行:
@wei
在我们这个群里,我们都见证了立委清晰的预测了川普对希拉里的领先优势。与传统媒体相比,这次社交网络所反映的民意更准确。也许更为重要的是分析整个选举过程中与时间相关的一些关键变量。
不过有一个问题和缺点,这个分析没有反映美国的选举人制度,事实上希拉里克林顿所取得的选票高于川普。如果能有回缩的地域分析,特别是,摇摆州的地域分析,比如说佛罗里达等的回溯

我:
是的。这次其实是千载难逢的机会,因为太多人关注,太多人 bet,应该认真当成一个项目去做,精心设计。

利:
不光是美国人关注,我们在国内也非常关注

行:
证明了新工具的力量。这也是这次川普当选的最正面的事件。

我:
我这种票友性质地玩,只是显示了大数据里面的确有名堂
但不是震撼性的。

利:
我跟美国的朋友们说:不管谁赢得了总统,都是大数据分析赢了

行:
等我有钱了,我来投你。

毛:
对,我也想过这个事,难点恐怕在于网上的信息恐怕难以分清出自何地?

我:
票友性质不是说的技术:技术是deep,靠谱和专业的,我从来都不小看自己;票友是说我对 domain (政治、大选)是票友 ,到现在对选举人制度还是模模糊糊,它到底怎么工作的

行:
lP地址不是相对能反映地域吗?

我:
推特是最大最动态的数据源,我们有推特的地理,应该大体足够从地理上区分了
我们也有种族,还有年龄和性别等信息。

行:
强烈建议回溯一下摇摆州。挖矿!非常值得进一步挖掘。

我:
没那个精力和兴趣了,公司缩水,也没有几个兵了,日常的琐务也要做
大数据不好赚钱。烧钱倒是哗哗的。

行:
需要设计出一个能赚钱的商业模式。技术是根本,但不是全部。

毛:
如果能把地理年龄这些结合进去,那你的系统大有前景。

Nick:
同意,伟哥可以写本书:
how is a presidential election won or stolen?把选举人票考虑进去

我:
有兵的时候,鸡毛蒜皮我不管,我爱怎么玩怎么玩, 到头来连兵都保不住,还玩个球啊。一个教训,不要把技术开发得过头。小公司的构建内,任何一个部门都不宜超前太多,超前了,就意味着末路的来临。

Nick:
@wei 早就叫你弃暗投明

我:
弃暗投明倒有个明啊 一厢情愿哪里行。

技术并不是越深入越先进越好,by nature 作为科学家,我们总是想越深越好
结果是产品来不及消化,技术总吃不饱,最后最先裁剪的就是技术 呵呵 反正也消化不了全部,你再优秀也没价值 其实是有前车之鉴的:《朝华午拾 – 水牛风云》
十几年再来一次,仿佛时光倒转。

一个机构作为一个整体,必须保证大体相称的发展水平,才可相谐。一个部门太出色,overperforming,其他部门无法消化,也就成了目标。譬如研发,要质量我给你最好的质量,超过“世界第一”,要广度我给你整出20个世界主要语言的深度分析 (deep parsing),cover 语言数据的 90+%,要领域化可以在两周内 deliver 一个 domain 所需的情报单位(一种关系,或一个事件),只要定义明确,产品的情报挖掘的瓶颈永远不在这个自然语言研发部门。结果呢,部门需要为部门的太好表现付出代价。这个世界就是这样诡异。

话说回来,一套技术在同一个公司挥洒了10年还没走人,对我这样害怕变动的人,公司也已经相当不易了。对得起我,我也对得起它了。当年没有我的技术,公司早死翘翘了。如今有了技术不能起飞,也怪不得我,公司从上到下,在这一点是共识:论技术和由此而来的数据质量,我们绝对领先对手。市场做不起来,打败不了对手,是技术以外的因由,我无能为力。另一方面也可以说,市场不成熟,技术变钱不是那么简单 market economy 决定的。

白:
NLP部门因为表现太好而不受欢迎,听起来是天方夜谭,如果不是伟哥亲历,谁信呀……

我:
反正我信。
我们吃不饱有日子了。一直都是我们催产品经理,而不是相反:求求你,给我们一个任务吧。产品经理说:就根据客户反馈小修小补吧。我们的数据质量已经行业领先很久了,一直是领先。

白:
用嘴投票还是用脚投票,这是一个问题

我:
新的 specs,或者出不来,或者出来了,我们 deliver 了,产品却实施不了。

严:
@wei 还是觉得公司产品方向太窄了,这么好的技术被局限在这么窄的应用范围。董事会老是要Focus。

邓:
听起来CEO应该负很大的责任啊

我:
据说是市场太小了,或饱和了。产品在一个 niche market,这个社会媒体大数据挖掘的market一度被疯狂追捧和夸大。几年下来发现,价值得到验证,市场也确实存在,但是就是不够大。拓展其他 market 需要有眼光的产品老总。对于“高新技术”,有眼光的产品老总比熊猫还稀少。高新技术比较适合做大公司的花瓶,其价值在于花瓶的股市效应。或者,适合一个巨大平台,帮助连接顾客和厂家: 这个可以产生真正的价值,譬如 Facebook。高新技术对于创业其实很难,第一缺乏资源(不能吃一辈子VC),第二缺乏平台(连大数据都要花大价钱购买,更甭提顾客与厂家的network了),第三缺乏熊猫。好不容易都凑齐了,最佳的出路也就是有幸被巨头看重收购了事。这个概率不到十分之一吧。也就是说,你哪怕有再牛的技术,你这辈子活过了三个人的寿命,有机会创业10次,你可能创业成功,如果成功是以被收购作为标准的话。如果成功是以上市成为独角兽作为标准,那么你需要的机会数是下一个量级,五年一个轮回,你大概需要活500岁才可撞上狗屎运。

老总的眼光各有自己的局限,譬如,原来一直做 b2b saas 的 就一直沿着以前的经验和熟悉的领域想技术的用场。超出经验领域之外 是很难的。产品创新不再是技术的创新,而是产品层面不断加 features,越加越多。为了讨好不同的客户。结果是 90% features 基本没人用,产品也因此变得让人眼花缭乱了。为什么 agency 喜欢这样的产品?因为他们是 power users, features 越多,他们越爽。其他客户面对众多 features,只会晕菜,反而起反作用。

NLP 的真正威力是把数据转为情报,如果一个产品只需要一种情报,譬如舆情,无法消化其他可能有用的情报,NLP 就处于语义落地吃不饱的地位。你吃不饱,你的价值就丧失。

我:
洪诗人有空可以为nlp写一首挽歌,为nlp超出产品一叹。

悟:
李氏唐朝西游记
维度无穷NLP录
立宪定法三权六
委身侍主天地合
@wei 我先抛砖引玉, 见笑了

我:
这砖抛的,狂赞。
【相关】

Final Update of Social Media Sentiment Statistics Before Election

Trump sucks in social media big data in Spanish

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

Pulse:tracking US election, live feed,real time!

【大数据跟踪美大选每日更新,希拉里成功反击,拉川普下水】

【社煤挖掘:大数据告诉我们,希拉里选情告急】

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

【我看好深度神经读唇术】

Nick:转载:谷歌人工智能唇读术完虐人类,仅凭5千小时电视节目!人类古老的技艺再次沦陷-搜狐科技!!!

南:
估计很快就有读心术了

Nick:
读心术和读唇术结合,细思恐极,星座是讲不下去了。。。

洪:
记得是 David G. Stork开创了这个领域。

葛:
根据脑电波可以读心

陈:
所有空间转换,如果有足够的训练数据,都可以尝试用深度学习拟合。

我:
读唇术真是神经的好应用啊 可以想见 它会重复语音的辉煌 而且显然远远超出专家。

陈:
才40%正确率

我:
聋哑人的读唇能力 我见识过。有一次招员 一位白人“龙女”应聘。她跟我面试交谈,眼睛使劲盯着我的嘴唇,要吃了人似的。虽然我英语带口音 不标准 而且说话急促,她居然大体都“看”懂了。麻烦的不是她听话和理解的能力,而是我受不了她说话。由于她很多年耳聋,结果她说话的腔调越来越偏离人类。虽然我勉强听得懂 但那是一种“深度神经”折磨。公司hr和主管都鼓励要她,hr 多少还有担心怕她说我们对残疾人有歧视。特别嘱咐 如果基本能力够格 交流沟通的缺陷不能作为不聘用的考量。我心里不情愿 怕以后工作每天受听力折磨 但还是勉强同意招。

结果 negotiate 待遇 她居然狮子大开口 比其他几位类似能力的 candidates 高出很多 而且摆出不愿意讨价还价的样子。她的这个态度帮助我摆脱了不要她可能带来的良心不安。

发现残疾人的专项能力的发展可以让人惊诧 她的读唇能力在我们普通人看来不可思议。面试她六七位同事都反映 她的“听力”理解 完全可以胜任工作之间所需要的沟通协调,说的能力也有 只是偏离人类发音的趋势会越来越严重 大概遵循的“熵最大”(maxent)原理 孤立态混乱度无法逆转吧。

电脑有几乎无限的带标训练数据 这个场景非常类似于mt 这么好的天然学习场景 电脑超越龙女 是必然的吧。报道说 读唇专家不到百分之二十 电脑能力高出一倍 到百分之四十。不懂这都是哪门子专家,与我见到的龙女无法比。专家读播音员标准的说话,龙女读的是我们这些不同语言背景人的蹩脚英语。专家读唇之前已经熟悉这些播音员 等于受过历史数据的培训,龙女以前跟我们素不相识。

马:
以前有个电影叫联合舰队,是根据真人真事改编的,主演也是原型担任。一个盲人,一个聋哑人共同上学,盲人用嘴型重复老师说的话,聋哑人通过唇读获得信息

我:
残疾人的补偿替代功能常超越我们的想象
电脑只要有超大数据 也可以超越我们想象
看好这个方向。

马:
搜狗也刚做了一个唇读,识别率还蛮好的

 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

Small talk with Daughter on US Election

just had a small talk with Tanya on US election, she was super angry and there was a big demonstration against Trump in her school too

T:
I don’t want him to win
I don’t want him to do well
Or else another racist gets electedMe:

Me:
neither did I
IF he does very badly, he will be impeached;
or at least he will not be reelected in 4 years.
But now that he is, we can keep an open mind.
There is an element of sentiment he is representing: so-called silent majority, that is why most polls were wrong.

By the way, many have praised my social media analysis just before the election, mine was way better than all the popular polls such as CNN.  This is not by accident, this is power of big data and high tech in the information age:

Final Update of Social Media Sentiment Statistics Before Election

with deep NLP and social media, we can pick up sentiments way more reliable and statistical than the traditional polls, which usually only call 500 to 1000 for opinions to hope they represent 200 million voters.  My mining and analysis are based on millions and millions of data points.  So in future we have to utilize and bring the automatic NLP into things like this as one important indicator of insights and public opinions and sentiments

So in future, we have to utilize and bring NLP into things like this as one important indicator of insights and public opinions and sentiments.

T:
daddy
you’re amazing
Your technology is amazing

Me:
I got lots of compliments for that, but yours mean the most to me.

What happened in the election as I had been tracking using our NLP sentiment tool was:

1. Clinton was clearly leading in the period after the recording scandal of Trump and before the FBI started reopening Clinton’s email case: Big data mining shows clear social rating decline of Trump last month.

2. Clinton has always been leading in Spanish speaking communities and media, but that did not seem to be sufficient to help revert the case:  Trump sucks in social media big data in Spanish.

3. The event of FBI re-opening the email investigation gave Clinton the most damage: Trump’s scandal was cooling down and the attention was all drawn to Clinton’s email case so that the sentiment has a sharp drop for Clinton (【社煤挖掘:大数据告诉我们,希拉里选情告急】)

4. When FBI finally reissued a statement that there was no evidence to charge Clinton only 2 days before the election, time was too short to remedy the damage FBI did in their first event of reopening the case: my big data tracking found that there was some help but not as significant (【大数据跟踪美大选每日更新,希拉里成功反击,拉川普下水】).

5. Then just before the election, I did a final update of the big data sentiment tracking for the last 24 hours versus last 3 months, and found that Trump had a clear leading status in public opinion and sentiments, so I decided to let the world know it although at the point most everyone believed that Clinton was almost sure to win.

T:
Oh my god dad your machine is the smartest tracker on the market
Dad your system is genius
This is exactly what media needs
You should start your own company
This is amazing
I think this would be the planets smartest machine

Me:
I do not disagree, :=)It was a tight competition and with good skills, things could turn different in result.  In terms of popularity votes, they are too to be statistically different, so anything at the right timing could have changed the result.

It was in fact a tight competition and with good skills, things could turn different in result.  In terms of popularity votes, they are too to be statistically different, so anything at the right timing could have changed the result.

On retrospect, FBI did a terrible thing to mess up with the election:
they reopened a case which they did not know the results
just 10 days before the election which made a huge difference.
On the other hand, the recording scandal was released too early
so that although it hurt Trump severely at the time, yet it allowed FBI to revert the attention to Clinton

In future, there should be a strict law disallowing a government agency
which is neutral politically by nature to mess up with an election within a time frame, so Trump’s winning the case to my mind has 80%+ credit from the FBI events.
What a shame

 

[Related]

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

《朝华午拾 – 水牛风云》

朝华午拾 – 我的世界语国(五): 水牛风云

作者:立委

纽约州水牛城是我来美奋斗挣扎了八年的地方,我的世界语国也经历了许多的风雨起伏。

我是在美国网络热潮中来到这家创业公司的(见朝华午拾-创业之路》)。在世纪末网络泡沫破灭之前,我协助老板获得了1000万美元的风险投资。钱一下多得好像永远用不完似的。老板决定停薪留职,不再承担她的大学教授责任,来到公司当任全职CEO。开始的 executives 就老板和我两个人。我们踌躇满志,准备大干一场,开发自然语言技术支持的新一代问答系统。

跟钱同时进来的是压力。如果我们无能快速组建团队,老板对投资人就无法交代。扩员的压力很大,我和老板漫天做招工广告,每当发现一个合适对象,并成功招纳,就相互祝贺。如果有一周一个也没有招到,就有挫折感。

当时的气氛跟中国大跃进类似,理性被压抑,冒进被称颂。投资人来视察时,得知我们新的办公楼还在接洽,旧的办公室太过拥挤,难以适应迅速扩张的需求,竟然提议两班倒,“人停机不停”。我们明知科研和开发不是靠“革命热情”和人海战术就可以飞跃的,但是在当时的那种气氛下,也没有办法跟投资人说清这个道理。作为经理,我只好因势利导,每个周末以身作则,来公司加班,并鼓励员工至少周末加班一天。平时每天晚上六点半左右我出去买各式快餐,好像大跃进吃公共食堂的样子,为届时还在办公室的员工提供免费晚餐。

董事会要求我们尽快从当时的五六个员工至少扩充到50-60人的规模。我作为第一位副总,被赋予为我的研究开发组招工扩员20-30人的任务。我的组需要三类人才,一是研究科学家,要懂机器学习算法,跟踪最新学术动态,二是软件工程师,能够开发和优化 real life 软件模块,三是语言学家,可以编制和维护机器语法和词典等软件资源。前两类人比较紧缺,语言学家相对好办。我先从加拿大招来两名语言学家,又在德国招来一名,加上一名中国籍女博士,组建了一支语言学博士队伍。董事会还嫌我们扩张速度不够,不能符合他们的大跃进要求。我们于是实施员工引荐的奖励办法,非经理的员工推荐一人,一旦受聘,可得一千美元奖金。作为经理,内举不避亲,我着手在我的两个社会圈子,华人和世界语朋友中,继续扩招。华人圈子主要是中国的留学生和新移民,前后招进10名。其中多是先跟我做暑假实习生(interns),然后留下来成为正式员工。他们多还没有毕业,也没有北美工作经验,需要留在水牛城继续学业,能够来到公司一边工作,一边完成学位对他们是绝好的选择(水牛城工作机会很有限,我们公司被认为是比较理想的所在)。老板对中国学生印象很好,认为他们比印度同学更加踏实能干,所以对我偏向在华人留学生中招员表示支持。

世界语圈子里,我跟加拿大世界语协会主席P先生认识多年,他的博士已经念了七年多了,因为毕业即失业的压力,一直在系里耗着不毕业。我于是去信请他来面试,邀请他加盟我的研究开发组。他询问待遇如何,我告诉他如果被录用,比他现在的 sessional instructor 的工资高出两三倍,他自然喜出望外。拿到 offer 以后,他和他的世界语太太欢天喜地,开车从西海岸沿一号公路横穿加拿大,经多伦多一路开车到水牛城报到。由于他的到来,水牛城成为世界语俱乐部的新据点,来自邻城多伦多和 Rochester 的世界语朋友,也纷纷来他的公寓聚会,我的世界语圈子也随之扩大了。

早在温哥华念博士时期,我就认识了P先生。其实他可以算我的师兄,在我进入语言学系前他就在我系读博士,到我去的时候,他转到邻城的另一所大学继续他漫长的博士生涯。我们在地区性的语言学会议和世界语会议上都见过面,他给我的印象是比较典型(stereotyped)的语言学家,有点迂腐,善于做田野工作,detail-oriented,懂得很多门外语,适合当秘书或编辑。我觉得经过培训,他可以胜任机器词典语法的编制维护任务。我离开温哥华前,和他也有一些个人交往,一次开北美语言学会的时候,曾在他家留宿。还有一次开北美西北地区世界语会议以后,我搭乘他的车回温哥华。一路上,他和太太两个兴奋异常,用世界语高谈阔论,突然发现汽车没油了。半夜三更,我们被困在高速公路旁边。当时我们是学生,为省钱都没有加入汽车协会(CAA),所以也无法向CAA求援。P先生后来硬是步行到下一个高速出口边的汽油站,请求好心人帮忙送来一管汽油,我们才得以平安回家。

P先生是在欧洲参加世界语大会时认识太太的。太太是当地的世界语积极分子,跟前夫离异后带着女儿生活。她性格爽朗,滔滔不绝,说话爱夸张,表情丰富。谈起她和P的相识相爱,总是眉飞色舞。她把丈夫看得很高很大,现在丈夫博士还没有答辩就找到了工作,经济一下子翻身了,她的喜悦更是溢于言表。为了表达对我举荐和接纳的感激,她自己绘画,制作一批手工艺卡片送给我的太太,还赠送我一本柴门霍夫传记,扉页写满了对我的溢美之词。

P先生来后,工作按部就班,倒也兢兢业业,但跟现有的几位语言学家相比,也并不突出。我们只做英语,他的外语专长也无法表现。他也不大懂公司文化中的个人表现和隐形的加班要求,总是按时上下班。也难怪,他和太太有很多世界语协会的杂务,编辑加拿大世界语协会通讯,发展会员等等。看的出来,他们满意现状,很 enjoy 目前的生活。我心内认同这样的劳逸结合的生活方式,但自己不得不过另一种生活:每天天很晚才回家,周末总是加班,难得有时间陪孩子和太太。

有一次跟P聊天,我提到想把同样是世界语者的资深D博士招来,可是联系不上,P先生说可以在世界语朋友中查询他的下落。过了两一个月,他兴冲冲告诉我联络上了,说D博士目前在一家社区学院担任临时讲师。我马上打电话给他,一拍即合,邀请他前来面试。D博士曾经是我的”上司”(见《朝华午拾-我的世界语国(四): 欧洲之行》):当年在荷兰公司以世界语为媒介语的机器翻译项目DLT中,他负责指导和审查我承包的汉语形式语法。我想,作为资深语言学博士,又跟我一样实际从事过多年的机器翻译工作,他也许可以帮助我指导这个越来越大的团队。

面试并不顺利。D博士年岁较大,反应有点迟钝,我也感觉有些失望,至少他不象是个 group leader 的人才。不过,心里想,他也许经历的挫折较多,至少经验是有的,作为一个 team member,想必没有问题。老板跟我说,D很老实,但是不象是个能干的人,不主张招。不过,如果我觉得能用上,还是由我定。我咬咬牙,还是招了,但没有给资深人士待遇,年薪跟其他语言学家拉平。尽管如此,对于D博士,这无疑是自荷兰公司工作后的多年漂流生涯以来的最好工作。他和他的世界语太太也是欢天喜地来到水牛城,而且来了不久就买了房子,俨然要在水牛城扎根。后来得知,D博士的母亲听到儿子得到一份不错的工作的喜讯,决定提前把家产划给他,资助他在房价便宜的水牛城置办房产。

说到这里,有必要介绍一下语言学家供过于求的北美劳务市场。在西方,有很多冷门专业不断制造着社会不需要的人才,这些专业的大部分博士毕业即失业。冷门专业包括我们从小迷信其威力的数学和物理,我主修的语言学也是其中之一。这些专业的博士生除了谋求教授职务,在社会上很少有需要其专门技能的岗位。可是教授职位毕竟很有限,往往一个职位出来,就有上百个博士和博士后申请,对于不是一流大学的博士,求教职简直比登天还难。拿语言学来说,就我所知,甚至MIT的博士,也常常需要经过两三轮清贫的博士后中转(博士后是真正的学术“苦力”,一年两万左右薪水,经济上比餐馆打工强不了多少),运气好的最后可能找到一个二流或三流大学的教职。

这就是我所学的可怜的语言学的现实,好在我的研究方向跟电脑有关,运气稍好。可是很多我的同学终身潦倒落魄。少数头脑灵活的丢掉专业转行去干别的,更多的人不能适应社会的需要,只好在大学做临时讲师(sessional instructor,僧多粥少,这种工资很低的临时工也很难找),或者接点翻译或编辑的零活,勉强糊口。别小瞧这些语言学博士,他们尽管没有多少创造性,棱角也早已磨圆了,可个个都是饱学之士,多数都会五六种外语,会十几种外语的也不在少数。我的世界语朋友P先生和D博士就是他们的代表。这些落魄而清高的语言学博士,囊中羞涩,在北美很难得到女士的垂青。可是在前共产主义的东欧,借助世界语的特殊场合,却可能喜结良缘。D博士在荷兰公司的项目完结以后,辗转东欧各国,教授了几年英语,同时投身当地世界语运动。回美国的时候,跟P先生一样,带回来一个世界语者太太。

我们在语言学家中大量招工的行动引起了媒体的关注。当时,我们的几个竞争对手包括AnswerLogic.com 也一样到语言学家中招工,形成了一道社会风景。我们这些活动经过《华尔街日报》题为”No Longer Just Eggheads, Linguists Leap to the Net”的采访报道后,在社会上和语言学界引起强烈反响(甚至中文报纸《世界日报》也编译了华尔街日报的报道),一时间似乎为语言学家开辟了一条新路。作为参与者,我为自己能够帮助同行创造就业机会感到欣慰和自豪。在公司内部,尽管由于劳务市场的供需影响,语言学家作为 knowledge engineers,比同等学历的软件工程师工资要低,我还是尽量为他们谋求高于市场价格的待遇。一时间,公司仿佛成为语言学家的天堂。

然而,好景不长。D博士差不多是我们疯狂扩招的最后一个了。世纪末,网络泡沫终于破灭,Nasdaq 科技股市场一落千丈,投资人变得异常挑剔和谨慎。AnswerLogic 拿钱比我们早,烧得比我们快,轰轰烈烈闹腾了不到两年,终于随着Nasdaq的坍台而销声匿迹。还有一家搞自然语言有相当年头的公司,日本投资人决定撤资,拍卖股权,公司负责人找到我们,认为我们两家的技术有很大的互补性,希望我们贱价购买,并接纳他们的技术骨干:负责人实在不忍心对技术骨干裁员。我们的另一个对手,曾经拿到三千万巨额投资,集中了世界一流科学家的 Whizbang! 也遭遇滑铁卢,投资人在烧了一千多万美元以后,决定撤资,撕毁合同,放血大拍卖:他们的所有技术,包括源程序和说明,everything must go! 价格已经降到一两百万美元,让我们不得不动心。可是我们泥菩萨过河,自身难保,没有能力和精力消化这些技术,只好放弃这个“deal of the century”。股市垮台不到一年,几十家在我的 watch-list 中的对手,只剩下两三家,跟我们一样勉强维持,惨淡经营,朝不保夕。

我们当时还剩下约五百万投资,加上不断增长的政府项目的进项,还没有到山穷水尽。当然,投资人也可以中途撤资,但他们最终还是决定继续支持下去。不过,董事会决定重金引进职业经理人,我的老板只好屈居第二。新的CEO精明强干,哈佛MBA出身,此前领导过三家高科技创业公司,并成功转手出售给大公司,有不错的 track record。他的担子很重,在 high-tech 公司纷纷关张的恶劣形势下,必须带领公司闯出新路,度过难关,伺机发展。当时,问答系统的先行者 AskJeeves 盛极而衰,股票一跌千丈,董事会因此认定我们一直在开发的问答系统没有市场,指令转向开发新产品。

CEO上任以后,连续两周听我们详细介绍技术细节,比较我们的技术跟可能的竞争对手的异同,开始咨询一些外面的高参,探询新产品的路子。同时,他不动声色地考虑如何重组(re-org)公司,减少开支,轻装前进。对于高科技公司,最大的开支是人力资源,re-org 就意味着裁员。他随身总带着一个花名册,上面标有每个员工的职务和工资,他不时在上面写写划划,有的打叉,有的标上问号。最先打叉的就有D博士。这也不怪,D博士来了不久,就犯了几个低级错误,闹了不少笑话,他老朽无能的评价很快就反馈上来了。我很为难,但是知道难以保护他,他确实不上手。我至今也不明白,一个名校博士,有六年相关的实际工作经验,怎么这样不入。他也没有到老糊涂的年岁呀。

D博士自己也有所觉察,有危机感。他有点木纳,不善于迎合其他主管,觉得我是他的唯一的救命稻草,于是请我和全家做客,P先生夫妇作陪,联络感情。他的用心我很明白,可我确实无能为力,在公司正式宣布裁员名单前还必须小心保密。这次请客真让我犯难,跟太太一商量,觉得不能不给他们夫妇一个面子,但又不能让他们有错觉我有能力保护他。最后决定我一个人去,带上礼物赴宴。女主人使出全身解数,做了一顿极为丰盛的晚餐,用的餐具也很讲究,可是我没有任何胃口和心情,硬着头皮应付。气氛有点凝重,连平时爱热闹,喜欢多话的P太太,察言观色,也收敛很多。P先生夫妇转着弯子替D博士美言,我只能微笑不语,这是我在世界语国所经历过的最别扭的晚宴。

裁员计划暂缓,因为CEO和董事会还在协商多大的裁员幅度既能节省开支,支持公司开发出新产品,又不伤筋骨,保存骨干。终于,在CEO到来的第三个月,裁员指标在管理层下达,我做梦也没有想到,我们辛苦发展的60多员工的公司,居然要砍掉一半。这下不但D博士保不住,连P博士(P先生当时已经答辩,顺利拿到了博士学位,正春风得意)也必须走人。由老板和天使投资人任命的四个年轻副总,也开掉三个,甚至天使投资人的亲弟弟也不能幸免。老的VP就剩下我一个,好腾出位子让CEO引进资深经理人员,组建新的领导班子。公司的第四号员工,一个挺能干但爱抱怨的西班牙小伙子,也列入黑名单。我感到痛心,毕竟大家同舟共济,一路走过来,我说服老板和我的老搭档、瑞典籍的第一号员工一起去跟CEO说情,还是没有成功。CEO跟我说:I know it’s a great pain, especially for those you have worked with for long. But we all want the comnpany to succeed and this is the only way to survive this tough time. I have done this numerous times, believe me, it works. 说的是老实话,可是作为经理,要开掉自己亲手招来的员工,是什么滋味:job 是员工的命根子,你不能把人送上天堂,转手又打入地狱。

煎熬不止这些。我保护华人员工的私心也受到挑战。经过多轮内部讨价还价,最后决定10名华人员工必须裁掉两位。大家乡里乡亲,砸人饭碗的事情怎么忍心去做。就在这个当口,我两年前招进来的中小学同学C博士跟我谈起,他由于个人原因,已经决定海龟(后来应聘招标成为名校的博导和正教授,事业一片光明),但是不想在裁员风潮中辞职,怕人误会是表现不佳,不得不离开。我心内暗喜,他的离开至少救了一位。我说,你不用当心,我们可以安排你在裁员风潮过后离开,而且公司会为他饯行,表彰他两年来的贡献。还剩最后一位华人员工,看样子是保不住了。我不死心,私下跟我的资深助手一起,沟通CEO刚招进来的资深工程副总,说服他工程组需要一位我们研发组出身的既懂技术又懂工程的人,作为两个组的桥梁,这样在新产品开发中可以加速技术转移。说的也是实情,但一切在于权衡。副总新到,对我们老人有所依仗,现在CEO把工程组裁员重组和产品开发的任务交给他,他多方权衡,终于接受我们的方案,接纳了我们推举的人,使我松了口气,总算保全了华人员工。

在大裁员的那一周,我整夜整夜失眠,心急如焚,茶饭不思。更加残酷的是,裁员实施当天,我作为经理,必须履行职责,跟被裁的员工个别谈话,做好善后。不管怎样小心,最后还是有风波,一位被裁的白人女质量检测员,平时受过我的批评有积怨,加上看到华人员工均完好无损,扬言我们有种族歧视和性别歧视,要到法院告我们。公司后来找人沟通,说服她私了了。我的西班牙同事,也是一个实心眼,经常打电话给我,想回到公司,可是开他的人都在台上,怎么可能。他还几次回来看我和其他老同事,跟我说对公司念念不忘,充满love-n-hate的感情。我的中国同事担心他想不开,做什么绝事,劝我躲开他。我了解他的为人,同情他的遭遇,还是一直跟他保持良好的关系,并在他寻找新的工作时给予强烈推荐。

回想起来,不动大手术,公司难以为继,也就没有后来的复苏,成功地开发出市场需要的产品,使得投资人愿意进一步追加二期和三期的资金。可是,我和老板毕竟是书生,没有职业经理人的“铁石心肠”,感情上很难接受裁员的残酷现实,无法面对员工的惊惶和绝望。

我不能忘记P太太听到丈夫被裁、天雷轰顶一样的反应。裁员前夕,他们夫妇正计划利用每年的假日去参加北美世界语会议,老板跟我商量,决定暂先不告诉他们裁员的消息,以免影响他们的心情。可以想见,当他们在世界语国欢度一周回来后落到深渊的感受。从我们这里出去,P博士回到加拿大担任了一段园林工人,后来好像找到一份临时秘书的工作,在某大学帮忙。D博士此后失业很久,一直找不到工作,也不知他刚买的房子怎么了结。

好久好久,裁员的阴影挥之不去。太太安慰我说:你已尽了努力,他们的工作在紧缩时确实是可有可无,无法保全。唯一可以自我安慰的是,他们本来是没有机会的,我毕竟给了他们机会,并没有因此耽误他们的其他机会。

我很佩服CEO,在随后开发新产品和技术转移过程中,跟他配合默契。但在他领导公司走向成功的路上,我总觉得有“一将功成万骨枯”的悲凉。命运使我凑巧进入小公司的senior management,八年下来,我的体会是,经理,这不是我等意志薄弱者应该干的活计。

Wei Li
记于2006年独立节

立委《我的世界语国》入《世运人物志》

【相关】

《朝华午拾:用人之道》

朝华午拾-创业之路

【置顶:立委科学网博客NLP博文一览(定期更新版)】

【心路历程:当理论遭遇实践、博士走向工业】

这两天翻开我20年前关于汉语短语结构文法的博士论文,重读一遍,有些感慨。

我的博士做得比较辛苦,其中的曲折和坎坷,不足道也。总之是,做实验做了很多现象,舍不得放弃,可博士论文要求有一条主线,讲究的是点入。不知道草稿了多少提纲,一律被导师忽视或枪毙,最后是不断舍弃,不断聚焦,千锤百炼,才打造出这么个棱角全部被磨圆了所谓博士论文。感觉上,多数的博士论文都是这种过分打磨,读起来了无趣味的文字,在下的更是如此。但里面包含多少不眠之夜的挣扎、艰辛和血泪,天知地知也。

其实,所谓PhD哲学博士是一个历史遗留下来的错误称号,当代的博士基本都是专才,一点也不“博”,很少通才。很多年的辛苦研究基本是掘地三尺的劲头,重精不重广,除了自己的一亩三分地,其他领域无知得很,哲学就更谈不上了。北美的博士制度耗费了人一生中最有创造力的时期,长达5-8年,感觉是太超过了。见过很多博士磨圆了锐气,了无成就,面对真实市场手足失措的案例。难怪俗话有说,傻得像博士。这里的得失留给教育学家研究点评吧。

话说我终于一边工作,一边完成了定稿,导师也首肯了。那时甜甜刚四岁。

I should thank my four-year-old daughter, Tian Tian. I feel sorry for not being able to spend more time with her. What has supported me all these years is the idea that some day she will understand that as a first-generation immigrant, her dad has managed to overcome various challenges in order to create a better environment for her to grow.
PhD Thesis Dedication
To my daughter Tian Tian
whose babbling accompanied and inspired the writing of this work

I still remember I was in tears when writing this to give a final touch on this degree thesis

现如在正在做中文 deep parser,已经很有规模了。正好回顾一下,看 20 年前的思路与20年后做法,有何不同。离校后开始工业开发至今,我毫不犹豫就抛弃了博士的自动分析的路线,虽然做博士时说得头头是道。实际是扬弃吧。有抛弃有继承。抛弃的是单层的CFG,继承的是词法句法的无缝连接。这个转变反映的是理论和实践的距离以及学术与工业的关系。

做博士的时候,正是 unification systems 最被热捧的时候。于是跟随导师,在 Prolog平台上用 HPSG 做了一个汉语文法的MT双向实验(同一个汉语文法被用来同时做分析与生成,支持汉语英语的双向机器翻译),做了个 toy。需要写论文了,不得不把做过的各种现象不断缩小,最后集中到汉语的词法(包括切词)和句法的接口上做文章。整篇论文论述的就是一个思想,切词、词法与句法必须一体化,用的是单层 CFG parsing,说得头头是道。

一体化理论上当然是成立的,因为语言现象中的相互依赖,只有在一体化的框架下才好对付。哪怕 90% 的现象不是相互依赖的,是可以摘开的,你总可以用 10% 的现象证明一体化的正确性(理论上不妨碍那 90%)。

20年后呢,去球吧。早抛弃了单层一体化的思路,那是一个死胡同,做 toy 可以,很难 scale up,也做不深入,做不了真实世界的系统。继承的是一体化的通信管道和休眠唤醒似的patching机制。但宁肯修修补补,也不追求语法体系的完美。

对 HPSG 好奇,或感兴趣汉语怎么用HPSG的同学可以看看我整理出来的博士论文,虽然是过气了的 formalism,记得半年前冯志伟老师还系列编译介绍了 HPSG 讲座。有读者问,怎么用到中文呢?其实对于这种涉及一系列理论assumptions和技术细节的所谓 theoretical formalism,不做一遍基本是雾里看花。Unification 和 typed 数据结构逻辑上看上去很美,做起来也觉得好玩,做过后就洗手不干了。玩过 Prolog 的人也许有类似的体会。

决定把当年在博士论文中列举的具有句法分析难点的例子,当作 unit test 都  parse  一遍,看变了设计思想的系统是不是还可以抓住这些语言现象。

0824e

0824d

0824f

0824h

0824g

0824i

0824a

0824b

0824c

0825d

“头羊”(类似案例还有“个人”、“难过”)带有所谓切词的 hidden ambiguity,因为直接违反 longest principle,是中文切词的痛点,也是一体化的有力证据。理论上,任何的切词 ambiguity (不仅仅是 hidden ambiguity)都需要带入整个句子才能最后确认,local context 永远有漏洞,你永远可以营造出一个 context 使得你的 local 决策失效。但实践中还是可以大体把 local 与 全局分开,没必要带着切词的 ambiguity 一路跑到终点。hidden ambiguity 不影响大局者可以休眠,如上例。必要的时候可以用 word-driven 的句法后模块再唤醒它

 

【相关篇什】

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【立委科普:美梦成真的通俗版解说】

凑热闹参加【征文:美梦成真】 ,有网友搞不懂这美梦是啥,怎么叫美梦成真。说明我瞎激动的所谓美梦,非但没有做到老妪能解,甚至没有让科学人士明白,就科普而言,那是相当的失败。

看我能不能用大白话说明白这事儿:

我们人类的语言说简单也简单,说复杂也复杂。简单到不管多笨的人,也大都从小就学会了语言,交流没问题。但是人学会语言,大多知其然,不知其所以然。只有专门研究语言的语言学家一直在尝试对人类语言讲出点所以然来。可语言这玩意儿,不研究也就罢了,一研究就发现这是上帝的恶作剧,复杂得很,深不可测。

几千年的探索,总结出一种叫文法的东西,用它可以对语言的内在规律做一些总结,这样,千变万化的语句就可以分析成有限的句型结构,可以帮助语言理解和把握。人类本能的语言理解能力也因此显得有迹可循了。这就是我们在学校文法课上老师教给我们的知识,特别是一种语句分析的结构图的画法(grammar diagramming),条分缕析建立主语谓语宾语定语状语等结构联系,证明是一个很管用的语言分析技能。这一切本来是为了加强我们的语文能力。

电脑出现以后,就有人工智能的科学家想到,要教会电脑人类语言,这个领域叫自然语言理解(Natural Language Understanding),其核心是对人类语言做自动分析(parsing),分析结果往往用类似文法课上学到的树形图来表达。自动语言分析很重要,它是语言处理的核心技术。一个质量优良、抗干扰强(所谓鲁棒 robust)而且可以运行到大数据上面的自动分析引擎,就是个核武器。有了这样的自动分析,就可以帮助完成很多语言任务,譬如人机对话、机器秘书、情报抽取、舆情挖掘、自动文摘、机器翻译、热点追踪等等。(也有不少日常语言处理应用,譬如关键词搜索、垃圾过滤、文章分类、作者鉴定,甚至自动文摘和机器翻译,不分析,不理解,只是把语言当成黑匣子,把任务定义成通过黑匣子的从输入到输出的映射,然后利用统计模型来学习模拟,也可以走得很远。这些绕过了结构和理解的近似方法,由于其鲁棒性等优点,实际上是主流的主导性做法)。

自动分析语言方面,英语研究得比较充分。中文还刚刚在起步阶段,原因之一,是中文比欧洲语言难学,歧义更严重,大规律少,小规律和例外较多,不太好捉摸。因此有不少似是而非的流行说法,什么,词无定类,入句而后定,句无定法,“意合”而已矣。总之,中文自动分析是一项公认的很有意义但非常艰难的任务。尤其是要教会电脑分析真实世界的社交媒体大数据中的形形色色文句,更是难上加难。就是这个中文自动分析的美梦,最近被实现了。

这样的成就可以不可以说是美梦成真呢?

[11]方锦清  2013-10-17 15:04

我看不懂啊,可以进一步解释一下?

博主回复(2013-10-17 19:18):

这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。
The mission impossible accomplished.

征文在此,请支持:【征文参赛:美梦成真】

 

【美梦成真】

  • 这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎遥遥无期,非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。The mission impossible accomplished.

二十五年了,中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。

   很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮。直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦。大山大水已然身后,而且已经大数据实用化了,应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥,逝者如斯,怕这辈子没有机会回到中文处理上来,那将抱憾终身。
   都说中文是世界上最诡秘、最玄妙、最不讲逻辑,自然也是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”,是对机器自然语言理解和人工智能前所未有的挑战。目的地如此高远,而现状却相当悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔。切词是什么?最多算万里长征的前十步而已。
   25年了,许多思考、想法,在头脑绕了很多年,一直未及实现,现在是时候了。这辈子不爬中文的珠穆朗玛,枉为华裔语言学博士。陶先生说:归去来兮,田园将芜胡不归?

喝令三山五岳开道,中文处理,我回来了!

出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】,涵盖了现代汉语几乎所有的重要句型,画过无数的中文依存关系句法树,看上去真地很美。但那只是纸上谈兵。虽然设计这套文法是为机器处理,真要实现起来谈何容易。事实上,在当时那只能是一场科研美梦。这一梦就是25年!

现在回看当年的蓝图,对照最近在机器上实现的依存句法分析器,一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于迎来了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。

请欣赏青年立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用纯文本编辑器数着空格和汉字去“画树”,就如我年三十在机房数着字符描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的中文句法分析器全自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。

(1) 25年前的蓝图(美梦):

25年后的实现(成真):
(2) 25年前的蓝图(美梦):

25年后的实现(成真):

(3)25年前的蓝图(美梦):

25年后的实现(成真):

(4) 25年前的蓝图(美梦):

25年后的实现(成真):

但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。

(5) 25年前的蓝图(美梦):

25年后的实现(成真):

(6)25年前的蓝图(美梦):

25年后的实现(成真):

胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶,  并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。
 

 

【相关篇什】

初稿(2012-10-13 ):科学网—【立委随笔:中文之心,如在吾庐】

汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真)】:
ChineseDependencyGrammar1.txt
ChineseDependencyGrammar2.txt
ChineseDependencyGrammar3.txt

立委科普:语法结构树之美 (英文例示)】

立委科普:语法结构树之美(中文例示)】

【立委科普:美梦成真的通俗版解说】

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

Small talk: World’s No 0

A few weeks ago, I had a chat with my daughter who’s planning to study cs.
“Dad, how are things going?”
“Got a problem: Google announced SyntaxNet claimed to be world’s no 1.”
“Why a problem?”
“Well if they are no 1, where am I?”
“No 2?”
“No, I don’t know who is no 1, but I have never seen a system beating ours. I might just as well be no 0.”
“Brilliant, I like that! Then stay in no 0, and let others fight for no 1. ……. In my data structure, I always start with 0 any way.”

《在美国写基金申请的酸甜苦辣》

 

1. 初闯 SBIR

在来美创业不到八年的时间里,我总共拿到了政府18项“小企业创新基金”(SBIR: Small Business Innovation Research),计900万美金,做了17任研究项目的主任(Principal Investigator, PI or co-PI, 拿下的第18个项目由于离职而把PI移交了),研究方向始终是信息抽取(Information Extraction)。对于SBIR的基金申请几乎百发百中(也尝试过其他基金申请,却没有成功,其中奥妙容后详述),这实际上已经达到了该基金项目所规定的饱和极限:虽然偶然有网开一面的时候,但原则上,SBIR项目的PI必须至少拿出50%的时间指导项目,也就是说,一个人最多同时担任两个项目的PI(含co-PI)。这样的成就回想起来,更多是运气的成分,天时地利人和,当然也与自己的执着和死嗑分不开,其中甘苦,难以尽述。比如,这八年就没有真正过过一次像样的圣诞节。老美庆祝圣诞就好比我们庆祝春节,圣诞是探亲团圆休长假的好时光,而圣诞总是我基金申请最繁忙的阶段,因为元月五日是SBIR基金申请的死期。

写得最苦最认真的是前两三个基金申请,后来就越写越顺了。如果18个申请都需要象前几个申请那样大的精力投入的话,就是分了身脱了皮,也不可能完成。这里的道理很简单,基金申请的成功与否,不仅仅看写得如何,有没有 ideas, 更主要的是科研实力和在政府资助人中的信誉。信誉建立了,一切都好办。开始写申请的时候,基本是纸上谈兵,没有既往的研究投入做后盾,面对的是未知的竞争者,审阅者和资助人,要想有幸被选中,基金申请报告的质量至关重要。虽然质量好的的也完全可能选不上(见过不少这样的实例),但质量有严重瑕疵而想蒙混过关是绝对不可能的。

我写的第一个基金申请,倾注了我全部心血,反复修改,跟自己死剋。领导在旁看都烦了。限量20页的申请,看我先起草了50多页,又减到30页,再压缩到20页,没完没了,说我进入死循环了。一遍一遍地捋,一遍一遍地顺,自己高声朗诵给自己听,看文字 flow 不 flow,到后来差不多可以背下来了。功夫不负苦心人,从来没有写过基金申请,也没有过海外工作经验的我,写出的这第一个基金申请就使老板对我刮目相看。她只修改了个别措辞,就决定让我署名项目的PI。(对于新人,她完全可以让我写,然后自己署名挂帅而不做事,我知道很多外国老板就是这么做的。虽然后来我羽翼丰满以后,她又深感不安,我至今还是很感激她刚开始给了我独当一面的发展机会。)项目批准以后,政府资助人来检查工作时,也对我的申请报告一再表示赞叹,说这是他审阅过的最明白透彻的申请。除了运气和苦干外,我想我这次成功还得益于两个因素:我的语言表达能力,以及我对课题细节的熟悉。尽管没有海外从事这项课题的背景,作为课题基石的自然语言研究我在国内踏踏实实做了五年,积攒了丰富的切身体验,这是博士课堂上学不到的。启动这项研究的我的老板对这个领域并不在行,虽然她对该研究的走向和应用前景能谈得头头是道,但论起具体的语言处理问题来免不了有些虚,只能人云亦云地照猫画虎。我的加盟改变了这个局面,为公司在信息抽取领域发挥影响奠定了基础。

 

2. SBIR 一览

先谈一下SBIR的概况。美国政府非常重视小企业的发展,认为这是美国经济中最活跃最创新的一个部分。SBIR 是联邦政府部门(国防部海、陆、空、航天、教育等)设立的专项基金,旨在鼓励小企业从事政府部门制定的科研蓝图中具有应用前景的课题。据说,财富500强中不少企业当年就得益于这项基金而发展了最初的技术。SBIR 基金分为三种,Phase 1 基金很少,才10万美金,资助为期九个月的可行性研究;Phase 2 为期两年,75万美金,目标是研发一个模型系统(working prototype);Phase 3 的基金不固定,50万美金或更多,有时还要求企业与政府共同投入资金(matching funds),目的是在模型的基础上开发应用系统或产品,实际上是政府在多年对某技术的科研投入后再给小企业推一把,以期其市场成功。作为投资方,政府并不要求小企业做大后对政府资助有所回报,但小企业对于政府部门使用相关技术产品应予优惠。

三个 Phase 的基金申请,Phase 1 最难,尽管钱最少。 平均约二十个申请才选中一个,命中率小于很多顶级学术会议论文的通过比率。到了 Phase 2, 命中率提高到 50%.  也就是说,政府资助的项目,同一个题目在 Phase 1 阶段通常选择两家公司平行进行,做的是相同的题目,但却没有交流,要的就是在 Phase 2 的时候好做二选一的竞争。Phase 3 是没有定数的,不能指望,有没有后续的 Phase 3 取决于相关题目的应用前景,以及政府资助人资金筹备情况等多个因素。有意思的是,Phase 3 (其中一种叫 SBIR 2 Enhancement) 一旦设立,无需竞争,完全由政府资助方的项目经理人全权决定。虽然从形式上,也要写一个基金申请报告,但是因为没有竞争对手,命中率100%,可以把申请报告当研发计划书来写,基本是走一下形式。

对于多数企业,Phase 1 即便拿到了,也是赔本的买卖,因为在仅有10万资金的条件下,为了竞争 Phase 2, 总要把工作做得更扎实一些,投入更多一些。Phase 1 的基金报告可以纸上谈兵,而申请 Phase 2 就必须包括一些实验数据支持可行性研究的结论。通常的做法多多少少是拿 Phase 2 的资源补贴 Phase 1 的工作,这种事不好明说,但不少企业不这样就很难维持研发的持续性。当年,CEO 看到我们拿了多项政府项目很高兴,因为科研团队的投入全部由政府负担了,科研出的技术成果可以无偿转化到风险投资人资助的产品开发中去,这对于刚刚起步的技术公司是很重要的。而且这种无偿技术转移是受到政府鼓励的,毕竟小企业在市场的成功,最终给国家增强的是劳工市场(帮助解决就业问题)和企业税收,政府巴不得小企业都能在政府扶持下取得市场成功。后来,CEO 凭着他职业嗅觉,发现政府项目并不总合算,有一天,他跑来跟我说,Wei, I don’t want to do Phase 1s, for only 100,000, it is not worth it.  We need more Phase 2s and Phase 3s.  我笑道,我明白,你只想要二楼三楼,而不愿意兴建一楼和地基。I wish we could do that.

其实,不仅是拿到了 Phase 1 往往倒贴,没拿到之前,就已经开始投入了,主要是写基金报告所花的时间。当然,在小企业里挂帅的科学家个个都是五好员工,为写好基金报告,加班加点,夜以继日,牺牲节假日,很少听说有要求加班费的。考虑到20个申请才能选中一个,可以想见全国争取基金的小企业总共白白花费了多少资源。世界就是这样的不公平,并非有了投入,必有回报。很多技术型小企业就在这样的竞争中,耗尽有限的资金,而自生自灭了,或者转向非技术性产品或服务领域。很多小企业里负责科研项目的“科学家”,也随葬了,小企业不似大企业的研究部门,拿不到基金养活自己及其研究团队,是不能指望投资人或公司其他部门来补贴其研究的。只有少数小企业是幸运儿,有的以此为转机而在工业界成功,也有的即便没有在市场上成功,也可以依靠政府资助 (包括前期的基金和后期的政府合同) 长期运营下去,特别是当政府部门逐渐开始推广使用小企业的技术产品或服务的时候。我所服务的公司两边都沾一点,终于一分为二(spin-off),做工业产品的部门走向了市场,被另一家大公司收购,而做研发的部门成为政府项目的承包者,至今还在依靠政府的基金以及合同运行着。

 

3 鸿运+汗水+适应性+天才=成功?

话说了一箩筐,还是没到实质问题:究竟怎样才能写好基金申请?钱是硬道理,没有钱怎么科研,怎么雇人,怎么出来成果。读者诸君看热门话题不能白看,有什么成功秘籍也该露一手,造福后学啊。老实说,真地说不清,可以强调的是,一定要为审阅者着想,投其所好,减轻其负担。你想啊,审阅的人也不是神,在有限的时间里,必须完成n多申请的审阅工作。你的主意再好,如果表达不顺畅,格式不规范,很可能第一关就过不了。论述一个问题及其解决途径的时候,无论空间多紧张,务必要举实例,抽象谈论折磨的是审阅者的神经,因为他/她可能要把你的抽象自己在心里做一次转换。如果可能,所举实例最好是前后连贯的,形成一个discourse, 好像一个有头有尾的故事一样。这样你提的方案就具象化成一个使用系统的雏形,这项研究的意义也就蕴含其中了。Proposal 的含金量以及项目 PI 的资历自然是重要指标,这反映了一个资深研究人员与资历欠缺的人之间的鸿沟。但是,也不要过分夸大它的作用,否则新人还怎么起步?我刚开始写申请的时候,资历是远远不够的,PhD 还没有到手,也没有北美科研经历,更没有在北美带过科研团队,严格意义上的发表几乎是空白,唯一的资本是曾经在国内做过五年的研发,对于问题领域敏感而熟悉,语言学的背景加上某种天赋使得我的表达能力超过多数科研人员。这个世界上,万能或者千能的人不是没有,譬如镜子,:=),但为数极少,大多数都是你我这样的有某项特长,也有严重缺陷的人。(当然,我的缺陷我是从来不认账的,我要把帐算在“四人帮”头上。本来嘛,我当年没费力气就做了数学课代表的,要不是文化大革命,保不准就是第二个陈景润了。)学会藏拙,扬长避短,使我走上了基金申请的成功之路。藏拙的底线是不能闹笑话,没把握的绕着走, 基金申请又不是论文答辩,怎样行文在自己掌控之中,没有被 question 和 cross examination 的现场,当然是”不问不说”喽 (立委注:”don’t ask, don’t tell” 是美国军方针对同性恋参军设立的一个妥协政策,奥巴马声称要废除这种带有歧视性质的政策,使同性恋者可以光明正大地保卫祖国)。

我的缺陷在于我的理工背景的缺失。本来是报考理工的,可硬被塞进文科学语言学了(这个不怪四人帮,那是文革后拨乱反正的匆忙造成的阴错阳差,详见《朝华午拾:我的考研经历》 )。学传统语言学也便罢了,偏偏是交叉学科计算语言学。当年念硕士刚入行的时候,情况还不算太糟,语言学家在这个领域还有发言权,10 年不到就被一帮学统计的理呆,有如张牙舞爪的洪水猛兽,把持了这个领域的话语权,语言学家成了敲边鼓的资料员。言必称统计,机器学习遂成主流, 语言学从软的文科变成了硬的科学。不提机器学习,根本难有立足之地,尽管实际上机器学习并没有那么神,在很多复杂一点的语言问题上,根本敌不过语言学家用熟的那套传统规则系统。但是,基金审阅人大多是以统计在这个领域起家的专家,或者是跟风的政府项目经理人,二者都有极深的bias. 科研潮流,浩浩荡荡,顺之者昌,逆之者亡,是我面对的学术现状的真实写照。

我来美的时候,根本就不知道机器学习是怎么回事,只是听说过这个名词而已。问题都是烂熟于心的问题,可解决问题的路子与我熟悉的规则系统迥然不同。到我写第二个申请的时候,项目的标题即明确规定了要探索某种机器学习的方法去解决所提的问题,想绕都绕不过去。可怜我被逼得临时抱佛脚,找来一本研究生的教科书,生吞活剥研读一遍,总算在概念上大体了解了机器学习的基本原理和常用算法,也知道了它的瓶颈和局限。可怎么开写呢,拿自己的短处去硬碰硬别人的长处不是找死嘛。于是,我就提出要结合传统的规则方法和机器学习方法,取长补短,来做这个课题。这样既符合了所要求的研究方向,又站在了兼收并蓄的“道德”制高点上。这篇基金申请千锤百炼写出来以后,比样板戏读着还顺畅。我的老板是电脑系教授,机器学习是她的研究方向之一,她看了也没有找出明显的毛病,稿子审阅完,改了几个措辞,她很满意,说,唯一的遗憾是没有公式。是啊,没几个公式唬人,这项研究方案显得不够硬,含金量不足,科学度不高。可是,那不是杀我吗?我要是硬凑几个公式上去,很可能自暴其短,硬伤累累。老板一时也想不好怎么加,加什么,时限到了,就这样提交上去了。天助我也,居然侥幸通过了,从此启动了我们机器学习的研究方向。后来的路子就顺畅了,有项目就有钱,就可以招机器学习的人员来做项目。在后续的项目申请中,我们总是恰到好处地加上一些公式和具体的机器学习算法,来阐释解决方案,算是跟上了革命的大队伍和学界的大潮流。

说到含金量,其实很多课题,特别是面向应用的课题,并不是什么高精尖的火箭技术(not rocket science),不可能要求一个申请预示某种突破。撰写申请的人是游说方,有责任 highlight 自己的提议里面的亮点,谈方案远景的时候少不了这个突破那个革命的说辞,多少迎合了政府主管部门好大喜功的心态,但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。(纯科学的研究,突破也不多吧,更何况应用型研究。)应用领域“奇迹”的发生往往植根于细节的积累(所谓 the Devil is in the details),而不是原理上的突破。而对于问题领域的细节,我是有把握的。这是我的长处,也是我提出科研方案比较让人信服的原因。有的时候,不得不有迎合“时尚”的考量,譬如领域里正流行 bootstrapping 等机器自学习的算法,虽然很不成熟,难以解决实际问题,但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作,由于科研的探索性质,最终的解决方案完全可以是另一种路子。说直白了就是,挂羊头卖狗肉不是诚实的科研态度,但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

文字上的技巧就不用说了,很多科研作文指南有不少很好的建议。有一条是一定要做的,定稿前请一位英语 native speaker (比如公司秘书)做文字的修饰。不要让她擅改,因为有些技术内容虽然显得不顺畅,却不能轻易改动。但是对她提出的建议可以认真琢磨一遍,再决定接受与否,如果不接受,要不要再换一种表达法。

 

4 傍大款

为审阅者着想的延长线就是处处为 sponsor (项目资助和监护人)着想,特别是 sponsor 中的重量级经理(我们私下称之为财神爷)。为 sponsor 着想才能保证后续基金申请的胜算,特别是 Phase 2 和 Phase 3 这些油水大的项目,这一点比写好申请要重要百倍。一个基金通过后,政府会派一个项目监护人,我们需要向她汇报进度,在她来察访的时候,展示系统和成果。这些还远远不够。要想她所想,急她所急,她的任何要求,无论大小,都要放在优先的位置。即便她没有明确要求,也要主动联络,体会贯彻其精神。道理很简单:财神爷是我们科研的衣食父母。有几件事可以说一说,能看出我对衣食父母的尽心尽力,怎样保障了我们源源不断的研究经费,从而保证了研究的持续性和研究队伍的相对稳定。

我领导的系列项目的主要资助方是政府某部门信息抽取组组长A女士,她领导一个五个人的政府项目经理团队,专事信息抽取科研项目的管理和推广应用。A女士是一个聪慧而有悟性和远见的“超女”(super lady),她做事麻利,一丝不苟,精力无限,能量极大,每年在她手下管理的政府基金都是千万级的。八年下来,我们建立了密切融洽的关系,她有什么挑战和苦恼,也能坦率地跟我分享,使得我为她分忧解难成为可能。A 女士没有架子,廉洁奉公,site visit 来察访的时候,连招待快餐的三明治,她都坚持要自己付钱。她生孩子,我给她寄送的几十美元的礼品券也被退回了,说她心领了,但作为政府官员,她确实无法接受任何礼品(不知道国内掌握巨额资金的政府项目官员是怎样处理的?)。在项目的监管方面,A 女士有时严格到了苛刻的程度。每个政府项目都要写一个长长的最后报告(final report)在政府机构发表,总结这个项目的成果和教训。有几次,因为忙于基金申请,我们对现存项目的最后报告写得马虎了一点儿,她毫不留情面地打回来重做。有的报告来回折腾三五回才让她满意。她的认真和严厉不是问题,我自己也是较真的人,常常自己跟自己过不去,有她这样的监管,更加鼓励了我爱咬文嚼字千锤百炼的习惯。后来的系列最后报告, 越写越好,不断得到她的欣赏和推荐。

A 女士是有压力的。最大的压力来自上头,她管理这个被认为应用前景广阔的研究方向多年,经手上亿的资金,资助了一批大小企业和大学研究所的相关研究,可是技术转移却很不如人意,只有一些试用系统在政府机构内免费推广,用户响应并不热烈。上面开始质疑此项研究是否值得继续支持,特别是在政府科研经费预算吃紧的大环境下,完全可能撤消资助。一旦撤消,她的小组就必须解散,她自己也要转行,至少不能再管理她已经熟悉了的这个领域的项目了。所以,本质上她遇到的挑战与我的一样,没有她的资助,我的研究小组也必须解散。帮助她减轻这方面的压力,也是帮助我们自己的生存和发展。为此,我确立了帮助她的四个主要方面。首先是全力协助她准备年度检查。其次是加速科研的技术转移。第三是加快学术发表,提升该研究及其资助人在科研领域里的知名度。最后是帮助制定该领域的发展蓝图。

年度检查是对政府项目管理人的主要考核手段,其结果直接影响下一年度项目经费的重新布局。这理所当然成为 A 女士每年最为重视的事件。年度检查团队集中了政府部门的首席科学家和科研领导等重量级大牛,不能稍有差池。她总是提前三个多月就开始着手准备材料,与我们这些被资助方联络,看有什么突出的成果可以拿出来展示(demo)。我们也总是绞尽脑汁寻找科研上的最亮点,提供素材丰富她的 presentation.  重要的是能让她感受到我们急她所急的革命态度。检查关过后,特别是考核成绩优良的时候,她都及时与我们分享喜悦,并郑重感谢我们的合作。

在加速科研的技术转移方面,我们得天独厚,因为除了政府项目以外,我们乘着.com泡沫的东风,幸运地得到了千万级的华尔街风险投资(见《朝华午拾:创业之路》 )。有投资就必须做产品,在泡沫过后,资本家的耐心是极其有限的,速度慢了,很可能遭到撤资的命运。几经波折,最终,公司利用我们的信息抽取技术开发了一个品牌舆论测量的产品。尽管所用到的技术只是我们科研项目的一个部分,而且是技术中比较浅层的部分,这毕竟是一个 real life 面向市场的产品。在研发这款产品中,几个关键的 features 都是我亲自主持开发的,用的都是最实用甚至 brute-force 的方法,避免风险和不确定性,有些地方是牛刀宰鸡,譬如只用到自动分析中浅层的结果。换句话说,产品中的技术含量并不很高。当时的想法是先做出产品,以后在产品更新换代的时候,再逐步加强技术的深度转移。因为信息抽取的核心引擎已经植入产品,架构无需变化,只要定期更新引擎就可以为深度转移创造条件。但实际上深度转移后来没跟上,其中主要原因是负责工程的副总怕担风险,宁愿以不变应万变,只在应用层面修修补补,而不愿更新内核,以免伤筋动骨。一定程度上,科研和产品创新脱节了,而这超出了我能掌控的范围。尽管如此,该产品的 marketing 还是做得有模有样,先后在业界多次获奖,动静很大。本来这都是公司产品市场化过程中的题中应有之义,似乎与政府科研项目也没有太多直接关联。可我还是不厌其烦随时与A女士分享我们在市场化中的每一个成绩,包括公关宣传资料,各类奖状和报道,以及客户的正面反馈。她非常高兴,因为她需要这些资料去帮助证明这个技术的应用性,这对这个领域的科研持续得到经费至关重要。她资助的一些大公司和大学的相关研究项目,就没有这个产品化的过程,所以我们的技术产品显得特别重要。

光有产品还不足以让她对我们特别青睐。她需要我们在研究领域站住脚。头两三年忙于系统的设计和架构,以及基础设施的建设,没有顾上学术发表。等架子搭起来了,我们已经有了相当的科研积累。这时候,A 女士跟我说,我们的项目进展非常令她满意,可是学术发表没有跟上是个遗憾。军令如山倒,我于是召集研究组分工合作,集中精力加强学术发表所需的实验和投稿。那年一口气在大大小小会议和杂志发表了15篇论文,包括该领域的顶级会议,publishing like crazy。我与助手开玩笑说,尽管我们只是在工业界打工挖煤,可这样疯狂做研究,真像是为评终身教授  tenure 在拼命呢。每篇论文的结尾都要郑重致谢资助人,作为SBIR 成果备案在册,把 A 女士乐坏了。这些都是我和同事们拼命工作换来的,仗的是正值壮年,精力旺盛。回想起来,那一年真是累惨了,一个死期接着一个死期,不知熬过多少不眠之夜,体力透支,老有一口气喘不过来,感觉随时要光荣倒下的样子。幸好这样的自我摧残造成的亚健康局面没有持续下去,我们就站稳了脚跟。至此,我们的工作在政府资助机构中的信誉是完全建立起来了,要研究有研究,要产品有产品,还有什么比这些成果更能说明科研及其技术转移的实力呢。为此,政府部门领导通报表扬了 A 女士成功资助我们信息抽取研究的突出成绩,我们还数次被提名角逐全美 SBIR 年度最佳奖(nominated for US Small Business Administration Prime Contractor of the Year Award),我们的工作也上了 SBIR 光荣榜(SBIR success story)。也就是说,从资助人角度,对我们的资助是基金成功的样榜,一时风光无限。

在这样的形势下,我开始有了资本影响和(间接)参与政府在这个领域的科研蓝图规划。美国的体制很有意思, 政府的研究基金在首席科学家等最高决策者确立了一个总体方向(领域)以后,很多具体科研项目的确立是通过下面的政府项目经理竞标而来。A 女士每年都需要与其他同方向的项目经理竞争选题,她当然希望自己起草的选题被采纳。尽管她在这个领域做项目经理多年,上通下达,左联右合,对该领域的概貌、常用技术和应用前景有相当的了解,但她毕竟不是一线科研人员,她需要我们帮助她提供科研项目选题的思路和技术支持。选题要求确定该领域的瓶颈,以支持相关研究。为此,我利用一切机会把自已对该领域蓝图的理解和体验,用通俗易懂的方式灌输给她。她是个求知欲与好胜心一样强的聪明女士,沟通起来非常顺畅。这样的沟通是互利双赢的。首先是帮助她赢得了更多的选题,因此加强了她项目管理的资源,也在同事中增强了她在该领域项目管理的权威性。同样重要的是,由于帮助了她的选题,我们自然在竞争中处于优势地位。虽然政府项目总要公开招标,但别的竞争者要在短短的选题介绍中体会项目管理者的思路以投其所好,而我们是选题的发源地,可以自由发挥而不偏题,其中的竞争优势不言而喻。这种影响不限于研究性项目,也延及应用型项目。事实上,政府一个千万美元的技术转移 program 的立项,就直接源于我们的工作,这个选题基于我在这个领域科研多年积淀来的“洞见” 以及我们的可行性研究和模型系统。其中对问题的阐述方式、使用的自创术语以及技术转移可行性的论证,与我给政府项目写的最后报告如出一辙。不过,这个大项目的最大受益者却不是我们,而是一个做政府合同的大公司,因为项目指定所要处理的档案具有保密性质,而我们公司多是我这样的外籍盲流,没有权限处理保密文档。尽管如此,看到自己的工作和心目中的蓝图,被采纳成为一个大项目,还是很开心的。有意思的是,项目招标后,有资格竞标的几个公司纷纷找我们联系,上赶着要与我们建立排他性伙伴关系(exclusive partnership),采用我们的技术和引擎,来申请这个项目,因为他们知道这个项目的背景,想借助我们的特殊地位来增加自己的胜算。CEO 很高兴,他说,我们来者不拒,可以同他们都建立伙伴关系,但是 exclusive partnership 没门儿。是啊,让他们去争个头破血流,谁成功我们就跟谁搭档,是我们公司的利益所在。最终,我们如愿以偿成为政府应用开发的核心技术和引擎的提供者,不仅分了一杯羹,更重要的是,我们在政府 business 这一块,正如我们在工业开发那一块一样 ,也开始了从研究向应用的转变,不再是仅仅依靠研究基金存活,而是油水更大的政府合同的合伙人。这一转变的结果是带来更多的研究基金和政府合同,成为政府必须持续扶持的重点对象,因为政府经理及其项目的主承包者都不敢断了引擎维护和技术更新的源头。

在水牛城的八年,通过上述四个方面对政府资助人无微不至的协助和合作,终于达到了“政民”鱼水情的和谐融洽境界。我算过一笔账,论投资总量,政府项目的900万美元的投入,使得政府(当然最终是纳税人的钱,准确地说是“人民”)是公司实际意义上的最大“股东” (其他风险投资人每家很少超过 500 万)。尽管名义上政府只是扶持,并没有股东的法权,但对待政府项目经理象对待大股东一样才是正确的态度。保持密切联系,保障他们的知情权,是题中应有之义,也是我一直身体力行的。事实证明这样的认识和态度给双方带来的是最好的结果。从政府项目经理的角度,扶持一家小企业及其技术创新,达到可用好用的程度,也是一件极费心力的事。到了一定的阶段当扶持对象的信誉建立以后,政府经理自然悉心珍惜维护这种关系。大家都在一条船上,我们的成功就是他们的成功,他们的失败就是我们的灾难。

作为小企业,能傍上政府的大款,建立一种一损俱损一荣俱荣的关系,实属不易。这样的关系使用得当,可以化险为夷。在世纪之交科技股泡沫破灭后,我的公司经历了腥风血雨的大裁员(见《朝华午拾:水牛风云》)。我主管的研发这块儿,在裁员以后慢慢稳定到七八个人的团队,自负盈亏。仗着持续不断的政府项目,这支队伍一直维持下来。可是,有一次,因为政府项目之间有个缺口,大约有半年时间接不上来,CEO 坚持要我立即裁员。我软磨硬抗,告诉他很快新的项目就可能下来,我甚至用了哀兵之策,说我愿意工资减半,直到足够的政府项目资金到位。CEO 还是坚持要裁员,说新项目不一定能下来,如果下来了,你可以再招员。我心里想,你当是麦当劳工作啊,在职培训几天即可上岗,培养一支队伍不容易,一个新手来了,即便有经验,从熟悉系统到开始贡献一般也要半年时间,我可不能冒这个险。正在这个当口,A 女士带领她的小组来视察工作,老板和我像往常一样接待唯恐不周。老板是个好面子的人,叮嘱我不要把公司动荡的情绪带进来,她自己在介绍公司进展的时候,总是形势一派大好,是大好,不是小好。可是我的心结她也解不开,因为 CEO 固执己见,从来听不见她的意见。送走政府检查团以后,我翻来覆去睡不着觉,怎么想怎么觉得不应该对政府隐瞒这场危机,相反,我们应该向她求助。于是,我熬夜写了一封长信,细述我的科研团队面对伤筋动骨,科研难以为继的困境。第二天一早就收到她的回复,说感谢我的坦率,本来还以为我们一切良好呢。她说她正努力帮助我们度过难关,并嘱咐今后此类事情一定要及早与她通气,因为我的团队受到任何损害,直接影响她的全盘规划。很快,她就调动了自己可以控制的资源,加快了两项 Phase 3 的批准(那两个基金申请书是以最快速度完成的,基本是走过场)。她不久还把我们引荐介绍给另一个政府部门的基金主管,为我们开辟另一部门的基金来源。我感觉这大概是我在高级主管(研发副总)位置上“为政” 六年最大的一项政绩,可以说是在旅美革命的生死关头,我的一封上书,挽救了革命,挽救了党,保全了队伍,稳定了人心,峰回路转,转危为安,从此从胜利走向胜利,从辉煌走向平淡。

 

记于2010年春节

 

【相关】

《知识图谱的先行:从 Julian Hill 说起 》
Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)
Pre-Knowledge-Graph Profile Extraction Research via SBIR (2) 

【立委博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

【关于我与NLP】

《朝华午拾 – 水牛风云》

《朝华午拾:用人之道》

《朝华午拾:在美国写基金申请的酸甜苦辣》

【朝华午拾:安娜离职记】

《朝华午拾:今天是个好日子》

【朝华午拾:那天是个好日子】

10 周年入职纪念日有感

科研笔记:开天辟地的感觉真好

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

80年代在国内,社科院的硕士训练使我受益最多

《立委随笔: 语言学家是怎样炼成的》

【把酒话桑麻,MT 产品落地史话】

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

看望导师刘倬先生,中国机器翻译的开山鼻祖之一

巧遇语言学上帝乔姆斯基

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

【科普小品:伟哥的关键词故事】

立委随笔:Chomsky meets Gates

遭遇脸书的 Deep Text

不是那根萝卜,不做那个葱

女怕嫁错郎,男怕入错行,专业怕选错方向

【创业故事:技术的力量和技术公司的命运】

《眼睛一眨,来了王子,走了白马》

职业随想曲:语言学万岁

钩沉:《中国报道》上与导师用世界语发表的第一篇论文

钩沉:《中国报道》上用世界语发表的第二篇论文

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

老革命遇到新问题,洪爷求饶打油翁

我要是退休了,就机器 parse 《离骚》玩儿

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于NLP掌故】

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔:微软收购PowerSet》

NLP 历史上最大的媒体误导:成语难倒了电脑

立委推荐:乔姆斯基

巧遇语言学上帝乔姆斯基

【随记:湾区的年度 NLP BBQ 】

女怕嫁错郎,男怕入错行,专业怕选错方向

据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率

MT 杀手皮尔斯 (翻译节选)

ALPAC 黑皮书 1/9:前言

泥沙龙笔记微博议摘要

【把酒话桑麻,MT 产品落地史话】

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

看望导师刘倬先生,中国机器翻译的开山鼻祖之一

遭遇脸书的 Deep Text

【创业故事:技术的力量和技术公司的命运】

 

冯志伟老师以及机器翻译历史的一些事儿

有群友问,冯志伟老师还好吗?联想到一些MT的历史,随笔记下。
冯老师的微博还很热闹啊(冯志伟文化博客的微博_微博),他四处讲学 著作等身 看照片神采奕奕的样子。学问的高峰虽已过,游离于主流非主流一线之外 但老当益壮 勤于笔耕 教书育人 传播科学。
中国机器翻译(MT)历史上 有冯老师的一页 他凭着多语言的天赋 在法国时期实现了一个一对多(汉语到欧洲语言)的机器翻译。我的硕士论文也是一对多(世界语到英语和汉语),比起冯老师,就算玩具了,但做一对多MT的人很少很少。说的是当年。后来 SMT 盛行了,终于能 scale up 到多对多,尽管仍然是一个语言对一个语言对做的 而我们当年做的一对多 源语分析模块是共享的。
关于冯老师 也有些故事。我的学长乔毅(硕士做的是法汉机器翻译,二刘老师文革后招收的MT首届研究生之一,其他的学员还包括冯老师、李卫东、黄秀铭等)告诉我,冯老师在这拨人中很特别,因为他处于两代之间,地位特殊。他实际上在文革前就介入MT的研究项目了,与二刘老师早有合作。由于文革的十年蹉跎,文革后二刘老师用招收研究生的方式让他归队,因此他实际上是以半同事、半学员的身份回来的。从资历上,二刘老师对他来说更像兄长和同事,而不是传统意义的导师。乔毅说,我们见两位刘老师,都毕恭毕敬称刘老师或刘先生,只有冯志伟例外,他称刘老师为老刘。
冯老师是个蛮豪爽的人,给人亲近感。记得89年香山会议上山,他气喘吁吁,跟我说,由于运动,他路上花了四五个小时才到,我问刘老师呢,他说,刘老师不同,他是圣人。冯老师最津津乐道的成就之一就是,他是第一个(或第一个之一)提出要用多标记做MT的。因为传统的MT都是在词类(POS)和词的基础上做,但POS 太大,词(直接量)太小,很难细线条成hierarchical 的规则系统以提高质量。因此 当一个词带有多标记(譬如 ontology 的标记 如 Human、Food 之类)参与规则条件 自然是打开了一扇大门。不过这一点我觉得是针对西方主流MT系统的算法而言。中国的MT,二刘老师从60年代就开始使用“句子场”的数据结构,这个句子场里面的每一栏实质上就是一个词的多标记。
刘涌泉刘倬老师给我们上课,他们的说法是,MT 50 年代初期由美国率先,苏联紧随,中国自从 57 年从苏联取经就是第三个开展 MT 的国家了。到了 60 年代,中国 MT 的研究处于世界先进水平。主要的原因是,美国和苏联的研究重点都是英俄或其他欧洲语言之间的MT,而中国一开始就不得不面对两个完全不相干的语系之间的MT(俄汉、英汉)。这个特殊性迫使我们不得不把 MT 推向深入。
MT 后来的历史巧合是,到了 1966 年,美国遭遇了由【黑皮书】带来的 MT 寒冬,中国没有黑皮书,但有红卫兵,也同时遭遇了文革带来的科研寒冬。MT 的复苏是在文革后,西方差不多同时也复苏了。世事巧合,莫过于此。参见:ALPAC 黑皮书 1/9:前言 ,MT 杀手皮尔斯 (翻译节选)

QUOTE 【立委按】此前的博文摘要编译过皮尔斯论,这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物,他是以MT(Machine Translation,机器翻译)杀手的面目记载在领域历史里。1966年,他主持撰写的那篇世界著名(或臭名昭著)的 ALPAC 黑皮书,把热火朝天的机器翻译研究,一下子打入冷宫。丘吉教授认为,皮尔斯给自然语言处理泼冷水,促成对自然语言和人工智能很多项目的资助冻结,是有其洞察力和远见的。不管我们心内对他多么不自在,必须看到他的反对意见至今没有过时,仍值得我们认真反思。

【河东河西,谁敢说SMT最终一定打得过规则MT?】

Xi:
@wei , 评论一下李明教授的机器翻译。我纳闷这年头这么多人跨界来和你抢食啊?

我:
评论啥,我对MT无感了,都。
我现在是,胸怀知识图谱,放眼世界大同。早翻过MT那一页了。
不过话说回来,学自然语言的人如果入行做的就是规则机器翻译,那是上天的赐福。新一辈这种人没有了,所以很多入行多年的人,看到的语言世界,还是井底的一线天。
如果你在没有平台支持下被逼着去做机器翻译,你有福了。你必须从头开始做词典、做 tokenization,做 POS,做短语,做 SVO 句法,你还要做双语结构转换、WSD 词义消歧,最后还有目标语的生成,包括形态生成、调序,修辞上的一些 final touches。
总之 方方面面 你必须全部做到 如果没有平台 没有专用语言 像我们做硕士论文那样用 general purpose language (COBOL,ALGOL,BASIC,甚至汇编)做,那就是在太上老君八卦炉里炼 没得不炼成火眼金睛 后去做 NLP 任何一个方面和应用 都洞若观火。
现在的 CL 硕士博士呢 动不动就下载一个软件包,瞅准一个子任务 譬如切词,譬如 sentiment,譬如WSD,哪怕是做 MT, 也不用涉及那么多的层次和模块。
老老年文:【立委科普:机器翻译】 但并没完全失效。还有这篇:【立委随笔:机器翻译万岁】。
SMT 不用涉及那么多层次 是因为迄今的 SMT 基本是在浅层打转 从来就没有做到深层,论深度和结构 远远不及我们 30 年前做的 规则MT。
马:
但是比规则的系统实用啊
我:
河东河西啊。
如今董老师的系统等也打磨经年了,很难说谁更实用。论精度 则绝对是后者强,甩出一条街去。
smt 的先驱应该是 ibm ,从加拿大议会英法双语语料开始的。

Guo:
Translation memory 算什么?

我:
说起这个概念,我还有掌故呢。以前记过,差不多也成了 MT 野史或外传了,见《朝华午拾:欧洲之行》,Victor 称作为 translation unit (TU)。他们的所谓的 Chinese Week,当时董老师也去了,我和刘老师也去了。傅爱萍大姐派人领我们参观了红灯区以后,并没有随着我们去参加这个活动。这个活动的设立与我当年为他们做的“汉语依存文法”的工作密切相关。
QUOTE 研究组的骨干还有国际世界语协会的财务总监,知名英国籍世界语者 Victor Sadler 博士,我在71届国际世界语大会上跟他认识。作为高级研究员,他刚刚完成一项研究,利用 parsed (自动语法分析)过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息,匹配大小各异的翻译单位(translation unit)进行自动翻译,这一项原创性研究比后来流行的同类研究早了5-10年。显然,大家都看好这一新的进展,作为重点向我们推介。整个访问的中心主题,仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人,预备下一步大规模的商业开发,汉语作为不同语系的重要语言,其可行性研究对于寻找投资意义重大。
索性把怀旧进行到底 《朝华午拾:一夜成为万元户》: 这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载:Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands.  我的工作应该是中国做依存关系最早最完整的作品了。所谓 【美梦成真】 就是这么个来历,跨越近 30 年,纸上谈兵的 syntax 终于化为现实的 deep parser。
刚才一边吃晚饭,一边琢磨这段MT外传,觉得还是有几点可以总结的,笔记如下,各位指正。
(1) 荷兰这个多语 MT 计划本来是规则系统起家,用世界语作为媒介语,用的是依存关系文法的框架,实现的机制是 ATN (Augmented Transition Network),技术领头是德国语言学家舒伯特。
(2) 可是做着做着,剑桥出身的 Victor 博士想出了统计的路线,定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit (有点像我们用的“句素”的概念),做了实验验证了这条路线的创新,把整个项目在收尾阶段翻了个个儿。而这时候(1989年),其他的MT研究虽然也有 IBM 等开始的统计 MT,但没有一个达到这样的深度。
(3)事实上,直到今天,回顾这个科研创新可以看出,根据 parsed 以后的双语数据库的平行对比,从统计去找 Translation Units,比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT,还是远高出一筹。
(4)在 SMT 中加入 parsing 并不是每个人都有这个条件,DLT 赶巧是先做 parser 做了四五年,有了这个基础。现在和今后的方向从宏观上来看是,SMT 应该重温类似 BKB 双语parsed平行语料库的尝试,走带入结构的道路,才有希望克服现在显而易见的结构瓶颈,譬如定语从句翻译的错误。

mei:
语言学家做MT注重语言的结构,深的浅的。我是ai出生,注重“知识“,互相通融的,但侧重点有区别。
Guo:
一谈到统计和规则,总不免让人想起,库恩的科学革命的结构。根本说来,统计和规则,对于什么是nlp,是有完全不同的定义的。站在统计的角度,古埃及文的解读,作者和鹰品的辨识,错别字的检查和矫正,文章可读性的分类,还有很多很多这样的,都是历史悠久的成功故事。说历史悠久,是因为他们早于乔姆斯基太多年了。但是从规则的角度看,这些大概都不属于nlp。

我:
规则也并非一定要是句法的规则,任何 patterns 包括 ngrams 都可以是规则。学习派用的是 ngram 的分布统计,规则派很难量化这些 ngrams 的统计数据,只好把“gram”定义为从线性序列到句法单位的一个动态 unit,用结构化的深度 弥补统计性的不足。

Guo:
其实对于mt,统计这一派也更多的是从”机助”翻译甚至阅读来看问题。不管大佬们怎么吹牛,统计这一派从来不以理解人模仿人为目标。他们是非常工程性,实用主义的。

我:
当 gram 被定义为我导师刘倬老师所阐述过的“句素”以后,产生了两个飞跃:
第一是距离从线性走向平面,甚至远距离现象也可以被这种 “ngram” 抓住了: 这类例证我此前显示过很多。第二是 gram 本身从直接量 (literal) 提升为一个具有不同抽象度的 features 的语言学单位总和,连ontolgy亦可带入。这两个飞跃使得应对自然语言错综复杂的规则,变得切实可行。
smt 我们迄今看到的流行成熟的系统,譬如大投入造就的百度和谷歌MT,其缺乏结构和parsing支持的缺点是如此显然,结构瓶颈随处可见。可反过来看董老师在群里显示出来的传统规则+知识 的系统,结构的优势不言而喻。
也许从 scale up,从对付鸡零狗碎的成语性的 ngrams,董老师这类系统目前还无法匹敌百度谷歌 smt,但是假如以董老师系统为核心,给以同等的资源投入和维护,我觉得百度系统无法打得过规则 MT。当然 最佳的办法是二者的某种结合,取长补短。我想说的是,如果硬要硬碰硬的话,在同等投入的基础上,谁敢拍胸脯说主流 smt 一定会胜过规则 mt 呢?
现在是不平等比较,根本不是 apple to apple 较量。历史把 规则mt 推下了主流舞台,但是 smt 的人无论多么傲慢 也还是应该看得见自己的短板和规则mt的亮点。

Guo:
统计这一派,其实有很多人试图引入结构,但鲜有能够有效减少perplexity的。核心的争论,就是问题到底出在哪儿?一种观点是,结构,并不承载太多的附加信息。另一种就是,我们还没有发现更好的更有效的数学模型。这就是为什么,好些人对深度神经就像打了鸡血。

我:
heterogeneous features 引入后的 evidence overlapping 以及 perplexity 等,是研究课题,不过说结构不承载太多附加信息等价于说 ngram 线性的 model 无需改变,这个 model 在20多年中已经被推向了极致,没有多少油水了。白老师说话,model 不对,语言长得啥样框架上就没留下空间,再多的数据,再deep的学习,也是必然遭遇瓶颈的。
的确在某些粗线条任务中 譬如 document classification,一袋子词的ngram模型已经足以满足应用的需要,精度已经够高,结构即便加入也改进余地不大了:这不是我们需要讨论的。我们关注的都是那些显然遭遇瓶颈的任务,包括 MT、包括 IE、包括 Sentiment Analysis,这些任务,显然统计的路线在没有结构助力下,深入不下去。
到目前为止 纵然有一些带入结构的尝试,但很可能是浅尝辄止,还不到结论的时候。
深度神经是一种训练的算法,与语言的结构深度没有必然联系。事实上 迄今为止 对于 text NLP 的深度神经的尝试,除了专门做中间件 parsing 的 research 如 SyntaxtNet 外,对于 NLP 应用方面的任务,基本上还是在语言浅层进行。带入结构的深度神经用于 text NLP, 到底有几家在做?如果没做 或还没做出结果来 那么所谓 Deep Text 就是有意无意的误导(见 【遭遇脸书的 Deep Text】 )。

杨:
我理解:深度学习主要是可能在语意理解领域 可能会有所改变

我:
譬如?
哪些任务是深度神经擅长、文法工程短板的语义理解呢?
凡是条分缕析的细线条任务,想不出来深度学习可做,文法工程不可做的,无论语义如何落地。

杨:
比如文字到图像的映射搜索呢?我不懂,瞎说的。当然 这个目前远远不成熟 只是猜想

我:
这个还真是没想到,因为其中一端是 text (captions?),可另一端是 image,对于学习,无论神经的深浅,这个任务只要有大量的 data (带有 captions 的 图片集),就是一个很自然的学习的任务。而对于规则,这种形式化的语义落地(映射到图像)在图像那边如何处理并integrate 到规则系统中来对接,似乎没有显然而见的自然接口。

杨:
不过 图像这块就不够成熟 要做这个且早呢。

我:
好。短板不怕,只要心里有数就好。早就知道规则的“经典”短板了:
手工规则系统的软肋在文章分类】 。
QUOTE 人脑(规则)可能顾不上这么多细微的证据及其权重,但是人脑往往可以根据不同状况抓住几条主线,然后在其中调控,达到解决问题。在 deep parsing 这个 NLP 的关键/核心领域,规则系统的优势更加明显
再有就是搜索。关键词检索的鲁棒、对付长尾 query 的能力,是规则系统难以匹敌的。
但是如果把关键词搜索作为 backoff,那么加入结构的精准智能搜索(我们叫 SVO search)就顺理成章了。

 

【相关】

立委科普:机器翻译
立委随笔:机器翻译万岁

朝华午拾:欧洲之行
朝华午拾:一夜成为万元户
美梦成真
手工规则系统的软肋在文章分类
遭遇脸书的 Deep Text

Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands.

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录