《朝华之十六: 哭送语义宗师董振东先生》

董振东先生(1937-2019)

2019年噩耗传来的时候,我正在路上,震惊莫名,感觉脑袋嗡嗡的。当时我刚下高铁,是我老爸最先传来的消息,比各群都早。老爸肯定是关注了中国NLP最高学术团体中文信息学会的新闻。他也常听我谈起过董老师。

老友尼克提议我别忘了写纪念文章。追随、受惠于先生三十载余,心中的怀念,千头万绪,从哪儿说起呢?

89风波后不久,第二届机器翻译高峰会议在德国慕尼黑举行。我代表刘倬老师在会议上介绍了我们的翻译系统,董老师也在场。会后,我们应邀去荷兰BSO公司的多语机器翻译小组,参加他们的 Chinese week,讨论把中文加入到他们多语计划中的议题,以及探讨中文处理的挑战。

很多年后,董老师给我来信说,孩子们整理老照片,翻出来一张在荷兰的合影,感觉很珍贵。Witkam 就是照片上的BSO项目组长,当年是他从欧共体争取到机器翻译项目的基金,BSO公司m补齐另一半,这才成就了他们以世界语为媒介语的多语言机器翻译项目的五年计划。其中的中文部分就是我为他们做的依存关系文法(全是纸上谈兵的一套,但也勾画了中文形式化的雏形。当年董老师对我的这个工作赞许鼓励有加。 

荷兰BSO多语机译项目组长Witkam,董老师与立委(1989)

我也回寄了一张在高立公司一起做机器翻译项目期间的临别合影。高立公司那段是个机缘,我得以与董老师在地下室改造的办公室相处几个月,亲聆教诲。

下排从左至右:高立公司CEO,刘倬老师,立委,董振东老师(1991)

 

那是 2013 年四月,董老师回信说:

 

谢谢。对我们而言都是非常珍贵的照片。那年我已54岁,但体力脑力还不错。又一个20年过去了。我还在想再挑战自己一把。至少我会把我们的基于HowNet的机译系统,一直做下去,看看最后会到一个什么程度。上次回去领奖时去看望了刘老师,他提及所里建议他还是再带学生。他觉得没有课题,经费不好弄,他没有应承。我回来想了想觉得他也许还是干点什么好。也许会开出个什么新天地。

最近接到学会来信,2013年的计算语言学大会,看了他们的征文内容,觉得想说点什么,等我写了,也给你转去,供参考。

家里热闹了一番吗?女孩大了,不好太管。

振东

 

我的回复:

 

2013/4/27 <dzd@keenage.com>

>>那年我已54岁,但体力脑力还不错。

那应该是 HowNet 的酝酿阶段,记得您当时提过几次设想。

 

>>又一个20年过去了。我还在想再挑战自己一把。至少我会把我们的基于HowNet的机译系统,一直做下去,看看最后会到一个什么程度

上次您提到可以用一些细致分类去解决结构歧义(PP-attachment 类的问题)。也许仔细做是可以的,但是我觉得结构歧义的根本出路不在人工的 taxonomy,而在统计:因为结构歧义说到底是三角恋爱,最终谁与谁结合决定于语义拉力的相对力量对比,而这种AC与BC相对的拉力是无法事先计算出来的,因为有太多组合的可能性。但是,AC 或者 BC 各自的拉力是可以通过大数据事先学习出来的(本质上是 lexical coherence acquisition)。只要有一种机制让这种统计信息在结构歧义的现场提出来做对比,理论上可以解决这个问题。这比用细致的语义特征去人工调试应该有效合理一些。

事实上,这种机制目前已经可以实现。当然实现起来还有些繁杂,代价还需要考察。

 

>>。上次回去领奖时去看望了刘老师,他提及所里建议他还是再带学生。他觉得没有课题,经费不好弄,他没有应承。我回来想了想觉得他也许还是干点什么好。也许会开出个什么新天地。

这次看望刘老师,感觉还是苍老、迟缓很多。估计他也没有足够力气了。我理解您的意思,搞了一辈子科研,即便退休,最好也别完全停下来,除非有别的爱好。可惜的是,我们很多人除了做系统,都没有什么其他爱好。退休生活容易寂寞。

 

学生:维

 

与董老师长达30多年的交往,除了生活上的问候外,我们谈的最多的还是专业。董老师是性情中人,富有幽默感,常让人忍俊不禁。记得当年谈到他的译星,董老师说那才真正是自己的孩子,呕心沥血的结晶。接着笑道:儿女不算,为啥?那是“自然灾害”的结果。可是很多年以后,他又跟我说到孩子的话题,希望我有机会带董强一起干一番事业,列举孩子的优点缺点。最后不忘补一句,自己的孩子,瘌痢头也是好的。

在中国机器翻译的历史中,我的导师是开创者:刘涌泉老师1957-1958年开始组建团队,从外语学院挖来了刘倬老师,还有一位早逝的高祖舜老师,1959年第一次实验成功,三人后来合著《机器翻译浅说》一书(日本从事MT研究的时候作为主要参照,译成了日语)。董老师应该是60年代的某个时间点,作为黑龙江大学外语系的老师,参加了二刘老师的MT项目。董老师对两位亦师亦兄的刘先生非常尊重,前几年还跟我提到曾分别去看望两位,表达敬意。

董老师青出于蓝,后来在军科院率先把MT落地为开放型软件,成为中国MT和NLP的领军人物之一。从国际交流来看,董老师在很长的时期是中国NLP的大使,是与国际学界的接口。董老师从军科院的“科研一号”实用开放型英汉机器翻译原型系统,到中软真正落地,推出第一款商品化软件“译星”(TranStar),给当时全国近十个MT团队做出了榜样:MT 可以走出实验室。

译星是一个里程碑。

董老师后来跟我说过其中的经验体会。最主要一条就是不能原地打转,要抓大放小,研发到一定的阶段,迅速扩大测试集,开放系统给其他人测试,在错误中成长。译星之前的研发,实际上都是在非常小的开发集上做,当年也不区分开发集与测试集,系统通常也不开放。所谓的学术成果鉴定会,大多在一个封闭集中,抽取几个样例进行。以前的机器条件也差,常常是输入一个句子,鉴定组成员出去喝了咖啡回来才能看到结果。董老师的“科研一号”鉴定会是第一次把系统开放给评委专家来测试的事件。这在当年是需要底气和勇气的。我还清楚记得跟着刘老师去军科院参加“科研一号”系统评测的情景。礼堂外展示了系统的过往翻译样品和系统说明。礼堂内专家们用不同的句子挑战系统。对于系统的开放测试,印象非常深刻。

董老师与台湾的苏克毅教授关系很好。董老师跟我说,你看,苏教授自己凭着对MT的热情开了家翻译公司,软件虽然做得并不精细,但他敢于大胆使用,不断迭代。

80年代末,高立公司来找刘老师合作,决定根据刘老师的 JFY-IV型专家词典为基础的 MT 来做新一代机译产品。那时候,我们已经从董老师的开放实践中学会了放开脚步。此前我们为几百句可以反复打磨一两年。

董老师自己也承认,从设计上,刘老师的专家词典系统比“译星”更胜一筹,更具有潜力。他也受邀参与了高立的计划,但那时候,他的重点已经有转移,开始酝酿《知网》(HowNet)了。我还清楚地记得,我们吃午饭闲聊的时候,董老师说,他觉得机器翻译的基础知识资源不足,需要从根子上加强语义本体知识,包括常识。这一做就是30年!

说一下这个项目的国际学术背景。董老师做机器翻译用的是著名语义学家费尔默的深层格(deep case)语法框架,董老师做了适当改造,起名叫逻辑语义。他用这个框架作为机器翻译和转换的内部结构(中间语言),发表了几篇有相当影响的论文,证明这个表达足够深入,对于不同语系的语言之间翻译也很合适(如,董振东:逻辑语义及其在机译中的应用)。我当时也对深层格理论着迷,很信服董老师的工作(这个影响一直延续至今,这就是我一直强调深层解析是 NLP 核武器的主要渊源)。但是逻辑语义有了合适的图结构表示之后,只是解决了结构层面的语义关系,而节点语词概念的语义本体知识没有跟上来配合构成完整的知识体系。其中最重要的本体知识包括谓词子范畴的潜在句型,及其所要求的算元类型及其角色。例如,谓词EAT的子范畴句型要求两个算元,一个要求人或动物,逻辑语义角色是逻辑主语,另一个算元是逻辑宾语,要求是食品。这实际上是常识,需要本体知识库把常识形式化。

于是,《知网》对跨语言概念精细分类,以义元及其关系为人类常识编码,建立了一个形式化的本体知识体系和逻辑语义表示。它是非人力可为的天才杰作,是上帝之光对董老师的眷顾,是中国对人类文明的贡献。圈子里都说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖(见《图灵奖颁给熬过寒冬的人》)。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。我相信,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。

当年,WordNet 已经存在了,不过那套体系是心理学家主导的,有很多不对劲的地方。这种词典概念的体系是一个很苦的活儿,没人愿意做,也很少人有能力做,而且有能力也愿意了,能坚持做下去,完成这个巨大工程也非常人可为。虽然 WordNet 根本就不是为 NLP 或 MT 而设计的,然而,用无可用,大家做系统做到一定深度需要调用语义资源的时候,还是去用它,或者改造它来用。到了董老师这样的学养和深度,他不愿意将就,他有自己的体系设计和自信。他要推倒重来,按照自己的设计,做一个更适合机器翻译和NLP的本体知识库出来。

这类工作非圣人巨匠不能。本体知识体系的学问门槛很高,涉及保罗万象的基本概念、关系和常识。即便自以为有了一个逻辑自洽的比较合理的体系架构,里面的工作也繁难无比。

知网》是董老师的不朽丰碑。

我91年出国以后,就流浪天涯了,从英国到加拿大,与国内的亲友和师长都难得联系。但出国前,董老师给我写了个“介绍信”,交给在UMIST担任系主任和计算语言学中心负责人的大名鼎鼎的Tsujii 教授(他是日本MT元老长尾真的弟子,李航的导师)。董老师还为我其他的留学申请多次写过推荐信。出国前夕,是董老师告诉我的,说刘倬老师跟他说了,项目把立委留下来好几年了,错过了几次留洋机会。这次的留英奖学金机会,不好再留了,决定放人。鼓励我出国好好深造。

记得还在我出国前,有一次董老师召集陈肇雄和我们几个人一起聚会,说(大意):咱们这里都是 中国MT 的精英了,我们可以不可以考虑协调合作,实实在在做一番事业。

等我转到加拿大念博士的时候,董老师已经到新加坡了。记不得怎么恢复的联系,总之董老师作为1996国际中文计算会议主席召集大会的时候,为鼓励我参会,把大会的海外赞助给了我。其实,我博士时期的 HPSG 中文研究,属于小众的探索,基本上就是玩具系统,并没有多少拿得出手的东西。当时跟董老师在新加坡做项目的弟子有郭进,新加坡会议我们相识。后来我加入京东的时候,请郭进过来搭档,董老师跟我说你们俩背景不同,理念一致,搭档做事真是再好不过了。后来,我和郭进合作发表了一本NLP小册子《自然语言处理答问》(商务出版社,2019年)。

以前说过,董老师虽然不是我的直接导师,但多年来对我的指引、关照和鼓励,实际上是编外导师了。总之 非常幸运能遇到这样的前辈,从一开始就信服他、追随他,80年代就刻苦研读他的逻辑语义学说(董振东:逻辑语义及其在机译中的应用),这篇杰作可算是《知网》的序曲。

我翻译的反映NLP领域理性主义与经验主义两条路线斗争史的《钟摆摆得太远》长文,就是董老师最先推荐给我的文章,也是董老师介绍我联系 Church 教授本尊。翻译前后我们三人间的频繁通信以及他的指正,也是一大篇故事。

白硕老师的微信群“语义计算”聚拢了一批中文NLP及其语义研究的同仁和专家,在白老师的带领下,探讨符号语义很深入,话题自然也常常涉及董老师的《知网》。于是我想到了介绍董老师入群。我知道董老师对于这些话题特别有兴趣,也常见他在领英里面与人讨论相关话题,想他对我们常讨论的内容一定会有兴趣的。于是尝试联系询问。董老师以前不怎么用微信,我就跟董强夫妇商量。他们也很同意,觉得董老师如果能参与我们的NLP话题,是很好的事情。对于董老师身心健康也有好处,我们后辈自然也有幸受益。于是先尝试让董老师用董强的ID入群观察,最后水到渠成,他就加入了。语义群里很多是他的学生、同事和仰慕者,大家都很高兴。有了董老师的参与和教诲,群里的讨论更有深度。董老师入群的两年里,我们共同度过一段与大师直接互动的难得时光。白老师说:

“董老师在本群的交流中为我们贡献了宝贵的精神财富,无论在解说HowNet的顶层设计思路方面,还是在评价NLP最新进展方面都是金句叠出,振聋发聩。本群失去了一位巨匠级的群友。董老师在群里交流的那些话题值得我们结合各自的学习工作实际,长久体悟。董老师对ontology一直很敏锐,总觉得他有高见没有说出来。能早十几年就在ontology层面不满足于taxonomy而想到去做类似当今事理图谱那样的东西,真的是高屋建瓴。”

有一次在群里我对于符号系统的短板来了点自嘲,没想到无意中触犯了董老师(董老师是符号主义的一面大旗)。那是第一次他当众批评我“矫情”。我当时的感觉是诚惶诚恐,耳提面命。这样的奚落,除了刘老师和董老师,任他天王老子,我大概很难不反唇相讥。可董老师是我心中的圣哲,在他面前,肝脑涂地也是值得的。高山仰止,说的就是这个意思。他不需要总是正确,他也可以固执、错怪,但伟人就是伟人。他和他的思想的存在本身,就是一种权威。我辈望尘莫及。恩师已去,我心恍惚。

董老师一直到老,始终在调试系统,探究人脑和语言的奥秘。我想天堂应该也有电脑,上帝不会让他闲着,《知网》不仅是他留给我们的精神遗产,也会在天国大放异彩。

董老师语录摘要:

1)“我们老了,但机器翻译还年轻”。

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)“规则的机器翻译是傻子,统计的机器翻译是疯子。”

 

 

记于

 

《朝华午拾》电子版目录

发布者

liweinlp

立委博士,计算语言学家,多语言多领域自然语言处理(NLP)资深架构师。Trend 首席科学家,聚焦医疗领域病友社区的媒体挖掘。前弘玑首席科学家,聚焦RPA+AI的NLP低代码多领域落地,设计NLP核心引擎雕龙,落地多领域场景,包括金融、电力、航空、水利、客服等。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表回复

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据