冯志伟老师以及机器翻译历史的一些事儿

有群友问,冯志伟老师还好吗?联想到一些MT的历史,随笔记下。
冯老师的微博还很热闹啊(冯志伟文化博客的微博_微博),他四处讲学 著作等身 看照片神采奕奕的样子。学问的高峰虽已过,游离于主流非主流一线之外 但老当益壮 勤于笔耕 教书育人 传播科学。
中国机器翻译(MT)历史上 有冯老师的一页 他凭着多语言的天赋 在法国时期实现了一个一对多(汉语到欧洲语言)的机器翻译。我的硕士论文也是一对多(世界语到英语和汉语),比起冯老师,就算玩具了,但做一对多MT的人很少很少。说的是当年。后来 SMT 盛行了,终于能 scale up 到多对多,尽管仍然是一个语言对一个语言对做的 而我们当年做的一对多 源语分析模块是共享的。
关于冯老师 也有些故事。我的学长乔毅(硕士做的是法汉机器翻译,二刘老师文革后招收的MT首届研究生之一,其他的学员还包括冯老师、李卫东、黄秀铭等)告诉我,冯老师在这拨人中很特别,因为他处于两代之间,地位特殊。他实际上在文革前就介入MT的研究项目了,与二刘老师早有合作。由于文革的十年蹉跎,文革后二刘老师用招收研究生的方式让他归队,因此他实际上是以半同事、半学员的身份回来的。从资历上,二刘老师对他来说更像兄长和同事,而不是传统意义的导师。乔毅说,我们见两位刘老师,都毕恭毕敬称刘老师或刘先生,只有冯志伟例外,他称刘老师为老刘。
冯老师是个蛮豪爽的人,给人亲近感。记得89年香山会议上山,他气喘吁吁,跟我说,由于运动,他路上花了四五个小时才到,我问刘老师呢,他说,刘老师不同,他是圣人。冯老师最津津乐道的成就之一就是,他是第一个(或第一个之一)提出要用多标记做MT的。因为传统的MT都是在词类(POS)和词的基础上做,但POS 太大,词(直接量)太小,很难细线条成hierarchical 的规则系统以提高质量。因此 当一个词带有多标记(譬如 ontology 的标记 如 Human、Food 之类)参与规则条件 自然是打开了一扇大门。不过这一点我觉得是针对西方主流MT系统的算法而言。中国的MT,二刘老师从60年代就开始使用“句子场”的数据结构,这个句子场里面的每一栏实质上就是一个词的多标记。
刘涌泉刘倬老师给我们上课,他们的说法是,MT 50 年代初期由美国率先,苏联紧随,中国自从 57 年从苏联取经就是第三个开展 MT 的国家了。到了 60 年代,中国 MT 的研究处于世界先进水平。主要的原因是,美国和苏联的研究重点都是英俄或其他欧洲语言之间的MT,而中国一开始就不得不面对两个完全不相干的语系之间的MT(俄汉、英汉)。这个特殊性迫使我们不得不把 MT 推向深入。
MT 后来的历史巧合是,到了 1966 年,美国遭遇了由【黑皮书】带来的 MT 寒冬,中国没有黑皮书,但有红卫兵,也同时遭遇了文革带来的科研寒冬。MT 的复苏是在文革后,西方差不多同时也复苏了。世事巧合,莫过于此。参见:ALPAC 黑皮书 1/9:前言 ,MT 杀手皮尔斯 (翻译节选)

QUOTE 【立委按】此前的博文摘要编译过皮尔斯论,这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物,他是以MT(Machine Translation,机器翻译)杀手的面目记载在领域历史里。1966年,他主持撰写的那篇世界著名(或臭名昭著)的 ALPAC 黑皮书,把热火朝天的机器翻译研究,一下子打入冷宫。丘吉教授认为,皮尔斯给自然语言处理泼冷水,促成对自然语言和人工智能很多项目的资助冻结,是有其洞察力和远见的。不管我们心内对他多么不自在,必须看到他的反对意见至今没有过时,仍值得我们认真反思。

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论