这本NLP小书《自然语言处理答问》终于出版了,还是蛮感触的。看商务这个《汉语知识丛书》系列,所选皆中国语言学界前辈,如雷贯耳。大家小书,精华荟萃,忝列其上,不胜惶恐。尤其是朱德熙先生的学术经典《语法答问》,是当年入行的启蒙书之一,几十年来读了不知道多少遍。屡读屡新,高山仰止。
受本书体例所限,未能有题献致谢之处,不无遗憾。回想此书从酝酿到封笔,一波三折,几近难产,其间几十番校改亦似陷入死循环。如今终于付梓,回顾给予各种支持的老师、同事和亲友,心存感念。没有他们的鞭策和推举、合作和指正,便没有本书的面世。
题献还真考虑过,从学术启蒙和传承看,毫无疑问理应献给我的恩师,以示符号逻辑学派在中国的传承和发展。当时的设计是:
首先要感谢的自然是商务印书馆的责任编辑冯爱珍。两年多的策划布局、反复校正,体现的是商务老专家的敬业和严谨。商务在中国出版界的品质和口碑,原来是有这样一批一字不苟、精益求精的编辑精英撑起的。近三年无数的编辑通信往来,终于迎来了她的祝贺:
喜讯:祝贺立委力作即将问世,比肩国内一流语言学家
朱德熙、李荣、何九盈、李新魁、冯志伟、邢福义……大家小书,厚积薄发;尖端知识,深入浅出。
三十多年来,李维博士始终站在自然语言处理的前沿领域,专心从事研究和应用开发工作,不仅有深厚的理论积累,也建立了很好的自然语言处理系统架构。他熟知自然语言处理相关的各种方法,在很多方面具有独到的见解和思辨。本书是他厚积薄发的倾情奉献,讲述自然语言处理相关的理论知识和应用技术,深入浅出,简明实用。从事人工智能、自然语言处理等研究的专业人士,以及在读后学,将受益颇丰。
本书的主要理论与实践源自人工智能的理性主义路线(称为符号逻辑派),与近三十年来的经验主义主流(称为机器学习派)呈对比。其在自然语言处理领域的起点是乔姆斯基的形式语言理论。我有幸师从中国机器翻译之父刘涌泉和刘倬先生多年,又有多次机会亲聆前辈董振东教授教诲,也从前辈冯志伟教授处获得计算语言学的熏陶。去国后有博士导师Paul McFetridge、Fred Popowich 以及给我们讲授HPSG 的语言系主任Nancy教授,带领我进入基于合一的文法领域。那是30年来最后一波符号逻辑的学术热潮了,尽管看似昙花一现。博士以后辗转南下,机缘巧合一头扎进工业界担任语言处理技术带头人二十余年,致力于NLP规模化产品研发。这种独特的经历使我成为本领域计算语言学家中极少数的“幸存者”,有机会在符号路线上深耕,推出独有的理论与实践创新。
合作者郭进博士在关键时刻,高屋建瓴,挽救了此作,不致胎死腹中。郭兄也是近三十年的老相识了。当年他在中文分词领域叱咤风云,是大陆学界第一位在本行顶尖学刊《计算语言学》上发表论文的学者(实际上是这个中文处理基础领域的理论终结者)。二十年前我在 TREC 第一届问答系统得奖的时候,与郭兄在会上不期而遇。他约我彻夜长谈,一定要问我怎么做的系统,表现出的浓厚兴趣令人感动。作为语言学家,我从入行就步入了语言学逐渐从主流舞台出局的国际大势(见《丘吉:钟摆摆得太远》)。科班主流出身的郭兄摈弃门户之见,不耻下问,颇让我意外惊喜。后来我们就NLP两条路线的纠缠有过很多争辩讨论。早在与商务酝酿本书之前,郭兄就力促我著书立说,曰不要断了符号逻辑的香火。开始动手写才发现,要把事情说清楚很不容易。想说的话太多,但头绪繁杂,一团乱麻。写了一章,就陷入泥潭。我内心动摇,说放弃算了。郭兄指出,这是系统工程,不宜用你语言处理的那套自底而上(bottom-up)的归纳式梳理。终于说服郭兄出马,自顶而下(top-down)指挥,宏观掌控,约法三章,不许枝枝蔓蔓。毕竟是工程老将架构大师,布局谋篇如烹小鲜。此一生机,柳暗花明。人生有很多跨越时空的奇妙片刻,连缀成串,让人很难相信没有一种缘分的东西(见附录“零 缘起”)。
本书论及的话题都在两个微信群与群主及同行友人有过多次切磋,从中深受教益。一个是《人工智能简史》作者尼克的AI群,一个是白硕老师的语义计算群。本书申报过程中,承蒙清华大学人工智能教授马少平和北京大学中文系詹卫东教授的专业推荐。2017年,詹教授还特邀笔者上北大“博雅语言学”讲座论《洞穿乔姆斯基大院的围墙》。同年,受孙乐研究员邀请,出席中文信息学会2017年学术年会,马教授主持介绍我做了主题演讲《中文自动句法解析的迷思和痛点》。这些演讲为本书相关章节内容的宣讲与接收反馈提供了平台。高博提供服务的【立委NLP频道(liweinlp.com)】也为本书的相关话题及其背景提供了数字平台。
特别需要感谢的是老友米拉(mirror)对本书初稿的谬爱。米拉说:“有些伽利略科学对话的意思,有趣得很”。 他反复推敲,细致入微;其科学见识和文字功力使很多审改堪称一字之师。直到最后定版前,死期只剩五天,我说终于从死循环中出来啦,米拉坚持:“我再学习修正一版如何?换了人视点就不一样了。我试试吧,总是要完美些才好。将来是准备推荐夫人做学中文的教材呢。”让人哑然失笑。当年我因为喜欢米拉的文字隽永,为他编辑过《镜子大全》。这是投桃报李,还是惺惺相惜呢。
毛德操先生也是本书的助产婆。特别是关于乔姆斯基批判,我从毛老、尼克和白硕老师处得到的教益最多。毛老是计算机业界著作等身的专家,我跟他说:在您的多次蛊惑和鞭策下,我终于开始“著书立说”了。毛老激励道:“哦,好事情啊!我当然要拜读。说到符号逻辑派,正是现下AI界新秀们的缺门。不说钟摆是否一定会回摆,至少是互补。我觉得你的书会大有可为。你不妨先在中国出版,然后把它译成英文在美国再出一次。”我有些受宠若惊:“英文出版就不提了,美国出版界我两眼全黑,又是非主流的东西。本书价值也许要经潮起潮落的时间积淀后,才会显现。这也是为什么要咬牙写出来的理由。自然语言符号逻辑派本来已经断层。我第一步是想保证内容的学术性,要经得起时间和同行的批评。”毛老的很多建议非常精彩,令人折服,不妨摘要分享给本书的读者。
(1)前面应该有个introduction,要照顾初学者特别是跨行者。自然语言处理本来就是跨度很大,但是人家往往视作畏途,他们连乔姆斯基是谁都不知道。所以得要把门槛降下来。
(2)书的定位,我觉得不妨是:最有学术性的科普,最接近科普的学术。
(3)书的体裁采用问答,当然也是好的。问答的特点是提问方不作陈述,不表达观点,所以我想改成对话也许更好,就像伽利略的《关于两个世界体系的对话》。三方对话也许还要更好,一方是深度学习,一方是符号推理-乔姆斯基,还有一方是符号推理-乔姆斯基批判。
我的老同学王建军教授在学术严谨性与章节安排方面提出了很好的建议。特别感谢宋柔老师、周流溪老师的鼓励和建议。各种鼓励和帮助也来自同行友人周明、李航、裴健、张桂平、施水才、傅爱平、李利鹏、雷晓军、洪涛、王伟、陈利人、唐锡南、黄萱菁、刘群、孙茂松、荀恩东、薛平、姜大昕、牛小川、执正、严永欣、欧阳锋。在成书出版的过程中,笔者受到了公司领导周伯文、何晓冬、胡郁、高煜光、贾岿的支持,一并致谢。
在符号NLP落地应用的过程中,我不同时期的搭档和助手,Lars、牛成、Lokesh、李磊、唐天、林天兵、马丁,帮助实现了产品的规模化,显示了自然语言创新的价值。田越敏、孙雅萱、郭玉婷、侯晓晨、Sophia Guo 等同学仔细阅读了本书的初稿,她们的反馈意见保证了本书对于后学的可理解性。
做了一辈子工匠,著书立说从来没有正式列入我的人生计划。在两年的成书过程中,家人也跟着激动自豪,分享“一本书主义”的喜悦;尤其是老爸和太太的鼓励。 最后是女儿甜甜的贡献。讲解词典黑箱原理的时候,觉得可以采纳流行的段子作为插图。为避免无意侵权,只得求甜甜帮忙了。甜欣然应允,于是有了两幅女儿给老爹的书画图,别有趣味。
甜甜说画的就是我,我觉得蛮像,倒是画她自己不怎么像。老相册里找到几张带她小时候游玩的留影可做比照。回首过去20多年,女儿与NLP从来都是生活的两个圆心。女儿的贴心,让坐了一辈子NLP学术冷板凳的积淀压模过程,也飘过丝丝暖意。
这注定是一本小众冷书。但愿所传承创新的符号自然语言学术,丝相连、藕不断。有如人工智能理性主义的潮起潮落,庶几留下一声历史的回响。谁知道呢,五十年河西,“神经”恐非历史的终结。钟摆回摆的时节,历史或被重新发现。
夜阑人静,耳机中飘来秘密花园的名曲,那是新世纪《落雨的时节》(Sometimes when it rains)。余音萦绕,不绝如缕。
记于二零二零年七月十五日夜半苹果镇。
【附】
目 录
零 缘起
壹 自然语言与语言形式
贰 语言的符号模型
叁 中文分词的迷思
肆 词性标注的陷阱
伍 语言递归的误区
陆 乔姆斯基语言学反思
柒 深度解析是图不是树
捌 有限状态的机制创新
玖 错误放大与负负得正
拾 歧义包容与休眠唤醒
零 缘起
自20世纪80年代起,人工智能领域见证了理性主义(rationalism)与经验主义(empiricism)的“两条路线斗争”。其中,自然语言学界的“斗争”结果是,文法学派(grammar school)与统计学派(statistical school)此消彼长,机器学习渐成主流,计算文法(computational grammar)则有断代之虞。
2018年,李维与郭进在硅谷就自然语言解析(natural language parsing)问题进行了十次长谈,回顾并展望文法学派的机制创新与传承之路,意图呼唤理性主义回归,解构自然语言,协同攻坚人工智能的认知堡垒,遂成此作。
李维,1983年入中国社会科学院研究生院,师从刘涌泉、刘倬先生,主攻机器翻译(machine translation),始涉足自然语言领域。毕业后在中国社会科学院语言研究所从事机器翻译研究,继而留学英国、加拿大,获Simon Fraser University(SFU)计算语言学(Computational Linguistics)博士。1997年起,在美国水牛城、硅谷,从事自然语言理解(Natural Language Understanding, NLU)工业实践20余载,为人工智能(Artificial Intelligence,AI)应用第一线的系统架构师。
郭进,1994年新加坡国立大学计算机科学博士,主攻中文分词(Chinese tokenization)和统计模型(statistical model),成果见于《计算语言学》杂志等。1998年赴美,先后在摩托罗拉、亚马逊、京东硅谷研究院等从事人工智能研究,探索将机器学习(machine learning)、自然语言处理(Natural Language Processing, NLP)等人机交互技术应用于互联网与物联网的解决方案。
【相关资料】
《丘吉:钟摆摆得太远》(W Li, T Tang 译)
【计算机学会通讯】2013年第12期(总第94期)
《规则系统的移植性太差吗?》W Li, T Tang
【计算机学会通讯】2014年第8期(总第102期)
《主流的傲慢与偏见:规则系统与机器学习》 W Li, T Tang
【计算机学会通讯】2013年第8期(总第90期)
“Critical Tokenization and Its Properties", J. Guo, Computational Linguistics, Volume 23, Number 4, December 1997
《镜子大全》
【立委NLP频道(liweinlp.com)】
李老师好!新书已经拜读,里面的内容先前读过一些,并不陌生。不过这次读下来,依然感觉收获不少,确实是做过多年系统的经验之谈,和我自己做系统的感受暗合。
不知可有一起共事的机会?邮箱已留