《哭送董振东老师》

董振东先生(1937-2019)

噩耗传来,人还在路上,深为震惊,感觉脑袋嗡嗡的。当时我刚下高铁,是我老爸最先传来的消息,比各群都早。老爸肯定是关注了中文信息学会的。他也常听我谈起过董老师。

老友尼克提议我写纪念文章。追随、受惠于先生三十载余,心中的怀念,千头万绪,从哪儿说起呢?

89风波后不久,第二届机器翻译高峰会议在德国慕尼黑举行。我代表刘倬老师在会议上介绍了我们的翻译系统,董老师也到会。会后,我们应邀去荷兰BSO公司的多语机器翻译小组,参加他们的 Chinese week,讨论把中文加入到他们多语计划中的议题,以及探讨中文处理的挑战(见《朝华午拾:欧洲之行》)。

很多年后,董老师给我来信说,孩子们整理老照片,翻出来一张在荷兰的合影,感觉很珍贵。Witkam 就是照片上的BSO项目组长,当年是他从欧共体争取到机器翻译项目的基金,BSO公司 match 另一半,这才成就了他们以世界语为轴心语言的多语言机器翻译项目的五年计划。其中的中文部分就是我为他们做的依存关系文法(我的《朝华》系列有记述【一夜成为万元户】:全是纸上谈兵的一套,但也勾画了中文形式化的雏形(见:【美梦成真通俗版】)。当年董老师对我的这个工作赞许有加。

荷兰BSO多语机译项目组长Witkam,董老师与立委(1989)

我也回寄了一张在高立公司一起做机器翻译项目期间的临别合影。高立公司那段是个机缘,我得以与董老师在地下室改造的办公室相处几个月,亲聆教诲。

高立公司CEO,刘老师,立委,董老师(1991)

那是 2013 年四月,董老师回信说:

谢谢。对我们而言都是非常珍贵的照片。那年我已54岁,但体力脑力还不错。又一个20年过去了。我还在想再挑战自己一把。至少我会把我们的基于HowNet的机译系统,一直做下去,看看最后会到一个什么程度。上次回去领奖时去看望了刘老师,他提及所里建议他还是再带学生。他觉得没有课题,经费不好弄,他没有应承。我回来想了想觉得他也许还是干点什么好。也许会开出个什么新天地。

我想你一定很忙,刚回来。Kaplan我已写过信了。他没有回信,只是把我的信转给了Weiner,即当年Microlytics的经理。我向他们解释了那年的事情。他们也就理解了。我也算放下了。

最近接到学会来信,2013年的计算语言学大会,看了他们的征文内容,觉得想说点什么,等我写了,也给你转去,供参考。

家里热闹了一番吗?女孩大了,不好太管。

振东

上周问过你Ron Kaplan的email地址,你知道吗?那年他还是在Micolytics时,我在中软曾与他们经理谈过一个很好的生意,可惜被六四给搅黄了。当时还没有法子跟他们解释。我一直觉得过意不去。

我的回复:

2013/4/27 <dzd@keenage.com>

>>谢谢。对我们而言都是非常珍贵的照片。

我把这张照片还有其他一些老照片加入了博文《看望导师刘倬先生》

>>那年我已54岁,但体力脑力还不错。

那应该是 HowNet 的酝酿阶段,记得您当时提过几次设想。

>>又一个20年过去了。我还在想再挑战自己一把。至少我会把我们的基于HowNet的机译系统,一直做下去,看看最后会到一个什么程度

上次您提到可以用一些细致分类去解决结构歧义(PP-attachment 类的问题)。也许仔细做是可以的,但是我觉得结构歧义的根本出路不在人工的 taxonomy,而在统计:因为结构歧义说到底是三角恋爱,最终谁与谁结合决定于语义拉力的相对力量对比,而这种AC与BC相对的拉力是无法事先计算出来的,因为有太多组合的可能性。但是,AC 或者 BC 各自的拉力是可以通过大数据事先学习出来的(本质上是 lexical coherence acquisition)。只要有一种机制让这种统计信息在结构歧义的现场提出来做对比,理论上可以解决这个问题。这比用细致的语义features去人工调试应该有效合理一些。

事实上,这种机制目前已经可以实现。当然实现起来还有些繁杂,代价还需要考察。

>>。上次回去领奖时去看望了刘老师,他提及所里建议他还是再带学生。她觉得没有课题,经费不好弄,他没有应承。我回来想了想觉得他也许还是干点什么好。也许会开出个什么新天地。

这次看望刘老师,感觉还是苍老、迟缓很多。估计他也没有足够力气了。我理解您的意思,搞了一辈子科研,即便退休,最好也别完全停下来,除非有别的爱好。可惜的是,我们很多人除了做系统,都没有什么其他爱好。退休生活容易寂寞。

再谈

学生:维

与董老师长达30多年的交往,除了生活上的问候外,我们谈的最多的还是专业。董老师是性情中人,富有幽默感,常让人忍俊不禁。记得当年谈到他的译星,董老师说那才真正是自己的孩子,呕心沥血的结晶。接着笑道:儿女不算,为啥?那是“自然灾害”的结果。可是很多年以后,他又跟我说到孩子的话题,希望我有机会带董强一起干,列举自己孩子的优点缺点。最后不忘补一句,自己的孩子,瘌痢头也是好的。

在中国机器翻译的历史中,我的导师是开创者:刘涌泉老师1957-1958年开始组建团队,从外语学院挖来了刘倬老师,还有一位早逝的高祖舜老师,1959年第一次实验成功,三人后来合著《机器翻译浅说》一书(日本从事MT研究的时候作为主要参照,译成了日语)。董老师应该是60年代的某个时间点,作为黑龙江大学外语系的老师,参加了两位刘老师的MT项目。董老师对两位亦师亦兄的刘老师非常尊重,去年还跟我提到不久前曾分别去看望两位,表达敬意。

董老师青出于蓝,后来在军科院率先把MT落地为开放型软件,成为中国MT和NLP的领军人物之一。从国际交流来看,董老师在很长的时期是中国NLP的大使,是与国际学界的接口。

当时,董老师从军科院的“科研一号”实用开放型英汉机器翻译原型系统,到中软真正落地,推出第一款商品化软件“译星”(TranStar),给当时全国近十个MT团队做出了榜样:MT 可以走出实验室。

与董老师同期推出的还有一款“非主流”系统,是工程师出身的刘孝叔先生编制的,也放到中关村橱窗上卖出去过几套,但影响小多了。刘孝叔先生的故事,以前在这个群里作为掌故说过(见【把酒话桑麻,MT 产品落地史话】)。

译星是一个里程碑。

董老师后来跟我说过其中的经验体会。最主要一条就是不能原地打转,要抓大放小,研发到一定的阶段,迅速扩大测试集,开放系统给其他人测试,在错误中成长。

译星之前的研发,实际上都是在非常小的开发集上做,当年也不分开发集与测试集,系统通常也不开放,所谓的学术成果鉴定会,大多在一个封闭集中,抽取几个样例进行。以前的机器条件也差,常常是输入一个句子,鉴定组成员出去喝了咖啡回来才能看到结果。

董老师的“科研一号”是第一次把系统开放给评委专家来测试的事件。这在当年是需要底气和勇气的。

我还清楚记得跟着刘老师去军科院参加“科研一号”系统评测的情景。礼堂外展示了系统的过往翻译样品和系统说明。礼堂内专家们用不同的句子挑战系统。对于系统的开放测试,印象非常深刻。

董老师与台湾的苏克毅教授关系很好。董老师跟我说,你看,苏教授自己凭着对MT的 passion 开了家翻译公司,软件虽然做得并不精细,但他敢于大胆使用,不断迭代。

80年代末,高立公司来找刘老师合作,决定根据刘老师的 JFY-IV型专家词典为基础的 MT 来做新一代机译产品。那时候,我们已经从董老师的开放实践中学会了放开脚步。此前我们为几百句可以反复打磨一两年。

董老师自己也承认,从设计上,刘老师的专家词典系统比“译星”更胜一筹,更具有潜力。他也受邀参与了高立的计划,但那时候,他的重点已经有转移,开始酝酿《知网》(HowNet)了。他觉得机器翻译的基础知识资源不足,需要从根子上加强语义词典。这一做就是30年!

知网》对跨语言概念精细分类,以义元及其关系为人类常识编码,建立了一个形式化的本体知识体系和逻辑语义表示。它是非人力可为的天才杰作,是上帝之光对董老师的眷顾,是中国对人类文明的贡献。说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖(见《图灵奖颁给熬过寒冬的人》)。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。我以前说过,“可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。”(摘自《语义三巨人》

知网》是董老师的不朽丰碑。

我91年出国以后,就流浪天涯了,从英国到加拿大,与国内的亲友和师长都难得联系。但出国前,董老师给我写了个“介绍信”,交给在UMIST担任系主任和计算语言学中心负责人的大名鼎鼎的Tsujii 教授(他是日本MT元老长尾真的弟子,李航的导师)。董老师还为我其他的留学申请多次写过推荐信。出国前夕,董老师告诉我,刘老师跟他说了,项目把李维留下来好几年了,错过了几次留洋机会,这次的中英友好奖学金的留英机会,不好再留了,决定放人。鼓励我出国好好深造。

记得还在我出国前,有一次董老师召集陈肇雄和我们几个人一起聚会,说(大意):咱们这里都是 中国MT 的精英了,我们可以不可以考虑加强合作,实实在在做一番事业。

等我转到加拿大念博士的时候,董老师已经到新加坡了。记不得怎么恢复的联系,总之董老师作为1996国际中文计算会议主席召集大会的时候,鼓励我参会,把大会的海外赞助给了我。其实,我博士时期的 HPSG 中文研究,属于小众的探索,基本上就是玩具系统,并没有多少拿得出手的东西。当时跟董老师在新加坡做项目的有郭进。董老师与 Dr Lua 是大会主席副主席。

以前说过,董老师虽然不是我的直接导师,但多年来对我的指引、关照和鼓励,实际上是编外导师了。总之 非常幸运 能遇到这样的前辈,从一开始就信服他 追随他 研读他的逻辑语义学说(董振东:逻辑语义及其在机译中的应用)。写《语义三巨人》的时候,我是怀着一片虔诚之心。

我翻译的反映NLP领域理性主义与经验主义两条路线斗争史的《钟摆摆得太远》长文,就是董老师最先推荐给我的文章,也是董老师介绍我联系 Church 教授本尊。翻译前后我们三人间的频繁通信以及他的指正,也是一大篇故事。

后来在群里,有一次对于符号系统的自嘲,无意中触犯了董老师(董老师和我都是符号主义践行者)。那是第一次他当众批评我“矫情”,我的感觉就是,耳提面命,诚惶诚恐。除了刘老师和董老师,任他天王老子,我也不会不反唇相讥,可董老师是我心中的圣哲,在他面前,肝脑涂地也是值得的。高山仰止,说的就是这个意思。他不需要正确,他也可以固执,但伟人就是伟人,他和他的思想的存在本身,就是一种权威。我辈望尘莫及。

一个多月前,我给他微信,请他给《语言答问》一书作序,没想到他已经到最后的阶段了。恩师已去,我心恍惚。

董老师一直到老,始终在调试系统,探究人脑和语言的奥秘。我想天堂应该也有电脑,上帝不会让他闲着,《知网》不仅是他留给我们的精神遗产,也会在天国大放异彩。

【相关】

《朝华午拾:我的世界语国》

《朝华午拾:欧洲之行》

本体知识系统的一些历史掌故和背景

美梦成真

把酒话桑麻,MT 产品落地史话

钟摆摆得太远》(立委译)

知网

董振东:逻辑语义及其在机译中的应用

《语义三巨人》

李白董之51:说不完的subcat和逻辑语义

李白董冯吕64:NLPers 谈 NLP 渊源及其落地

【立委小传】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华午拾:我的世界语国》

Mia Esperantio

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。

的确,世界语对我,有着宗教般的吸引力。当年初入北京世界语圈子,感受到的新鲜和温暖,使我一个外地人兴奋莫名,遂以全部热情投入。二十多年了,我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会,是我的世界语之旅的第一次远行。我们北京一伙人,一路谈笑,亲如一家。同行有邱大姐(歌唱演员,文革时唱过家喻户晓的“我为革命下厨房”)和老大哥王彦京(一个很英俊的小伙子,是“老”世界语者了,常跟我们吹嘘他是黄埔一期,当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历)。途中遇到一位山西姑娘,独自远行开会,起先不爱理人的样子。后来熟了,才知道她天性活泼开朗,完全不象北京女孩那样一本正经,是那种性情温和、相处让人舒服的人。都是年轻人,自然比较聊的来,一直相处得很自然愉快。接触一多,不时招来老大哥的善意讥讽:你那位 Shanxi-anino 呢?我当时已经悄悄地有北京女友了,岂敢有“不良”居心。后来,她嫁给了我的北京世界语哥们,算是昆明大会做的媒吧。一方面为朋友高兴,心里面还真有点嫉妒:这小子天上掉下来的福气。

给黄华副委员长做翻译

71届世界语大会前夕,中国科学院世协举办了一个国际世界语科技研讨会,有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译,可临场前一刻钟,沙教授忽然跟我说:“你年轻,脑子快,还是你上场吧”。天哪,我才刚学世界语不到一年,虽然仗着语言学出身和词典的帮助,阅读写作并无障碍,可是并没有多少机会练习口语翻译啊。沙教授看我犹豫,鼓励说:“你肯定行”。也是初生牛犊,糊涂胆大,这一激就呼啦上场了。往黄华身边一站,差点傻眼了,只见无数闪光灯袭来,眼前明晃晃一片白光。毕竟是外交部长出身,黄副委员长出口成章,抑扬顿挫,表情丰富。每说一段,就停下来等我翻译。我强作镇定,努力想复述,也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院,我一时不敢确定圣马力诺在世界语怎么说,黄先生看我卡在那里,提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段,我都应付了几句,但自己都翻译了些啥,根本没数。下场后,心里懊悔极了。我后来想,世协的主办人肯定更加懊悔,没想到半路杀出来个愣头青,早知沙教授临场换人,他们一定会安排其他世界语高手出场,北京世界语界可是高手如林。黄华啊,岂是等闲人物,绝不该有半点差错。不过,这次赶鸭子上架对我个人的命运却非同小可,它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译,才同意跟我见面,最终结成良缘的。当然,这是后话了。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮,成为全国世界语者的狂欢节日。我作为世界语“新秀”,有幸参加了从大会预备到终场的全过程(后来了解到,由于当时的政治现状,很多外地资深世界语者没有得到参加盛会的代表资格,严重打击了同志们的热情)。

立委在大会门前与老世界语者语言学家周流溪老师留影

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕,意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者,很神秘地告诉我,他们的世界语代表团安插有政工,专事监督他们,必须倍加小心。在亚洲,两伊战争正酣,国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者(忘了姓名了,很是个人物),她很活跃,聪明过人,反应极快,积极牵头组织世界青年世界语者的活动,曾表示希望我作为中国青年世界语者召集人,跟她配合。我问她,你要是遇到敌国伊拉克的世界语者,怎么办啊?她毫不犹豫地说,我会上前招呼握手,跟他/她交朋友,我们世界语运动的宗旨,不就是加深理解,消除仇恨,实行世界和平么。她也告诉我,在她国内必须小心,随时可能被送进监狱。象她这样抛头露面比较西化的人,恐怕早已上了黑名单,是政府盯梢的重点。“不过,我不怕,我有对策”,她很有信心地说。大会以后,我跟这位优秀的世界语者还保持通讯了一些时日。

漂亮的伊朗世界语者

说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。

人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj” (We are Esperantists by birth)。

当时我们北京世界语者有一个据点,就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸,好像也是黄埔一期的。她姐妹俩典型北方人性格,为人热情爽朗,会张罗,结交广,富有幽默感。到她家,就跟到自己家一样感觉亲切自在。世界语文艺片播放那天,我们一拨人于是相约到她家看。遇到国外世界语朋友来访,我们也常常带到王艾家聚会。

大会期间,还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京,于是我兄弟俩和王艾一起陪同日本朋友逛圆明园,然后召集一批世界语朋友在王艾家晚餐聚会,热闹非凡。

拉宾小姐演出之余

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作,画面干净利索,色彩鲜艳,人物神态,栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是,我在这次大会上,结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士,并与他保持了多年的交往(特别是他在BSO从事机器翻译研究期间,后来我去英国留学,他不但给我写了推荐信,还解答了我选择学校的困惑:他告诉我,论名声和学术,应该去剑桥大学;要是想继续从事机器翻译研究,应该去曼彻斯特的UMIST计算语言学中心;如果想学人工智能,爱丁堡大学最佳)。他是剑桥大学的语言学博士(后来跟我一样成为计算语言学家,从事机器翻译的研究,他首创了利用自动句法分析过的双语语料库施行机器翻译的统计算法,比后来盛行的同类研究早了5-10年),长期以来是国际世界语协会的头面人物之一,当时是国际世界语协会的财务总监。他平易近人,有长者风范,约我到他饭店面谈,对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲,我委屈地说,提交了,但是没有被采纳。他微笑,有点可惜的样子,没有做进一步的解释。后来我得知,国际世界语大会的科技演讲,不仅仅要所选课题对路,水平好(这两点,我已基本做到),还要看研究者的资历,起码是博士,最好是国际知名教授(记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生,不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理,属于我的计算语言学专业)。我一个第三世界的硕士生刚毕业,根本谈不上。

2006年四月十六日
于美国B城

【相关】

【立委小传】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录



《微信群笔记:深切悼念语义宗师董振东先生》

帅:中文信息学会 讣告 | 董振东教授逝世

李:震惊。深切哀悼!

宋:惊闻董老师去世,十分悲痛。董老师的成就令人钦佩,董老师的科研价值观引领我们前行!

金:90年代初各种计算语言学会上都能碰见董振东先生,受教多多。董先生千古,一路走好🙏🙏🙏

邢:深切悼念董老师   先生风骨精神,求真求实,我辈追随榜样!先生千古!

梁:惊闻董老师去世,非常震惊和悲哀!先生精神永存,永驻我心!

Nick:@wei 伟哥应该写篇纪念文章

李:绝对的巨人和恩师。深切哀悼! 董老师从未停息对nlu的研究 一直在做系统 让人折服。在很长的时期 董老师是中国nlp和mt与世界的接口。语义宗师 一代巨人 高山仰止。

洪:如果允许,咱群凑份子联名送个花圈花篮啥的,@wei @Nick Zhang

Nick:@wei 伟哥牵个头。

李:董强谢谢大家,说后事从简,已经办完了。

白:董老师在本群的交流中为我们贡献了宝贵的精神财富,无论在解说HowNet的顶层设计思路方面,还是在评价NLP最新进展方面都是金句叠出,振聋发聩。本群失去了一位巨匠级的群友。董老师在群里交流的那些话题值得我们结合各自的学习工作实际,长久体悟。

施:沉痛悼念董先生。最钦佩董先生的知识分子风骨,我们学会有次换届,他大骂一些学霸领导的场面历历在目。特别解气。我们做不到。有次他举办知网国际研讨会,问我能否支持。我给了5万元,他也只是淡淡的说了声谢谢。知识分子啊!!

洪:CNLP用知网,// Chinese NLP
基础资源WordNet相当。
当年请来百度讲,// 2005
老当益壮携董强。

李:重发旧文 《语义三巨人》深切悼念董老师。先生千古!

洪:应该四巨人,作WordNet的George Miller绝对是心理语言学大家。

李:论影响力 是的 @洪涛Tao 可能我有偏见,我对 WordNet 意见很大。我以前倒是觉得 Wilks 可算上第四语义巨人。

洪:Miller和Chomsky同时代,基本上平起平坐。他的 science of words很科普。

李:最后一次收到董老师信息是2月17号。董老师发来的是郑钧的《长安长安》,我一直也喜欢郑钧的。不过此前 我与董老师从来没有议论过音乐。

回想起来,过去一年,董老师在微信群上越来越少见到了。不是他不关注,估计是终于精力不济了。

白:董老师对ontology一直很敏锐,总觉得他有高见没有说出来。能早十几年就在ontology层面不满足于taxonomy而想到去做类似当今事理图谱那样的东西,真的是高屋建瓴。董老师对“部件”也是有话要说,我一直期待他的高论……

Nick:old soldiers never die, they just fade away.

洪:
老兵不死留枪支,弹药充足后人使。
老兵升天入云时,依旧深情地俯视。

张:一代宗师 我的恩师 心痛不已~~~董先生风骨盖世,学识惊人,成就人类文明——“译星”、“知网”闪耀人类创新创造历史。

董振东语录:

1)“我们老了,但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨;

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)规则的机器翻译是傻子,统计的机器翻译是疯子。

刘:董老师还有一句话我印象非常深刻: “我就是个工匠”。那时候还没有工匠精神的说法。

李:@张桂平 老师,董老师说的这两件事儿 后者是 《知网》 吧 那的确是别人做不了的事 需要超凡的智慧和耐性。别人不愿做的事呢?科研一号/译星 还是 日本多语项目中方负责人?

姜:@白硕 嗯!谢谢老师的指导!  董老师在军科跟我是一个研究室的,也跟我住邻居,是“科译一号”的研发组长。九十年代我和领导战友们在军科后山散步,经常看到他和儿子一起散步。见到他时大家就一起说说笑笑,气氛融洽,甚为欢快。后来到他家请教过几次。他亲自打开电脑给我讲hownet的设计思路,还当场用他定义的“义原”对几个词做了定义和修正,而那时其实他已经重病在身了,他身体力行不屈不挠不计回报敢为天下先的工作精神真是让我敬佩,给了我很大的激励。后来又作为我的博士论文答辩小组组长,给了我很好的指导。昨天惊闻先生逝世,心肝悲痛,愿先生千古,永垂不朽!🙏🙏

李:最近几年董老师专注于 运用知网做语言深度解析和理解 尤其在中文理解方面。这与我最近几年的着力点非常吻合 所以群里和私下我也常请教 我们常有交流。大的方向和技术路线是一致的。董老师更多运用知网的知识体系和某种常识推理解析中文英文。解析结果更加靠近他构建的逻辑语义表达 解析深度更接近理解。就是说比我做系统更加细线条 虽然我做的工作比多数系统已经很细线条了。在广度和鲁棒性上 感觉董老师所做的工作 限于资源有限 还未充分展示其潜力。

把董老师介绍入群是我的主意。我知道董老师对于nlp和ai话题特别有兴趣 常见他在 linkedin 里面与人讨论相关话题 于是想到他对我们常讨论的一定会有兴趣的。于是尝试联系询问。董老师以前不怎么用微信 我就跟董强夫妇商量 他们也同意 觉得董老师如果能参与我们的 nlp 话题 是很好的事情 对于董老师身心健康也有好处 我们后辈自然也亲身受益。于是先尝试让董老师用董强的id入群观察 最后水到渠成 他就加入了。特别是白老师的语义群 很多是他的学生 同事和仰慕者 很快就融入了。过去两年 有了董老师的参与和教诲 群里的讨论更有深度。我们共同度过一段与导师直接互动的难得的时光。

【相关】

讣告 | 董振东教授逝世

语义三巨人

与董老师对话:什么是知识图谱?

《语义沙龙笔记:结构被神经编码了吗》

立委按:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。

詹:


有道翻译太牛了!

王:这也太达意了,牛!

白:“张三为李四写了这篇论文而后悔不迭。”

看点:1、论文可能是张三写的,给李四当枪手,写了以后后悔了,也可能是李四写的,idea跟张三撞车了,张三后悔自己下手慢了。2、“为……而……”属于“套路”句式,即所谓“构式”,具有强搭配特性,优先级很高。3、一般性的“VP1而VP2”中,VP1与VP2在语义上要么高度平行,要么高度对立,既不平行又不对立的填入这个结构的优先级很低。一进一出,当枪手的解读式微,论文撞车的解读看涨。如果一定要表达当枪手的意思,要么把“为”重复成两个,要么把“而”去掉。话说,两个因邻近而重叠的小词缩合为一个,在语音上也是可以成立的,在无伪歧义的场合尽管用,但在有伪歧义的场合不占优。具体到本例,也就是“为+为—>为”这个动作不占优。或者说,虚增一个与后面“而”呼应的“为”,不足以对抗另一个解读。

“刘为为为为为人民而牺牲的烈士立碑的劳动者献花。”

这个跟“一把把把把住了”有得一拼。

吕:神经网络是不善于数数的

白:

这个是枪手解读。前一个干脆不管几个“为”,意思到了,没人竞争,就他了。多出来的就当你结巴。不仅可以无中生有,还可以视而不见。

宋:三个介词连用,漂亮的嵌套:
第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。

刘:第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。Google翻译:The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests.

白:discovery不好

刘:结构都对了

白:那倒是。这个结构看起来叠床架屋,但其实不受干扰,是所谓“一本道”。discovery太正面了,单独看跟科学成果似的。放在这个语境里也对冲了负面色彩。

刘:要知道神经网络机器翻译是完全不用任何句法信息的,能正确理解这样的复杂结构,很神奇了

白:结构被编码了

白:张三因被发现考试作弊而被从向欧洲派遣的留学生名单中除名 John Doe was removed from the list of foreign students sent to Europe after he was found to have cheated on a test --来自 @彩云小译

刘:张三翻译成John Doe,很有意思了

白:留学生一定是“foreign”?接受的是,派出的不是啊。这是有坐标系的,估计数据太稀疏,这些都顾不上了。一本道的嵌套就相当于parity,难不住神经的。这个found比discovery强。

刘:如果是Phrase-based SMT,这种句子应该是翻不好的

梁:

李:越来越多复杂结构句子,在神经MT翻译中居然对了,以前以为只有深度解析才有望解决的问题,居然在端到端,没有任何显式句法支持的情况下做到了。这种“奇迹”,连在神经第一线的@刘群 老师也不时赞叹。说明这里面的机理不是很清楚,尽管笼统说来,可以说是结构在大数据训练中被合适地编码了。

姜:这是个有趣的问题。非要有显式句法支持,才能翻译复杂结构句子,是一种想当然。

李:是不是“合适”编码了,也难说。因为一方面我们看到了一些翻译对了的”神译“,另一方面我们也看到一些神经过头的乱译。目前似乎也没有办法回答这个疑问:对了的和错了的,是不是共生的。大而言之,我们知道,起码目前的神经翻译,通顺是建立在损失精准(有时候简直到了张冠李戴、指鹿为马、视而不见和无中生有的严重程度)的基础上。还好,起码对于新闻、科技和日常用语等,所损失的精准虽然可能很严重,但频度还不是太高。

梁:科学的精髓  ——  敢于犯错误

李:疑问是,如果机理不清楚,所犯的错误就难以改正。是不是糊里糊涂一本帐,还是改进的目标还算清晰?是不是可以说,结构不是真正的坎儿,标注大数据才是。MT 让我们目瞪口呆的神翻译,似乎已经部分证明了,复杂结构是可以被标注大数据“编码”的。

白:机译可不可以做得更好,我兴趣不大。我更关心各种场景化应用,机译这条路线是否走得通。按正确的结构标注大数据,意思就是,what由人工解决,how由智能解决。how又分两种,一种是歧路,一种是伪歧义。对付歧路,不需要人工。对付伪歧义,必须人工。对付歧路,强化学习、自我标注就够了。

李:NMT中的伪歧义表现在哪里呢?

白:比如上面例子的“留学生”。在不同语境下对齐的词汇不同,但向外派遣,就不该是“foreign”。

李:不仅仅是 NMT,这个一错就可能错得离谱的问题是普遍性的,图像和语音中都有这个问题。what由人工解决,how由智能解决。这种说法是想对神经与结构进行“紧耦合”。不是没人想做,但总体上迄今还是一头雾水。这两个冤家不容易往一起捏。

白:“我是县长派来的”就是歧路不是歧义。全局解唯一,暴力搜索一定能得到。但是暴力搜索的目的是做正确的标注。实时解析策略是通过标注数据训练出来的。紧耦合无所谓,因为神经的那一半压根儿就不需要人工干预。归根结底还是what不给力。

李:what 从语言结构的角度,是有共识的。起码语言学家对于一个句子的依存结构,分歧并不大。如果分解为二元关系,分歧就更小了。分歧多表现为“如何”得到这个结构,而不是这个结构是什么。尤其是 PSG,如何得到决定了树的不同。到了 DG,“如何” 的影响明显减弱。从逻辑语义角度看,what 是有共识的,有很强的确定性,大同小异的。

白:好像不见得。比如“咬死了猎人的狗”公认有歧义,“咬死了猎人的羊”有没有歧义,语言学家未必分歧就小。如果语言学家的共识是后者也有歧义,那就洗洗睡吧,NLP肯定指望不上了。

李:说共识与否,还是要有个量和频度的概念吧。

白:标注即投票?神经的强项就是拎得清此时此刻的力量对比。让语言学家投票,未必拎得清。

李:找个例,很容易忽视量和频度。就说 “咬死了猎人的羊” , 粗分一下,是三个实词(“咬死” 算一个词):咬死(A)了 猎人(B) 的 羊(C)。看看 ABC 之间发生的二元关系,哪些是共识,哪些有疑问。AB 动宾 这是一个二元关系(候选),算是共识。AC 是定语关系,也算是共识;BC 是定语关系候选,也是共识。AC 动宾候选,也算是共识。

白:等等。这里,what必须表达“候选”。如果没有这个表达能力的what,必须靠边了。这在语言学家中也不容易达成共识。

李:总之,即便是个例,如果细分下来,共识的部分还是占多数。如果与常态化语言表达法平均一下,可以说,语言结构没有多少争论的空间。

白:这个平均,在长尾面前无意义。

李:我觉得 问题的关键不在 what 不清楚,需要在 what 上再有突破。关键是,已经知道的 what,也没有有效的办法被神经利用和吸收。两年前遇到刘挺老师,谈到这个问题,问神经这条道,啥时可以利用句法或逻辑语义。他直摇头,说不好办。不是一条道上跑的车。

白:光说动宾不行,光说动宾候选也不行。如果说,句法就送你到这儿了,剩下的看造化。这当然不行。必须把所有的资源摆在那儿,让神经去选。语义的,情感的,事理的。这也是很多语言学家不具备的。可以设想,如果有一个可供神经对接和挑选的“知网”级别的基础资源,局面会大有不同。

李:唉,送上门也未必有人有兴趣 and/or 有能力去用。看吧,看今后五年。今后两年 神经还可能往上走,很多人有这个信心,所以没有兴趣是主因。今后五年,那就是能力的问题了。

白:还可以设想,如果标注人员戴上一种设备,就可以通过追踪眼动或者捕捉神经信号获得标注,语言学家真的彻底不需要了。

李:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。就是用起来殊为不易。

白:可惜董老师不待见神经,也不待见图谱。

李:知网就是本体常识图谱。不待见神经 倒是真的。知网与图谱的距离,最多是工程层面,本来可以有一个更好的实现与接口。

白:不是的。事理的层面,知网超越市面上的图谱。工具的层面,知网弱于市面上的图谱。

李:对呀。多数图谱很肤浅,没法望其项背。

白:此外还有一个适配的问题。各种可用资源参与力量对比,必须折算到统一的度量。知网没有这个度量。分析器玩的就是力量对比。神经倒是未必一定要有,但统一的度量一定要有。

正解压制伪歧义的依据,修辞用法压制一本正经的胡说八道的依据,就是包含词法、句法、语义、语用、情感、事理在内的各种力量的综合对比。首当其冲的,就是把各种力量经过折算放到同一个平台上来。把资源捂起来,只留下标记,不仅没有资源的人学不到真货,有等价资源的人也得连蒙带猜。这资源是what的应有之义。

李:把结构扁平化(譬如嵌套表层化}和原子化(譬如分解为二元关系)变为特征 对于深度学习 没有多少吸引力。如果不简化 也不知道从何入手。

白:结构的嵌入可没这么肤浅。向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧。表示就是语言学家、领域专家、知识工程师自己的事儿。另外,就数学本质来说,符号串的代数基础是幺半群,神经的代数基础是矩阵(线性变换群)。这两个群都是非交换的,深层次里有互通的基础。所以嵌入结构是正常的。

宋:@白硕 向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧 这个观点我挺有兴趣。能否详细阐述?谢谢,@白硕 我最近一个理论是大脑除了基于矩阵的目前人工神经网络用得多的系统,还有一套控制系统。所以也许能把几何和代数统一起来。

白:可用的资源、输入输出都是符号表示,中间的计算是神经表示。输入是符号序列,输出是操纵符号的动作。有些动作是有副作用的,需要记忆。操纵符号的动作改变符号,类似“重写”,但是不限于“重写”。当你输出一个dependency link时,符号之间的邻居关系改变了。

宋:Causal Reasoning from Meta-reinforcement Learning,我最近看到这篇 arxiv 上的文章比较有趣。我在想 control 这边也许可以放到一个 meta-reinforcement 的框架里面最终去解决。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义三巨人》

【立委按】惊闻董振东老师逝世,重发旧文,深切怀念一代语义宗师!董老师从未停息对nlu的研究 一直在做系统 让人折服。在很长的时期 董老师是中国nlp和mt与世界的接口。知网(HowNet)是董老师的丰碑,它像一所常识百科,深藏着人类认知形式化的金子。

好友张桂平老师也一直追随董老师,她摘录了董老师的语录金句:

1)“我们老了,但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨;

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)“规则的机器翻译是傻子,统计的机器翻译是疯子”。

Old soldiers never die, they just fade away.

《自然语言处理领域中的语义路线及其代表人物》

如所周知,统计型自然语言处理(Statistical NLP)作为主流盛行了20多年,此前盛行的是以语法分析为基础的规则系统。即便如此,为了模拟人的语言理解过程以及力求语言处理的更高质量,追求以知识系统为支持的语义路线的尝试,从来没有停止过。本篇笔记拟对此做一个简要回顾和比较,并记录自己的心得和不同意见。

就NLP的机器翻译应用而言,在相当长的时期内,统计型机器翻译由于其数据多开发快,善于在浅层模拟人工翻译(特别是成语和习惯用法的翻译)会一直是主流。即便是机器翻译的规则系统,也还是语法为主的路子比语义和知识为主的路子更加切实可行。这不排除在未来,当统计机器翻译和语法为基础的规则机器翻译的改进余地越来越小的时候,人们会重新探索知识路线以求突破。

坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。

Dr. Douglas Lenat


Prof. Charles J. Fillmore  

语义三巨人

在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这三位学者前辈是,坚持常识推理的 cyc 的 Lenat 教授,格语法(Case Grammar)和框网(FrameNet)的开创者 Fillmore 教授和《知网(HowNet)》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。

这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。

三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。

Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。

可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。

语言的分析无论多深入,都不是应用,只是(理论上)缩短了到达应用的距离。就以机器翻译的应用为例,翻译转换可以发生在浅层(极端的例子是所谓词对词翻译系统)、在关键成分不到四个(主谓宾补)和附加成分不到一打(主要的定状语子类)的句法层、在《知网》的90个逻辑语义的层面或者在 FrameNet 的成百上千的 frames 的层面。多数统计型机器翻译都是在浅层进行,通过海量双语训练集,记忆住千千万万大大小小的翻译单位(个体转换规则)。这条路子可行是因为机器擅长记忆。手工编制的翻译系统就很难在浅层进行,因为浅层转换的千变万化超出了人工编制和调控的可能。但是,翻译系统应该深入分析到哪一步实施转换比较合适,是大可讨论的。

我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层 argument structure 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行翻译转换或信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的转换或抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。 退一步回到句法为基础的 argument structure 如何呢?

Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。

HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。

从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。例如,对于宾语的细化 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。

对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是,在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。就拿机器翻译来说,同一语系之间的结构转换在逻辑主语宾语的 argument structure 的对应上有明显的一致性。即便是不同语系,这种对应也是主流,而不对应的可以作为例外,由词驱动(word-driven)的个性转换来应对。以上讨论,有很多例证,写得匆忙,暂时不例举了。

【相关】

与董老师对话:什么是知识图谱?

Notes on Bulding and Using Lexical Semantic Knowledge Bases

围脖:一个人对抗一个世界,理性主义大师Lenat 教授 ..

《泥沙龙笔记:再谈 cyc》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录



《朝华午拾:Wonder Years: 青涩少年记事》

上个世纪74-75年左右,大概是初三的时候,学校组织我们学军,长途拉练,步行100多里路,去皖南新四军旧址云岭和茂林参观。我比较弱小,那次长途跋涉,真把我坑苦了,一辈子也没有走过这么远的路程,似乎没有尽头。学生队伍前后拉了好几里路长。我一瘸一拐,一根一根电线杆数着往前挪动。终于,有同学报信说,目的地已经在望,就是前面的那座小山。于是,鼓作最后的勇气。可望山跑死马,看着就在眼前的山,还是走了一两个小时,直到天快黑了才赶到。

吃罢晚饭,学校把我们安排在一个大礼堂里面休息。一屁股坐下去,就瘫软在地,居然再也起不来了。脚也没洗,在同学帮助下,挪到临时搭起的铺子和衣睡下。第二天早上,全身没有一块筋骨不疼,勉强可以站立。

虽然很狼狈,对于拉练在外的生活还是感到新鲜兴奋。特别难忘的是参观新四军事迹展览时和女同学耳鬓厮磨的经历,连带当时的心跳、惶惑和尴尬。

我们那个年代,男女生有一条无形的界限,在校园很少交往。不过,我是学习委员,在班委会活动中还是跟女班长和女团支书有工作往来,彼此印象都不错。尽管文化课已经不是学校主业,大概是惯性,学习好的同学还是自然受到青睐。不过她们都比我大两岁,感觉是姐姐一样的形象。女班长是个假小子,面色黝黑,作风泼辣,相处很愉快,但感觉是哥们儿。团支书端庄秀气,能干老练而不失文静。我平时到城外后桥河去游泳,每次经过她家门前,总见她在门口坐着织毛衣,仪态娴雅。她见到我也总落落大方地招呼一声,可我总自我感觉灰溜溜的,不知如何回应。

拉练在外,男女生就比较亲近起来,不象在校园那样拘束,这是当年学工学农学军最让人兴奋的地方。第二天参观新四军展览,不知怎的,跟团支书混在一起,她个头比我略高,站在身后,挨得很近,耳边是她温热的气息。我们两个人拉在最后,仔细切磋揣摩那些展示的图片和实物。两人很默契,一步一步向前挪动,有意无意身子碰到一起。我心痒如蚁,强作镇定,不敢回视。

那一年我14岁。西皮居士有诗云:

野营拉练知何似?跑马望山苦嫩兵。
学军之意不惟军,立委心飞云雨情。

记于2007年二月十九日(阴历大年初二)

《朝华点滴:老队长的歌声(3/3)》

敲锣打鼓把我们迎进村的老队长跟我们走得最近。事无巨细,他都爱来管,自然充当了知青监管人的角色。我们插队的时候,正是老队长大家庭最鼎盛的时期:五个孩子,三男二女,人丁兴旺。老伴操持家务,任劳任怨,对人热情有加。大儿子山虎算我们哥们,比我略长,但长得比我还矮小一大截,似乎发育有问题,但干活并不赖,是个整劳力,担任队里的记分员。山虎小学毕业就回乡种田,作为长子,与女民兵姐姐一起,帮助父亲分担家庭重负。三个劳力,加上两个弟弟拾粪、放鸭,放学做点零工,一家人挣足了工分。这个家庭的红火兴旺,加上老队长的威信,可与家有四朵金花的光头队长一比,这两大家是村子里六七十户人家里面的显赫人家。老队长的家也是我们的家,在他家里我们感觉在自己家一样地自在。一家都是热心人,包括最小的六岁女儿,我们一来,就手舞足蹈,欢呼雀跃。家里做了好吃的,老队长就把我们叫去。大娘从不抱怨,总是笑吟吟默默在一旁伺候我们吃喝。

山虎很活跃,实诚热心,跟我们知青亲如兄弟,给了我们很多帮助。他总是随身带着他的记分簿,满本子是他的涂鸦,只有他自己能看懂的那些工分记录。我见过不少字写得差的人,我自己也一手烂字,可把汉字写到他那样难看,那样奇形怪状,不可辨认,还真不容易。我离开尤村上大学期间,我们一直保持着联系,每次读他的信都要辨认老半天才能猜八九不离十。他每封信尾总是画点图示,两只手紧握啊,或者一颗心系上一条线,朴素地表示他对我们友谊地久天长的祝愿。

老队长是村里德高望重的人物,他清瘦黝黑,尖小巴,身子骨健朗,谈笑如洪钟。他哪年当的队长,哪年让位给光头小队长,我们不很清楚。只知道老队长是退伍军人,识文断字,见多识广,是尤村的核心。我们的到来,老队长异常兴奋。他跑前跑后,张罗安排,滴水不漏。只有一件事,我感觉有些滑稽,内心有抵触,却不敢流露:老队长雷打不动,每周要组织我们政治学习和座谈一次,一学就是一夜。每当这个时候,老队长就把家里的大小孩子统统驱离,把煤油灯点得亮亮的,一点不心疼熬油。他不苟言笑,正襟危坐,特别严肃深思的样子。记得他组织学习《哥达纲领批判》,一字一板地阅读,那样子很象个教授,可从来也没见他有自己的讲解。对于马列,我只在中学迷恋过“政治经济学”,对于其他著作不是很懂。我听不明白的,他其实也不懂,毕竟他也就小学毕业的文化程度。当时我就好奇,他心里在想什么。为什么对那些深奥难懂的马列原著那么热衷,而且总摆出若有所思的样子。我当年自觉是个小毛孩,老队长是可敬有威的长者,是我们的依靠,即便心里有疑惑,也从不敢追问。这样的学习一直持续到我离开尤村。

老队长唱歌富有磁性,略带沧桑,很有魅力。记得在水田薅草的时节,暖洋洋的阳光,绿油油的禾苗,春风和煦。老队长一边薅草,一边张池有度地唱起歌来。听上去有点象船工号子,声音高高低低的,随着风,一波一波袭来,抑扬悠长,不绝如缕。那是怎样一种有声有色,和谐无间,引人遐想的农耕图景啊。

很多年过去,老队长的歌声却一直留在我的记忆中,虽然我从未搞清这首歌的来历。直到去年,女儿的 iPod 新增的一首歌,一下子把我抓住了。这歌当然不是老队长的歌,可曲调内蕴与老队长的歌神似,是它复活了我心中掩埋已久的歌。每当歌声响起,老队长的面容身影,广阔天地的清风和日,单纯悠长的田家生活和劳动的场景,就在我眼前浮现。 我问女儿这是什么曲子。女儿一副我是土老冒的惊讶,这是 Akon 啊,那首红透半边天的歌曲 don’t matter 啊。这首黑人歌曲2007年一出品,很快在电台热播,连续两周居于排行榜首。我惊喜,也感到诧异,远隔千山万水,神秘古老的中国民间小调居然与带有美国非裔色彩的黑人歌曲如此契合。甚至我在 Akon 本人身上也隐约看到黑瘦干练的老队长的身影。

请移步欣赏表演(土豆):
Akon: don't matter

youTube (需要翻墙):
https://youtu.be/JWA5hJl4Dv0

我大学毕业的时候曾回村探望,那时老队长已经离开人世,是癌症夺走了他的生命。女儿远嫁,传回的消息是女婿赌博被抓进了局子,二儿子肝炎治疗不及时丢了性命。大娘经受这种种打击,显得衰老无语。家庭再也没有了欢声笑语,只有山虎撑着这个家,快30的人了一直未娶媳妇。谈起来,他总是苦苦一笑,说不急,先把弟妹上学供出来,自己的事可以放一放。我的心沉沉的,感伤世事无常,那么鼎盛兴旺的大家先失了顶梁柱,复遭种种不幸,如今如此零落。那记忆深处的歌声在我心中也更加增添了些许沧桑的苦涩和无奈。

至于原歌,现在也忘记具体曲调了,就是那种陶醉心迷的印象还在。认准了 Akon 以后,今天就是真的那个曲子再现,我不敢肯定我是否还能识出来。 就 Akon 吧。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《插队的日子(2/3):与女民兵一道成长的日子》

往事如烟:前天寻访旧地,遇到了插队时的那位女民兵,《朝花》里面写过的姐妹花中的二妹,如今也是子孙绕膝了。

现在才梳理清关系,原来老队长和新队长是村子里联姻的两大旺族。敲锣打鼓欢迎我们三位知青入乡的老队长一共兄妹仨,妹妹是赤脚医生,就是我们的东家,当年也对我们很照顾。老队长的弟弟娶了新队长的二妹(比我岁数大,我应该叫二姐)。照片就是他们的全家福。老队长和他姐弟三家都在这个池塘边不远。池塘边还有分给我们知青的菜地。

二姐现在的家

重返旧地巧遇二姐。二姐说,维当年就是学问人,会英语,老在家听英语广播。那是我把家里的晶体管收音机,带到乡下,为了听安徽台和江苏台的英语广播讲座。文革年代不知道哪位领导批准的 很多省开办了电台的英语讲座 是当年难得的外语学习机会了。二姐告诉我,三妹小妹如今日子都还不错。三妹不远,就在镇上。小妹在外地做工。

原立委按:朋友说想写点回忆,可是老是瞎忙,就明日复明日地推下去。我的回答是: 不要等。老了有空闲,但不见得就写得出来。我插队一年,那些往事就已经连不成片,感觉将去未去,恍如隔世,想写写不出来,很别扭。分享是人生的一个重要部分。插队的日子,只留下零星的记忆碎片如下:

《朝华午拾: 与女民兵一道成长的日子》

我1976年高中毕业下放到皖南山区烟墩镇旁的尤村。不久赶上了“双抢”(抢收早稻,抢种晚稻),真地把人往死里累。双抢是一年挣工分的好季节,给双份工分,有时甚至给三倍,连续20多天,天不亮起床,到半夜才回,再壮的汉子都要累趴下才能休息半天。人民公社给双倍工分这种变相的资产阶级的“物质刺激”很厉害,不管多累,人都不敢懈怠,你怕累少上工,工就给别人赚去了,到年底分红,你分的稻谷、红薯和香油也相应减少了。其实,羊毛出在羊身上,每年生产队的收成是一个定数,工分多给少给不过是一种财富再分配的方式而已。如果单纯依靠农民的社会主义干劲,双抢跟平时同等工分数,工分总量下来了,单位工分的价格提高了,就没有物质刺激出来的积极性了。谁说经济学在一大二公的人民公社没有用处?

生产队照顾城里娃,工分给高些。于是给我们三个知青各开七分半工,相当于一个妇女全劳力的工分,包括早饭前上早工两个小时,否则只有六分半。那年十分工值RMB0.65元。我在妇女堆里干了半年多,年底分红,赚回了所有的口粮,外带半床红薯和四五斤香油。

妇女全劳力多是年轻的姑娘或媳妇,个个都是干农活的好手。尤村的十几位风华正茂姑娘组成了一个“女民兵班”,不甘寂寞,活动有声有色,曾名噪一时。不过到我去的时候,已经式微,因为其中的骨干大都到了嫁人的年纪,近亲远媒各处张罗,集体活动不能继续。尽管如此,跟女民兵在广阔天地一道成长,在当时是充满了革命浪漫主义的色彩的,让人沉迷和兴奋。干农活的辛苦也去了大半。

我们村村长人很精明,但脾气暴躁,又是光头,让我既怕又厌。倒是他家四个姐妹一个个如花似玉,大妹妹记不得见过,应该是外嫁了。二妹三妹都是女民兵班的主力,小妹妹刚十四五岁,皮肤白嫩,见人脸红,在社办一个作坊里做工。二妹(我叫二姐)刚嫁给本村老队长的弟弟,一个高个帅气的小伙子,感觉有些愣头青的样子。自由恋爱的,算是姑娘们中最幸运的了。刚去不久,这位二姐被照顾在场上打谷,没有下水田。我跟她一起干活,场上就两个人,总是她照顾我。从那时就落下了心猿意马的毛病,直到有一天发现她肚子越来越大,才意识到她跟其他民兵姑娘不同,原来是媳妇级的了。

2019年三月23日巧遇二姐和姐夫

后来跟三妹及一帮姑娘媳妇一道,在田里薅草(就是用耙子在水田里把杂草掀翻,不让杂草长出来),三妹总是侵犯我的领地,把她的耙子探过来帮我。没有她帮忙,我大概一半的速度也赶不上。我老指责她,“不许侵犯”,她总笑而不答,我行我素。三妹模样很好,稍微有些胖,很壮实,象个铁姑娘,但善解人意,脾气性情好得赛过薛宝钗,是我最心仪的。当时媒婆正在给她提亲,我离开村子不久,她就嫁了,听到消息后心里很不是滋味。

这些农家女在我看来都是仙女。从小在那样的艰苦环境中,却一个个风华正茂,英姿飒爽,而且不失农家女的善良朴实和冰雪聪明。我觉得当地没人配得上她们,她们自己也企图跟命运和媒人抗争,不过最后都一个个嫁走了,消没在人海中。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华点滴:插队的日子(1/3)》

《朝华午拾:插队的日子(一)》

Date: June 25, 2009 08:39AM

我是文革后最后一批插队的,算是赶上了末班车。当时岁数不够,按照政策可以留城,可是当年的情形是,留城待业常常是永久失业,不象插队,几年之后,还有上调招工或者升学(工农兵学员)的前途。另外就是,由于时代风尚的影响,留城的好像比下乡的矮人一截似的。我有一位同班好友,独子,留城以后,见面说话就没有我们下乡知青那样器宇轩昂。 

插队的故事对我是太久远了,恍如隔世。这也是我一直想写,却感觉心有余而力不足的原因。虽然如此,插队的片断却不时在心中翻腾。虽然连不成篇,这些记忆残片却是刻印在脑海最深处的。 

我插队的地方是比较偏远的皖南山区,叫尤村,就在镇子旁边。当时一起下到这个村子去的一共三位,陈兄是中医世家,人很老成憨实,带来了大半箱子医书。曾兄是退伍军人的子弟,有点吊儿郎当玩世不恭的样子。我随身携带的是薄冰《简明英语语法》和一台晶体管中波收音机,希望还能继续电台《广播英语》的学习。我们三人从镇上一下车,就被尤村的老书记带领一伙人敲锣打鼓迎到了村里,暂时安置在一位公社赤脚医生的家里,住了两个月。后来村子利用国家发给我们三人的安家费,盖了三大间仓库一样透风凉的屋子,我们才算独立安家落户。 

第一个月是吃大户。每天各家各户轮流吃。农民大多朴实好客,我们吃饭的那天,东家往往要比平时多预备一些菜肴。可是,各家家境不同,伙食还是参差不齐,有些确实难以下咽,但又怕人笑话知青娇气,只好硬着头皮吃。最糟糕的不是伙食的质量,而是卫生状况。有一天天擦黑,推门去晚餐,手上黏黏糊糊摸了一手,回来后我们几个一合计,发现不是鼻涕就是浓痰的残迹,都恶心得要吐。 

2019年三月23重返尤村,小池塘还在

后来决定哥仨自己开伙,分工合作。还记得清晨起来到河塘担水,身子骨瘦小的我与水桶不成比例,在早春的冷风中瑟瑟发抖。不过,自己开伙还是受用多了,每天干活就满心盼望早早收工去享用自己的晚餐。最常做最美味的菜肴是咸肉炖黄豆。咸肉是父母捎来改善伙食的,每次割一小块肥肉,慢火烧化,那泛着油光的软黄豆实在太诱人了。黄豆和木炭都是队里照顾知青配给的,弄个小瓦罐盛上黄豆、肥肉和水,上工前置于炭火上,收工回来就四香飘溢。 

这样的美味当然不能长久。于是自己种菜。我们图省事,挑最容易的菜,种了两大片黄瓜。黄瓜这玩意儿,一旦结起来,就不得了,瓜满为患。怎么摘怎么吃也赛不过它生长的速度。平时没事就摘了生吃,到了晚上再做黄瓜汤,或者炒黄瓜,直吃得想吐。这个后遗症不小。很久很久,我都把黄瓜当作最贱的菜,偶然生吃一点可以,从来不拿它当菜。可是斗转星移,不知流浪海外的何年何月,黄瓜忽然金贵起来。太太和女儿都爱吃。暖房子里面出来的英国黄瓜,每根两三块美元,一样成为我们家的必备。有时伙食中蔬菜量不够,怕孩子营养不平衡,就洗根黄瓜给她,她总是美滋滋地啃它,从不厌烦。 

黄瓜确实不好做菜,要是赶上了鸡蛋,炒菜也好,做汤也好,都不错。单做就不成菜,不下饭。鸡蛋是非常珍贵的,我们不养鸡自然没有鸡蛋,也舍不得买。后来还是村子里有人从我们知青这里借钱急用,可又没有钱还,就从鸡屁股下抠出一些鸡蛋来偿还我们,我们才有了些口福。有一天光头队长来巡视,看见我们的黄瓜地,就狠狠剋了我们一顿。说,你们这帮懒虫,谁让你们种黄瓜来着,一点正经菜也不种,你吃个屁。他所谓正经菜,是指辣椒茄子一类,那样的菜只要有点菜籽油,不用鸡蛋不用肉,就可以做得让人垂涎欲滴。可是拾叨起来不容易,除了浇水,还要施肥,最好是粪兑水浇了才好长。

黄瓜吃腻了,后来没的好吃,改吃炒山芋(北方叫红薯)。这一招说来还是村里那个放牛娃教给我的。这个放牛娃很机灵,自从我们知青来了,就总找机会来套瓷。是他告诉我,山芋也一样可以做菜,就跟炒土豆丝一样做法。山芋是口粮,我们不缺,于是我们尝试切丝红炒,添上油盐,做出来比黄瓜好吃下饭多了。不过,有一条与土豆丝不同,炒菜的火候一定要适可而止,否则烂成糊就不好吃了。 

从放牛娃那里学会了骑牛。别看老牛笨乎乎的,走起路来却非常稳妥实在,一步一个脚印。起初我看田埂头的羊肠小道,老觉得那老牛一不小心就会折到沟渠或水田里,其实老牛从不出差错。放牛娃吆喝一声,那老牛就乖乖地倾前身,低下犄角,我在牛娃的帮助和鼓励下,蹬着牛角,翻身上了牛背,开始胆战心惊的骑牛前行。骑牛的最大感受是不舒服,那老牛的脊背咯咯吱吱的,感觉不到皮肉,满屁股都是骨头,根本不象我以前想像中的牧童骑牛之乐。 

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白109:深度学习的猪与符号逻辑的坎儿》

李:刘群老师转了一篇好文:The Bitter Lesson ,机器之心翻译过来了,《AI先驱Rich Sutton:利用算力才是王道,人工智能一直在走弯路

是以历史事实对符号AI和规则NLU的批判。人的方式就是符号逻辑:这样比较舒服,容易理解。但是面对依赖蛮力(算力)的海量搜索和海量学习,符号逻辑显得单薄。无论多么 bitter,历史事实(speech,vision,MT)很难回避,不得不承认。剩下的问题集中在:

1. 可解释性/可定点纠错性

这是不是蛮力/算力的死结?符号逻辑不存在这个问题,by definition,它就是人可解释的。但实际上,可解释性只是一个表象,因为稍微复杂一点的任务,符号逻辑的模型和算法理论上虽然可解释,但实际上也不是容易说清楚的。

白:过程的可解释性和表示的可解释性是两个不同的issue,没有人苛求过程的可解释性。但是表示的可解释性不同。明明有合理的显性表示,非要把它“嵌入”,这就说不过去了。

李:那是。另外一点就是,可解释性背后的东西似乎更重要,那就是定点纠错的能力。因为是符号逻辑,甭管路径多复杂,专家真想 debug 的话,就可以追下去。学习的模型就很难。可解释性/可定点纠错性,这是符号派还可以拿得出手的一张王牌。第二张王牌就是:

2. 不依赖海量标注

这第二张王牌,也越来越让人“担心”了。倒不是担心无监督学习,或者迁移学习会突然有革命性突破。而是实际上看到的是一种渐进的改变。

第一个改变是所谓预训练的进展。的确从方法论上 把通用的模型与应用的需求做了分工,使得对于后者的标注要求理论上是减轻了:这还是正在进行的过程。但预计不会太久,不同的效果就会显现得更有说服力。方向上,很看好预训练的作用,现在只是一个开始,但已经很让人兴奋/担心了。

第二个改变是,很多标注数据可以半自动收集,通过各种方法,各种 tricks,加上时间积累效应,再加上调动用户积极性的“引诱式”标注的反馈,等等。大规模标注数据的人力要求 并不总是想象的那样无边无际和困难。

白:问题是:什么标注?标注体系的科学性,决定它的天花板。标注含不含复杂结构?如果含,又能自动标注,那还训练个啥,就是解析了。如果不含,怎么保证能“命中”目标语言?命中场景,而不是命中“端到端”游戏?

李:“复杂结构”和体系天花板,这些深层符号逻辑的东西,当然也可以是王牌。靠蛮力/算力的端到端学习可能难以应对。但是深层逻辑的东西,感觉上,在 real world 的任务中,占比不大。可以拿来说事,实际限制往往不大。

最近遇到一个同好,聊起来,朋友对我的符号悲观主义很不理解。说做了一辈子的符号了,“李老师”怎么自己跟自己过不去呢,灭自己威风,长他人志气。

这要看年龄段了,到了这个岁数了,威风志气都是小事,不值一提,主要还是看解决问题的能力和潜力。对于上面几张“王牌”或挡箭牌,估计还要两三年的时间可以化解,或见分晓。到那个时候,可以比较确定地看到符号路线的合理定位。到底有多大价值,如何相处和自处。相信不会“蒸发”,但定位成秘书或打杂的可能性,感觉不是完全不可能的事儿。

白:包含/容纳结构,是NLP不同于普通视觉任务的根本特质。深度学习的猪飞不了多久了。

李:“包含/容纳结构,是NLP不同于普通视觉任务的根本特质”,这话自然不错,可是MT是NLP呀,没有结构,NMT 达到的成就,不得不信服。唯一的退路就是,MT 太独特了,端到端的数据是几乎无限的。这自然是 NMT 奇迹发生的根本原因,但逻辑上这个奇迹反驳和弱化了 没有显性结构,学习难以完成NLP任务 的立论。当然,我们总可以找到 NMT 里面的痛点和笑话,来反证其缺乏结构的短板。可事实是,这些痛点和笑话确实没有什么统计意义,对于任务完成的整体效果,其实影响没那么大。对于传统的文法翻译派,NMT 是一个真正的苦果,又是一个不可逾越的标杆。

白:MT的成功是不可复制的。而且MT不是场景化的。这意味着它只能是陪衬。在核心应用的智能化方面起的作用很边缘,算不上什么苦果。

李:做过RMT很多年的人体会有所不同。苦果是说,曾经相信只要自己努力,RMT就可以创造奇迹,直到有一天发现,这是一个无法匹敌的力量对比。所谓“臣服”,大概就是这样。

白:我们提倡黑白双煞,提倡端到端和场景化并举。端到端不适合做产品,也不适合做整体解决方案。2B尤其如此。场景必须是黑白相得益彰,甚至是白远远大于黑。黑盒子做场景先天劣势。

李:场景化怎么说法?我以前的说法就是 NLU 支持 domain porting,NLU 做得功夫越足,domain 落地这边就越轻省,场景化效率越高。

白:我认为,在过程、控制这些地方,神经大用特用都没有关系,在表示则不然。

做场景化的,千万别被MT带歪了。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“让不让我们上学的人见鬼去吧!”》

白:“他们还把不把领导放在眼里了?”

“把不把”,必选格介词加“不”构成疑问句。

N+ X++ N+,先由“不X++”与“把N+”结合,再由两个N+合并,其中后一个N+携带构式标签,符合白名单要求,进入合并merge操作。介词“在”,引导状语时是“S+/N”,引导补语时是“+S/N”。

李:他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了 ??

应该是等价的。说明选择疑问句,可以从动词的重叠式,转为副动词(介词、助动词)的重叠式: X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 -- 开车去不去南京 -- 开不开车去南京” : 貌似有细微差别。

“被他揍了 -- 被他揍没揍 -- 被没被他揍”??

介词重叠识别以后,就成为一个介词了,后面该怎么走怎么走。唯一需要注意的是,介词重叠得出的“选择疑问句 or-Question” 应该从介词身上,传递到谓语身上。这样就保证了 谓词重叠与介词重叠的解析,是一致的。

还有的助动词 “是不是”:我们去不去?== 我们是不是去?

“有没有” 也是助动词:他们去了没去?== 他们有没有去?

白:“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解,但独立副词不行:狠不狠抓,严不严打,难不难为情;*马上不马上动手,*狠狠不狠狠打击,*太不太硬……

对副词的选择问句,要在副词前面加“是不是”。

李:“是不是不方便”

* 不不不方便

梁:要不要马上动手?

李:是不是要马上动手?

马不马上动手?

梁:没这么说的。

李:听得懂呀,不留神这么冒出来 也是可能的。中文重叠式有时候真绝。

白:*立不立刻转账

李:“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ......

完成:有没有立刻转账;现在:是不是立刻转账;未完成:要不要立刻转账。

白:“让不让我们上学的人见鬼去吧!”

李:这个句子很绝,很绝。能注意到或想出这样例句的人很神 很神。句子“鬼” 啊。

让不让 (重叠式)vs 让/不让 (非重叠式)。试比较:

“叫不让我们上学的人见鬼去吧!”
“让不让我们上学,我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧!“

不好整:重叠式处理离词法较近,远远早于 VP 的句法阶段,二者纠缠的时候,除非特地做休眠唤醒,很难协调好。真要做,唤醒的思路是:让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句(imperative)语气不兼容。这是个唤醒的 trigger:不能够一边说 让还是不让 一个event 发生,一边又说这个 event 是祈使的。要祈使,就是定下了 event 的走向;要选择,就是没有定下这个 event。譬如:

“你给我滚!”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse,哈哈哈 果然中招:

这个解析“几乎”无可挑剔,until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ,这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气,无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒,可以搞定,但是显然不值得了。词驱动的休眠唤醒是定点解决问题,只要能落实到词,总是可以实现,虽然琐碎,实现起来其实不难,问题出在:1. 真地不值得:都是些长尾中的长尾,做了与不做,系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提,就是对于需要唤醒的另一条路径解读,需要有预见。

其实没人真地去做那么多“预见”,所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来,这个技术虽然机制上平台上可以实现,但没有有效的保证可以全面铺开,防患于未然。换句话说,对于小概率的长尾错误,值得做的方法应该可以 scale up,这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打,见到了才能想到去实现,这虽然比束手无策要强,但实践中也还是不能有真正的效果。词驱动就是零敲碎打,专家编码词驱动比愚公移山还要愚。

学习搞不定,专家又不够愚。难!愚公累了,不愿移山,能等得到上帝吗?

可scale up 的长尾处理案例也有, 譬如 成语泛化(所谓 “1234应犹在,只是56改”),大多可以自动半自动批量进行。得益于成语的 ngram 特性,可以让成语词典自动增加变元 实现泛化 而且不用担心损失精准。

其实,没有比愚公更渴望自动化的 ---- 如果自动化能搞定的话。那天与@毛德操 说,我对于完全自动化存有1%的念想,奇迹很难发生,但是毕竟见证过奇迹的发生,譬如NMT。

白:前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看,“给不给”中招不?

“他给不给自己理发的问题还没有答案。”

无论如何,局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转,关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”,不用等到撞上南墙,只要先前的构式带上坛坛罐罐,速度立马下来。局部次优解没有睡死,还在梦游,梦游速度可以反超。

“打死人要偿命,打死人就不必偿命了。”
“打死了的人无法再说话,打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了,相谐知多少?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白108:“他就是要裁你的人”》

李:看一下结构歧义的例3 “他就是要裁你的人”,如果你是个兵 手下无人,这句对你就没有歧义。如果你是经理 麻烦了。

你说:裁我的人 痴心妄想!
我说:拜托 他才不要裁你的手下呢,他是要炒你的鱿鱼!

你说会不会很糟心?

  1. 他就是要裁你
  2. 他要裁你的人
  3. 他就是要裁你的人

白:“你的人”局部优先于“裁你”,这没有错。

李:本来是靠相谐度 力量对比,可是 “你” 和 “人” 都是 human。遇到双关式歧义,傻了。小概率事件发生了。

有意思的是,解析器做了一个候选定语M2,貌似为另一路的解读留有一些端倪:“你的人(your men)”。O 与 M2 不兼容(XOR),虽然借的是AND的表示,这是另一个相关话题了,叫做“如何用确定性数据流表示非确定性结果和歧义”,找时间再论。

上述歧义是不难识别的。中文的【V N1 的 N2】,与英文 PP attachment 句式【V NP PP】有一比,都是结构歧义的典型句式。为什么常常不愿意花力气去做结构歧义的识别工作?

与计算机语言不同,自然语言的特点就是有歧义,NLU的任务就是消歧。彻底消歧不容易,因为需要调动很多知识,不仅仅是语言学知识,还包括常识、领域知识和场景知识,这些知识的作用力不同,最后人是怎么综合各种力量对比做出理解的,是一个不好拿捏的过程。形式化建模有挑战。

然而,与词汇歧义的琐碎不同,结构歧义句式清晰,有迹可循,从理论上是可以识别的。识别歧义不需要世界知识,语言学内部的知识就足够了。结构歧义不是难在识别,而是难在识别了以后如何利用各种知识去进一步过滤消歧(剪枝)。

所以有人建议 nondeterministic parsing,把歧义都识别暴露出来,把球踢给接盘的人。这里面的argument就是,识别问题是解决问题的第一步,总比糊里糊涂好。但是实际上,虽然这是一个可以做的事儿,我们却选择不做非确定性输出。只要算一下账就明白为什么不做是更好的对策。

假如一个结构有两个解读,非确定性输出两个路径(解读),在难以确保后面模块有相当把握和精度消歧的情况下,其实不如从一开始就规定系统只能输出确定性路径,宁愿冒过早剪枝的险。(如果后面的落地方向是支持结构检索,俗称SVO搜索,那又另当别论,因为搜索讲求的是召回,非确定性比确定性的支持更有利。)

人对于二叉歧义(a|b)的理解,不外是三种情况:1. a;2.b;3. a|b:其中,3 是不可解的歧义,即便调动现有的知识,歧义还是存在(如 双关语),是小概率事件,可以忽略。剩下的1和2不是均匀分布的,常见的情况是一种可能比另一种可能要大很多。

这时候,确定性系统在数据驱动的系统开发环境中,就会自然偏向于输出可能性大的路径。数据打磨越久,这种趋向越稳定。如果是不确定性的设计原则指导,就会不断追求召回,干扰了对于最大可能路径的目标追求。一般来说,最终结果自然是不合算的。换句话说,在实践中,不是不可以做到很好的召回和识别出(几乎)所有的歧义,但这个工作肯定会干扰集中精力逼近正确的目标。

自说自话半天,其实是自己给自己的“懒惰”寻找背后的动机,今天算是悟出来的。的确事出有因。很久了,一直觉得应该做也有能力做的这件识别所有歧义的事儿,一直没下决心去做。果然不仅仅是懒惰。既然如此,就有理由继续懒惰下去,好把精力放到更合算和有价值的地方去。

白:合算不合算的思维,不是极客思维。极客没有挡箭牌。

李:一般都是天然地批判 “(过早)剪枝”和确定性数据流,终于找到了这个做法的 “说得过去” 的理由和实际好处。当然前提是把开发看成是一个漫长的数据驱动的打磨迭代过程,今天的看似确定性输出的错误,到明天就纠正了,虽然同样是确定性输出。不确定性是假设在不必迭代的情况下,为后期应用保全潜力。迭代思维把这个后期消歧的假设转换成迭代过程中的前期消歧(譬如一条粗线条规则引起的歧义,在迭代中变成了粗细两组规则,消歧了也就没有非确定性了)。极客不极客,不重要。

白:很多技术可以让剪枝成为伪问题。合理的歧义也许就是前后脚的关系,伪歧义也并非始终寸步难行。允许依序择优梦游,天塌不下来。例如,坛坛罐罐走不齐——各种局部解析非等速前进,就可以把剪枝问题化解于无形。你永远无需做是否剪枝的判断。只要“长芽”被无限期推迟,事实上就相当于剪枝。但是无限期推迟只是一个后果,并不是一个决策。

李:在缺乏厚度或深度 没有足够施展空间的情形下的问题。换了架构 就可以化为伪问题。原来的痛点 逐渐消解了。

白:截流的点可以设置。出一个解析和出N个解析,就是截流阈值的选择而已。所有有语言学意义的判断,都融合在优先级机制里了。截流阈值的选择与语言学无关。

“他就是想利用你,并且在利用完了就杀掉你的敌人。”

“就是”可以带体词性表语,也可以带谓词性表语,造成歧义。“利用”、“敌人”是负面sentiment,“杀掉”可反转sentiment。如果带谓词性表语,从“利用”得知“他”为正面,从“杀掉+敌人”得知“他”为负面。拧巴了。如果带体词性表语,“利用”和“敌人”相谐,“你”和“杀掉”、“敌人”不两立,于是“杀掉”和“敌人”也相谐。这个才是正解。

李:我经常纳闷。白老师冒出来的那些例句是怎么回事。肯定是平时有心,对数据超级敏感,这是数据驱动的角度看例句的收集。数据驱动的有心,本质还是被动的。另一个角度应该是主动的方向性收集+发挥?就是在多种因素中,有意识瞄准冲突最戏剧化的案例。譬如 句法与常识的冲突,惯性与转向/刹车的冲突。

白:嗯,似乎有一种直觉,能筛选出哪条语料对于我来说是不寻常的。

李:中文的【V N1 的 N2】,主要看 V+N1 动宾相谐度与 V+N2 动宾相谐度的力量对比:

“卖火柴的小女孩”
“卖小女孩的火柴”

卖的是东西,不是人。

白:超相谐的填坑>修饰>相谐的填坑>不相谐的修饰>不相谐的填坑

李:这里面貌似有距离因素,修饰距离近 动宾距离远,所以 同等相偕 修饰大于动宾。

白:【笑而不语】

三个境界:1、能单独处理“就是S+(重读)”;2、能单独处理“就是S/2N(轻读)”,其中修饰>填坑;3、能综合处理“就是S+||S/2N”。3又分:“正解+伪歧义”和“真歧义”。境界2中,一度占先的解读推进到某处卡住了,另一个解读后来居上。

“这是卖女孩的小火柴,不卖男孩。”

“卖”的间接宾语坑也来凑热闹了。只要相谐性并无禁止,就可以激活。

李:昨天我想的反例是:“这是卖小女孩的人贩子”。

白:无所谓反例,就是前后脚的事儿。不使用常识(事理),就是歧义。谁比谁先一步都是可能的。这种优先级上的误差,是在容忍范围内的。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“你家的地得扫了”》

parse parse,用 PSG:“你家的地得扫了”

再 parse parse,用 DG:“打倒罪有应得的地主”

李:都是中规中矩的句子,没有难点。

白:分好词再玩这个游戏就看不出热闹了。要看就看怎么分词,分错了怎么找补回来。的地得,都有其他词性标注。在哪里、依据什么原则排除的。

李:不是特地分好词,词典分词的本来面目就是如此啊。不查词典,如何解析呢。到了的地得这种极高频小词,主要靠的也不是词性标注了,就是直接量。用法各个不同,量体裁衣。

李:“一句话用的地得太简单了,毫无挑战”。热闹来了,还真是挑战呢:

“的地得”三元组进词典,当然可以。刚才拼音输入 dedide,还真就出来了“的地得”,可见这个三元组入词典也算是理所当然的。咱们词典不够大而已。

“那就不好玩了”。可如果坚持不走词典化道路,还有啥好招吗?

“做大事不必考虑一城一地的得与失”。

这里的难点不在的地得,是条件紧缩句(NX)费点琢磨: if 做大事 then 不必考虑一城一地的得与失

(if) (you) VP1 (NX:then) (you) VP2

零形式,条件太不清晰。嗯,有点难,有点难。


@王伟DL: 三兄弟若是独立为词的话,可靠句法来分拨;三兄弟若是其中几个掛了某个强力词的一角的话,不太好办,保不准有把高强度词扯开的情况。

白:
白硕SH
3月3日 22:12 独立成词的“地”和“得”都不好伺候。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义沙龙:“让机器学习思考的人”》

白:“让机器学习思考的人”

wang:1.让 机器 学习 (思考的人) 2.(让 机器 学习 思考)的 人 3. (让 机器学习 思考)的人

李:你的2是hidden ambiguity,里面其实还有两条hidden路径,“学习”的对象或目标是“思考”,还有一条,“学习-思考” 并列,逻辑上是,“让机器-学习、让机器-思考”。但面对专业术语“机器学习”的紧密性和高频度,那些 hidden ambiguity paths 都被掩埋了 ...... 也应该掩埋,除非遇到必须唤醒的时候。

parse parse 看:

这个 therefore 可能是个 bug,语义模块做因果关系过头了,走火入魔了?深度解析其他该有的关系都在 though。

wait a minute,好像也对,说的是,因为 X 促成了 event,X 是因,event 是果。这就是语义模块本来的因果关系逻辑,落在这句就是,thanks to “人”, (therefore)ML thinks now。这符合 “有多少人工 有多少智能,人是一切机器学习的原始发动机” 的因果本质。乍一看有点绕,是因为赶巧这一句不是一个 statement,而是一个定语从句修饰的NP。其结果,这个因果关系虽然不错,但实际上是隐含的因果(hidden causal links)。如果是一个NE,更加容易理解一些“”让机器学习思考的图灵大师“。因为图灵, 所以机器思考。我思故我在,图灵在故机器思。

白:“坛坛罐罐走不齐”正好可以借这个例子现身说法。当“机器学习”和“机器/学习”同时进入parser的视野时, 下一步优先级最高的动作却不长在“机器学习”和任何其他成分之间,而是长在“学习”和“思考”之间。换句话说,非最佳分词方案在这个局部激活了最佳句法方案,梦游了。

“学习S/NX”和“思考S/N”之间,有三种结合途径:一是填坑,二是合并,三是不作为。各自优先级不同。在外部,“让-机器”、“机器-学习”、“思考-的”、“的-人”也同时参与竞争。最后结果是“学习-思考”合并最优先。就是“并列结构”那一个解读。

“学习”和“思考”能不能组成并列结构,这个事情是有不同做法的,可以白名单制,也可以黑名单制。个人主张白名单制。但是无论黑白名单,我都不主张做成同一层内部的细化规则,而主张把细化规则折合成优先级的调整量(增量或减量),统一纳入一个优先机制处理。也就是说,当条件不满足或不那么满足时,你不应该再赖在原来的优先层级不走,你落草的凤凰就是可能不如鸡,不是高高在鸡上面的“亚凤凰”,而是货真价实的“不如鸡”。

但是如果外部没有“鸡”竞争,落草的凤凰也还有机会折桂。就像colorless ideas,虽然被相谐性打了折扣,依然是四顾茫茫无对手。这个时候,机会还是它的。所谓的“句法自治”和“语义的反作用”在这种“坛坛罐罐走不齐”的策略下完美地统一了起来。不是“亚凤凰”跟“真凤凰”比,而是“亚凤凰”跟“🐔”比。鸡厉害,鸡就先走一步,坛坛罐罐于是就走不齐了,体现了包容不确定性的差异化前进。不同的解读不等速推进,可能一本道,也可能此起彼伏,明争暗斗,柳暗花明。

梁:@白硕   赞同!或许不同解读(歧义)在彼此争斗,此消彼长,最后一种解读胜出(消歧)。

李:多种因素综合决定消歧的理解过程,模型的时候 主要有这么几个对策。得出不确定性中间结果 就是带着瓶瓶罐罐往下跑。希望在下跑的某些阶段 条件成熟 可以帮助消歧。这里面又分白老师所谓“走不齐” ,就是说不需要把不确定性结果积聚到最后的消歧模块统一消歧。而是一边下行 一边伺机消歧 使得雪球不是越滚越大。

其实HPSG这类合一文法 就是这么做的,短语结构的任何结合 都是在对自然语言建模的数据结构里面“合一”。一旦任何一点合一失败 那条路就堵死了。句法的约束 语义的约束 还有种种其他的 constraints 全部定义在一个为语言符号建模的名字叫做 sign 的复杂特征结果里面,在同一个平面 同时起约束作用。这与传统句法先建立句法结构关系 然后留到语义模块去过滤减枝的瓶瓶罐罐一路带下去的做法显然不同。但实践证明 合一文法的做法 并未解决伪歧义泛滥成灾的问题 实际上还加剧了这个 PSG 学派所共有的历史难题。原因出在复杂特征结构的设计上。以前论过。

除了完全的非确定性和“走不齐”外,第三种办法就是所谓休眠唤醒。这是确定性路线。原则上不带瓶瓶罐罐跑 坚持确定性的中间结果表示。起码是看上去是确定性结果的数据结构,等待后期唤醒、改正。(这个里面还有很多技巧,譬如可以违背逻辑 利用确定性数据流承载非确定性结果 然后配备一些逻辑清理tricks 来为非逻辑性擦屁股 不好看 但很管用 以后可以细论。)

白:基于合一的消岐,错不在what,而在how,不在带着坛坛罐罐跑,而在“剪枝”。谁说带着坛坛罐罐跑就一定要“剪枝”?难道不可以“生芽”?

李:what?PSG呀,特征结构怎么定义 也还是 PSG,大的框框在那儿,复杂特征结构的做法加重了病情。

白:“生芽”的意思是,过河不拆桥,但也无需一下子搭建所有可能的桥。不达到当前最高优先级的渡口,绝不搭桥,但渡口的优先级是随着建起来的桥而动态变化的。这些达到当前最高优先级的渡口,就是“芽”。

渡口和渡口之间不是绝对互斥、你死我活的。一切按照优先级的指挥棒走,优先级要你保留歧义,你就保留;优先级要你梦游,你就梦游。没有谁绝对醒着,大家都有权睡觉,也都有权梦游。但是必须按优先级排队。

李:动态变化决定优先级和成熟度 对于多层系统是自然而然的事儿。第10层不愿意勉强的事儿 到20层的时候就很坦然了。同样一个句型规则 可以化成宽窄不同的变体 部署在多层。以前做模块是根据功能做,说是这是 NP,这是 PP,这是VP,这是 Clause。这样表面上清晰,实际上应对不同歧义及其出现的不同情势的能力,降低了。没有多少真正的理据必须把同一种功能放在一起做。这样做的问题是,如果遇到相互依赖的现象,就真没辙了。根据功能做模块,模块排队,这样的pipeline无法应对相互依赖。这是多层经常遭遇的经典批判。无解,还是回到单层吧。

但是,如果同一个功能,可以散开来,譬如VP中的动宾关系,做它一二十层,相互依赖的现象就逐渐消解了。大不了就是冗余。没有冗余,怎么能滴水不漏?

wang:顺便一提,@wei 我对你的海量规则对系统的comment,回复一下写得有点多,发微博上了。

李:很好,拷贝留存如下

昨晚在一个群里就李老师说的内容提了一些问题,今天看到李老师详细回复,本想简单写写再发回群里,写完一看,这篇幅好像不适合放微信群里了,不如单发微博作为回复。李老师若觉不妥,告知我则立删。

@wei 中午看到李老师的后续回应, 现在正好有空这里回复一下。

看了李老师的后续内容,很是详细,而且前前后后已经考虑到很多方面,说明早有备货。大体勾勒一下:虽规则总量数万条,但通过分层(分组),就可以每组千条左右,规则之间的博弈也就在一个组内范围,即便组内的内斗激烈也不会引发组外的群组混战,这的确是“局部战役隔离解决”的最经济策略。另外,既然已经见识了规则系统的越大越不好对付的教训,想必肯定是避开了这个陷阱。一个组内至少再采用了共性+个性的两种及以上分支处理,先个性(词典)规则先前拦截,然后再共性来兜底,这样以来,一个组内可能内斗的程度又减轻不少,从走向来看,基本上是走大词典+小语法的组合路线,词典虽大但有索引方式来保速。如此以来,就把庞大的规则库,通过条块分割,把规则有序执行限制在了一个狭小的隔离河内,维护者在这样一个窄河里“捉鱼”确实容易得多。当然还有若干辅助策略,通过控局堵漏来进行加固。当然也看到“我是县长派来的”和“我是县长蹲点来的”有了不同的解析。这肯定不是一个简单“V”解决的,想必一定是词典策略起了作用。这词当然有丰富的语义信息了,我认为采用合适的语义范畴比词会有更好的覆盖性,尽管采用词准确性更高。

下面说下感受,必须承认之前本人还停留在规则系统教训的层面,另外,就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言,化繁为简,调整规则能达到信手拈来,那么在机器学习满天飞的当下,这存量稀少的规则派之花,自有它的春天。如今是个多元的世界,允许各路英雄竞技,只要有独到之处,更何况人工智能皇冠上明珠,尚无人触及,怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行,而学术界则只为提高小小百分点而狂堆系统,专挑好的蛋糕数据大把喂上,哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统,能有怎样的结局,我确实没有定论,要么一方好的东西自然会好的走下去,要么两方都走得不错而难分输赢,或者发现只有结伴相携更能走远,那谁还能拦着么!

百花齐放,百家争鸣,各自在自己的路上,走出自己的精彩就好!世界本身就不是一种颜色,也不是一直就一种颜色

李:很赞。工作量大是所有专家编码、程序员编程的短板,自不必说。在一个好的机制平台架构下,规则应该可以非常容易编写和调试。规则应该看上去简单、透明,而不是需要玩精巧。像集成电路一样,能力不是每个单元的精巧,而是大量单元的组织集成。其实,半个世纪的持续探索,这种类似人海战术的规则海量快速编码迭代的路子是有了端倪了。说到底是数据制导,可以半自动进行,这与机器学习的海量数据训练,理据是相同的。昨天说自然语言是猫矢,应该学猫咪目标导向,反复迭代,不在一时一地的得失,不怕冗余,也不怕零星的中间错误。说的就是要创造一个环境,把小作坊的专家编码,变成可以工业化的规则流水线。以规则量取胜,而不是靠专家的精雕细刻。这条半自动的海量规则路线还在探索之中,但是前景已经相当清晰。

最后,符号规则不必争雄,游兵散勇也无法与正规军打遭遇战,但差异化总是优势与短板并存。寸有所长就是这个意思。大家在同一条路上跑,遇到困境与天花板都是类似的。这时候有人在另一条路上,保不准在最痛的某个部分,突然会有突破。原因无他,因为这力气使得角度不同,世界观不同,设计哲学不同。

据说,NLU是AI皇冠上的明珠,是珠穆朗玛峰。老友周明一直在为NLP鼓与呼,认定今后10年是NLP的黄金10年。AI似乎每天都在翻新,每周都有新闻,每月都有突破,浪头一个赶一个,新的算法、突破的model层出不穷,很多人惊呼“奇点”就要来临。为什么周老师还要提10年,对于AI进步主义者,这听上去简直是宇宙尺度了。为什么?无他,皇冠自有皇冠的难处,登顶珠峰绝非儿戏。唯此,有什么招使什么招吧,武器库还嫌武器多吗?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录