【李白毛洪80:驯兽散记】

李:
@毛德操 说点做开放系统的真实体会,这个体会你可能有呼应。

毛:
我一直都赞同你的呀。所以我劝你写成书,经验之谈,加上理论上的洞见,对后进学子将大有帮助。特别是,当钟摆又摆回来的时候(见【立委译《Church:钟摆摆得太远》(全)】),你这个就宝贵了。

李:
先说针对封闭系统做模型,因为对象是封闭集,可以做到逻辑的完整性,现象 cover 的完备。面对开放集,尤其是自然语言这样的monster, 情况有所不同。大的思路框架和方法论是需要讲究的,但架子里面填血填肉就无法“搞计划经济”。不说摸着石头过河,也差不了太多。很多时候就跟拼图游戏似的,拼拼凑凑,蚕食桑叶一样试图分而解之。

今天从方法论上认真想了一想,觉得拼图或蚕食的路数还不是很确切的比喻,因为二者都没有“厚度”和冗余,只是把一个二维空间填满。实际的情形还有一个pipieline的时间维度,一个“数据流”的顺序在内。

毛:
好啊,要是把数据流的思想和技术结合进去,咱俩就更有话可谈了。

白:
RNN比较体现这个“流”

毛:
有道理。而且RNN不是那种DAG形式的简单数据流。

李:
为了把自然语言这个其貌不扬的毛毛虫(参见【白硕- 穿越乔家大院寻找“毛毛虫”】),模型出个比较逼真贴近的人模狗样来,实际上的工作更像是用橡皮泥在“流”里面一层一层贴面。

每贴一块,重复无用功居多,有用的就是那么一小块儿。可是不能因为有无用功在,就不做这个重复面很大的活儿。换句话说,从方法论上,面对一个 monster,斩不了他的胳臂,就剁他的手,剁手不成先伤其一指也好,活不厌细,活不厌早,最终才能征服他。

在一个pipeline中,条件总是慢慢具备的。不能因为条件只有越到后面越完备,前期就碌碌无为,因为在有限条件下做活儿本身,不仅是完成了部分任务,也同时贡献了条件。因此勿以善小而不为。

白:
i-1肯定不是也不如i,但是i-1不作为就肯定没有i。

李:
正是。具体说就是,如果一个现象在早期可以处置,但是因为条件不好,需要严格限制其范围才不至于 overkill,同样的现象在后期条件好的时候,可以放开一点,做得漂亮一些,做得更具备逻辑完整性和完备性。经验告诉我们,不能因为后期的工作貌似可以涵盖前期的limited的同类工作,因此就不做。面对一个不复杂的对象,当然不必做这种重复而且也做不全的前期工作。但是面对魔鬼,我们还是尽早能做多少就做多少,机不可失,即使时可再来。因为这个貌似重复的小工作也许的确是涵盖在后期的工作中,但是我们其实不知道:(1)在前期到后期的过程中有没有什么幺蛾子出来;(2)即使这本身是完全的重复工作,几乎肯定会在下一步或下几步被涵盖,这件工作对其他相关的周边的事儿可能是有用的,起码增加了确定性(规整性,行话说减少了系统的内熵)。

人有一种精简和概括的冲动,人也总是希望自己不被看成傻瓜,避免重复就是精明的一个表现。但是,面对魔鬼,用力上傻瓜一点其实有好处。当然前提是,那个傻气的活儿是增加了确定性。换句话说,早期工作只要心里觉得是 high precision,不管 recall 多低,都值得去做。high precision 最简单的办法就是把条件收紧,在早期说白了就是一个 local ngram 的拿捏。爱吃红烧肉的毛老最清楚,虽然吃一点肉末不如吃一块完整的红烧肉那样鲜美,但肉末也一样解馋和营养。关键是肉末就好比开胃前菜,吃了它为后来的红烧肉大宴做好了前期试点。

总结一下,能做多少做多少,能早做不晚做,不怕重复,不怕冗余,不厌其烦。毛毛虫就好比一个窟窿,可以用橡胶泥反复去补,层层叠叠,最后把这个窟窿补得严严实实(recall 最大化,但不损伤 precision),虽然窟窿的有些地方是补丁摞补丁,不知道被泥了多少遍。这看上去绝对不是一个漂亮的系统,但却是现实的鲁棒的,敢于面对复杂对象的。

毛:
毛毛虫模型的核心,就在于虫子的长度大于乔姆斯基的直径,即使把它盘起来也容纳不下,总归会露头露尾。所以,问题在于怎样分而治之,乔姆斯基的归乔姆斯基,露在外面的就归别的方法(深度学习是其中之一)。但是我认为抛弃乔姆斯基肯定是不对的,关键在于如何补上用来对付露在外面那部分的方法,并与乔姆斯基整合。@wei 的深度解析就是走在这条道上(白老师也是),我认为很有价值。

李:
@毛德操 其实我的体会是,毛毛虫模型的核心是毛毛虫的扁度超出乔姆斯基及其追随者的想象。乔老爷挥舞大刀,风驰电掣,貌似凭空垒了这么个大院,实际的效果是让许多人画地为牢,以为自然语言就是牢的模样。那太粗线条了,而且院子显得空荡荡的,就好比一个瘦子穿上了宽大的衣服,怎么看怎么不像。

白:
慈禧穿的衣服也没型

洪:
语言工程不唯美,
泥瓦工匠汗水挥。
修补老乔也不累,
茅庐破屋别递归。

毛:
我认为,纯粹的深度学习只能训练出文盲老太太,阅人无数,也知道一些新名词,但没上过学,不懂推理。人总得上学,而学校教的就是符号推理。老太太再是阅人无数,也不会懂 f=ma。

白:
伟哥说的这个时间,是针对开发而言的时间,具体体现就是版本。其实针对运行,也同样有时间维度和流进行迭代的“微版本”。

李:
应邀到北大做了个纯学术的演讲。北大在我们小时候的心目中是何等高贵,从来都是仰望。年轻时进去拍照留念过,羡慕死里面的才子佳人了。进了社科院,貌似与北大近了些,同学同事中北大人越来越多,开始沾上仙气。进象牙塔论道,入乡随俗,就西装革履一些散发点书香味道吧,绝不敢拿大数据忽悠。大数据可以忽悠哈佛(几年前曾应邀去哈佛医学院讲过大数据),却不能忽悠我心中的圣地北大。还有北大的三角地。

【内容提要】
乔姆斯基1950年代末提出的形式语言理论及其层级体系是计算语言学的基石。然而,长期以来,计算语言学界的自然语言处理(NLP)践行者,越来越远离乔姆斯基学派。演讲回顾计算语言学的历史,分析该领域一分为二渐行渐远的足迹。过去30年是NLP主流学界以经验主义取代乔氏理性主义的一代。乔姆斯基对于 n-grams 的批判,没能阻止统计学派利用 n-gram 模型在自然语言领域取得的巨大成功。另一方面,学界的理性主义符号学派日渐式微,究其原因,这与乔姆斯基理论的负面影响有关。乔姆斯基对于自然语言的所谓递归本性的论述,以及对有限状态机制的鄙视,深深影响、束缚并牵累了一代学人。在深入梳理乔姆斯基体系对于自然语言模型的关系之后,演讲最后论述并展示了符号规则学派对于自然语言深度解析和理解的创新和实践。

毛:
最好能有个录音,这样我们也可听听。不行的话退而求其次,整理一个文字稿。

李:
毛老知道,一个演讲哪里会深过两年的恳谈?对于您,这都是立法委员的陈词滥调了。说话已经在尼克群和白老师群促膝整两年了。

毛:
我刚才出门了没看见。立委你真的应该好好整理出一份东西来(叫什么并不重要,讲稿/讲义/概论/指南/导论),系统地讲讲你的见解,然后找个出版社。@立委 你上面的内容提要就很好啊

李:
不知不觉就讲了两个小时,结果只有时间回答一个问题。我本来是要留半小时以上做答问的,想让讲座 interactive,结果一开了话匣子,就忘了时间,很对不起听众。卫东老师主持,也没好意思打断我或提示我。下次类似讲座要小心了,其实还是答问更有意思,也更容易发挥,或借题发挥。很多年不上讲台了,还是经验不足。

邓:
你干货太多。现在这么讲的人不多了。

马:
@立委 你讲座太有激情了。

白:
伟哥讲的一定比发出来的多多了。

李:
@白硕 借用推介了白老师的毛毛虫理论。

Nuva:
内容太多了,每张slide都需要细读

郭:
@立委 你讲座太有激情了。+++
你一定又觉得“我没讲几分钟啊”。

李:
尼克的书我最爱读,尤其是冰冰助理过的。

好多年不读纸质书了,但尼克的《哲学评书》和《人智简史》除外:那是可以一边品茗,一边遐思的。

尼:
@wei 多谢捧场。此冰非彼冰。

施:
为了突出冰冰把白老师和吾等一概屏蔽

李:
羡慕啊。有样学样,哪一天我要是撞了狗屎运出书了,也要来这么一桌酒宴。就怕到时没人捧场,我就拉@毛德操 做炮灰。毛老是本本主义的信奉者。

马:
先预定一个位置

李:
马老师不可食言,这可是动力之源。

马:
@wei 绝对的

李:
山不在高,有仙则灵。酒不在醇,有书则赢。一本书主义与一杯水主义,有的一比。当然,尼克和毛老都是n本书主义了。

毛:
@wei 早就劝你动笔,你这扭扭捏捏的。到时候,席上必得有红烧肉伺候,俺连干三杯。书名都给你想好了: 《Ruminations on NLP》

虎:
我给伟哥定个书名:tame of NLP 驯服自然语言处理,俗称你老婆驯火记

毛:
本本主义不能一概而论,这有两种不同的情况。第一种是功成名就意气风发,于是嬉笑怒骂皆成文章。我二师兄就属于这一种,伟哥当然也是如此。第二种是穷极无聊,看着别人发财的发财,成名的成名(也有升官的升官,但是较少),自己却什么也干不了,唯独在自己电脑上打几个字还是可以的。我就是这种情况。

洪:
伟爷驯服NLP,
狮吼河东至河西。
Deep Parsing深见底,
看破老乔卖手艺。

李:
洪爷好诗,句句受用,飘飘然也。

 

【相关】

【NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》(全)】

【白硕- 穿越乔家大院寻找“毛毛虫”】

【李白之39:探究自然语言的毛毛虫机制】

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据