《语义沙龙:“让机器学习思考的人”》

白:“让机器学习思考的人”

wang:1.让 机器 学习 (思考的人) 2.(让 机器 学习 思考)的 人 3. (让 机器学习 思考)的人

李:你的2是hidden ambiguity,里面其实还有两条hidden路径,“学习”的对象或目标是“思考”,还有一条,“学习-思考” 并列,逻辑上是,“让机器-学习、让机器-思考”。但面对专业术语“机器学习”的紧密性和高频度,那些 hidden ambiguity paths 都被掩埋了 …… 也应该掩埋,除非遇到必须唤醒的时候。

parse parse 看:

这个 therefore 可能是个 bug,语义模块做因果关系过头了,走火入魔了?深度解析其他该有的关系都在 though。

wait a minute,好像也对,说的是,因为 X 促成了 event,X 是因,event 是果。这就是语义模块本来的因果关系逻辑,落在这句就是,thanks to “人”, (therefore)ML thinks now。这符合 “有多少人工 有多少智能,人是一切机器学习的原始发动机” 的因果本质。乍一看有点绕,是因为赶巧这一句不是一个 statement,而是一个定语从句修饰的NP。其结果,这个因果关系虽然不错,但实际上是隐含的因果(hidden causal links)。如果是一个NE,更加容易理解一些“”让机器学习思考的图灵大师“。因为图灵, 所以机器思考。我思故我在,图灵在故机器思。

白:“坛坛罐罐走不齐”正好可以借这个例子现身说法。当“机器学习”和“机器/学习”同时进入parser的视野时, 下一步优先级最高的动作却不长在“机器学习”和任何其他成分之间,而是长在“学习”和“思考”之间。换句话说,非最佳分词方案在这个局部激活了最佳句法方案,梦游了。

“学习S/NX”和“思考S/N”之间,有三种结合途径:一是填坑,二是合并,三是不作为。各自优先级不同。在外部,“让-机器”、“机器-学习”、“思考-的”、“的-人”也同时参与竞争。最后结果是“学习-思考”合并最优先。就是“并列结构”那一个解读。

“学习”和“思考”能不能组成并列结构,这个事情是有不同做法的,可以白名单制,也可以黑名单制。个人主张白名单制。但是无论黑白名单,我都不主张做成同一层内部的细化规则,而主张把细化规则折合成优先级的调整量(增量或减量),统一纳入一个优先机制处理。也就是说,当条件不满足或不那么满足时,你不应该再赖在原来的优先层级不走,你落草的凤凰就是可能不如鸡,不是高高在鸡上面的“亚凤凰”,而是货真价实的“不如鸡”。

但是如果外部没有“鸡”竞争,落草的凤凰也还有机会折桂。就像colorless ideas,虽然被相谐性打了折扣,依然是四顾茫茫无对手。这个时候,机会还是它的。所谓的“句法自治”和“语义的反作用”在这种“坛坛罐罐走不齐”的策略下完美地统一了起来。不是“亚凤凰”跟“真凤凰”比,而是“亚凤凰”跟“🐔”比。鸡厉害,鸡就先走一步,坛坛罐罐于是就走不齐了,体现了包容不确定性的差异化前进。不同的解读不等速推进,可能一本道,也可能此起彼伏,明争暗斗,柳暗花明。

梁:@白硕   赞同!或许不同解读(歧义)在彼此争斗,此消彼长,最后一种解读胜出(消歧)。

李:多种因素综合决定消歧的理解过程,模型的时候 主要有这么几个对策。得出不确定性中间结果 就是带着瓶瓶罐罐往下跑。希望在下跑的某些阶段 条件成熟 可以帮助消歧。这里面又分白老师所谓“走不齐” ,就是说不需要把不确定性结果积聚到最后的消歧模块统一消歧。而是一边下行 一边伺机消歧 使得雪球不是越滚越大。

其实HPSG这类合一文法 就是这么做的,短语结构的任何结合 都是在对自然语言建模的数据结构里面“合一”。一旦任何一点合一失败 那条路就堵死了。句法的约束 语义的约束 还有种种其他的 constraints 全部定义在一个为语言符号建模的名字叫做 sign 的复杂特征结果里面,在同一个平面 同时起约束作用。这与传统句法先建立句法结构关系 然后留到语义模块去过滤减枝的瓶瓶罐罐一路带下去的做法显然不同。但实践证明 合一文法的做法 并未解决伪歧义泛滥成灾的问题 实际上还加剧了这个 PSG 学派所共有的历史难题。原因出在复杂特征结构的设计上。以前论过。

除了完全的非确定性和“走不齐”外,第三种办法就是所谓休眠唤醒。这是确定性路线。原则上不带瓶瓶罐罐跑 坚持确定性的中间结果表示。起码是看上去是确定性结果的数据结构,等待后期唤醒、改正。(这个里面还有很多技巧,譬如可以违背逻辑 利用确定性数据流承载非确定性结果 然后配备一些逻辑清理tricks 来为非逻辑性擦屁股 不好看 但很管用 以后可以细论。)

白:基于合一的消岐,错不在what,而在how,不在带着坛坛罐罐跑,而在“剪枝”。谁说带着坛坛罐罐跑就一定要“剪枝”?难道不可以“生芽”?

李:what?PSG呀,特征结构怎么定义 也还是 PSG,大的框框在那儿,复杂特征结构的做法加重了病情。

白:“生芽”的意思是,过河不拆桥,但也无需一下子搭建所有可能的桥。不达到当前最高优先级的渡口,绝不搭桥,但渡口的优先级是随着建起来的桥而动态变化的。这些达到当前最高优先级的渡口,就是“芽”。

渡口和渡口之间不是绝对互斥、你死我活的。一切按照优先级的指挥棒走,优先级要你保留歧义,你就保留;优先级要你梦游,你就梦游。没有谁绝对醒着,大家都有权睡觉,也都有权梦游。但是必须按优先级排队。

李:动态变化决定优先级和成熟度 对于多层系统是自然而然的事儿。第10层不愿意勉强的事儿 到20层的时候就很坦然了。同样一个句型规则 可以化成宽窄不同的变体 部署在多层。以前做模块是根据功能做,说是这是 NP,这是 PP,这是VP,这是 Clause。这样表面上清晰,实际上应对不同歧义及其出现的不同情势的能力,降低了。没有多少真正的理据必须把同一种功能放在一起做。这样做的问题是,如果遇到相互依赖的现象,就真没辙了。根据功能做模块,模块排队,这样的pipeline无法应对相互依赖。这是多层经常遭遇的经典批判。无解,还是回到单层吧。

但是,如果同一个功能,可以散开来,譬如VP中的动宾关系,做它一二十层,相互依赖的现象就逐渐消解了。大不了就是冗余。没有冗余,怎么能滴水不漏?

wang:顺便一提,@wei 我对你的海量规则对系统的comment,回复一下写得有点多,发微博上了。

李:很好,拷贝留存如下

昨晚在一个群里就李老师说的内容提了一些问题,今天看到李老师详细回复,本想简单写写再发回群里,写完一看,这篇幅好像不适合放微信群里了,不如单发微博作为回复。李老师若觉不妥,告知我则立删。

@wei 中午看到李老师的后续回应, 现在正好有空这里回复一下。

看了李老师的后续内容,很是详细,而且前前后后已经考虑到很多方面,说明早有备货。大体勾勒一下:虽规则总量数万条,但通过分层(分组),就可以每组千条左右,规则之间的博弈也就在一个组内范围,即便组内的内斗激烈也不会引发组外的群组混战,这的确是“局部战役隔离解决”的最经济策略。另外,既然已经见识了规则系统的越大越不好对付的教训,想必肯定是避开了这个陷阱。一个组内至少再采用了共性+个性的两种及以上分支处理,先个性(词典)规则先前拦截,然后再共性来兜底,这样以来,一个组内可能内斗的程度又减轻不少,从走向来看,基本上是走大词典+小语法的组合路线,词典虽大但有索引方式来保速。如此以来,就把庞大的规则库,通过条块分割,把规则有序执行限制在了一个狭小的隔离河内,维护者在这样一个窄河里“捉鱼”确实容易得多。当然还有若干辅助策略,通过控局堵漏来进行加固。当然也看到“我是县长派来的”和“我是县长蹲点来的”有了不同的解析。这肯定不是一个简单“V”解决的,想必一定是词典策略起了作用。这词当然有丰富的语义信息了,我认为采用合适的语义范畴比词会有更好的覆盖性,尽管采用词准确性更高。

下面说下感受,必须承认之前本人还停留在规则系统教训的层面,另外,就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言,化繁为简,调整规则能达到信手拈来,那么在机器学习满天飞的当下,这存量稀少的规则派之花,自有它的春天。如今是个多元的世界,允许各路英雄竞技,只要有独到之处,更何况人工智能皇冠上明珠,尚无人触及,怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行,而学术界则只为提高小小百分点而狂堆系统,专挑好的蛋糕数据大把喂上,哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统,能有怎样的结局,我确实没有定论,要么一方好的东西自然会好的走下去,要么两方都走得不错而难分输赢,或者发现只有结伴相携更能走远,那谁还能拦着么!

百花齐放,百家争鸣,各自在自己的路上,走出自己的精彩就好!世界本身就不是一种颜色,也不是一直就一种颜色

李:很赞。工作量大是所有专家编码、程序员编程的短板,自不必说。在一个好的机制平台架构下,规则应该可以非常容易编写和调试。规则应该看上去简单、透明,而不是需要玩精巧。像集成电路一样,能力不是每个单元的精巧,而是大量单元的组织集成。其实,半个世纪的持续探索,这种类似人海战术的规则海量快速编码迭代的路子是有了端倪了。说到底是数据制导,可以半自动进行,这与机器学习的海量数据训练,理据是相同的。昨天说自然语言是猫矢,应该学猫咪目标导向,反复迭代,不在一时一地的得失,不怕冗余,也不怕零星的中间错误。说的就是要创造一个环境,把小作坊的专家编码,变成可以工业化的规则流水线。以规则量取胜,而不是靠专家的精雕细刻。这条半自动的海量规则路线还在探索之中,但是前景已经相当清晰。

最后,符号规则不必争雄,游兵散勇也无法与正规军打遭遇战,但差异化总是优势与短板并存。寸有所长就是这个意思。大家在同一条路上跑,遇到困境与天花板都是类似的。这时候有人在另一条路上,保不准在最痛的某个部分,突然会有突破。原因无他,因为这力气使得角度不同,世界观不同,设计哲学不同。

据说,NLU是AI皇冠上的明珠,是珠穆朗玛峰。老友周明一直在为NLP鼓与呼,认定今后10年是NLP的黄金10年。AI似乎每天都在翻新,每周都有新闻,每月都有突破,浪头一个赶一个,新的算法、突破的model层出不穷,很多人惊呼“奇点”就要来临。为什么周老师还要提10年,对于AI进步主义者,这听上去简直是宇宙尺度了。为什么?无他,皇冠自有皇冠的难处,登顶珠峰绝非儿戏。唯此,有什么招使什么招吧,武器库还嫌武器多吗?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《目标导向的质量保证怎么强调也不过分》

我是我家的铲矢官。早晚两次,每天换猫砂,有机会观察猫咪是怎样使用卫生间方便的,很有感触。

猫咪是著名的五讲四美物种,无论多么内急,方便后都会特别仔细收拾干净,绝不像有些国人(或歪果仁),有随地大小便的恶习。

仔细观察,发现猫咪智能水平不一。行动虽然敏捷,但方向感差。嗅觉超灵敏,但动作很盲目。每次掩埋清理大小便,再笨的猫咪都会做得让人挑不出毛病来。怎么回事呢?

原来是目标导向( goal-driven),反复检测以求质量保证(QA)。先是用鼻子去闻味道,凑得很近,确定目标。然后要爪子扒拉沙子,扒拉的速度很快,其实没啥章法,一多半落在目标之外。不是很讲效率。但是,猫咪的优点是,反复鼻子核查,反复爪子动作。宁滥勿缺,不厌其烦。

可见,质量不是靠耍小聪明,而是靠目标导向的劳动保障的,QA比巧妙重要。

所有的端到端系统其实都是这个原理。天知道内部做了多少虚功 绕了多少弯路。但是,端到端的好处是目标明确。只要有不达目的不罢休的劲头,有作为目标的海量数据,没有不成事的。

想起来20年前开始做个人网页玩,学了点 HTML. 后来MS Word 等,所见即所得,做各种图文并茂的网页都很容易,满意了,save as HTML 一切搞定。出于好奇,有时候会看看那些自动生成的 HTML 编码是怎样的。与自己手工编码比较,那叫一个繁复,绝对不是人认为的到达最终显示效果的最佳路径。很多冗余,弯路,叠床架屋,看上去的无用功。但没关系,最终结果是确定的。

这件事给人的启发就是,不要怕“累着”机器。累死机器是不用偿命的。冗余给人的感觉是负重。人们容易忘掉的是,冗余带来的安全和周密。

专家编码也应如此 目标明确后大多就是个力气活。不必追求精巧和概括性 不怕冗余和无用功 只要在目标导向中打磨迭代,甚至东一榔头西一棒头也不怕。可怕的是没有目标和QA。

自然语言就是猫屎,不妨学学猫咪的卫生习惯和质量保障。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“以前没钱买华为,现在没钱买华为”》

这两天社会媒体疯了一般,华为发布折叠式大屏5G手机,超级昂贵,17000 元,让苹果 X Max 失色,赚了多少眼球啊!在美帝国主义处心积虑定点打击挤压的不利国际环境下,华为终于凭实力秀了一把。

于是朋友圈开始重传这个著名的段子:“以前没钱买华为,现在没钱买华为”,大家感叹中文太玄妙啦,看NLU如何应对。微信沙龙的老友开始议论纷纷:

马:新句式:以前没钱买华为,现在没钱买华为。

白:缩合因果复句 vs 兼语

这是啥情况?

不在于是什么,而在于怎么得到。华为自身从低端到高端的历史是唯一线索。否则,反过来也不能说错。

李:好咱来解析解析:“以前没钱 买华为”

国人爱省略小词(“所以”),所以 NX(接续:next)常常表示因果,相当于then:“以前没钱” then “买华为”。倒是想买苹果,可买不起啊,总不能卖肾吧,也就只好拿华为凑合了。华为贱啊。

“现在没钱买华为”

怎么样?电脑不傻,这华为也太贵了,没钱买(cannot afford)呢。

自动解析是靠谱滴。

玩的什么 trick 呢?眼睛睁大一点看,前一句input有了个空格呢。但并非空穴来风,不信问小川老师,他在苹果Siri专门做语音的。

语言背景是,虽然省略小词是国人偷懒的坏习惯,但是口语中的停顿趋势应该还在,语音识别是可以、也应该捕捉的。既然有停顿 转写的时候 起码应该加个空格吧 对于解析 这就齐了:“过去没钱 买华为  现在没钱买华为”。

可是,人比机器差劲,完全的自私,彻底的懒惰,人写字硬是连空格也懒得加!这就逼迫听话的人去调动世界知识了。可华为手机由贱到贵 这种世界知识(而且是动态知识)大海一样无边无沿,这不是“欺机太甚”嘛。国人宁愿靠这种知识 也不愿按一下 spacebar,你说中文玄妙还是操蛋?

网上也看到规规矩矩加了标点的:“过去没钱,买华为;现在,没钱买华为。”

白:以前有人戴头巾,现在有人戴头巾。

李:异曲同工。以前有人(来/在的时候)then  戴头巾,现在有(某个)人戴头巾。

“以前有人罩面纱,现在没人罩面纱”。

加个空格有那么难吗?“以前有人 罩面纱,现在没人罩面纱”。

“以前有人(的时候)then 罩面纱,现在没人罩面纱(即便人来)”。

白:为啥不是更自觉了呢,阿富汗,伊朗,都走了回头路。

李:也是一解:“以前有人(的时候)then 罩面纱,现在没人(的时候)then(也)罩面纱”。这是什么美德?

【相关】

华为手机刷屏:全球首款、5G+折叠屏又一个元年来了

【汉语句法的挑战之一:if-then的简约式】

泥沙龙笔记:汉语就是一种“裸奔” 的语言

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白107: 让人咬牙的中文定语从句嵌套】

白:“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”

“软件开发人员”和“……公司”居然并没有从属关系。

从外向内比较清楚,从左到右就太累了:吸引-人员;依赖-公司;切断-权限。

李:难哪!

“依赖-权限/软件/公司/人员”,啥都可以依赖,所以搭配相谐没啥用。“吸引 – 用户/公司/人员”,也都可以的。

白:不是用相谐排除异己,而是用相谐先到先得。

李:那样的话,可能可行的办法是从内向外,而不是从外向内。先一杆子深入内部 做 (V1 …O1),然后做 中间的 [V2 …(V1 …O1) de O2],最后做最外层的 {V3 …[V2…(V1…O1) de O2] de O3}。这种类似内嵌套的结构,绕三层算是极限了,超过三层嵌套,去它的。(定语从句有 “的” 作为标记,用了超过3个 的 的定语从句嵌套,少见而“缺德”,可以不管。)

从内向外的思想,30多年前,刘倬老师在小黑板上解说过。这可算是NLP掌故了。说的是 如果把 VP 解析的方向,由从左向右一个模式一个模式的匹配,改成由右向左,那么就可以一杆子伸到最内层的 VP。这个技巧可以一次扫描对付不限层的右递归。

上面的类似定语从句嵌套的结构 在一杆子自右向左捅到最内层VP上,有类似的表现。所以说,从内向外层层规约是可能的一个途径。

从外向内 难行在 搞不清该放过内部的什么材料。从外向内 以前提过,如果是强搭配,还是可以的。以前提过的现象是 句首词 与 句末词 往往有关系 可是跨度是句子极限 因此 要指靠自底而上 自内而外 的解析和短语结构的规约 来拉近二者的距离 很难。因为难保解析步步都走对了啊。但是天涯若比邻的一个简单办法 就是把句首和句末接起来。让句子从一条线 变成一个圈儿。天涯立即比邻了,这时候如果发现有搭配,那还犹豫啥。parsing 以句为界,远距离最远不过句首句末。一个长江头 一个长江尾 郎有情妾有意就好了。

almost there!

“依赖”的是“公司”,而不是“人员”,能改进这个就齐了。parse 直到 ”不想依赖可以切断用户访问权限的公司的软件开发人员”,难为它了。这个跨度已经达到 13 个节点 足够长了。要想翻盘 必须更大的上下文。

也不是没有痕迹。trigger 在 那个 NX (next) 上,可以做休眠唤醒的 trigger。正常的 parse 是没有断点的 现在有了 NX 断点,就可以尝试另外的结构路径了。“那些”常常率领一个很长的 NP 而不是自己单独做 NP。如果是 NX 联系的是NP,“那些”就跟它接上合并了,断点消失,休眠就唤醒了,这个顺理成章,很好实现。可惜,NX 接的是个长长的内部结构复杂的 VP(“依赖”统率的VP子图),如何着手改造内部结构呢?唤醒休眠就难。

几乎没指望了,但是真要做,就可以尝试在 VP 里面翻盘。目标还算明白,就是要把 VP 改造成一个 NP 好与 “那些” 结合。挺累的。

白:就是假(du3)定(bo2)最外层括号只有一对

李:办法是有的,到这地步 要做是可以做的。犹豫的原因是:1 值得吗 毕竟这类现象已经有点长尾的样子了。2 更要紧的是,做下去有点太强力了(brute force),容易弄巧成拙,维护成本大。当然如果有自动的办法 另当别论。专家做,到这地步,就非常犹豫,往往下不了手。

白:切断权限,对登录是负面的,于是切断权限的公司和从属于该公司的人员对登录也是负面的。吸引,对登录是正面的。从sentiment角度看,伟哥的图里,不论NX怎么解释,只要把“吸引”传导给“人员”,必然拧巴。

李:要把这套推理带到休眠唤醒去 也很难(尽管其实 sentiment 是同时在做的,符号逻辑推理的基础都在。)。

白:都变成动态优先级的加减分,水落自然石出,此消正好彼长。

李:专家编码不行。头脑感觉不大够用。必须承认人算不过机。

白:唤醒也不是唯一路径。可以半睡半醒,可以梦游,你走百步我走五十步。

李:NLU 太难了吗?今天讨论的算是一例。可以摆个擂台,哪一位出来溜溜?

微博贴出后,王老师试了试神经MT,MT权威刘老师也惊叹:

刘群MT-to-Death:这个句子机器翻译得太好了,原中文句子人理解起来都很费劲。//@王伟DL: 对于“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”,试了一下有道“This approach appeals to software developers who don’t want to rely on companies that can cut off access”

王伟DL:就时常在想,翻译都这么好了,那么句法分析会做不好?常有削弱自己做parser的动力。当然,这种end to end翻译路线,与描述句法结构的路线是不同的。若是句法分析做得也很好了,那么提取知识图谱等,及更复杂依靠句法分析基础的阅读理解等就更是春天漫步,鲜花朵朵开了,可现在好像还不是这么回事。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

语义沙龙小品:从侯宝林的四字相声说起

包容歧义与模糊理解是自然语言交流的常态

刘:侯宝林几个说方言的相声也印象深刻,一个是说宁波话像唱歌的,另一个是用几种方言模仿晚上起来撒尿的对话,想起来都好笑

毛:嗯,谁,俺,嘛,尿。

李:这里有什么玄机?单音词 成句。who / me / what / pee。说起来 最后两词 理论上有歧义:pee 是动作 还是 物体?

歧义包容的说法是 没必要消歧。因为动作也好 物体也好 背后的概念是一以贯之的 并不影响交流。对于人类在语用中惯用的模糊理解来说 包容歧义恰好与模糊理解相配。除非遇到较真的。较真的对话大体如下:

A: 我问的是”嘛”
B: 我答的是 “尿”
A: 答非所问。我问的是 你在干嘛?
B: 没错啊 我答的是 尿尿 呀
A:那我要问是什么呢?
B:也没错呀 我答的是这儿一泡尿。

嘛:义项1 干什么;义项2 (是)什么;义项3 句末叹词

尿:义项1 撒尿,动词;义项2 排泄物,名词

歧义对歧义 蛮好。消歧不是自找麻烦?

包容和模糊是人类交流的常态 省力低碳而高效。

白:侯的四字相声,省略是主要的,包容歧义义项倒在其次。

李:@毛德操 四字相声的事儿 有历史的。记得你一年多前就问我 什么叫机器理解?举的就是这个四字对话。当时没多想,觉得这都是词典里面的词(语素),有啥理解不理解的。查词典而已。词典里面绑架了语义,该啥啥,就算是解析了。自然语言理解是说怎么组词成句。

毛:是啊,“谁俺嘛尿”应该进教科书。你的书里何不把它写进去?

李:今天重提这个话头,想了想,机器可以做的,还有一些:1. 首先要确认这是两人对话的语用场景;2. 确定这是个单字句。

识别单字句 对于理解重要。组词成句的极限形式就是这个词就1个,它成了句。怎么识别单字句?就是孤零零一个字(语素)蹦出来,带有语调,前后都有较长的停顿。

好,somehow 上述两点形式化了,提供给机器,下面就可以解说机器怎么理解的了。“谁” 在单字句的条件下,在对话的场景中,它的理解就是挖了一个【human】的坑,要求给填上。在常规的多词句子中,对话的所谓解析是要知道 intent / slot,现在 slot 出来了,就是【human】,intent 因为没有谓词,理论上是模糊不清的。但是在对话场景下,这个 intent 有个标配,可以“脑补”上,机器于是知道 intent 是:谁在那儿?那动静是谁?

有了这个 intent/slot 的解析,第二句对话“我”,作为合理的回答,就自然顺理成章了。如果是机器回答,可选的答案有:是我 / 是小偷 / 没看清(谁) / ……

毛:印象中这段相声好像是侯宝林和郭启儒说的。

李:接下来的“嘛”,词典有两个义项:1. 句末叹词;2.疑问代词 what。在“单字句”条件下,排除了句末叹词的可能性,只剩下what,挖了一个【thing】的坑,有了【slot】,还是没有 intent

在对话的场景里面,单字疑问词,可以“脑补”标配的 intent 是【do(what)】,或进一步脑补为:what are you doing

于是引来回答:1. 名词:尿;2. 动词:尿。对话场景标配延长是:1. 这是尿;2. 我尿尿。顺着这个思路,所谓机器理解及其背后的场景落地,显然是有迹可循的。

毛:以模糊对模糊,以歧义克歧义。负负得正。

白:@wei “嘛”的语音形式不同。做“什么”解的“嘛”,读第四声。做“干什么”解的“嘛”,读第二声。

毛:你的书里应该加一节“谁俺嘛尿 辨”。

李:哈【自然语言答问:尿辩】。记得,语义泰山 菲尔默教授写了 The case for case,许国璋教授翻译过来就叫《格辩》。

毛:不应该是“辩”,应该是“辨”。

李:对。他是辩护他的格理论。这里是辨识/包容“尿”的歧义:【自然语言答问:尿辨】。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白106: “应用文写作助手”的金点子再议】

立委按:嘿 将来普及了 别忘了咱们做的思考和可行性实验哟。微软 office 为啥成为摇钱树 因为人总要写字吧。写作助手类应用为啥会风行 因为人免不了写不好字呀。难得的AI市场切入角度呀 别一窝蜂都去做聊天 bots 啦 已经水泄不通啦 MT 也是如此 搜索巨头把市场基本做死了 如何跟免费竞争?

白:“如果技术达到了那一步,我想不出任何问题是技术解决不了的。”

单看后半句,有歧义,而且sentiment相反。

我想/不出任何问题/是/技术/解决不了的
我/想不出/任何问题/是/技术/解决不了的

联系前半句和常识,可以排除对技术低估的意思,只留下对技术高估的意思。

李:前面那个意思 要使劲想 才想得出来。

不出任何问题/是/技术/解决不了的 == 技术/解决不了/不出任何问题

显得勉强的原因大概是 “解决”的宾语坑要求的是NP,通常不带VP。

? 解决不了野火蔓延

解决不了野火蔓延的问题。

严格说,应该是:技术/解决不了/不出任何问题的问题。

白:不出任何问题的诉求

李:对,不出任何问题 是好事。

白:谓词性成分的上位概念是体词,这没什么不可以。

李:这就回到了所谓名物化(nominalization)。中文这边,零形式的名物化是一个“鬼”,说它不存在,似乎看得到影子。说它存在,却几乎总是摸不着。容易走火。

白:另一端挖的坑只要足够抽象,就容得下这个鬼。解决,挖的坑就属于“足够抽象”那种。

李:“足够抽象” 不好清晰界定。赶巧了,上面的句子听上去还不算别扭,但是感觉很难伸展到其他的谓词。

?技术解决不了不吃饭

?技术解决不了不认真读书

白:和“那个集合”中的元素构成强搭配:

我收到了他自杀未遂(的消息)

张三不愿意正视两地分居(的现状)

括号里的名词是之前谓词性成分的上位名词,和主干谓词构成强搭配。相当于分别以主干谓词节点和谓词性宾语成分节点为圆心,以适当半径画圆,有个不言自明的交点。本体的几何。

李:我的语感可以接受:张三不愿意正视两地分居。但很难接受: ? 我收到了他自杀未遂。

白:分析从宽。

接受不接受无关紧要,不错到别人家里就没关系。

把“收到”换成“听说”,自然👌

李:“听说”自然没问题。“听说” 的句法子范畴挖的坑是 Clause/VP or NP,谓词性的为先。“听说他走了”。

白:那个NP的语义本质是VP的上位。在口语里把括号里的省略掉,不影响理解。

李:对,不影响理解,意思都在,就是不符合搭配习惯,萝卜与坑有违和感。这不正是可以借助机器的地方吗?让机器来帮助把句子写顺,前几天提出过这个利用MT倒腾的小窍门:告诉你一个写外语避免常见错误的实用技巧。

可以试试:

我收到了他自杀未遂 –》 I received his attempted suicide –》 我收到了他企图自杀的信。

哇塞,加了 “的信”二字,听上去顺溜多了。截个屏,留存个突破天花板的神(经)迹。(好玩的插曲:“自杀未遂” 来回一倒腾 成了 “企图自杀”,意思没变。)

不得不说,MT发展到今天的“神经”程度,在信达雅之外,多了一个“改良”的维度。以前谈“信达雅” 是以原文作为天花板,然后讲的是翻译过程中 如何尽可能达到原文的品质,从这几个角度来看。现在可以说,MT 可以让破烂的文字,翻译为通顺的文字。也就是说,目标语表述终于有了突破原文天花板的可能了。这可是违背了取法乎上仅得其中的经验法则哟。取法乎下,可得其中哪。

这个奇迹是怎么发生的?

白:这就好比,正确的理解是一些深坑(学术上叫“稳定吸引子”),错误的表达好比球放到了斜坡上,重力自会把它“吸”到深坑里去。只要放球的斜坡处在深坑的喇叭口处。

李:对。这个奇迹的发生 是一种 propagation 的结果。在大数据中,良性熏染强过 error propagation。MT 实际上取法的不是原文输入文句,那个原文只是一个种子,一个引子。真正取法的是目标语大数据。大数据的平均品质必然高于 broken Chinese (or broken English)。因此虽然 trigger 是 broken 的,结果却是好的。

白:大数据是表象。稳定吸引子才是精髓。大数据砸出坑,最后起作用是坑。

李:坑的吸引这些东西 还是需要有足够的数据才能奏效。

以前责怪过神经MT的无中生有(除了张冠李戴指鹿为马外),以为它只会产生弊端/副作用,典型的为通顺,牺牲忠实。现在看来,也有无中生有并不怎么牺牲忠实却带来了通顺好处的情形。前面例子无中生有出来的 “的信” 就是一个改良。因为大数据里面,“收到”后面几乎总是有个抽象名词,突然没有了,那就无中生有给加上一个“(收到……) 的信”。要是somehow 能改为:“我收到了他企图自杀的信息”,那就更好了。“信息” 比 “信” 更加抽象,更适合无中生有,而不产生副作用。其实相信大数据里面“收到 — 信/信息”都是存在的 但是前者压倒了后者。因此 “无中生有最好采用抽象虚指的词填坑” 这个立足于本体子范畴知识的启发式(heuristic),在目前的模型里面不能贯彻。可以归纳出来的不同角度的启发式这种东西,还是符号系统容易带入,神经比较难。

白:这也可以通过好的本体来做。两弧相交,一样得出无中生有的东东,符号路线本身并不禁止这个。收到+“那个”也是可以的,而且更加抽象,管它是信还是信息。

李:其实 这次”MT倒腾改进表达“的实验,翻译过来的英文本身仍很破烂,如果足够好的话,第一步从破烂中文翻译成英文的时候,就应该已经克服了这个“receive … suicide“ 动宾搭配不当的问题,因为英文的 receive 也是子范畴规定宾语坑要用 NP 而不是 VP的。可惜这一步没到位。好在,翻回中文的时候,良性熏染出效果了。就是说 这么一倒腾 实际上给机器两次改正的机会,somehow 英文的大数据模型在这个数据点上 不够强。预期的改良没有实现,但是还有个中文大数据的第二次机会。

白:真想做改良这个事情,其实完全无需借道MT,作为一个独立的端到端任务,可以做得更好。

李:这就是我前几天说的,A–》A’ 的主意 (见 告诉你一个写外语避免常见错误的实用技巧),不用 A –》B –》A’。直接来帮助改进文字,辅助写作,弄得好的话,这可是产品的金点子。

奇怪,写诗写词,都有人做了。写应用文这种惠济苍生的事儿,却还没人在做。这几天的实验实际上已经验证了可行性。剩下的就是产品定位和实际去做了。以后那些文秘可真地要面临失业危险了,据说多数中文系出来的文秘就是为老板写应用文 要写得比较溜 不同文书有不同规范。等到每一个应用文都训练出一个模型后,比一般秘书做得好,几乎是肯定的了。以后 秘书就是留下来 也省力多了,胡乱起草一个文书 只要意思大体在 交给机器生成规范的应用文,比自己在那儿费劲拽好多了。

白:规范就是稳定吸引子。

李:现在可以训练机器讲话,奥巴马可以用自己的调调发表中文演说,惟妙惟肖。很快,也应该可以训练机器写出不同风格的文字,越八股的类型 越好模仿。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

告诉你一个写外语避免常见错误的实用技巧

以前常常有“老外最常见的中文错误”,或者“中国人最常见的英文错误”。现在有了立等可取的免费解决方案了。就是在交作业之前,找一家信得过的网上机器翻译网站(我用的是有道和搜狗),在中英之间倒腾一遍就齐了(其实不会太久就不用这么来回倒腾,一定会有团队直接在本语言中做“翻译”,从A到A’ 把不通顺的语句改写成通顺的说法,实际上就是“写作助手”类应用。)

A   –》B   –》A’

刚才到网上查老外的中文错误,见到这个:“盘点老外常错的中文语法点” 。根据里面列举的典型案例,我们试试这个技巧。

遇到的第一个错误是搭配不对:英文都是 strong,可在中文的搭配习惯上,“咖啡”论“浓”不论“强壮”:

“对不起老师,我昨天没睡好,因为喝的咖啡太强壮了”

搜狗MT: –》Sorry teacher, I didn’t sleep well yesterday because the coffee I drank was too strong.

然后 翻译回去:–》对不起老师,昨天我睡不好,因为我喝的咖啡太浓了

搭配是语言学习的难点,因为每个语言搭配的习惯不同,不怎么讲道理。没个10年8年的功夫,是很难学会地道的语言搭配习惯的。我女儿从小在家听中文,周末上中文学校,现在开口闭口还是: “我不要穿这个帽子”、“我穿的眼镜 不好看”,纠正过无数次了,还是改不了。

“我不要穿这个帽子” –》I don’t want to wear this hat.
–》我不想戴这顶帽子。

“我穿的眼镜 不好看” –》The glasses I wear don’t look good.
–》我戴的眼镜不好看。

老师千叮咛万嘱咐:帽子是“戴”的不是“穿”的,帽子要论“顶”,不论“个”。哪里如用的时候随时上网请教一下MT呢,其实让机器把关最放心。

③ “了”这个大难点 

“我和我的老师们一起去了旅游”,“我昨天吃了饭,然后洗了澡”“了”的难点在于本身有很多规则,而且这些规则还总有例外,用在句中还是句末,用在过去还是变化,就连中国人也很难说得清楚。

MT 里面来回一倒腾,这个不该用的“了” 就飞了 :

“我和我的老师们一起去了旅游” –》I went on a tour with my teachers  
–》我和老师一起去旅游

问题是 去+V 中间不合适加“了”,可是老外(甚至老中)哪里知道啊,“went” 在他脑子里呢,出来的时候就成了 “去了”。

无论是老外学中文的难点,还是老中学英文的难点。说到底 大多是对于千千万万鸡零狗碎的与自己母语不同的搭配、语序等等语言习惯,搞不定。记不住啊,除非是没完没了的练习(drills),并且需要不间断地使用。可是大部分人做不到。可是机器没这个问题。

讲解说:“放假快来了”,“放假”是一个动词,学生经常和“假期”搞混了,说出来的句子自然不地道!

?“放假快来了” –》The holiday is coming soon. –》假期快到了。

?我打算了几个计划  –》I made several plans –》 我做了几个计划

“做-计划” 应该算顺了,至少比“打算-计划”的搭配好。不过没实验前,我头脑里想的是 “订-计划”。从有道MT转到搜狗MT,出来的还是“做-计划” 而不是“订-计划”,相信数据里面,前者比后者的搭配频率一定高得多吧。虽然后者显得更加地道,因为用的不是高频的”做“。对于搭配,其实低频率的语素(作为搭配的部件)更加地道。目前的模型显然贯彻不了这个启发式指导。

对于自然语言,生成从严,分析从宽。学外语搞不定的就是不知道如何“从严”。生成出来的外语句子就常常不顺畅,不地道。听上去就是老外。可是语言模型是在大数据上学出来的,虽然语言里面也有各种不顺畅不合法的东西,但是统计上看,飘在上面的,总是趋向于大众常说常见的顺畅的句式。因此利用MT帮助把句子“捋顺”,常常特别见效。

盘点老外常错的中文语法点”中指出了语序方面的问题:

?“我回去台湾一年一次” 用有道MT就成了:
–》 I go back to Taiwan once a year
–》 再把它翻译回中文,句子语序就顺了:我每年回台湾一次。

好,下面自己造几句 Chinglish,按照中文习惯来几句洋泾浜:

she body tall, face beautiful, head smart –》 她身材高大,面容美丽,头脑聪明 –》He is tall, beautiful in face and intelligent in mind.

语句通顺方面,搜狗MT互译是做到了把国人的洋泾浜转化成了合法通顺流畅的英文。(可惜大事聪明小事糊涂,居然把“她”错译成了“He”)

其实,我们老中之所以会整出洋泾浜英语,就是因为头脑里面的意思是母语形式表现的(诸如 “她身材高挑、盘儿靓、脑子聪明”),然后就把词汇替换成英文蹦出来。把洋泾浜翻译回中文,然后再翻译到英文,等价于直接做汉英自动翻译。

随处可见的英文错误,有些还是比较正式的通知,本来都是可以自动提醒克服的,可惜软件不到位,今天又见一例,随手做了个MT倒腾改错:

We offer our apologies to you for the inconvenience has caused you. ==》 对于给您带来的不便,我们向您道歉。
==》We apologize for the inconvenience.

比起原文啰里八嗦还有文法错,机器倒腾过来的,多么精简规范!本来这一切都是可以自动的呀。

另外 由此突然冒出个产品经理梦寐以求的灵感。可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个市场定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

盘点老外常错的中文语法点

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

2019春节,见证奇迹的时刻

2019年春节期间的奇迹。其实,说的不是刘谦换壶的时刻,那个奇迹已经成为全国人民的笑话了。

我还给央视拟了个严正声明:

中央大国,万邦来朝;堂堂央视,亿众瞩目。如所周知,魔术皆伪。然央视之伪,亦有格有调,断非所传之无品。央视之伪,拜夹层高新科技所赐,佐以不可测之隐身神术。所传之影碟,乃小人PS所得,央视保留告诉之权利。特此公告,全民周知。

也不是我家猫咪,叫卡卡的。她要写论文的奇迹,大概还需要时日才能实现。春节期间,老朽著书立说的时刻,她也从来不闲着:

代劳也好 省得我费力气啦。《阿猫论自然语言》,可能比人论得深刻 这年头啥事都说不准。我家小卡的爪子在键盘上 随机按下自然语言的句子 概率有多大?肯定不是零吧,不是零的概率 放在宇宙尺度下 等于乘上无穷大,这个比宇宙从无生物演化为有生物 进而出现人这种吃饱了还会忧虑的物种 应该是同一个量级的神迹。可惜这个奇迹,为人是见证不了的,大概只有造人的上帝才有见证的可能。

奇迹发生在昨晚。

昨天晚上 打开网络细细把川普那么长的国情咨文看了。可以点个赞 除了文采飞扬 内容丰富外,他那么大岁数做一年一度最重要的长篇施政演说 居然手上没拿稿子 一点都不磕巴 抑扬顿挫 始终保持演讲的节奏感。就连当年周总理国庆演讲四个现代化愿景 也还是拿着稿子半念半讲的呀。不知道美国用了什么高科技给总统演讲电子提词?反正现场镜头没看到啥机关。一边听 一边欣赏国会分裂的听众的众生态 一边没忘了测试口语机器翻译 打开有道词典app 点击口语翻译 把手机对着电脑视屏现场 等于是同声传译实验。

这是见证奇迹的时刻。

手机截屏 同声传译的片段。效果不错吧。当然 川普吐词清晰 也有功劳。虽然现场有噪音 欢呼声 掌声 偶尔的嘘声。

奇迹在于其稀有。随时随地可现的“神经MT”奇迹,人们似乎麻木了。可是,我是机器翻译出身,在年轻时的梦想全面实现的时代,仍然不敢相信它是真的。因此,不断在测试,在考验,在见证。

【相关】

谷歌NMT,见证奇迹的时刻

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

在机器翻译唾手可得的时代,还要不要学外语?

李:今天快讯,白宫就中美贸易谈判发表声明

Statement of the United States Regarding China Talks

For the last two days, high-ranking officials from the United States and China have engaged in intense and productive negotiations over the economic relationship between our two countries.  The United States appreciates the preparation, diligence, and professionalism shown throughout these meetings by Vice Premier Liu He and his team.
The talks covered a wide range of issues, including:  (1) the ways in which United States companies are pressured to transfer technology to Chinese companies; (2) the need for stronger protection and enforcement of intellectual property rights in China; (3) the numerous tariff and non-tariff barriers faced by United States companies in China; (4) the harm resulting from China’s cyber-theft of United States commercial property; (5) how market-distorting forces, including subsidies and state-owned enterprises, can lead to excess capacity; (6) the need to remove market barriers and tariffs that limit United States sales of manufactured goods, services, and agriculture to China; and (7) the role of currencies in the United States–China trading relationship.  The two sides also discussed the need to reduce the enormous and growing trade deficit that the United States has with China.  The purchase of United States products by China from our farmers, ranchers, manufacturers, and businesses is a critical part of the negotiations.
The two sides showed a helpful willingness to engage on all major issues, and the negotiating sessions featured productive and technical discussions on how to resolve our differences.  The United States is particularly focused on reaching meaningful commitments on structural issues and deficit reduction.  Both parties have agreed that any resolution will be fully enforceable.
While progress has been made, much work remains to be done.  President Donald J. Trump has reiterated that the 90-day process agreed to in Buenos Aires represents a hard deadline, and that United States tariffs will increase unless the United States and China reach a satisfactory outcome by March 1, 2019.  The United States looks forward to further talks with China on these vital topics.

搜狗机器翻译如下:

过去两天,美国和中国的高级官员就我们两国的经济关系进行了紧张而富有成效的谈判。美国赞赏刘副总理和他的团队在这些会议中表现出的准备、勤奋和专业精神。

会谈涉及广泛的问题,包括: ( 1 )美国公司向中国公司转让技术的压力;( 2 )加强中国知识产权保护和执法的必要性;( 3 )美国公司在中国面临的众多关税和非关税壁垒;( 4 )中国网络盗窃美国商业财产造成的危害;( 5 )市场扭曲力量,包括补贴和国有企业,如何导致产能过剩;( 6 )需要消除限制美国向中国销售制成品、服务和农业的市场壁垒和关税;( 7 )货币在美中贸易关系中的作用。双方还讨论了减少美国对中国巨大且日益增长的贸易逆差的必要性。中国从我们的农民、牧场主、制造商和企业购买美国产品是谈判的关键部分。

双方表示愿意参与所有重大问题的讨论,谈判会议就如何解决我们的分歧进行了富有成效的技术性讨论。美国特别注重就结构问题和减少赤字达成有意义的承诺。双方同意,任何决议都将完全可以执行。

虽然取得了进展,但仍有许多工作要做。唐纳德·特朗普总统重申,在布宜诺斯艾利斯商定的90天进程是一个艰难的最后期限,除非美国和中国在2019年3月1日前取得令人满意的结果,否则美国关税将会增加。美国期待着与中国就这些重要议题展开进一步会谈。

阿:@wei 文字相当棒

马:@wei 没看你说明之前,没有觉得是机器翻译的。

李:一字未改,就是搜狗MT。新闻类、IT类、科普类、日常会话类翻译都已经不是障碍了,机译已经达到人译水平,比多数人强。关键是随时随地 立等可取。所以那些写不了通顺英文的人,也不必费时间学英文了。你可以用随便写出来的中文,翻译过去,会成为一篇相当通顺的英文。不信试试搜狗MT或有道MT。译文往往比原文更通顺。从神经机器翻译的原理和目前水平看,译文总是通顺的,基本不受原文顺不顺的影响。原文只要把意思大体表达出来就好了。稍加修改,这比自己用英文拽要简单多了。

其实,可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等比需要做翻译,对于多数人是更加频繁的日常任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。常见应用文针对文体专项训练,肯定比一般人学得地道。这是无疑的。这个产品定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

最近试了试讯飞口语翻译机,日常口语语音传译也已经不是问题了。我有意用非标准的普通话,蹩脚的英文为难它,两边互译倒腾。结果都不错,常常有惊喜。

阿:@wei 怪不得现在大学英文系都萧条了 。

李:AI 各应用领域要是都达到 MT 的水平,我就同意奇点到了,然后就相信马斯克、霍金之流的耸人听闻,呵呵。胜利大逃亡,跟马斯克到火星去避难。

严:看了@wei 引用的机器翻译的文章,加上这些年飞速进展,让我更纠结了。在美国高中的儿子告诉我他不想学外语,但我太太觉得一定要学的,因为绝大多数大学入学都有外语要求。不学外语的话大学选择就会大大缩小。但儿子说得也对,学三年还是比不过机器翻译,不如用这时间学点别的,比如离散数学之类。我真拿不定主意。

瑞:现在医院里护士都用手机上的APP翻译软件跟病人用各种语言交流。虽然翻译未必精确,但足够表达主要意思

迈:@严 如果学外语用数学做代价,可能是定位误差。人应该是多面手,学外语发展另一块脑力,或许可以增加认识能力,学其他科目的成效大大提升,也未可知。

严:@迈 有道理。但通常间接效益超过直接效益,需要特殊条件。

毛:如果机器翻译芯片可以植入人体,那就真的可以不学外语。

阿:@严 学语言不仅仅是学习机械的语言 看上文《【人文科大】语言赋予思维的变革性力量

李:说老实话,绝大多数国人学外语 尤其是相当数量学得很苦 很受罪折磨的人,的确是劳民伤财 何苦来哉。如果把学一门外语当作一个业余兴趣,学了可以开开眼界 了解原来思想可以有不同的表达手段。但学一门 浅尝辄止就好 除非是想专门研究语言。

瑞:马云学数学是对自己的折磨,学英语却是享受

阿:至少对语言的结构有更多了解 不学西语 就不知道什么过去式 进行时 虚拟语气等等 中文好像不教这个。课堂上学的基本没用。

李:当年学第二外语法语 第三外语俄语 回想起来 真是遭罪。现在也几乎全还给老师了。好在做了语言学家 虽然具体语言的能力是久不用就忘了 但语言学职业上还是受益。但绝对不主张 不鼓励非语言学家去学二外三外。有那时间 干什么不好。其实学英语也很遭罪,不过是遭罪一辈子了,麻木了而已。

阿:对有些人来说 语言就是一种爱好 一种游戏。你去跟打游戏的人说 你玩别的多好 他不会理睬。

李:唯一不遭罪 真正感到乐趣的是学世界语。那真是神奇的东西 学起来非常过瘾。学完了 也终于没有还回去 听说是退化了一些 阅读和写作没影响。

自然语言作为外语 基本上就是把人当机器折磨。无数鸡零狗碎的习惯用法需要死记 需要反复练习。可人脑毕竟不是硬盘啊 哪里经得起这种折磨。属于低级的强体力劳动 劳动对象是头脑记忆和条件反射。不值。

世界语不同 死记的部分被压缩到最小 逻辑和规律一统天下 学进去感觉进入了思维表达的自由世界。如果学外语只是为了开阔眼界 了解母语以外的表达方式 可以推荐世界语。

以前老觉得世界语因为没什么用 会逐渐式微。现在看来 有了机器翻译 有用无用已经不是主要标准了。剩下的就是语言的兴趣、特色和投入产出了。保不准100年后 它将成为唯一的“二外”供人娱乐 满足好奇心。

师弟轶事——疯狂世界语

这是当年学世界语的投入,师姐的夸张描述。大概与玩游戏的人入迷类似。

Nuva:学会一门外语,等于大脑多开发了一块地方,语言间链接更多。

梁:多学一门外语,等于在你的黑屋子里多开一道窗户,也让思维更加多元。会外语,才有可能接纳,至少不排斥,来自不同文化的东西。还有,学外语,得老年痴呆的可能性也减小,大脑开发的越多,得老年痴呆的可能越小,cognative reserve 比较大。

李:都是站着说话不腰疼。啥事都有个性价比、投入产出比。学外语需要投入多少时间精力,与它带来的好处对比,简直就是黑洞。而且学了以后,如果不经常使用,一多半都会吐回去。如果回报是可以看外文原文资料、出国旅游可以与老外简单会话,问路点菜上个厕所啥的,这个回报在有机器翻译的现代社会,已经不值一提了。其他的回报还有啥可以度量的?

有一种回报是,因为人与人对于外语的吸收能力差别很大,在全民学外语的环境下,语言能力强的人会有特别的优越感。女孩子一般比男孩子学外语更快,更溜,所以学外语是妇女能顶大半边天的难得机会。这些也算是特别场景下的回报。但这种优越感是建立在其他人学外语的挫折感的基础之上。如果有挫折感的人 突然悟出来现代社会有电脑,没必要进入外语这个赛道了。这个好处也就不复存在了。

总之,外语与钢琴类似。孩子愿意学就让他学。不愿意学不必勉强他学。不是学了没好处,而是投入太大,收益太小,一般来说不值。目前的教育制度还是滞后于时代,规定人人学外语。等再过20年,也许教育制度会改成不是必修。

毛:完全同意。

王:急功近利未必能学好。艺不压身,如果能做到,会弹钢琴比不会要好。会一点外语也不错。这些技能都很费时,不容易达到预期效果。

严:@wei 很受鼓舞!给儿子推荐世界语!估计只有网上资源,又要跟counselor协商了。高中里只有法语、西班牙语、日语。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白105: 结构歧义的视角和角力】

立委按:句法形式 语义常识 和 上下文场景三者 并不总能对齐。但它们蛮拧的时候 其角力决定了解读。有趣的是 人与人的视角不尽相同 因此角力对于不同的人 作用力也可能不同 因此并不是每个人对结构歧义的理解都是相同的。真伪歧义从黑白分明演变为灰色频谱。这是观测者效应和测不准原理的语言学反映吗?kidding…, but  truly fascinating ……

宋:“预约手术请到治疗室”,预约手术  是偏正还是动宾?

刘:英语可以用过去分词和不定式加以区分,中文有歧义。

李:对。预约【的】手术请到治疗室:这是定中关系(偏正),已经预约了的。【要/如果】预约手术请到治疗室:这是动宾关系,“不定式”或未完成体。

“预约手术请直接进手术室”,这大多是定中. “预约手术请到登记处”,属于动宾。

白:字数规整,偏正优先。

宋:今天上午陪老伴去医院做一个门诊小手术,是预约好的。看到诊室门口的条子“预约手术请到治疗室”,第一反应就是偏正结构,原因一是自己这个手术是预约的,之二是到治疗室,治疗室正是通常做门诊小手术的地方。结果是我理解错了。原意是动宾结构。

白:事理图谱对于“预约”的场地和“手术”的场地应该有所设定。“包子往里走”都可以,“预约手术请到治疗室”当然没什么不可以。如果是口语,重音不一样。私刻印章是犯法的。私刻印章是无效的。

“削铅笔刀”为啥没有歧义?

李:“机削铅笔刀”为啥有歧义?“手削铅笔刀”为啥有歧义?

白:看不出来。

李:en …… 例不成理存。何况也未见得不成立:

“手削铅笔刀是削不了的 机削铅笔刀庶几可成。”

“手削铅笔刀不好用 建议购买机削铅笔刀。”

VP/NP ambiguity: 1 manually cutting sth vs mechanically cutting sth;2 manually cut product vs mechanically cut product

1 和 2 的实例 由于常识的干扰 也常常做 3 解:

3 “手削铅笔刀是老式文具 机削铅笔刀才是新产品 自动作业。”

3 与 ”削铅笔刀” 同,动宾搭配的VP 做“刀”的定语。然而,抛开常识 句法上则更趋向于 1 和 2 的结构逻辑语义。

白:想起了17头羊分1/2,余下的分1/3,再余下的分1/6的故事。这个题目到底有解还是无解,没有歧义,因为靠借来的羊分出来的方案不是原题的解。原题无解是板上钉钉的。在NLP里,靠借来的不同上下文组成(不是助力)的解读,算不算原句的解读?我认为不算。垂直于轴(纹理或纤维走向)的切削是“切”,平行于轴的切削是“劈”,与轴成锐角的切削是“削”。对于一把刀的加工过程,使用“削”的工艺,怪怪的。这是标准的伪歧义。除非是木刀或竹刀,但二者都很难再用于削铅笔。我觉得只有3是正解,1、2都是伪歧义。如果材料无轴向、无纤维、无纹理,通用的表示切削加工的词是“切”,而不是“削”。在3的理解下,“机”“手”只是在“刀”的动力传动方式上的差别,并没有改变“削”与“刀”之间的角色指派关系。人使用了错的表达,系统要做的是容错,而不是把错当歧义。

李:伪歧义与真歧义不是黑白分明的,没有一道鸿沟。当常识、场景和句法倾向性这三种东西开始蛮拧的时候,每个人的理解偏好可能不同。甚至同一个人也在不同的理解面前摇摆不定。很多事情不能深想 想着想着怎么意思就变了。所谓走一根筋就是有时候一不留神就被一种倾向性牵着鼻子走。

白:深想的过程,就是逐步接受抬杠者、犯错者角色的过程。预定义的倾向性,只要优先级足够,是不会被埋没的。非预定义的,就需要容错机制。容错往往都是有代价的,不是只有好处没有坏处。

李:刀削面,机削面条,手削面疙瘩。

白:疙瘩不会做“削”的工具吧。

李:1. 手削面疙瘩就是好吃;手削面疙瘩削不出好的疙瘩来;3. 手削面疙瘩和手削面团子有何区别?

“手削面” 和 “面疙瘩” 都是是蛮好的合成词,加在一起,左右就可以拔河比赛了。

“手削面疙瘩不如糙米疙瘩好吃”。手削面疙瘩,到底“手削”的是“面”,还是“疙瘩”?

白:结果是面疙瘩,削的是面,不矛盾。

李:白马非马呀。

白:不在一个频道。

刻印章,刻的是做印章的材料,做成了才是印章。在印章成品上再刻,就不怀好意了。

李:“现场观赏手削面疙瘩”。

白:现场观看制作成品,没有不妥呀。

李:对呀,是说【观赏+VP】,优先于 【观赏+NP】。“心急吃不了手削面疙瘩”,只能是【吃+NP】。

白:关键是NP和V的关系是制作和成品的关系。对外输出是成品还是制作过程,外部说了算。面是原料,面疙瘩是成品,削是制作过程。

李:严格说,削不出疙瘩来,只能削出面来,然后用削出来的面制作疙瘩。手捏面疙瘩 则不然,捏出来的是疙瘩。

白:疙瘩是一个微粒还是一道菜,这个有另外一套机制。削本来就不正确,已经在容错了。更准确的动词,拨、拨拉、剔,都可以有,捏不准确,疙瘩真心不是捏的。饺子的面剂,确实有“揪”出来的。

李:好像是掐出来的?记得小时候做疙瘩汤,老妈用大拇指和食指一疙瘩一疙瘩掐出来,丢进沸水中。看来 ((手擀面)疙瘩) 无疑。因为无论如何是擀不出来疙瘩的。疙瘩的特性就是奇形怪状,擀却是一个平整化过程。虽然常识如此,不细想的话,句法上的惯性则很可能是走 ((手擀)(面疙瘩))的路径(无论是作显性动宾还是定中+隐性动宾解)。音节上,2+3 的动宾结构也显得比 3+2的定中结构,服帖稳重很多。

白:反拉弧圈球,来球和去球都是弧圈。挡弧圈球,只有来球是弧圈。手抓饼,跟制作工艺无关,只是吃(消费)的时候要去抓。灌汤包,也不是包子做好了才往里灌汤。只是吃的时候感觉包子像被灌了汤。吮指原味鸡,甚至更过分。所以,构词法中的定语动词,到底参与了什么,不能光看格式,还要看动词本身。动词是制作过程的一个环节,固然可以代替全部过程。动词不是制作过程的一个环节,也不妨碍被修饰的词是一个成品。甚至只是来料。化妆舞会,舞会本身不化妆,是参与舞会的人化妆。相谐就反填,没有制作属性就细分或延展。延展可以多级。手抓,延伸到制作以后的吃。擀面疙瘩,延伸到制作“疙瘩”的前置环节。

与“削铅笔刀”更加平行的是“打狗棒”。这个格式没有歧义,刀是削的工具,棒是打的工具。逻辑主语另有安排,不在格式中出现,逻辑宾语紧跟动词,可以近似认为述宾结构就是一体化的成分。“削铅笔刀”有一个简化形式是“铅笔刀”。当分别引入前缀“机-”“人-”时,“削铅笔刀”就不复存在了,代替它的是语义等价的简化形式“铅笔刀”。所以,在“机削铅笔刀”“人削铅笔刀”当中,“削”是随“人/机”带进来的,与“削铅笔刀”中原有的“削”无关。也就是说,“人削铅笔刀”和“机削铅笔刀”均无分词歧义。都是2+3。再说有几个意思。这个2+3组合,从核心动词“削”本身来看,是“<施事>用<工具>从<原料>加工<产出物>”,其中的“原料”和“产出物”在大方向上是一个门类,二者在具体状态(比如特定部位的尖锐程度、平整程度、凹陷程度、裸露程度等)方面具有显著差别。所以,修饰指向施事、工具、原料/产出物,句法上都是可能的,语义上要根据上面的约束来排除伪歧义。首先排除铅笔刀作为“施事”:在显性定义了“工具”的论旨角色体系里,施事只是操作者、策划者、实施者,是具有智能的实体。“刀”无法胜任(以后AI发达了,就难说了)。其次排除原料/产出物,具体逻辑前面说过了,就是对原料的轴向/纹理/纤维及其加工走向有所预设。并非绝对不能对刀进行切削,而是这种切削不能用“削”来描述。这样,剩下来的只有工具了。而“机削面疙瘩”,同样的2+3组合,却自动少了工具一个论旨角色,剩下来,施事排除的逻辑更加简单:“面疙瘩”根本就不可能做“削”的施事。在“原料”和“产出物”当中,“面疙瘩”不具有“原料”所预设的形状和质地要求,只能当产出物。那么,“原料”是什么?当然是跟刀直接接触的原始面团。它有巨大的表面供刀子与切面方向形成锐角进行切削,真的满足加工走向的定义。机削面-面疙瘩,貌似分词歧义,其实分词早就搞定了2+3没商量。这不是白马非马,而是“受事”一个标签不够,必须用“原料”和“产出物”两个标签。参考一下“削苹果皮”,会发现,原料是“苹果”,产出物是“苹果减去皮”,更加复杂。还好,这还都是构词法的内容,讲究节律、利用构词常用字负载结构等等套路都应白名单制,有什么闪失也不会滥杀无辜。因为词例不同,对最终论旨角色的唯一解的选择也不同。尽管这个结构在词法和句法上无歧义,在语义的一般格式到论旨角色的具体映射中有歧义,但是实例化成“机削铅笔刀”和“机削面疙瘩”之后,都没有歧义。

李:“机削面疙瘩快极了,一削一个 一削一个,不到五分钟 削出来的面疙瘩一天也吃不完。”

“吃不完的机削面疙瘩 可以留到第二天接着用吗?”

“机削面疙瘩就是比手擀面疙瘩 粳米面条和糙米团子都要好吃 因为机削面里面有人工智能呢。”

“疙瘩还是那个疙瘩 可面有所不同啊。必须相信机器的力量。”

“可以预计 不久的将来 手擀面就会退出成品原料的市场 由机削面全面替代。”

白:VP另说。食品独有。后面例子中单独出现的“面”,有问题。手擀面、机削面中的“面”都是产出物/成品,跟“面疙瘩”中的“面”,同形不同义。

李:有无歧义会不会成为非限定问题?1 绝对无歧义;2 绝对有歧义; 3 乍一听无歧义,但经不起语境变化 以致不得不休眠唤醒。乍一听无 这类现象感觉在语言中比想象的 要多很多。这就是为什么普通 native speakers 对于歧义无感,比语言学家懵懂多了。

白:乍一听无歧义,另一个说法就是第一选择相对于其他选择存在明显优势。明显到通常会进行剪枝。不剪枝,必须外力。语言学家只不过经常职业性地使用外力而已。

李:“计算”语言学的坏处是 如果不预备合适便利的休眠唤醒机制的话 它在模型自然语言的时候 不得不处处留一手。最后造成伪歧义泛滥成灾,跟人的语感和理解完全不同。

白:外力的作用机制,可以笨拙可以巧妙,远不是只有休眠唤醒一条路。也许,往下下调一下剪枝的阈值就可以了。

李:当然不是窄义的休眠唤醒一途 那是极端情形的带有某种破坏性的操作。多层 hierarchical 的系统 基本上解决了传统规则系统的伪歧义问题,主要靠的不是唤醒,而是创造更多 更细密合理的剪枝环境和条件。靠的是 把规则组织成宽广的层级和优先体系。靠的是把系统看成是随时调控的动态过程 而不是一锤子买卖。深度是根本。一个平面不仅爆炸 而且歧义泛滥。没有足够纵深的伸展空间。

白:有了深度再看从左向右和从一而终,都是浮云。更关键的是,可比的对象一定有共同的可比的度量。不管你来自句法分析、语义资源、统计数据还是事理图谱。

李:仔细再想,“削铅笔刀” 还是有蛮拧的感觉。不同结构的音节数倾向性不同。蛮拧意味着歧义结构的角力。

<<削铅笔> 刀> 作为偏正结构,从音节数(语言形式)上看是 3-1,感觉不稳(比较常见的2-1偏正合成词“打狗棒”)。<削 <铅笔刀>> 作为动宾结构,音节数上看是 1-3,非常自然。所以形式上,VO 的结构得分,Mod 结构失分。

但是,语言还有其他力量在,其中包括常识语义。这个力量的强弱感觉因人而异:有人对语义敏感,“刀” 怎么可以做 “削” 的对象呢,不 make sense,立马否认了形式上的VO偏好。结论是无歧义。然而,习惯于不求甚解的人,常常糊里糊涂说话,也糊里糊涂听话,是其日常交流的常态。这类人可能就更易于保留动宾的解读可能性,至少不马上否决。

3-1 偏正除非已经词典里固化了(死记住了),感觉上别扭的人应该不少,所以我们说:“学马列小组”(3-2偏正),而不说“学马列组”。“看电影-瘾头” 不说 * “看电影瘾”。

3-1 偏正头重脚轻站不住;1-3 述宾则极为普遍自然:行万里路,爬太行山,吃XY饭,喝AB汤 …….

1-3 VO 已经很自然,2-3 VO 则更自然平顺:步行万里路,攀登太行山,大吃XY饭,狂喝AB汤…… (突然想到五言诗里面没做统计,但想必还是很多 2-3 VO 结构的。)

正是从这个音节平顺的角度,提出 “机削铅笔刀” 的歧义视角的。毕竟“削铅笔刀”可以 argue 说是词典里面固化了的例外,不必受音节数形式的约束。而 ”机削铅笔刀“ 肯定不是词典词,而且是 2-3。

白:“无后坐力炮”按照结构是“无-后坐力-炮”,实际读音的节奏是“无后-坐力炮”。已经不需要意识到结构了。“削铅笔刀”的实际读音结构是“削铅-笔刀”。

李:哈,角力的表现/表征之一,形式内容分裂了。

记得第一次意识到 “于无声处” 不是 “于无-声处” 而是 “于-无声-处” 的PP框式结构的时候,感觉是震撼。从小熟读鲁迅“于无声处听惊雷”未曾细想,后来有话剧《于无声处》风行,大街小巷议论此剧,有一天忽然意识到,原来一直读音与结构都在蛮拧着呢。

Despite 这些蛮拧,在很多现象的中文句法解析中,字数(代表音节数)是一个非常得力和重要的辅助条件。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白104: 孤岛禁忌,还是残坑过继找萝卜?】

李:
老话题,中文句式 “NP1 NP2 Vt …”中,谁(逻辑)主语,谁宾语呢?

“这帮饿鬼一席好菜吃得盆干碗净”
“一席好菜这帮饿鬼吃得盆干碗净”

白:
两个左填坑,多清晰。非要在大小主语和逻辑主宾语的标签之间纠缠干啥?

深究的话,两个左填坑是填向同一个动词的,还是一个填向核心动词另一个填向残坑的,这才是需要区别的。但就算是填残坑的,也不必然是大小主语这种很局限的概念所能容纳的。

“小提琴他梁祝拉得最好。”

这是大小宾语夹着逻辑主语。小提琴和梁祝,都跟谓语动词相谐,可坑只有一个。所以另一个只能降格。

“胡子他从来不刮鬓角。”
“胡子他鬓角从来不刮。”

“鱼他从来不吃头。”
“鱼他头从来不吃。”

这是填残坑。如果允许任意私拉飞线,发现属性或部件关系不是问题。但若仅限“邻对”才能建立二元关系,技术上就有的扯了。私拉飞线的代价就是复杂性上升到平方级。

“部队的战友他只跟张三来往。”
“部队的战友他只有张三还有来往。”

“一起去旅游的朋友他只知道张三的下落。”
“一起去旅游的朋友他只有张三知道下落。”

李:
决定私拉还是决定相邻 没有来自UG的理据 主要是语言本身的特点。

白:
语言本身的特点应该词汇自带

李:
短语结构必须相邻 是一种偶然的约定。赶巧从英语出发,发现有所便利。不过,短语结构的分析路线客观上杜绝了交叉的可能性。这里面貌似有一些逻辑上防止思维紊乱的好处在。也就是说,短语结构的左右边界的约束使得交叉二元关系成为不可能。这符合绝大多数的语言事实。但缺点是,例外在这个框架里面很难容纳。

在 abcd 中,如果a与c发生关系 b和d就不可能发生关系,这是犯了“交叉禁忌”。从短语结构来看 这是必然排除的:(abc) d 或 a(bcd)。

有括号大墙挡着 交叉不被允许:*(a[bc)d]

其实我想说的是,交叉禁忌作为逻辑追求清晰的天性,也许的确具有超出语言本身的普世理据,但是,利用短语结构的形式约束来实现或贯彻这个理据。第一是太死板,没有给例外留下容纳的余地。第二,感觉上短语结构这种等价于打括号的做法,也不是实现这种约束最精简的机制。

交叉禁忌与最大跨度类似 都是原则,都有人类的思维逻辑里面某种共同的要求,都在语言事实上有统计意义的反映,但都不是铁律。

白:
这个括号类比有一个bug,主导词(坑)和跟随词(萝卜)以及修饰词(萝卜皮)的区别没有了,只剩下左右。这大错。一个词既可以释放坑,又可以同时释放萝卜的特性没有了。关联不一定是边界。关联会引起辖域变化,但不一定是自家辖域。a和b关联,引起c辖域的变化。因为c是head,管着b,但b的辖域就那样了。不会因为新增关联而扩张。

李:
那是一个比喻。短语结构两个要素:一个是左右边界,即括号。还有一个是头词的确立。等价于依存中的父节点代表。

白:
所以一个位置,可能会出现既填坑又被填坑、既修饰又被修饰的复杂情况,岂是一个只能在左右之间选一的括号所能代表。比如,“小张把眼睛哭肿了”的“肿”。它的辖域归顺了“哭”以后就不再扩张,但它的残坑一直蠢蠢欲动,直到遇见“眼睛”才消停。有点像基金,你有所有权,但你赎回之前没有处置权。是基金经理在处置你的资产。关系是你的,但辖域不是你的。代表辖域处置你的残坑的,是head。这样既避免了飞线的复杂性,又扩展了二元关系的可能范围。正所谓合则两利。同时,卧底是你派的,打赢了地盘归我,这好事哪个head不愿意干啊……

以“王冕死了父亲”为例:“王冕”是“父亲”的卧底,“父亲”在内战中已经归顺“死”,于是在“王冕”的地盘和“死”的地盘交上火了以后,“父亲”就可以通过这一层卧底关系,招安“王冕”到“死”的地盘中来。处置权和所有权分离,辖域主人和二元关系当事人分离,是这一切的关键所在。

更何况,“死”自己已经给不出未饱和坑,只能靠“父亲”这个加盟店带来的残坑凑数了。典型的“羊毛出在猪身上”。谁让猪加盟了呢。所以我说括号的比喻有bug,bug就在把辖域的所有权和二元关系的所有权做了多此一举的捆绑。其实,辖域都是我的了,我管辖范围之内的残坑归我支配有什么大不了的?只要有支配权,这局棋就走得下去,二元关系的所有权只是个名份,给出去有什么要紧?

李:
残坑的说法也可能有问题。所谓修饰语被头词吃掉以后,把自己的坑带给了头词成为残坑。等于是说,本来的短语黑箱子又变透明了。

语言学里面有个 island constraint 说的就是黑箱子性质。被包裹起来的内在元素,从外面是看不见的。到底看得见看不见?感觉上,两边的证据都有。包有包的理由,过继有过继的理由,都不足以涵盖全部事实。

白:
这恰恰是要质疑的。拿黑箱子论证不交叉,感觉是自说自话。这俩如果都不对,就塌了。

李:
例如,“他做了三例心脏手术。”  谁的心脏?

白:
患者的。

李:
这个问题不存在,或者说,这个坑被包住了,不能过继。为什么?因为它在NP最里面。从 x bar 理论来说,第一层是 NG,“心脏”就被吃了。第二层是 NP,“心脏”就被裹进去两个括号,完全看不见了。自然谈不上去找萝卜了。如果硬找,八成是错的。“他” 更可能是大夫。

白:
我的观点是,已经过继了,外面萝卜不相谐或者有歧义,那是另外的问题,不应该跟有没有过继连在一起。跟几个括号不应该有关系,硬不硬找都不是关键。不找是本份,输出是义务。

李:
“患者的心脏”,那不是语言。那是本体。 静态常识。说了白说。

白:
不是抽象患者,是具体患者,可以落地那种,只是没有外部名字,内部是有id的。就是三个id当中分配了一个。

李:
问题是落不了地,也不该落地。因为埋藏太深了。

白:
“他做了三例心脏手术,其中一位患者出现异常反应。” 怎么连起来的?“心脏”给那位异常反应者。

李:
这是硬要去联系,不是语言理解所需要。“患者” 与 “手术” 有直接关系。这是语言理解需要的。“患者” 与 “心脏”的联系,最多是间接的,不是理解所需要的。“心脏”就是限制“手术”,表明手术种类。“心脏”没有落地的必要性。

白:
需要的时候给不出来就是失职啊。但也引入了待定事项。

“他做了三例心脏手术,其中一位植入了人工瓣膜。”

李:
咱们推向极端,把句法进一步推向词法,这个道理就更清楚了。“心脏病”,听到这个合成词,没有人感觉需要了解谁的心脏。要了解的是,谁的病?虽然逻辑上,可以推理出来,谁的病,就是谁的心脏。但是这个填坑 没有语言信息表达 传输和理解的必要性,不增加有效信息。

白:
心脏没限定功能,“的”有限定功能。有个载体是明确的,x而已。

有备无患,萝卜来了就是有效信息,萝卜没来就是潜在信息。萝卜也不一定是落地实体,可以是逻辑算子。所有、全部、某些、某个、特定,都是一种落地方式。

李:
谈心脏病,追问谁的心脏,这不是常人的思维和信息需求。这是一种干扰,干扰了真正需要理解的信息。换句话说,保持不定状态对于有效的语言表达和理解,也许与填坑落地 同样重要。Keep it unspecified as a necessary and natural part of communication, 这就好比大脑。大脑的遗忘与大脑的记忆功能 同样重要。如果一个人一辈子只记忆 不遗忘 想来是非常可怕的。

该填的萝卜没填上与本来就不该填的坑,硬要去填, 这二者需要区别。区别在于某种程度的 孤岛限制。

白:
最多可以说,它的输出不活跃、被动,区别于活动的和主动的,但绝不是没有输出。一旦有萝卜就能填,和有了萝卜也无坑可填,也是需要区别的,或者说更是需要区别的。

分三档我也没意见:一定不用、default不用但可用,default用。但把中间一档去掉我不同意。微结构不打开就不用,打开就可用。

李:
赞成。

词法、“短语法”、句法,、是三个台阶。每一个台阶 都带有某种黑箱子味道。就是那种防止坑变成残坑的趋向。

白:
词法归词法,微结构毕竟可以不打开。但是非词法的部分,特别是自由组合的部分,一定是default可用的。而且从default可用,过渡到default不用但可用,我也不同意取决于残坑的嵌套深度。

很多嵌套是修饰语的叠加,基本上没什么衰减。每次残坑转移衰减一次我赞同。就是换一次干爹衰减一次。

“小提琴他梁祝拉得最好。”
“胡子他从来不刮鬓角。”
“胡子他鬓角从来不刮。”
“鱼他从来不吃头。”
“鱼他头从来都不吃。”

“这个会所我二楼从来不去”

“二号楼”没坑,“二楼”有坑。所以刀郎唱的“八楼”很让人困惑。汽车怎么会停在某建筑物的八楼,还是公交车,原来人家是专名。

与属性/部件相关的语义理解,不是难在语义描述本身上,而是难在穿插变幻的语序上。打开语序的约束(邻对),就要handle满天的飞线;不打开语序的约束,就会漏掉交叉现象。所以我们研究把语序约束开一条小缝,控制住飞线,同时又能捕捉交叉。语义本身的描述是结果,handle语序是过程。看结果,只看得见“正确”与否,看不见“可行”与否。所以,HowNet告诉我们语义长什么样是一回事,通过一个可行的过程把握语序,最后搞成那样子,是另一回事。

李:
说得很好。关键是这条缝怎么开了。

漏掉交叉现象,以前不认为是问题。至少在英语解析中,从来都认为是天经地义的。没人愿意违反交叉禁忌原则。这个问题成为问题,主要还是到了中文以后。中文表达里面,“违反原则”的事儿不少。不得不有个应对。这才有开一条门缝的说法。才有依存关系图优于短语结构句法树的论证,因为前者的表现力更加丰富自由,没有那么多原则和禁忌。

白:
回到辖域代表权和二元关系落地权之间捆绑还是松绑的问题。这是两件事。在不交叉“原则”的背后,有一个观念认为应该捆绑。中国人的语言实践则说明二者可以松绑。松绑无害。

李:
但是,另一方面来看,尽管中文违反原则的事儿并不难寻,但隐隐约约感觉,英语中有效的那些原则,包括反对交叉原则,实际上在中文也有一定的影响力。

白老师经常举一些奇奇怪怪的违反原则的例子。好多例子听起来有一种不同程度的“别扭”。别扭在人类的句法原则和语义原则发生了冲突,给人感觉怪怪的,到底是合法非法,界限模糊了。

白:
那是你在英语世界呆久了。交叉不影响相谐,反而利用相谐。句法说的结构只是辖域之间的包含结构。只是针对这一种形式关系,不应扩大化。辖域代表权和二元关系落地权可以拆离。

李:
语义原则就是从本体来的萝卜填坑的“相谐”性,句法原则就包括结构不允许交叉依存。

多数现象二者没有矛盾。到了发生矛盾的时候,就是那种语言比较边缘的地带了,属于毛毛虫的毛刺部分。但对于解析来说,也还是要应对。而且人虽然感觉别扭,也还是听得懂。

套句马列主义课堂上学到的辩证法,原本是谈经济基础和上层建筑的。语义是决定性的,句法是非决定性的,但是句法对于语义有反作用。反作用的表现就是那些原则虽然可以违反,但是违反了感觉上不自然。

白:
多说几遍就没有反作用了。也许只是一种参数化的容忍度,有个体差异,阈值可调。

李:
哈,多说无数遍就成为成语黑箱子了,自然反作用也趋向于零了。

这里面有一个很长的灰色地带,或者说毛刺地带。有点像鸡肋,食之无味,扔之可惜。遇到社会媒体这种monster,还不得不对付。

白:
看这个:“这个会所我二楼从来不去”。念两遍,自然顺了。分析从宽,生成从严。分析不出来怪人违反原则,不是很健壮。

李:统计上应该有反映的。“这个会所二楼我从来不去”,“我从来不去这个会所二楼”,感觉上,会有多得多的人这么表达。

白:
统计有的扯,到底怎么采集就算平衡了。长尾难道该死。

分析不要管毛毛虫的实际边界,要管“外包络”。生成也不用管毛毛虫的实际边界,要管“内包络”。不踩线更安全。内外包络可以都是平滑的。在两个包络之间,如果有统计信息可以利用,可以走得更远。所以我现在在做理解的场合很少关注什么不能说,除非可以用来作为消岐的线索。

李:
内包络外包络的说法很好,不必踩线划线,在灰色地带做无意义没结果的争论。但是,灰色地带比起黑色地带,到底还有个分别。纯粹从语言工程上考量,也还是优先搞定黑色地带,灰色地带可以推后。这是其一。其二,灰色地带的难度相对大,收益相对小,也一般是事实。

白:
关键是方向。分析要从宽,包容性要大。说三遍就通的句子,要当作合法句子处理。可说可不说的,一律按可说处理。

如果一个机制能够罩住一堆长尾,但是同时也能罩住不是长尾的一堆胡说八道,只要统计上那些胡说八道的出现概率足够小,这个机制就是非常诱人的。如果落地的环节还有过滤那些胡说八道的第二道防线,那就更没什么担忧的了。

我们不是先有一个粗线条的机制罩住80%,再用另一个精细化的机制去罩住更多。我们是一开始就罩住很多,但胡说八道也会罩进来。搏的是胡说八道占比很低。所以不存在精细化环节带来的成本收益考量。毕竟难为我们也赚不了什么钱,为此在网上大肆制造胡说八道语料,得不偿失。

“学校我从来不从正门进。

“正门”绝对处于旁岔(介词宾语)。但是,它留下的残坑辗转换了两次干爹,每个干爹又各自扩充了地盘之后,在干爹“进”的带领下最终迎来了相谐的大萝卜——学校。

【相关】

【一日一析:表层句法形式变化,深层逻辑形式不变】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【一日一析:表层句法形式变化,深层逻辑形式不变】

这也是老生常谈了,从上世纪50年代乔姆斯基的表层结构深层结构的转换就开始了。但这的确是自然语言最突出的特性:一个意思有多种(几乎)等价的表达。例如:

(1a)这帮饿鬼把一席好菜吃得盆干碗净
(1b)这帮饿鬼一席好菜吃得盆干碗净

一字之差,中文句法解析完全不同。

介词“把”字的省略,造成了两个名词短语相邻,所以句法解析可能就走不同路径了。这是中文语法学界讨论蛮多的话题句式,第一个NP是话题 Topic,很像一个句子的大主语。第二个NP才是主语,也有语言学家分析说是个“小主语”,它与动词短语结合在一起,作为大主语的大谓语。无论句法上解析为大小主语也好,大小谓语也好,或者话题加单句也好,但是说来归齐,这种省略了“把”的句子与没省略“把”字的句子,说的是一个意思。因此,逻辑语义深度解析还是要统一到同样的逻辑形式(logical form)表达的。这正是我们深度解析(deep parsing)需要做的工作。下图的依存关系图是我们目前中文深度解析器的最终输出结果,就是上述逻辑形式的统一表达。

类似的,“被”字也可能省略。除了把字句和被字句外,其他句法形式还包括重叠式与得字结构。这些都是汉语句法讨论过很多年的语言现象。

(2a)一席好菜被这帮饿鬼吃得盆干碗净
(2b) 一席好菜这帮饿鬼吃得盆干碗净

(3a)这帮饿鬼吃一席好菜;这帮饿鬼吃得盆干碗净
(3b)这帮饿鬼吃一席好菜吃得盆干碗净

 

 

 

【图例】
S: Subject; O:Object; B: Buyu; M: Modifier;
X: Purely functional; Z: Functional

 

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

Interview 1/10: Critique of Chomsky’s Formal Language Theory

Q: Lao Li, I have been paying close attention to your academic track. I deeply admire you for more than 30 years’ in-depth study of symbolic logic in the field of natural language understanding with your unique innovation. On your NLP Channel, I notice that you’ve been critical of Chomsky. Chomsky is the representative figure of the rationalist school. Like many others, I admire Chomsky. As far as I know, you are also a rationalist. So why do you, as a linguist who practices rationalism, criticize Chomsky?

A: First of all, although I have criticized Chomsky, pointing out his theoretical issues and objective misguidance in the field, these are “criticisms within the school”. There is no doubt that Chomsky is the father of computational linguistics and the banner of rationalism in the field of artificial intelligence. His theory of formal language is the cornerstone of computational linguistics. All of us computational grammarians, as practitioners of the symbolic logic of rationalism in language, are his disciples. When we criticize him, we still use his formal mechanism as the frame of reference.

From the perspective of language formalization, Chomsky, who has a deep mathematical background, brings mathematical rigor into the formal study of language. At least in terms of formalism, Chomsky unified human language with computer language to have achieved a highly abstract symbolic system no others could dream of reaching. Without Chomsky’s formal language theory, computer science could not develop high-level languages, and all the achievements of the information industry would be unimaginable.

On the other hand, it can be said that Chomsky’s negative impact on the field is as big as his revolutionary contribution to linguistics and computer science. His formal language hierarchy is a theory of pure genius, which lays the foundation of language formalization. This formalism has become the theoretical basis of computer high-level languages and their compiling algorithms. It is used at its best to create, parse and compile computer languages as a perfect guide. However, perfection is sometimes only one step from fallacy. Chomsky criticizes the finite state machine as not suitable for modeling natural languages due to a lack of recursion mechanism. Too many people are misguided and fall into the so-called “more powerful” context-free mechanism.

Such an intelligent and powerful figure, if he misleads, can impact an entire  generation. The generation that was affected was my direct supervisors and predecessors when I entered this field (in the 1970s and 1980s), their work in natural language understanding was almost exclusively toy system confined to labs, difficult to scale up and demonstrate in practical applications.  This directly led to the rebellion of the next generation. This is the piece of history in artificial intelligence, the famous competition between rationalist symbolic school and empirical statistical school, with long struggles between the two paths. The rationalists of the old generation were at a disadvantage in competition and gradually withdrew from the mainstream stage.

All the advance of the statistical school over the last 30 years has been a practical critique of Chomsky because almost all of these models are based on finite state models, which he repeatedly criticized as inappropriate for natural language. The context-free grammar he advocates has achieved limited success in the field of natural language.

Q: Now that everyone is advocating neural networks and machine learning, is there still room for the symbolic rule school? Rationalism has lost its voice and visibility in the natural language community. What do you think of the history and current situation of the two?

A: Well, machine learning has been on the rise in natural language processing since about 30 years ago, with the rapid development of data and computing resources. Especially in recent years, deep neural networks have achieved breakthrough successes in learning. The success of empiricism, in addition to the innovation in neural network algorithms, also benefits from the availability of unimaginably big data and big computing power today. In contrast, the rationalist school of symbolic logic, due to its implacability,  gradually withdrew from the mainstream stage of the academia after a brief upsurge of phrase structure grammars with innovation based on unification about 20 years ago. There are several reasons for this situation, including Chomsky’s long-term negative influence on computational grammars, which deserves serious reflection.

Looking back at the history of artificial intelligence and natural language, the pendulum of empiricism and rationalism has swung back and forward, but the pendulum of empiricism has been on the rise for the last 30 years (see the red dot in figure 1). In his article “Pendulum Swung Too Far”, Professor Church  predicted and called for the resurgence of rationalism and presented an illustration below:

At present, due to the breakthrough of deep learning, empiricism is still in the limelight. Although rationalism has been accumulating efforts by itself for many years, it has not yet reached the tipping point where it can compete, head-on, with empiricism. When one school becomes mainstream, the other naturally fades out of sight.

Q: I have a feeling that there is some confusion in the community and outside the community at large. Deep learning, which is a method of empiricism, now seems to be regarded by many people as equivalent to artificial intelligence and natural language processing. If the revolution in deep learning sweeps through all aspects of artificial intelligence, will it end the pendulum swing of rationalism? As professor Church says, the pendulum of empiricism has swung too far, but it looks far from falling back.

A: My definite answer is no. These are two different philosophical bases and methodologies, each with its own natural advantages and disadvantages. Although there are reasons for the status quo of the existing one-sided empiricism in the current academic world, it is not a healthy state. In fact, both schools are competitive on one hand and also highly complementary on the other hand. Some older generation mainstream pioneers like Church have been warning about the disadvantages of one-sidedness in empiricism, and some new scholars in deep learning have been exploring the integration of the two methodologies to solve the problems of natural language.

Yes, much of the current surge in AI is based on breakthrough performance from deep learning, especially in the areas of image recognition, speech processing as well as machine translation, where AI systems have reached or exceeded human quality. This is an unprecedented amazing achievement indeed. However, the fundamental limitation still exists with deep learning, as well as all the other successful empirical methods at present, that is, the dependence on massive annotated data, what we call the knowledge bottleneck. The reality is that in many fields and application scenarios, such as natural language parsing, machine translation of e-commerce data, data of massive annotation or domain translation do not exist. This knowledge bottleneck severely limits the performance of the empiricist school in natural language understanding and other fine-grained cognitive tasks. There is simply not enough annotated data in many sub-fields, and without, it is almost impossible to make bricks without straw for learning. This is especially true for deep learning, which has a much larger appetite, like insatiable, than traditional machine learning.

Q: So it seems that deep learning is not an all cure. Rationalism has its place. You said the two schools have respective strengths and weaknesses. Can you compare and contrast them? Why are they complementary?

A: Let me summarise the merits and demerits of the two for a serious contrast.

The advantages of empirical statistical models include: (1) good at coarse-grained tasks, typically, document classification, for such tasks, statistical learning is naturally better to draw the overall conclusion; (2) robustness; (3) high recall: due to the lack of structures and understanding, many tasks might face a ceiling for accuracy, but recall-wise, learning usually performs well; (4) development efficiency: it can quickly scale to a real application scenario of big data.

The main limitations of the statistical school are: (1) the dependence on massive annotated data: this is the biggest knowledge bottleneck; (2) it is difficult to make targeted debugging: the statistical system is more like a black box, a big defect for maintenance and iterative incremental enhancement of a software system; (3) lack of interpretability: whether the result is right or wrong, it is difficult to explain, which affects the user experience and confidence. The main reason is the lack of explicit structural representation and symbolic logic in the algorithm that people can follow.

The rationalist approach simulates human cognitive processes without relying on massive labeling data to imitate on the surface strings. Rationalism directly formalizes the experience of domain experts and uses the explicit rule system from symbolic logic to simulate human intelligence tasks. In terms of natural language understanding, the grammar school formalizes the rules summarized by linguists so as to parse natural language in detail at all levels and achieve deep syntactic-semantic analysis. In this respect, rationalism has its natural advantages.

To sum up, the advantages of rationalist rule-based school include: (1) good at tasks of fine-grained tasks: very detailed analysis, such as the deep parsing of syntactic semantics with logical reasoning; (2) accuracy: the rule system written by experts is easy to guarantee high accuracy, but the improvement of recall is usually a long iterative process; (3) debuggable in error correction: the basis of the rule system is symbolic logic, which is easier to trace to the root of the error in debugging; (4) interpretable: this also benefits from the understandable symbolic logic basis.

The main defect of the rule school is the low efficiency of manual coding, and the dependence on expert coding is the knowledge bottleneck of the rule school. Supported by the same platform and mechanism, different levels of expertise determine different levels of quality. The two paths have their own knowledge bottlenecks, so to speak. One is to rely on a large quantity of “low-level” labor, labeling, though very monotonous,  is work that can be assigned to ordinary students with a little training. The other is to rely on a few experts of “high-level labor”,  much like software engineering, for coding and debugging rules, the knowledge engineer training costs are high, making it more difficult to scale up to the real world. Finally, the talent gap can also be regarded as a realistic severe limitation of the rationalist school. 30 years is exactly one generation, during which empiricism has occupied the mainstream stage, and attracted almost all newcomers, causing a generation shortage of talents in the rationalist camp.

As for the recall, it cannot be simply concluded that high precision is bound to have a low recall rate for rule systems. The actual situation is that, on the one hand, it is not at all difficult to achieve a balance between precision and recall, by deliberately relaxing rule conditions and sacrificing accuracy. On the other hand, while high precision can also be maintained, the more rules added to the system, the more phenomena will be captured, hence the recall rate will come up naturally and incrementally in the iterations as time moves on. In other words, recall is a function of time and development resources put in, without having to compromise precision.

Q: Since each has its own strengths, as the rationalist pioneer and father of computational linguistics, why doesn’t Chomsky exert its due influence in the field of natural language processing? His impact has been waning, and the newcomers to the field hardly hear of him.

A: Indeed it is. Although I am a rationalist, I also see that there is a considerable historical burden from this school that needs to be seriously reflected on from the perspective of formalism architecture.

Chomsky is the founder of modern rationalism, but the theory and practice he developed also involve some misconceptions. We must recognize these so that we can move forward the linguistic rationalism in symbolic logic steadily and deeply for natural language. In fact, after decades of theoretical exploration and practical experiments, the grammar school has seen fairly clearly its own theoretical limitations. Those who stick to the symbolic rule systems have broken through the path of innovation in the inheritance of rationalism, and have made their own breakthrough in deep parsing, the very core of natural language understanding, and in its scale up to big data for real-life information extraction and text mining applications. That’s what we’re going to focus on in this series of interviews.

Q: I know you have great faith in rationalist symbolic approaches in general. However, you have also seen a number of misconceptions in Chomsky’s theories. which are the most critical?

A: On his formal language theory, there are two fallacies to my mind, one I would name Recursion Fallacy and the other Monolayer Fallacy.  On his linguistics theories, one of the very basic propositions in his linguistic revolution is “syntactic autonomy” or “self-contained syntax”.  It involves serious potential consequences in the analysis of certain languages such as Chinese.  His phrase structure grammar tree represenation with his X-bar theory in syntax is also worthy of reflection and criticism, especially when it is put in the comparative study with the alternative dependency grammar and its representations for NLU. Let’s look at Recursion Fallacy first.

In my view, Chomsky’s greatest mislead was to use the so-called recursion nature of natural language to criticize pattern matching in finite states. His cited English examples of center recursion are far-fetched and rare from real life, making it difficult to argue for its being the nature of natural language. Nevertheless, a generation still chose to believe in his theory, taking it for granted that finite states had to be abandoned in order to be able to parse natural language.

Q: Isn’t it generally accepted that natural language is recursive? How to say it is a fallacy?

A: Exactly because it is widely accepted, it is of the more misleading nature and consequences, hence requiring more serious critique.

Recursion in natural languages typically comes in two types: (i) right (branching) recursion and (ii) center recursion. Many people don’t consciously make that distinction, but in computational theory, they are two very different things. Right recursion is linear by nature while center recursion is nonlinear, a completely different monster, of much more computational complexity. In natural languages, right recursion is fairly common and can at times be as many as seven or eight levels nested, which still reads natural and easily comprehensible. For example, the VP nesting example:

(to request A (to beg B (to ask C (to do something))))

For right branching recursive structures, we usually do not feel a burden in the communication. The reason is that, although the right recursive left boundary is in an uncertain position, they all end at the same poin for the right boundary, like this: (… (… (… (… (…… ))))). Thus, we do not need a “stack” mechanism in memory to deal with it, it remains finite-state.

Chomsky cannot criticize finite-state devices with right recursion, so he needs to base his argument on center-recursion, a rarity in language. The fact is that natural languages have little manifestation of center recursion. Center recursion is much like matching parentheses. You want the parentheses to match each other so  you can express and understand the proper nesting structures, like this: { … [ … ( …… ) … ]… }. After as many as three levels of center recursion, our brain can no longer cope with the pairing complexity, which is why it’s hard to fine such phenomena in real life language data.

Q: I remember some examples of center recursion in English:

      The man who the woman who had lost all the keys was calling all day finally came…

A: Is this “human” language? Chomsky repeatedly attempt to teach us that not only this is human speech, but it is the very nature of human language, hardly any hypotheses about language as far-fetched as this to my mind.

Q:  Let me try to understand what you mean: center recursion does not exist, or does not exist over three levels, so natural language is finite-state?

A: Well, not that it does not exist, it’s so rare and far-fetched, and it’s never more than three levels deep unless you’re pulling a prank. Therefore, it can by no means be the “nature” of natural language.

The very idea of unbounded center recursion in language, far from the observable facts, in effect violates the limits set by the short-term memory following psychology. Where in the world do people talk like that, like, keep opening the doors without closing them behind, in a maze-like complex castle, with nested sub-structures after substructures? A path of 3 doors opened, an average person will get lost in the maze. Even if you’re a super linguist, and you can stand it, your audience will be bound to be trapped. Is natural language not to communicate, but deliberately making difficult for people to follow you?  This is not in accordance with the consensus that language is born for communication and serves the ultimate purpose of communication.

Using pranks and verbal games as evidence of linguistic competence and the nature of language is one of the most misleading aspects of Chomsky’s recursion theory. This recursion trap leads many people to automatically accept that natural language is recursive and therefore we must discard the idea of finite states. The people who believe in him, on the one hand, are influenced by his authority as the father of modern linguistics; on the other hand, they often mis-regard the more common and deeper right recursion for center recursion as evidence in support of Chomsky’s recursion hypothesis. Chomsky himself is intelligent and rigorous as not to use readily available right recursion as evidence, he only uses center recursion as an argument.  But he’s in effect misleading.

Q: I guess this is a typical behavior of mathematicians and philosophers: they pursue formal perfection. As long as it is theoretically impossible to exclude multi-level center recursion, it is required that the formal mechanism must have a built-in recursion mechanism. But practitioners of natural language understanding do not have to be bound by that theory, do they?

A: after all, the foothold of the theory should be based on the real-life natural language object and data, right?

In fact, in the research of corpus linguistics, some scholars have conducted a very extensive survey and found that the so-called center recursion in natural language never exceeds three levels, and the occurrence of three-level recursion is extremely rare [reference]. The phenomenon of natural center recursion beyond three levels is simply not found in a very large running corpus, not a single case found. So why boil a very limited center loop down to what seems like an infinite level of recursion, and furthermore consider it the essence of natural language, and use it as an argument to determine the choice of the formal model for natural languages? This has had serious consequences for computing and NLU going beyond labs for applications.

In order to deal with theoretically infinite center recursion, the human brain, or computer memory, must have a “stack” device and a “backtracking” algorithm. Without going into the technical definitions of these computer terms, computer science studies have demonstrated that stack-based backtracking is expensive for computation. Using it as a basic device for natural language severely impedes language parsing from leaving the laboratory. Specifically, Chomsky’s “context-free grammar” with built-in recursive devices is theoretically bound not to have corresponding linear speed algorithms. The absence of linear algorithms means that the computing time is beyond control, so when entering big data out of the lab, this kind of thing is one limiting factor in practice. This is one of its fundamental flaws in his formal language arguments for natural language.

Q: I agree with you: there are only very limited levels, we don’t have to stick to recursive grammars. But I still have a question. Short-term memory is a psychological concept, and most of us in computational linguistics believe that psychology has no place in linguistics. Don’t you agree?

A: I don’t agree. The limitations of psychology have a direct effect on real linguistic phenomena, that is, psychological effects are reflected in linguistic phenomena. Real language phenomena, not imaginary phenomena, are the goal and final foothold of our natural language study. What we’re dealing with is a data set with a psychological constraint, and it’s obviously not appropriate for us to adopt a mechanism to deal with it based on a hypothesis that disregards psychological constraint.

Q: But even with the addition of psychological restrictions, don’t real corpora still have recursion? If yes, without the formal recursion device, such as the finite state machine, how can it handle the actual existence of the center recursive structure as long as it is not a non-existence?

A: Not a problem at all. As long as the recursive structure is bounded, the finite states have no problem in dealing with it. All we need is just cascade a few more finite state machines. Since you have at most three levels of center recursion, then it is 3 machines with 3x time needed, which is still linear. Even 10-level center recursion is not a thing, just add up 10 finite state automata. In our deep parsing practice, we have once applied up to 100 cascaded finite state machines for very deep parsing, in high efficiency. This kind of finite state pipeline systems, often called cascaded FSAs, is essentially the same concept of the pipeline as used in software engineering.

Q: Chomsky Hierarchy, named after Chomsky, is the most famous discovery in Chomsky’s formal language theory, which divides grammars into four types, type 0 to type 3, corresponding to different automata. What do you think of his hierarchy?

A: Chomsky’s formal language hierarchy is like a hierarchical castle with four enclosing walls safeguarding inner cities. Each formal device is like an internal forbidden city. Here we particularly recommend and quote an insightful study of Chomsky Hierarchy by Prof. Bai, which I call  a “caterpillar” theory of natural language (S. Bai: Natural Language Caterpillar Breaks through Chomsky’s Castle):

If we agree that everything in parsing should be based on real-life natural language as the starting point and the ultimate landing point, it should be easy to see that the outward limited breakthrough and the inward massive compression should be the two sides of a coin.  We want to strive for a formalism that balances both sides.  In other words, our ideal natural language parsing formalism should look like a linguistic “caterpillar” breaking through the Chomsky walls in his castle, illustrated below:

Prof. Bai also clearly sees that Chomsky’s recursion theory is too far away from linguistic facts, so he puts special emphasis on “real-life natural language”. After all, formal systems serve as formalized models for natural language, that is, they need to provide an appropriate framework for what natural language looks like. The common answer shared by Prof. Bai and me is that a suitable natural language model needs to get through the walls inside the Chomsky Castle. Any single device in Chomsky’s existing formalisms, when used to model natural language, is either too small to fit, or too large lacking appropriate restrictions. In both theory and practice, it is necessary to penetrate the walls of Chomsky Castle and form an innovative formal system, so as to lay a good foundation for the revival of grammars in natural language modeling. In the formalization process of penetrating the walls, Mr. Bai has his own innovation, and I have mine. My proposition is to extend and overlay the finite-state mechanism, so as to establish a shallow and deep multi-layer rule system for natural language deep parsing and understanding.

Do not look down upon finite state machines, which seem to be a very simple mechanism for pattern matching. When they are added layer by layer in the architecture of a reasonable pipeline system, they can cope with very complicated structures and phenomena and reach the depth of language parsing that is never before made possible by traditional context-free grammars or other devices. Of course, the mechanism itself can be reinvented and recrafted, such as incorporating the unification operation in handling language reduplications, e.g. in Chinese, “看一看”: V 一 V (literally look-one-look: “take a look”).  There are also rules for pattern matching that can effectively eliminate ambiguities by adding post-context conditions, similar to the “look ahead” effect in backtracking algorithms, to the pattern matching device.

It is worth emphasizing that maintaining the linear nature is the premise of any formalism innovation. No matter how we extend the mechanism of finite-state devices, this one remains an unchanged goal, that it must retain the essential characteristics of finite state to ensure the “line speed”. We use a multilayer cascade to bypass the recursion trap, hence eliminating the biggest hidden trouble that hinders linear speed. Since the linear multiplication remains linear, the cascaded finite state system does not change the linear benefit of the system. Computationally, the processing speed required for three-layer recursion is only 3x, which will not affect the scalability potential of the system. In fact, we have deployed multi-layer systems, usually with more than 50 layers. Our Chinese system sometimes cascades up to 100 layers in the architecture, where capturing recursive structures is just a relatively simple task inside.

Q: That’s fascinating.  And very imaginative, too. It is apparent that you and Prof. Bai have both accumulated years of practice and deep dive into natural language so you two have such insights as summarised above in breaking through the internal walls of the Chomsky Castle. Ok, so the first issue with Chomsky formal language theory is the recursion fallacy, what’s the second fallacy?

A: The second major problem with the Chomsky formal language theory is briefly mentioned above, which I call  Single-layer Fallacy.

Turn to the chapter on parsing in the computational linguistics textbook, the typical algorithm for parsing, known as chart-parsing, is often introduced on the formalism of a context-free grammar (CFG). CFG contains recursive calls in its rules for covering recursive structures, a point emphasized by Chomsky as the key feature for natural language. The implementation of this rule system is carried out in the same search space on the same plane, thus the so-called chart-parsing can be illustrated on a flat chart. Successful parsing is represented by one or n search paths that cover the entire sentence.

[consider a chart parsing sample.]

The essence of single-layer parsing is like cooking a hodgepodge.  Everything in an input string,  from morpheme to word, from word to phrase, from phrase to clause, from clause to a complex sentence, all are carried out in the same space.

Q: So Chomsky wants to solve everything at once. Isn’t that good?

A: Problem is, there are three main disadvantages. First, there is no linear algorithm. Many people have tried, but they just can’t find a linear algorithm, it’s a combinatorial explosion.

The second disadvantage is that it is not suitable for modular development, because the surface or shallow level language phenomena and the deep language structures are all mixed on one plane.

The third disadvantage is the so-called “pseudo-ambiguity” issue. “Pseudo ambiguity” is in contrast to true ambiguity. If there is one true ambiguity in the input sentence, the correct identification is for the parser to produce two parses to express the ambiguity. “Pseudo-ambiguity” means that a sentence is not ambiguous in people’s understanding, but the parser still outputs several parses, which are all considered to be grammatical.

The problem of pseudo-ambiguity is a recognized challenge in single-layer parsers. Even for a simple sentence, traditional parsers based on context-free grammars often produce dozens or even hundreds of parses. Most of the time, the differences are so subtle that they don’t make difference in communication. The consequence is that very few true ambiguities are hidden among many false ambiguities. In effect, the parser loses the ability to parse ambiguity completely. Of course, such a single-layer grammar approach is difficult to be truly deployed in parsing and semantic decoding of big data.

Q: Lao li, I think I have now started understanding the drawbacks of the single-layer parsers you discussed. Could you elaborate on why it is not a feasible model for real-life applications?

A: Too big a search space, and too many parses.  In essence, the system makes explicit all possibilities, low probability events as well as high probability events all in the same search space,. The whole idea is that it makes sense in theory, that any small possibility is a possibility, and then from a perfect theoretical model, you can’t block any path in advance. This way, you have to save all the search paths until the global path is complete. And this leads to the fact that the space where the resolution is, in fact, a combinatorial explosion space, so there’s no efficient corresponding algorithm.

Q: why isn’t a single layer suitable for modularity?

A: there is no modularity at all in a single layer. The approach of a single layer means that the whole resolution is a module, and a single layer means non-modularity. Its theoretical basis also has some truth. It says that language phenomena are interdependent, and a complete language analysis scheme cannot completely separate them. As low as participles and as low as the boundaries of basic phrases, these shallow structures are difficult to determine outside the overall structure of the sentence. This is because a locally sound structure can always be overridden in a larger context.

(for instance)

From this interdependent, locally subordinated global perspective, structural analysis, once cut up, creates a chicken-and-egg problem. To deal with this problem of interdependency, theoretically, a single-layer model makes sense. In a single-layer system, all the interdependent phenomena are explored in the same plane according to the global paths as solutions. That forms, of course, an argument against multiple layers, that language phenomena are interrelated, so we can hardly treat them by first cutting them into multiple layers.  Interdependency in a modular pipeline is very susceptible to “premature pruning” of branches. To be honest, if we leave aside the pseudo-ambiguity problem and the non-linear speed from the single-layer system design for a moment, it is quite difficult to refute the above argument against the multi-layer system design. However, single-layer is not very feasible in practice. The consequences of a single layer far outweigh the benefits, and the concern on premature pruning in a multi-layer system actually has its own countermeasures.

Q: Your point of view is not quite the same as my understanding of modularity. In my understanding, a module is actually a concept without hierarchy. Just like with bricks, you can build roads, it’s like a complete horizontal jigsaw puzzle of bricks. Of course, you can also build a wall in which case bricks are hierarchical. It goes up one level at a time. So, in my understanding, modularity and hierarchy do not have to be correlated. Does it make sense?

A: Yes, you’re right. Modules are bricks. They do not have to have layers. If there are layers, like building a wall, then there has to be a sequence architecture of modules. But it is also possible that there is no sequential dependency between the modules and the layers. The modules are defined from an angle beyond layers, which is like paving a road. Road paving does not have to be serial, which can be parallel. In practice, they may as well still be arranged in a uniform pipeline, combining the style of road paving with the style of wall building.

Modularity itself is a seasoned practice that comes from software engineering.  That is, when building a complex system, we always attempt to divide tasks into subtasks and sub-subtasks. Modularity makes the development process more tractable and easier to maintain. Natural language is undoubtedly a fairly complex system. Faced with a complex object like language, a good way is to emulate the approach that has worked in engineering for years. That is to say, the task should be reasonably decomposed and cut into modules as far as possible to implement modular development.

Thanks to http://fanyi.youdao.com/ based on which this translation is revised and polished by the author himself.  This is the first chapter of our book on NLU which consists of 10 interviews on key topics of AI symbolic logic as used in natural language parsing. Stay tuned.

[References]

S. Bai: Natural Language Caterpillar Breaks through Chomsky’s Castle

 

转载:白硕:关于基于规则方法的反思(2)

关于基于规则方法的反思(2)

【问3】基于规则方法的主流技术路线是什么?它的主要贡献是什么?

【答】追溯历史,可以发现:基于规则方法起源于结构主义语言学派,伴随生成语言学派在语言学界占据主导地位而在计算语言学界达到鼎盛,伴随因特网的兴起而被基于统计的方法逐渐趋于边缘化。因此,谈到基于规则方法的主流技术路线,特别是作为基于统计方法对立面的基于规则方法的主流技术路线,一定是生成语言学派的核心学术思想及其在计算语言学中的实践和发展。在总结基于规则方法的主流技术路线的得失的时候,我们必须不带偏见地肯定它对语言学和计算语言学的主要贡献。

如果以为生成语言学派的主要贡献是搞清楚了哪一门具体语言里有哪些具体规则,那就大错特错了。笔者认为,生成语言学派最大的贡献,在于以一种可证伪的方式告诉我们,表示规则的形式化框架应该是什么。通俗地说,就是告诉我们“规则应该长什么样”。一条具体的规则不好,你可以在这个框架之内废了它。一个具体的规则体系不好,你也可以在这个框架之内另起炉灶。只要在原有表示规则的形式化框架内做有限的改良有成功的希望,一般来说就不要去动这个框架。但是如果表示规则的形式化框架离开语言现实太远,局部的修修补补难以充分适应语言现实,我们就必须考虑废掉这个框架了。看看乔姆斯基的学术轨迹,可以发现,几十年来他一直在对“规则长什么样”进行着调整,在战略上不断用新我否定着旧我,但在战术上,他却很少就一门具体的语言到底该有哪些规则发表看法。即使关于英语说到了一些规则,那也是为了解释他的普适原则和理论而举的例子。

那么,在生成语言学派看来,规则究竟应该长什么样呢?在笔者看来,他们对规则有如下一些基础假设:

    1、  存在有限个基本的句法范畴作为规则表示的基本单位。它们既包括词类,也包括词组的类。同一句法范畴下的实例,在组句能力(分布)上必须有共性。

    2、  句法范畴从左到右的线性排列模式,决定对这个模式的“重写(rewrite)”结果。

    3、  语言的合法成分都是有限次匹配上述从左到右的线性模式、施用重写的产物,依照对重写的限定不同,分为不同的规则体系类型。比较常见的是上下文无关类型的语言及其规则体系。

    4、  句子是一个特殊的句法范畴,它的实例都是目标语言的合法语句,目标语言的合法语句都是它的实例(all and only)。

   很遗憾的是,有些人在用统计方法的优点来批评基于规则方法的缺点的时候,并没有分清楚他们批评的是生成语言学派的规则表示形式化框架本身,还是批评这个形式化框架下构建的某个具体的规则体系。比如,有人说“打扫卫生”不能解释为“把卫生给打扫了”,因此述宾结构不成立,因此规则方法不成立。这样的论证是可笑的。

    “规则长什么样”是基于规则方法的最核心问题。如果具体规则错了,可以替换以新的规则;如果关于规则长什么样的假设错了,要调整的则是这种形式化表示框架本身,同时也会连累到许多个基于这种形式化表示框架的具体规则体系。

    关于“规则长什么样”的一般性假设一旦确定下来,就有了对其在计算上予以实现的理论和实践。具体说就是相关的形式语言、自动机以及算法理论。这些理论是生成语言学派关于规则长什么样的一般性假设在计算领域的推论,对于基于规则的自然语言处理系统的实现有一定指导意义。

    但是,在计算语言学领域,对生成语言学派关于“规则长什么样”的一般性假设,也并非照单全收,你假设,我实现。实际上,为了更加贴近语言实际,在计算语言学领域发生了多次对“规则长什么样”的局部修正。词汇功能语法(LFG)、广义短语结构语法(GPSG)、中心词驱动的短语结构语法(HPSG)、依存语法(DG)、树嫁接语法(TAG)等等,都可以认为是对生成语言学派关于“规则长什么样”的假设的修正案。“次范畴”和“合一”的概念,已经成为基于规则阵营中人尽皆知的概念。“依存”的概念则在一定程度上突破了模式必须是句法范畴从左到右依次排列的假定,允许一定的不连续性。它们到底把生成语言学派关于“规则长什么样”的假设向前推进了多远,也许今天评价还为时尚早。但是,所有这样一些局部性的修正案并没有触动基于规则方法的根本缺陷,应该是许多仁人志士的共识。

转载:白硕:关于基于规则方法的反思【连载1】

【立委按】今天才发现白硕老师的这个很久以前的NLP系列问答,相阅恨晚,叹服其洞见远见,拍案叫绝。一开篇就心有戚戚焉,字字珠玑。

“败的一方是基于规则的方法吗?我认为不是。最多只能说,是基于规则方法当中的某种主流技术路线。但是,这种主流技术路线,不足以概括基于规则方法的全部,也不足以决定基于规则方法的未来。特别是,基于规则方法和理性主义不存在必然的逻辑捆绑。人们对基于规则方法有诸多误解,基于规则方法的主流技术路线也有诸多弱点和缺陷,值得一切尊重语言事实、尊重规则的人进行深入的反思。我们这个问答系列,就是试图在对基于规则方法进行深入反思的基础之上,探索基于规则方法未来发展道路的一个尝试。笔者认为,基于规则方法的处境前所未有地艰难,但也正在孕育着巨大的机会,“抄底”在即。”

特转载学习。

关于基于规则方法的反思【连载1】

 

【问1】:基于规则方法和基于统计方法,被称为自然语言处理的两大“阵营”,并且上升到理性主义和经验主义“之争”的高度。请问,这个概括是否准确?两大阵营“之争”到目前为止是否已经见分晓?

【答】:确实有两种技术路线之争。从上个世纪九十年代初阵营划分确定以来,从主流杂志、主流文章、主流技术、主流产品等各方面看,其中一种大获全胜。这是一个基本的事实。任何进一步的讨论,都首先要基于这个事实。

进一步追究,胜的一方,确实是基于统计的方法。那么败的一方是基于规则的方法吗?我认为不是。最多只能说,是基于规则方法当中的某种主流技术路线。但是,这种主流技术路线,不足以概括基于规则方法的全部,也不足以决定基于规则方法的未来。特别是,基于规则方法和理性主义不存在必然的逻辑捆绑。人们对基于规则方法有诸多误解,基于规则方法的主流技术路线也有诸多弱点和缺陷,值得一切尊重语言事实、尊重规则的人进行深入的反思。我们这个问答系列,就是试图在对基于规则方法进行深入反思的基础之上,探索基于规则方法未来发展道路的一个尝试。笔者认为,基于规则方法的处境前所未有地艰难,但也正在孕育着巨大的机会,“抄底”在即。

【问2】:那么,语言是有规则的吗?语言是可以用规则来描述的吗?

【答】:语言有多个层次。为简化问题起见,以下“规则”仅指词法和句法规则,更深层的语义语用规则暂不考虑在内。

首先让我们看一看“规则”及其对应的英文术语rule的含义。在英语中,规则(rule)与尺子(ruler)是同根词。在汉语中,“规”是圆规,“矩”是角尺,二者都是依据某种标准产生几何图形的工具,而“则”具有“明示的条文”的含义。英语中Rule还兼有统治的意思。在现代汉语中,作为名词的“规矩”和“规则”同义,但“规矩”比较口语化,“规则”更具书面语风格。“规则”的意思是“对一个社会群体有强制约束力的明示的条文”。

规则的强制约束力来自于两个方面。第一个方面是来自社会的约定。所谓约法三章,所谓社会契约,说的都是有人来制定并遵守规则。不方便拿到台面上但在台面下仍然被讲究和遵守的是“潜规则”。第二个方面是来自自然规律的强制。由人类社会中热衷科学的人士发现自然规律,用人类的概念体系表述出来,在应用科学知识的场合比如工程设计中遵守。规律是客观的,规则是人类用自己的概念对规律作出的表述。囿于人类认知能力所限无法清晰表述但仍在暗中起作用的是“隐规则”。

具体到语言,语言是人们约定俗成并与时俱进的符号交际系统。既然约定俗成,那语言就是靠口耳相传,本质上就不需要什么明示的条文,也不需要人们协商产生,把小孩子放到一个现成的语言环境,小孩子自然就能学会。一些部落只有语言没有文字,一些社会缺乏甚至全无学校教育,但这都不妨碍他们自发地形成和传承语言。既然与时俱进,那语言就确实在社会的发展中改变着自己的模样,一些词死了,另一些词新生出来;一些现象淘汰了,一些现象新冒出来。旧瓶也可能装新酒,老树也可以发新芽。一些网络新词层出不穷,一些语言在经历了不同历史时代后形式上出现了巨大变异。

这样看来,语言是一种不以单个个体的意志为转移的客观存在。作为单个个体只能适应而不能约定,因此语言的规律性有跟自然规律相像的一面;语言又可根据群体行为交互作用“涌现”新要素,因此具有大时间跨度下、大群体流通中产生的人为约定性的一面。在人们对一种语言的认识能力不足之时,拿不出有关这种语言的完整的明示的规则体系,但这不表明不存在暗中起作用的“隐规则”。

因此,语言和规则,从语言诞生之始,就注定存在一对深刻的矛盾。任何所谓的语言规则,都是人(语言学家)总结出来的语言学知识,又要求人(语言使用者)去遵守的。理论上,人不总结这些规则,原则上也不妨碍语言的传承。人不把规则明示出来,这些规则也会隐性地发挥作用。仅仅从这个角度看,人总结的语言规则,确实显得可有可无。但另一方面,语言的相对客观的规定性又持续稳定地发挥着不以人的意志为转移的作用,人类求知好奇的天性总会催生一些语言学家,试图用明示的语言学知识来揭示这种作用的奥秘,而人类跨语言交流、人机交流、机机交流的需要则进一步昭示这种语言学知识的巨大社会价值。

所以,语言有客观的规定性,人类有必要总结语言学知识,语言学知识采用规则的形态,是人类对自身语言规律好奇心发展的需要,也是人类为解决人际和人机之间以语言为媒介进行沟通的需要。至于规则长什么样,完全要根据语言的现实来确定。任何先验确定规则长什么样的行为,都是不足取的。在最广泛的意义上,不仅生成语法的规则是语言规则,统计模型、转移概率、词性标注,也都是语言规则。

 

from http://blog.sina.com.cn/s/blog_729574a0010134bq.html

 

《马修·赫松梅:人工智能研究人员声称机器学习是炼金术》

《人工智能研究人员声称机器学习是炼金术》
在领英上分享
马修·赫松梅。2018年5月3日上午3时

梯度下降依赖于试验和误差来优化算法,目标是3D场景中的最小值。亚历山大·阿米尼丹尼拉·鲁斯。麻省理工学院

Ali Rahimi是加州旧金山谷歌人工智能( AI )的研究人员,去年12月,他的研究领域受到了猛烈抨击,并获得了40秒钟的掌声。拉希米在AI会议上说,计算机通过反复试验学习的机器学习算法已经成为一种“炼金术”。他说,研究人员不知道为什么一些算法有效,而另一些算法无效,他们也没有严格的标准来选择一个人工智能体系结构而不是另一个。现在,在4月30日于加拿大温哥华举行的国际学术会议上,拉希米和他的合作者发表了一篇论文,记录了他们所看到的炼金术问题的例子,并提供了加强人工智能严谨性的处方。

拉希米说: “这是一个痛苦的领域。我们中的许多人都觉得我们在使用一种外星技术。”
这一问题与人工智能的再现性问题不同,后者由于实验和出版实践的不一致,研究人员无法相互复制结果。它也不同于机器学习中的“黑盒”或“可解释性”问题: 解释特定人工智能是如何得出结论的困难。正如Rahimi所说,“我试图区分机器学习系统是一个黑盒,而整个领域变成了一个黑盒。”

他说,如果不深入了解构建和培训新算法所需的基本工具,创建AIs的研究人员就像中世纪炼金术士一样,只能依靠道听途说。加州山景城Google的计算机科学家弗朗索瓦·乔莱特补充说: 人们被货物崇拜活动所吸引,依赖于“民间传说和魔法咒语”。例如,他说,他们采用pet方法来调整他们的AIs“学习率”——每次出错后一个算法能自我纠正多少——而不理解为什么一个算法比其他算法更好。在其他情况下,人工智能研究人员训练他们的算法只是在黑暗中跌跌撞撞。例如,它们实现所谓的“随机梯度下降”,以便优化算法的参数,以获得尽可能低的故障率。然而,尽管有数以千计的关于这一主题的学术论文,以及无数应用这一方法的方法,这一过程仍然依赖于反复试验。

rahimi的论文强调了可能导致的浪费精力和次优性能。例如,它指出,当其他研究人员从最先进的语言翻译算法中剔除了大部分复杂性时,它实际上更好、更有效地从英语翻译成德语或法语,这表明它的创造者并没有完全理解这些额外的部分对什么有好处。相反,伦敦Twitter的机器学习研究员费伦茨·胡塞尔说,有时候算法上附加的“铃铛和口哨”是唯一好的部分。他说,在某些情况下,算法的核心在技术上是有缺陷的,这意味着它的好结果“完全归功于应用在上面的其他技巧”。

rahimi为学习哪些算法最有效以及何时工作提供了一些建议。首先,他说,研究人员应该像翻译算法那样进行“消融研究”:一次删除一个算法的一部分,以查看每个组件的功能。他呼吁进行“切片分析”,其中详细分析算法的性能,以了解在某些领域的改进可能会在其他方面产生什么成本。他说,研究人员应该在许多不同的条件和设置下测试他们的算法,并且应该报告所有这些算法的性能。

加州大学伯克利分校的计算机科学家、拉希米炼金术主题演讲的合著者本·雷希特说,人工智能需要借用物理学的知识,在物理学中,研究人员经常把一个问题缩小为一个较小的“玩具问题”。他说:“物理学家在设计简单的实验来找出现象的解释方面很了不起。”。一些人工智能研究人员已经采取了这种方法,在处理大的彩色照片之前,对小的黑白手写字符的图像识别算法进行测试,以更好地理解算法的内在机理。

伦敦DeepMind公司的计算机科学家csaba szepesvari说,这个领域还需要减少对竞争性测试的重视。他说,目前,如果报告的算法超过了某个基准,发表论文的可能性要比论文揭示软件内部工作原理的可能性大。这就是花哨的翻译算法通过同行评审取得成功的原因。“科学的目的是创造知识,” 他说。“你想生产一些其他人可以接受和利用的东西。” ”

不是每个人都同意拉希米和雷希特的批评。纽约Facebook首席人工智能科学家yann LeCun担心,把太多的精力从前沿技术转移到核心理解上,可能会减缓创新,阻碍人工智能在现实世界中的应用。“这不是炼金术,而是工程,” 他说。“工程总是凌乱的。”
雷希特认为这是一个有条不紊的冒险研究的地方。“我们都需要,”他说。“我们需要了解故障点在哪里,以便我们能够建立可靠的系统,我们必须开拓前沿,以便我们能够拥有更令人印象深刻的系统。”

张贴于:技术

搜狗MT(https://fanyi.sogou.com) 译自(translated from):
http://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy?utm_source=sciencemagazine&utm_medium=facebook-text&utm_campaign=aialchemy-19247

 

【李白103: 爱冰 恋冰 不见冰,思过 想过 没有过】

李:
爱冰 恋冰 不见冰”,为群主求下对。

毛:
吃了 喝了 不玩了。

李:
思过 想过 没有过。”

不错,parsing 中规中矩,可下对就有些乱套了:

为什么乱套?“过” 是名词还是时态助词?

(1) 自左向右 propagate 的话,“思过” 是词典绑架来的,所以“过” 是名词(“过错”),根据著名的 one sense per discourse 的NLP认知的经验法则,那就都是名词了,意思是:

闭门思过,我思啊想啊,狠斗私字一闪念,可我就是没有过错呀

2. 自右向左 propagate 来实现 one sense per discourse,则是助词:

头脑里面是想过的,但实际上没有过
(想过啥 没有过啥,大家见仁见智,总之是见不得光的事儿)

有思想,无行动。不以思想入罪,就是无罪。

3. 如果贯彻原则无论西东,咱们可以来个简单的 majority vote,助词“过” 两票,名词“过”一票,助词胜。语义计算同2.

白:
@wei 同样的逻辑,我30多年前根张桂平讨论的时候已经在用了:“没有花香,没有树高,我是一棵无人知道的小草。”第一小句,“花香”词典捆绑为名词,捎带激活“没有”的“不存在”义项,整个小句意为“不存在花的香味”。第二小句,“没有”依惯性继续“不存在”义项,激活“树高”的名词义项,但此名词义项是一个实体度量,与“不存在”义项不相谐,转而激活“比不上”义项,相应地对“树高”进行拆解,得到一个主谓结构,整个小句意为“比不上树那么高”。但由于前两小句有排比对举之嫌疑,于是引导到第一小句翻盘,“没有”的“比不上”义项占了上风,拐带着“花香”的“主谓结构”义项也跟着占了上风,第一小句语义改为“比不上花那么香”。一二小句在这种排比解释下,都缺逻辑主语之坑未填。到了“我是一棵无人知道的小草”则谜底揭晓:与“花”“树”对举的“小草”之代表“我”,才是填前两个小句中逻辑主语坑的不二选择。

用时下流行的话说,“树高“的名词义项是“没有”的“不存在”义项的猪队友。“小草”是两个“没有”的“比不上”义项的“神助攻”。

吕:
@白硕  这个例子牛叉…..

李:

例子牛叉,parsing 就牛不起来了:神助攻,不容易啊。

道理上,“神助攻”的实现可以通过休眠唤醒(【李白100:Parsing 的休眠唤醒机制】)。唤醒的种子和条件差不多已经具备:(i)“花香” 从词典来的微结构是 mn(修饰)sv(主谓)同形,sv被休眠;(ii)“没有树高”的比较级解析已经完美(“树高”的逻辑sv呼之即出);(iii)平行结构的形式痕迹很清晰(字数相同,动词相同)。

可“我是一棵无人知道的小草”,还是先对付鸡零狗碎的 daily chore,高大上的神功且候着,让“休眠”飞一会儿。

 

【相关】

【李白100:Parsing 的休眠唤醒机制】

科学网—【立委科普:结构歧义的休眠唤醒演义】

科学网—【立委科普:歧义parsing的休眠唤醒机制再探】

【一日一parsing:休眠唤醒的好例子】

【NLP随笔:词法内部结构休眠,句法可以唤醒】

【李白91:休眠唤醒需要打离婚证】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【一日一析:成语泛化,“1234应犹在,只是56改”】

白老师在他的NLP语义计算群转了一个让人喷饭的神翻译,如此之神(原文的谐音而不是语义保留下来),可以认定是人工的调侃段子,而不是“神经的翻译(NMT)”:神经再深度,还不可能如此之疯,疯得如此机巧。

马老师说,“端到端的(语音输入)翻译有可能性,不过应该是人翻译的”。但那要把两种语言混杂的情况考虑进去,“you cannot” 的英译汉状态 在遇到不可解片段时(beyond 语言模型的某个 thresholds),动态调整到反向的 mei more tai 的汉译英状态。这一直是MT的一个痛点,在同声传译场景更是如此。我们这些中文中喜欢夹杂英语单词的用户,也常常把MT弄晕,错得离谱。但注意到他们有做这方面的努力,如果汉语夹杂特别常见的英文词,如 ok,yes,等,有些系统已经可以对付。

As usual,“parse parse see see”:你将来可能会赚更多的钱,但你没茅台

两个分句是转折(BUT: contrast)的关系。显然是提醒家有珍藏的老板们如虎总,要好好珍惜茅台啊:票子会跑风,而茅台越久越值

 

这仍然是一个带转折的复句。其中的看点之一是“越久越值”,就是不久前提到的“成语泛化”(【从博鳌机器同传“一带一路”的翻译笑话说起】):越A1越A2。可见,成语泛化就是在固定语素字符串的成语用法里面有合适的变量来应对成语的活用,因此成语不再是单纯的词典和记忆问题,而是参杂了泛化的成分。以前提过,成语泛化在中文并不鲜见,其典型案例是:“1234应犹在,只是56改”:

由于汉语的音节特性和汉字语素与音节一一对应的特性,成语泛化的一个根本约束是字数(或音节数),甚过对变量词类或子类的约束,否则读起来就不像个成语。受众如果不能联想到一个特定的成语,说者也就失去了“活用”的妙趣和幽默。下面是 1234(四个音节) 和 56(两个音节) 这两个变量的自然活用案例:

可怜玉砌应犹在,只是天地改
昔日桃花应犹在,只是人面改

再举一些成语活用的解析案例:

(1) 无巧不成书 –> 无x不成y: 广州人无鸡不成宴吖

(2) 不V不知道 / 一V吓一跳: 真是不买不知道,1买吓一跳       

(3) n [animal] m [animal] 之力: 五虎六狮之力   

(5) 不费 vn 之力: 不费眨眼之力

 

成语泛化,是不为也,非不能也!

 

【Parsing 标签】

1 词类:名 N; 形 A; 动 V; 副 RB; 介词 P; 冠词 DT; 叹词 UH; 标点 Punc;

2 短语:名词短语 NP; 动词短语 VP; 形容词短语 AP; 介词短语 PP;
名词组 NG; 动词组 VG; 实体专名 NE; 数据实体 DE;
谓语 Pred; 分句 CL;

3 句法:头词 H;主 S; 宾 O; 定 M; 状 R; 补 B;
接续 NX; 并列 CN; 转折 BUT;
主语从句 sCL;宾语从句 oCL; 定语从句 mCL;
条件状语 ifR; 程度状语 veryR;
功能成分 Z; 其他虚词 X

 

 

【相关】

从博鳌机器同传“一带一路”的翻译笑话说起

NLP 历史上最大的媒体误导:成语难倒了电脑

立委随笔:成语从来不是问题

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【AI泥沙龙笔记:热议周教授提出的深度突破的三大条件】

李:
上周,周志华教授作为神秘AI大咖嘉宾,请到京东的AI峰会做了个主题演讲。有意思的是他讲到的三点。他的讲演主题是“满足这三大条件,可以考虑不用深度神经网络”: 1. 有逐层的处理;2 有特征的内部变化; 3. 有足够的模型复杂度。

这就有意思了。我们符号派所说的深度解析(deep parsing)和主流当红的深度学习(deep learning),在这三点上,是英雄所见还是殊途同归?不知道这种“巧合”是不是有些牵强,或者是非主流丑小鸭潜意识对主流白天鹅的“攀附”?总之,fellows大满贯的周教授的这个总结不仅字字珠玑,深入本质,而且非常受用。他是说深度神经的突破,根本原因是由于上面三条。所以,反过来论证说,既然如此,如果有了这三条,其他模型未尝不能突破,或者其他模型可以匹敌或弥补深度神经。

陈:
有了dl,谁还费力想其它的

李:
周教授就是“费力”想其他的人。他指出了深度神经的缺陷:1 调参的困扰;2. 可重复性差;3. 模型复杂度不能随数据自动适应;4. 理论分析难;5. 黑箱;6. 依赖海量标注。由于这些问题的存在,并不是每一个AI任务都合适用深度神经。对于同一个任务,也不是每一个AI团队都可以重复AI大咖的成绩。

毛:
谁说每个AI任务都合适用深度神经了?DL只是补上缺失的一环。

李:
没人明说,无数人这么 assume

毛:
应该说,无数人这么 misunderstand。

李:
哈,我称之为“迷思”:misconception

毛:
反正是mis-something

李:
从我的导师辈就开始的无数探索和实践,最后得出了自然语言的解析和理解必须多层进行的结论。虽然这与教科书,与乔姆斯基相悖。

陈:
小孩好像从不这么理解

李:
以前论过的:鉴于自然语言的结构复杂性,文句的深度解析和理解很难在单层的系统一蹴而就,自浅而深的多层管式系统于是成为一个很有吸引力的策略。多年的实践表明,多层系统有利于模块化开发和维护,为深度解析的工程化和实用化开辟了道路。但多层系统面临一个巨大的挑战,这个挑战来自于语言中的并不鲜见的相互依赖的歧义现象。

多层了以后,很多不可解的问题,变得可解了。论解析的深度和应对复杂现象和结构能力,多层系统与单层系统完全不可同日而语。30多年前,我的导师做的解析系统是四、五层。但是多层的思路已经萌芽,而且方法论得到确认。最近20多年,我自己的摸索和尝试,发现大约是 50-100 层这个区间比较从容和自如。这不是因为语言中表现出来的递归结构需要这么多层,如果只是为了对付真实语言的递归,五六层也足够了。多层的必要性为的是要有足够的厚度及其动态的中间表达,去容纳从词法分析、实体识别、(嵌套)短语分析、单句分析、复句分析乃至跨句分析(篇章分析)以及从形式分析、语义分析到语用分析的全谱。

当然,这么多层能够顺利推展,前提是要找到解决多层系统面临的挑战的有效方法,即:对相互依赖现象的化解之策。如何在多层系统中确保“负负得正”而不是“错误放大”(error propagation)(【立委科普:管式系统是错误放大还是负负得正?】 )?如何应对 nondeterministic 结果的多层组合爆炸?如果采用 deterministic 的结果,多层的相互依赖陷阱如何规避?我们论过的“休眠唤醒”的创新就是其中一个对策(【立委科普:结构歧义的休眠唤醒演义】)。

毛:
乔老爷没说不能多层啊。递归与多层不就是一回事?

李:
他的递归是在一层里面 parse 的,CFG chart parsing 是教科书里面的文法学派的经典算法。

毛:
这只是形式和实质的区别。我觉得只是深度优先与宽度优先的区别。

李:
他鼓吹 CFG 的递归特性,正是因为他不懂得或不屑认真对待多层叠加的道路。

后者理论上的确不够漂亮。多少有些“凑”的意思,太多工程的味道,模块化的味道,补丁摞补丁的味道,这不符合乔老爷的口味,但实践中比他的递归论要强得多。CFG 能做到的,叠加和拓展了的 FSAs 全部可以做到,但是 叠加的 FSAs 所能达到的深度和能力,CFG 却望尘莫及。递归算个啥事儿嘛,不过是在多层里n次循环调用而已。多层所解决的问题比递归结构的挑战要广得多,包括困扰parsing界很久的“伪歧义”问题(【李白雷梅59:自动句法分析中的伪歧义泥潭】)。

毛:
我倒也是更赞同你说的 FSA,但是认为本质上没有什么不同,不同的只是方法。

李:
这是第一个英雄所见,或殊途同归。深度神经现在几百层了,deep parsing 也 50-100 层了。不是不能超过 100 层,而是确实没有这个必要。迄今还没有发现语言现象复杂到需要超过百层的符号逻辑。

毛:
这两个多层,性质是不一样的。

李:
所以我说这种比对可能“牵强”。但哲学上有诸多相通之处,的确二者都是很 deep 的,有厚度。

那边叫隐藏层,反正我是搞不懂。这边倒是小葱拌豆腐,一清二白的,不说老妪能解吧,但这些个符号逻辑的层次,至少可以对语言学家,领域专家,还有AI哲学家像毛老和群主,还有AI工程大咖利人,可以对你们这些“老人”讲清楚的。这就是我说的,所谓符号逻辑,就是人类自己跟自己玩一个游戏,其中的每一个步骤都是透明的,可解释的。符号派的旗号可以是“模拟”人脑的思维逻辑,其实这个旗号也就是个旗号而已。模拟不摸拟,这一点已经不重要了,关键是效果。何况鬼知道人的语言认知是不是这么乏味、死板、机械,拼拼凑凑,还不如玩家家呢(如果人类思维真的是符号派所模型的那个样子,其实感觉人类蛮可怜的)。

毛:
大多数人的思维可能还没有这么复杂。

李:
但这种游戏般的模拟,在实践中的好处是显然的,它利于开发(自己能跟自己玩的那些游戏规则有助于步骤的梳理,以便各个击破),容易维护和debug(比较容易知道是哪一层的错误,或哪几层有修复的机会及其各自的利弊).

马:
越是层次的思维越是更容易模拟,符号派模拟的是高层次的。

毛:
对,就是缺了低层次这一环,才需要由DL来补上。

郭:
@毛德操,周志华 这次演讲,还特别强调了 深度之于广度的核心差异,那就是他的第二条:每层都是在不同特征维度上。

他从两个角度阐明这点。一,至少在1989年,大家就已经知道,在无限逼近任意连续可微函数这件事上,只要宽度足够,单隐含层就好。多层貌似并非必要,或者说多层并没有提高“表达力”。但是,单层系统,从来没能达到同规模多层系统的学习和泛化能力。

二,多层,就可以有结构。譬如resnet,可以在不同层面选取综合不同维度的特征,可以有多信息流。这条,貌似隐含地说了,人的干预还是重要的。

李:
是的,周教授强调的第二点是特征逐层更新。深度学习之前的系统是在同一个静态特征集上work的,包括最像符号逻辑的决策树模型。而深度之所以 deep,之所以有效和powerful,是与特征的变化更新分不开的,这个道理不难理解。深度的系统不可能在静态的特征上发力,或者说,特征静态也就没有深度的必要了。深度系统是一个接力赛的过程,是一浪推一浪的。这一点在我们的实践中是预设的,当成不言而喻的公理。

我们的深度解析,起点就是词典特征和形态特征,随着从浅层到深层的逐层推进,每一步处理都是在更新特征:根据各种角度的上下文条件,不断增加新特征,消除过时的旧特征,或细化已有的特征。后面一层层就这样在越来越优化的特征上,逐步取得对于语言的结构解析和理解。

毛:
深度优先与广度优先,没有绝对的好坏或强弱,要看具体的应用。在NLP中也许是广度优先好一些。乔姆斯基讲的是专门针对 CFG 的,你那个实际上已经越出了这个范畴。

李:
特征是动态的,反映了搜素空间不断缩小,是真理不断逼近的认知过程。很难想象一个系统在一个静态特征的平面可以达到对于复杂语言现象的深度解析。

马:
在某些特殊情况下,已经证明层数少,需要指数级的增加神经元才可以达到层数深的效果。而神经元的增加又加大了计算复杂性,对数据量的要求更大。

毛:
如果上下文相关,那么分层恐怕确实更灵活一些。

李:
这就是我说的乔老爷把“power”这个日常用词术语化以后,实际上给人带来了巨大的误导:他的更 “powerful” 的 递归 CFG 比二等公民的 less powerful 的 FSA 所多出来的 “power” 不过就是在单层系统里面可以处理一些递归结构而已。而把一批 FSAs 一叠加,其 power 立马超越 CFG。

总之,特征不断更新是深度解析的题中应有之义。而这一点又恰好与深度神经不谋而合,殊途同归了。

周教授眼毒啊。

教授的第三点,关于深度系统需要足够的模型复杂度,我不大有把握可以做一个合适的比对。直觉上,由于分而治之由浅入深的多层系统对于组合爆炸的天然应对能力,如果我们假想我们有一种超自然的能力能够把一个 50 层的解析系统,完全碾压到一个平面,那将是一个多大的 network,遮天蔽日,大到难以想象!

马:
符号表示的复杂性可以说是无穷大吧?模型的复杂度指表达能力?太复杂又容易过拟合

李:
周说的是,因为不知道多复杂合适,所以得先弄得很复杂,然后再降低复杂度。他把这个说成是深度神经的一个缺陷。

郭:
周志华特别强调,他的“复杂度”,不是指“表达力”(“单层多层同样的表达力,但多层可以复杂的多”)。

他没给定义,但举了resnet作为例子,并且明确提了“特征信息流的数目”,还说了:多层,但特征信息流动单一的,也没有复杂度。

回顾周说的这三条,李维的 deep parser 条条符合!

有逐层的处理 — 李维的,少说也有50层吧!

有特征的内部变化 — 李维的,每层都在不同的维度/颗粒度/角度,用不同的特征/属性,产生新的特征/属性

有足够的模型复杂度 — 李维的,也有明显的“复杂度”(周志华强调,“复杂度”,不是指“表达力”。过度的“表达力”,往往是负面的)。李维的,不仅有传统的 linguistics motivated 概念/特征/属性,也广泛采用“大数据”(基于统计的)。最近也开始利用“AI”(基于分布式表示的)。

还有一点,周志华多次强调(我认为是作为“三条件”必然推论的),“深度学习,关键是深度,但不一定要 ‘端到端’ ”。他更强调(至少是我的理解),为了端到端,一味追求可微可导,是本末倒置。深度学习,中间有 不可微不可导 的特征/存储,应该是允许甚至是必要的。

对这一点,李维的“休眠唤醒”,大概也可算是 remotely related.

白:
拉倒。带前后条件的FSA早已不是纯种的FSA,只是拿FSA说事儿而已,真实的能力早已超过FSA几条街。

毛:
这就对了。其实,自然语言哪里是 CFG 可以套得上的。

李:
我其实不想拿 FSA 或 FSA++ 说事儿,听上去就那么低端小气不上档次。可总得有个名儿吧,白老师帮助起个名字?教给实习生的时候,我说你熟悉 regex 吧,这就好比是个大号的 regex,可实习生一上手 说不对呀 这比 regex 大太多了。这套 formalism 光 specs,已经厚厚一摞了,的确太超过。要害是剔除了没有线性算法的递归能力。

毛:
记得白老师提过毛毛虫的说法,我还说了句“毛毛虫的长度大于CFG的直径”。(【白硕– 穿越乔家大院寻找“毛毛虫”】

白:
有cat,有subcat,还拿这些东西的逻辑组合构成前后条件,还有优先级。有相谐性,有远距离雷达,有实例化程度不等带来的优先级设定。哪个FSA有这么全套的装备?

陈:
基于规则,遇到长句子一般必死

李:
非规则的 找个不死的瞧瞧。再看看规则的怎么个死法。反正是死。看谁死得优雅。你出一组长句子,找一个学习的 parser,然后咱们可以比较一下死的形态。

白:
先说任务是啥,再说死活。

李:
我是说利人的腔调,极具代表性,那种典型的“成见/偏见”(【W. Li & T. Tang: 主流的傲慢与偏见:规则系统与机器学习】)。

马:
人家DL端到端,不做parser。现在有人做从语音直接到文本的翻译,不过效果还不行,主要可能是数据问题

李:
苹果梨子如何比较死活。

毛:
乔老爷的CFG不应该算入AI,那只是形式语言的解析。

陈:
确实都死。。。但一个死了也没法解释,不要解释。另一个就得思考哪个规则出问题了

毛:
人也好不到哪里,只不过人不死,只是懵了。

李:
😄 懵了就是人造死,artificial death

马:
规则的好处是,你说什么不行?我马上可以加一个规则。这就是我前面说的复杂性无穷。😄 即表达能力无穷

白:
假设任务是从文本抽取一堆关系,放进知识图谱。

假设任务是根据用户反馈,把错的对话改对,同时对的对话不错。

陈:
抽取这个很重要,很多理解的问题其实是抽取问题。比如,阅读问答题

毛:
我还是相信多层符号会赢。

李:
从文本抽取关系 谁更行,需要假设同等资源的投入才好比。我以前一直坚信多层符号,现在有些犹疑了,主要是标注人工太便宜了。到了标注车间,简直就是回到了卓别林的《摩登时代》,生产线上的标注“白领”面对源源不断的数据,马不停蹄地标啊标啊,那真不是人干的活儿啊,重复、单调、乏味,没看见智能,只看见人工,甭管数据有多冗余和灰色。这就是当今主流“人工智能”的依托,让人唏嘘。当然,另一方面看,这是当今AI在取代了很多人工岗位后,难得地给社会创造就业机会呢,将功补过,多多益善,管他什么工作,凡是创造就业机会的,一律应予鼓励。

毛:
@wei 这不正好是训练条件反射吗

陈:
反正智能的事都让机器去做了,人就只好做些低级如标注的活了

白:
问题是啥叫符号?基于字节?字符?基于词已经是符号了吧。是不是要退到茹毛饮血,连词也不分,才算非符号。否则都是站在符号肩膀上

毛:
我认为可以这样来类比: 一个社会经验丰富、老江湖的文盲,跟一个教授,谁能理解更多的语句。我想,除那些江湖切口和黑话,还有些需要“锣鼓听声,说话听音”的暗示以外,一定是教授能理解更多的语句。而且,即使是江湖切口黑话,也能慢慢加到教授的知识库中。

李:
都是站在符号肩膀上。然而,符号系统的实质不是符号,而是显性的 可解释的符号逻辑。就是那套自己跟自己玩 系统内部能够自圆其说 有过程 有因果链条的针对符号及其动态特征做处理的算法。相对于建立在符号和特征基础上的不可解释的学习系统,很多时候这些系统被归结为一个分类问题,就是用原子化的类别符号作为语言落地的端对端目标。如果一个落地场景需要10个分类,只要定义清晰界限相对分明,你就找一批大学生甚至 crowd source 给一批在家的家庭妇女标注好了,一个类标它百万千万,然后深度训练。要是需要100个分类,也可以这么办,虽然标注的组织工作和质量控制要艰难得多,好在大唐最不缺的就是人工。可是,如果落地场景需要一千个、一万个不同侧面的分类,标注和学习的路线就难以为继了。

白:
结果是一个集合,已经比较复杂了。结果是关系集合,又更加复杂。让人类标注,好不到哪儿去。标注一个关系集合,等价于标注一个结构。

 

【相关】

周志华:满足这三大条件,可以考虑不用深度神经网络

周志华最新演讲:深度学习为什么深?

【立委科普:结构歧义的休眠唤醒演义】

【立委科普:歧义parsing的休眠唤醒机制再探】

【白硕– 穿越乔家大院寻找“毛毛虫”】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

乔姆斯基批判

泥沙龙笔记:再聊乔老爷的递归陷阱

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2) 

《自然语言是递归的么?》

语言创造简史

【立委科普:管式系统是错误放大还是负负得正?】

【李白雷梅59:自动句法分析中的伪歧义泥潭】

W. Li & T. Tang: 主流的傲慢与偏见:规则系统与机器学习

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

【一日一析:“对叙军事打击是一次性行为”】

“对叙军事打击是一次性行为”

对不起,不是对“性行为”或成人话题有偏好,可是这两天老在想这个案例,疑似语言学走火入魔。微信群最近疯传的这个视频,字幕如上,属于 #中文理解太难了# 一类歧义案例,可读出来却不是,那位女播音员低下头,读起来是这样的:“对叙军事打击是一次性…性行为”。

估计是她没有预先看一遍稿子,结果突然看到这三个字,有点不知所措,结巴了。我们 “parse parse see see”:

如果结巴或停顿不用省略号记录的话,就是这样的:

这里面牵涉到的语言学和计算语言学在哪里呢?有什么可琢磨的点?

首先,文句是歧义的(因此可以休眠唤醒:前两天论过,唤醒的时候,把“一次-性”中的后缀“性”剪枝,改嫁给“行为”做定语,只是一个结构微调整,整个NP大局不变,比起VP/NP歧义的cases如“烤红薯”的休眠唤醒要简单一些),到了播音的时候,因为增加了一个“性”而变得没有歧义了。

更有意思的是,为什么没有歧义了,听众却仍然可以排除听到的结构,反而还原为另一种结构解读呢?

一种说法是,听众有常识,说“军事打击”是“性行为”,违背常识。这样解释自然不错。

另一种说法是,语音的音调和重音这些文字通常不记载的痕迹表明播音员口误了,慌张了,结巴了,因此我们还原到另一个结构的解读。如果是正常的阅读,除了两个性之间的停顿外,“一次性性行为” 中第一个“性”是轻声,重音在 “(一)次” 上,第二个“性”则是重音,可是播音员的第二个“性”读出来反而含混了。由此可见,两个 x 很可能是一个 x 的重复或结巴,因此人脑 parse 的时候是利用了 reduplication 机制处理了这个重叠,从而把原结构的歧义凸显出来,为另一种解读留下了空间。

在这个话题的延长线上,我们看某贪官被双规后对其权色交易的辩解:“这次性行为是一次性行为”。

改成“第一次”又如何呢?

有问,这“第一次”词典化了,如果是“第102次”看系统还能如此解析吗?

“这次” 、“第一次”和 “一次” 有啥不同?为什么决定了其后三个字的不同解读?parser 里面到底有什么神机妙算在内可以做出这种区分?

先不说模拟人脑的 parser 如何实现的,说一说人脑怎么 parse 的。人脑大概用的是排除法。另一个结构的解读呈现下列形态:这次 x 是一次 x,这是一句没有信息量的语句(this x is an x)。因为有定(the)或无定(a)的量词结构是很虚的东西,所以上句结构从实体概念看就是: x ISA x,逻辑上的同义重复,基本没有信息。有信息的 ISA 句应该有一个逻辑上的区分量 y(百科全书中概念定义的典型句式):x ISA y x’ (x belongs to x’), 譬如:”贪官就是违法乱纪的官员”,其中 “违法乱纪” 就是 y.

同理,“一次性” 也是 y(“第一次”也是y), 人脑于是排除了无信息量的结构解读“一次-性行为”,大家不约而同的采纳了具有信息量的常规 ISA句式的解读 “一次性-行为”,虽然理论上的结构歧义依然存在。至于,如何让电脑实现人类的歧义辨识语言认知这一套,那是另一个章回了,先打住。有没有下回分解也说不定了,看彼时的情绪吧。兴起而码字,兴尽而收笔,这是自媒体的好处不是?

 

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

 

 

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

【一日一析:中文解析中的动名短语歧义】

老友让 parse 两句让人搞笑的歧义句。前一阵子微信里流传过的。那就试试:

性教育先进,吾党理应当仁不让。还有一句啥来着?

承诺什么?要是承诺性行为,对不起,不允许,因为你有钱。如果换成:”少林寺众僧禁止性行为承诺书”,承诺的应该是 “禁止性行为” 哈。俗人的社会,一种是有钱(譬如群主),一种是有权或有势(譬如正遭网民痛殴的语言学家沈阳),这两种人的性行为需要管束,否则权色交易,钱色交易就会猖獗。

“禁止 性行为” vs “禁止性 行为”,如何知道呢?

不知道,咱就选个标配结构,同时留了个后门:【禁止V+性+N行为】 暂时定为定中(定语修饰名词中心语)的结构 NG,做承诺书的修饰语。但里面留了种子,等以后见机翻案,可“休眠唤醒”其作为 VP 的结构语义。一旦翻案,V 变成为 VP 的 head (H),“行为” 自然成为其宾语(O),中间的那个“性”可以修剪,从“禁止”的后缀,改嫁为O的定语。这一套符号逻辑形式上是走得通的,就看实际落地的时候觉得值不值得做了。

中文句法的诡异在于,这种VP(动宾结构的动词短语)和NG(名词词组)同形歧义现象相当普遍。英语也有动词名词的同形歧义现象(study; works; etc)  但是到了短语级别,这种歧义就消失了。中文不然,典型的例子还有:“烤红薯”。到底是【烤…】 (VP) 还是 【…红薯】(NG)?

“我吃烤红薯”,“吃”的是“红薯”。“我想烤红薯”,“想”的是“烤”。

 

可是,“我喜欢烤红薯”呢?到底是喜欢“烤”,还是喜欢“红薯”,还是二者都喜欢,还是喜欢其中之一?所以,休眠唤醒,也有永远换不醒的,到死也翻不了案。这也没啥,人类听和说,一多半的时候,都是模模糊糊地说,一知半解地听。这实际上是语言交流的常态。也不必苛求机器比人还清晰了。

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

 

 

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白101: 话题在逻辑上是个什么东东?】

 

李:
“你们多少钱一条毛毯”

“你们”是主语,or 话题?即便说是“话题”,逻辑语义算个啥?(“毛毯”的【所有(者)】?):

“蓝色的你没有货吗?”

类似的,“蓝色的” 逻辑语义是“货”的【所有】吗?

但上句与下句还不同:

“你没有蓝色的货吗”

后者是全称否定:在你所有的货品中,你缺少蓝色的(子集)。前者是:在这种(你知我知)货品中,你缺少蓝色的款式。

看样子,句首的所谓话题,对于结构语义解析中的 scope 解读,有说法。话题呢,就是先画个圈圈,后面的 argument structure 里面的 args 跳不出这个圈圈。

回到“”你们多少钱一条毛毯”,也有说是省略了谓词:

“你们多少钱一条毛毯卖的?”
“你们多少钱一条毛毯买的?”

前者是 卖家,“毛毯” 的曾经所有者。后者是 买家,“毛毯”的新所有者。默认是卖家,因为这个应该是交易之前的询问。

白:
表“运载”类的动词,介于“给予”类和“取得”类之间:“你们多少钱一斤搬的?”当中,“你们”既可以是出钱的,也可以是干活的。所以,概括来说话题就是“后面一坨当中的未饱和坑”。如果未饱和坑多于一个,其中满足相谐性条件的也多于一个,满足对某些小类的动词可以有倾向性标配,对另外一些小类的动词无倾向性标配。不光领属可以,领属的领属也可以:“王冕昨天父亲腰扭伤了”,“我昨天拉了三趟煤。” 可能我是运输工人、运输老板或者运输客户。或者我自力更生自运自用。

所以,话题是一个纯形式的角色,它对应的逻辑角色是不确定的,完全取决于后面一坨空出来的坑的逻辑属性。如果空出来的坑也是不确定的,那就必然产生歧义。

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

 

 

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白102: 标题就是个大NP,痛点在谓词结构的安放】

白:
“中国证监会编造、传播虚假信息行政处罚案例综述”

李:

解析起来有几个 catches:

1. “案例” 和 “综述” 以及二者的组合“案例综述”,都是那个“另类”名词,它们不是前面的动词的宾语,而是要求一个动词性的前修饰语,逻辑语义是【内容】或【同位】。上面的 parse 不幸中了套。

2. “编造”/“传播” 与 “信息” 的动宾搭配:成为 VP

3. 所谓【修饰语的组合爆炸挑战】:这是一个很长的标题类NP,麻烦的是里面还有两个动词性的结构(“编造、传播……“,”行政处罚”)。

4. 两个动词结构的关系:VP(负面)【原因状语 ?】+ “行政处罚”

白:
“行政处罚”和与之固定搭配的行政处罚主体,有统计显著性。

李:
5. 居首的”中国证监会“到底是整个 NP 的修饰语,还是 VP 的主语?换句话说,这个动词性结构在做修饰语之前,左边界是不清的,到底是 VP 还是 CL(子句)做修饰语?

白:
这个跟“这本书出版日期”一样。

李:
最大的问题是: VP(负面)+ “行政处罚”,这种个性关系的总结,实现起来感觉心里不踏实。

白:
但是:NP(有权主体)+VP(负面)+“行政处罚”又不相同。

李:
如果再考虑前面的 NP,那就更稀疏了。

即便一切都处理妥当,预备各就各位了,这种案例的诡异在于头重脚轻:“VP+行政处罚” 这个头 应该是 “案例综述” 这个脚的同位修饰语。头重脚轻在汉语的修饰语通常都是用“的”来平衡的,不用“的”修饰语又超长就很游离来(outlier),模型起来极易弄巧成拙。

得,动宾搭配又跑了。弄巧成拙和按下葫芦起了瓢这种事儿 主要说的就是这种 outlier 案例的过度迁就(类似于学习系统的overfitting)。

打住,到此为止。要抑制钻牛角的好奇心。

白:
此标题的文章作者已经撤回。被我指出歧义觉得不妥了。

 

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

 

 

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【从博鳌机器同传“一带一路”的翻译笑话说起】

这是网上这两天广泛热议和流传的AI笑话(博鳌AI同传遭热议):

昨天还在想,这“一带一路”的翻译笑话是怎么回事儿呢?这类高频新术语、成语是机器的大拿,不就是一个词典记忆嘛。

今天看新智元的采访(博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说),原来,这次的笑话不是出在成语上,而是出在成语的“泛化”能力上。“成语泛化”的捕捉和翻译,这一点目前还是短板。

对于中译英,“一带一路”的翻译完全没有问题,因为这是近年来习大大新时代新政的最流行的新术语,家喻户晓,没有人去泛化它。机器翻译自然不会错,主流怎么翻译,机器就会怎么翻译,不会更好,也绝不会更差。

可是这个中国的术语到了英语世界,并不是所有受众都记得住准确的说法了。结果,“标准” 的流行译法 “one belt one road”,被有些老外记错了,成了“one road one belt” or “the road and belt” 等。这也是可以理解的,老外没有政治学习时间也无须应对时事政治考核,能记得一个大概就不错了。

虽然说法不同了,次序有变,但两个关健词 road 和 belt 都在,这种成语“泛化”对于人译不构成挑战,因为老外的记忆偏差和“泛化”的路数,与译员的心理认知是一致的,所以人工传译遇到这类绝不会有问题。可是,以大数据驱动的机器翻译这次傻了,真地就“神经”了,这些泛化的变式大多是口语中的稀疏数据,无法回译成汉语的“一带一路”,笑话就出来了。

提高MT的“成语泛化”能力,是当今的一个痛点,但并不是完全无迹可寻。将来也会成为一个突破点的。只是目前一般系统和研究还顾不上去对付它。以前我提过一个成语泛化的典型案例应该具有启示作用的:“1234应犹在,只是56改”。

早期机器翻译广为流传的类似笑话也是拿成语说事(The spirit is willing, but the flesh is weak,心有余而力不足 据传被翻译成了“威士忌没有问题,但肉却腐烂了”),因为一般人认为成语的理解最难,因此也必然是机器的挑战。这是完全外行的思路。成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐。

NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最:
说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语:
The spirit is willing, but the flesh is weak (心有余而力不足)
翻译成俄语后再翻译回英语就是:
The whiskey is alright, but the meat is rotten(威士忌没有问题,但肉却腐烂了)
这大概是媒体上流传最广的笑话了。很多年来,这个经典笑话不断被添油加醋地重复着,成为NLP的标准笑柄。然而,自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测,这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”,似乎暴露了机器的愚蠢,殊不知这样的“错误”是系统最容易 debug 的:补全词典即可。因为成语 by definition 是可列举的(listable),补全成语的办法可以用人工,也可以从语料库中自动习得,无论何种方式,都是 tractable 的任务。语言学告诉我们,成语的特点在于其不具有语义的可分解性(no/little semantic compositianlity),必须作为整体来记忆(存贮),这就决定了它的非开放性(可列举)。其二是对于机器“理解”(实际是一种“人工”智能)的误解,以为人理解有困难的部分也必然是机器理解的难点,殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事,需要历史知识才可以真正理解其含义,而机器是没有背景知识的,由此便断言,成语是NLP的瓶颈。
事实是,对于 NLP,可以说,识别了就是理解了,而识别可枚举的表达法不过是记忆而已,说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。 

关于新时代“一带一路”的合适译法,我曾经从语言学构词法角度也论过:

“一带一路”,官方翻译是: one belt one road。

不得其解,昨天才搞明白是中国倡导 由中国带头 沿着古丝绸之路 开发新的经济贸易开发区 一方面帮助消化过剩的产能 一方面带动区域经济 实现共赢 让区域内国家分享中国经济高速发展的火车头效益 从而树立中国崛起的和平领军形象。

感觉还有更多也许更好的选项 反正是成语 反正光字面形式 谁也搞不清真意 总是需要伴随进一步解释 不如就译成:

一带一路 ===》 one Z one P (pronounced as:one zee one “pee”)

怎么样,这个翻译简直堪比经典翻译 long time no see (好久不见)和  “people mountain people sea” (人山人海)了。认真说,Zone 比 Belt 好得多。

One zone one path.
One zone one road.
New zone old road.
New Silk Road Zone.

感觉都不如 one Z one P 顺口。

from 【语言学随笔:从缩略语看汉字的优越性】

 

【相关】

博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说

NLP 历史上最大的媒体误导:成语难倒了电脑

立委随笔:成语从来不是问题

【语言学随笔:从缩略语看汉字的优越性】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

《一日一析系列》

【立委按】汇集的《一日一析》,乃是日常遭遇的中文有趣文句,作为中文自动解析(deep parsing)的“压力”测试。兴之所至,对暗含的解构机巧,或点入讲解,或借题发挥。不求完整,但求启迪。谈资之余,或可管中窥豹,集腋成裘也。

 

【一日一析:“爱情这种事……”】

【一日一parsing:“举报毒品违法 犯罪活动有奖”】

【一日一parsing:修饰语的组合爆炸挑战】

【一日一parsing:parser 貌似发疯了】

【一日一parsing:汉语单音节动词的语义分析很难缠】

【一日一parsing:”钱是没有问题”】

【一日一parsing:从“见面”的subcat谈起】

【一日一parsing:#自然语言理解太难了# 吗?】

【一日一parsing:休眠唤醒的好例子】

【一日一parsing:NLP应用可以对parsing有所包容】

【一日一parsing:degraded text and robust parsing】

【一日一parsing,而山不加增,何苦而不平?】

【一日一parsing:中秋節談月亮和花錢】

【一日一析:“爱情这种事……”】

【一日一parsing:“爱情这种事……”】

爱情这种事 太极端 要么一生 要么陌生

精辟啊。不过,概率上很不对等,还是擦肩而过形如陌路的居多。一辈子见过多少人,一生的只有一个。

所谓缘分,就是n年修得同船渡,m年修得共枕眠: m > n > 10.

老友说:失恋也不是喝江小白的理由啊

 

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

 

 

【相关】

《朝华午拾:与白衣天使擦肩而过》

《音乐心情:落雨的时节,失恋者的歌》

《一日一析系列》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

【没有破灭的神话只会越来越神,看中本聪有感】

中本聪,比特币之父,神人也,神话也。最近微信朋友圈有他的传奇,不嫌其长,极为刺激,值得推荐:《成为中本聪(上)》;《成为中本聪(下)》。

看中本聪,想起20多年前中文论坛草创期的一个骨灰级传奇人物图雅(涂鸦)。早年百家争鸣,他以网文的幽默老道,红极一时。神龙见首不见尾,后人间蒸发逾20年,各种回忆,各种景仰,各种怀念,各种猜测,各种托知己。

据说这是当年鸦(图雅)与女网友瓶儿的亲密合影,恰到好处的模糊和暧昧:

瓶儿自然也是造神运动的推手(和涂鸦擦肩而过),情真念切。

结果三四年前,他决定回归,网上露了一面,在方舟子网站发了几篇文章。一个美丽的神话就此破灭。吃瓜网民闹腾一阵子后,发现神人不神,未免有些落寞,议论归于静寂。他本来也许是抱着重回江湖的某种心理,但时过境迁,他的独特性不再。似乎自己知趣,复又隐于江湖,忘于江湖。

但这次短暂复出,比起中本聪那次用区块链密钥试图验明正身,更像个败笔。好处也有,对于少数铁心粉丝,他的露面至少解除了怕他遭遇不测的忧心。但对于大众却是湮灭了一个神话(复出前有传他看破红尘,得道南美森林;有说他华尔街大发,成了怪癖的亿万富翁;也有说他隐匿江湖,正在撰写现代版《红楼梦》)。人的德性就是,无论时间、空间,永远远香近亵。已然造就了神话,为慈悲计,还是不要走向神坛,给普罗一个念想的空间。小20年都耐住了,人老了反而耐不住了。江湖已经不是彼时的江湖,在网络时代,20年太久。人不能二次涉水同一条河,昔日荣光非时间隧道不得复现。

这是2014年的事儿,我科学网博客有记:

第二个惊天新闻,新一代的网人可能完全不知所云,但对于中文互联网第一代网人,却是一个难以置信的大事件。中文网先驱者,网络作家第一人,传奇人物图雅,在人间蒸发20多年后,终于出山了!图雅的传奇,研究中文网历史的人可以找到很多的资料和回忆。他以他的实力,在稳居网文大家第一把交椅的巅峰时期,突然退出,引起的震撼和好奇,经久不衰。算起来,他如今也中年已过,业已退休或即将退休了,不知道触发了哪根神经,居然真地重现江湖了。

图雅欲返人间的新闻最早是他当年的老网友小方放的风,大约在半年前。选择小方倒也很合情理,一来当年的网友才俊,在社会媒体生活中屹立不倒的,小方几乎是唯一的一位了。再有就是,小方虽然为人苛严,自恃甚高,除了鲁迅达尔文这些先哲,活人能入他法眼的几乎没有,但图雅是少有的一个例外,小方对图雅推崇备至而由衷。图雅下凡,借力小方,当属最佳渠道,小方也有面子。可是自从小方发布这个消息后,很多当年的鸦迷(图雅也自称鸦)翘首相望,迄今不见动静,几乎开始怀疑小方是否在造乌龙。现在想来,鸦本人大概也一直在犹豫斟酌怎样的出山之作为佳吧。

终于,图雅给鸦迷和网友的见面礼最近刊发在最近一期的《新语丝:图雅 – 唐诗的心境》。我们当年都是鸦迷,此篇一出,先赌为快。文自然是好文,文字也无可挑剔,可也许是期望太大太久,总不免有些失望。 我的第一反应是:这是重出江湖的作品?欠了点劲儿。人老了,就啰嗦。风格上最大的改变是,变得老夫子了,失去了文字的活泼和俏皮。也是快退休或已退休的人了,失去年轻人的俏皮,倒也在预料之中。这是自己给自己抛砖引玉,拭目以待。最好网上能掀起一股热议,也许更加 激发他。不过,时过境迁,这篇又太淡远雅致了一些,怕是难引起太大的网坛震动。

from 《中文社会媒体的惊天要闻二则

 

【相关】

图雅作品集 – 新语丝

方舟子:怀图雅(代序)

瓶儿:和涂鸦擦肩而过

《朝华午拾》总目录

【一日一parsing:“举报毒品违法 犯罪活动有奖”】

什么?

词类:V = Verb; N = Noun; punc = punctuation;
短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
Pred = Predicate; CL = Clause;
句法:H = Head; O = Object; M = Modifier; S = Subject; SubjS = Subject Clause

都是“回车”惹的祸:

正常句子没有回车,没有逗号,空格也不会有,那就对了:

谁说标点符号可有可无,对于 parsing 无关紧要?如果是口语就是,谁说停顿语气对于语言理解不重要?

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【一日一parsing:修饰语的组合爆炸挑战】

中文合成词、术语命名可以很长很长,如果顾及内部的修饰关系的边界,是一种典型的结构歧义的组合爆炸。排列组合算一算,N个修饰语有多少种结构歧义?

怎么整?其实,人对于这种超长短语的理解,也基本上是糊里糊涂听,对于里面潜在的歧义无感居多。那机器去做呢,两个办法,一个是凑合大局,不拘小节,出个 deterministic 的结果。另一个办法就是穷举其中的潜在歧义,也不难,问题是穷举了以后如何是好,还是糊涂。

量子区块链AI韭菜盒子店

NG=Noun Group;  AP = Adjective Phrase; NE = Named Entity;
M/m=Modifier; H = Head; O/o=Object;
N = Noun; A = Adjective; V = Verb;

what is 量子区块链?

马氏体区块链智能韭菜盒子

马氏体?or 体区块链?马氏-style?

AI牌马氏体大数据区块链智能云韭菜盒子

智能云 or 云韭菜盒子?

AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子

AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子声控密钥无人店

这已经超过10个修饰语了:AI牌 / 马氏体 / 大数据 / 区块链 / 智能云 / 全自动 / 去中心 / 韭菜盒子 / 声控 / 密钥 / 无人店

“声控密钥” 感觉是直接修饰 “无人店“ 也许更合理。可现在这种结构也凑合了。好在 XP 内部的纠结,对于句子中 XPs 之间的关系基本没有影响。不过,这种超长NE或NP其实也很少出现在句子里面,通常都是做标题用。

(注:以上例句是尼沙龙人工智能群老友故意拿 buzz words 调侃清华人工智能马教授的一手好菜“生造”出来的。但这些例子反映现代汉语的语言事实,并不离谱。)

O网页链接 【一日一parsing:修饰语的组合爆炸挑战】@马少平THU @立委_米拉  @算文解字 @冯志伟文化博客 @zhazhaba @李利鹏-汇真科技 @永恒的侠少 @白硕SH ​就此谈点自己的看法:
1. 正规文档无论标题还是内容,应该不会出现这种过多个不相关的(即便相关)词罗列堆砌在一起的,既不利于传播也不利于理解。当然,有些新闻媒体,或者某些政府公文的题头内容,比文中本身内容都难理解,可能是另有用意,其实并不相信撰稿人就是真水平不及,或许让人产生印象或其他?无论文章或标题,若是总摆着一副“万层茧”的姿态话,我个人意见,人不用去看,机器更犯不着去分析,即便分析那结果也难看的很,无实用价值,就当是那样的是数据传输的一串乱码。要么,文者水平太差,此文不必去读;要么文者就是想着难为人,那我为何还耐着性子去受难呢。
2. 少数几个词组合在一起,在人们容忍范围内的,还是有一定价值的,毕竟不能要求每个人都有通文晓典,行文都能如丝滑般的顺畅。这种平素不相往来的几个词临时组团赴会,初期可以先作为一个团体来看,然后再在随后的文里看看是否离队的分子,若有,再看看是谁谁频繁结伴单游,再回头看看原来这个团的豪华标签,基本上就有所清晰理解。正所谓“不怕你们聚得紧,就看你们分开时”。若通篇没有一处是分开的,而且大块头的合成词语还挺愿意抛头露面的,且不嫌穿那么长衫而行动不便,那这八成就是专有词了,专有词,何去分析拆解它?作为一个词能从文首进,从文尾出就好,也懒得分析了。
3. 至于是凑合大局还是用穷举来罩它,既然早晚都是糊涂,那单独就句分析句就是没太多必要,别累坏俺们的不经世事的幼年机器哈。
from 微博

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

【机器翻译新时代的排座座吃果果】

刘冰老师反馈,他看了我的NLP频道的笔记(【议一议“微软机器翻译提前七年达到专业翻译水平”】)说,就我随机测试的汉译英两篇,显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人,大牌教授。我倾向于同意他。因为我自己并没有认真比照,只是一时兴起做个测试。粗粗一个印象,觉得几家大都在一个水平级,但由于种种原因而来的偏好,我更喜欢有道。

其实不妨给这几家,加上搜狗,做一个英汉的随机测试,这样更容易评判。大家可以就两点做个各自的评价:(i)是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量。(ii)学学纽约时报給美国大学排名,咱们也給这几家非正式排个座次:当然,这种随机测试免不了有波动,不能算正式的排座次结论。

今天的 USA Today 的新闻,谈普金连任,吸引了我的眼球,不妨试试。

Putin heads for big win — and 6 more years — as Russia’s president:
(original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/)

Russian President Vladimir Putin — the country’s longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday’s election for another six-year term, according to incomplete returns.

Putin’s re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator):

根据不完全的回报, 俄罗斯总统普京–自前苏联独裁者约瑟夫-斯大林–在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 “大国家队”, 并补充说 “我们一定会成功”。

他说, 国家需要团结才能向前迈进, 并敦促民众 “思考我们伟大祖国的未来”。然后, 他率领热情的人群高呼 “俄罗斯!” 美联社报道。

谷歌翻译 (https://translate.google.com):

据不完全回报,俄罗斯总统弗拉基米尔普京 – 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 – 在周日的选举中再次获得压倒性胜利,任期六年。

普京的连任是普遍预期的,选举官员已经努力争取强大的投票率,宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理,使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计,从60%的选区算起的选票中,普京赢得了超过75%的选票。

下午7点莫斯科时间,当局表示,投票率已达到近60%。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人,并补充说:“我们必须取得成功。”

他表示,国家需要团结向前,敦促人们“思考我们伟大的祖国的未来”。然后,他带领热情的群众高唱“俄罗斯!”美联社报道。

百度翻译 (https://fanyi.baidu.com/):

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人,根据不完全的回报,他将在星期日的选举中获得压倒性的胜利,任期六年。

人们普遍预期普京连任,选举官员极力要求强有力的投票,以宣布一项无可争辩的任务。自1999年12月以来,普京一直是总统或总理,使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区,普京赢得超过75%的选票,根据中央选举委员会。

到了莫斯科时间下午7点,当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人,并补充说:“我们一定会成功。”

他说,国家需要团结向前迈进,并敦促群众“思考我们伟大祖国的未来”,然后他带领热情的人群高呼“俄罗斯”!美联社报道。

有道翻译 (http://fanyi.youdao.com/):

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报,他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选,而选举官员一直在努力争取更大的投票率,以获得无可争议的授权。自1999年12月以来,普京一直担任俄罗斯总统或总理,这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计,在60%的选区选票中,普京赢得了超过75%的选票。

莫斯科时间下午7点,当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”,并补充说:“我们一定会成功。”

他说,国家需要团结一致向前推进,并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译https://fanyi.sogou.com/):

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任,根据不完全的数据显示。

人们普遍预期普京会再次当选,选举官员们一直在努力争取选民踊跃投票,以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理,这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计,普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点,官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”,并补充说,“我们一定会成功。” “

他说,国家需要团结起来向前发展,并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯!”美联社报道。

老友说,不怕不识货,就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条,“是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量”?

我个人认为,这个结论是成立的。不仅仅是基于这一篇对五家的测试,以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解,加上平时做过的多次测试的印象,形成这一判断快一年了,从来没有觉得遇到过严重挑战。

第二条真要排座次呢,估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条,准确和通顺。我们就以这两条作为标准谈谈。

微软的问题:
1. 普金和斯大林错译成了同位语:“俄罗斯总统普京–自前苏联独裁者约瑟夫-斯大林–;”
2. 漏译了关键的限定语“自斯大林以来”,结果是让人莫名其妙:“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词:(不完全的)“回报”(returns),(不争的)“任务”(mandate),这算小错。

谷歌的问题:
1. 不合适的选词:(不完全)“回报”(returns),(无可争议的)“任务”(mandate),这算小错。
2. as-短语挂错了地方:他赞扬那些投他为“大国家队”的人 (He hailed those who voted for him as a “big national team”,不大不小的错)
3. “we are bound for success.”(“我们一定会成功”)只有谷歌没翻对,它翻成了“我们必须取得成功”。有相当偏差。

百度的问题:
1. 选词不当:(不完全的)“回报”(returns),(无可争辩的)“任务”(mandate),这算小错。
2. 生硬,两个状语的安排不妥:“【用选票从60%的选区】,普京赢得超过75%的选票,【根据中央选举委员会】”。
3. as-短语挂错了地方:他称赞那些投票支持他为“大国家队”的人(He hailed those who voted for him as a “big national team”,不大不小的错)

有道的问题:
1. 漏译了一个重要的限定语“自斯大林以来”:“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过,有些胆大妄为,化有为无。
2. 一个小瑕疵是“根据不完全的回报”(除了搜狗,其他各家都有这个瑕疵),最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然,因为有上下文,这个译法虽然不妥,还是可以理解。

有道的通篇译文读起来非常顺溜。

搜狗的问题:
漏译“for another six-year term“ (是个不大不小的错)。其他没看到错,读起来也蛮顺。

这样看来,搜狗和有道可以并列第一。谷歌第三。百度第四。微软,对不起,你还欠了火候:不仅是比不了谷歌,其他小兄弟也比你更准更顺。(也有人说,线上的不是他们的新版,最新的技术还没进去,我们拭目以待吧)。

马少平老师告诉我,“搜狗由于做的晚,全部用的是神经翻译,有道以前是统计翻译,后来加上神经翻译,再后来彻底抛弃以前的,全部用神经翻译。百度是在以前基础上(统计翻译)加上神经翻译。可见神经翻译胜出。”

而我呢,第一次体验到神经翻译的不俗表现,是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译,语音合成自动读出来给我的感觉不亚于一个专业的口译员,让我大喜过望,赶紧“录得”现场音频分享给朋友。【谷歌NMT,见证奇迹的时刻】2016-10-2 ) 后来,百度出来说它们比谷歌更早就“神经”了,不过我并没觉得百度比谷歌质量高,所以仍然坚持用谷歌。搜狗刚开始上线,界面和用户友好(长文的翻译拷贝等)不给力,用了一下就没再看了。一两个月前开始注意的有道,发现比谷歌磨得更圆,也颇用户友好和贴心,就开始用有道(问题是有时候过分神经,为了通顺敢于牺牲忠实,这个毛病看上去是目前神经翻译的通病。)。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app.  So I shifted to Youdao.  I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day.  It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance.   Despite the name of the app as Youdao Dictionary,  we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time.  The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations.  From MT as a business perspective, Youdao seems to be gaining momentum.  Xunfei is also a big player, especially in speech translation.

说曹操曹操到,微信刚好在传这个视屏:

第一次听讯飞刘总做 marketing 哇塞!比微软还厉害。一口气下来 促销人工智能 方方面面 顺顺溜溜 底气十足。他用代表能听懂的语言娓娓道来,能给人想象的空间,果然高手,谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象,给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错 可别忘了别家也已经追赶上来了,整个行业提升的结果是,老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译,我用我夹有皖南地方口音的普通话,重复给“有道词典的app”里面的口译界面,翻译结果一点不比讯飞逊色,属于同一量级吧,截屏如下:

 

 

 

【相关】

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录