《一日一析:“以前没钱买华为,现在没钱买华为”》

这两天社会媒体疯了一般,华为发布折叠式大屏5G手机,超级昂贵,17000 元,让苹果 X Max 失色,赚了多少眼球啊!在美帝国主义处心积虑定点打击挤压的不利国际环境下,华为终于凭实力秀了一把。

于是朋友圈开始重传这个著名的段子:“以前没钱买华为,现在没钱买华为”,大家感叹中文太玄妙啦,看NLU如何应对。微信沙龙的老友开始议论纷纷:

马:新句式:以前没钱买华为,现在没钱买华为。

白:缩合因果复句 vs 兼语

这是啥情况?

不在于是什么,而在于怎么得到。华为自身从低端到高端的历史是唯一线索。否则,反过来也不能说错。

李:好咱来解析解析:“以前没钱 买华为”

国人爱省略小词(“所以”),所以 NX(接续:next)常常表示因果,相当于then:“以前没钱” then “买华为”。倒是想买苹果,可买不起啊,总不能卖肾吧,也就只好拿华为凑合了。华为贱啊。

“现在没钱买华为”

怎么样?电脑不傻,这华为也太贵了,没钱买(cannot afford)呢。

自动解析是靠谱滴。

玩的什么 trick 呢?眼睛睁大一点看,前一句input有了个空格呢。但并非空穴来风,不信问小川老师,他在苹果Siri专门做语音的。

语言背景是,虽然省略小词是国人偷懒的坏习惯,但是口语中的停顿趋势应该还在,语音识别是可以、也应该捕捉的。既然有停顿 转写的时候 起码应该加个空格吧 对于解析 这就齐了:“过去没钱 买华为  现在没钱买华为”。

可是,人比机器差劲,完全的自私,彻底的懒惰,人写字硬是连空格也懒得加!这就逼迫听话的人去调动世界知识了。可华为手机由贱到贵 这种世界知识(而且是动态知识)大海一样无边无沿,这不是“欺机太甚”嘛。国人宁愿靠这种知识 也不愿按一下 spacebar,你说中文玄妙还是操蛋?

网上也看到规规矩矩加了标点的:“过去没钱,买华为;现在,没钱买华为。”

白:以前有人戴头巾,现在有人戴头巾。

李:异曲同工。以前有人(来/在的时候)then  戴头巾,现在有(某个)人戴头巾。

“以前有人罩面纱,现在没人罩面纱”。

加个空格有那么难吗?“以前有人 罩面纱,现在没人罩面纱”。

“以前有人(的时候)then 罩面纱,现在没人罩面纱(即便人来)”。

白:为啥不是更自觉了呢,阿富汗,伊朗,都走了回头路。

李:也是一解:“以前有人(的时候)then 罩面纱,现在没人(的时候)then(也)罩面纱”。这是什么美德?

【相关】

华为手机刷屏:全球首款、5G+折叠屏又一个元年来了

【汉语句法的挑战之一:if-then的简约式】

泥沙龙笔记:汉语就是一种“裸奔” 的语言

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白107: 让人咬牙的中文定语从句嵌套】

白:“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”

“软件开发人员”和“……公司”居然并没有从属关系。

从外向内比较清楚,从左到右就太累了:吸引-人员;依赖-公司;切断-权限。

李:难哪!

“依赖-权限/软件/公司/人员”,啥都可以依赖,所以搭配相谐没啥用。“吸引 – 用户/公司/人员”,也都可以的。

白:不是用相谐排除异己,而是用相谐先到先得。

李:那样的话,可能可行的办法是从内向外,而不是从外向内。先一杆子深入内部 做 (V1 …O1),然后做 中间的 [V2 …(V1 …O1) de O2],最后做最外层的 {V3 …[V2…(V1…O1) de O2] de O3}。这种类似内嵌套的结构,绕三层算是极限了,超过三层嵌套,去它的。(定语从句有 “的” 作为标记,用了超过3个 的 的定语从句嵌套,少见而“缺德”,可以不管。)

从内向外的思想,30多年前,刘倬老师在小黑板上解说过。这可算是NLP掌故了。说的是 如果把 VP 解析的方向,由从左向右一个模式一个模式的匹配,改成由右向左,那么就可以一杆子伸到最内层的 VP。这个技巧可以一次扫描对付不限层的右递归。

上面的类似定语从句嵌套的结构 在一杆子自右向左捅到最内层VP上,有类似的表现。所以说,从内向外层层规约是可能的一个途径。

从外向内 难行在 搞不清该放过内部的什么材料。从外向内 以前提过,如果是强搭配,还是可以的。以前提过的现象是 句首词 与 句末词 往往有关系 可是跨度是句子极限 因此 要指靠自底而上 自内而外 的解析和短语结构的规约 来拉近二者的距离 很难。因为难保解析步步都走对了啊。但是天涯若比邻的一个简单办法 就是把句首和句末接起来。让句子从一条线 变成一个圈儿。天涯立即比邻了,这时候如果发现有搭配,那还犹豫啥。parsing 以句为界,远距离最远不过句首句末。一个长江头 一个长江尾 郎有情妾有意就好了。

almost there!

“依赖”的是“公司”,而不是“人员”,能改进这个就齐了。parse 直到 ”不想依赖可以切断用户访问权限的公司的软件开发人员”,难为它了。这个跨度已经达到 13 个节点 足够长了。要想翻盘 必须更大的上下文。

也不是没有痕迹。trigger 在 那个 NX (next) 上,可以做休眠唤醒的 trigger。正常的 parse 是没有断点的 现在有了 NX 断点,就可以尝试另外的结构路径了。“那些”常常率领一个很长的 NP 而不是自己单独做 NP。如果是 NX 联系的是NP,“那些”就跟它接上合并了,断点消失,休眠就唤醒了,这个顺理成章,很好实现。可惜,NX 接的是个长长的内部结构复杂的 VP(“依赖”统率的VP子图),如何着手改造内部结构呢?唤醒休眠就难。

几乎没指望了,但是真要做,就可以尝试在 VP 里面翻盘。目标还算明白,就是要把 VP 改造成一个 NP 好与 “那些” 结合。挺累的。

白:就是假(du3)定(bo2)最外层括号只有一对

李:办法是有的,到这地步 要做是可以做的。犹豫的原因是:1 值得吗 毕竟这类现象已经有点长尾的样子了。2 更要紧的是,做下去有点太强力了(brute force),容易弄巧成拙,维护成本大。当然如果有自动的办法 另当别论。专家做,到这地步,就非常犹豫,往往下不了手。

白:切断权限,对登录是负面的,于是切断权限的公司和从属于该公司的人员对登录也是负面的。吸引,对登录是正面的。从sentiment角度看,伟哥的图里,不论NX怎么解释,只要把“吸引”传导给“人员”,必然拧巴。

李:要把这套推理带到休眠唤醒去 也很难(尽管其实 sentiment 是同时在做的,符号逻辑推理的基础都在。)。

白:都变成动态优先级的加减分,水落自然石出,此消正好彼长。

李:专家编码不行。头脑感觉不大够用。必须承认人算不过机。

白:唤醒也不是唯一路径。可以半睡半醒,可以梦游,你走百步我走五十步。

李:NLU 太难了吗?今天讨论的算是一例。可以摆个擂台,哪一位出来溜溜?

微博贴出后,王老师试了试神经MT,MT权威刘老师也惊叹:

刘群MT-to-Death:这个句子机器翻译得太好了,原中文句子人理解起来都很费劲。//@王伟DL: 对于“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”,试了一下有道“This approach appeals to software developers who don’t want to rely on companies that can cut off access”

王伟DL:就时常在想,翻译都这么好了,那么句法分析会做不好?常有削弱自己做parser的动力。当然,这种end to end翻译路线,与描述句法结构的路线是不同的。若是句法分析做得也很好了,那么提取知识图谱等,及更复杂依靠句法分析基础的阅读理解等就更是春天漫步,鲜花朵朵开了,可现在好像还不是这么回事。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

语义沙龙小品:从侯宝林的四字相声说起

包容歧义与模糊理解是自然语言交流的常态

刘:侯宝林几个说方言的相声也印象深刻,一个是说宁波话像唱歌的,另一个是用几种方言模仿晚上起来撒尿的对话,想起来都好笑

毛:嗯,谁,俺,嘛,尿。

李:这里有什么玄机?单音词 成句。who / me / what / pee。说起来 最后两词 理论上有歧义:pee 是动作 还是 物体?

歧义包容的说法是 没必要消歧。因为动作也好 物体也好 背后的概念是一以贯之的 并不影响交流。对于人类在语用中惯用的模糊理解来说 包容歧义恰好与模糊理解相配。除非遇到较真的。较真的对话大体如下:

A: 我问的是”嘛”
B: 我答的是 “尿”
A: 答非所问。我问的是 你在干嘛?
B: 没错啊 我答的是 尿尿 呀
A:那我要问是什么呢?
B:也没错呀 我答的是这儿一泡尿。

嘛:义项1 干什么;义项2 (是)什么;义项3 句末叹词

尿:义项1 撒尿,动词;义项2 排泄物,名词

歧义对歧义 蛮好。消歧不是自找麻烦?

包容和模糊是人类交流的常态 省力低碳而高效。

白:侯的四字相声,省略是主要的,包容歧义义项倒在其次。

李:@毛德操 四字相声的事儿 有历史的。记得你一年多前就问我 什么叫机器理解?举的就是这个四字对话。当时没多想,觉得这都是词典里面的词(语素),有啥理解不理解的。查词典而已。词典里面绑架了语义,该啥啥,就算是解析了。自然语言理解是说怎么组词成句。

毛:是啊,“谁俺嘛尿”应该进教科书。你的书里何不把它写进去?

李:今天重提这个话头,想了想,机器可以做的,还有一些:1. 首先要确认这是两人对话的语用场景;2. 确定这是个单字句。

识别单字句 对于理解重要。组词成句的极限形式就是这个词就1个,它成了句。怎么识别单字句?就是孤零零一个字(语素)蹦出来,带有语调,前后都有较长的停顿。

好,somehow 上述两点形式化了,提供给机器,下面就可以解说机器怎么理解的了。“谁” 在单字句的条件下,在对话的场景中,它的理解就是挖了一个【human】的坑,要求给填上。在常规的多词句子中,对话的所谓解析是要知道 intent / slot,现在 slot 出来了,就是【human】,intent 因为没有谓词,理论上是模糊不清的。但是在对话场景下,这个 intent 有个标配,可以“脑补”上,机器于是知道 intent 是:谁在那儿?那动静是谁?

有了这个 intent/slot 的解析,第二句对话“我”,作为合理的回答,就自然顺理成章了。如果是机器回答,可选的答案有:是我 / 是小偷 / 没看清(谁) / ……

毛:印象中这段相声好像是侯宝林和郭启儒说的。

李:接下来的“嘛”,词典有两个义项:1. 句末叹词;2.疑问代词 what。在“单字句”条件下,排除了句末叹词的可能性,只剩下what,挖了一个【thing】的坑,有了【slot】,还是没有 intent

在对话的场景里面,单字疑问词,可以“脑补”标配的 intent 是【do(what)】,或进一步脑补为:what are you doing

于是引来回答:1. 名词:尿;2. 动词:尿。对话场景标配延长是:1. 这是尿;2. 我尿尿。顺着这个思路,所谓机器理解及其背后的场景落地,显然是有迹可循的。

毛:以模糊对模糊,以歧义克歧义。负负得正。

白:@wei “嘛”的语音形式不同。做“什么”解的“嘛”,读第四声。做“干什么”解的“嘛”,读第二声。

毛:你的书里应该加一节“谁俺嘛尿 辨”。

李:哈【自然语言答问:尿辩】。记得,语义泰山 菲尔默教授写了 The case for case,许国璋教授翻译过来就叫《格辩》。

毛:不应该是“辩”,应该是“辨”。

李:对。他是辩护他的格理论。这里是辨识/包容“尿”的歧义:【自然语言答问:尿辨】。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白106: “应用文写作助手”的金点子再议】

立委按:嘿 将来普及了 别忘了咱们做的思考和可行性实验哟。微软 office 为啥成为摇钱树 因为人总要写字吧。写作助手类应用为啥会风行 因为人免不了写不好字呀。难得的AI市场切入角度呀 别一窝蜂都去做聊天 bots 啦 已经水泄不通啦 MT 也是如此 搜索巨头把市场基本做死了 如何跟免费竞争?

白:“如果技术达到了那一步,我想不出任何问题是技术解决不了的。”

单看后半句,有歧义,而且sentiment相反。

我想/不出任何问题/是/技术/解决不了的
我/想不出/任何问题/是/技术/解决不了的

联系前半句和常识,可以排除对技术低估的意思,只留下对技术高估的意思。

李:前面那个意思 要使劲想 才想得出来。

不出任何问题/是/技术/解决不了的 == 技术/解决不了/不出任何问题

显得勉强的原因大概是 “解决”的宾语坑要求的是NP,通常不带VP。

? 解决不了野火蔓延

解决不了野火蔓延的问题。

严格说,应该是:技术/解决不了/不出任何问题的问题。

白:不出任何问题的诉求

李:对,不出任何问题 是好事。

白:谓词性成分的上位概念是体词,这没什么不可以。

李:这就回到了所谓名物化(nominalization)。中文这边,零形式的名物化是一个“鬼”,说它不存在,似乎看得到影子。说它存在,却几乎总是摸不着。容易走火。

白:另一端挖的坑只要足够抽象,就容得下这个鬼。解决,挖的坑就属于“足够抽象”那种。

李:“足够抽象” 不好清晰界定。赶巧了,上面的句子听上去还不算别扭,但是感觉很难伸展到其他的谓词。

?技术解决不了不吃饭

?技术解决不了不认真读书

白:和“那个集合”中的元素构成强搭配:

我收到了他自杀未遂(的消息)

张三不愿意正视两地分居(的现状)

括号里的名词是之前谓词性成分的上位名词,和主干谓词构成强搭配。相当于分别以主干谓词节点和谓词性宾语成分节点为圆心,以适当半径画圆,有个不言自明的交点。本体的几何。

李:我的语感可以接受:张三不愿意正视两地分居。但很难接受: ? 我收到了他自杀未遂。

白:分析从宽。

接受不接受无关紧要,不错到别人家里就没关系。

把“收到”换成“听说”,自然👌

李:“听说”自然没问题。“听说” 的句法子范畴挖的坑是 Clause/VP or NP,谓词性的为先。“听说他走了”。

白:那个NP的语义本质是VP的上位。在口语里把括号里的省略掉,不影响理解。

李:对,不影响理解,意思都在,就是不符合搭配习惯,萝卜与坑有违和感。这不正是可以借助机器的地方吗?让机器来帮助把句子写顺,前几天提出过这个利用MT倒腾的小窍门:告诉你一个写外语避免常见错误的实用技巧。

可以试试:

我收到了他自杀未遂 –》 I received his attempted suicide –》 我收到了他企图自杀的信。

哇塞,加了 “的信”二字,听上去顺溜多了。截个屏,留存个突破天花板的神(经)迹。(好玩的插曲:“自杀未遂” 来回一倒腾 成了 “企图自杀”,意思没变。)

不得不说,MT发展到今天的“神经”程度,在信达雅之外,多了一个“改良”的维度。以前谈“信达雅” 是以原文作为天花板,然后讲的是翻译过程中 如何尽可能达到原文的品质,从这几个角度来看。现在可以说,MT 可以让破烂的文字,翻译为通顺的文字。也就是说,目标语表述终于有了突破原文天花板的可能了。这可是违背了取法乎上仅得其中的经验法则哟。取法乎下,可得其中哪。

这个奇迹是怎么发生的?

白:这就好比,正确的理解是一些深坑(学术上叫“稳定吸引子”),错误的表达好比球放到了斜坡上,重力自会把它“吸”到深坑里去。只要放球的斜坡处在深坑的喇叭口处。

李:对。这个奇迹的发生 是一种 propagation 的结果。在大数据中,良性熏染强过 error propagation。MT 实际上取法的不是原文输入文句,那个原文只是一个种子,一个引子。真正取法的是目标语大数据。大数据的平均品质必然高于 broken Chinese (or broken English)。因此虽然 trigger 是 broken 的,结果却是好的。

白:大数据是表象。稳定吸引子才是精髓。大数据砸出坑,最后起作用是坑。

李:坑的吸引这些东西 还是需要有足够的数据才能奏效。

以前责怪过神经MT的无中生有(除了张冠李戴指鹿为马外),以为它只会产生弊端/副作用,典型的为通顺,牺牲忠实。现在看来,也有无中生有并不怎么牺牲忠实却带来了通顺好处的情形。前面例子无中生有出来的 “的信” 就是一个改良。因为大数据里面,“收到”后面几乎总是有个抽象名词,突然没有了,那就无中生有给加上一个“(收到……) 的信”。要是somehow 能改为:“我收到了他企图自杀的信息”,那就更好了。“信息” 比 “信” 更加抽象,更适合无中生有,而不产生副作用。其实相信大数据里面“收到 — 信/信息”都是存在的 但是前者压倒了后者。因此 “无中生有最好采用抽象虚指的词填坑” 这个立足于本体子范畴知识的启发式(heuristic),在目前的模型里面不能贯彻。可以归纳出来的不同角度的启发式这种东西,还是符号系统容易带入,神经比较难。

白:这也可以通过好的本体来做。两弧相交,一样得出无中生有的东东,符号路线本身并不禁止这个。收到+“那个”也是可以的,而且更加抽象,管它是信还是信息。

李:其实 这次”MT倒腾改进表达“的实验,翻译过来的英文本身仍很破烂,如果足够好的话,第一步从破烂中文翻译成英文的时候,就应该已经克服了这个“receive … suicide“ 动宾搭配不当的问题,因为英文的 receive 也是子范畴规定宾语坑要用 NP 而不是 VP的。可惜这一步没到位。好在,翻回中文的时候,良性熏染出效果了。就是说 这么一倒腾 实际上给机器两次改正的机会,somehow 英文的大数据模型在这个数据点上 不够强。预期的改良没有实现,但是还有个中文大数据的第二次机会。

白:真想做改良这个事情,其实完全无需借道MT,作为一个独立的端到端任务,可以做得更好。

李:这就是我前几天说的,A–》A’ 的主意 (见 告诉你一个写外语避免常见错误的实用技巧),不用 A –》B –》A’。直接来帮助改进文字,辅助写作,弄得好的话,这可是产品的金点子。

奇怪,写诗写词,都有人做了。写应用文这种惠济苍生的事儿,却还没人在做。这几天的实验实际上已经验证了可行性。剩下的就是产品定位和实际去做了。以后那些文秘可真地要面临失业危险了,据说多数中文系出来的文秘就是为老板写应用文 要写得比较溜 不同文书有不同规范。等到每一个应用文都训练出一个模型后,比一般秘书做得好,几乎是肯定的了。以后 秘书就是留下来 也省力多了,胡乱起草一个文书 只要意思大体在 交给机器生成规范的应用文,比自己在那儿费劲拽好多了。

白:规范就是稳定吸引子。

李:现在可以训练机器讲话,奥巴马可以用自己的调调发表中文演说,惟妙惟肖。很快,也应该可以训练机器写出不同风格的文字,越八股的类型 越好模仿。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

告诉你一个写外语避免常见错误的实用技巧

以前常常有“老外最常见的中文错误”,或者“中国人最常见的英文错误”。现在有了立等可取的免费解决方案了。就是在交作业之前,找一家信得过的网上机器翻译网站(我用的是有道和搜狗),在中英之间倒腾一遍就齐了(其实不会太久就不用这么来回倒腾,一定会有团队直接在本语言中做“翻译”,从A到A’ 把不通顺的语句改写成通顺的说法,实际上就是“写作助手”类应用。)

A   –》B   –》A’

刚才到网上查老外的中文错误,见到这个:“盘点老外常错的中文语法点” 。根据里面列举的典型案例,我们试试这个技巧。

遇到的第一个错误是搭配不对:英文都是 strong,可在中文的搭配习惯上,“咖啡”论“浓”不论“强壮”:

“对不起老师,我昨天没睡好,因为喝的咖啡太强壮了”

搜狗MT: –》Sorry teacher, I didn’t sleep well yesterday because the coffee I drank was too strong.

然后 翻译回去:–》对不起老师,昨天我睡不好,因为我喝的咖啡太浓了

搭配是语言学习的难点,因为每个语言搭配的习惯不同,不怎么讲道理。没个10年8年的功夫,是很难学会地道的语言搭配习惯的。我女儿从小在家听中文,周末上中文学校,现在开口闭口还是: “我不要穿这个帽子”、“我穿的眼镜 不好看”,纠正过无数次了,还是改不了。

“我不要穿这个帽子” –》I don’t want to wear this hat.
–》我不想戴这顶帽子。

“我穿的眼镜 不好看” –》The glasses I wear don’t look good.
–》我戴的眼镜不好看。

老师千叮咛万嘱咐:帽子是“戴”的不是“穿”的,帽子要论“顶”,不论“个”。哪里如用的时候随时上网请教一下MT呢,其实让机器把关最放心。

③ “了”这个大难点 

“我和我的老师们一起去了旅游”,“我昨天吃了饭,然后洗了澡”“了”的难点在于本身有很多规则,而且这些规则还总有例外,用在句中还是句末,用在过去还是变化,就连中国人也很难说得清楚。

MT 里面来回一倒腾,这个不该用的“了” 就飞了 :

“我和我的老师们一起去了旅游” –》I went on a tour with my teachers  
–》我和老师一起去旅游

问题是 去+V 中间不合适加“了”,可是老外(甚至老中)哪里知道啊,“went” 在他脑子里呢,出来的时候就成了 “去了”。

无论是老外学中文的难点,还是老中学英文的难点。说到底 大多是对于千千万万鸡零狗碎的与自己母语不同的搭配、语序等等语言习惯,搞不定。记不住啊,除非是没完没了的练习(drills),并且需要不间断地使用。可是大部分人做不到。可是机器没这个问题。

讲解说:“放假快来了”,“放假”是一个动词,学生经常和“假期”搞混了,说出来的句子自然不地道!

?“放假快来了” –》The holiday is coming soon. –》假期快到了。

?我打算了几个计划  –》I made several plans –》 我做了几个计划

“做-计划” 应该算顺了,至少比“打算-计划”的搭配好。不过没实验前,我头脑里想的是 “订-计划”。从有道MT转到搜狗MT,出来的还是“做-计划” 而不是“订-计划”,相信数据里面,前者比后者的搭配频率一定高得多吧。虽然后者显得更加地道,因为用的不是高频的”做“。对于搭配,其实低频率的语素(作为搭配的部件)更加地道。目前的模型显然贯彻不了这个启发式指导。

对于自然语言,生成从严,分析从宽。学外语搞不定的就是不知道如何“从严”。生成出来的外语句子就常常不顺畅,不地道。听上去就是老外。可是语言模型是在大数据上学出来的,虽然语言里面也有各种不顺畅不合法的东西,但是统计上看,飘在上面的,总是趋向于大众常说常见的顺畅的句式。因此利用MT帮助把句子“捋顺”,常常特别见效。

盘点老外常错的中文语法点”中指出了语序方面的问题:

?“我回去台湾一年一次” 用有道MT就成了:
–》 I go back to Taiwan once a year
–》 再把它翻译回中文,句子语序就顺了:我每年回台湾一次。

好,下面自己造几句 Chinglish,按照中文习惯来几句洋泾浜:

she body tall, face beautiful, head smart –》 她身材高大,面容美丽,头脑聪明 –》He is tall, beautiful in face and intelligent in mind.

语句通顺方面,搜狗MT互译是做到了把国人的洋泾浜转化成了合法通顺流畅的英文。(可惜大事聪明小事糊涂,居然把“她”错译成了“He”)

其实,我们老中之所以会整出洋泾浜英语,就是因为头脑里面的意思是母语形式表现的(诸如 “她身材高挑、盘儿靓、脑子聪明”),然后就把词汇替换成英文蹦出来。把洋泾浜翻译回中文,然后再翻译到英文,等价于直接做汉英自动翻译。

随处可见的英文错误,有些还是比较正式的通知,本来都是可以自动提醒克服的,可惜软件不到位,今天又见一例,随手做了个MT倒腾改错:

We offer our apologies to you for the inconvenience has caused you. ==》 对于给您带来的不便,我们向您道歉。
==》We apologize for the inconvenience.

比起原文啰里八嗦还有文法错,机器倒腾过来的,多么精简规范!本来这一切都是可以自动的呀。

另外 由此突然冒出个产品经理梦寐以求的灵感。可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个市场定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

盘点老外常错的中文语法点

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

2019春节,见证奇迹的时刻

2019年春节期间的奇迹。其实,说的不是刘谦换壶的时刻,那个奇迹已经成为全国人民的笑话了。

我还给央视拟了个严正声明:

中央大国,万邦来朝;堂堂央视,亿众瞩目。如所周知,魔术皆伪。然央视之伪,亦有格有调,断非所传之无品。央视之伪,拜夹层高新科技所赐,佐以不可测之隐身神术。所传之影碟,乃小人PS所得,央视保留告诉之权利。特此公告,全民周知。

也不是我家猫咪,叫卡卡的。她要写论文的奇迹,大概还需要时日才能实现。春节期间,老朽著书立说的时刻,她也从来不闲着:

代劳也好 省得我费力气啦。《阿猫论自然语言》,可能比人论得深刻 这年头啥事都说不准。我家小卡的爪子在键盘上 随机按下自然语言的句子 概率有多大?肯定不是零吧,不是零的概率 放在宇宙尺度下 等于乘上无穷大,这个比宇宙从无生物演化为有生物 进而出现人这种吃饱了还会忧虑的物种 应该是同一个量级的神迹。可惜这个奇迹,为人是见证不了的,大概只有造人的上帝才有见证的可能。

奇迹发生在昨晚。

昨天晚上 打开网络细细把川普那么长的国情咨文看了。可以点个赞 除了文采飞扬 内容丰富外,他那么大岁数做一年一度最重要的长篇施政演说 居然手上没拿稿子 一点都不磕巴 抑扬顿挫 始终保持演讲的节奏感。就连当年周总理国庆演讲四个现代化愿景 也还是拿着稿子半念半讲的呀。不知道美国用了什么高科技给总统演讲电子提词?反正现场镜头没看到啥机关。一边听 一边欣赏国会分裂的听众的众生态 一边没忘了测试口语机器翻译 打开有道词典app 点击口语翻译 把手机对着电脑视屏现场 等于是同声传译实验。

这是见证奇迹的时刻。

手机截屏 同声传译的片段。效果不错吧。当然 川普吐词清晰 也有功劳。虽然现场有噪音 欢呼声 掌声 偶尔的嘘声。

奇迹在于其稀有。随时随地可现的“神经MT”奇迹,人们似乎麻木了。可是,我是机器翻译出身,在年轻时的梦想全面实现的时代,仍然不敢相信它是真的。因此,不断在测试,在考验,在见证。

【相关】

谷歌NMT,见证奇迹的时刻

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

在机器翻译唾手可得的时代,还要不要学外语?

李:今天快讯,白宫就中美贸易谈判发表声明

Statement of the United States Regarding China Talks

For the last two days, high-ranking officials from the United States and China have engaged in intense and productive negotiations over the economic relationship between our two countries.  The United States appreciates the preparation, diligence, and professionalism shown throughout these meetings by Vice Premier Liu He and his team.
The talks covered a wide range of issues, including:  (1) the ways in which United States companies are pressured to transfer technology to Chinese companies; (2) the need for stronger protection and enforcement of intellectual property rights in China; (3) the numerous tariff and non-tariff barriers faced by United States companies in China; (4) the harm resulting from China’s cyber-theft of United States commercial property; (5) how market-distorting forces, including subsidies and state-owned enterprises, can lead to excess capacity; (6) the need to remove market barriers and tariffs that limit United States sales of manufactured goods, services, and agriculture to China; and (7) the role of currencies in the United States–China trading relationship.  The two sides also discussed the need to reduce the enormous and growing trade deficit that the United States has with China.  The purchase of United States products by China from our farmers, ranchers, manufacturers, and businesses is a critical part of the negotiations.
The two sides showed a helpful willingness to engage on all major issues, and the negotiating sessions featured productive and technical discussions on how to resolve our differences.  The United States is particularly focused on reaching meaningful commitments on structural issues and deficit reduction.  Both parties have agreed that any resolution will be fully enforceable.
While progress has been made, much work remains to be done.  President Donald J. Trump has reiterated that the 90-day process agreed to in Buenos Aires represents a hard deadline, and that United States tariffs will increase unless the United States and China reach a satisfactory outcome by March 1, 2019.  The United States looks forward to further talks with China on these vital topics.

搜狗机器翻译如下:

过去两天,美国和中国的高级官员就我们两国的经济关系进行了紧张而富有成效的谈判。美国赞赏刘副总理和他的团队在这些会议中表现出的准备、勤奋和专业精神。

会谈涉及广泛的问题,包括: ( 1 )美国公司向中国公司转让技术的压力;( 2 )加强中国知识产权保护和执法的必要性;( 3 )美国公司在中国面临的众多关税和非关税壁垒;( 4 )中国网络盗窃美国商业财产造成的危害;( 5 )市场扭曲力量,包括补贴和国有企业,如何导致产能过剩;( 6 )需要消除限制美国向中国销售制成品、服务和农业的市场壁垒和关税;( 7 )货币在美中贸易关系中的作用。双方还讨论了减少美国对中国巨大且日益增长的贸易逆差的必要性。中国从我们的农民、牧场主、制造商和企业购买美国产品是谈判的关键部分。

双方表示愿意参与所有重大问题的讨论,谈判会议就如何解决我们的分歧进行了富有成效的技术性讨论。美国特别注重就结构问题和减少赤字达成有意义的承诺。双方同意,任何决议都将完全可以执行。

虽然取得了进展,但仍有许多工作要做。唐纳德·特朗普总统重申,在布宜诺斯艾利斯商定的90天进程是一个艰难的最后期限,除非美国和中国在2019年3月1日前取得令人满意的结果,否则美国关税将会增加。美国期待着与中国就这些重要议题展开进一步会谈。

阿:@wei 文字相当棒

马:@wei 没看你说明之前,没有觉得是机器翻译的。

李:一字未改,就是搜狗MT。新闻类、IT类、科普类、日常会话类翻译都已经不是障碍了,机译已经达到人译水平,比多数人强。关键是随时随地 立等可取。所以那些写不了通顺英文的人,也不必费时间学英文了。你可以用随便写出来的中文,翻译过去,会成为一篇相当通顺的英文。不信试试搜狗MT或有道MT。译文往往比原文更通顺。从神经机器翻译的原理和目前水平看,译文总是通顺的,基本不受原文顺不顺的影响。原文只要把意思大体表达出来就好了。稍加修改,这比自己用英文拽要简单多了。

其实,可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等比需要做翻译,对于多数人是更加频繁的日常任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。常见应用文针对文体专项训练,肯定比一般人学得地道。这是无疑的。这个产品定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

最近试了试讯飞口语翻译机,日常口语语音传译也已经不是问题了。我有意用非标准的普通话,蹩脚的英文为难它,两边互译倒腾。结果都不错,常常有惊喜。

阿:@wei 怪不得现在大学英文系都萧条了 。

李:AI 各应用领域要是都达到 MT 的水平,我就同意奇点到了,然后就相信马斯克、霍金之流的耸人听闻,呵呵。胜利大逃亡,跟马斯克到火星去避难。

严:看了@wei 引用的机器翻译的文章,加上这些年飞速进展,让我更纠结了。在美国高中的儿子告诉我他不想学外语,但我太太觉得一定要学的,因为绝大多数大学入学都有外语要求。不学外语的话大学选择就会大大缩小。但儿子说得也对,学三年还是比不过机器翻译,不如用这时间学点别的,比如离散数学之类。我真拿不定主意。

瑞:现在医院里护士都用手机上的APP翻译软件跟病人用各种语言交流。虽然翻译未必精确,但足够表达主要意思

迈:@严 如果学外语用数学做代价,可能是定位误差。人应该是多面手,学外语发展另一块脑力,或许可以增加认识能力,学其他科目的成效大大提升,也未可知。

严:@迈 有道理。但通常间接效益超过直接效益,需要特殊条件。

毛:如果机器翻译芯片可以植入人体,那就真的可以不学外语。

阿:@严 学语言不仅仅是学习机械的语言 看上文《【人文科大】语言赋予思维的变革性力量

李:说老实话,绝大多数国人学外语 尤其是相当数量学得很苦 很受罪折磨的人,的确是劳民伤财 何苦来哉。如果把学一门外语当作一个业余兴趣,学了可以开开眼界 了解原来思想可以有不同的表达手段。但学一门 浅尝辄止就好 除非是想专门研究语言。

瑞:马云学数学是对自己的折磨,学英语却是享受

阿:至少对语言的结构有更多了解 不学西语 就不知道什么过去式 进行时 虚拟语气等等 中文好像不教这个。课堂上学的基本没用。

李:当年学第二外语法语 第三外语俄语 回想起来 真是遭罪。现在也几乎全还给老师了。好在做了语言学家 虽然具体语言的能力是久不用就忘了 但语言学职业上还是受益。但绝对不主张 不鼓励非语言学家去学二外三外。有那时间 干什么不好。其实学英语也很遭罪,不过是遭罪一辈子了,麻木了而已。

阿:对有些人来说 语言就是一种爱好 一种游戏。你去跟打游戏的人说 你玩别的多好 他不会理睬。

李:唯一不遭罪 真正感到乐趣的是学世界语。那真是神奇的东西 学起来非常过瘾。学完了 也终于没有还回去 听说是退化了一些 阅读和写作没影响。

自然语言作为外语 基本上就是把人当机器折磨。无数鸡零狗碎的习惯用法需要死记 需要反复练习。可人脑毕竟不是硬盘啊 哪里经得起这种折磨。属于低级的强体力劳动 劳动对象是头脑记忆和条件反射。不值。

世界语不同 死记的部分被压缩到最小 逻辑和规律一统天下 学进去感觉进入了思维表达的自由世界。如果学外语只是为了开阔眼界 了解母语以外的表达方式 可以推荐世界语。

以前老觉得世界语因为没什么用 会逐渐式微。现在看来 有了机器翻译 有用无用已经不是主要标准了。剩下的就是语言的兴趣、特色和投入产出了。保不准100年后 它将成为唯一的“二外”供人娱乐 满足好奇心。

师弟轶事——疯狂世界语

这是当年学世界语的投入,师姐的夸张描述。大概与玩游戏的人入迷类似。

Nuva:学会一门外语,等于大脑多开发了一块地方,语言间链接更多。

梁:多学一门外语,等于在你的黑屋子里多开一道窗户,也让思维更加多元。会外语,才有可能接纳,至少不排斥,来自不同文化的东西。还有,学外语,得老年痴呆的可能性也减小,大脑开发的越多,得老年痴呆的可能越小,cognative reserve 比较大。

李:都是站着说话不腰疼。啥事都有个性价比、投入产出比。学外语需要投入多少时间精力,与它带来的好处对比,简直就是黑洞。而且学了以后,如果不经常使用,一多半都会吐回去。如果回报是可以看外文原文资料、出国旅游可以与老外简单会话,问路点菜上个厕所啥的,这个回报在有机器翻译的现代社会,已经不值一提了。其他的回报还有啥可以度量的?

有一种回报是,因为人与人对于外语的吸收能力差别很大,在全民学外语的环境下,语言能力强的人会有特别的优越感。女孩子一般比男孩子学外语更快,更溜,所以学外语是妇女能顶大半边天的难得机会。这些也算是特别场景下的回报。但这种优越感是建立在其他人学外语的挫折感的基础之上。如果有挫折感的人 突然悟出来现代社会有电脑,没必要进入外语这个赛道了。这个好处也就不复存在了。

总之,外语与钢琴类似。孩子愿意学就让他学。不愿意学不必勉强他学。不是学了没好处,而是投入太大,收益太小,一般来说不值。目前的教育制度还是滞后于时代,规定人人学外语。等再过20年,也许教育制度会改成不是必修。

毛:完全同意。

王:急功近利未必能学好。艺不压身,如果能做到,会弹钢琴比不会要好。会一点外语也不错。这些技能都很费时,不容易达到预期效果。

严:@wei 很受鼓舞!给儿子推荐世界语!估计只有网上资源,又要跟counselor协商了。高中里只有法语、西班牙语、日语。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白105: 结构歧义的视角和角力】

立委按:句法形式 语义常识 和 上下文场景三者 并不总能对齐。但它们蛮拧的时候 其角力决定了解读。有趣的是 人与人的视角不尽相同 因此角力对于不同的人 作用力也可能不同 因此并不是每个人对结构歧义的理解都是相同的。真伪歧义从黑白分明演变为灰色频谱。这是观测者效应和测不准原理的语言学反映吗?kidding…, but  truly fascinating ……

宋:“预约手术请到治疗室”,预约手术  是偏正还是动宾?

刘:英语可以用过去分词和不定式加以区分,中文有歧义。

李:对。预约【的】手术请到治疗室:这是定中关系(偏正),已经预约了的。【要/如果】预约手术请到治疗室:这是动宾关系,“不定式”或未完成体。

“预约手术请直接进手术室”,这大多是定中. “预约手术请到登记处”,属于动宾。

白:字数规整,偏正优先。

宋:今天上午陪老伴去医院做一个门诊小手术,是预约好的。看到诊室门口的条子“预约手术请到治疗室”,第一反应就是偏正结构,原因一是自己这个手术是预约的,之二是到治疗室,治疗室正是通常做门诊小手术的地方。结果是我理解错了。原意是动宾结构。

白:事理图谱对于“预约”的场地和“手术”的场地应该有所设定。“包子往里走”都可以,“预约手术请到治疗室”当然没什么不可以。如果是口语,重音不一样。私刻印章是犯法的。私刻印章是无效的。

“削铅笔刀”为啥没有歧义?

李:“机削铅笔刀”为啥有歧义?“手削铅笔刀”为啥有歧义?

白:看不出来。

李:en …… 例不成理存。何况也未见得不成立:

“手削铅笔刀是削不了的 机削铅笔刀庶几可成。”

“手削铅笔刀不好用 建议购买机削铅笔刀。”

VP/NP ambiguity: 1 manually cutting sth vs mechanically cutting sth;2 manually cut product vs mechanically cut product

1 和 2 的实例 由于常识的干扰 也常常做 3 解:

3 “手削铅笔刀是老式文具 机削铅笔刀才是新产品 自动作业。”

3 与 ”削铅笔刀” 同,动宾搭配的VP 做“刀”的定语。然而,抛开常识 句法上则更趋向于 1 和 2 的结构逻辑语义。

白:想起了17头羊分1/2,余下的分1/3,再余下的分1/6的故事。这个题目到底有解还是无解,没有歧义,因为靠借来的羊分出来的方案不是原题的解。原题无解是板上钉钉的。在NLP里,靠借来的不同上下文组成(不是助力)的解读,算不算原句的解读?我认为不算。垂直于轴(纹理或纤维走向)的切削是“切”,平行于轴的切削是“劈”,与轴成锐角的切削是“削”。对于一把刀的加工过程,使用“削”的工艺,怪怪的。这是标准的伪歧义。除非是木刀或竹刀,但二者都很难再用于削铅笔。我觉得只有3是正解,1、2都是伪歧义。如果材料无轴向、无纤维、无纹理,通用的表示切削加工的词是“切”,而不是“削”。在3的理解下,“机”“手”只是在“刀”的动力传动方式上的差别,并没有改变“削”与“刀”之间的角色指派关系。人使用了错的表达,系统要做的是容错,而不是把错当歧义。

李:伪歧义与真歧义不是黑白分明的,没有一道鸿沟。当常识、场景和句法倾向性这三种东西开始蛮拧的时候,每个人的理解偏好可能不同。甚至同一个人也在不同的理解面前摇摆不定。很多事情不能深想 想着想着怎么意思就变了。所谓走一根筋就是有时候一不留神就被一种倾向性牵着鼻子走。

白:深想的过程,就是逐步接受抬杠者、犯错者角色的过程。预定义的倾向性,只要优先级足够,是不会被埋没的。非预定义的,就需要容错机制。容错往往都是有代价的,不是只有好处没有坏处。

李:刀削面,机削面条,手削面疙瘩。

白:疙瘩不会做“削”的工具吧。

李:1. 手削面疙瘩就是好吃;手削面疙瘩削不出好的疙瘩来;3. 手削面疙瘩和手削面团子有何区别?

“手削面” 和 “面疙瘩” 都是是蛮好的合成词,加在一起,左右就可以拔河比赛了。

“手削面疙瘩不如糙米疙瘩好吃”。手削面疙瘩,到底“手削”的是“面”,还是“疙瘩”?

白:结果是面疙瘩,削的是面,不矛盾。

李:白马非马呀。

白:不在一个频道。

刻印章,刻的是做印章的材料,做成了才是印章。在印章成品上再刻,就不怀好意了。

李:“现场观赏手削面疙瘩”。

白:现场观看制作成品,没有不妥呀。

李:对呀,是说【观赏+VP】,优先于 【观赏+NP】。“心急吃不了手削面疙瘩”,只能是【吃+NP】。

白:关键是NP和V的关系是制作和成品的关系。对外输出是成品还是制作过程,外部说了算。面是原料,面疙瘩是成品,削是制作过程。

李:严格说,削不出疙瘩来,只能削出面来,然后用削出来的面制作疙瘩。手捏面疙瘩 则不然,捏出来的是疙瘩。

白:疙瘩是一个微粒还是一道菜,这个有另外一套机制。削本来就不正确,已经在容错了。更准确的动词,拨、拨拉、剔,都可以有,捏不准确,疙瘩真心不是捏的。饺子的面剂,确实有“揪”出来的。

李:好像是掐出来的?记得小时候做疙瘩汤,老妈用大拇指和食指一疙瘩一疙瘩掐出来,丢进沸水中。看来 ((手擀面)疙瘩) 无疑。因为无论如何是擀不出来疙瘩的。疙瘩的特性就是奇形怪状,擀却是一个平整化过程。虽然常识如此,不细想的话,句法上的惯性则很可能是走 ((手擀)(面疙瘩))的路径(无论是作显性动宾还是定中+隐性动宾解)。音节上,2+3 的动宾结构也显得比 3+2的定中结构,服帖稳重很多。

白:反拉弧圈球,来球和去球都是弧圈。挡弧圈球,只有来球是弧圈。手抓饼,跟制作工艺无关,只是吃(消费)的时候要去抓。灌汤包,也不是包子做好了才往里灌汤。只是吃的时候感觉包子像被灌了汤。吮指原味鸡,甚至更过分。所以,构词法中的定语动词,到底参与了什么,不能光看格式,还要看动词本身。动词是制作过程的一个环节,固然可以代替全部过程。动词不是制作过程的一个环节,也不妨碍被修饰的词是一个成品。甚至只是来料。化妆舞会,舞会本身不化妆,是参与舞会的人化妆。相谐就反填,没有制作属性就细分或延展。延展可以多级。手抓,延伸到制作以后的吃。擀面疙瘩,延伸到制作“疙瘩”的前置环节。

与“削铅笔刀”更加平行的是“打狗棒”。这个格式没有歧义,刀是削的工具,棒是打的工具。逻辑主语另有安排,不在格式中出现,逻辑宾语紧跟动词,可以近似认为述宾结构就是一体化的成分。“削铅笔刀”有一个简化形式是“铅笔刀”。当分别引入前缀“机-”“人-”时,“削铅笔刀”就不复存在了,代替它的是语义等价的简化形式“铅笔刀”。所以,在“机削铅笔刀”“人削铅笔刀”当中,“削”是随“人/机”带进来的,与“削铅笔刀”中原有的“削”无关。也就是说,“人削铅笔刀”和“机削铅笔刀”均无分词歧义。都是2+3。再说有几个意思。这个2+3组合,从核心动词“削”本身来看,是“<施事>用<工具>从<原料>加工<产出物>”,其中的“原料”和“产出物”在大方向上是一个门类,二者在具体状态(比如特定部位的尖锐程度、平整程度、凹陷程度、裸露程度等)方面具有显著差别。所以,修饰指向施事、工具、原料/产出物,句法上都是可能的,语义上要根据上面的约束来排除伪歧义。首先排除铅笔刀作为“施事”:在显性定义了“工具”的论旨角色体系里,施事只是操作者、策划者、实施者,是具有智能的实体。“刀”无法胜任(以后AI发达了,就难说了)。其次排除原料/产出物,具体逻辑前面说过了,就是对原料的轴向/纹理/纤维及其加工走向有所预设。并非绝对不能对刀进行切削,而是这种切削不能用“削”来描述。这样,剩下来的只有工具了。而“机削面疙瘩”,同样的2+3组合,却自动少了工具一个论旨角色,剩下来,施事排除的逻辑更加简单:“面疙瘩”根本就不可能做“削”的施事。在“原料”和“产出物”当中,“面疙瘩”不具有“原料”所预设的形状和质地要求,只能当产出物。那么,“原料”是什么?当然是跟刀直接接触的原始面团。它有巨大的表面供刀子与切面方向形成锐角进行切削,真的满足加工走向的定义。机削面-面疙瘩,貌似分词歧义,其实分词早就搞定了2+3没商量。这不是白马非马,而是“受事”一个标签不够,必须用“原料”和“产出物”两个标签。参考一下“削苹果皮”,会发现,原料是“苹果”,产出物是“苹果减去皮”,更加复杂。还好,这还都是构词法的内容,讲究节律、利用构词常用字负载结构等等套路都应白名单制,有什么闪失也不会滥杀无辜。因为词例不同,对最终论旨角色的唯一解的选择也不同。尽管这个结构在词法和句法上无歧义,在语义的一般格式到论旨角色的具体映射中有歧义,但是实例化成“机削铅笔刀”和“机削面疙瘩”之后,都没有歧义。

李:“机削面疙瘩快极了,一削一个 一削一个,不到五分钟 削出来的面疙瘩一天也吃不完。”

“吃不完的机削面疙瘩 可以留到第二天接着用吗?”

“机削面疙瘩就是比手擀面疙瘩 粳米面条和糙米团子都要好吃 因为机削面里面有人工智能呢。”

“疙瘩还是那个疙瘩 可面有所不同啊。必须相信机器的力量。”

“可以预计 不久的将来 手擀面就会退出成品原料的市场 由机削面全面替代。”

白:VP另说。食品独有。后面例子中单独出现的“面”,有问题。手擀面、机削面中的“面”都是产出物/成品,跟“面疙瘩”中的“面”,同形不同义。

李:有无歧义会不会成为非限定问题?1 绝对无歧义;2 绝对有歧义; 3 乍一听无歧义,但经不起语境变化 以致不得不休眠唤醒。乍一听无 这类现象感觉在语言中比想象的 要多很多。这就是为什么普通 native speakers 对于歧义无感,比语言学家懵懂多了。

白:乍一听无歧义,另一个说法就是第一选择相对于其他选择存在明显优势。明显到通常会进行剪枝。不剪枝,必须外力。语言学家只不过经常职业性地使用外力而已。

李:“计算”语言学的坏处是 如果不预备合适便利的休眠唤醒机制的话 它在模型自然语言的时候 不得不处处留一手。最后造成伪歧义泛滥成灾,跟人的语感和理解完全不同。

白:外力的作用机制,可以笨拙可以巧妙,远不是只有休眠唤醒一条路。也许,往下下调一下剪枝的阈值就可以了。

李:当然不是窄义的休眠唤醒一途 那是极端情形的带有某种破坏性的操作。多层 hierarchical 的系统 基本上解决了传统规则系统的伪歧义问题,主要靠的不是唤醒,而是创造更多 更细密合理的剪枝环境和条件。靠的是 把规则组织成宽广的层级和优先体系。靠的是把系统看成是随时调控的动态过程 而不是一锤子买卖。深度是根本。一个平面不仅爆炸 而且歧义泛滥。没有足够纵深的伸展空间。

白:有了深度再看从左向右和从一而终,都是浮云。更关键的是,可比的对象一定有共同的可比的度量。不管你来自句法分析、语义资源、统计数据还是事理图谱。

李:仔细再想,“削铅笔刀” 还是有蛮拧的感觉。不同结构的音节数倾向性不同。蛮拧意味着歧义结构的角力。

<<削铅笔> 刀> 作为偏正结构,从音节数(语言形式)上看是 3-1,感觉不稳(比较常见的2-1偏正合成词“打狗棒”)。<削 <铅笔刀>> 作为动宾结构,音节数上看是 1-3,非常自然。所以形式上,VO 的结构得分,Mod 结构失分。

但是,语言还有其他力量在,其中包括常识语义。这个力量的强弱感觉因人而异:有人对语义敏感,“刀” 怎么可以做 “削” 的对象呢,不 make sense,立马否认了形式上的VO偏好。结论是无歧义。然而,习惯于不求甚解的人,常常糊里糊涂说话,也糊里糊涂听话,是其日常交流的常态。这类人可能就更易于保留动宾的解读可能性,至少不马上否决。

3-1 偏正除非已经词典里固化了(死记住了),感觉上别扭的人应该不少,所以我们说:“学马列小组”(3-2偏正),而不说“学马列组”。“看电影-瘾头” 不说 * “看电影瘾”。

3-1 偏正头重脚轻站不住;1-3 述宾则极为普遍自然:行万里路,爬太行山,吃XY饭,喝AB汤 …….

1-3 VO 已经很自然,2-3 VO 则更自然平顺:步行万里路,攀登太行山,大吃XY饭,狂喝AB汤…… (突然想到五言诗里面没做统计,但想必还是很多 2-3 VO 结构的。)

正是从这个音节平顺的角度,提出 “机削铅笔刀” 的歧义视角的。毕竟“削铅笔刀”可以 argue 说是词典里面固化了的例外,不必受音节数形式的约束。而 ”机削铅笔刀“ 肯定不是词典词,而且是 2-3。

白:“无后坐力炮”按照结构是“无-后坐力-炮”,实际读音的节奏是“无后-坐力炮”。已经不需要意识到结构了。“削铅笔刀”的实际读音结构是“削铅-笔刀”。

李:哈,角力的表现/表征之一,形式内容分裂了。

记得第一次意识到 “于无声处” 不是 “于无-声处” 而是 “于-无声-处” 的PP框式结构的时候,感觉是震撼。从小熟读鲁迅“于无声处听惊雷”未曾细想,后来有话剧《于无声处》风行,大街小巷议论此剧,有一天忽然意识到,原来一直读音与结构都在蛮拧着呢。

Despite 这些蛮拧,在很多现象的中文句法解析中,字数(代表音节数)是一个非常得力和重要的辅助条件。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【没有破灭的神话只会越来越神,看中本聪有感】

中本聪,比特币之父,神人也,神话也。最近微信朋友圈有他的传奇,不嫌其长,极为刺激,值得推荐:《成为中本聪(上)》;《成为中本聪(下)》。

看中本聪,想起20多年前中文论坛草创期的一个骨灰级传奇人物图雅(涂鸦)。早年百家争鸣,他以网文的幽默老道,红极一时。神龙见首不见尾,后人间蒸发逾20年,各种回忆,各种景仰,各种怀念,各种猜测,各种托知己。

据说这是当年鸦(图雅)与女网友瓶儿的亲密合影,恰到好处的模糊和暧昧:

瓶儿自然也是造神运动的推手(和涂鸦擦肩而过),情真念切。

结果三四年前,他决定回归,网上露了一面,在方舟子网站发了几篇文章。一个美丽的神话就此破灭。吃瓜网民闹腾一阵子后,发现神人不神,未免有些落寞,议论归于静寂。他本来也许是抱着重回江湖的某种心理,但时过境迁,他的独特性不再。似乎自己知趣,复又隐于江湖,忘于江湖。

但这次短暂复出,比起中本聪那次用区块链密钥试图验明正身,更像个败笔。好处也有,对于少数铁心粉丝,他的露面至少解除了怕他遭遇不测的忧心。但对于大众却是湮灭了一个神话(复出前有传他看破红尘,得道南美森林;有说他华尔街大发,成了怪癖的亿万富翁;也有说他隐匿江湖,正在撰写现代版《红楼梦》)。人的德性就是,无论时间、空间,永远远香近亵。已然造就了神话,为慈悲计,还是不要走向神坛,给普罗一个念想的空间。小20年都耐住了,人老了反而耐不住了。江湖已经不是彼时的江湖,在网络时代,20年太久。人不能二次涉水同一条河,昔日荣光非时间隧道不得复现。

这是2014年的事儿,我科学网博客有记:

第二个惊天新闻,新一代的网人可能完全不知所云,但对于中文互联网第一代网人,却是一个难以置信的大事件。中文网先驱者,网络作家第一人,传奇人物图雅,在人间蒸发20多年后,终于出山了!图雅的传奇,研究中文网历史的人可以找到很多的资料和回忆。他以他的实力,在稳居网文大家第一把交椅的巅峰时期,突然退出,引起的震撼和好奇,经久不衰。算起来,他如今也中年已过,业已退休或即将退休了,不知道触发了哪根神经,居然真地重现江湖了。

图雅欲返人间的新闻最早是他当年的老网友小方放的风,大约在半年前。选择小方倒也很合情理,一来当年的网友才俊,在社会媒体生活中屹立不倒的,小方几乎是唯一的一位了。再有就是,小方虽然为人苛严,自恃甚高,除了鲁迅达尔文这些先哲,活人能入他法眼的几乎没有,但图雅是少有的一个例外,小方对图雅推崇备至而由衷。图雅下凡,借力小方,当属最佳渠道,小方也有面子。可是自从小方发布这个消息后,很多当年的鸦迷(图雅也自称鸦)翘首相望,迄今不见动静,几乎开始怀疑小方是否在造乌龙。现在想来,鸦本人大概也一直在犹豫斟酌怎样的出山之作为佳吧。

终于,图雅给鸦迷和网友的见面礼最近刊发在最近一期的《新语丝:图雅 – 唐诗的心境》。我们当年都是鸦迷,此篇一出,先赌为快。文自然是好文,文字也无可挑剔,可也许是期望太大太久,总不免有些失望。 我的第一反应是:这是重出江湖的作品?欠了点劲儿。人老了,就啰嗦。风格上最大的改变是,变得老夫子了,失去了文字的活泼和俏皮。也是快退休或已退休的人了,失去年轻人的俏皮,倒也在预料之中。这是自己给自己抛砖引玉,拭目以待。最好网上能掀起一股热议,也许更加 激发他。不过,时过境迁,这篇又太淡远雅致了一些,怕是难引起太大的网坛震动。

from 《中文社会媒体的惊天要闻二则

 

【相关】

图雅作品集 – 新语丝

方舟子:怀图雅(代序)

瓶儿:和涂鸦擦肩而过

《朝华午拾》总目录

【机器翻译新时代的排座座吃果果】

刘冰老师反馈,他看了我的NLP频道的笔记(【议一议“微软机器翻译提前七年达到专业翻译水平”】)说,就我随机测试的汉译英两篇,显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人,大牌教授。我倾向于同意他。因为我自己并没有认真比照,只是一时兴起做个测试。粗粗一个印象,觉得几家大都在一个水平级,但由于种种原因而来的偏好,我更喜欢有道。

其实不妨给这几家,加上搜狗,做一个英汉的随机测试,这样更容易评判。大家可以就两点做个各自的评价:(i)是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量。(ii)学学纽约时报給美国大学排名,咱们也給这几家非正式排个座次:当然,这种随机测试免不了有波动,不能算正式的排座次结论。

今天的 USA Today 的新闻,谈普金连任,吸引了我的眼球,不妨试试。

Putin heads for big win — and 6 more years — as Russia’s president:
(original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/)

Russian President Vladimir Putin — the country’s longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday’s election for another six-year term, according to incomplete returns.

Putin’s re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator):

根据不完全的回报, 俄罗斯总统普京–自前苏联独裁者约瑟夫-斯大林–在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 “大国家队”, 并补充说 “我们一定会成功”。

他说, 国家需要团结才能向前迈进, 并敦促民众 “思考我们伟大祖国的未来”。然后, 他率领热情的人群高呼 “俄罗斯!” 美联社报道。

谷歌翻译 (https://translate.google.com):

据不完全回报,俄罗斯总统弗拉基米尔普京 – 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 – 在周日的选举中再次获得压倒性胜利,任期六年。

普京的连任是普遍预期的,选举官员已经努力争取强大的投票率,宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理,使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计,从60%的选区算起的选票中,普京赢得了超过75%的选票。

下午7点莫斯科时间,当局表示,投票率已达到近60%。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人,并补充说:“我们必须取得成功。”

他表示,国家需要团结向前,敦促人们“思考我们伟大的祖国的未来”。然后,他带领热情的群众高唱“俄罗斯!”美联社报道。

百度翻译 (https://fanyi.baidu.com/):

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人,根据不完全的回报,他将在星期日的选举中获得压倒性的胜利,任期六年。

人们普遍预期普京连任,选举官员极力要求强有力的投票,以宣布一项无可争辩的任务。自1999年12月以来,普京一直是总统或总理,使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区,普京赢得超过75%的选票,根据中央选举委员会。

到了莫斯科时间下午7点,当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人,并补充说:“我们一定会成功。”

他说,国家需要团结向前迈进,并敦促群众“思考我们伟大祖国的未来”,然后他带领热情的人群高呼“俄罗斯”!美联社报道。

有道翻译 (http://fanyi.youdao.com/):

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报,他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选,而选举官员一直在努力争取更大的投票率,以获得无可争议的授权。自1999年12月以来,普京一直担任俄罗斯总统或总理,这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计,在60%的选区选票中,普京赢得了超过75%的选票。

莫斯科时间下午7点,当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”,并补充说:“我们一定会成功。”

他说,国家需要团结一致向前推进,并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译https://fanyi.sogou.com/):

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任,根据不完全的数据显示。

人们普遍预期普京会再次当选,选举官员们一直在努力争取选民踊跃投票,以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理,这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计,普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点,官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”,并补充说,“我们一定会成功。” “

他说,国家需要团结起来向前发展,并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯!”美联社报道。

老友说,不怕不识货,就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条,“是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量”?

我个人认为,这个结论是成立的。不仅仅是基于这一篇对五家的测试,以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解,加上平时做过的多次测试的印象,形成这一判断快一年了,从来没有觉得遇到过严重挑战。

第二条真要排座次呢,估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条,准确和通顺。我们就以这两条作为标准谈谈。

微软的问题:
1. 普金和斯大林错译成了同位语:“俄罗斯总统普京–自前苏联独裁者约瑟夫-斯大林–;”
2. 漏译了关键的限定语“自斯大林以来”,结果是让人莫名其妙:“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词:(不完全的)“回报”(returns),(不争的)“任务”(mandate),这算小错。

谷歌的问题:
1. 不合适的选词:(不完全)“回报”(returns),(无可争议的)“任务”(mandate),这算小错。
2. as-短语挂错了地方:他赞扬那些投他为“大国家队”的人 (He hailed those who voted for him as a “big national team”,不大不小的错)
3. “we are bound for success.”(“我们一定会成功”)只有谷歌没翻对,它翻成了“我们必须取得成功”。有相当偏差。

百度的问题:
1. 选词不当:(不完全的)“回报”(returns),(无可争辩的)“任务”(mandate),这算小错。
2. 生硬,两个状语的安排不妥:“【用选票从60%的选区】,普京赢得超过75%的选票,【根据中央选举委员会】”。
3. as-短语挂错了地方:他称赞那些投票支持他为“大国家队”的人(He hailed those who voted for him as a “big national team”,不大不小的错)

有道的问题:
1. 漏译了一个重要的限定语“自斯大林以来”:“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过,有些胆大妄为,化有为无。
2. 一个小瑕疵是“根据不完全的回报”(除了搜狗,其他各家都有这个瑕疵),最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然,因为有上下文,这个译法虽然不妥,还是可以理解。

有道的通篇译文读起来非常顺溜。

搜狗的问题:
漏译“for another six-year term“ (是个不大不小的错)。其他没看到错,读起来也蛮顺。

这样看来,搜狗和有道可以并列第一。谷歌第三。百度第四。微软,对不起,你还欠了火候:不仅是比不了谷歌,其他小兄弟也比你更准更顺。(也有人说,线上的不是他们的新版,最新的技术还没进去,我们拭目以待吧)。

马少平老师告诉我,“搜狗由于做的晚,全部用的是神经翻译,有道以前是统计翻译,后来加上神经翻译,再后来彻底抛弃以前的,全部用神经翻译。百度是在以前基础上(统计翻译)加上神经翻译。可见神经翻译胜出。”

而我呢,第一次体验到神经翻译的不俗表现,是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译,语音合成自动读出来给我的感觉不亚于一个专业的口译员,让我大喜过望,赶紧“录得”现场音频分享给朋友。【谷歌NMT,见证奇迹的时刻】2016-10-2 ) 后来,百度出来说它们比谷歌更早就“神经”了,不过我并没觉得百度比谷歌质量高,所以仍然坚持用谷歌。搜狗刚开始上线,界面和用户友好(长文的翻译拷贝等)不给力,用了一下就没再看了。一两个月前开始注意的有道,发现比谷歌磨得更圆,也颇用户友好和贴心,就开始用有道(问题是有时候过分神经,为了通顺敢于牺牲忠实,这个毛病看上去是目前神经翻译的通病。)。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app.  So I shifted to Youdao.  I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day.  It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance.   Despite the name of the app as Youdao Dictionary,  we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time.  The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations.  From MT as a business perspective, Youdao seems to be gaining momentum.  Xunfei is also a big player, especially in speech translation.

说曹操曹操到,微信刚好在传这个视屏:

第一次听讯飞刘总做 marketing 哇塞!比微软还厉害。一口气下来 促销人工智能 方方面面 顺顺溜溜 底气十足。他用代表能听懂的语言娓娓道来,能给人想象的空间,果然高手,谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象,给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错 可别忘了别家也已经追赶上来了,整个行业提升的结果是,老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译,我用我夹有皖南地方口音的普通话,重复给“有道词典的app”里面的口译界面,翻译结果一点不比讯飞逊色,属于同一量级吧,截屏如下:

 

 

 

【相关】

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白宋93:汉语语序的自由与不自由】

白:
我觉得汉语语序没有那么强的作用。坑也不是非要凑齐了再咋地。应该有一种符号化的mechanism,很方便地刻画这种对语序的包容。大家之前都被误导了

李:
语序我觉得汉语没有那么强的作用
没有那么强的作用我觉得汉语语序
汉语我觉得语序作用没有那么强的
汉语语序作用我觉得没有那么强的
…………

尝试结论一下:(1) 宏观语序没有那么强,虽然统计上一定是少数几种语序最常用,但语序灵活性在。(2)微观语序相对固定。譬如 上句中 “汉语语序” 不能说成 “语序汉语”,“我觉得” 不能说 “觉得我”,“那么强” 不能说 “强那么”等(不过 “没有那么强” 倒是可以说 “那么强没有”:这个有点赶巧了,遇到“没有”这个多用法的小词),但“主题化”句式有一定的打破语序的特殊作用:

语序 【停顿】 汉语作用没有那么强

汉语微观语序(phrase内部)不大自由,与有性数格一致关系的欧洲语言对比强烈:有一致关系的语言,就不需要语序来制约谁是修饰语谁是head了。汉语宏观语序(phrases 之间)的自由度,比我们通常以为的,要大很多。我们确实有意无意被误导很久了。

白:
分析用,“不能说”只是在结构作为一个组件参与排岐的时候才有用。其他情况基本不用。

李:
微观中 最显著的关系是 mods 与 head,语序不固定就产生歧义,必须固定。尤其是定中(比较:“木头沙发” vs “沙发木头”)

白:
填坑与盖帽,本来就是两种性质的东西。

李:
到了 副词-形容词组合:很好 vs * 好很 (但是我们有个 “好得很”);状语和动词: 认真工作 vs 工作认真,居然两可,虽然句式不同。

phrases 之间,语序很自由,但仔细看,也有说法。一般来说,宾语提前很常见,但是主语后置不可以,少数例外是“来 去”这些“自动词”:

三个人来了
来了三个人

宾语提前的自由度 大于主语后置,这多少因为前者的说法常见,被共同体约定俗成以后,只好牺牲后者的自由度:太多的自由容易乱套,所以一个元素的自由增加建立在另一个密切相关的元素自由减少的前提下。

白:
喜欢死我了

李:
哈 这个以前议过(【李白82:汉语重叠式再议】):“我稀罕死她:是我喜欢她
她稀罕死我:既可以是 她喜欢我,也可以是 我喜欢她。汉语鬼不鬼?”

S 喜欢死 O:(1) S 喜欢死 O;(2)O 喜欢死 S == O 让 S 喜欢死(O) 【使动解读】

我喜欢死iPhone X 了
iPhone X 喜欢死我了。

歧义:他恨死我了。
不歧义(常识带入):这破玩意儿恨死我了

宋:
汉语的语序,还是有硬约束的。“张三打李四”,一定是张三动手,李四挨打,这个语序不能乱。一般来说,施动受三个短语组成小句,无约束的全排列有6种,能使用的只有3种:施动受,施受动,受施动。当施受无法根据同动词的语义关系来区分时,后两种也不能用。

白:
施受动到底是句法关系还是语义关系?语义关系句法是可以不管的。

宋:
施受动是语义概念,但在汉语句中受语序限制,应该是语义的形式规则。句法分析可以不管,但语义分析要管。我想,用语义适配性解决不了“张三打李四”的语义分析问题,还要使用这种语义的形式规则。

李:
施动受(SVO)是逻辑语义。逻辑语义解析是分析的根本目标。归在哪个模块 分几步走 那是系统内部的事情 但目标不变。

以前说过 常识永远是软约束 而显性形式(关于“显性形式”,见【立委科普:漫谈语言形式】)可以是硬约束 软的不能代替硬的。当一种形式让我们理解了反常识的时候 我们意识到了硬约束。乔姆斯基的绿色思想(“Colorless green ideas sleep furiously”), 精妙不过如此。

硬约束举例:

1 语序: 白米饭吃了我
2 小词 “被” 和 “把”:我被白米饭吃了。白米饭把我吃了。
3 直接解说(包括用小词也用实词):白米饭对我不是吃的对象,反过来我成了白米饭食用的对象。

白:
白米饭把我吃胖

李:
“吃胖” 那种句式(vt 加 结果补语a 构成) 不是硬约束的反例,反而是硬约束的论据。这类词法变式 有严格的规则可循。不仅仅是汉语,很多语言都有一套类似的词法,自动变使动 等等。

有了结果补语,合成词词法从自动变为使动,模式的语序也相应变动,逻辑语义在这个变式中是确定的,因此其中语序仍然是硬约束。如果我们说“我把白米饭吃胖了”,虽然反常识,但语义是确定的。

直接量(小词)、语序 这些显性形式 是硬约束的基本材料,在硬约束实现到pattern的时候 是它们的组合在 enforce 硬约束。

NP1 把 NP2 Vt 了
NP2 把 NP1 Vt+Buyu

其所以后者可以转变自前者,乃是 pattern 里面所规定的语序与小词的硬约束在起作用。无论 “把” 在一种 pattern 里面引入的是受还是施 它都是硬约束能够实行的一个硬件。否则 施受和语句理解就无从谈起。如果常识语义这种软约束可以一统天下 决定我们的理解过程 如果语言学显性形式这些硬约束可以排除在理解之外,人类就不存在新的思想 不存在童话和小说 也不存在知识的更新和应付动态世界的可能。

事实上 常识是最没有信息量的知识 我们的语言交流 其关注点总是集中在非常识和反常识的部分 那才是我们的真正的信息营养。俗话说 狗咬人不是新闻(不具有太多的情报性) 人咬狗才是。

白:
歧义丰富的情况和歧义贫乏的情况,常识的作用是不一样的。歧义丰富时,常识帮助消岐。歧义贫乏时,常识无感,反常识帮助建立修辞性理解。

李:
但是 硬材料不一定是硬约束 只是硬约束可以利用的元素,硬约束离不开 pattern,pattern 才是实行硬约束的执行者,也是协调软约束的场地。是 pattern 告诉我们有个著名的软约束协调的问题 譬如 pp attachment:vt np pp,pattern 是重中之重。FSA++ 就是 pattern 描述和实行的利器和理想的形式平台 formalism,因为它最直接 直观 抓住 pattern 的描述。

白:
举个例子啊这两筐、这筐、两筐,都OK。两这筐不ok,可分析用,也不care。这pattern长啥样,挺关键的。

李:
白老师是要说 语序没大关系 不需要作为硬条件么?问题是,有的时候,它的确就是硬条件,不 care 的前提是它不留歧义的余地或隐患(其他条件足够补偿这个条件的缺失)。但这事儿很难说,至少是睡不好觉。睡不好觉是因为我们不知道它留下隐患的几率有多大。任何一个条件理论上都可以抽掉,在有些 cases 并不影响解析,但其他的一直想不到的 cases 呢?总之,如果觉得某个 pattern 的词序是硬性的(譬如 SVO 不能倒过来 OVS),那么最好还是强制实施。“两这筐” 这种要不要强制排除,存疑。毛姑姑,作为分析不强制问题不大。(当然,作为生成,则必须强制,否则不是人话。)

一般而言,我们在NLP中玩条件平衡术,松一点或紧一点,带入词序或不带入词序,主要是因为自然语言的组词成句的排列,在“法”的平面是非常稀疏的,人类已经或可能说出来的序列比起全排列只是一个极小的子集。因此,作为分析的 parsing patterns 不必要把“合法”的约束,予以全面的强制,只要针对可能的歧义做出区别即可。

完全不需要语序制约的语言理论上存在,因为语序不过就是一种显性形式,总是可以以其他的显性形式代替来表达逻辑语义。可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)标记来表达哪个词与哪个词发生逻辑语义的关系。

可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)来表达哪个词与哪个词发生逻辑语义的关系。

有了这两样东西(小词或语缀常常是表达这些东西的显性形式),语序这种形式就可以完全排除了。因此,任何排列组合都不影响解析。可惜,实际中没有这种自然语言:即便声称自由语序的语言如俄语和世界语,也不是可以完全排除语序条件而达到解析的。

 

【相关】

【语义计算:汉语语序自由再辩】

【语义计算沙龙:语序自由度之辩】

【立委科普:漫谈语言形式】

【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【校长对话录:向有道机器翻译同仁致敬】

校长:
因为缅因州法条文少了个逗号,牛奶公司吃官司付出500万美金:

Maine law requires time-and-a-half pay for each hour worked after 40 hours, but it carved out exemptions for: The canning, processing, preserving, freezing, drying, marketing, storing, packing for shipment or distribution of: agricultural produce; meat and fish products; and perishable foods. What followed the last comma in the first sentence was the crux of the matter: “packing for shipment or distribution of.” The court ruled that it was not clear whether the law exempted the distribution of the three categories that followed, or if it exempted packing for the shipment or distribution of them. Had there been a comma after “shipment,” the meaning would have been clear.

原来我这些年学的都是假英文

不过法庭favor劳工,就已经甩天朝几万条街了。在那片国土,只有高端人口才可以随意耍流氓。。。

李:
缅因州法律规定,在40小时后,每小时的工作时间为1.5美元,但它却为:罐装、加工、保存、冷冻、干燥、销售、储存、包装运输或分发农业产品提供了豁免。肉类和鱼类产品;和易腐食品。在第一句话中最后一个逗号是问题的关键:“包装运输或分配。”法院裁定,不清楚该法律是否豁免了随后的三种类别的分配,或是否豁免了对其装运或分销的包装。如果在“装运”之后有一个逗号,意思就清楚了。

这是有道翻译,比像我这样的英语专业生在时间压力下去翻译这段,要强多了。顺便向有道同人致敬一下,他们超越了名震天下的谷歌翻译。谢谢他们提供的免费服务,我经常用它,其实是愿意付费的。MT 连同互联网,与水和空气一样,成了不值钱的必需品。

“1.5 美元” 是一个巨大的错译,应该是一倍半加班费的意思,神经机器翻译的错译问题已经是一个被反复曝光的痛点,在追求顺畅(达雅)的同时,牺牲了精准(信)。

我是这么看机器翻译走向的:

(1) 机器翻译一定会译错,所以认真使用前需要核对。
(2)核对所花时间 比一切靠人翻译 节省太多人工了。翻译员市场萎缩以后,大批译员会退出,少量留存的是那些知道善用机器的核对员,这个工作不会被取代:核对校订的需求永远存在。
(3) 机器翻译本身在进步,明天的错应该比今天的少。
(4)论顺畅 机器越来越赶上或超越人 因为机器是在海量数据里面找 norm,而一个个体,无论学了多少年的外语,都是有限的语言接触,偏离 norm 的可能远大于机器,因此更容易生硬,尤其是在时间压力下。我本人偏好顺畅,更甚于精准,因为翻译错误我一眼可以看出来做译后编辑,但顺畅我老感觉自己还有很多力不从心的时候,需要机器帮助。自己常觉得写不顺,但评判顺不顺还是容易很多。因此,翻译工作先交给机器,然后自己校订,无论纠错,还是找出个别不顺达的细节,都容易很多,因为苦活累活机器做了。

校长:
@wei 有道翻译可以免费用么?amazing!

李:
http://fanyi.youdao.com/
try it yourself
天下真有免费午餐的。

有道的傻瓜式袖珍翻译器 大约100多美元 可以买一台 周游世界的时候用。

校长:
@wei 我靠!你没感受到同行竞争压力?

李:
感到压力的应该是讯飞。他们也出了个翻译器,好像很贵?
这个行业整体提升了,保持领先已经很难。巨头谷歌也不能。

我早跟MT说拜拜了,前几年还较劲,觉得统计MT鲁棒是鲁棒,意思也勉强可以出来,但出来的译文惨不忍睹,想着有空怼一怼统计。神经翻译出来后,基本熄灭了狂妄,顾左右不言他,反给它做宣传,吹喇叭了。(【谷歌NMT,见证奇迹的时刻】) 当然,任何技术都有短板(行话叫知识瓶颈),譬如进入一个没有人工翻译大数据可以学习的领域,神经系统就抓瞎了,譬如电商数据的机器翻译目前的可用度不到 30%(相比较:在新闻领域,机器翻译的可用度高过90%),就是说几乎完全不可用。

校长:
正确选择
典型的乱拳打死老师傅

李:
AI 这次炒热其实是有群众基础的,不完全是媒体鼓噪和精英忽悠。一个是神经机器翻译,一个是语音识别(如 讯飞的自动速记和语音输入),还有一个是人脸和图像识别,这三块儿的进步,不是忽悠,而是现实。还有一个对话,从苹果的 Siri 开始,虽然还有磕磕绊绊,虽然绝大多数普罗还是拿它当玩具,落地应用的产品多不成熟,但 Siri 还是启蒙了大众和教育了市场。这些都是普罗百姓可以亲眼见证和切身体会的科技奇迹。这些个东西激发了草根的想象力。于是,AI 热在民间还是很时髦正面的形象。

留个证据图 以防哪天系统退化(虽然是小概率事件:但马斯克昨天说 科技并不自动进步 逆水行舟 不进则退 它举的是航天技术在 SpaceX 前停滞不前反而退化的例子) MT奇迹不得重复。先防着别人怀疑假造,说不可信:

校长:
本来就是不进则退。很多科幻片里面未来都是破破烂烂破铜烂铁。就是天上一堆飞船在shithole上面飞。我认为那更接近未来的发展方向。

李:
那个是科幻,对科幻,no comment

今天,领导在网上查看 IKEA 网页上的商品,问几个单词怎么讲,我说以后不用问我了,我给你的 iPhone 装了有道,比我强多了,还 handy,可她懒得查词典。我说,你不用查,拍个照就行了,打开 app 有个“拍照翻译”的按钮。wow:

挑错永远可以挑,能做到这么贴心、intuitive,乔布斯再世,也不过如此了。

Guo:
@wei 真要给你泼泼冷水了。哈,也不能太不顾事实啊。“复习空气”,完全不搭啊。这可是连“流畅”也不及格的。打住吧!

李:
还有 39.9克。

原文是:
Airy, soft seersucker duvet covers with a naturally crinkled texture. The beautiful cotton fabric breathes and feels cool against your skin, which is extra comfortable during warm summer nights.
Size: Twin

这玩意儿我不查词典也翻译不了,特别是第一句。领导以为我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在家里我这英语专家的光环已经消磨殆尽了。呵呵。

郭:
看看微信自带的翻译:

轻盈、柔软的泡泡纱被套,具有自然的皱褶质感。美丽的棉织品呼吸和感觉凉爽的皮肤,这是特别舒适,在温暖的夏季夜晚。
大小:双胞胎

李:
不错 不错。这就是我说的,这是整个行业的技术提升,不是哪一家可以专美的了。语音、图像和MT。

$39.99 翻译成 39.9克 原来是因为 OCR 识别成 39.9g 了 哈。实在说,9 跟 g 长得的确差不离儿,加上在数字后常见,也是事出有因。 可惜了前面那个 $ sign 的痕迹。

哈,领导以前迷信我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在自家这英语专家的光环已经差不多消磨殆尽了。呵呵。

回过来想,以前我们常常赞佩的那些大学问家过目不忘,词汇量超大,现在想来算啥,再大也比不上一个小U盘,脑子里被词汇填满,实在有点浪费。反正随身有iPhone,iPhone 里面有【有道】,有道不仅有本地词典,还可以接得上云,脑袋是无限延伸了的。可是 托福 GRE 还在考那些稀奇古怪的词,明知道好不容易记住了,考完了,还是会忘掉。跟不上时代啊。

这个也好玩 请看:

这张截屏里 头两句很顺 最下一句莫名其妙:原因是我不小心按了 英语 的话筒 说的却是汉语 哈哈。这岂止是垃圾进垃圾出啊。但它一本正经给你匹配完全错位的语音 也不设个置信下限 一样翻译出莫名其妙貌似顺畅的句子来。

“英语按钮” 转写成 “英语的二牛”(为什么不是二妞呢),继而翻译成 English two cattle.

有道自己做的翻译器 却把自己的品牌名“有道”, 在英语读出来一个古怪的读音 哈。我说的是 “这个我得反映给有道”,成了“这个我的反应跟有道理”,考虑到我的口音,难为它了,倒也情有可原。

下面的实验是读一段英文新闻

翻译基本没问题。

接着到文学城找一篇中文新闻,读给它听:


不可思议地顺畅 精准,甚至那些百分比 那些数字 也能“听懂”我的口音。

有点吓倒了。老革命心脏也不都好。

最后是我阅读的新闻的网页截屏 有兴趣可以自己对照一下。

这一切 是在我这种普通话不标准 有口音干扰的信道中发生的。错误放大理论会说 这种翻译是完全不可能的,见证的不是奇迹,只能是AI魔术。

想起来谁说过的名言:“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。

 

【相关】

【开复老师说:AI 是最好的时代,也可能是最坏的时代】

谷歌NMT,见证奇迹的时刻

立委随笔:猫论,兼论AI福兮祸兮

有道的机器翻译http://fanyi.youdao.com/)

谷歌翻译 https://translate.google.com/

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【开复老师说:AI 是最好的时代,也可能是最坏的时代】

李:
李开复老师最近发文说:
据我估计,大约一半的工作将在未来十年消失。在全球范围内,人工智能和机器人将很快被人工智能和机器人取代。这一巨大的挑战给一种叫做“普遍基本收入”的旧观念注入了新的活力。在这种观念中,政府为每个公民提供稳定的津贴,不论他们的需要、就业状况或技能水平。

这就是我前几天说的,AI福兮祸兮很难定(【猫论,兼论AI福兮祸兮】)。因为人类对工作(job)的情结,以及社会观念和按X(劳、资、 权等)分配的制度,都受到很大挑战,不一定来得及适应。

Ming:
这的确是大趋势,但未来十年有些夸张了吧

李:
是不是10年不好说,但AI取代人类很多工作是肯定的,其取代速度肯定比人类的观念改变和社会制度的适应要快很多很多,因此 最坏的时代不完全是危言耸听。这跟霍金 马斯克之流说 AI 自主思维 控制人类,完全不同。前者不仅是危言耸听,而且匪夷所思,尽管出自名人大嘴。后者却是真切的人类自身的威胁,AI 不过是 trigger。

开复老师继续说:

“那么,我们应该盲目地给每个人1万美元吗?绝对不是。”

“乐观主义者天真地认为,UBI将成为人们专业重塑自我的催化剂。但是,只有当硅谷的领导者们把他们自己的角色投射到所有将要被转移的工人身上时,UBI才有意义。事实上,如果我们谈论的是一个成功的硅谷企业家,他或她的技能、创业、经验和网络可能成功地帮助将一个中等的UBI收入转化为下一个科技帝国。但这种情况肯定不会发生在那些生活在失业会因传统经济衰退而加剧的地区的失业工人身上。”

“免费发放给失业工人的钱可能会意外地帮助一些人找到工作,但更有可能的是,他们很快就会找到一份新的工作,而且很快就会被淘汰。这是我们在整个劳动力市场看到的一个熟悉的模式。曾经在工厂装配线上工作的卡车司机很快就得再次学习,成为其他的东西。大多数失业的工人不会有远见预测哪些职业会在人工智能革命中幸存下来,因此不知道如何最好地使用UBI货币来确保未来的稳定。”

Qing:
硅谷的领导者们真把自己当颗葱了

李:

下文是:“我们必须共同努力,找到一个全面的解决方案,包括建立新的职业、价值观和社会规范,而不是重新分配现金,并希望得到最好的结果。我们需要重新培训和适应,让每个人都能找到合适的职业。这里有五个必要条件:

1 保证生存。

首要任务是建立和支持项目,以确保没有人挨饿或没有住房和基本的卫生保健。”

这第一条是 同情论,就是说,知道你没用,但必须养着你 跟养pets同理,这叫人道。作为基点是对的,但总觉得观念上有点不对。

首先 被养的“没用的”人,并不是被其他同类或组织养。这个观念必须改变。如果相信人生来平等的天律,生来平等的本义至少包括我们赖以生存的地球上的原始资源应该人人有份。“没用”的人实际上是让出了自己的原始资源,给了社会去用来创造财富(或保护环境,譬如决定闲置),财富部分回流给他们(基本生存在现代社会,比起出让的资源来说,微不足道,其实经济上不参与价值创造的人其实是“亏”了),天经地义,没有“被养”的问题(硬要算谁养谁,那是精英阶层被大众的资源所支持产生出来的巨大社会财富养到富得流油:天平是往精英阶层倾斜,远远谈不上对普罗的平等)。

Qing:
以人类这个操性,多半还是要打一架的

李:
“2 最大化创造性的工作。

只有人类才能创造和提出新的创新。人工智能今天不能跳出框框思考,它只能优化由人类定义的问题。因此,在早期教育中,我们必须确保系统不会抑制好奇心、创造力、批判性思维和个性。在中学和高中,我们应该增加对有天赋和有才能的项目的资助。在大学里,我们需要帮助有创造力的学生学习人工智能工具的程序。”

行:
布热津斯基的奶嘴理论

李:
这第二个说法是,在可能被养的人群中,通过优化教育的机制,百里挑一找出“精英”去养人(做管理者、参与生产),如此延续社会的科技进步和财富创造。

“3 增加社会就业机会。

爱不能表达爱和移情,也不能建立不可替代的社会关系——只有人能。与那些不容易被教授的创造性职业不同,人们可以在大量的社会职业中接受培训。此外,我预计人工智能将产生数万亿美元,消费者支出将随之增加,并将用于民间服务。

这意味着需要人类接触的服务工作——社会工作者、治疗师、教师和生活教练——将会供不应求。此外,新的社会工作将会被发明,在这个过程中,人类将成为顾客和人工智能之间的中间人。例如,当使用人工智能诊断工具时,一位医疗顾问可能帮助病人排除故障并提供补充建议。其中一些工作甚至会得到很高的报酬。”

就是说 大都去做服务性工作?很多服务 机器人做得更专业:譬如 按摩椅 比 平庸按摩师 更具有优势。但总有 顾客与机器人之间的”中间人”和“协调人”(或随机应变性)的工作在?

Qing:
做好多手准备吧

李:
“4 鼓励唯意志论。【貌似译错】

我们需要建立更多的志愿者项目来帮助那些对高技能职业兴趣不大的退休和失业工人。我们还应该考虑补偿志愿者。”

“5。重新定义的职业道德。

每个人都需要有一种自我价值感和自我实现感——他或她相信他或她的存在是有意义的。不幸的是,工业革命错误地灌输了一种社会规范,即自我价值应该主要来自于职业道德——如果你努力工作,你就会得到回报。但是因为人工智能,基于重复性任务的工作很快就会消失。”

“我们需要重新定义新的劳动力范式的职业道德观念。一份工作的重要性不应仅仅取决于它的经济价值,而应由它对社会的贡献来衡量。我们还应该重新评估我们的观念:延长工作时间是获得成功的最佳途径,应该消除与服务行业相关的耻辱。”

“即将到来的人工智能革命将带来最好的时代或最坏的时代。结果将取决于我们是否会被天真的乐观主义所陶醉,或致力于全面解决问题。显然,UBI是不够的。我们要认真、迅速地进行辩论。只有到那时,这场神奇的革命才会引领我们走向创造性的复兴。”
原文在《华尔街邮报》 由 有道现场翻译。)

第五点很有道理:工作所带来的荣誉感和高人一等的自我感觉 需要被新的观念取代 否则 AI 时代会重复工业革命时代的悲剧:在越过温饱线以后,社会财富越增长,人类的多数人越不幸福。

行:
一开始社会(部落)的发展水平由50%的人的水平决定;
工业社会由10-20%的决定;
20世纪由1-2%的决定;
21世纪后由0.00001-0.0001%的决定;
其余的一部分从事辅助工作;越来越多的从事非效率性工作。

李:
如果说 工业革命时代 财富的增长 至少减少了忍饥挨饿的人群 在“生存权”层面上改善了人类,多少弥补了精神上不幸福和焦虑。

到了 AI 取代工作时代,前者的优势不复存在,因为基本上已经没有人忍饥挨饿需要改进。那么 其副作用一面 即引起更多的焦虑 痛苦 则被放大。所以 AI 福兮祸兮,看来是祸更大。因为人类社会适应的速度 没有科技进步的速度快。这就是开复说的 可能是最坏的时代。

行:
不会
工业时代的大多数人肯定比贫困的农业时代的人幸福。

李:
从挨饿到吃饱饭,肯定增加了幸福感,这是飞跃性增加,没有疑问,生存权是最基本的。但如果都不挨饿了,失去工作 感觉到自己无用 无价值 就是纯粹增加痛苦。

行:
满血打怪去。回复到,戴着乌纱帽,骑着小毛驴,吟诗作画的悠闲文人时代。

李:
以上议论过程里,我顺便做了一个AI现场实验:开复在华盛顿邮报这篇是英文,我用有道的机器翻译过来(http://fanyi.youdao.com/),未加修饰,看来以假乱真,也基本不影响我们的阅读、领会和讨论。这是真实世界的AI剥夺翻译员工作市场的一个鲜活实例。搁以前,翻译这篇文章,怎么也得半天时间。

行:
现在任何一台机器都可能取代了过去几百万人的工作,人因此失去工作了吗?

一个人的功率小于一马力,0.75千瓦。现在一台百千瓦,万千瓦的机器比比皆是,兆千瓦的机器也不希奇,人不还得更卖命的工作?!只是不要在上述邻域试图跟机器比大小。

关于技术进步,我有两个观点:一是圈圈理论。即圈圈越大,边界越大,遇到要解决的未知问题越多。二是水舟理论。技术如水,人类在舟。水涨船高。

AI作为一种技术,概不能外。不要自我感觉太好!只是大部分要承认天才和自己的无能。就象你围棋下不过柯洁又咋了?

技术进步像马克思说的,给人真正的自由发展创造了条件。只是之前人的发展重点是解决效率问题,今后人的自娛自乐互娱互乐,甚至与机器人娱乐可能成为产业前沿。

李:
摩登时代 我们看到了两个极端:一个是失业的痛苦;一个是在业的 忙得要死 过度竞争 高度紧张 随时面对失业的威胁。二者都是幸福感的反面。正常的、合理的社会不应该是这样的。

工业社会解决不了的这些 后工业时代可以解决吗?

Ming:
理想情况下,应该研究一下技术进步速度与社会人类幸福感之间的关系,从而寻求一个最佳的发展模式和速度。但现在国家的界限还未消除,不同国家,不同意识形态之间还有竞争。竞争之中,当然是技术进步越快越有优势。在这种情况下,无法奢谈对技术进步的控制。

李:
这就是我说的,也许AI应该缓行(虽然知道缓行不了,人类的一切大多是命定)。

行:
现在的技术进步不是很大程度解决了血汗工厂和高比例失业问题吗?摩登时代预言的地狱并没有到来。总体上,更快的速度和幸福感正相关。正象中国最长寿的地区是雾霾重重的北上广,而不是所谓的长寿之乡巴马之类的地方。

 

【相关】

华尔街邮报李开复原文

立委随笔:猫论,兼论AI福兮祸兮

【猫犹如此,人何以忧,霍金之论谬矣】

有道的机器翻译http://fanyi.youdao.com/

【语义计算:李白对话录系列】

《朝华午拾》总目录

【NLP答问:关于parsing 和自然语言理解】

【立委按】人工智能热潮下,进入自然语言领域的新人也随之增多。新人的好处是喜欢问问题。于是有了答问。

新人:
读过您的parsing方面的系列博文,parsing 及其落地应用的种种,很有意思的领域。把 parsing 这一块做好就非常 exciting 了,能落地就更棒啦

答:
必须落地。否则站不住脚。parsing 做好根本不是问题,已经做了N次了,been there done that()。NLP 是个力气活,但不是看不到头的活儿。达到接近专家的水平是验证过的。落地有所不同,落地需要找到切入点,需要有一套领域化的有效方法。

力气活指的是迭代:就是不断的迭代,每天迭代10次,一年就是3600次。设计思想和框架机制对路了,剩下的就是不断地根据数据制导,去修正系统,保证走在正路上,避免或尽可能减少 regressions,终会达到彼岸。

新人:
力气活是真的,我之前做 NLU badcase 分析,后来能看到准确率确实在上升。我相信迭代的力量。

现在的 parser 已经足够好了吗?您博客中提到的休眠唤醒机制,世界知识的引入,非确定性表达的问题都已经解决得差不多了吗?

答:
还没有,时间和人力的投入不够,一切重起炉灶,系统架构更加合理科学,但血肉不足。没关系,目标导向,急用先做。有些来不及做的,先放在那里。

新人:
想起您博客中各种奇怪的例子

答:
那是刁难系统的,多是语言现象的犄角旮旯,其实不值得太花力气。古怪的句子的好处是测试鲁棒性(robustness)或者测试有没有补救措施(backoff),主要精力还是应该花在统计性强的常用句子身上,不能被长尾牵着鼻子走。

做中文 parsing 特别让人兴奋,比做英语等 要有意思多了,后者太缺乏挑战性了。

新人:
嗯,中文本身很有魅力

答:

看上去一个字符串 人看着都头晕,如果能自动 parse 出结构来,很让人开心的。

新人:
“看上去一个字符串 人看着都头晕”这句感觉对 parsing 挺难的?

答:
不妨试试:


这个当然有问题,但很容易修正。现在的序列是:NP,CL,AP,这个 CL 是一个插入语,最后的结果应该是在NP与AP之间建立主谓关系,把插入语附加上,就完美了。(CL 是 clause,M 是定语,R 是状语。)修改后的结果:

这个结果还合理吧?

新人:
是不是把“看上去”作为RP,就能fix之前的问题了?

答:
主要还是带有插入语性质的 “NP人看着(都)AP”,插入语“人看着”是 RP(副词性短语),“看上去”也是RP,但在句首,好办。

新人:
如果去掉“看上去”,整个句子是“一个字符串 人看着都头晕”,改之前的 parser 能解析正确吗?

答:
不能,因为没有处理好这个插入语。与“看上去”无关。插入语在语言中是很有限的表达法,迟早可以穷尽,原则上不是问题。

你以前做过什么parsing有关的工作?遇到过什么挑战?

新人:
之前做parser的离合词这一块。例如“吃了一顿饭”这样的结构,可以从语料中很容易统计到,例如“吃不吃饭”这样的就相对少,只能靠观察。当时是这么做的。首先从研究离合词的论文里找出一个两个字的离合词列表,例如’AB’。然后用’A.*B’在语料中筛选句子,对选出的句子做pos,然后统计’A.*B’中间’.*’的部分的pos组合,但是“吃不吃饭”这样的结构在词性标注的时候就没法搞定了。

答:
这不是简单的离合,而是夹杂重叠。A不AB,是一个相当普遍的现象,对于所有 V+N 离合词都有效的。退一步,V不V 也是一个确定的选择疑问句式。

“对选出的句子做pos,然后统计’A.*B’中间’.*’的部分的pos组合”

做POS 后,你在统计什么?

新人:
当时的需求是,判断”AxxxB”是不是词“AB”的离合现象。因为想提高泛化能力,所以想从语料里产生词性级别的pattern,比如“吃了一顿饭”对应的pattern是“v u mq n”(限定 v 和 n 是单字)。比如“吃不吃饭”词性标注的结果是“吃_v 不_d 吃饭_v”,从词性的层面就不能用“v d v”来匹配了

答:
那两个v是重叠,需要unification机制的,单看POS,根本没戏。如果只是统计 POS-序列,没有什么意义,

新人:
做完了才发现,确实没什么意义。。

答:
是啊,因为就是一个动宾结构,这个 POS 序列,与 NP 中的修饰语序列应该是一致的。

新人:
当时就我一个人在瞎做,都是我拍脑袋想的方法,比较挫

答:
这个不用做统计,就可以想见的。

新人:
能想出来的是有限的呀,肯定有想不到的情况。。

答:
离合词不难处理,它是搭配的一种。搭配现象的本质都是词典的搭配规定与规则的实例化(instantiation)的机制,就是词典与句法需要平台机制上有一个灵活的接口。英语的短语动词 take NP off;put NP on;subcat 句型中对 PP 的 P 的要求(borrow sth from sb),汉语中量词与名词,这些都是搭配现象。

“能想出来的是有限的呀,肯定有想不到的情况。” 但那不是离合词的问题,那是 NP 的问题。NP 当然有很多种组合可能,拍脑袋是想不全的。所以要数据制导,要迭代。类似你上面的语言调查,也是一种。所有的语言现象,不仅仅是NP,都需要数据制导。都有想不到的序列。不过从 POS 序列着手,是远远不够的。POS 太粗,根据 POS 做 NP 或做其他现象,最后都是窟窿。

新人:
是的,最后做了个 字+pos 的规则

答:
字 太细,POS 太粗,加在一起,抓了两头的确会好很多。但是 从字 到 POS 中间还有很多,譬如 【human】以及类似的一整套的本体概念网络(ontology)可以利用(譬如董老师的《知网(HowNet)》)。

新人:
【human】是什么意思?

答:
譬如 “演员”,“总统”,“那家伙”,。。。。就是语义概念标签。【human】是最常用到的标签了,比 N 细线条一些,比 “演员”这些关键词是粗线条了。所以说,一个系统不能光靠最粗的POS分类,也不能光靠最细的关键词,还需要语义概念的 ontology。

新人:
引入语义造成的歧义问题,是用句法来解决吗?比如“演员”是一首歌名

答:
引入并不造成歧义。要是有歧义,那个词不引入也还是歧义的。与引入无关。引入语义只会增加词的信息量,多一些可利用的手段。不是因为引入,所以需要消歧。歧义如果需要解决,也是那个词本身需要这么做。但很多时候,歧义是不需要解决的。

{演员 N},这里有两个信息:(1)演员(2)N。{演员 N 【human】【song】},这里多了两个信息。原来没引入之前,我们根本不知道 “演员” 是什么,不是什么。现在引入语义以后,我们至少知道了 “演员”不是人就是歌。它不可能是其他的1000种可能性,譬如 起码,演员 不是 【furniture】,不是【sentiment】,不是【location】。所以引入新的信息不是增加歧义了,而是大大缩小了歧义的可能性。

新人:
明白了

答:
至于区分歌与人,那个任务叫 WSD,很多应用可以绕过去不做。我写过一篇,说的就是 WSD 很难,但绝大多数应用不需要做(【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】)。

新人:
说实话我不是对 parsing 感兴趣,是对自然语言理解感兴趣,我想知道通用自然语言理解的道路在哪里,但是也不知道往哪个方向发力。

答:
parsing 与 自然语言理解 有什么不同?为什么对后者有兴趣,对前者无所谓?什么叫理解呢?

新人:
以前我一直觉得 parsing 和分词一样,是一种基础的组件。然后我觉得常识才是自然语言理解的核心。不过看了您讲文法和常识的那篇博客(【立委科普:自然语言理解当然是文法为主,常识为辅】),最近也在重新思考这个问题

答:
parsing 强调的是对语言结构的理解,WSD 强调的是对词的理解。粗略的说,语言理解至少包括这两个大的方面。既要知道这个词对应的是什么概念,也要知道这些概念在句子中表达怎样的关系。其实后者更重要。纲举目张啊。做一条项链光有珍珠不成,更需要的是串子,好把散落的珍珠连起来。

新人:
我说下我对自然语言理解的粗浅的想法啊。比如“我喜欢吃苹果”。从句法上很容易就能解析出来,但是计算机通过什么方式才能理解“我喜欢吃苹果”和“我讨厌吃苹果”的区别?虽然能通过词典知道“喜欢”和“讨厌”是不同的概念,那么要怎么这两个概念有什么方向什么程度的不同?然后要怎么表示这种不同?

答:
然后怎样呢?你前面的话没说完啊

新人:
我也不知道要怎么理解这种不同啊。确实,没有句法是不行的。

答:

1 计算机根本没有什么理解不理解。说计算机理解了人类,那是胡扯。说计算机不理解,也是高抬了机器。人类意义的“理解”根本不适合机器。

2. 所谓自然语言理解,那只是一个比喻的说法,千万不要以为电脑能自主“理解”(或者“不理解”)人类语言了。

3. 所以,自然语言理解的本质就是把语言表达成一个内部的数据结构,根据这个结构,比较容易地落地到应用所需要的方向去。譬如 情感分析的应用 需要区分正面情绪(如 “喜欢”)和反面情绪(譬如 “厌恶”)。

4. 换句话说,所谓理解,不过是人跟人自己在玩,与电脑智能没一毛钱的关系。

5. 既然是人自己跟自己玩,那就要看一个系统的内部表达(所谓理解)的设计能不能用有限的表达和逻辑,去捕捉无限的语言表达方式;能不能根据这个表达和逻辑,达到(或模拟)人在理解了语言之后所产生的那些效应。譬如人看了一句话 可以判断是什么情感,情感的强烈程度,谁对什么产生的情感,等等,因此可以得出舆情分析的结论,计算机可以不可以也达到类似的分析效果?

6 因此 脱离应用(理解以后的效应)谈理解,很难。应该通过应用来验证所谓理解。

7 所谓端到端的系统,就是直接模拟应用:里面的过程是黑箱子,叫不叫理解无所谓。

8 符号逻辑派的先理解后应用,不过是用人可以理解的方式把这个理解到应用的过程,透明化。透明化的好处,比较好 debug,可以针对性解决问题。这是黑箱子系统的短板。如果有海量带标(应用效果的标注)数据,黑箱子的好处是可以很快训练一个看上去很不错的系统。如果没有,标注数据就是一个令人生畏的知识瓶颈。

新人:
我是一直从类似微软小冰那种对话系统来考虑自然语言理解,所以不太能接受seq2seq的对话生成系统…

答:
闲聊系统,因为人的对话无时无刻不在进行,理论上有无穷的带标数据,其实可以训练出很好的以假乱真的闲聊机器人的。一个 MT , 一个 闲聊,这两个应用具有天然的海量数据,是少有的知识瓶颈不严重的应用方向。多数NLU应用没有这么幸运。所以不得不组织成千的标注队伍,还是赶不上应用现场的变化中的需求。

新人:
MT 感觉和闲聊机器人还是不一样?闲聊机器人的系统在单轮的时候可以以假乱真,但是在多轮的时候基本都不能维持对话的连续性。

答:
多轮的挑战可能还是源于稀疏数据,这是因为虽然对话的数据是海量的,但是从 discourse 的角度看一个完整的对话篇章,数据就可能很稀疏了。每个对话都是一个特定的话题,以及围绕这个话题的对谈序列。从话题和对谈序列的角度来看,数据就不再是海量的了。突破口应该在对于不同对话序列从篇章脉络角度做有效的抽象,来克服稀疏数据的短板,学会篇章的应对技巧,easier said than done,这个显然有相当的挑战性。篇章(discourse)向来是计算语言学中最不容易形式化的部分。

新人:
我个人觉得如果是通用/闲聊场景,即使有海量数据,对话的话题和序列还是很可能大部分和可获得的数据集的不一致。

答:
那自然,组合就会爆炸。爆炸了 当然数据就稀疏了。

新人:
很多场景还是有办法细分成小的垂直场景,然后通过在系统设计上做一些功夫来达到一个比较好的效果的吧?

答:
垂直当然有利多了。垂直了,就成了子语言,很多歧义也自动消解了。垂直了,就聚焦了,剩下的歧义也就好办了,词驱动(word-driven)也有了发力的场景。

 

 

【相关】

NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

立委科普:自然语言理解当然是文法为主,常识为辅

【语义计算:李白对话录系列】

《朝华午拾》总目录

【与董老师对话:什么是知识图谱?】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题,并分享给各位。面对层出不穷的新生术语和流派,董老师谦逊为怀,不耻下问,让我受宠若惊。我的来自实践的一些粗浅见解,岂及知识大师董老师学问之万一,不胜惶惶。董老师是我一辈子最仰慕的前辈导师,他的逻辑语义学说(逻辑语义及其在机译中的应用)是我入行的导航,他的《知网》(HowNet)是探索人类知识体系结构和常识表达的一个丰碑,其价值必将超越时间和流派( 参见我写的《语义三巨人》)。在很长的时期,董老师是中国计算语言学界的旗帜和对外交流的大使,是中国第一个把机器翻译系统推向大规模实用的先驱(“译星”)。30年前在中关村高立公司兼职搞MT研发的时候,我就有幸与董老师在一起半年左右,当面聆听教诲,受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系,开始酝酿《知网(HowNet)》,酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍,终成正果。我出国前不久,那是1989年风波前夕,中国自然语言界在香山开了个研讨会(年会?),我的导师刘倬先生与董老师在会上就NLP所做的对话,人称“刘董对话”,成为大会热议的主题,此段掌故仍记忆犹新,【立委小传】中有记叙。如今董老师80高龄,离而不休,依然在自己家里亲自上线做系统,深入探索自然语言句法和语义解析,其精神令晚辈高山仰止。


91年出国前在高立合影留念(右下1是董老师,2是我,3是刘倬老师,4是高立CEO)

董:
请给我点启蒙:为何叫”gragh“了?不叫”KB“或”ontology“了。why Google called it “graph”? What does it mean by “graph”?

李:
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google.  Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题–知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例,来说明:在什么情况下必须用到知识图谱了,然后该系统就调用了只是图谱,于是就解决了那个难题了。这样我也许能理解了,也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子 他是怎么炒热这个概念的。

搜索每个人都用,你给一个关键词,它回给你一系列文章的链接,这些文章与之相关,用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾,实际上,越是长尾罕见的关键词query,效果往往越好,这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多,搜索的是实体名,譬如明星,VIP,好莱坞大片或世界500强。对于这类搜索,返回相关文章序列让人看,实在太粗糙了。

于是,他们事先把相关信息结构化、组织好,相互链接,存在某个地方,起了个名字 叫知识图谱。然后一旦查中,就把这整合浓缩了的,比较全面完整,并且充满相关链接的实体信息,和盘托出。结果大家都知道了,无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念,早谷歌十几年我们就提出,而且也实现了,实现在国防部的反恐情报分析挖掘系统中,也实现到我们的b2b品牌情报的商业产品中(参见《知识图谱的先行:从Julian Hill 说起》)。不过当时起名 Entity Profile(EP),而不是 KG (Knowledge Graph)而已。

@董振东 这应该是回答了 非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了,然后想象当年的没有图谱的搜索结果来做比照,说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索,然后可视化展示。其他的图谱应用可以是回答问题,再进一步可以是通过图谱关联做一些推理。理论上,信息组织成图谱了,结构化了,就可以做很多事。

董:
谢谢,李维。再多问一句:这种种图谱,是机器自己做呢,还是人手工做呢?

李:
谷歌是购买 freebase 做为基础,基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了,怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile(刚开始叫 Correlated Entity,CE,也是反映了实体互相关联的本质),简称 EP,我自己不知道怎么翻译好,就译成“实体概览”。后来这个术语也还是流行了,不过到了中文,一般翻译成了“画像”,而不是“概览”。譬如,电商领域大家都谈“商品画像”、“用户画像”,约定俗成。

画像比图解还俗一点,可大家都用,也习惯了。Note 这是图谱的实体名词为中心的一个信息角度,还有另一个以事件动词为中心的图谱角度,目前还没有约定俗成的统一术语命名。MUC (Message Understanding Conference)的信息抽取共同体里面,一般称事件图谱为为 Scenario Template(ST),我归类为 Predefined Event (PE),为的是与 SVO (Subject Verb Object)为核心的 open ended General Event (GE) 比照。把 events 序列串成一个story的结果,叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想,我叫它信息体理论(Theory of information Objects, 参见 《科学网—前知识图谱钩沉: 信息体理论》),成型在我给国防部项目的最后报告里,此不赘述。当然人微言轻,这些思想在今后的知识图谱的发展中,肯定会被别的等价或类似的术语替代,有话语权又能让共同体接受的 往往是巨头。可以拭目以待。

董:
说得好!

李:
近年哈尔滨刘挺老师那里,开始宣扬一个“事理图谱”,似乎闹出一些动静,这就是沿着 event 这条线,概念上非常接近 scenario。事件图谱(or 事理图谱)与实体图谱,虽然二者交叉,你中有我,但事件图谱比实体图谱更难构建,应用起来也更具挑战性。一切还在 evolve。

然而,万变不离其宗。其实这一套所谓知识图谱背后的概念体系,并没有超越《知网》(HowNet)的设计哲学。董老师应该感觉欣慰,语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同,术语名词不过是皮囊。HowNet 是打语义结构体系基础的,是元知识(meta knowledge)体系,面对万事万物的本体(ontology)。 而当我们一旦进入问题领域,我们面对的不再是本体概念,而是一个个实体(individual entity)。 于是实体名(Named Entity,NE)成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology,来作为其 schema 的定义和软约束:这在定义图谱的时候需要用到。

董:
很多年前,刘挺他们曾让我去他们团队,他们跟我讨论过如何建立,例如夫妻关系,在网上搜索相关的事件。这跟实体类相关一样,不从底层来,怕是不好做的。如果是就事论事,那还好,不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释,我知道更多了。

李:
确实更加贴近应用,是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是,把我们在NLU (NaturalN Language Understanding)做无边无沿自动句法解析(parsing)的 SVO(主谓宾)类的语义表达放在一边,重新定义了领域应用驱动的实体抽取和事件抽取(领域事件的例子有“高管变动”事件,CXO上台下台的情报)。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用,创立了信息抽取(Information Extraction,IE)这个领域,也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘,但我们其实可以继续SVO的解析而做得更精准,更具有领域普适性,增强快速领域化的能力。这一点(以parsing支持IE)已经经历十几年的反复实践,其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情,是在我们的分析基础上的再开发。例如:“从轻”的根据之一是“共同犯罪”,而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同…”等等提取的。

李:
实体图谱个人画像(很像履历表)中的一类重要关系就是人与人之间的关系,包括夫妻关系,上下级关系,其他家庭关系等。这就是一个事实的挖掘(公司里面叫 org chart),应该是数据驱动的。

董强做的也是领域数据抽取和挖掘,结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘,绕过了 parsing 和本体知识库。一般来说也是可行的,前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了(有利白领就业,应予鼓励)。尽管如此,人工标注总是一个极大的知识瓶颈(knowledge bottleneck),除非要标注的任务是单一不变,或像机器翻译(MT)那样是自然形成的(人译从来就有,因此永远有积累的海量标注在)。

董:
是的,在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门,受益匪浅。

李:
不敢。祝董老师和全家,平安夜平安喜乐,圣诞节幸福吉祥!

1989年在荷兰,与董老师及BSO多语机器翻译项目组长合影

 

【相关】

【语义网笔记:本体与知识图谱之辨】 – 立委NLP频道

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行:从Julian Hill 说起》

《语义三巨人》

【董振东:逻辑语义及其在机译中的应用】

【立委小传】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白雷宋74:乔老爷的递归陷阱】

李:
咱们可以聊聊为什么叫 center 递归,很多人不做区分。自然语言中,right branching 递归很常见,也常可以超过三层。说的人,听的人,都不感觉是负担。道理就在,虽然“左括号”在不确定的位置,但他们都归于统一的右边界。这样一来就不需要栈(该死的栈!)结构的机制来对付它,有限状态就可以了。乔姆斯基没法拿这个常见的所谓递归来批判有限状态,因此他不得不举 center 递归作为杀手锏。可问题是,自然语言几乎没有什么center 递归。

雷:
The man who the woman who had lost all the keys was calling all day finally came

白:
关于印发关于学习落实关于进一步深化改革的决定的若干意见的通知…… center recursion的中文例子

李:
这些是人话吗?亏老乔是语言学祖师爷!乔老爷反复给我们洗脑:这不仅是人话,而且是人话的本质。

这就是牵强附会,登峰造极地牵强附会。

雷:
right branching 递归是线性的,而center embedding不是线性的

李:
这里面就形成了这么个trap,信服他的人,一个是源于他的权威性, 另一方面是把常见的右递归当成了支持乔老爷的证据。乔形式上没有误导,因为他是严谨的、聪明的,但实际上达到了误导的效果。这就是“递归教”的 fallacy.

雷:
这个是right branching sentence:
The dog slept on the doorstep of the house in which it lived.

李:
右递归太常见了,听上去也不牵强。典型的句式是 vp 的嵌套:
to ask sb to beg sb to order sb to …

雷:
我来理解一下你的意思:center embedding recursive sentences 不存在,或不出三层,所以是finate state的?

李:
不是不存在,是如此罕见与牵强,而且也从来不超过三层,除非你是恶作剧,因此它绝非语言本性。

雷:
不足为道,本来就是线性的。CFG的parsing在理论上是cubic,就是因为这个center embedding

白:
这么多计算手段怎么会被center recursion憋死,自动机加几个计数器就可以线性了,只要计数器不爆表。

李:
拿恶作剧和语言游戏作为语言能力的证据,是乔老爷的最大忽悠。

雷:
我觉得这是数学家和哲学家的通例:形式上的完美。而我们做NLU的,从来就不把这个当真,是不是?

李:
既然最多不过三层, 那么多层有限状态即可轻松应对,三层就是 3x,当然还是线性

雷:
语言学系的人不到计算机系串门

李:
世界上有人把简单的问题复杂化,递归便是一例。

雷:
呵呵,因为我们不是数学家出身?我同意你的说法:就只有几层,有方法可以对付,不必搬出递归来。

李:
他那些理论真地是折磨人,云山雾罩的。有时候感觉,全世界语言学家被他玩得够苦。我还算幸运,我们系比较开通,学句法的时候躲开了乔姆斯基,拿hpsg来充数。hpsg 至少比 gb 接地气,尽管它像个要争宠的小妾,每一个分析都要以乔老爷的主流作为假想对象,反复辩白,妾身清白。

雷:
加州那边不受什么影响吧,走的是另一个路子,如, cognitive grammar, Fillmore

李:
Fillmore 了不起,但过分细琐. Framenet 很好的概念但不实用,以前写【语义三巨人】专门论过。因为它处于语义和语用之间,不尴不尬。

雷:
我专门研究过framenet,觉得还是不够细,同你的琐碎不是一回事。是每个动词的用法还不够全,还有就是Verbnet。感觉是虎头蛇尾,后面都是学生做的,真正要用起来还不够全面。

李:
我看法正相反。我也仔细研究过它。以后找机会展开与你辩论。

白:
伟哥看过来,你的中递归

QJ:
咋了,堆栈溢出了?

雷:
呵呵,一山一寺酒一壶,三层。

李:
还真有这么狗血的不是人话的东西存在。服了我党苏州委员会。

另,再看里面的括号的中递归形式:《 ..<…<…《…》…>…>…》,凭什么这样用括号呢?双单单双……。如果双单都用,应该是交错而行,否则索性一双到底或者一单到底。

wiki 上给的英文中递归(center recursion)的狗血例子是:

A man that a woman loves
A man that a woman that a child knows loves
A man that a woman that a child that a bird saw knows loves
A man that a woman that a child that a bird that I heard saw knows loves

An interesting theoretical point is that sentences with multiple center embedding are grammatical, but unacceptable. Such examples are behind Noam Chomsky’s comment that, “Languages are not ‘designed for parsability’ … we may say that languages, as such, are not usable.” (Chomsky, 1991)

from https://en.wikipedia.org/wiki/Center_embedding

乔老爷的 grammaticality 论,unacceptable 还 grammatical,如此偏执,也只有乔老爷这样的人神才敢了。还有这个 languages are not designed for parsability 的论点,直接与语言的交际通讯本质相抵触。

The linguist Fred Karlsson provided empirical evidence in 2007 that the maximal degree of multiple center-embedding of clauses is exactly 3 in written language. He provided thirteen genuine examples of this type from various Indo-European languages (Danish, English, German, Latin, Swedish). No real examples of degree 4 have been recorded. In spoken language, multiple center-embeddings even of degree 2 are so rare as to be practically non-existing (Karlsson 2007).

也就是说,这种东西统计上是不存在的。是臆想出来的语言学问题,然后把整个 parsing community 给绕进去。雷司令为此搭进去好几年时光,试图去求解它,终于发现只要有中递归就不存在线性算法。

白:
去掉中递归,计算复杂性从接近立方级一下子变成了线性。吃水不忘挖井人啊……

云:
不过计算机语言里这种递归比比皆是啊,尤其是 recursive decedent parser。

白:
人的短时记忆不允许。7加减2,常委数量,也就是三到四对括号,再多了就晕菜。这个可以佐证伟哥的统计结论。

雷:
不怕一万,就怕万一,冷不丁的来

白:
嗯,那就反刍呗。in memory不要搞

李:
还有一个狗血的语言学问题,也是乔老爷造的孽:所谓 binding theory。本来是语言中很小的一个现象,结果被无限夸大,引发了无数论文和论战。由 Binding theory 的三条原则而来的有那么点实践意义的规则,我15年前指导一个实习生,用了不到两个小时就实现并调试完成,后来一直没遇到什么有统计意义的挑战。

可见,一个简单的工程问题,可以怎样地被理论家无限复杂化,烦琐哲学害死人。伟大的理论家害死一代学人。

白:
学人仍然是学人,谁也没被害死,只是又想当学人又想搞工程的被害死而已。这是两种不同的打开方式,老乔根本就当另一种打开方式不存在。

宋:
自然语言规则必须受到人类认知能力的约束,否则就称不上自然语言了。

白:
认知能力有个体差异,也有亚文化差异。

宋:
7加减2应该就是人类共同的认知约束。

白:
内存不够就拿笔作记号呗。

李:
有意思的是,谁创造的标点符号,三层括号:

{ … [ …(…)…] …}

怎么就明白大中小三层就足够了?

白:
摆明了就常委的菜下饭。
多一层也不该憋死人,难受一点而已。艺术一点,难受的程度可以小一点。

李:
已经有人做过大数据调查,多一层也不行,没有超过三层的。

白:
我还是坚持分析要更鲁棒,生成坚决不说。

宋:
自然语言一般来说应该是能听懂的话。如果线形的语音流无法使一般人听明白,非得要落到文字上,左右来回扫描,甚至要用笔做记号,就不自然了。

白:
公文不一定。公文是官场亚文化催生出来的东东。

宋:
非自然语言的确切信息的表达,表格是一例,图形也是一例,再复杂就要用数学公式,必须有足够的数学修养才能看明白。

白:
人能意识到的“回文”,可绝不止7加减2。“上海自来水来自海上”轻轻松松就打到上限。

李:
9-gram,还在 7+2 的极限内。来个 19-gram 的回文,就真服了。人脑就是块豆腐,这方面说过大天去,也无补。人成为万物之灵,绝对不是因为有个记忆能力,或以记忆机制做底的语言递归能力。

 

首发科学网 【泥沙龙笔记:再聊乔老爷的递归陷阱】 & 《泥沙龙笔记:狗血的语言学》 

 

【相关】

乔姆斯基批判

Chomsky’s Negative Impact

《立委随笔:自然语言是递归的么?》

语义三巨人

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

11月25号在深圳12月8号在北京,我分别有个NLP的特邀报告

本月底(11月25号)在深圳给个中文NLP的学术主题演讲

 

 

报告题目:中文自动句法解析的迷思和痛点报告人:   李维(京东硅谷研究院)

报告摘要:深度中文信息处理的核心是自动句法语义解析(deep parsing)。长期以来,由于中文文法缺乏显性形式手段,没有形态,功能小词常常省略,中文深度自动解析显得举步维艰,很容易陷入中文分词和短语抱团的浅层漩涡难以自拔。迄今为止的中文NLP应用大多局限于浅层分析或者端对端的系统,并没有做到语言的深度结构分析和语义理解,而后者才是自然语言万变不离其中的奥秘所在,也是中文NLP快速领域化的一条根本出路。本次演讲从通向中文深度解析之路的迷思入手,梳理中文自动处理的痛点并提出和展示可行的对策。主题涉及:中文分词(含切词、合词)与解析的关系,词类识别(POS)与句法角色的关系,离合词(如“洗澡”)带来的词典与句法的接口问题,针对结构伪歧义的细线条词典化道路,以及针对错误放大的休眠唤醒机制(负负得正)。

个人介绍:李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度解析平台及其NLP应用,目前聚焦于中英文大数据情报和舆情挖掘,以及智慧供应链应用。李维NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索、机器翻译等等。 加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,设计并指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 社会媒体全网大数据。李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,在国际学术刊物和大会上发表论文约30篇。2015年,李维被评为SFU 杰出校友(建校历史上50名之一)。

from

http://conference.cipsc.org.cn/annual2017/

下月初(12月8号)在北京的架构师峰会上也要给个talk

专题演讲嘉宾:李维(博士)

京东硅谷研究院 主任研究员

李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度分析平台及其NLP应用,目前聚焦于大数据情报和舆情挖掘,以及智慧供应链应用。NLP深度分析平台具有广阔的应用前景,方向还包括客户情报、信息抽取、知识图谱、问答系统、智能搜索、智能客服、自动文摘等。

加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 大数据,系统质量有第三方评测认定大幅度领先竞争对手(”best of class” by Forrester,Pivot Labs Analytics)。他领导研发或参与的各类NLP应用产品获多项工业界奖项,早期包括INFORMATICS’92 (新加坡) 银奖,近十年包括企业社煤平台行业领先者(A LEADER IN THE FORRESTER WAVE),消费者商品技术(CGT)首选奖等共计17 项工业奖项,多次被主流媒体报道,包括《华尔街日报》《纽约时报》《华盛顿邮报》《财富》MSN,CBS,NBC等等。

李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,发表论文二十余篇,美国专利三项,并多次受特邀就NLP自动分析和大数据挖掘做主题演讲,近年的演讲活动包括哈佛大学医学院,台湾中研院,中国科学院和中文信息学会。2015年,李维被评为SFU 杰出校友(建校历史上50名最杰出校友之一)。

演讲:自动深度语法分析是自然语言应用的核武器

文本自然语言处理(NLP)是人工智能的重要方向,是继图像和语音处理技术(感知技术)突破之后的一个令人期待的关涉认知技术的核心环节。

大数据文本给自然语言处理提供了广阔的场地。本次演讲通过深入介绍自然语言自动分析的历史和现状,勾画出自然语言技术的应用前景。重点在展示和论证深度自然语言自动分析对于自然语言技术应用的革命性作用,这些应用包括智能搜索,情感分析,数据挖掘,问答系统和智能助理等。迄今为止的自然语言应用大多局限于浅层分析或者端对端的系统,并没有做到语言的结构分析和语义理解,而后者才是自然语言表达信息的奥秘所在。自然语言深度分析的技术正在成熟,已经到了显示威力的前夕。

演讲过程中将结合知识图谱和大数据舆情挖掘,来展示深度语法分析(deep parsing)的原理和威力。

演讲提纲:

  1. 人工智能的历史和现状简介:从感知到认知
  2. 自然语言技术的历史和现状:端对端的突破,大数据和深度学习的革命,知识瓶颈的困境,深度分析的对策
  3. 深度分析是什么?非结构的结构化
  4. 什么样的深度法分析是自然语言技术应用的核武器
  5. 应用举例:知识图谱
  6. 应用举例:舆情挖掘
  7. 应用举例:智能搜索和问答系统
  8. 结语

听众受益:

  • 对于人工智能与自然语言的从业人员,以及对自然语言技术感兴趣的人士(学者、学生、投资人、企业家、IT人士)开阔眼界,了解动态以及促进技术的产品化有益。

from http://bj2017.archsummit.com/presentation/123

【李白66:“青春期父母指南”的语义计算】

李:
朋友圈看到一本书书名是:【青春期父母指南】(副标题:如何和谜一般的青春期孩子相处呢?)定语青春期不是指向父母的,而是指向父母的儿女。

有意思的是,定语“青春期”不是指向“父母”的,而是指向父母的孩子。书名的结构是 NP:N1+N2+N3:N1 is neither semantic Mod of N2 nor of N3, but of something only implied yet not mentioned in text.  Grammatically we might still label N1 as Mod of N2, not of N3, N2 is grammatical Mod of N3, and semantic Obj of N3.

当然也不能完全排除这个指南是给处于青春期的父母(teenager moms or dads)

白:
青春期有坑,父母有坑,指南有坑。没有“的”的填坑关系和修饰关系互斥。父母填青春期的坑,是一解。青春期自己升格(处于青春期的某某human子类型),再填父母的坑,是另一解。

李:
后一条路不好掌控。凭什么升格,什么时候不升格?

白:
后面没有相谐的被修饰语,又有人需要这个被修饰语。升格也是有准入条件和优先顺序的。“是什么”是语言学,“选什么”是NLP。讨论语言学和讨论NLP,不是一股劲儿。当父母填青春期的坑的时候,父母自身的坑也只能借助升格来处理。不在这里升格,就在那里升格。要么父母处于青春期,谁的父母没交代;要么父母的孩子处于青春期,孩子是谁没交代。那个没交代的对象就是升格升出来的。

李:
没交代是常态。记得当年学句法课,教授花了很长时间讲解 complement 与 adjunct 的区别,说前者是需要交代结构(及其语义)才算完整,后者是可有可无(可多可少)的附加语。但其实在语言中,需要交代的常常不交代 不出现;可有可无的 往往具有语义的重要性。这道线很难划。语言不是按照逻辑设计的。

白:
语言也不是按照树设计的。多爹、非树是常态。

李:
几乎所有的及物动词都能省略宾语。省了以后,那个没出现的宾语,或者需要根据常识去理解,或者是根据上下文去理解,或者你知我知地通过心灵感应去理解,或者误解。也或者根本就不去(充分)理解:糊涂说 糊涂听 也一样交流。人类交流中 unspecified 的信息太普遍了 大家熟视无睹了。貌似交流也没受到阻碍。

白:
允许名词有坑,这都不是事儿。像上面例子,好像就逼着听话人选择哪个是没交代的。而不能是两个都没交代。

李:
青春期的坑是【human】,父母是【human】,这就算对上了。交代了。至于【父母】的坑,标题上下文里没见着,只好拉倒,stay unspecified。没有升格的理由。

白:
你这是从左到右思想作怪。那我问:“多动症父母指南”呢?

李:
从右到左试试?

“父母”的坑是【human】,左边的“青春期”不是【human】,但是青春期的坑里有一个尚未出现的【human】。如果要让正解出现,不仅需要从右向左,而且还要从别人的坑里面挖出一个根本没见影子的萝卜来。就算挖出来了,填进去的是谁还是一笔糊涂账,最多只能以常识默认推测之。

白:
把“青春期”处理成N+,不存在挖别人坑里萝卜的问题,但前面一些不严谨的表述需要修改。

对前面一些表述的修改:1、“青春期”是修饰语,无坑。2、“父母”取N输出,不在乎/N坑是否饱和,不是“升格”,而是正常的萝卜输出。图上两个方案,(2)的饱和度更高

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【泥沙龙笔记:科学哲学宗教与人生】

尼:
罗素说科学够不着的哲学,哲学够不着的宗教。科学和宗教有交集,如生死,意识,自由意志等。我有篇未完长文 “当我们谈论生死时我们在谈论什么” , 准备作为我《人工智能简史》最后一章。再长的话,得问洪爷了。
@洪 邓总问哲学和宗教啥关系。我昨晚没回复。你接茬说。

邓:
原始问题是宗教、哲学和科学的关系是啥?

白:
科学尽头是哲学,哲学尽头是八卦。

邓:
宗教呢?

白:
宗教尽头是科学啊

洪:
好比有个大鱼缸,
鱼游随便哲学想。
科学只限缸内忙,
缸外有宗教对象。

尼:
@洪 缸能自动变大或变小吗?

邓:
@白 @洪 你俩意见貌似相反

洪:
缸是人所能感知的;如果人类感知进步了人,例如开了天眼啥的,边界就能扩大

邓:
我等白老师和洪爷打起来

邓:
罗素原话怎么说的?
白老师和洪爷彼此惺惺相惜,不打……

白:
缸外有缸

邓:
请白老师明示。解说解说。

马:
探索哲学的小孩

尼:
这小屁孩把想哲学的鱼都给捞走了

邓:
你们都是禅宗的

洪:
身心灵各有其缸,
有界有墙可以撞。
科学自觉不骑墙,
宗教墙外寄希望。

李:
除了红包与痛苦为真 一切皆假。宗教貌似也远不能普度众生,最多是抚慰一小片。至于科学 则是鸦片。让所谓科学家在虚假的高高在上中,求得半片玩积木的兴奋和满足。

邓:
立委登场,讨论正式开始,

彭:
已有的宗教如果不能普渡众生,就只能创新教,当教主了。@wei

李:
当教主肯定更惨。做个追随者至少还可以把负担转嫁 教主的重负转谁呢?

白:
不同领域,宗教尽头到来的时点不同。有的早有的晚。

洪:
假设鱼缸水不浑,
科学/哲学可显灵。
鱼缸壁若玻璃弄,
宗教可以很理性。

李:
面对终极问题 一切那么苍白。高人不高 哲人不哲 敬畏之心难存。

邓:
白老师本质上是认为科学发展会终结宗教?

张:
还有一种可能就是科学发展证实了宗教

邓:
洪爷的说法是两者之间有无法逾越的边界?

李:
都不能解决人类的痛苦问题。

白:
说的就是人类的痛苦问题,科学一定会有办法。

邓:
刺激神经中枢吗?

白:
不是人类整体的痛苦,是一个个具体个体的痛苦。

张:
具体个体的身体痛苦通过科学一个个在解决了。但是精神层面的痛苦无法解决的。就像科学对我们身体的自愈能力一无所知一样。

白:
精神痛苦需要举例,然后看搞定它的途径和时间表

洪:

鱼跃出水有可能,
科学宗教一时懵。
落回或许先知成,
天慧法佛眼开睁。

白:
@张 现阶段科学不等于科学。

邓:
@白 终极的科学是不是等价为绝对真理?

白:
不是。搞科学一般都怕谈“真理”。

张:
精神痛苦的例子太多了,幼年丧母、青年丧父、中年丧妻、老年丧子、失恋,被甩。。。

邓:
如果科学认为不存在真理,宗教又把自己定义为真理,那么是不是可以理解为完全两件事?

张:
估计在地球上找到绝对真理的时候我们要移民外太空了。科学的真理好像是相对的,而宗教的真理是绝对的。

白:
失恋跟记忆关系很密切。如果可以干预和改变记忆,对待失恋的态度也会有所不同。

邓:
原来@尼 大师提到“自我”的容器问题,就是那个换头术悖论,跟白老师这个观点探讨的方向一致吧。

鸣:
精神痛苦,多与欲望相关

白:
执着都是有物质基础的。现在不敢动这个物质基础,主要是怕误伤。如果定点改变,确保不误伤,改了又何妨。离开要解决的问题,真理的绝对还是相对就是个伪问题。有了要解决的问题,大家就直接比疗效好了,不必涉及那些伪问题。

张:
失恋不要被忘记。那也是一种情感需要被回忆的。有了痛苦才有反差,否则人生又有什么意思。

白:
想保留反差就谁也别找,不想反差太大就定点微剂量清除记忆,在这点上宗教活儿太糙,论精准还得寄希望于科学。

邓:
@白 “基督教是现代科学的接生婆”跟您的说法一致吗?

白:
也不尽然吧……

邓:
宗教的尽头是科学

张:
或者科学的尽头是宗教

邓:
现在是张老师力战白老师

张:
来搅浑水。
白老师是严谨的科学家,我们是来搅搅乱。

邓:
必须有人捣乱才能激发白老师讲话的欲望。

白:
娱乐而已。

邓:
@尼 大师该你了。向白老师开炮。咱们那天关于这个主题聚聚。顺便听白老师弹琴。
@白 《those were the days》这歌用曼陀铃应该不错。

尼:
好多讨论的词汇没法定义。例如,”人文”在文艺复兴时的意思是为了和“神”唱反调,科学也算人文,但几经周转,人文语义迁移了。在中国,就成文科生的意思了。

邓:
请大师先定义词汇

尼:
哲学也一样。一种方便的定义是哲学就是哲学系教的那些玩意。那恐怕现在的哲学和100年前哲学不一样了。再过10年,逻辑就不算哲学了。我得开会去,晚上喝两口再聊。

阮:
对于一个生命有穷的个体来说,科学能解决的问题少之又少,当科学不能解决时,就赖宗教获得个体幸福了。因此,科学的终端是宗教。

白:
@阮 宗教就是昨天的科学

李:
一个显而易见的事实是 科学技术的进步带来了物质繁荣 但人类的精神问题没有减少 貌似日趋严重,至少是停滞的感觉 与科技的一日千里 无法比拟。

白:
人类不好伺候啊。
穷也矫情,富也矫情。

阮:
科学伺候的是客观世界,宗教伺候的是人类精神世界,目的不同。

张:
白老师,宗教比科学早啊

白:
对啊,宗教的明天是科学。一个意思。

李:
宗教要真伺候得好 为什么还有那么多迷途羔羊?
譬如 执着心,佛教 甚至fl功 都有很多放下执着心的教义,道理是深刻的,几乎无懈可击,可是怎么那么违背人性 难以接受?

张:
其实科学和宗教确实很难放在一起,科学也许永远找不到最终的答案。

阮:
这世上有这么多无知的人,为什么不说科学伺候得不好?

白:
@阮 不一定啊。你以为高保真音响只是伺候耳朵的?不是的,是伺候听觉欣赏的。

马:
@阮 看你怎么定义终端。科学和技术要分开。享受属于技术。

阮:
@白 科学求真,让人类获得享受是副产品。

李:
好吧 就说死亡不可抗拒 这个我等可以接受 (虽然也是经历很多才接受的)。那么 在我们死亡之前的这些日子里,我们每个人都想减免痛苦,可痛苦依然挥之不去。

马:
所谓死亡只是换了一个躯体而已。

白:
说不定吃一种药就不怕。又减少痛苦又不上瘾。到时候再痛苦就矫情了。

dl:
人之所以痛苦,在于欲望,而其中相当部分欲望,与个体独立性反相关,社会科技越发达,社会越富有,反而大家都落不着好了,这就是现代社会的一个毛病。典型的是权力的欲望。

白:
藏族人对死的态度很豁达

李:
痛苦二字也许太抽象 但我们多少人没感受过一个 “累” 字。人生真累。活着真累。

dl:
越是发达的社会,越是号称平等自由的社会,人们从权力方面获得的满足感越少。越是专制,反而每层都能找到权力的感觉。

阮:
人类麻烦事太多,除了生死,还有一堆其他的。科学帮助解决问题,不能解决的就用宗教。

白:
能量极小化,就是懒;物质极大化,就是贪。

李:
其实这种累的感觉,不是简单的欲望不得满足。

白:
都想出人头地才累。

dl:
归根结底,出人头地也是权力欲望。没有雄心壮志,就比较容易快乐。

熊:
虚其心,实其腹,弱其志,强其骨,美国政府在做的。

白:
权力欲望也一定有物质基础的。吃药可医。早晚的事。

李:
在古代 流行的是简单的快乐。进入文明社会 简单的快乐的能力 现代人丧失了。
我们的远亲 猿猴就没有人类这么多这么深这么厚的痛苦。

dl:
以前皇帝的物质条件未必比现在普通人好啊,但是快乐太多了。现代社会另外一块问题,就是虚伪性,其中最大的就是婚姻制度,也是导致痛苦的主要原因。本来古代制度性解决的问题,现在需要每个聪明人耗尽自己的才智,其实也解决不了问题。@wei 主要是一夫一妻制度的推广造成的。

李:
那就废除这个制度好了。可群婚也不会幸福。

dl:
太多成功学,个人奋斗案例,给大家打鸡血,也是导致大家辛苦的原因。美国鼓吹的那一套人人奋斗也是大家痛苦的原因。以前不成功还可以把原因推到制度上,现在只能埋怨自己了,能不痛苦吗。

邓:
看高手过招真心快乐。@白 将来我们都喝老爸茶、弹琴、斗嘴。

李:
过度紧张 过度竞争 恶性竞争 肯定是罪魁之一。

dl:
人之所以快乐,无外乎比别人优越那么一点点。也许现在宗教存在的意义,就是我失败了,能让我找到一点点借口。否则就是赤裸裸的自我解剖,太痛苦,没几个人受得了。

李:
找不到工作 社会上混得不好 肯定不快乐。
但有一个不错工作的人 也往往快乐不起来

白:
这点借口,科学也会给的。将来都ai了,找不到工作是常态。

dl:
很重要的一点,和身边的人比较起来,是不是优越。最谦虚的人,内心也是希望得到别人的恭维的。最不在乎的人,他在乎的东西,超乎我们的想象,除非这个人完全破罐破摔。

白:
把自己贬低到常人难以接受的水平,来恭维别人的人,一定极其阴暗,破坏力不可低估。自尊心是守恒的。这里按下去,就意味着一定会在其他地方冒出来。

李:
回想起来 人生中比较真切的快乐的确有 就是助人为乐 远比自己得到好处快乐得多。这个助人为乐 首先是亲友。看到自己爱的人 亲友 由于自己而改善了境遇 那种满足幸福感相当不赖。如果觉得自己可以帮助全世界,快乐就源源而来。

dl:
@wei 这也算一个麻醉剂。中国人这个达则兼济天下的思想,本来就是高高在上的。
明白嘛,高高在上。帮助他人,也是体现自己优越感的好地方,当然客观上是有好处的。仔细分析,从内心来讲,并不比我要出人头地高尚多少。

白:
精英已经失去了代表人类平均感受的资格。

dl:
@白 现代社会的痛苦,就是精英阶层弱化的痛苦。

白:
去精英化

李:
暴发户回家乡办学 就是这种幸福的展示。

dl:
@wei 你说的这种东西,并非精英阶层追求的东西,而是把精英阶层平民化的过程。这里有一种不可调和的东西存在。

李:
雷锋的快乐就是,做好事不留名,记在日记里自我欣赏的感觉超级棒。

高:
雷锋不识字,何故多记事

dl:
@wei 雷锋这种现象,主要还是愚民策略的一个证明

李:
一介武夫 无权无钱 不富不贵 但没人否认,雷锋是幸福的 每一天活得那么充实满足。

dl:
反正在这个群里,我得到的快乐,肯定没有我的粉丝群里得到的多,这是肯定的。原因是肯定的,这个群里大家都很自我。没有人太屌谁,这就是以后社会发展的一个趋势。

白:
反过来说,精英扎堆儿的地方,不适合精英自我表扬。

桂:
李白是计算语言学界活雷锋。

dl:
所以每个人权力获得感会大幅下降,这是必然的。预测以后的世界,每个人的存在感问题会更大。这会是一个主要问题。

白:
唱戏当皇上也是爽的。
以后ai发达了,nlp发达了,慕容复何至于那么孤单,可以乱真的奴才臣子还不是要多少有多少?权力欲真那么难满足吗

dl:
@白 反正我不会和机器人谈恋爱。
这个每个人细细体察内心就可以知道

李:
不要说那么绝对。没人会拒绝快乐,快乐来自人和机器 不重要。

白:
来自药物和现实乃至虚拟现实,也不重要,关键是不要有副作用

dl:
精英阶层的人士,快乐在于控制和影响力,不在于太物质的东西。而世界趋势在背道而驰。庸俗化正在席卷全球。
@白 吃药也许可以。五石散。魏晋南北朝,其实也是一个世家没落的时代,和现在有点像。

白:
所以科学宗教哲学,说到底都是solution,是骡子是马,最后都要在problem面前遛遛。

dl:
@白 同意。问题是这里面存在不可调和性。发展趋势和人快乐的基础之间有不可调和性。这是现代社会的一个重要问题。庸俗化引起的权力满足感丢失,可能是问题的核心。

顾:
科学和宗教类同,只不过科学适用面宽些,预测能力强些。

白:
人太多了,逆选择一下也是必要的。这么辛辛苦苦伺候都快乐不起来的人,还是哪儿凉快哪儿呆着去吧。

dl:
目前解决方案,就是创立一个公司,然后去当土皇帝。这才是正道。所以要创业。这才是创业的终极目标啊。公司目前是满足权力感最好的形式。

白:
权力自由但财务不自由的创业,好不到哪儿去。

dl:
@白 这就是你说的唱戏当皇帝也快乐啊。

白:
自己印钱啊,虚拟货币。
想象力太受现实束缚了。

dl:
@白 我只是调侃一下而已

白:
我调侃两下行不

dl:
当然可以。以后都去参加拜公司教就好了。这就是宗教。solution直面最核心的问题,精英阶层存活的意义就在于此。

白:
ai让你唱戏当皇上比真皇上还爽,连个不爽的理由都找不出来。

dl:
@白 现在很多人沉醉于虚拟网络,可能也和这个有关系。找到了存在感。但是如果获得太容易,就没优越感了。存在感其实在某些意义上等同于优越感。

白:
那容易啊,工作量证明,挖矿挖到了的当皇上。

dl:
@白 其实发明一种机制,让人去做梦,这样人的一生其实不需要活动。可以拍一个电影,以后少数精英人士操纵社会,大多数人生下来,就被装在器皿里培养做梦,大家觉得如何?都很快乐。其实社会本质未尝不是这样?

邓:
今天讨论这么热闹@尼 得发个红包。

 

【李白之44:“明确”是老子还是儿子,需要明确】

白:
“北京大学率先明确入雄安路线图”。“明确”是副词还是动词,需要先明确。

李:
我觉得这不是问题的关键。pos 在抽象层面只规定非常宽泛的框框。关键还是语义之间的相谐。正确的问题不是pos,而是 “明确” 在这里是状语(儿子),还是谓词(老子)。在【明确+ vp】里面,pos 上它没有什么限制,所谓跨类词。跨类就是两可。 对于跨类 这是一个没啥意义的问题 或者说 这是一个 circular 的问题。

“明确”的最常见的 subcat 带的是 np,但是 在 “明确v” 出现时,这个 v 可能是 vp,因此 “明确”可能做其状语。也可能这个 v 是np内部的修饰语。

(1) 明确规定游泳违规
(2) 明确规定 严明纪律 这两条是整顿金融秩序的关键所在
(3) 我们要明确规定条例

大数据可以帮到 (1);(2) 是排比的力量 压住了大数据,把潜在的动宾可能激发出来。 但排比因素的形式化实现还需要探究(虽然形式特征在人看来是蛮明显的)。(3) 仍然歧义:“明确(地)规定(相关)条例”,还是 “明确(一下)(有关)规定(方面的)条例”?大数据似乎选择前一个解读,为什么我们仍然感觉得到后一种解读的可能性。设想 如果大数据中 “规定条例” 比例开始高到可以与 “明确规定” 相匹敌的时候,这就是大数据也搞不定的边界之争。

白:
“北京大学率先明确入雄安路线图”这个例句中,“明确”只有一种走得通的词性,就是动词S/N,X。如果是副词,“入”就会过饱和。虽然过饱和也是能处理的,但放着正常饱和的不用却去用过饱和的,终究不妥。因为“入雄安”只剩下一个坑了。副词“S+”不会改变萝卜数和坑数。

李:
“率先明确入雄安的是习大大吗?当年是毛主席率先明确入京的。虽然有人提议仍在南京建都。” 什么叫 入 的过饱和?

看样子 “明确” 的subcat 也有带 vp 的,虽然不如带np的 subcat 用得广。

另。假设 native speaker 的语感与大数据(作为语言共同体语言表现的代表)吻合(实际上当然不会总是吻合), 那么大数据搞不定的歧义就应该视为真歧义。大数据能搞定的就是伪歧义 尽管这个伪歧义以前被认为是句法真歧义。“以前”指的是没有大数据语义中间间或没有语义或常识消歧手段的句法分析器的那个时期。

 

【相关】

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【立委兄:温哥华都市游 2/3】

没办法只好返回Max家去吃晚饭,刚到Max家没多久,雨停了,太阳出来了,时不我待,我们饭也不吃,立马背起相机,直接再去与SFU大学连成一片的本那比山公园照落日晚霞去了。功夫不负有心人,到本那比山公园时机正好,登顶之后,眼前豁然开朗。葱郁的绿里点缀着红黄,极目远望,水光山色尽收眼底。BurnabyMountain Park 奇特的雕塑群(日本雕塑Kamui Mintara sculptures,由日本雕塑家 Nuburi Toko 和他的儿子所创作,象征着人类、动物、自然和上帝的和谐统一),秋日叶色微红的树林,和湖、云、山、峡、光融为一体,远处一两汪不知是湖还是海的碧水,让人仿佛置身在童话世界中,这才是美丽的秋景呀,色彩艳丽,如诗如梦。

与SFU大学连成一片的本那比山公园BurnabyMountainPark

10月20、21、22日天气不好,雨季的温哥华,对它没脾气,我们只得去商场和奥特莱斯转了转,顺道去参观一家湖北籍华人正在建造的木结构三层大别墅。

温哥华小区中林荫道

10月23日星期六,早晨天气转好,我们准备去惠斯勒(Whistler),没出城前有两处路边景点让我们兴奋不已,都在河边。

一处在弗雷泽河旁,是朦胧美,轻雾如纱,烟锁秋波,一层轻纱般薄雾在河面上飘来荡去,河对岸的树林和农舍时隐时现,一切都掩映在宁静、纯净、虚幻的晨雾怀里。那淡淡的地雾,那隐隐的树林,那静静的水面,活灵灵显出一个世外桃源。

另一处在皮特河旁,当车路过皮特河大桥时,我们眼前又一亮,被眼前美丽深深地震撼,赶紧下了主干道,停在河傍,端起相机不停地拍摄,机会难得。远处山峦披着多层薄雾,河两侧处处可见红的黄的树,湛蓝的河水倒映流光山色,黄草依依在河边随风而笑,宛如仙境。这情让人心灵涤净,这景让人飘飘欲仙。

弗雷泽河旁朦胧美,轻雾如纱

皮特河流光山色

走出温哥华前

走出温哥华,进入海天高速公路 Sea to Sky Highway (99号高速公路)。海天公路蜿蜒於太平洋和群山之间,由海洋、河谷、冰川及高山峻岭所铺陈。道路内侧是山峰林立、悬崖陡峭,另一面则是碧波万顷、海水湛蓝,沿途经过多处海湾、瀑布等风景区,景色如诗如画,还有绿色的小岛、高高的雪山,蜿蜒而上的公路,海天相连的景色尽收眼底,一如其名,完全展现由海至天的丰富样貌。

海天公路路过一个非常有特色的高尔夫球场。整个球场顺着山势而建,背山面海,高低错落,真不知老外的灵感怎么得来,设计出如此之美的球场。只是我们找不到俯视这球场的高台,照不出它的神采来。

到香农瀑布(Shannon Falls),虽落差335米,但我们看瀑布太多,就没停下来了。后来路过一个不知名的观景台,居高临下拍了一下海湾的大景观。在斯阔米什小镇(Squanmish),我们休整了一下,发现加拿大民众都在为万圣节筹备各色南瓜及物品,看来西方对这个节日挺重视的。村对面的史坦沃斯峰 Stawanus Chief 很雄奇,很高耸,坐缆车可以登顶,可一览海天高速公路四周美景,可惜我们没上去。

海天高速公路 Sea to Sky Highway

路边山坡高尔夫

斯阔米什小镇

 

【相关】

【立委兄:温哥华都市游 1/3】

【立委兄:温哥华都市游 2/3】

【立委兄:温哥华都市游 3/3】

《朝华午拾:温哥华,我的梦之乡》 

温哥华的美是骨子里的

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大东部枫叶游(1/11)】

【立委兄:多伦多都市游1/2】

【立委兄:多伦多都市游2/2】

【立委兄:尼亚加拉大瀑布】

【立委兄:加拿大自驾游东部风光摄影选粹 1/2】

【立委兄:加拿大自驾游西部风光摄影选粹 2/2】 

【立委兄:加拿大东部枫叶游(8/11)】

二十八天加拿大自驾游东部篇

在小城停留几个小时后,我们驱车赶往距圣安妮大峡谷大约9公里处小村庄 Sainte-Anne-de-Beaupré,我们在小村庄著名的圣安妮大教堂旁预订了一个汽车旅馆–海岸公寓汽车旅馆 Condo & Motel des Berges.  多伦多到魁北克的40号高速路,两侧都是茂密的枫树,如果时间合适,枫景会很壮观,可惜我们今年来的不是时候,枫叶推迟盛红期了。到旅馆服务处,其大门紧闭,留下一个条子,让我们自已在门口小盒子里拿钥匙进房。国外旅馆手续简便,走时也不查房,交钥匙就可走人。安顿好住处,我们立即去圣安妮大峡谷,这是一处赏枫名地。圣安妮大峡谷的门票CAD13.50一人。刚进圣安妮大峡谷大门,还有些金色的枫叶,但到峡谷后,只能偶尔见到变黄变红的叶子,看不出是魁北克的“枫”景之最。说什么:山谷红黄的枫叶漫山遍野,峡谷由于在谷底、山腰和山顶枫叶变红时光不一,有丰盛层次感,我完全没感觉到。瀑布很一般,枫景很一般,没有了秋色,峡谷完全无法吸引到我们。该死的气候,今年天气热的太长,延缓了枫叶变色时间,今年我们武汉桂花也延缓15至20天才盛开哟,理解理解。

圣安妮大峡谷

从峡谷返回我们来到住处,欣赏住处的圣安妮大教堂及四周美景。圣安妮大教堂是一座宏伟的哥特式建筑,矗立在圣劳伦斯河边的这座纯白色教堂,17世纪1658年建立,历史悠久。350多年里,五次扩重建,可惜在20世纪初毁于一场大火。1926年重建。教堂前面的广场上有一个喷水池,青铜铸造的圣安妮怀抱着幼小的圣母玛丽亚安详地站在那里,雕像和喷泉融为一体。大教堂的内部金碧辉煌,气势震撼,我们进去时,主教正在宣教。

第二天一早。我们起床想照圣劳伦斯河日出和朝霞。这一天早晨天气十分寒冷,在河边我们穿了冬季衣物,仍感寒气逼人。可我们旁边一对老外老夫妇,穿着短裤也在河边拍照,本认为他们从车里出来不会很长时间,没想到他们比我们还久,真佩服他们,老外就是不怕冷,我们惭愧。天气虽冷,也时阴时情,但风景确实不错,我们照得尽兴。

圣安妮大教堂

小村庄Sainte-Anne-de-Beaupré

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大东部枫叶游(1/11)】

【立委兄:加拿大东部枫叶游(2/11)】

【立委兄:加拿大东部枫叶游(3/11)】

【立委兄:加拿大东部枫叶游(4/11)】

【立委兄:加拿大东部枫叶游(5/11)】

【立委兄:加拿大东部枫叶游(6/11)】

【立委兄:加拿大东部枫叶游(7/11)】

【立委兄:加拿大东部枫叶游(8/11)】

【立委兄:加拿大东部枫叶游(9/11)】

【立委兄:加拿大东部枫叶游(10/11)】

【立委兄:加拿大东部枫叶游(11/11)】

【立委兄:加拿大西部自驾山水游(13/16)】

二十八天加拿大自驾游西部篇

2日一早,当我起床打开窗户,不由得惊叫:太美呢,太美呢!蓝蓝天空下,白白的雪山,一条云雾缠绕在山间,朝霞印照在山顶,多彩多姿,金光闪烁,不是仙境胜似仙境。原来昨晚是山下下雨,山上下雪,清晨突然转晴,就展现出这神奇的景色来。我们呼着极清新的空气,冒着寒凤,拿着相机,在住宿门外不停地拍摄,太让人心动了。

落基山旅馆四周的好照片

随着我们赶紧打包上路,去朱砂湖拍日出下梦幻般的湖景,我们两天前就对那个地方充满期待。果然上天眷顾我们,给我们很多惊喜,枯黄的草,绚丽的霞,碧蓝的水,山顶的雪,多层的云,洁净的天,这些要素全都具备,实在是可遇不可求。诸要素构成了一幅难得的美丽画卷,让人爱不释手。不停的拍,不停的拍,说来你可能不信,当我们拍完照后,天气又大变,一股厚云从西向东飘来,不一会儿大雨倾盆。虽然我们无法再去我们发现的另一摄像点即1号公路与1A号公路交汇处去取景拍照,但我们心愿已足,便开车直奔优鹤 Yoho National Park 国家公园。

阴雨下的朱砂湖

日出下的朱砂湖

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

二十八天加拿大自驾游西部篇

 

我们今晚住处不在班芙镇,而在离班芙20公里外的坎莫尔Canmore小镇的落基山旅馆,我们在这住两晚。这是我们这几天住得最好的旅馆,楼上楼下,日式联排别墅式的,二室二厅二厕一厨,十分干净和方便。

坎莫尔Canmore小镇的落基山旅馆

10月1日国庆节,天仍下着雨,我们在班芙镇转了一转,天空雾蒙蒙的,自然去硫磺山顶也无意义了,就再去路易斯湖了。环绕湖畔有许多条健行路径,加拿大国家公园大多建有许多许多步行道,人家对体育与锻练都很执着。另外湖边还有一条登山路径,可一直到达山顶。在山顶可俯览翡翠般的露易斯湖,由于天气不佳,我们只在湖边走了一下,没有上山去拍路易斯湖全景了。露易斯湖三面环山,层峦叠嶂的露易斯湖,仍然翠绿静谧,在宏伟山峰及壮观的冰川的衬映下秀丽迷人。我相信如果不是天气太差,这里一定是现实中的世外桃源,毕竟它久富盛名。下午就回到住处,自己做晚歺去了。傍晚雨仍在下,我们心情自然糟透了,明天就要离开班芙了,没拍几张班芙四周的好照片,该死的天气不给力呀。

班芙镇Banff


班芙镇Banff四周自然风光

 

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

二十八天加拿大自驾游西部篇

沿1号公路继续往班芙赶,突然发现在1号公路与1A号公路交汇处,风景很是独特,山、水、林、铁路浑然一体,特适合摄影。天气已开始下雨,我们下车观察一下,决定明早一定要来这里,这里太有特色了。

1号公路与1A号公路交汇处

快到班芙,雨忽停忽下,没完没了。突然一处景观让我们眼前一亮,惊呼起来。美,实在是美。这就是朱砂湖Vermilion Lakes。朱砂湖位于班夫镇入口的高速公路旁,这里十月初湖畔风景线真是美的无语。虽然天气不好,仍让我们心旷神怡,十分振憾。我们赶紧下车猛拍了一番,不能辜负此处如朱砂一般色彩斑斓的动人景色。我们不用说,自然明早还会来,祈祷明天天气会好起来。

到班芙镇 Banff 了,天又下雨了。班芙镇比贾斯帕镇大很多,没有贾斯帕镇淳朴,是加拿大著名旅游城市,被誉为落基山脉的灵魂,加拿大国皇冠上的明珠。班芙镇群山环绕,冬天可以滑雪,夏季可远足。如果登小镇旁硫磺山,可以居高翘望落基山脉磅礴的气势,俯瞰班芙全镇景貌和弓河蜿蜒曲折的美景。硫磺山海拔2285米,有双向缆车到山顶,但因天气与时间原因,我们没有去硫磺山顶,错失俯瞰班芙全景的机会。到班芙镇我们首先到火车站,打听火车时刻表,目的就是希望明天去我们探寻的那个景点时,正好有火车经过,照出一批有特色的照片。天气说好就好,在火车站时天气转晴,太阳出来了,紧赶慢赶照了几张百年老火车站照片,这鬼天气说变就变,不一会又阴转雨了。

班芙镇百年老火车站

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

二十八天加拿大自驾游西部篇

路易丝湖luise lake被誉为被誉为落基山脉最美丽得湖,以维多利亚女王的女儿路易丝公主的名字为其命名。93号公路到路易斯湖附近就转入最著名横贯加拿大东西的1号公路,路易丝湖就在1号公路附近,也是去班芙镇Banff主干道。到路易丝湖时天气不好,又阴沉沉的了,没有出太阳,拍不出她的风姿,更拍不出落日下的路易丝湖景观来,我们决定明早再过来碰碰运气。于是我们去童话城堡一般的露易斯湖费尔蒙城堡酒店Fairmont转了转,露易斯湖城堡酒店历史十分悠久,最早建于公元1886年,它紧临湖畔,气派十分宏伟,从宾馆窗户眺望窗外迷人的露易斯湖,那真是享受。

露易斯湖费尔蒙城堡酒店 Fairmont

路易丝湖 luise lake

中国大妈打遍天下

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

 

【李白之28:“天就是这样被聊死的”】

白:
“天就是这样被聊死的。”

李:
说谁呢 ?

梁:
@wei ,I also admired your “层次纠缠“ comment.

李:
哦 那是刘少奇主义, 吃小亏占大便宜。真的,反单层parsing的传统潮流,悄悄地不知道占了多少便宜了,不吃点亏都觉得不好意思了

白:
“的”可以“买一送一”或者“卖一送一”。比如“卖火柴的小女孩”中,“小女孩”既可以作为整个定中结构的代表正常对外填坑,也可以“无偿”填定语从句内部“卖”的坑;“这本书的出版”既可以作为整个定中结构的代表正常对外填坑,也“无偿”对内接受定语部分“这本书”的填坑。“无偿”的意思是,一个括号配一个反方向括号后,对方消失了自己还在。多“饶”了一次匹配机会。现在从坑的角度看,最不情愿的一个处理就是把形容词的使动用法处理成一可选的坑。如果坑可以强制出来就好了。

李:
多一次匹配机会,就是一个儿子可以有两个老子,类似一个是生父,一个养父。对外填坑是句法的显性 dependency,对内无偿就是逻辑语义的隐性 dependency,中外皆然。“小女孩”就是如此,“小女孩”做“卖火柴”的【逻辑主语】。而“卖火柴”其实是“小女孩”的【定语】:让自己的显性的儿子去做自己的隐性的逻辑老子。到了谓词指称化就不同了,对外填坑不变,爱啥啥。对内的逻辑关系则反过来,自己的显性的句法定语儿子(adjunct),被用来填充为自己的隐性的逻辑儿子(argument)。“这本书” 做 “出版” 的逻辑宾语。与英语平行。

this book‘s publication;girl selling matches
? the sell-matches girl

白:
这两件事,被我统一成一件事了。

李:
统一的好处是?

白:
词典化,没有规则,只有词典和原则,一条原则管两头。到原则层面,只需要解决什么条件下谁提供bonus。

李:
一边是 NP , 一边是 V 或 VP。如果是 NP 的 V,V有坑,尽管 V 指称化了。那么 NP 就去填坑(宾语,或主语),如果是 VP 的 N,那么 VP 有主语的坑,N正好填。

白:
根本不看POS,只有买单和卖单。一对多的订单、一对一的订单、可以提供bonus的一对一订单。

李:
POS 也没啥,不过就是填坑中几百上千个可能的约束条件的一个而已。我要 Human 来填坑,与我要名词来填坑,对系统不过就是条件的宽窄不同而已。这是从填坑的角度看 POS。对于设坑的一方,当然无所谓 POS,V 也好 N 也好 A 也好,他们有没有坑,有几个坑,都可以认为是词典化的 subcat 规定的。都直接量(词)驱动了,自然就不谈 POS 了,因为 literal 永远比任何抽象信息量更足。

据说当年一个叫 Small 的人首创专家词典(Expert Lexicon),里面全部是词例化的规则,没有任何抽象规则,可以想象这样的系统在一个狭窄的 domain 里面的可行性。譬如 在天气预报的 domain 里。词条 “下雨”里面规定 要到左边去找 “老天”,到右边去找 “很猛、很急”,等等。

白:
肯定不是这样的。

李:
在一个小词汇表中 是可行的的 而且准确 有点组合爆炸而已。这是没有任何抽象的本义。一旦有抽象,哪怕是词例化,也必须引入 features,而不是直接量之间的交易了。lexical-POS 就是最简单的一个 feature。

白:
原则不看POS,matcher要看。但原则不放水,matcher就没有bonus给。

“张三这两条建议是关于修宿舍的。”

这里面,“建议”有两个坑,“张三”填了一个,然后这个词的“母体”填给“是”了,剩下一个坑成了没娘的孩子。后面当“关于修宿舍的”作为一个整体与“修宿舍”剩下的没娘孩子(human)不匹配的时候,匹配点会迁移到前一个没娘孩子(info,建议的内容)进行匹配。

李:

白:
这不是说,建议的内容就一定是“关于修宿舍”,万一“是”换成了“不是”呢?只是说,这一萝卜一坑,存在着语义类型上的关联。至于肯定否定,那是由围绕着谓词的修饰语决定的。

李:
肯定否定是另一层次的东西,无需牵扯进来。说到底就是 “建议” 有 Subcat,里面有 human agent,和 “关于 content” 的 PP 的规定。human S 连上了,【关于】的坑暂时没连上,但也不难。

白:
建议谁修宿舍,文本中找不到,作罢

“他死去多年的战友就埋葬在这里。”

“他”要憋着不参加后面的VP,直到被定语从句修饰的中心语露面,填入中心语所带的坑,才算了结。什么样的“过程性”控制策略能给出这个选择?

宋:
他死去多年,儿女都已经长大的战友埋葬在这里。

白:
嗯,其实谓词部分是收束的,只有谓词部分对外需要消解。所以,需要栈,但栈不必很深。栈和RNN是不矛盾的。栈顶元素可以作为输入的一部分,对栈的操作可以作为本轮输出的一部分。

李:
查一下后条件不就解决了?在主谓规则中 ,一个 np 与 一个 vp 不着急结为 s,往后查一下条件再决定。

没问后条件,错了。可以加上:

白:
往前看一个,只能做等待与否的决策,不能做结合与否的决策。等待就意味着要记忆某种东西。

李:
等待与否与决策与否,这里不是一个简单的答案。因为涉及两个问题:一个是“他死” 的主谓问题,一个是“死”做定语(兼“战友”的逻辑谓语)的问题。如果不考虑二者相交,第一个问题当成一个独立的问题,当然可以决策,不过是问合适的条件包括后条件而已。这样“他死”本来的主谓错误可以避免,但还是需要有人(“埋葬”)接盘。从相交的角度看,关键是定从句型的处置安放在何处合适的问题,定从解决好了,顺带也就解决了“他死”要不要就近连主谓的问题。涉及的句型也不那么复杂:

NP+VP+de+N

就是一个四元组。把上述句型在做主谓之前 fine-tune 到正好涵盖【定从】,问题就解决了。宋老师的句子是难一些,难在那个 VP 复杂化了,VP 实际是两个 VP 用逗号并列了(其实应该用顿号的,可国人把逗号当万金油,没办法)。这倒也罢,第二个谓语本身也是一个主谓结构:“儿女都已经长大”。“儿女长大” 与 “身体健康” 类似,都是那种句型紧凑的典型的【主谓谓语】。这类主谓只能有限扩展,跟通常主谓的自由度无法比,也因此可以考虑先行解决,给个标签,作为整体,它有一个逻辑主语的坑(通常是其前的 Topic 去填):实质上是对付一层的中心递归(center recursion)。总之是有些难缠,但并非无迹可寻,要做也可以做,考验的是细活。等低枝果实都摘差不多了,再去磨这个细活好了,现在不必。

白:

他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。第一个“那些”如果去掉:

?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。

好像不通了。或者说链条断开了。所以凌空开凿的坑无法填装远距离的“友元”。

李:
看样子这个 “那些” 是个关键的小词,应该善加利用:

human+那些+[human action] + 的+human

麻烦的是 human action 的谓语的扩充性。如果这个句型足够的频繁(感觉上是的),那么一个策略是,对于那个【定从谓语】的界定可以放的很宽,一路扫描下去,直到发现 【的+human】,就把这个 【定从】 的性质卡住了。定语定性以后,再慢慢对付里面的monsters,这个策略可能管用。

他的那些blahblah的朋友们

管它 blah 有多长、多复杂。一个 token* 就卡住了。还有一个策略就是 patching,对上面的那颗“循规蹈矩”而出错了的树做修补:

S1[X那些] + Pred1 + Conj + Mod(Pred2)+S2+Pred3

要问五个链条才能修补全,也不知道能概括多少现象,值得费这么大力气,会不会弄巧成拙。道理上是可行,问了这五个链条了,然后

(1)离婚 S1 和 Pred1
(2)结合 S1 与 S2,让 S1 zuo S2 的定语
(3) 切断 Conj
(4) 用新的 Conj 链接 Pred1 和 Pred2

可以做个实验玩玩,看这条路可行不。
MY GOD 值不值得做先放在一边,可的确做成了!

这个太tm牛了。我都不得不崇拜自己了。

还是那句话,没有翻不了的案子,毛太祖钦定的文化大革命都彻底否定了。这样的翻案 patching 应该没有副作用,因为都是 word driven 和非常 restricted 的现象。

同一条规则略加微调(没有“那些”但原主语是 human),就把宋老师的难题一并解决了。休眠唤醒术好使,以后要多使,这比条件不成熟的时候霸王硬上弓轻松多了。

白:
不对呀……
怎么是“他”死去?应该是“战友”死去才对。另外,“战友”并没有“长大”,“长大”的是战友的“儿女”。

李:
鸡蛋里挑骨头啊。明明“儿女”是“长大” 的 S。长大的战友,不过是一个边界不合适的 XP 懒得在 patching 的时候再动手术去重新修理边界而已。

白:
就是说,定语从句的两个分句,第一个“死去”的坑被提取出来,由中心语“战友”反填;第二个“长大”的坑由“儿女”填充,同时“儿女”挖了一个新的human类的坑,由中心语“战友”反填。

李:
真要修理也不是不可以,但已经没有啥意义,因为逻辑语义上已经阻止了 “战友” 做 “长大” 的主语。对,“他” 不该是 “死去” 的 S,这个我去查查 code

白:
要简化也是“儿女长大的 战友”,而不是“长大的 战友”

李:
那是因为偷懒 共享了 “那些”的规则。得,我分开来一步步来。
目前的机制可以改关系,暂时不可改边界。有空了写个 specs 让工程师增加边界调整的功能。不该有的 S 没有删去,是个 bug,规则是对的。对数据结构做手术,要做干净、不拖泥带水、不留后遗症,还需要磨一阵子。不过苗头是好的。

白:

“目前尚未毕业、导师已经超过六十三岁且不是院士的博士研究生要来教务处登记。”

谁不是院士?导师,还是博士研究生?如何确定?两个conj并列,是一股势力;“导师”辖域延展,是另一股势力。

李:
不用 common sense 出场?

白:
后一股势力因为“导师”自带的坑得到“博士研究生”在右侧遥相呼应而得到加强。当然“博士研究生”自身也因距离更近参与“不是院士”的逻辑主语坑的争夺。定性分析这是打个平手。common sense之外似乎看不到一锤定音的结构性要素。或者换个说法,大数据里,“导师”和“院士”共现的频度,与“博士研究生”和“院士”共现的频度比起来,谁高?

一提common sense就有把问题搞复杂的嫌疑,提大数据则明显把问题简化了。

李:
不错。现在的问题是,应该怎么挖掘和表达大数据的这些隐含了常识的知识,使得需要用的时候,够得着。人手工费那么大劲精心构建的 ontology 和常识,目前用起来还是不能得心应手,挖掘的东西应该呈现怎样的形态才好用呢。

白:
词向量可直接反映共现。

李:
在两个词抢夺同一个词的时候,最简单的办法就是看他们的两两共现来决定力量对比。这个听起来简单,但这种三角争夺是 on-the-fly 的,共现数据可以预先计算并 index,三角计算必须是 at run time,感觉上有一个不小的 overhead

白:
现场直接变成算距离了,index出来是向量,向量的距离直接反映共现。而且是“应该的”共现而不是“现实的”共现,中间加上了互通有无。互通有无是数学模型帮我们做的。

李:
大数据出来的统计不都是“应该的”么?都只是一种趋向。增加一个砝码,不是铁定。(一定有违反大数据统计的反例在。)

白:
不是这个意思,是说很多数据是稀疏的

宋:

(1)应该做大数据挖掘,与专家的规则结合起来。白硕建议比较两对共现频次,我觉得比常识知识库靠谱。

(2)这种大数据中的知识挖掘应当是实时的。应该有某种大数据存放的中间形式,支持快速的实时统计。这种中间形式会比原始的线性字符串对于统计更高效,同时应当有一定的通用性。

白:
在降维中稠密化了,原来语料中直接没搭上钩的,经过降维处理也可以搭上钩了。

宋:
(3)恐怕会有一些问题不是单纯的词语共现所能解决的。

白:
算距离,复杂性主要跟维度有关。维度降下来了,不仅数据稠密了,而且计算开销也下来了。@宋 老师的(3)完全赞同。共现的数学模型,build和run的确是分离的。李:

李:
synonym 或 clustering 就是 降维 和 数据稠密化吧,但同时也抹平了。不知道目前有没有哪个系统真地在歧义判别时候用到大数据统计的。

白:
word embedding并不严格抹平,但可以拉近,而且如果只为了比较大小,距离算到平方和足矣,没必要再开方。

李:
对,根本不需要精确计算,只需要相对的结论,谁强谁弱,或打平。

康:【首届语言与智能高峰论坛会议邀请函】 …

白:
这种会怎么不请伟哥啊……

阮:
第一届会议重在推动,伟老师估计会泼凉水。

白:
我们大家还在混圈子,伟哥已经高处不胜寒了。

李:
一觉醒来 左眼发跳 原来是白老师。冷不丁开个涮 由头却是啥高峰会议。
认真滴说 休眠唤醒是正道 开始尝甜头了 。感觉以前syntax下力可能太大太苦 ,不如把负担更多转嫁给语义唤醒。

 

【相关】

【立委科普:结构歧义的休眠唤醒演义】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之23:“一切都在变,只有变本身不变”种种】

白:
“一切都在变,只有变本身永远不变。”
前后两个“变”动词特征明显,中间那个“变”怎么说?

我:
有了“本身”来构成chunk,那就是动名化的意思。
x 本身 –》 NP

白:
“这个学校就爱拿本身的那点光荣历史说事儿。”
好像这规则有副作用
在贴这个例子的时候,伟哥说的规则已经在脑子里转了N转,但还是感觉不那么简单。似乎一堆爹在抢儿子,儿子归谁跟爹们的场上表现有关。

我:
那就 fine-tune 呗:

“本身” 可以独立成 NP,“x+本身” 也可以成 NP,怎么区分呢?
tricky,不过磨细活总是可以磨。只说 x 是动词的情形:一种是限定 x 是什么样的 v;一种是限定x不能是怎样的 v。后者的话,第一个条件可以是 这个 v 不能是可以做 prep 的 v,于是“拿”踢出去了。当然这感觉还是 underkill。

白:
糊弄老板可以,如果自己是老板,不情愿这么干。

我:
还有一种就是拓宽 context:不过那个法子也 tricky 因为每拓宽一个 token,又增加很多可能性要 include or exclude,但所有的歧义区分如果需要看上下文条件手工调教,都是这么个事儿:precontext and/or post-context and/or include-or-exclude conditions on self, 手工系统让人抓狂就在这里。

白:
我是这么考虑的:作名词的“本身”一定有先行词,因此先行词的匹配特征一定会继承到“本身”上来。以“这个学校就爱拿本身的那点光荣历史说事儿。”为例,“学校”与“历史”的匹配特征,会被“本身”继承下来。于是,从“历史”反推,可以给先行词候选“学校”加分,而另一个先行词候选“拿”却得不到这样的加分。“爹们”的角力,就这样决定了“本身”的命运。

我:
这个有理。把 chunking 的边界问题 转化为 self 的 binding 的问题。不过上面的那套思路实现起来 也不是那么直接。听上去是一个 procedure, 而不是一个 pattern

白:
不需要procedure,确定一个标配的先行词,匹配特征差再唤醒非标配的。
比如,最近出现的名词作为标配的先行词。如果名词太远或者名词匹配特征得分太低,再启用左侧邻近词作为先行词。当然与“本身”呼应的也可能不是先行词而是后继词,比如“以本身的实力而论,张三是考不进清华的。”

我:
这个机制不是通常的 pattern matching 可以实现的 吧。通常 FSA 的 runner,运行的时候可以加一些 config。暂不考虑“本身”的 binding,句法捋顺倒也不难:

白:
后继词也可以设定标配。这就显出坑论的好处了。“本身”挖个坑,左侧名词优先填坑,左侧邻近词次优(如果不是名词还要给它变性)。由于是共指关系填坑,不耗费萝卜指标(还可以填其他坑)。
不做pattern matching
btw,昨天讨论的闭环填坑也不耗费萝卜指标。用填坑来取代pattern matching,规则按词典化的方式组织更方便。

我:
有意思。

白:
“那些质疑凯文·凯利的朋友,我真心怀疑是否认真读过他的书”

我:
他?
一共就俩 candidates,都联上算了,爱谁谁。到语义落地,大不了生成两个 insights,至少 recall 是保全了。

白:
(1)怀疑谁?(2)他是谁?(3)前一小句本可不作定语从句解,如何排除的?
这些问题是连带的,一环扣一环。

“三十里有几个五?-六个。”
即使数量结构这么铁,也有不该在一起的时候。
“三十里有多远?-不远,十来分钟就到。”
等判据出来,不知道要几个词。
“因强烈不认可挪威国家石油终止合同 中海油服提起民事诉讼”
谁不认可?
“因不满老师虐待儿童口出狂言张三愤然辍学。”
谁口出狂言?
理由?

我:
先 parse 看看:

最后一句掉链子情有可原,貌似人理解也有困难。原句似有语病,总之不对劲儿。

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白之22:兼语式的处置及其结构表达】

白:
hownet坑的供给比较充分,但是也很难说一定不会超出上限。(董老师可以试试“这场火多亏消防队来得及时”)

有很多其他类型,比如,“穿着拖鞋就走出来了”。不知道该贴啥标签。还有“撸起袖子加油干”。这两个例子中,在时间上,伴随行为本身在前,伴随行为的遗留状态持续时段包含核心行为持续时段。比如,撸袖子的动作在前,然后遗留状态持续,然后加油干持续,然后加油干结束(或有),然后放下袖子(或有)。

李:
with sentiment:

at least for semantic landing to sentiment, the parse gives decent support。

宋:
O和ObjV是什么关系?

李:
宾语和宾语补足语

白:
比如:知道你来了。你是O,来了是objV

李:
not really

宋:
@wei 你的论元关系分析,相当炉火纯青了。

李:
宋老师果酱。

白:
这俩的区别?“消防队来得及时”为啥不可以是objClause?

李:
“多亏” 直接 link “消防队”,“知道” 不直接 link “你”,only linking to the event

白:
我是问,是否直接link,准则是什么?有什么必要区分这两者?

李:
语言学家的多数有共识。词典subcats 印象也是区分的,落地时候也发现有益。

白:
但很多研究汉语语法的人并不认为汉语有“宾语补足语”的。准则是什么呢?一词一议?
sentiment传递?
“我讨厌他总出差”
这里的“总出差”成了objV,“他”是O。“讨厌”的负面属性可以传递给O,是吗?如果这样,O必须是objV的逻辑S,否则,“我讨厌花摆在阳台上(,掉下来砸到人怎么办?)”
里面的“花”就要受牵连了。

李:
对。

我讨厌ipod
我讨厌iPod老死机
我讨厌花儿
我讨厌花儿老养不活

这事儿真细究的话,属于 subcats 同形打架:带 clause 的句型与带宾补的句型。

白:
“我喜欢厕所门朝北开”
问题是要给宾补一个存在的理由。理由不存在,打架就不存在了。

李:
几乎所有的汉语文法(英语文法亦大同小异)都区别下面三种句型:(1)动宾式;(2)兼语式;(3)宾语从句式。动+宾+宾补的 representation 反映的是兼语式句型。兼语是一种简省的说法,不是一个单纯的(atomic)的关系成分标签。兼语说的是既当V1的宾语又当V2的主语。表面上看,只要我们连上了 O,也连上了 S,所谓的宾补V2 也就间接连上了 V1,因此 把 V2 直接联系上 V1 作为宾补似乎没有必要。问题是,那样的 representation 不能表达 V2 在结构configuration上是低于 V1 的。事实上,这是一个典型的 right branching recursion,V2 是一个 VP(V-bar according to X-bar theory),V1 只是一个 lexical V (V no bar),V2 代表的 VP 整体都是包含在 V1 所辖的边界内。帮助 V1 构成一个更大的 VP。V2 的 VP 也可以是一个兼语式 (递归)。

白:
对。兼语句前后句的坑共享没有疑问。有疑问的是后句不必是前句的objV。在能清晰表达坑共享的前提下,V2有必要成为V1的直接成分吗?如果是,那就做小句宾。如果不是,就是松散的两个谓词做兼语式。为什么要弄出个第三条道路?

李:
小句宾 与 兼语式 有相同的地方,有不同的地方,也有灰色地带。

白:
我知道你来。我喜欢你来。
这是一样的结构。

李:
不能拿灰色说事儿。“得悉”,只能带小句,不能带兼语,这是黑白分明的 case。

得悉你来
* 得悉你

灰色地带最突出的案例在英语的 minimal pair:

I demand him to leave immediately.
I demand that he leave immediately.

白:
这是生成时才用得到的区别,分析时可忽略。

李:
英语句法上泾渭分明的两个句型,在逻辑语义深层其实是大同小异的,很灰色。

白:
汉语里没必要弄出第三条道路

李:
不一定只有生成才需要区分。语义落地也可能得益。如果没有宾补的直接联系,我问 O,就不能区分单纯的 O 和带宾补的 O,如果所有的兼语都变成 宾语小句。

白:
我派你去,就是“我派你”“你去”不需要让“去”从属于“派”。
或者说,“派”不需要给“去”预留一个坑。

李:
那就切断了动词 V1 与兼语的直接联系。必须通过 V2 才能间接联系到兼语。

白:
错,萝卜共享就是联系

李:
有时候我们不在乎是 宾语 还是 兼语,我们就没办法用同一个子树句型做抽取。譬如,“多亏”:

多亏老李。
多亏老李送我回来。

这两句要找感谢的对象,就无需区分 宾语和兼语。

白:
这没什么不好。多亏我处理成副词。“多亏了”也是一个副词

李:
如果第一句是 VO 第二句是 V+Clause,就必须用两个句型才能捕捉。

白:
多亏老李,是副词升格为动词。

李:
关键是,有时候我们需要区分宾语和兼语,有时候我们不要区分,为了同时照顾这两种需要,把兼语处理成子句是不妥的。

白:
可以不从句法上区分,而从词典来区分。

李:
退一万步,多一个宾补的直接联系,只有好处,没有坏处。

白:
我的处理是要么包进来要么切断。多了歧义打架需要处理,而这本来可以是伪歧义。

李:
是真歧义,那就该处理。是伪歧义,也可以硬走一线,系统内是可以保持一致性的。你这里所谓伪歧义的情形实际是灰色地带,或两可地带,系统内部可以规定走哪一线,内部协调即可。伪歧义的真正困扰是系统无法区分,随机走路径。如果有办法确定性地走一条路径,理论上的伪歧义在实践中就化解了。传统 parser 的伪歧义困扰是,伪歧义与真歧义混淆在一起,使得真歧义无法 stand out (being  identified)。这里的情形不是。

白:
中间没有N的,也有助动词和补语两种可能性。助动词带的谓宾真包进来,补语我处理成共享萝卜的对等合并,与所谓核心动词并无隶属关系。只不过形式上把根让渡给前面核心动词而已。
看看前面的例子,“我喜欢厕所朝北开门”,什么特征决定了“厕所朝北开门”是小句宾?

李:
不好说。
假如有一家厕所公司专门建厕所,就好像苹果公司造 iPhone 一样,“喜欢厕所朝北开门” 与 “喜欢iPhone照相清晰” 有什么根本区别?再如,“喜欢厕所清洁卫生”。

与其花力气区分灰色地带的兼语 from 子句,不如一条路走到黑,对灰色的那些词规定一条路径。到落地的时候,如果需要,再进一步 fine-tune 来决定。如果是 sentiment 落地,就可以这样来 fine-tune:“喜欢”的兼语必须是产品或其他实体专名,才可以让其得到 positive sentiment,这是从严的 fine tuning。从宽的 fine-tuning 可以要求兼语不能是带有贬义色彩的名词,assuming “厕所”是这种类别。但是这种 fine-tuning 的拿捏,只对做“兼语”的名词需要,如果“喜欢”所带的不是兼语,而是纯粹的名词宾语,那么不管宾语是王八蛋还是杀人犯,喜欢的 positive sentiment 还是落在宾语身上。

当年的德国,很多人喜欢甚至崇拜希特勒。” 对于希特勒,这是 positive sentiment。但是,cf:

我喜欢希特勒被处以绞刑,而不是自杀身亡,逃避人民的审判。

这句中的“喜欢”,对于 希特勒 就不是 positive sentiment,因为 parser 把希特勒parse成有宾补的O(即兼语),而不是纯粹的 O

白:
喜欢厕所朝北开门 与 喜欢iPhone照相清晰 有什么根本区别?—这话也是我想说的,但我认为它们都是小句宾句式,与兼语无关。

李:
我要说的是,对于这样的 cases,要不一律处理成兼语。要不一律处理成小句宾语,只要 consistent 即可。

白:
希特勒那句,也是小句宾,没兼语什么事儿
什么情况下sentiment可以穿透到下面一层的成分,不是由句法决定,而是由另外因素决定。

李:
“我喜欢少年希特勒努力发奋。” 这句呢,也是小句?

白:

李:
我要说的是,对于有灰色地带的那些词和句型,可以人为规定一条路径。
区分:“我喜欢少年希特勒努力发奋” “我喜欢老年希特勒被处绞刑”,一个是对“希特勒”是褒义,一个不是。

白:
褒义针对整体,是否传导到部分,it depends, 针对整体都是褒义。

李:
说的是部分。我喜欢【human】和 我喜欢【human】VP,对于这个 human,默认是褒义的。

白:
要区分的只是能传导到部分的褒义和不能传导到部分的褒义。我喜欢【human】vp 是天经地义的,喜不喜欢其中的【human】,不由句法决定。
在我这里不默认。而且默认sentiment设定,和搞出一个句法类别,也是两回事。

李:
默认有很多便利。偷懒的时候,默认在统计上对数据质量有好处。默认这东西,不用白不用,尤其是从工程和实用上考量。我目前的 “喜欢” 的 sentiment 规则,不论中文英文,都是走默认的道路:管它后面的 NP 带不带 VP,只要 NP 是 entity,就默认是 positive 落地了。这个 practice 在实践中有莫大的好处。 “喜欢希特勒 VP” 这样的可能的例外极其罕见,以致于根本不必在默认之外再费力气去区分。而 “喜欢厕所VP”不算例外,无害:depending on 厕所是否看成是 entity,或者被排除在语义落地的雷达之外;或者落地了,也是正确的。

白:
充其量是个heuristic

我喜欢张老师讲古代史,不喜欢张老师讲现代史

李:
这个不是反例,前半句是 褒,后半句是 贬,都落地到 张老师身上。

白:
加分减分都没问题。问题是逻辑推论有没有。喜欢张老师和不喜欢张老师如果都是逻辑推论就有问题。讲逻辑的人是分得很清楚的,喜欢,对事不对人。sentiment也是很清楚的,一个给张老师加分,一个给张老师减分。但是确实没有“喜欢张老师”和“不喜欢张老师”这两个逻辑推论。

李:
回到原来的 arguments,如果 (1)我喜欢张老师;与 (2)我喜欢张老师讲古代史,是两个不同的 parses,sentiment 落地的时候,就必须有两个规则来对付这两个不同的结构

白:
这个很难吗?我不觉得。爱屋及乌,爱小句及小句逻辑主。一句话的事情.

李:
天下无难事。
但是,对于如此基本而普遍的 sentiment 的表达(love类 和 hate 类),本来可以直接搞定,非要绕一个弯儿再搞定。本来一组规则,非要增加一倍的工作量去写规则,去维护,这是很不合算的。

即便不谈 sentiment 这个具体的落地应用,抽象来说策略,这个争论的本质就是:两个句型有相同的部分,有不同的部分,如何处理?其实没有普世标准,就是系统内的一致性和方便性,系统内协调。

白:
不是这样的,就是一个sentiment penetration属性赋值yes还是no的问题,直接写在相关动词的词典里。其他都不受影响。标配赋值no,需要设yes的明示。

李:
我喜欢他。
我喜欢他老实。
我喜欢他做好事。

换一个角度看,第一句和第二、三句在“我喜欢他”这个部分是一样的。后面的 AP 和 VP 也可以看成是喜欢的某个部分或方面(aspect)(或理由),这个角度是先对人后对事儿。与你的“喜欢”应该对事不对人,或由事及人,具有等效的逻辑性。即便我说“我喜欢X”,常识告诉我们,世界上没有完美的X。“喜欢X” 后面隐藏着后面的 likable aspects,X 与 aspects 是整体与部分的关系。

白:
我喜欢他,我喜欢他老实,我喜欢他的老实。VS
我喜欢这本书,我喜欢这本书出版,我喜欢这本书的出版。

也就我们这种领域,讨论一个语言学概念的立和废,也要扯上系统甚至应用。

李:
是从部分的角度来推及整体,还是从整体的角度推及部分,不过是角度不同。

白:
如果一个arg,是这样。角度不同。两个坑就未必了。

李:
就好比半瓶水,一个角度看到了半瓶水,另一个角度看到了半瓶空气,都是有效的逻辑。

白:
我喜欢这本书出版,和我喜欢这本书,不是延展后者的关系。我们还可以说,我喜欢这本书春节后再出版。喜欢的重点既不在书也不在出版,而是在出版的时间。可以既不喜欢书,也不喜欢出版,只是对那个出版时间情有独钟。一个坏人干了件好事,我们总可以喜欢那件好事吧。不需要扯上喜欢坏人。

一个出版商可能对某本书恶心到吐,但是那本书的出版可以帮他赚大钱。他喜欢“那本书出版”但不喜欢“那本书”也是情理之中的。heuristic可以进入系统,但进入语言学是否合适要画个问号。进入系统也有“诛心”之嫌。喜欢坏人干的某件好事,被当成支持坏人的证据,这样的系统大家都要当心了。

李:
喜欢坏人干的某件好事,被当成支持坏人的证据,在情感分析上没有错。在大数据分析的时候,点点滴滴皆证据。坏人干了好事儿,只要被提到,就给这个坏人加了一分(褒)。这一点儿也不影响对于这个坏人的舆情分析全貌。恰恰相反,这才是真实的舆情。如果坏人干了好事儿被提及 m 次,坏人干了坏事儿提到了 n 次,纯粹厌恶坏人的情绪表达提到了 o 次,纯粹喜欢坏人的情绪表达提到了 p 次(p 通常接近零),那么这个坏人的褒贬指数,就是 (m+p) 与 (n+o)的比例。请放心,p 基本是 0,而 m 也会远远小于 n,这个大众舆情不仅靠谱,而且真实,bias free。

宋:
我喜欢希特勒自杀。

李:
宋老师的这个例子前面已经论及。回顾一下就是:情感分析中,“喜欢”的默认规则的确可能把它算成是对“希特勒”的正面评价。因为这个默认规则是把宾语和兼语同等看待,不去问后面的宾补 VP。理论上,这个结构根本就不是【宾语+宾补】的结构,而是【宾语子句】的结构,但是由于区分二者对于“喜欢”这样的词,有一定的难度,所以我们可以在 parsing 阶段一律当成兼语结构处理和表达。这样一来,默认的sentiment规则就会犯错。

犯错怎么办?如果这种案例极其罕见,不值得做,那就算了,因为默认的sentiment规则在绝大多数的场合是保证了数据质量的。如果觉得还是值得做,那就在默认sentiment规则之上再做一条规则去 override 默认。这条规则不需要改变 parser,而是利用 parsing 在这类结构上的 consistency(错也错得可以预测) ,将错就错,矫枉过正,把这个错纠正过来。换句话说,这个策略等于是休眠唤醒,不过这个休眠唤醒不是在 parsing 的后期进行,而是在 sentiment 语义落地的时候进行,其效果等价于把【兼语式】重新分析为【宾语小句】,切断“喜欢”与“希特勒”的语义直接联系。

不知道我说清了没有。可能有人会问:既然在语义落地时候要做类似休眠唤醒的工作,为什么不索性在parsing里面(parsing的后期,语义模块)里面做休眠唤醒呢?理论上,提前做休眠唤醒,使得parsing更精准,可以benefit不仅仅这个 sentiment 的语义落地,还可以 benefit 其他的语义落地和应用的场合。但是,实践中在哪个阶段做合算,不是那么简单。因为休眠唤醒这些事儿大多是长尾现象,鸡零狗碎,做不胜做。在还不能确认到底有多少好处前,往往顾不过来在 parsing 中统一处理好。而且很多时候,做了也白做,你需要用到那个落地或那批落地也许根本就用不到。

Anyway,point is,落地的时候是可以包容 parsing 的错误和不足做包容性产品开发(adaptive dev),只要 parsing 是可预测的数据结构,是有内部直通车的,而不是 offshelf  拿来的 parser,缺乏足够的内部支持和协调。Having said that,如果确实事先可以 identify 一些带有普遍性的休眠唤醒现象,以及可以惠及很多可能的语义落地应用,而且也有足够的时间和资源去做这些细线条的深度语义工作,那么不要等到落地就在提前在 deep parser 的语义模块里面做好,当然是更理想的情况。

白:
对坏人的褒贬判断,对事不对人自然左右不了大局,没什么可担心的。问题是拿对事不对人的表述做以坏人为参照的站队分析,这就很可怕了。

李:
可怕啥?或者就是大海里的一颗老鼠屎,丝毫没有影响。或者就是,用休眠唤醒杜绝它(它=“拿对事不对人的表述做以坏人为参照的站队分析”)。休眠唤醒之所以可以进行,是因为 parser,已经准备好了结构基础:要啥有啥,哪怕这个 parse 是不完善的。要 O 有 O,要 宾补 有 ObjV,要逻辑 S 有对于 V2 的逻辑 S,四通八达的路径都在。driving word “喜欢”也在,可以词驱动。所有的结构的节点词的信息,包括 ontology 都在,包括 “希特勒” 是个独裁者、通常是坏人这样的信息也都在。有了直通车,啥事儿做不成?什么案子不能翻?什么深度休眠不能唤醒?什么具有统计性的“可怕”的后果不可以杜绝?

白:
分析成小句宾,诛心或误伤的责任就不在分析器的开发者。而在后道工序。否则人家会说,都是你分析的我喜欢希特勒,我哪儿喜欢了?一颗老鼠屎,也那个。对于小句宾来说,没分析出我喜欢希特勒,这大不一样。但是小句宾结构与“喜欢”结合,大概率被穿透,这句话可以说,之后也是要啥有啥。谁用了谁负责,但分析器的开发者也没说错话。

李:
话说到这份上了,其实也没有多少进一步需要辩护各自做法的 arguments 了。选择这个兼语的表达,肯定不是因为明明知道处理成宾语小句更好,而不为之。一定是自有苦衷和盘算。

白:
我若干年前也用过这样的表达。最典型就是“我是县长派来的”,把其中的“来”也作为“派”的一个arg。后来发现,其实去掉它没什么损失。因为“派”和“来”共享了一个萝卜,所有联系都在里面了。

李:
隐约的感觉是,去掉它在逻辑语义深层没有损失,可能的损失是句法表层的痕迹(语法学界叫做 configuration info,就是 X-bar 理论里面的 bar 的信息)。

白:
这是有很多其他途径可以记录的

李:
留住它就是留下了这种 bar 的痕迹,就好比我们利用小词解构了实词之间的句法语义关系以后,我们并不把小词当敲门砖丢弃,而是用 X 挂上一样。虽然 理论上,这些小词对于深层语义已经没有意义。另一个例子是主动被动,到了逻辑语义的核心,这个 voice 的不同色彩,没有地位,可是语言分析中,留下表层的 voice 信息,还是可能对语义落地和应用有好处的。

 

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录