《每周两歌:中外女声魅力嗓音,Allison与于文华》

首先,刚过去的周末,祝各位母亲节快乐!

母亲节请欣赏【于文华:想起老妈妈】。背景是上次探亲,正值江南油菜花的季节。我插队的村子的邻村 原来鬼不生蛋的深山老坳 如今是【美丽乡村】的典型了。

关于于文华,以前推荐过:“于文华绣花嗓子,甜美细腻。郁钧剑怎么配她?(别说,还就那嘎声嘎气的尹相杰配于的细嗓子,还有点特别的风味。)郁钧剑没唱过什么给人留下印象的歌曲,这一次照他的功底,老实说算是不错了,也难为他了。无奈于文华的演唱登峰造极,相比之下郁钧剑太平淡了。我们通常只听第一段于的演唱,一到郁钧剑就回头或跳过去。”

Allison is my all time favorite, with her unique voice.  The footage I shot is from a Costco tv demo plus the footage from the Apple Store in the new headquarters

【相关】

音乐欣赏随笔:Brad Paisley & Allison Krauss:威士忌安魂曲

立委随笔:网事如烟

《每周一歌:水姑娘》

风情万种的《水姑娘》,让人骨头松软的民族风

好像是水族的民歌。《水姑娘》周末放送 祝各位复活节快乐!

花红柳绿 风情如此。此乐只有地方有 绕梁三日不绝缕。不知道歌手是哪一位少数民族夜莺 “嗲”得如此上档次。

10年前从湾区草根舞蹈团的Mary老师处听得此曲 惊为仙乐 藏之深山。

画面应该是水乡写意之类。但要与亲友分享三个猫咪的近况,懒得单制作视频了,分享音乐和pets合二为一了。

三只猫只有一位 lady,katara 具有水姑娘的气韵 (也兼具铁姑娘的风餐露宿、攀缘跌打本领)。两位君子 牛顿忠厚 Xander 懵懂。片头片尾是苹果新总部的 Apple Store,这视屏就是在手机上用他家 iMovie 制作的,非常便利。

《李白113:白老师秘密武器二瞥(2/2)》

立委按:两载设计,三载实现,白老师的自然语言秘密武器日前曝光。十载孕育,如水流年。挑开面纱,犹抱琵琶,先者为快,一睹芳颜。

李:其实语言理解过程中究竟用到哪些知识,并不难确定。难的是 这些知识如何加分减分打群架。

白:人理解时也不过是在打群架,没高明到哪儿去。

李:如果不给设计师束缚,所有的知识都特征化,不限定范围和多少。然后假定神经可以搞定这些特征,那么 符号逻辑 实际上只剩下符号特征化的工作。逻辑由神经管了,果如此 自然语言理解离开终结就不远了。

白:不对。逻辑有两部分,一部分是有限的可选择的操作或变换,另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励,而所选择的操作的轨迹,是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略,这三者,我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结,更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李:设想对话场景:

A: 他要求我出示身份证
B:你出示了吗
A:出示了,结果没通过。
B:为什么?
A:因为他是检疫官,要求我出示我宠物的身份证。我以为他是警察,要求出示我本人的身份证呢。
B:这才叫场景的阴错阳差!你过的哪道关都没搞明白。

再如:“监护人向我出示了身份证,是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来,这就带来两个问题:

第一是,因为是常识、常理,而不是语言明确指明的信息,这些 hidden links 即便挖掘出来,也仍然是不重要的枝节边缘信息,更谈不上情报价值,因为一般人根据已知信息都可以推算出来。

第二是,因为是常识、常理,因此肯定有例外。例外常源于场景和背景的不同。如前面的对话场景的思维实验。

白:打群架好了,神经最擅长。

李:既不十分可靠 也没有新意 也许意味着常识介入理解应该有个限度。如果常识的带入,是帮助确定了情报,那就物有所值。如果常识的带入,不过是反过来为常识增加一个案例,信息还是常识,那就没啥意义。

白:

1,情报又不是落地的唯一领域。

2,即使情报,三个link有情报价值,一个link是这三个link的常识推论,那这推论人做还是机器做大不一样。你先抓到那三个links,人聚焦了看,然后人得出推论,黄花菜都凉了。机器直接得到四个links,能一样吗?

3,推论重要还是那三个重要,这得情报人员自己说,NLP不应该越俎代庖。常识是带变量的f(),只要里面的x是新的,f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的,张三职务属性值就应该变化为新的。就算常识是旧的,有常识和新事实共同参与的推论也是新的。另外,疑似知识、打过折扣的知识并非就没有意义,只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李:有一定道理。

@白硕 他要求我出示身份证 / 他向我出示身份证。“出示” 一般认为是 3-arg:sb “出示” sth to sb: SVOC,现在看来 这个补足语萝卜 C(嫡系) 是被当成附加语(庶出)了。这不是主要问题,问题在 hidden links 因此也漏掉了。“他要求我出示身份证” 中,“我” 连上了 “身份证”,但是 “出示” 没有连上 “他”。逻辑语义上 向谁 出示呢?是向他的。

白:改成双宾了。这情形更可预期。

李:”他 为/替 我出示身份证”,“为” 与 “向” 的区别在句法如何利用?小词不同,句法有表示吗?还是指望接盘的 一个一个小词重新 check 来做区分?

白:小词会携带算子,把动态特征贴到自己修饰的成分上。目前只能说这么多。比如,一个“的”,无所谓跟谁相谐。但是“张三吃的”就必须明确自己的subcat。

李:fair 就是说 显示出来的 what 只是个架子,不是输出的全部。这其实是自然的。如果不在 link 上细化,那就在特征上细化。反正信息需要下传。

双宾句如何处理的呢?譬如:

他送了我一本书。
他把一本书送了我。
他送了一本书给我。
他给我送了一本书。
那本书他送我了。
那本书他送了我
他送一本书给了我。

白:

双宾句式,双宾句式加明示间接宾语的介词短语的互通,我们已经做得很透彻了。

李:两个 Lma 一个 Rma,等于是三个 args 句法都不做鉴别。下面接盘的,依靠什么来区分,去做 123 与 abc 配对。

白:这个自有办法。分母上的数字只是显示

李:怕下面接盘的 还要回头做部分句法

白:不需要,句法信息都带进去了。

李:句法上 Topic 与 synS 不区分,但是偏移量有区分,也算等价了。怎么知道 “我” 不是 O,“书” 才是 O 呢?

白:书有subcat信息,还有Default位置信息。如果O的subcat跟S兼容而且相对Default有变,比如O提前做了话题,那就取决于右填坑的间接宾语的事理因素了。

这个丫鬟我送你了。

这位夫人我送那个丫鬟

取决于夫人和丫鬟在事理中的地位。这个绝不是句法单独可以做的。加上subcat也不行,所以目前我们做不了。只当default位置是O,啥时候事理做了进来,就有希望了。

李:句法为谓词选了萝卜候选人,萝卜进坑的事儿归后面的语义模块,所以 后面的任务仍然蛮繁难。因为萝卜进坑 仍然需要综合平衡,语序、小词和语义相谐,综合平衡才能基本搞定。更难的要借助事理。

白:哪个对哪个,特别是subcat也区分不了的时候,目前没有足够的资源。NLP的魅力就在这里。好在方向基本是看清楚了的,见效取决于投入。要想糊弄人,做个玩具事理图谱也能蒙一阵子。不过我们不会这么做。事理图谱一定要结合应用场景做。不见兔子不撒鹰。

李:”吃在买后“ 这样的事理,HowNet 没有:HowNet 主攻本体常识,一般不带入动态场景的形式化。真正规模做过“场景常识”的只有 cyc,“开枪” 在 “伤残” 之前 之类。但以前的教训依然存在,其数目实在太大了。

白:吃、买太具体了,模式是“消费在取得后”,消费是吃的上位,取得是买的上位。如果仅看到具体事件对具体事件的因果联系和承接联系,那还不累死。要把事件的Taxonomy像实体一样组织起来。赋予抽象度适中的标签。事件的诸多要素,都要纳入这个体系,参与者、时空特性(时-体)、事件类型的包含与继承、关联类型的包含与继承,触发条件、副作用……不一而足。这是目前聚焦事理图谱领域的各个利益相关方都极为关注的。

李:“我洗脸”,英语总是说:我洗我的脸(I wash my face)。中文解析,根据常识,可以推算出“我的脸”。感觉上 人的理解中 标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义 这个“脸”属于“我”都很难成为情报焦点。

一般而言,感觉上 possessive 的 hidden links 情报性最差,在有冠词的语言,possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体(语言学里面叫 anaphor) 理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”, 虽然有个主儿但这不重要。

白:不同源头会带上不同约束,使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”,这李四要是有什么来头,情报价值还真挺大。张三是个代笔的小人物,张三的自传不重要。所以谁的自传,不简单。

李:从性质上看 寻找这类所有者属于篇章的 coreference 范畴,而 coreference 的工作,句法有一定影响 (binding theory 说的就是句法对于 coreference)。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把 一个实体对于其所有者的预示 与一个谓词对于一个 arg 的期望 等量齐观,有点高抬了前者。

白:优先级不一样。

对范畴语法做了重大简化,跟依存很接近但比他更丰富。分析结果可以不是树而是图,图还可以成环。图更科学,更反映语言实际。

带加号的句法标签,可以看成是“只约分不输出”的范畴。每次完成约分,就废掉自身,以保持中心语的正统地位。

李:就是 adjunct/mod,庶出,跟私生子也差不多,投奔过来又不能不认,但上不了台面。

我的理解,DG 与 CG 性质不同,DG 是 一种结果表示法 刻画的是output what,CG 却带有 how 的味道 表示和刻画 input tokens,可以据此演算 作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 CG 驱动以后,在遇到叉口的时候 求助于其他知识的引入,主要是语义相谐的调用。根据一个优先原则和有限级计算的机制 做路径判断 然后完成 parsing。如果不怕伪歧义 也可以只依据 CG 词典与优先级原则 而不引入其他知识。

这条路线的搜索空间 (universe)是句子长度 n 的这样的一个函数:可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向(父父子子),所以“原子化”后就是6种实关系,即,是二元排列不是组合。第7种是:无关系。无关系也算关系,就一网打尽了。任意两词只允许发生7种关系之一,不能多也不能少。在 n 不大的时候,搜索空间爆炸得不算厉害。

白:ordered pairs,A跟B和B跟A可以有不同的关系标签。

李:对,有这个二元循环的可能,忘了这茬了。不过那很罕见,对于搜索空间影响不大。能想到的只有 定语从句谓词与中心词有二元循环关系,一个 mod 一个 arg 方向相反。

李:By the way,你用 subcat 正好与(很大一部分的)语言学内部用的术语相反,句法学家说 subcat (子范畴)只是针对 句型,主要是给 谓词 根据不同句型的预测 分为不同的 subcat,而一个词的本体的细分 就是 subclass(子类),所以 vt,vi 属于 subcat,到了 HPSG 等理论,这个 subcat 就真展开成句型了:

give:: SUBCAT <NP left:S>, <NP right:O>, <PP(to):C>]
give:: SUBCAT <NP left:S>, <NP right1:C>, <NP right2:O>]

第一条 SUBCAT 句型是 sb give sth to sb;第二条是 sb give sb sth

白:不管了,反正就是负载逻辑语义结构信息的标签,来自词典。标签之间的关系在本体里定义。

也不能说是“特征”,因为特征给人的印象是扁平化、向量化,缺少结构。但也绝不是曾经流行的“复杂特征”。

李:扁平化 原子化 有好处的,以前你也是赞成的。复杂特征在符号逻辑上漂亮,但不好伺候,难以承受逻辑之重:实用系统不能过分与逻辑较真(这个体会很深,以后有机会展开再论)。

白:我们只有一层除号,分子,分母。分子和分母里边都不再有除号,我称之为“单子化”。就一个成分而言,萝卜和坑都不必再有相对性。它们都是“单子”(singleton)。

李:那是因为你们的出身是 CG,算法里面就对分子分母的表示有要求,作为区分输入输出的手段。

白:把CG改造到这么实用的程度,我们应该在世界上挂个号了。

李:不知道这个 CG 还有没有个 community 和相应的 events,还是拉丁文一样被搁置了。HPSG LFG 那些人还在,有自己的圈子 不过是越来越游离于主流(两不靠:语言学主流和计算语言学主流都不是)之外了。

白:CG可能就剩下CCG还活跃。CCG的本质是带坑填坑,于是就会产生我们所说的残坑。残坑在计算上的处理非常复杂,单子化对残坑处理带来莫大好处。但是从数学观点看,引入“修饰”,就是N+、S+这种,打破了“一个运算符吃遍天下”的理论美感,理论框架变得有些dirty了。等有空了,我会梳理一下“修饰”从数学上看是个什么鬼鬼。修饰之于单纯的相除,就好像X-bar之于CFG。象牙塔里的人可能不屑为之,我们编外游侠接手没什么顾忌。

【相关】

白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术

文章来源:https://read01.com/AJGzNQN.html

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白111:范畴细化与语义相谐的知识爆炸》

白:“张三不满意李四没有表扬自己”“张三不满意李四没有批评自己”

这个是情感倾向性决定“自己”共指关系的例子。虽然,default建立得很脆弱。外面有个风吹草动就可能洗牌。比如张三和李四绑死了是一伙儿的 等等语境引入的预设。

“把鸡咬死的虫子扔了” “把鸡咬死的狐狸跑了”

李:好例。

微瑕是,鸡吃虫 论咬吗?虫无骨 没咬劲儿。

白:“中国北京是首都”当中的“中国”是啥成分?“这支队伍我是当家的”当中“这支队伍”是啥成分?

“这个人我感觉很蛮横”“这个人我感觉很舒服”

插入语一旦确立,应该封闭与外部建立hidden links的通道。什么“你知道、我认为、他觉得……”当中的你我他,都不要再花心了,安守本份即可。

李:

"有点乱,有点乱......"

想起周华健的“今天我有点烦 有点烦”。“当家”与“队伍”挂上是对的,可貌似关系颠倒了,这 S2/mCL 肯定是个?,需要 “de- de-” 的。

白:队伍和当家摘开,并不明智。

李:debug 过火了耶。句法负面影响了语义。应该弱化句法。

昨天/前天 说了,这 Topic 如果是人名, 默认就是“呼语”,如果不是人,那就是状语,什么状语?很可能表示 scope(范围)。

把“的字结构”也做过火了,结果 “的” 成了 S2(hidden subject), 反而 “我”没有直接做“当家”的主语,虽然道理上可以通过与 “的” 的 coreference 推导出来。

白:王冕死了父亲,王冕也是状语?

李:不是。王冕是句法主语(synS),不是 Topic 降格。

白:“人” 给 “队伍” 当家,这坑都在。“的”不占名额,回指到定语从句里没事的。 空出一个坑留给“队伍”。

李:那个坑感觉不强烈?“当家” 需要一个 范围。可啥东西不要范围?就跟时间 地点似的,啥事儿都发生在时空及其范围之中。

“当家” 词法上是动宾 感觉饱和了,其实不然 它词义是 manage,与其说范围,不如说需要 manage 一个对象。但是词法饱和(“家”已经做了“当”的词法宾语)的残留影响还在,所以这个句法宾语的坑只好退化为范围状语,逻辑语义上其实是【对象】的。

白:不一样。在真正一个家庭里当家,范围是默认的。在一个“拟家庭化”的组织里当家(掌权),这个组织就是需要凸显的范围。这是隐喻固化导致的,跟一般动词的范围不可同日而语。从非标配坑提升到了标配坑,于是就获得了参与句法构建的资格。

李:成葫芦了:

白:这就靠谱了。还可以画成公鸡?

李:传统 parsing 怎么可能做到这个深度?PennTree 的标注太浅,PSG 的本性也无力表达到这种深度。

群里面专门修过乔姆斯基语言学课程的朋友说说,对于这种语义谓词隐藏较深的,乔姆斯基句法是怎么最终达到他的 logical form 的?还是根本就不管,当不存在?逻辑形式的核心类似一个SVO: <我 - 当家 - 队伍>。

“这支队伍我当家”。

白:这样就可以啊:

李:N[+1] 变成 N[-1] 啊,狸猫换太子的感觉。+1 是左,-1 是右,这个指针运算还蛮溜的。

白:这是把“是”当S+使,把“的”当+S使。偏移量。残坑出自“当家”。辖域合并不交叉,指针还原就交叉了。

李:传统语言学里面的 subcat 没有这么丰富细致,CG 细化过来的,主要是词典功夫。乔老爷好像在 subcat 上没强调细化。

subcat 的范畴细化 还不够,因为范畴细化 不加上语义相谐的支持 仍然导致伪歧义泛滥。在专家词典学派看来,范畴细化+语义相谐 成为一体了,那就要求词典成为知识库,等于是把语言学词典转变为 HowNet 了。HPSG 其实就是在专家词典学派这条道上,想走 没完全走通 就式微了。

白老师是分开了范畴细化与语义相谐。可是展示的 parsing 全部是范畴细化,相谐的工作机理语焉不详。所以 看白老师的 parse 图,结论是,就这些子范畴,运算起来,这路是 “应该” 通的。其他不应该通,但实际上也通了(伪歧义等),就不在雷达上。

白:这是what,不是how。what我希望更多的人理解和支持。how的商业属性就太强了。当然,这是结果,过程中不仅使用了这些。

李:就是。

what 似乎也不齐全,只是展示结构的 what,没有展示结构的功能性(角色)。所以,作为学习,这里有两个空白需填补,一个是 how,尤其是语义相谐机制,怎么招之即来挥之即去的。另一个是逻辑语义,逻辑语义怎么在句法或逻辑的链接基础上得出的。当然这二者是相关的,前者是条件,后者是结论。目前展示的结构树图就是个架子和桥梁。

白:这是一套资源向两个方向的延展。向句法方向就是前者,向语义方向就是后者。而且是句法方向退一步,语义方向进两步。

但是认真地说,本例,真的不需要语义相谐性,纯句法层面就搞定。

李:不是说本例。所以说是 (语义相谐是)招之即来 挥之即去耶。

那个 “专家的” 或 “大数据的” 语义,像个鬼影。说是要做个不是 HowNet 的 HowNet(《知网》),数据驱动的。怎么做?

这与最近NLP主流特火的预训练 也许殊途同归?预训练是个好东西,听上去就是阳光大道。就是不知道今后几年的使用中 会遇到什么坎儿。

白:新一代NowNet,早晚要做。但是不能跟场景两张皮,必须通盘顶层设计。

李:架构上,我看好预训练,关注它的走向。道理也简单 我们一直孜孜以求的就是把语言学和领域先分开,然后再连接,各司其职。预训练就是先分开,而且不用标注语料,这个语言模型等于是在无穷语料上架设。所有的语义相谐和常识理论上都应该在预训练的模型里面(间接)反映了。

白:“他们让我从侧门进大楼”“他们让我跟太太进大楼”

“侧门”(N/N)的宿主是“大楼”,“太太”(N/N)的宿主是“我”。这要动用本体了。这俩的对比很有意思,纯句法肯定搞不定。

李:

白:侧门和大楼没挂上,侧门的宿主是building。所以building下位一定相谐。大楼小区之类。

李:知道。HowNet 都有,但不好贯彻。

不确定要多大的语义相谐合适。如果大面上说 只要是 part 就与不是 part 的 physical object 相连,那是手到擒来的事儿,怕的是副作用。会不会连得太多,因为 part 和 physical object 都是范围很大的本体概念,概括一大批语词。如果说,细化到 “楼” 与 “门”的本体,就非常相谐,没有顾虑,那就需要一个完整的 hownet 本体知识,可是 我对 hownet 的使用 目前是限制的,不想进入语义泥淖太深。HowNet 董老师自己用 得心应手,其他人用 就颇不易。

白:知识必须是机器可读的。

李:hownet 是机器可读的,或者说 形式化的。

白:机器可读的最好办法就是向一个丰富的技术栈靠拢,否则自己从头建立技术栈,得不偿失。但是董老师对此并不感冒。

李:subcat 以及 sub-subcat 的语义关联,有点组合爆炸的味道。本体自己从细到粗就是一个不小的集合(上千的 vocabulary),本体与本体的相谐 就是组合爆炸。如果组合粗线条 不会爆炸 但失去精准,如果细化 把 HowNet 全部引进,相应的规则集也有个组合爆炸的细化过程,有可能不好管理和维护。总之 现在是控制使用,不想步子迈得太大。

白:还是要区分what和how,what本身无所谓组合爆炸,只有how没做好才组合爆炸。向句法这一端延伸,只用到少量资源。机制必须是轻量级的,重了适得其反。

时代呼唤具有更好场景对接能力和顶层设计理念的新一代“类知网”基础资源。

李:语义常识是一个多大的坑啊,淹死人不偿命啊。谁设计 谁来组织去做?个人还是开源社区?最后 谁用?怎么用?除了设计 白老师可以统率 后面这些问题都还不好回答。

白:要分层,基础层给专业层用,专业层给用户场景用,但是必须统一规划。知网也没搞成开源社区。这东东,不容易协调利益。除非使用区块链。关于知识长什么样如果没有统一的顶层设计,本体和场景一定是两张皮。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白110:深度解析,曲高和寡,值得吗》

白:“这首歌听过的都说好听”“这首歌听过的都说过瘾”

——什么好听?

——谁过瘾?

李:"过瘾" 这类词对人对物均可:我听这首歌过瘾;这首歌过瘾。

这就好比 -ed/-ing 混合了:exciting/excited。类似于 自动/他动 的零形式转变,“好听” 不同,只能对物。

白:“这首歌过瘾”可以看成,过瘾的正主儿没出现,但是使动的角色已经在那儿了。句法上鸠占鹊巢,本体上主客分明。

李:正主儿不重要,默认是 (令人)过瘾,这个“人”等于没说。

白:本体里“人”是出席的。linked data,首要任务就是不能掉链子。

李:本体是逻辑体系,不要掉链子。语言理解和表示,有所不同。本体等于是个认知背景,理解时候随时调用,也可以不调用。

“这首歌听过的都说过瘾 / 听过的都说过瘾 / 听过这首歌的都说过瘾 / 听过的都说这首歌过瘾 / ......”

白:句法上,不相谐并不一票否决,而只是减分。没有更好的选择,减分的选择也会顶上去的。但是在回答问题的时候,低分的选择会提示某种降低自信的折扣。

在c-command位置有多个置换候选,用哪一个自然会精挑细选;如果只有一个,横竖就是他了;如果坑已经被占满,c-command位置上无论有多少候选也是干瞪眼。

李:终于弄妥了。

此图像的alt属性为空;文件名为Screen-Shot-2019-04-11-at-2.19.32-AM.png

就是这图越来越不像树了,倒是更像那种叫四不像的动物。Topic 可以抹去的,不过感觉留下有益无害。真要逻辑较真的话,“的字结构” 与 “过瘾” 还可以连上 S 或 S2。痕迹都在,本体也支持,但懒得做了。连来连去,也还就是个 “的”字,连个名儿都没有。谁过瘾了?哦,听过的人过瘾了。 感觉没人这么问的。信息不具有情报价值,更像是从常识推导来的。常识常识,就是那种理应熟视无睹的不具备情报价值的知识。

白:推理,张三是听过的人,张三过瘾。

李:三段论是如此。就是不大容易想到啥场景会用上的,怀疑其解析价值。另外就是,语言表达中的确有清晰的情报与边缘的信息的区分,也的确有重要与不重要的区分。所以,单从语言角度看,也有一个什么一定要抓,什么可以放过的问题。所以,单从语言角度看,也有一个什么一定要抓,什么可以放过的问题。从情报性角度看,其实是不应该让常识过多介入的。常识之所以为常识,就是它不具备情报性。如果语言表达方面有意无意的漏洞或含糊之处都被常识“脑补”了,信息单元的情报性就被抹平了,主次容易混淆。

白:脑补的东西,一定有单独的标记。怎么可能允许一锅煮。“营业额超过了联想”也是需要脑补的。

李:人的表达和理解,都有很大的偷懒成分在。这一方面为了节能,节省带宽和脑力,另一方面也可能有个聚焦因素在。解析作为一个为表达通向理解所搭建的桥梁,也许也应该模拟逼近人的表达和理解中的聚焦和节能。所以 一直以来 句法以后做那些逻辑语义的 hidden links,总觉得是锦上添花 适可而止的工作。要做可以做得很深很全,特别是不断引入常识“脑补”,就有很多的 hidden links 可以挖掘。隐隐觉得这不是目标和应该着力的点。

白:不脑补,那张图摆在那里也是摆设。地球人都知道不可比,关键是,轻量级的脑补还是重量级的脑补。

李:这类例子很难说是需要解析的脑补。更大可能是在语用场景,是在领域落地的阶段,根据领域词汇和领域知识去补。这里有个区别:深度解析利用常识脑补,基本是不分领域和场景的,算是 boil the ocean。而到了领域场景,那是下一个阶段了,那里已经有场景聚焦和领域聚焦的考量了。

白:只做解析的立场和做场景的立场是截然不同的。下一阶段,未必是时间的先后,可能只是工序的先后。一个抓总的人需要同时考虑。

知网的设计者,除了翻译是直达场景的,其他很难说有多少场景驱动的东西触达了知网的架构和方法论层面。这也导致二次适配的工作量巨大。时代呼唤一个从方法论层面直接对接场景的新一代知网,or whatever 网

李:撇开MT,NLU 两大应用是:

  1. 知识挖掘 这更多是后台,离线,大数据。
  2. 对话,这更多是前台,在线,小数据。

当然,一个完整的交互系统,是两端都需要有的。现在看这两大应用,迄今为止,对于深度解析,需求不大,不明显,也许更多是因为还没找到可以利用的巨大潜力。

白:层次残缺。

需要解析器、本体、领域适配包协同工作,不能各行其是。

李:端到端的系统不去说它了,即便是想努力使用NLU的,在这两大应用中,凭实际经验看,对于 shallow parsing 的需求,远远大于对于深度解析的需求。shallow parsing 主要就是 NE 和一些 XP 抱团,这方面做好了,可以立竿见影。超越 shallow 的部分,用起来感觉不在痛点上。

也许是还没到那个火候。

白:现在的需求不是真正的需求,因为没有把各环节的潜力展现给最终用户。还是没做好。

李:总之,日常的开发实践和场景,不断把我们拉向 shallow 的工作。这些都是非常琐碎的,基本是资源堆积的领域性工作。也没有那么大挑战性,只要有人力 有资源,总是可以大兵团作战,以资源取胜。而具有挑战性 让我们着迷的深度解析,却发现性价比很差。做了白做的时候居多。

全世界都做对话系统,问题于是简化为 intent/slots,说白了,都是既浅层又领域的目标定义。intent 根本就没有语言学定义,不具备任何普遍语义。intent 完全就是根据目标应用所需要的 actions 来定义的语用意义上的“语义”,是典型的端到端的反映,没有可移植性。就是对于输入问题的一个针对具体应用(skill)的classification,1000个skills 有 1000 种不同的定义。这些是当前的“范式”,浅得不能再浅,但证明是可以 scale up 和有效的,前提是有资源去做。

“听过这首歌的都说好听”:

“都说听过的这首歌好听”:

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义群笔记:端端的端到端》

白:“盼望长大的童年”

本来是歧义,常识把它变成了伪歧义。“长大的”和“童年”不搭。

李:“盼望长大的童年”,可以问:1. 谁盼望长大?-- 童年;2. 盼望【谁】长大? -- 童年;3. 盼望 可能有两个 【human】 的坑。类似的例子有:“盼望到来的幸福” vs “盼望幸福的到来”,当然 还有一个 盼望- 长大(了)的童年。

虽然说似乎不合常识,概念来点弹性的话,也不是说不通:童年的定义里面虽然有没长大的意味,在类比和修辞的意义上,两个概念可以做各种关联和联想。事实上,“不搭”才是诗意的简单有效的手段,保证了想象的空间。

"这就是我那位想买你别墅的朋友"

白:【打败你的不是天真,是“天真热”!】

李:不是天真,而是天(真)热:

白:“它是一个不断松弛的过程,到头来,已经没得松可驰了。”

李:没得松可驰了 还是 没得弛可松了?没得澡可洗 从来不说 *没得洗不澡。当然 “松弛” 虽然 比照 “洗澡” 的动宾离合词 但自己并不是动宾 而是并列,因此 换位了也不觉得。没得学可习 还是 没得习可学?

成语活用 只要愿意花时间 不是问题 问题仍然是 有多少用场。

Lai:@wei 有什么深度学习有效的方法可以发现这些Dependency?

李:不知道 据说只要有标注 就不是问题。

郭:斯坦福的陈丹琪(danqi chen)和她的导师Manning有个深度学习的dependency parser。应该算state of the art。开源,是stanford coreNLP的一个模块。

谷歌基于这个工作,做了个大数据版,据说准确率“超过人类”。也是开源的。

李:标注可以让目前的系统先自动做,让人去修正(只修正黑白错误,不修正模糊地带或不清晰的地方),这会大量节省人工,所以数据也不是大问题。最大的问题是,这些 dependency 出来了,懂得如何派上用场的 不多。在大半个世界都迷信端到端的时候,缺乏资源去用的话,parsing 就是面壁十年的玩偶。

白:端到端不是问题,问题是端不能容纳结构。

李:神经MT 就是一个端到端典型示范。一端是串 另一端还是串 为什么要容纳结构。只要有可以监督的数据 信息抽取也是如此。

白:关系抽取不是这样的。

李:以前一直以为抽取乃是我结构的长项。最近朋友问我 如果是抽取关系,现存数据库就有亿万,表示 locationOf,whereFrom,bornIn,bossOf 等等关系。这些关系的两端 都在数据库里面,用他们去找语言数据 可以产生难以想象的不用人工的标注大数据。结构的路子一定可以匹敌这种大数据?我觉得很难。这与mt可以一比。

还有一些端到端 结构无从下手 可是端到端可以派上用场,譬如 图片转文字看图说话,和文字转图。这些事儿 有了结构也难以缩短距离。玩结构 玩理解 应该在小数据 多变的domains 以及数据虽大 但无法监督的情况下。这时候 人家“端端的” 根本就不跟你玩,视而不见。另一个就是 打下手 做小三。在人家玩剩下的某些短板上 玩补充作用。譬如 mt,张冠李戴这类问题 可以帮上忙。

神经mt最不可思议的突破是顺畅度。这是当年认为mt无解的一个方面。突破带来的副作用是损失忠实,这点损失 符号结构派其实可以擦屁股的。结构派有个貌似真理的预设,自然语言千变万化 唯有结构化才可以变得 tractable。这话实际上并不尽然。结构化的确可以导致 以较少的patterns 捕捉较多的现象,可是 对于“端端的”系统 对于海量容量和算力 这种 generalizations 的意义大打折扣。推向极端 如果有个现象 两个 patterns 可涵盖一千个变体,如果我真有充分的数据 可以看见这一千个变体足够的重复,全部记住了 或者用另一种非符号化非规则化表达了 embedding (嵌入)抽象了,那么那两条 patterns 还有什么优势呢?何况 符号规则化的本性就是不够鲁棒 免不了漏掉点什么例外。

还有个有意思的现象。以前老以为 起码起码 结构化总是帮助提供了更好的基础 总是归纳了很多现象 没有功劳有苦劳。这个苦劳认不认不重要,客观情形是,满世界没几个人有兴趣利用,一多半也因为没几个人懂得怎么利用和消化,包括业界学习方面的牛人,曾经私下交流过,回答说,引入结构说起来应该有好处,但不好融啊。

绝大多数的端端学习系统有自己的一套比较成熟的 有广大community主流不断集体探索和积累的基于一包词或ngram的各种模型 算法和工具,语言结构横插进来,有异物感,heterogenous evidence,增加了模型复杂度,很容易得不偿失。

牛的 parser 能够开拓市场和被大家接受估计需要相当一段时间,其契机可能是: 1. 端端系统遇到瓶颈或死胡同,不得不探索其他路子的时候;2. 主流中的少数坚持探索利用结构或者结合AI理性主义和经验主义路线的融合派,在算法研究中取得了突破性进展,带动整个领域”产业升级“到结构化。

在此之前,基本上是自产自销,内部消化,用于目前主流“视而不见”无所作为的短板应用场景。(其实很不少,甚至 text NLP 中端端最成熟的 MT,进入领域由于缺乏数据也有很大短板。)

吕:@wei 大赞。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《立委科普:语音交互时代是NLP的历史机遇》

越来越喜欢语音交互 这两天玩 Siri,Google Assistant,感觉还是搜索公司做语音交互更有前景。

为什么?因为搜索公司的知识源积累雄厚,不是其他 players 可比(不知道百度是不是以自己的积累优势 推出啥 assistant)。这是问题的一面,搜索公司做交互从回答开放问题方面,有天然优势。问题的另一面是,从问题解析角度看,搜索公司传统的优势不再。这给社交媒体公司和NLP创业公司留下了机会。以前做文本NLP,虽然可以 argue NLP 赋能的SVO搜索,可以大大提高关键词搜索的精准,但总体上感觉NLP想进入搜索,是针插不进的。

白老师说:这是商业模式问题。关键词作为标的,太成熟。

商业模式之外,还有个重要原因。很多年来,受众都被搜索公司潜移默化了,通过query log 可知,搜索框里面的 queries 绝大多数不是“人话”,就是几个关键词,而且搜索的人,越来越不管语言的词序与小词,因为经验教训都是词序和小词没用。这就使得NLP失去了合适的对象,优势发挥不出来。这边厢 关键词技术以鲁棒和长尾见长,NLP 真地是难以实现价值。可是,语音交互时代不同了,人开始越来越多学会直接跟机器对话,这时候,自然语言回归“自然”,被搜索公司洗脑的坏习惯 在语音交互中难以持续。

这给了 NLP 以机会。

以前老觉得NLP做文本比较成熟,来了语音转文字,多了层损耗。可现在语音技术成熟了,这点损耗不算啥。考察现有的交互系统,卡壳的地方多出现在 NLP 而不是语音转文字方面。

看目前 Siri 的水平,相当不错了,蛮impressed,毕竟是 Siri 第一次把自然语言对话推送到千千万万客户的手中,虽然有很多噱头,很多人拿它当玩具,毕竟有终端客户的大面积使用和反馈的积累。尽管如此,后出来的 Google Assistant 却感觉只在其上不在其下,由于搜索统治天下20年的雄厚积累,开放类知识问答更是强项。

最近测试 Google Assistant 的笔记如下。可以说,道路是曲折的,前途是光明的。

对于相同的刺激 回答不同 感觉是随机在同义词话术中挑选。

哈 nlp 卡壳了。搜索公司的backoff法宝就是搜索,卡壳了 就改成搜索结果。

卡壳以后 退到搜索以后 搜索结果有个质量控制,可能的结果做了排序。如果觉得搜索质量不高 或找到其他痕迹发现问题不适合做搜索。就用话术装傻:My appologies ... I don't understand(对不起 先生 我没听懂)。所谓“话术”,人工智能历史上称为“巧妙的欺骗”(artful deception,见《Church:钟摆摆得太远》)。这种欺骗是实用系统的永不过时的法宝之一。

thankful 的表述今天没听懂 但迟早会通过 bug 积累反馈过程 被听懂的 所以只要系统持续维护 机器对于日常会话 就会越来越应答自如 这一点没有疑问。语音交互虽然不像AI泡沫期望的那样立马改变我们的生活 但人机语音交互越来越渗透到我们和我们下一代的生活中 是一个自然而然 不可逆转的趋势。

知识问答 特别是开放类新闻查询 搜索的拿手好戏 这种搜索回应 不是退而求其次的后备应答 而是首选的答案。

所有话术都那么具有可爱的欺骗性,until 最后一句,莫名其妙回应说 this isn't supported.

(顺便一提,上面终于发现一个语音转写错误,我跟 Google Assistant 说的是,you are both funny and sometimes amusing. 她听成了 and sometimes I'm using. 从纯粹语音相似角度,也算是个 reasonable mistake,从句法角度,就完全不对劲了,both A and B 要求 A 和 B 是同类的词啊。大家知道,语音转写目前是没有什么语言学句法知识的,为了这点改错,加上语言学也不见得合算。关键是,其实也没人知道如何在语音深度神经里面融入语言学知识。这个让深度学习与知识系统耦合的话题且放下,以后有机会再论。)

这就是胡乱来了。测试下来 发现句子一长 系统就犯糊涂。10个词以上就进入深水区,常常驴唇不对马嘴。

可是 即便后备到搜索 也不至于如此不堪啊 一点 smoothing 都感觉不到 整个一个白痴。再一想,估计是我原话中提到 long sentence 它给我找来一个讲 grammar writing 的博客。

所谓语音门户之战,看样子是个拉锯战,可能是持久战。呈两极三角态势。一极是搜索巨头,谷歌、百度,手里有海量知识和答案。另一极是社媒或零售巨头,离用户近,腾讯、脸书、苹果、亚马逊等。他们可以把端口部署到千家万户去。这两极各有优势,可以长期对抗下去。三角方面,似乎还有一个角,是给NLP技术或创业公司留着的。谁知道呢,也许在用户和知识源都不具备优势的时候,技术型公司会以NLP的亮丽表现异军突起,帮助或联合其中一极成就霸业,也未可知。

haha LOL,简单即王道。

王道是要有出口。上面的乱套是系统设计的毛病,不是AI自身的问题。

又看了一遍上列“简单为王”的反AI宣传片,又笑了半天。前后两个问题,其实是两种解决方案:前一个是产品层面的。产品设计需要有个 accessibility 的机制。当主人因故说不出话或说不清话的时候,应该有个类似为残疾人准备的后备机制。这方面苹果 iPhone 做得很好,它的 accessibility features 非常丰富 考虑到很多场景和小众残疾或不残疾的另类用户。第二个问题的解决方案是技术性的,机器人应该识别主人的声音,默认只听主人的指令。从产品层面看,起码应该是个可以 configure 的选项,不应该听到声音就去执行。

总结一下自动解析所依据的语言形式是什么。主要是三种:

1. 语序
2. 直接量(尤其是小词和形态)
3. 特征

前两种叫显性形式,特征是隐性形式。语言形式这么一分,自然语言一下子就豁然开朗了。管它什么语言,不外乎是这三种形式的交错使用,比例搭配和倚重不同而已。所谓文法,也不外是用这三种形式对语言现象及其背后的结构做描述而已。

摘自《自然语言答问》(to be published)

被搜索巨头20年潜意识引导/洗脑,人上网搜索的 query,第一不讲究语序,第二扔掉了小词(知道小词是 stop words 基本上被关键词索引忽略 有它无它不 make difference)。这就使得 query 其实不是自然语言,不过是一小袋词的堆积。作为显性语言形式,小词和词序很重要,因为自然语言很大程度上依赖语序和小词这样的语言形式,来表达句法结构和逻辑语义。这么一来,query 不是自然语言技术施展的合适对象。

在不知不觉就会到来的语音交互时代,query 被语音的 question 所取代,自然语言复归“自然”,这就为NLP/NLU发挥作用,创造了条件。人会不会把上网用的 query 坏习惯带到语音交互的现场呢?考察语音交互现场,可以发现,基本上人机对话的时候,有意识背离自然语言规范的做法,是很少见的。人说话虽然并不总是特别规范,但是从学会说话的时候就开始积累的语言习惯是难以人为改变的。至少不会像 query 那样“变态”和偏离自然语言。

这是NLP的福音。

回顾一下,历史上看NLP走出实验室的落地历程,大多是遇到特殊的机遇。第一个机遇是信息抽取(IE)。在IE诞生之前,NLP面对大海一样的语言,漫无目标,是 IE 让 NLP 瞄准实际的领域需求,预定义一个狭窄的清晰定义的情报抽取范围和种类。第二个机遇是大数据,不完美的NLP技术遇到了大数据,使得信息的大量冗余弥补了引擎质量的不足。第三个机遇深度学习,仍在进行时,现在看来海量语料的预训练可以帮助模型捕捉千变万化的语言表达方式。第四个机遇就是移动时代和物联网的到来,这使得语音交互开始渗透到人类生活的方方面面,反过来促进了NLP技术充分发挥其潜力。

有意思的是,与其说搜索巨头用一个小小的搜索框“教育”或误导了用户的查询习惯,不如说是用户在不断的搜索实践中适应了关键词技术。其结果就是那不伦不类的搜索 queries 的出现和流行。既然用户会通过正向反向的结果反馈,来慢慢适应关键词搜索不懂自然语言的短板,可以预见,用户也会慢慢适应不完美的自然语言语音交互。

怎么讲?

如果同一个问题有100个问法,其中80个问法是清晰无误的,20个是有歧义的,用户会慢慢学会回避有歧义的问法,或在第一轮被误解以后,会迅速返回到更加清晰的80种问法范围来。如果这 80 种问法,机器只涵盖了 60 种比较常见的,久而久之会出现这样的情形:一方面,只要机器还在持续维护和bug fix 的反馈回路上,所涵盖的边界会慢慢扩大,从 60 往上走。另一方面,用户也会学乖,慢慢倾向于越来越多使用更加常用的,已经被反复证实的那些问法中去,回到 60 的边界内。除了恶作剧,没人存心为难自己的助手,毕竟交互的目的是为达成目标。这样来看不完美的NLP技术,面对真实世界的场景,我们是有理由乐观的。

所有的软件系统,一个最大的好处就是可以确定地说,明天更美好。除非是非良定义或设计,同时开发维护过程也是非良的操作规程,软件的质量永远是上升的,最多是爬升趋于缓慢而已。因此,今天我们取笑的交互实例,我们为机器的愚蠢所困扰的方方面面,明天后天一定会逐步改良。

唯一感到有些可惜的是,语言工程本来是一个打磨数据的过程,很多工作应该可以共享的,避免重复劳动。但实际上,这种重复劳动还在大面积进行中,而且很长时间内,也看不到资源共享的理想平台、机制和架构,虽然预训练的资源共享看上去是在这个方向上迈进了一步,但有效利用第三方的预训练资源,帮助落地到本地产品和场景,依然是一个挑战。

【相关】

《Church:钟摆摆得太远

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一析:“新买”、“新建”与“新修”】

白:“张三在北京新建的高科技园区里工作。”

“张三在北京新买的别墅里有两个菲佣。”

“张三在北京新建的高科技园区开工了。”

不能指望一本道了。必须走不齐。

李:谁买的?一定是张三吗?其实,也未必是张三新买的。非常有可能是他老爸老妈给他新买的,尤其在这个物价高企、啃老盛行的年代。

定语从句中的 args 毕竟非主线上,不是信息交流的要点。定从属于附带信息,除了较真的人,面对这类句子,没人去问谁新买的,或谁新建的,这样的问题。因此,没有答案,或答案模糊也没什么不可以。

“张三在新修的长城上拍照。”

为什么后者的主语施事不是张三?也许随他去。定语从句的 args 没那么要紧。

白:别墅那个,谁做了买的那个动作(谁付的钱,付的是谁的钱)其实不重要,张三取得了什么性质的产权也有得扯,但是张三达到了买别墅的效果,by default就是张三买的,如果有其他角色出来认领买的动作,可以override。没有就是他了,句法只能帮到这了。但即使有override发生,句法的贡献也不是负面的,只是说大家遵守的就是那样一种逻辑。

就好像,没说是什么鸟,我推断该鸟会飞,总是合情理的。你说出是鸵鸟,刚才的推断虽然被override了,但在信息不足的情况下做出那样的推断并不是一个bug。

李:"句法的贡献也不是负面的",不错。不过,对于确定性不大的贡献,要看其求解难度来定是不是值得去做。往往可能费很大力气做出一个不重要或没啥实际价值的结果。更要紧的是,这样钻牛角尖,很可能弄巧成拙。细粒度是个好东西,但过细可能使系统精巧而脆弱。

ha 不该来的来了:“张三”新修(“长城”),“张三”没“拍照”?

“新买” 与 “新建” 的细微差别,使得一个单个的实体(“张三”)做不做逻辑主语 成为问题。这种粒度的知识推理实在太细了。到了“新修”,单个实体与群体似乎都可以做逻辑主语,这时候还要进一步看“新修”的对象是个啥东西。如果对象是“长城”,单个实体不可能做逻辑主语,如果对象是“厨房”,单个实体又可以了。细细琢磨人的认知心理,上面这些逻辑链条都有道理。值得去模拟求解吗?退一步看,虽然人的认知的确有这些细微差别,但是另一方面,人其实也不 care 这些细微差别。

白:“在北京”去掉了性质就变了。在……里,是一个形态显著的框式结构。“北京”融化在“……”之中,而且不排斥填“新建”的坑。另一个,“北京”填“新买”的坑不那么靠谱,所以让出来给外面的“张三”以机会。并不是光杆儿在比优先级。是里面发生了吸引/排斥,连锁反应传导到了外面。

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义小品:首尾相接,天涯若比邻】

白:“姐姐走了小明很想念。”

想念谁?怎么建立起来的填坑关系?

李:首尾相接,天涯若比邻。假设输入文句的词串如下:T1 T2 T3 …... Tn, 首尾相连的示意图如下所示:

处于句首位置的名词性萝卜“姐姐”(通常所谓 主语或话题),正好可以跳过句点填补处于句末的谓词“想念”闲置的坑,作为其逻辑宾语。赞曰:句首萝卜句末填,万水千山只等闲。

“姐姐说走就走了 头也不回 我们都知道可怜的小明很是想念。”

白:“姐姐穿一件貂皮大衣 闪亮的高跟长筒靴在张三身上踩了一脚 扬长而去 李四甚是同情。”

事理角度,同情弱者,不在乎首尾。

李:“姐姐穿一件貂皮大衣 闪亮的高跟长筒靴在张三身上踩了一脚 扬长而去 李四甚是鄙视。”

说首尾相连 是说一种搭配趋向。不应该参入人为语义因素来看这样的 heuristic,那样的话 啥都说不准了。

君在长江头 妾在长江尾。其所以会有越过远距离有这种呼应,是有结构认知的依据的。首尾分别暴露在外,没有两端外的顾忌。这是其一。其二 语言结构嵌套,无论右递归 还是中心递归,最外面的两个 tokens 是天然的最大括号的承接者。如果一个恰好有坑 一个又多出个萝卜 那就离绝配不远了。

白:结构因素和认知因素、事理因素应该通过某种折算,摆到同一个平台上来。势力较量,无非加分减分。分值至上。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华午拾:我的世界语国》

Mia Esperantio

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。

的确,世界语对我,有着宗教般的吸引力。当年初入北京世界语圈子,感受到的新鲜和温暖,使我一个外地人兴奋莫名,遂以全部热情投入。二十多年了,我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会,是我的世界语之旅的第一次远行。我们北京一伙人,一路谈笑,亲如一家。同行有邱大姐(歌唱演员,文革时唱过家喻户晓的“我为革命下厨房”)和老大哥王彦京(一个很英俊的小伙子,是“老”世界语者了,常跟我们吹嘘他是黄埔一期,当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历)。途中遇到一位山西姑娘,独自远行开会,起先不爱理人的样子。后来熟了,才知道她天性活泼开朗,完全不象北京女孩那样一本正经,是那种性情温和、相处让人舒服的人。都是年轻人,自然比较聊的来,一直相处得很自然愉快。接触一多,不时招来老大哥的善意讥讽:你那位 Shanxi-anino 呢?我当时已经悄悄地有北京女友了,岂敢有“不良”居心。后来,她嫁给了我的北京世界语哥们,算是昆明大会做的媒吧。一方面为朋友高兴,心里面还真有点嫉妒:这小子天上掉下来的福气。

给黄华副委员长做翻译

71届世界语大会前夕,中国科学院世协举办了一个国际世界语科技研讨会,有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译,可临场前一刻钟,沙教授忽然跟我说:“你年轻,脑子快,还是你上场吧”。天哪,我才刚学世界语不到一年,虽然仗着语言学出身和词典的帮助,阅读写作并无障碍,可是并没有多少机会练习口语翻译啊。沙教授看我犹豫,鼓励说:“你肯定行”。也是初生牛犊,糊涂胆大,这一激就呼啦上场了。往黄华身边一站,差点傻眼了,只见无数闪光灯袭来,眼前明晃晃一片白光。毕竟是外交部长出身,黄副委员长出口成章,抑扬顿挫,表情丰富。每说一段,就停下来等我翻译。我强作镇定,努力想复述,也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院,我一时不敢确定圣马力诺在世界语怎么说,黄先生看我卡在那里,提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段,我都应付了几句,但自己都翻译了些啥,根本没数。下场后,心里懊悔极了。我后来想,世协的主办人肯定更加懊悔,没想到半路杀出来个愣头青,早知沙教授临场换人,他们一定会安排其他世界语高手出场,北京世界语界可是高手如林。黄华啊,岂是等闲人物,绝不该有半点差错。不过,这次赶鸭子上架对我个人的命运却非同小可,它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译,才同意跟我见面,最终结成良缘的。当然,这是后话了。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮,成为全国世界语者的狂欢节日。我作为世界语“新秀”,有幸参加了从大会预备到终场的全过程(后来了解到,由于当时的政治现状,很多外地资深世界语者没有得到参加盛会的代表资格,严重打击了同志们的热情)。

立委在大会门前与老世界语者语言学家周流溪老师留影

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕,意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者,很神秘地告诉我,他们的世界语代表团安插有政工,专事监督他们,必须倍加小心。在亚洲,两伊战争正酣,国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者(忘了姓名了,很是个人物),她很活跃,聪明过人,反应极快,积极牵头组织世界青年世界语者的活动,曾表示希望我作为中国青年世界语者召集人,跟她配合。我问她,你要是遇到敌国伊拉克的世界语者,怎么办啊?她毫不犹豫地说,我会上前招呼握手,跟他/她交朋友,我们世界语运动的宗旨,不就是加深理解,消除仇恨,实行世界和平么。她也告诉我,在她国内必须小心,随时可能被送进监狱。象她这样抛头露面比较西化的人,恐怕早已上了黑名单,是政府盯梢的重点。“不过,我不怕,我有对策”,她很有信心地说。大会以后,我跟这位优秀的世界语者还保持通讯了一些时日。

漂亮的伊朗世界语者

说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。

人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj” (We are Esperantists by birth)。

当时我们北京世界语者有一个据点,就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸,好像也是黄埔一期的。她姐妹俩典型北方人性格,为人热情爽朗,会张罗,结交广,富有幽默感。到她家,就跟到自己家一样感觉亲切自在。世界语文艺片播放那天,我们一拨人于是相约到她家看。遇到国外世界语朋友来访,我们也常常带到王艾家聚会。

大会期间,还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京,于是我兄弟俩和王艾一起陪同日本朋友逛圆明园,然后召集一批世界语朋友在王艾家晚餐聚会,热闹非凡。

拉宾小姐演出之余

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作,画面干净利索,色彩鲜艳,人物神态,栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是,我在这次大会上,结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士,并与他保持了多年的交往(特别是他在BSO从事机器翻译研究期间,后来我去英国留学,他不但给我写了推荐信,还解答了我选择学校的困惑:他告诉我,论名声和学术,应该去剑桥大学;要是想继续从事机器翻译研究,应该去曼彻斯特的UMIST计算语言学中心;如果想学人工智能,爱丁堡大学最佳)。他是剑桥大学的语言学博士(后来跟我一样成为计算语言学家,从事机器翻译的研究,他首创了利用自动句法分析过的双语语料库施行机器翻译的统计算法,比后来盛行的同类研究早了5-10年),长期以来是国际世界语协会的头面人物之一,当时是国际世界语协会的财务总监。他平易近人,有长者风范,约我到他饭店面谈,对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲,我委屈地说,提交了,但是没有被采纳。他微笑,有点可惜的样子,没有做进一步的解释。后来我得知,国际世界语大会的科技演讲,不仅仅要所选课题对路,水平好(这两点,我已基本做到),还要看研究者的资历,起码是博士,最好是国际知名教授(记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生,不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理,属于我的计算语言学专业)。我一个第三世界的硕士生刚毕业,根本谈不上。

2006年四月十六日
于美国B城

【相关】

【立委小传】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录



《微信群笔记:深切悼念语义宗师董振东先生》

帅:中文信息学会 讣告 | 董振东教授逝世

李:震惊。深切哀悼!

宋:惊闻董老师去世,十分悲痛。董老师的成就令人钦佩,董老师的科研价值观引领我们前行!

金:90年代初各种计算语言学会上都能碰见董振东先生,受教多多。董先生千古,一路走好???

邢:深切悼念董老师   先生风骨精神,求真求实,我辈追随榜样!先生千古!

梁:惊闻董老师去世,非常震惊和悲哀!先生精神永存,永驻我心!

Nick:@wei 伟哥应该写篇纪念文章

李:绝对的巨人和恩师。深切哀悼! 董老师从未停息对nlu的研究 一直在做系统 让人折服。在很长的时期 董老师是中国nlp和mt与世界的接口。语义宗师 一代巨人 高山仰止。

洪:如果允许,咱群凑份子联名送个花圈花篮啥的,@wei @Nick Zhang

Nick:@wei 伟哥牵个头。

李:董强谢谢大家,说后事从简,已经办完了。

白:董老师在本群的交流中为我们贡献了宝贵的精神财富,无论在解说HowNet的顶层设计思路方面,还是在评价NLP最新进展方面都是金句叠出,振聋发聩。本群失去了一位巨匠级的群友。董老师在群里交流的那些话题值得我们结合各自的学习工作实际,长久体悟。

施:沉痛悼念董先生。最钦佩董先生的知识分子风骨,我们学会有次换届,他大骂一些学霸领导的场面历历在目。特别解气。我们做不到。有次他举办知网国际研讨会,问我能否支持。我给了5万元,他也只是淡淡的说了声谢谢。知识分子啊!!

洪:CNLP用知网,// Chinese NLP
基础资源WordNet相当。
当年请来百度讲,// 2005
老当益壮携董强。

李:重发旧文 《语义三巨人》深切悼念董老师。先生千古!

洪:应该四巨人,作WordNet的George Miller绝对是心理语言学大家。

李:论影响力 是的 @洪涛Tao 可能我有偏见,我对 WordNet 意见很大。我以前倒是觉得 Wilks 可算上第四语义巨人。

洪:Miller和Chomsky同时代,基本上平起平坐。他的 science of words很科普。

李:最后一次收到董老师信息是2月17号。董老师发来的是郑钧的《长安长安》,我一直也喜欢郑钧的。不过此前 我与董老师从来没有议论过音乐。

回想起来,过去一年,董老师在微信群上越来越少见到了。不是他不关注,估计是终于精力不济了。

白:董老师对ontology一直很敏锐,总觉得他有高见没有说出来。能早十几年就在ontology层面不满足于taxonomy而想到去做类似当今事理图谱那样的东西,真的是高屋建瓴。董老师对“部件”也是有话要说,我一直期待他的高论……

Nick:old soldiers never die, they just fade away.

洪:
老兵不死留枪支,弹药充足后人使。
老兵升天入云时,依旧深情地俯视。

张:一代宗师 我的恩师 心痛不已~~~董先生风骨盖世,学识惊人,成就人类文明——“译星”、“知网”闪耀人类创新创造历史。

董振东语录:

1)“我们老了,但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨;

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)规则的机器翻译是傻子,统计的机器翻译是疯子。

刘:董老师还有一句话我印象非常深刻: “我就是个工匠”。那时候还没有工匠精神的说法。

李:@张桂平 老师,董老师说的这两件事儿 后者是 《知网》 吧 那的确是别人做不了的事 需要超凡的智慧和耐性。别人不愿做的事呢?科研一号/译星 还是 日本多语项目中方负责人?

姜:@白硕 嗯!谢谢老师的指导!  董老师在军科跟我是一个研究室的,也跟我住邻居,是“科译一号”的研发组长。九十年代我和领导战友们在军科后山散步,经常看到他和儿子一起散步。见到他时大家就一起说说笑笑,气氛融洽,甚为欢快。后来到他家请教过几次。他亲自打开电脑给我讲hownet的设计思路,还当场用他定义的“义原”对几个词做了定义和修正,而那时其实他已经重病在身了,他身体力行不屈不挠不计回报敢为天下先的工作精神真是让我敬佩,给了我很大的激励。后来又作为我的博士论文答辩小组组长,给了我很好的指导。昨天惊闻先生逝世,心肝悲痛,愿先生千古,永垂不朽!??

李:最近几年董老师专注于 运用知网做语言深度解析和理解 尤其在中文理解方面。这与我最近几年的着力点非常吻合 所以群里和私下我也常请教 我们常有交流。大的方向和技术路线是一致的。董老师更多运用知网的知识体系和某种常识推理解析中文英文。解析结果更加靠近他构建的逻辑语义表达 解析深度更接近理解。就是说比我做系统更加细线条 虽然我做的工作比多数系统已经很细线条了。在广度和鲁棒性上 感觉董老师所做的工作 限于资源有限 还未充分展示其潜力。

把董老师介绍入群是我的主意。我知道董老师对于nlp和ai话题特别有兴趣 常见他在 linkedin 里面与人讨论相关话题 于是想到他对我们常讨论的一定会有兴趣的。于是尝试联系询问。董老师以前不怎么用微信 我就跟董强夫妇商量 他们也同意 觉得董老师如果能参与我们的 nlp 话题 是很好的事情 对于董老师身心健康也有好处 我们后辈自然也亲身受益。于是先尝试让董老师用董强的id入群观察 最后水到渠成 他就加入了。特别是白老师的语义群 很多是他的学生 同事和仰慕者 很快就融入了。过去两年 有了董老师的参与和教诲 群里的讨论更有深度。我们共同度过一段与导师直接互动的难得的时光。

【相关】

讣告 | 董振东教授逝世

语义三巨人

与董老师对话:什么是知识图谱?

《语义沙龙笔记:结构被神经编码了吗》

立委按:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。

詹:


有道翻译太牛了!

王:这也太达意了,牛!

白:“张三为李四写了这篇论文而后悔不迭。”

看点:1、论文可能是张三写的,给李四当枪手,写了以后后悔了,也可能是李四写的,idea跟张三撞车了,张三后悔自己下手慢了。2、“为……而……”属于“套路”句式,即所谓“构式”,具有强搭配特性,优先级很高。3、一般性的“VP1而VP2”中,VP1与VP2在语义上要么高度平行,要么高度对立,既不平行又不对立的填入这个结构的优先级很低。一进一出,当枪手的解读式微,论文撞车的解读看涨。如果一定要表达当枪手的意思,要么把“为”重复成两个,要么把“而”去掉。话说,两个因邻近而重叠的小词缩合为一个,在语音上也是可以成立的,在无伪歧义的场合尽管用,但在有伪歧义的场合不占优。具体到本例,也就是“为+为—>为”这个动作不占优。或者说,虚增一个与后面“而”呼应的“为”,不足以对抗另一个解读。

“刘为为为为为人民而牺牲的烈士立碑的劳动者献花。”

这个跟“一把把把把住了”有得一拼。

吕:神经网络是不善于数数的

白:

这个是枪手解读。前一个干脆不管几个“为”,意思到了,没人竞争,就他了。多出来的就当你结巴。不仅可以无中生有,还可以视而不见。

宋:三个介词连用,漂亮的嵌套:
第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。

刘:第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。Google翻译:The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests.

白:discovery不好

刘:结构都对了

白:那倒是。这个结构看起来叠床架屋,但其实不受干扰,是所谓“一本道”。discovery太正面了,单独看跟科学成果似的。放在这个语境里也对冲了负面色彩。

刘:要知道神经网络机器翻译是完全不用任何句法信息的,能正确理解这样的复杂结构,很神奇了

白:结构被编码了

白:张三因被发现考试作弊而被从向欧洲派遣的留学生名单中除名 John Doe was removed from the list of foreign students sent to Europe after he was found to have cheated on a test --来自 @彩云小译

刘:张三翻译成John Doe,很有意思了

白:留学生一定是“foreign”?接受的是,派出的不是啊。这是有坐标系的,估计数据太稀疏,这些都顾不上了。一本道的嵌套就相当于parity,难不住神经的。这个found比discovery强。

刘:如果是Phrase-based SMT,这种句子应该是翻不好的

梁:

李:越来越多复杂结构句子,在神经MT翻译中居然对了,以前以为只有深度解析才有望解决的问题,居然在端到端,没有任何显式句法支持的情况下做到了。这种“奇迹”,连在神经第一线的@刘群 老师也不时赞叹。说明这里面的机理不是很清楚,尽管笼统说来,可以说是结构在大数据训练中被合适地编码了。

姜:这是个有趣的问题。非要有显式句法支持,才能翻译复杂结构句子,是一种想当然。

李:是不是“合适”编码了,也难说。因为一方面我们看到了一些翻译对了的”神译“,另一方面我们也看到一些神经过头的乱译。目前似乎也没有办法回答这个疑问:对了的和错了的,是不是共生的。大而言之,我们知道,起码目前的神经翻译,通顺是建立在损失精准(有时候简直到了张冠李戴、指鹿为马、视而不见和无中生有的严重程度)的基础上。还好,起码对于新闻、科技和日常用语等,所损失的精准虽然可能很严重,但频度还不是太高。

梁:科学的精髓  ——  敢于犯错误

李:疑问是,如果机理不清楚,所犯的错误就难以改正。是不是糊里糊涂一本帐,还是改进的目标还算清晰?是不是可以说,结构不是真正的坎儿,标注大数据才是。MT 让我们目瞪口呆的神翻译,似乎已经部分证明了,复杂结构是可以被标注大数据“编码”的。

白:机译可不可以做得更好,我兴趣不大。我更关心各种场景化应用,机译这条路线是否走得通。按正确的结构标注大数据,意思就是,what由人工解决,how由智能解决。how又分两种,一种是歧路,一种是伪歧义。对付歧路,不需要人工。对付伪歧义,必须人工。对付歧路,强化学习、自我标注就够了。

李:NMT中的伪歧义表现在哪里呢?

白:比如上面例子的“留学生”。在不同语境下对齐的词汇不同,但向外派遣,就不该是“foreign”。

李:不仅仅是 NMT,这个一错就可能错得离谱的问题是普遍性的,图像和语音中都有这个问题。what由人工解决,how由智能解决。这种说法是想对神经与结构进行“紧耦合”。不是没人想做,但总体上迄今还是一头雾水。这两个冤家不容易往一起捏。

白:“我是县长派来的”就是歧路不是歧义。全局解唯一,暴力搜索一定能得到。但是暴力搜索的目的是做正确的标注。实时解析策略是通过标注数据训练出来的。紧耦合无所谓,因为神经的那一半压根儿就不需要人工干预。归根结底还是what不给力。

李:what 从语言结构的角度,是有共识的。起码语言学家对于一个句子的依存结构,分歧并不大。如果分解为二元关系,分歧就更小了。分歧多表现为“如何”得到这个结构,而不是这个结构是什么。尤其是 PSG,如何得到决定了树的不同。到了 DG,“如何” 的影响明显减弱。从逻辑语义角度看,what 是有共识的,有很强的确定性,大同小异的。

白:好像不见得。比如“咬死了猎人的狗”公认有歧义,“咬死了猎人的羊”有没有歧义,语言学家未必分歧就小。如果语言学家的共识是后者也有歧义,那就洗洗睡吧,NLP肯定指望不上了。

李:说共识与否,还是要有个量和频度的概念吧。

白:标注即投票?神经的强项就是拎得清此时此刻的力量对比。让语言学家投票,未必拎得清。

李:找个例,很容易忽视量和频度。就说 “咬死了猎人的羊” , 粗分一下,是三个实词(“咬死” 算一个词):咬死(A)了 猎人(B) 的 羊(C)。看看 ABC 之间发生的二元关系,哪些是共识,哪些有疑问。AB 动宾 这是一个二元关系(候选),算是共识。AC 是定语关系,也算是共识;BC 是定语关系候选,也是共识。AC 动宾候选,也算是共识。

白:等等。这里,what必须表达“候选”。如果没有这个表达能力的what,必须靠边了。这在语言学家中也不容易达成共识。

李:总之,即便是个例,如果细分下来,共识的部分还是占多数。如果与常态化语言表达法平均一下,可以说,语言结构没有多少争论的空间。

白:这个平均,在长尾面前无意义。

李:我觉得 问题的关键不在 what 不清楚,需要在 what 上再有突破。关键是,已经知道的 what,也没有有效的办法被神经利用和吸收。两年前遇到刘挺老师,谈到这个问题,问神经这条道,啥时可以利用句法或逻辑语义。他直摇头,说不好办。不是一条道上跑的车。

白:光说动宾不行,光说动宾候选也不行。如果说,句法就送你到这儿了,剩下的看造化。这当然不行。必须把所有的资源摆在那儿,让神经去选。语义的,情感的,事理的。这也是很多语言学家不具备的。可以设想,如果有一个可供神经对接和挑选的“知网”级别的基础资源,局面会大有不同。

李:唉,送上门也未必有人有兴趣 and/or 有能力去用。看吧,看今后五年。今后两年 神经还可能往上走,很多人有这个信心,所以没有兴趣是主因。今后五年,那就是能力的问题了。

白:还可以设想,如果标注人员戴上一种设备,就可以通过追踪眼动或者捕捉神经信号获得标注,语言学家真的彻底不需要了。

李:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。就是用起来殊为不易。

白:可惜董老师不待见神经,也不待见图谱。

李:知网就是本体常识图谱。不待见神经 倒是真的。知网与图谱的距离,最多是工程层面,本来可以有一个更好的实现与接口。

白:不是的。事理的层面,知网超越市面上的图谱。工具的层面,知网弱于市面上的图谱。

李:对呀。多数图谱很肤浅,没法望其项背。

白:此外还有一个适配的问题。各种可用资源参与力量对比,必须折算到统一的度量。知网没有这个度量。分析器玩的就是力量对比。神经倒是未必一定要有,但统一的度量一定要有。

正解压制伪歧义的依据,修辞用法压制一本正经的胡说八道的依据,就是包含词法、句法、语义、语用、情感、事理在内的各种力量的综合对比。首当其冲的,就是把各种力量经过折算放到同一个平台上来。把资源捂起来,只留下标记,不仅没有资源的人学不到真货,有等价资源的人也得连蒙带猜。这资源是what的应有之义。

李:把结构扁平化(譬如嵌套表层化}和原子化(譬如分解为二元关系)变为特征 对于深度学习 没有多少吸引力。如果不简化 也不知道从何入手。

白:结构的嵌入可没这么肤浅。向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧。表示就是语言学家、领域专家、知识工程师自己的事儿。另外,就数学本质来说,符号串的代数基础是幺半群,神经的代数基础是矩阵(线性变换群)。这两个群都是非交换的,深层次里有互通的基础。所以嵌入结构是正常的。

宋:@白硕 向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧 这个观点我挺有兴趣。能否详细阐述?谢谢,@白硕 我最近一个理论是大脑除了基于矩阵的目前人工神经网络用得多的系统,还有一套控制系统。所以也许能把几何和代数统一起来。

白:可用的资源、输入输出都是符号表示,中间的计算是神经表示。输入是符号序列,输出是操纵符号的动作。有些动作是有副作用的,需要记忆。操纵符号的动作改变符号,类似“重写”,但是不限于“重写”。当你输出一个dependency link时,符号之间的邻居关系改变了。

宋:Causal Reasoning from Meta-reinforcement Learning,我最近看到这篇 arxiv 上的文章比较有趣。我在想 control 这边也许可以放到一个 meta-reinforcement 的框架里面最终去解决。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华午拾:Wonder Years: 青涩少年记事》

上个世纪74-75年左右,大概是初三的时候,学校组织我们学军,长途拉练,步行100多里路,去皖南新四军旧址云岭和茂林参观。我比较弱小,那次长途跋涉,真把我坑苦了,一辈子也没有走过这么远的路程,似乎没有尽头。学生队伍前后拉了好几里路长。我一瘸一拐,一根一根电线杆数着往前挪动。终于,有同学报信说,目的地已经在望,就是前面的那座小山。于是,鼓作最后的勇气。可望山跑死马,看着就在眼前的山,还是走了一两个小时,直到天快黑了才赶到。

吃罢晚饭,学校把我们安排在一个大礼堂里面休息。一屁股坐下去,就瘫软在地,居然再也起不来了。脚也没洗,在同学帮助下,挪到临时搭起的铺子和衣睡下。第二天早上,全身没有一块筋骨不疼,勉强可以站立。

虽然很狼狈,对于拉练在外的生活还是感到新鲜兴奋。特别难忘的是参观新四军事迹展览时和女同学耳鬓厮磨的经历,连带当时的心跳、惶惑和尴尬。

我们那个年代,男女生有一条无形的界限,在校园很少交往。不过,我是学习委员,在班委会活动中还是跟女班长和女团支书有工作往来,彼此印象都不错。尽管文化课已经不是学校主业,大概是惯性,学习好的同学还是自然受到青睐。不过她们都比我大两岁,感觉是姐姐一样的形象。女班长是个假小子,面色黝黑,作风泼辣,相处很愉快,但感觉是哥们儿。团支书端庄秀气,能干老练而不失文静。我平时到城外后桥河去游泳,每次经过她家门前,总见她在门口坐着织毛衣,仪态娴雅。她见到我也总落落大方地招呼一声,可我总自我感觉灰溜溜的,不知如何回应。

拉练在外,男女生就比较亲近起来,不象在校园那样拘束,这是当年学工学农学军最让人兴奋的地方。第二天参观新四军展览,不知怎的,跟团支书混在一起,她个头比我略高,站在身后,挨得很近,耳边是她温热的气息。我们两个人拉在最后,仔细切磋揣摩那些展示的图片和实物。两人很默契,一步一步向前挪动,有意无意身子碰到一起。我心痒如蚁,强作镇定,不敢回视。

那一年我14岁。西皮居士有诗云:

野营拉练知何似?跑马望山苦嫩兵。
学军之意不惟军,立委心飞云雨情。

记于2007年二月十九日(阴历大年初二)

《朝华点滴:老队长的歌声(3/3)》

敲锣打鼓把我们迎进村的老队长跟我们走得最近。事无巨细,他都爱来管,自然充当了知青监管人的角色。我们插队的时候,正是老队长大家庭最鼎盛的时期:五个孩子,三男二女,人丁兴旺。老伴操持家务,任劳任怨,对人热情有加。大儿子山虎算我们哥们,比我略长,但长得比我还矮小一大截,似乎发育有问题,但干活并不赖,是个整劳力,担任队里的记分员。山虎小学毕业就回乡种田,作为长子,与女民兵姐姐一起,帮助父亲分担家庭重负。三个劳力,加上两个弟弟拾粪、放鸭,放学做点零工,一家人挣足了工分。这个家庭的红火兴旺,加上老队长的威信,可与家有四朵金花的光头队长一比,这两大家是村子里六七十户人家里面的显赫人家。老队长的家也是我们的家,在他家里我们感觉在自己家一样地自在。一家都是热心人,包括最小的六岁女儿,我们一来,就手舞足蹈,欢呼雀跃。家里做了好吃的,老队长就把我们叫去。大娘从不抱怨,总是笑吟吟默默在一旁伺候我们吃喝。

山虎很活跃,实诚热心,跟我们知青亲如兄弟,给了我们很多帮助。他总是随身带着他的记分簿,满本子是他的涂鸦,只有他自己能看懂的那些工分记录。我见过不少字写得差的人,我自己也一手烂字,可把汉字写到他那样难看,那样奇形怪状,不可辨认,还真不容易。我离开尤村上大学期间,我们一直保持着联系,每次读他的信都要辨认老半天才能猜八九不离十。他每封信尾总是画点图示,两只手紧握啊,或者一颗心系上一条线,朴素地表示他对我们友谊地久天长的祝愿。

老队长是村里德高望重的人物,他清瘦黝黑,尖小巴,身子骨健朗,谈笑如洪钟。他哪年当的队长,哪年让位给光头小队长,我们不很清楚。只知道老队长是退伍军人,识文断字,见多识广,是尤村的核心。我们的到来,老队长异常兴奋。他跑前跑后,张罗安排,滴水不漏。只有一件事,我感觉有些滑稽,内心有抵触,却不敢流露:老队长雷打不动,每周要组织我们政治学习和座谈一次,一学就是一夜。每当这个时候,老队长就把家里的大小孩子统统驱离,把煤油灯点得亮亮的,一点不心疼熬油。他不苟言笑,正襟危坐,特别严肃深思的样子。记得他组织学习《哥达纲领批判》,一字一板地阅读,那样子很象个教授,可从来也没见他有自己的讲解。对于马列,我只在中学迷恋过“政治经济学”,对于其他著作不是很懂。我听不明白的,他其实也不懂,毕竟他也就小学毕业的文化程度。当时我就好奇,他心里在想什么。为什么对那些深奥难懂的马列原著那么热衷,而且总摆出若有所思的样子。我当年自觉是个小毛孩,老队长是可敬有威的长者,是我们的依靠,即便心里有疑惑,也从不敢追问。这样的学习一直持续到我离开尤村。

老队长唱歌富有磁性,略带沧桑,很有魅力。记得在水田薅草的时节,暖洋洋的阳光,绿油油的禾苗,春风和煦。老队长一边薅草,一边张池有度地唱起歌来。听上去有点象船工号子,声音高高低低的,随着风,一波一波袭来,抑扬悠长,不绝如缕。那是怎样一种有声有色,和谐无间,引人遐想的农耕图景啊。

很多年过去,老队长的歌声却一直留在我的记忆中,虽然我从未搞清这首歌的来历。直到去年,女儿的 iPod 新增的一首歌,一下子把我抓住了。这歌当然不是老队长的歌,可曲调内蕴与老队长的歌神似,是它复活了我心中掩埋已久的歌。每当歌声响起,老队长的面容身影,广阔天地的清风和日,单纯悠长的田家生活和劳动的场景,就在我眼前浮现。 我问女儿这是什么曲子。女儿一副我是土老冒的惊讶,这是 Akon 啊,那首红透半边天的歌曲 don’t matter 啊。这首黑人歌曲2007年一出品,很快在电台热播,连续两周居于排行榜首。我惊喜,也感到诧异,远隔千山万水,神秘古老的中国民间小调居然与带有美国非裔色彩的黑人歌曲如此契合。甚至我在 Akon 本人身上也隐约看到黑瘦干练的老队长的身影。

请移步欣赏表演(土豆):
Akon: don't matter

youTube (需要翻墙):
https://youtu.be/JWA5hJl4Dv0

我大学毕业的时候曾回村探望,那时老队长已经离开人世,是癌症夺走了他的生命。女儿远嫁,传回的消息是女婿赌博被抓进了局子,二儿子肝炎治疗不及时丢了性命。大娘经受这种种打击,显得衰老无语。家庭再也没有了欢声笑语,只有山虎撑着这个家,快30的人了一直未娶媳妇。谈起来,他总是苦苦一笑,说不急,先把弟妹上学供出来,自己的事可以放一放。我的心沉沉的,感伤世事无常,那么鼎盛兴旺的大家先失了顶梁柱,复遭种种不幸,如今如此零落。那记忆深处的歌声在我心中也更加增添了些许沧桑的苦涩和无奈。

至于原歌,现在也忘记具体曲调了,就是那种陶醉心迷的印象还在。认准了 Akon 以后,今天就是真的那个曲子再现,我不敢肯定我是否还能识出来。 就 Akon 吧。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《插队的日子(2/3):与女民兵一道成长的日子》

往事如烟:前天寻访旧地,遇到了插队时的那位女民兵,《朝花》里面写过的姐妹花中的二妹,如今也是子孙绕膝了。

现在才梳理清关系,原来老队长和新队长是村子里联姻的两大旺族。敲锣打鼓欢迎我们三位知青入乡的老队长一共兄妹仨,妹妹是赤脚医生,就是我们的东家,当年也对我们很照顾。老队长的弟弟娶了新队长的二妹(比我岁数大,我应该叫二姐)。照片就是他们的全家福。老队长和他姐弟三家都在这个池塘边不远。池塘边还有分给我们知青的菜地。

二姐现在的家

重返旧地巧遇二姐。二姐说,维当年就是学问人,会英语,老在家听英语广播。那是我把家里的晶体管收音机,带到乡下,为了听安徽台和江苏台的英语广播讲座。文革年代不知道哪位领导批准的 很多省开办了电台的英语讲座 是当年难得的外语学习机会了。二姐告诉我,三妹小妹如今日子都还不错。三妹不远,就在镇上。小妹在外地做工。

原立委按:朋友说想写点回忆,可是老是瞎忙,就明日复明日地推下去。我的回答是: 不要等。老了有空闲,但不见得就写得出来。我插队一年,那些往事就已经连不成片,感觉将去未去,恍如隔世,想写写不出来,很别扭。分享是人生的一个重要部分。插队的日子,只留下零星的记忆碎片如下:

《朝华午拾: 与女民兵一道成长的日子》

我1976年高中毕业下放到皖南山区烟墩镇旁的尤村。不久赶上了“双抢”(抢收早稻,抢种晚稻),真地把人往死里累。双抢是一年挣工分的好季节,给双份工分,有时甚至给三倍,连续20多天,天不亮起床,到半夜才回,再壮的汉子都要累趴下才能休息半天。人民公社给双倍工分这种变相的资产阶级的“物质刺激”很厉害,不管多累,人都不敢懈怠,你怕累少上工,工就给别人赚去了,到年底分红,你分的稻谷、红薯和香油也相应减少了。其实,羊毛出在羊身上,每年生产队的收成是一个定数,工分多给少给不过是一种财富再分配的方式而已。如果单纯依靠农民的社会主义干劲,双抢跟平时同等工分数,工分总量下来了,单位工分的价格提高了,就没有物质刺激出来的积极性了。谁说经济学在一大二公的人民公社没有用处?

生产队照顾城里娃,工分给高些。于是给我们三个知青各开七分半工,相当于一个妇女全劳力的工分,包括早饭前上早工两个小时,否则只有六分半。那年十分工值RMB0.65元。我在妇女堆里干了半年多,年底分红,赚回了所有的口粮,外带半床红薯和四五斤香油。

妇女全劳力多是年轻的姑娘或媳妇,个个都是干农活的好手。尤村的十几位风华正茂姑娘组成了一个“女民兵班”,不甘寂寞,活动有声有色,曾名噪一时。不过到我去的时候,已经式微,因为其中的骨干大都到了嫁人的年纪,近亲远媒各处张罗,集体活动不能继续。尽管如此,跟女民兵在广阔天地一道成长,在当时是充满了革命浪漫主义的色彩的,让人沉迷和兴奋。干农活的辛苦也去了大半。

我们村村长人很精明,但脾气暴躁,又是光头,让我既怕又厌。倒是他家四个姐妹一个个如花似玉,大妹妹记不得见过,应该是外嫁了。二妹三妹都是女民兵班的主力,小妹妹刚十四五岁,皮肤白嫩,见人脸红,在社办一个作坊里做工。二妹(我叫二姐)刚嫁给本村老队长的弟弟,一个高个帅气的小伙子,感觉有些愣头青的样子。自由恋爱的,算是姑娘们中最幸运的了。刚去不久,这位二姐被照顾在场上打谷,没有下水田。我跟她一起干活,场上就两个人,总是她照顾我。从那时就落下了心猿意马的毛病,直到有一天发现她肚子越来越大,才意识到她跟其他民兵姑娘不同,原来是媳妇级的了。

2019年三月23日巧遇二姐和姐夫

后来跟三妹及一帮姑娘媳妇一道,在田里薅草(就是用耙子在水田里把杂草掀翻,不让杂草长出来),三妹总是侵犯我的领地,把她的耙子探过来帮我。没有她帮忙,我大概一半的速度也赶不上。我老指责她,“不许侵犯”,她总笑而不答,我行我素。三妹模样很好,稍微有些胖,很壮实,象个铁姑娘,但善解人意,脾气性情好得赛过薛宝钗,是我最心仪的。当时媒婆正在给她提亲,我离开村子不久,她就嫁了,听到消息后心里很不是滋味。

这些农家女在我看来都是仙女。从小在那样的艰苦环境中,却一个个风华正茂,英姿飒爽,而且不失农家女的善良朴实和冰雪聪明。我觉得当地没人配得上她们,她们自己也企图跟命运和媒人抗争,不过最后都一个个嫁走了,消没在人海中。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白109:深度学习的猪与符号逻辑的坎儿》

李:刘群老师转了一篇好文:The Bitter Lesson ,机器之心翻译过来了,《AI先驱Rich Sutton:利用算力才是王道,人工智能一直在走弯路

是以历史事实对符号AI和规则NLU的批判。人的方式就是符号逻辑:这样比较舒服,容易理解。但是面对依赖蛮力(算力)的海量搜索和海量学习,符号逻辑显得单薄。无论多么 bitter,历史事实(speech,vision,MT)很难回避,不得不承认。剩下的问题集中在:

1. 可解释性/可定点纠错性

这是不是蛮力/算力的死结?符号逻辑不存在这个问题,by definition,它就是人可解释的。但实际上,可解释性只是一个表象,因为稍微复杂一点的任务,符号逻辑的模型和算法理论上虽然可解释,但实际上也不是容易说清楚的。

白:过程的可解释性和表示的可解释性是两个不同的issue,没有人苛求过程的可解释性。但是表示的可解释性不同。明明有合理的显性表示,非要把它“嵌入”,这就说不过去了。

李:那是。另外一点就是,可解释性背后的东西似乎更重要,那就是定点纠错的能力。因为是符号逻辑,甭管路径多复杂,专家真想 debug 的话,就可以追下去。学习的模型就很难。可解释性/可定点纠错性,这是符号派还可以拿得出手的一张王牌。第二张王牌就是:

2. 不依赖海量标注

这第二张王牌,也越来越让人“担心”了。倒不是担心无监督学习,或者迁移学习会突然有革命性突破。而是实际上看到的是一种渐进的改变。

第一个改变是所谓预训练的进展。的确从方法论上 把通用的模型与应用的需求做了分工,使得对于后者的标注要求理论上是减轻了:这还是正在进行的过程。但预计不会太久,不同的效果就会显现得更有说服力。方向上,很看好预训练的作用,现在只是一个开始,但已经很让人兴奋/担心了。

第二个改变是,很多标注数据可以半自动收集,通过各种方法,各种 tricks,加上时间积累效应,再加上调动用户积极性的“引诱式”标注的反馈,等等。大规模标注数据的人力要求 并不总是想象的那样无边无际和困难。

白:问题是:什么标注?标注体系的科学性,决定它的天花板。标注含不含复杂结构?如果含,又能自动标注,那还训练个啥,就是解析了。如果不含,怎么保证能“命中”目标语言?命中场景,而不是命中“端到端”游戏?

李:“复杂结构”和体系天花板,这些深层符号逻辑的东西,当然也可以是王牌。靠蛮力/算力的端到端学习可能难以应对。但是深层逻辑的东西,感觉上,在 real world 的任务中,占比不大。可以拿来说事,实际限制往往不大。

最近遇到一个同好,聊起来,朋友对我的符号悲观主义很不理解。说做了一辈子的符号了,“李老师”怎么自己跟自己过不去呢,灭自己威风,长他人志气。

这要看年龄段了,到了这个岁数了,威风志气都是小事,不值一提,主要还是看解决问题的能力和潜力。对于上面几张“王牌”或挡箭牌,估计还要两三年的时间可以化解,或见分晓。到那个时候,可以比较确定地看到符号路线的合理定位。到底有多大价值,如何相处和自处。相信不会“蒸发”,但定位成秘书或打杂的可能性,感觉不是完全不可能的事儿。

白:包含/容纳结构,是NLP不同于普通视觉任务的根本特质。深度学习的猪飞不了多久了。

李:“包含/容纳结构,是NLP不同于普通视觉任务的根本特质”,这话自然不错,可是MT是NLP呀,没有结构,NMT 达到的成就,不得不信服。唯一的退路就是,MT 太独特了,端到端的数据是几乎无限的。这自然是 NMT 奇迹发生的根本原因,但逻辑上这个奇迹反驳和弱化了 没有显性结构,学习难以完成NLP任务 的立论。当然,我们总可以找到 NMT 里面的痛点和笑话,来反证其缺乏结构的短板。可事实是,这些痛点和笑话确实没有什么统计意义,对于任务完成的整体效果,其实影响没那么大。对于传统的文法翻译派,NMT 是一个真正的苦果,又是一个不可逾越的标杆。

白:MT的成功是不可复制的。而且MT不是场景化的。这意味着它只能是陪衬。在核心应用的智能化方面起的作用很边缘,算不上什么苦果。

李:做过RMT很多年的人体会有所不同。苦果是说,曾经相信只要自己努力,RMT就可以创造奇迹,直到有一天发现,这是一个无法匹敌的力量对比。所谓“臣服”,大概就是这样。

白:我们提倡黑白双煞,提倡端到端和场景化并举。端到端不适合做产品,也不适合做整体解决方案。2B尤其如此。场景必须是黑白相得益彰,甚至是白远远大于黑。黑盒子做场景先天劣势。

李:场景化怎么说法?我以前的说法就是 NLU 支持 domain porting,NLU 做得功夫越足,domain 落地这边就越轻省,场景化效率越高。

白:我认为,在过程、控制这些地方,神经大用特用都没有关系,在表示则不然。

做场景化的,千万别被MT带歪了。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“让不让我们上学的人见鬼去吧!”》

白:“他们还把不把领导放在眼里了?”

“把不把”,必选格介词加“不”构成疑问句。

N+ X++ N+,先由“不X++”与“把N+”结合,再由两个N+合并,其中后一个N+携带构式标签,符合白名单要求,进入合并merge操作。介词“在”,引导状语时是“S+/N”,引导补语时是“+S/N”。

李:他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了 ??

应该是等价的。说明选择疑问句,可以从动词的重叠式,转为副动词(介词、助动词)的重叠式: X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 -- 开车去不去南京 -- 开不开车去南京” : 貌似有细微差别。

“被他揍了 -- 被他揍没揍 -- 被没被他揍”??

介词重叠识别以后,就成为一个介词了,后面该怎么走怎么走。唯一需要注意的是,介词重叠得出的“选择疑问句 or-Question” 应该从介词身上,传递到谓语身上。这样就保证了 谓词重叠与介词重叠的解析,是一致的。

还有的助动词 “是不是”:我们去不去?== 我们是不是去?

“有没有” 也是助动词:他们去了没去?== 他们有没有去?

白:“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解,但独立副词不行:狠不狠抓,严不严打,难不难为情;*马上不马上动手,*狠狠不狠狠打击,*太不太硬……

对副词的选择问句,要在副词前面加“是不是”。

李:“是不是不方便”

* 不不不方便

梁:要不要马上动手?

李:是不是要马上动手?

马不马上动手?

梁:没这么说的。

李:听得懂呀,不留神这么冒出来 也是可能的。中文重叠式有时候真绝。

白:*立不立刻转账

李:“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ......

完成:有没有立刻转账;现在:是不是立刻转账;未完成:要不要立刻转账。

白:“让不让我们上学的人见鬼去吧!”

李:这个句子很绝,很绝。能注意到或想出这样例句的人很神 很神。句子“鬼” 啊。

让不让 (重叠式)vs 让/不让 (非重叠式)。试比较:

“叫不让我们上学的人见鬼去吧!”
“让不让我们上学,我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧!“

不好整:重叠式处理离词法较近,远远早于 VP 的句法阶段,二者纠缠的时候,除非特地做休眠唤醒,很难协调好。真要做,唤醒的思路是:让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句(imperative)语气不兼容。这是个唤醒的 trigger:不能够一边说 让还是不让 一个event 发生,一边又说这个 event 是祈使的。要祈使,就是定下了 event 的走向;要选择,就是没有定下这个 event。譬如:

“你给我滚!”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse,哈哈哈 果然中招:

这个解析“几乎”无可挑剔,until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ,这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气,无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒,可以搞定,但是显然不值得了。词驱动的休眠唤醒是定点解决问题,只要能落实到词,总是可以实现,虽然琐碎,实现起来其实不难,问题出在:1. 真地不值得:都是些长尾中的长尾,做了与不做,系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提,就是对于需要唤醒的另一条路径解读,需要有预见。

其实没人真地去做那么多“预见”,所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来,这个技术虽然机制上平台上可以实现,但没有有效的保证可以全面铺开,防患于未然。换句话说,对于小概率的长尾错误,值得做的方法应该可以 scale up,这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打,见到了才能想到去实现,这虽然比束手无策要强,但实践中也还是不能有真正的效果。词驱动就是零敲碎打,专家编码词驱动比愚公移山还要愚。

学习搞不定,专家又不够愚。难!愚公累了,不愿移山,能等得到上帝吗?

可scale up 的长尾处理案例也有, 譬如 成语泛化(所谓 “1234应犹在,只是56改”),大多可以自动半自动批量进行。得益于成语的 ngram 特性,可以让成语词典自动增加变元 实现泛化 而且不用担心损失精准。

其实,没有比愚公更渴望自动化的 ---- 如果自动化能搞定的话。那天与@毛德操 说,我对于完全自动化存有1%的念想,奇迹很难发生,但是毕竟见证过奇迹的发生,譬如NMT。

白:前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看,“给不给”中招不?

“他给不给自己理发的问题还没有答案。”

无论如何,局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转,关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”,不用等到撞上南墙,只要先前的构式带上坛坛罐罐,速度立马下来。局部次优解没有睡死,还在梦游,梦游速度可以反超。

“打死人要偿命,打死人就不必偿命了。”
“打死了的人无法再说话,打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了,相谐知多少?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白108:“他就是要裁你的人”》

李:看一下结构歧义的例3 “他就是要裁你的人”,如果你是个兵 手下无人,这句对你就没有歧义。如果你是经理 麻烦了。

你说:裁我的人 痴心妄想!
我说:拜托 他才不要裁你的手下呢,他是要炒你的鱿鱼!

你说会不会很糟心?

  1. 他就是要裁你
  2. 他要裁你的人
  3. 他就是要裁你的人

白:“你的人”局部优先于“裁你”,这没有错。

李:本来是靠相谐度 力量对比,可是 “你” 和 “人” 都是 human。遇到双关式歧义,傻了。小概率事件发生了。

有意思的是,解析器做了一个候选定语M2,貌似为另一路的解读留有一些端倪:“你的人(your men)”。O 与 M2 不兼容(XOR),虽然借的是AND的表示,这是另一个相关话题了,叫做“如何用确定性数据流表示非确定性结果和歧义”,找时间再论。

上述歧义是不难识别的。中文的【V N1 的 N2】,与英文 PP attachment 句式【V NP PP】有一比,都是结构歧义的典型句式。为什么常常不愿意花力气去做结构歧义的识别工作?

与计算机语言不同,自然语言的特点就是有歧义,NLU的任务就是消歧。彻底消歧不容易,因为需要调动很多知识,不仅仅是语言学知识,还包括常识、领域知识和场景知识,这些知识的作用力不同,最后人是怎么综合各种力量对比做出理解的,是一个不好拿捏的过程。形式化建模有挑战。

然而,与词汇歧义的琐碎不同,结构歧义句式清晰,有迹可循,从理论上是可以识别的。识别歧义不需要世界知识,语言学内部的知识就足够了。结构歧义不是难在识别,而是难在识别了以后如何利用各种知识去进一步过滤消歧(剪枝)。

所以有人建议 nondeterministic parsing,把歧义都识别暴露出来,把球踢给接盘的人。这里面的argument就是,识别问题是解决问题的第一步,总比糊里糊涂好。但是实际上,虽然这是一个可以做的事儿,我们却选择不做非确定性输出。只要算一下账就明白为什么不做是更好的对策。

假如一个结构有两个解读,非确定性输出两个路径(解读),在难以确保后面模块有相当把握和精度消歧的情况下,其实不如从一开始就规定系统只能输出确定性路径,宁愿冒过早剪枝的险。(如果后面的落地方向是支持结构检索,俗称SVO搜索,那又另当别论,因为搜索讲求的是召回,非确定性比确定性的支持更有利。)

人对于二叉歧义(a|b)的理解,不外是三种情况:1. a;2.b;3. a|b:其中,3 是不可解的歧义,即便调动现有的知识,歧义还是存在(如 双关语),是小概率事件,可以忽略。剩下的1和2不是均匀分布的,常见的情况是一种可能比另一种可能要大很多。

这时候,确定性系统在数据驱动的系统开发环境中,就会自然偏向于输出可能性大的路径。数据打磨越久,这种趋向越稳定。如果是不确定性的设计原则指导,就会不断追求召回,干扰了对于最大可能路径的目标追求。一般来说,最终结果自然是不合算的。换句话说,在实践中,不是不可以做到很好的召回和识别出(几乎)所有的歧义,但这个工作肯定会干扰集中精力逼近正确的目标。

自说自话半天,其实是自己给自己的“懒惰”寻找背后的动机,今天算是悟出来的。的确事出有因。很久了,一直觉得应该做也有能力做的这件识别所有歧义的事儿,一直没下决心去做。果然不仅仅是懒惰。既然如此,就有理由继续懒惰下去,好把精力放到更合算和有价值的地方去。

白:合算不合算的思维,不是极客思维。极客没有挡箭牌。

李:一般都是天然地批判 “(过早)剪枝”和确定性数据流,终于找到了这个做法的 “说得过去” 的理由和实际好处。当然前提是把开发看成是一个漫长的数据驱动的打磨迭代过程,今天的看似确定性输出的错误,到明天就纠正了,虽然同样是确定性输出。不确定性是假设在不必迭代的情况下,为后期应用保全潜力。迭代思维把这个后期消歧的假设转换成迭代过程中的前期消歧(譬如一条粗线条规则引起的歧义,在迭代中变成了粗细两组规则,消歧了也就没有非确定性了)。极客不极客,不重要。

白:很多技术可以让剪枝成为伪问题。合理的歧义也许就是前后脚的关系,伪歧义也并非始终寸步难行。允许依序择优梦游,天塌不下来。例如,坛坛罐罐走不齐——各种局部解析非等速前进,就可以把剪枝问题化解于无形。你永远无需做是否剪枝的判断。只要“长芽”被无限期推迟,事实上就相当于剪枝。但是无限期推迟只是一个后果,并不是一个决策。

李:在缺乏厚度或深度 没有足够施展空间的情形下的问题。换了架构 就可以化为伪问题。原来的痛点 逐渐消解了。

白:截流的点可以设置。出一个解析和出N个解析,就是截流阈值的选择而已。所有有语言学意义的判断,都融合在优先级机制里了。截流阈值的选择与语言学无关。

“他就是想利用你,并且在利用完了就杀掉你的敌人。”

“就是”可以带体词性表语,也可以带谓词性表语,造成歧义。“利用”、“敌人”是负面sentiment,“杀掉”可反转sentiment。如果带谓词性表语,从“利用”得知“他”为正面,从“杀掉+敌人”得知“他”为负面。拧巴了。如果带体词性表语,“利用”和“敌人”相谐,“你”和“杀掉”、“敌人”不两立,于是“杀掉”和“敌人”也相谐。这个才是正解。

李:我经常纳闷。白老师冒出来的那些例句是怎么回事。肯定是平时有心,对数据超级敏感,这是数据驱动的角度看例句的收集。数据驱动的有心,本质还是被动的。另一个角度应该是主动的方向性收集+发挥?就是在多种因素中,有意识瞄准冲突最戏剧化的案例。譬如 句法与常识的冲突,惯性与转向/刹车的冲突。

白:嗯,似乎有一种直觉,能筛选出哪条语料对于我来说是不寻常的。

李:中文的【V N1 的 N2】,主要看 V+N1 动宾相谐度与 V+N2 动宾相谐度的力量对比:

“卖火柴的小女孩”
“卖小女孩的火柴”

卖的是东西,不是人。

白:超相谐的填坑>修饰>相谐的填坑>不相谐的修饰>不相谐的填坑

李:这里面貌似有距离因素,修饰距离近 动宾距离远,所以 同等相偕 修饰大于动宾。

白:【笑而不语】

三个境界:1、能单独处理“就是S+(重读)”;2、能单独处理“就是S/2N(轻读)”,其中修饰>填坑;3、能综合处理“就是S+||S/2N”。3又分:“正解+伪歧义”和“真歧义”。境界2中,一度占先的解读推进到某处卡住了,另一个解读后来居上。

“这是卖女孩的小火柴,不卖男孩。”

“卖”的间接宾语坑也来凑热闹了。只要相谐性并无禁止,就可以激活。

李:昨天我想的反例是:“这是卖小女孩的人贩子”。

白:无所谓反例,就是前后脚的事儿。不使用常识(事理),就是歧义。谁比谁先一步都是可能的。这种优先级上的误差,是在容忍范围内的。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《目标导向的质量保证怎么强调也不过分》

我是我家的铲矢官。早晚两次,每天换猫砂,有机会观察猫咪是怎样使用卫生间方便的,很有感触。

猫咪是著名的五讲四美物种,无论多么内急,方便后都会特别仔细收拾干净,绝不像有些国人(或歪果仁),有随地大小便的恶习。

仔细观察,发现猫咪智能水平不一。行动虽然敏捷,但方向感差。嗅觉超灵敏,但动作很盲目。每次掩埋清理大小便,再笨的猫咪都会做得让人挑不出毛病来。怎么回事呢?

原来是目标导向( goal-driven),反复检测以求质量保证(QA)。先是用鼻子去闻味道,凑得很近,确定目标。然后要爪子扒拉沙子,扒拉的速度很快,其实没啥章法,一多半落在目标之外。不是很讲效率。但是,猫咪的优点是,反复鼻子核查,反复爪子动作。宁滥勿缺,不厌其烦。

可见,质量不是靠耍小聪明,而是靠目标导向的劳动保障的,QA比巧妙重要。

所有的端到端系统其实都是这个原理。天知道内部做了多少虚功 绕了多少弯路。但是,端到端的好处是目标明确。只要有不达目的不罢休的劲头,有作为目标的海量数据,没有不成事的。

想起来20年前开始做个人网页玩,学了点 HTML. 后来MS Word 等,所见即所得,做各种图文并茂的网页都很容易,满意了,save as HTML 一切搞定。出于好奇,有时候会看看那些自动生成的 HTML 编码是怎样的。与自己手工编码比较,那叫一个繁复,绝对不是人认为的到达最终显示效果的最佳路径。很多冗余,弯路,叠床架屋,看上去的无用功。但没关系,最终结果是确定的。

这件事给人的启发就是,不要怕“累着”机器。累死机器是不用偿命的。冗余给人的感觉是负重。人们容易忘掉的是,冗余带来的安全和周密。

专家编码也应如此 目标明确后大多就是个力气活。不必追求精巧和概括性 不怕冗余和无用功 只要在目标导向中打磨迭代,甚至东一榔头西一棒头也不怕。可怕的是没有目标和QA。

自然语言就是猫屎,不妨学学猫咪的卫生习惯和质量保障。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“以前没钱买华为,现在没钱买华为”》

这两天社会媒体疯了一般,华为发布折叠式大屏5G手机,超级昂贵,17000 元,让苹果 X Max 失色,赚了多少眼球啊!在美帝国主义处心积虑定点打击挤压的不利国际环境下,华为终于凭实力秀了一把。

于是朋友圈开始重传这个著名的段子:“以前没钱买华为,现在没钱买华为”,大家感叹中文太玄妙啦,看NLU如何应对。微信沙龙的老友开始议论纷纷:

马:新句式:以前没钱买华为,现在没钱买华为。

白:缩合因果复句 vs 兼语

这是啥情况?

不在于是什么,而在于怎么得到。华为自身从低端到高端的历史是唯一线索。否则,反过来也不能说错。

李:好咱来解析解析:“以前没钱 买华为”

国人爱省略小词(“所以”),所以 NX(接续:next)常常表示因果,相当于then:“以前没钱” then “买华为”。倒是想买苹果,可买不起啊,总不能卖肾吧,也就只好拿华为凑合了。华为贱啊。

“现在没钱买华为”

怎么样?电脑不傻,这华为也太贵了,没钱买(cannot afford)呢。

自动解析是靠谱滴。

玩的什么 trick 呢?眼睛睁大一点看,前一句input有了个空格呢。但并非空穴来风,不信问小川老师,他在苹果Siri专门做语音的。

语言背景是,虽然省略小词是国人偷懒的坏习惯,但是口语中的停顿趋势应该还在,语音识别是可以、也应该捕捉的。既然有停顿 转写的时候 起码应该加个空格吧 对于解析 这就齐了:“过去没钱 买华为  现在没钱买华为”。

可是,人比机器差劲,完全的自私,彻底的懒惰,人写字硬是连空格也懒得加!这就逼迫听话的人去调动世界知识了。可华为手机由贱到贵 这种世界知识(而且是动态知识)大海一样无边无沿,这不是“欺机太甚”嘛。国人宁愿靠这种知识 也不愿按一下 spacebar,你说中文玄妙还是操蛋?

网上也看到规规矩矩加了标点的:“过去没钱,买华为;现在,没钱买华为。”

白:以前有人戴头巾,现在有人戴头巾。

李:异曲同工。以前有人(来/在的时候)then  戴头巾,现在有(某个)人戴头巾。

“以前有人罩面纱,现在没人罩面纱”。

加个空格有那么难吗?“以前有人 罩面纱,现在没人罩面纱”。

“以前有人(的时候)then 罩面纱,现在没人罩面纱(即便人来)”。

白:为啥不是更自觉了呢,阿富汗,伊朗,都走了回头路。

李:也是一解:“以前有人(的时候)then 罩面纱,现在没人(的时候)then(也)罩面纱”。这是什么美德?

【相关】

华为手机刷屏:全球首款、5G+折叠屏又一个元年来了

【汉语句法的挑战之一:if-then的简约式】

泥沙龙笔记:汉语就是一种“裸奔” 的语言

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白107: 让人咬牙的中文定语从句嵌套】

白:“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”

“软件开发人员”和“……公司”居然并没有从属关系。

从外向内比较清楚,从左到右就太累了:吸引-人员;依赖-公司;切断-权限。

李:难哪!

“依赖-权限/软件/公司/人员”,啥都可以依赖,所以搭配相谐没啥用。“吸引 - 用户/公司/人员”,也都可以的。

白:不是用相谐排除异己,而是用相谐先到先得。

李:那样的话,可能可行的办法是从内向外,而不是从外向内。先一杆子深入内部 做 (V1 …O1),然后做 中间的 [V2 …(V1 …O1) de O2],最后做最外层的 {V3 …[V2…(V1…O1) de O2] de O3}。这种类似内嵌套的结构,绕三层算是极限了,超过三层嵌套,去它的。(定语从句有 “的” 作为标记,用了超过3个 的 的定语从句嵌套,少见而“缺德”,可以不管。)

从内向外的思想,30多年前,刘倬老师在小黑板上解说过。这可算是NLP掌故了。说的是 如果把 VP 解析的方向,由从左向右一个模式一个模式的匹配,改成由右向左,那么就可以一杆子伸到最内层的 VP。这个技巧可以一次扫描对付不限层的右递归。

上面的类似定语从句嵌套的结构 在一杆子自右向左捅到最内层VP上,有类似的表现。所以说,从内向外层层规约是可能的一个途径。

从外向内 难行在 搞不清该放过内部的什么材料。从外向内 以前提过,如果是强搭配,还是可以的。以前提过的现象是 句首词 与 句末词 往往有关系 可是跨度是句子极限 因此 要指靠自底而上 自内而外 的解析和短语结构的规约 来拉近二者的距离 很难。因为难保解析步步都走对了啊。但是天涯若比邻的一个简单办法 就是把句首和句末接起来。让句子从一条线 变成一个圈儿。天涯立即比邻了,这时候如果发现有搭配,那还犹豫啥。parsing 以句为界,远距离最远不过句首句末。一个长江头 一个长江尾 郎有情妾有意就好了。

almost there!

“依赖”的是“公司”,而不是“人员”,能改进这个就齐了。parse 直到 ”不想依赖可以切断用户访问权限的公司的软件开发人员”,难为它了。这个跨度已经达到 13 个节点 足够长了。要想翻盘 必须更大的上下文。

也不是没有痕迹。trigger 在 那个 NX (next) 上,可以做休眠唤醒的 trigger。正常的 parse 是没有断点的 现在有了 NX 断点,就可以尝试另外的结构路径了。“那些”常常率领一个很长的 NP 而不是自己单独做 NP。如果是 NX 联系的是NP,“那些”就跟它接上合并了,断点消失,休眠就唤醒了,这个顺理成章,很好实现。可惜,NX 接的是个长长的内部结构复杂的 VP(“依赖”统率的VP子图),如何着手改造内部结构呢?唤醒休眠就难。

几乎没指望了,但是真要做,就可以尝试在 VP 里面翻盘。目标还算明白,就是要把 VP 改造成一个 NP 好与 “那些” 结合。挺累的。

白:就是假(du3)定(bo2)最外层括号只有一对

李:办法是有的,到这地步 要做是可以做的。犹豫的原因是:1 值得吗 毕竟这类现象已经有点长尾的样子了。2 更要紧的是,做下去有点太强力了(brute force),容易弄巧成拙,维护成本大。当然如果有自动的办法 另当别论。专家做,到这地步,就非常犹豫,往往下不了手。

白:切断权限,对登录是负面的,于是切断权限的公司和从属于该公司的人员对登录也是负面的。吸引,对登录是正面的。从sentiment角度看,伟哥的图里,不论NX怎么解释,只要把“吸引”传导给“人员”,必然拧巴。

李:要把这套推理带到休眠唤醒去 也很难(尽管其实 sentiment 是同时在做的,符号逻辑推理的基础都在。)。

白:都变成动态优先级的加减分,水落自然石出,此消正好彼长。

李:专家编码不行。头脑感觉不大够用。必须承认人算不过机。

白:唤醒也不是唯一路径。可以半睡半醒,可以梦游,你走百步我走五十步。

李:NLU 太难了吗?今天讨论的算是一例。可以摆个擂台,哪一位出来溜溜?

微博贴出后,王老师试了试神经MT,MT权威刘老师也惊叹:

刘群MT-to-Death:这个句子机器翻译得太好了,原中文句子人理解起来都很费劲。//@王伟DL: 对于“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”,试了一下有道“This approach appeals to software developers who don't want to rely on companies that can cut off access”

王伟DL:就时常在想,翻译都这么好了,那么句法分析会做不好?常有削弱自己做parser的动力。当然,这种end to end翻译路线,与描述句法结构的路线是不同的。若是句法分析做得也很好了,那么提取知识图谱等,及更复杂依靠句法分析基础的阅读理解等就更是春天漫步,鲜花朵朵开了,可现在好像还不是这么回事。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

语义沙龙小品:从侯宝林的四字相声说起

包容歧义与模糊理解是自然语言交流的常态

刘:侯宝林几个说方言的相声也印象深刻,一个是说宁波话像唱歌的,另一个是用几种方言模仿晚上起来撒尿的对话,想起来都好笑

毛:嗯,谁,俺,嘛,尿。

李:这里有什么玄机?单音词 成句。who / me / what / pee。说起来 最后两词 理论上有歧义:pee 是动作 还是 物体?

歧义包容的说法是 没必要消歧。因为动作也好 物体也好 背后的概念是一以贯之的 并不影响交流。对于人类在语用中惯用的模糊理解来说 包容歧义恰好与模糊理解相配。除非遇到较真的。较真的对话大体如下:

A: 我问的是”嘛”
B: 我答的是 “尿”
A: 答非所问。我问的是 你在干嘛?
B: 没错啊 我答的是 尿尿 呀
A:那我要问是什么呢?
B:也没错呀 我答的是这儿一泡尿。

嘛:义项1 干什么;义项2 (是)什么;义项3 句末叹词

尿:义项1 撒尿,动词;义项2 排泄物,名词

歧义对歧义 蛮好。消歧不是自找麻烦?

包容和模糊是人类交流的常态 省力低碳而高效。

白:侯的四字相声,省略是主要的,包容歧义义项倒在其次。

李:@毛德操 四字相声的事儿 有历史的。记得你一年多前就问我 什么叫机器理解?举的就是这个四字对话。当时没多想,觉得这都是词典里面的词(语素),有啥理解不理解的。查词典而已。词典里面绑架了语义,该啥啥,就算是解析了。自然语言理解是说怎么组词成句。

毛:是啊,“谁俺嘛尿”应该进教科书。你的书里何不把它写进去?

李:今天重提这个话头,想了想,机器可以做的,还有一些:1. 首先要确认这是两人对话的语用场景;2. 确定这是个单字句。

识别单字句 对于理解重要。组词成句的极限形式就是这个词就1个,它成了句。怎么识别单字句?就是孤零零一个字(语素)蹦出来,带有语调,前后都有较长的停顿。

好,somehow 上述两点形式化了,提供给机器,下面就可以解说机器怎么理解的了。“谁” 在单字句的条件下,在对话的场景中,它的理解就是挖了一个【human】的坑,要求给填上。在常规的多词句子中,对话的所谓解析是要知道 intent / slot,现在 slot 出来了,就是【human】,intent 因为没有谓词,理论上是模糊不清的。但是在对话场景下,这个 intent 有个标配,可以“脑补”上,机器于是知道 intent 是:谁在那儿?那动静是谁?

有了这个 intent/slot 的解析,第二句对话“我”,作为合理的回答,就自然顺理成章了。如果是机器回答,可选的答案有:是我 / 是小偷 / 没看清(谁) / ......

毛:印象中这段相声好像是侯宝林和郭启儒说的。

李:接下来的“嘛”,词典有两个义项:1. 句末叹词;2.疑问代词 what。在“单字句”条件下,排除了句末叹词的可能性,只剩下what,挖了一个【thing】的坑,有了【slot】,还是没有 intent

在对话的场景里面,单字疑问词,可以“脑补”标配的 intent 是【do(what)】,或进一步脑补为:what are you doing

于是引来回答:1. 名词:尿;2. 动词:尿。对话场景标配延长是:1. 这是尿;2. 我尿尿。顺着这个思路,所谓机器理解及其背后的场景落地,显然是有迹可循的。

毛:以模糊对模糊,以歧义克歧义。负负得正。

白:@wei “嘛”的语音形式不同。做“什么”解的“嘛”,读第四声。做“干什么”解的“嘛”,读第二声。

毛:你的书里应该加一节“谁俺嘛尿 辨”。

李:哈【自然语言答问:尿辩】。记得,语义泰山 菲尔默教授写了 The case for case,许国璋教授翻译过来就叫《格辩》。

毛:不应该是“辩”,应该是“辨”。

李:对。他是辩护他的格理论。这里是辨识/包容“尿”的歧义:【自然语言答问:尿辨】。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白106: “应用文写作助手”的金点子再议】

立委按:嘿 将来普及了 别忘了咱们做的思考和可行性实验哟。微软 office 为啥成为摇钱树 因为人总要写字吧。写作助手类应用为啥会风行 因为人免不了写不好字呀。难得的AI市场切入角度呀 别一窝蜂都去做聊天 bots 啦 已经水泄不通啦 MT 也是如此 搜索巨头把市场基本做死了 如何跟免费竞争?

白:“如果技术达到了那一步,我想不出任何问题是技术解决不了的。”

单看后半句,有歧义,而且sentiment相反。

我想/不出任何问题/是/技术/解决不了的
我/想不出/任何问题/是/技术/解决不了的

联系前半句和常识,可以排除对技术低估的意思,只留下对技术高估的意思。

李:前面那个意思 要使劲想 才想得出来。

不出任何问题/是/技术/解决不了的 == 技术/解决不了/不出任何问题

显得勉强的原因大概是 “解决”的宾语坑要求的是NP,通常不带VP。

? 解决不了野火蔓延

解决不了野火蔓延的问题。

严格说,应该是:技术/解决不了/不出任何问题的问题。

白:不出任何问题的诉求

李:对,不出任何问题 是好事。

白:谓词性成分的上位概念是体词,这没什么不可以。

李:这就回到了所谓名物化(nominalization)。中文这边,零形式的名物化是一个“鬼”,说它不存在,似乎看得到影子。说它存在,却几乎总是摸不着。容易走火。

白:另一端挖的坑只要足够抽象,就容得下这个鬼。解决,挖的坑就属于“足够抽象”那种。

李:“足够抽象” 不好清晰界定。赶巧了,上面的句子听上去还不算别扭,但是感觉很难伸展到其他的谓词。

?技术解决不了不吃饭

?技术解决不了不认真读书

白:和“那个集合”中的元素构成强搭配:

我收到了他自杀未遂(的消息)

张三不愿意正视两地分居(的现状)

括号里的名词是之前谓词性成分的上位名词,和主干谓词构成强搭配。相当于分别以主干谓词节点和谓词性宾语成分节点为圆心,以适当半径画圆,有个不言自明的交点。本体的几何。

李:我的语感可以接受:张三不愿意正视两地分居。但很难接受: ? 我收到了他自杀未遂。

白:分析从宽。

接受不接受无关紧要,不错到别人家里就没关系。

把“收到”换成“听说”,自然?

李:“听说”自然没问题。“听说” 的句法子范畴挖的坑是 Clause/VP or NP,谓词性的为先。“听说他走了”。

白:那个NP的语义本质是VP的上位。在口语里把括号里的省略掉,不影响理解。

李:对,不影响理解,意思都在,就是不符合搭配习惯,萝卜与坑有违和感。这不正是可以借助机器的地方吗?让机器来帮助把句子写顺,前几天提出过这个利用MT倒腾的小窍门:告诉你一个写外语避免常见错误的实用技巧。

可以试试:

我收到了他自杀未遂 --》 I received his attempted suicide --》 我收到了他企图自杀的信。

哇塞,加了 “的信”二字,听上去顺溜多了。截个屏,留存个突破天花板的神(经)迹。(好玩的插曲:“自杀未遂” 来回一倒腾 成了 “企图自杀”,意思没变。)

不得不说,MT发展到今天的“神经”程度,在信达雅之外,多了一个“改良”的维度。以前谈“信达雅” 是以原文作为天花板,然后讲的是翻译过程中 如何尽可能达到原文的品质,从这几个角度来看。现在可以说,MT 可以让破烂的文字,翻译为通顺的文字。也就是说,目标语表述终于有了突破原文天花板的可能了。这可是违背了取法乎上仅得其中的经验法则哟。取法乎下,可得其中哪。

这个奇迹是怎么发生的?

白:这就好比,正确的理解是一些深坑(学术上叫“稳定吸引子”),错误的表达好比球放到了斜坡上,重力自会把它“吸”到深坑里去。只要放球的斜坡处在深坑的喇叭口处。

李:对。这个奇迹的发生 是一种 propagation 的结果。在大数据中,良性熏染强过 error propagation。MT 实际上取法的不是原文输入文句,那个原文只是一个种子,一个引子。真正取法的是目标语大数据。大数据的平均品质必然高于 broken Chinese (or broken English)。因此虽然 trigger 是 broken 的,结果却是好的。

白:大数据是表象。稳定吸引子才是精髓。大数据砸出坑,最后起作用是坑。

李:坑的吸引这些东西 还是需要有足够的数据才能奏效。

以前责怪过神经MT的无中生有(除了张冠李戴指鹿为马外),以为它只会产生弊端/副作用,典型的为通顺,牺牲忠实。现在看来,也有无中生有并不怎么牺牲忠实却带来了通顺好处的情形。前面例子无中生有出来的 “的信” 就是一个改良。因为大数据里面,“收到”后面几乎总是有个抽象名词,突然没有了,那就无中生有给加上一个“(收到......) 的信”。要是somehow 能改为:“我收到了他企图自杀的信息”,那就更好了。“信息” 比 “信” 更加抽象,更适合无中生有,而不产生副作用。其实相信大数据里面“收到 -- 信/信息”都是存在的 但是前者压倒了后者。因此 “无中生有最好采用抽象虚指的词填坑” 这个立足于本体子范畴知识的启发式(heuristic),在目前的模型里面不能贯彻。可以归纳出来的不同角度的启发式这种东西,还是符号系统容易带入,神经比较难。

白:这也可以通过好的本体来做。两弧相交,一样得出无中生有的东东,符号路线本身并不禁止这个。收到+“那个”也是可以的,而且更加抽象,管它是信还是信息。

李:其实 这次”MT倒腾改进表达“的实验,翻译过来的英文本身仍很破烂,如果足够好的话,第一步从破烂中文翻译成英文的时候,就应该已经克服了这个“receive … suicide“ 动宾搭配不当的问题,因为英文的 receive 也是子范畴规定宾语坑要用 NP 而不是 VP的。可惜这一步没到位。好在,翻回中文的时候,良性熏染出效果了。就是说 这么一倒腾 实际上给机器两次改正的机会,somehow 英文的大数据模型在这个数据点上 不够强。预期的改良没有实现,但是还有个中文大数据的第二次机会。

白:真想做改良这个事情,其实完全无需借道MT,作为一个独立的端到端任务,可以做得更好。

李:这就是我前几天说的,A--》A' 的主意 (见 告诉你一个写外语避免常见错误的实用技巧),不用 A --》B --》A'。直接来帮助改进文字,辅助写作,弄得好的话,这可是产品的金点子。

奇怪,写诗写词,都有人做了。写应用文这种惠济苍生的事儿,却还没人在做。这几天的实验实际上已经验证了可行性。剩下的就是产品定位和实际去做了。以后那些文秘可真地要面临失业危险了,据说多数中文系出来的文秘就是为老板写应用文 要写得比较溜 不同文书有不同规范。等到每一个应用文都训练出一个模型后,比一般秘书做得好,几乎是肯定的了。以后 秘书就是留下来 也省力多了,胡乱起草一个文书 只要意思大体在 交给机器生成规范的应用文,比自己在那儿费劲拽好多了。

白:规范就是稳定吸引子。

李:现在可以训练机器讲话,奥巴马可以用自己的调调发表中文演说,惟妙惟肖。很快,也应该可以训练机器写出不同风格的文字,越八股的类型 越好模仿。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

告诉你一个写外语避免常见错误的实用技巧

以前常常有“老外最常见的中文错误”,或者“中国人最常见的英文错误”。现在有了立等可取的免费解决方案了。就是在交作业之前,找一家信得过的网上机器翻译网站(我用的是有道和搜狗),在中英之间倒腾一遍就齐了(其实不会太久就不用这么来回倒腾,一定会有团队直接在本语言中做“翻译”,从A到A' 把不通顺的语句改写成通顺的说法,实际上就是“写作助手”类应用。)

A   --》B   --》A'

刚才到网上查老外的中文错误,见到这个:“盘点老外常错的中文语法点” 。根据里面列举的典型案例,我们试试这个技巧。

遇到的第一个错误是搭配不对:英文都是 strong,可在中文的搭配习惯上,“咖啡”论“浓”不论“强壮”:

“对不起老师,我昨天没睡好,因为喝的咖啡太强壮了”

搜狗MT: --》Sorry teacher, I didn't sleep well yesterday because the coffee I drank was too strong.

然后 翻译回去:--》对不起老师,昨天我睡不好,因为我喝的咖啡太浓了

搭配是语言学习的难点,因为每个语言搭配的习惯不同,不怎么讲道理。没个10年8年的功夫,是很难学会地道的语言搭配习惯的。我女儿从小在家听中文,周末上中文学校,现在开口闭口还是: “我不要穿这个帽子”、“我穿的眼镜 不好看”,纠正过无数次了,还是改不了。

“我不要穿这个帽子” --》I don't want to wear this hat.
--》我不想戴这顶帽子。

“我穿的眼镜 不好看” --》The glasses I wear don't look good.
--》我戴的眼镜不好看。

老师千叮咛万嘱咐:帽子是“戴”的不是“穿”的,帽子要论“顶”,不论“个”。哪里如用的时候随时上网请教一下MT呢,其实让机器把关最放心。

③ “了”这个大难点 

“我和我的老师们一起去了旅游”,“我昨天吃了饭,然后洗了澡”“了”的难点在于本身有很多规则,而且这些规则还总有例外,用在句中还是句末,用在过去还是变化,就连中国人也很难说得清楚。

MT 里面来回一倒腾,这个不该用的“了” 就飞了 :

“我和我的老师们一起去了旅游” --》I went on a tour with my teachers  
--》我和老师一起去旅游

问题是 去+V 中间不合适加“了”,可是老外(甚至老中)哪里知道啊,“went” 在他脑子里呢,出来的时候就成了 “去了”。

无论是老外学中文的难点,还是老中学英文的难点。说到底 大多是对于千千万万鸡零狗碎的与自己母语不同的搭配、语序等等语言习惯,搞不定。记不住啊,除非是没完没了的练习(drills),并且需要不间断地使用。可是大部分人做不到。可是机器没这个问题。

讲解说:“放假快来了”,“放假”是一个动词,学生经常和“假期”搞混了,说出来的句子自然不地道!

?“放假快来了” --》The holiday is coming soon. --》假期快到了。

?我打算了几个计划  --》I made several plans --》 我做了几个计划

“做-计划” 应该算顺了,至少比“打算-计划”的搭配好。不过没实验前,我头脑里想的是 “订-计划”。从有道MT转到搜狗MT,出来的还是“做-计划” 而不是“订-计划”,相信数据里面,前者比后者的搭配频率一定高得多吧。虽然后者显得更加地道,因为用的不是高频的”做“。对于搭配,其实低频率的语素(作为搭配的部件)更加地道。目前的模型显然贯彻不了这个启发式指导。

对于自然语言,生成从严,分析从宽。学外语搞不定的就是不知道如何“从严”。生成出来的外语句子就常常不顺畅,不地道。听上去就是老外。可是语言模型是在大数据上学出来的,虽然语言里面也有各种不顺畅不合法的东西,但是统计上看,飘在上面的,总是趋向于大众常说常见的顺畅的句式。因此利用MT帮助把句子“捋顺”,常常特别见效。

盘点老外常错的中文语法点”中指出了语序方面的问题:

?“我回去台湾一年一次” 用有道MT就成了:
--》 I go back to Taiwan once a year
--》 再把它翻译回中文,句子语序就顺了:我每年回台湾一次。

好,下面自己造几句 Chinglish,按照中文习惯来几句洋泾浜:

she body tall, face beautiful, head smart --》 她身材高大,面容美丽,头脑聪明 --》He is tall, beautiful in face and intelligent in mind.

语句通顺方面,搜狗MT互译是做到了把国人的洋泾浜转化成了合法通顺流畅的英文。(可惜大事聪明小事糊涂,居然把“她”错译成了“He”)

其实,我们老中之所以会整出洋泾浜英语,就是因为头脑里面的意思是母语形式表现的(诸如 “她身材高挑、盘儿靓、脑子聪明”),然后就把词汇替换成英文蹦出来。把洋泾浜翻译回中文,然后再翻译到英文,等价于直接做汉英自动翻译。

随处可见的英文错误,有些还是比较正式的通知,本来都是可以自动提醒克服的,可惜软件不到位,今天又见一例,随手做了个MT倒腾改错:

We offer our apologies to you for the inconvenience has caused you. ==》 对于给您带来的不便,我们向您道歉。
==》We apologize for the inconvenience.

比起原文啰里八嗦还有文法错,机器倒腾过来的,多么精简规范!本来这一切都是可以自动的呀。

另外 由此突然冒出个产品经理梦寐以求的灵感。可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个市场定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

盘点老外常错的中文语法点

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

2019春节,见证奇迹的时刻

2019年春节期间的奇迹。其实,说的不是刘谦换壶的时刻,那个奇迹已经成为全国人民的笑话了。

我还给央视拟了个严正声明:

中央大国,万邦来朝;堂堂央视,亿众瞩目。如所周知,魔术皆伪。然央视之伪,亦有格有调,断非所传之无品。央视之伪,拜夹层高新科技所赐,佐以不可测之隐身神术。所传之影碟,乃小人PS所得,央视保留告诉之权利。特此公告,全民周知。

也不是我家猫咪,叫卡卡的。她要写论文的奇迹,大概还需要时日才能实现。春节期间,老朽著书立说的时刻,她也从来不闲着:

代劳也好 省得我费力气啦。《阿猫论自然语言》,可能比人论得深刻 这年头啥事都说不准。我家小卡的爪子在键盘上 随机按下自然语言的句子 概率有多大?肯定不是零吧,不是零的概率 放在宇宙尺度下 等于乘上无穷大,这个比宇宙从无生物演化为有生物 进而出现人这种吃饱了还会忧虑的物种 应该是同一个量级的神迹。可惜这个奇迹,为人是见证不了的,大概只有造人的上帝才有见证的可能。

奇迹发生在昨晚。

昨天晚上 打开网络细细把川普那么长的国情咨文看了。可以点个赞 除了文采飞扬 内容丰富外,他那么大岁数做一年一度最重要的长篇施政演说 居然手上没拿稿子 一点都不磕巴 抑扬顿挫 始终保持演讲的节奏感。就连当年周总理国庆演讲四个现代化愿景 也还是拿着稿子半念半讲的呀。不知道美国用了什么高科技给总统演讲电子提词?反正现场镜头没看到啥机关。一边听 一边欣赏国会分裂的听众的众生态 一边没忘了测试口语机器翻译 打开有道词典app 点击口语翻译 把手机对着电脑视屏现场 等于是同声传译实验。

这是见证奇迹的时刻。

手机截屏 同声传译的片段。效果不错吧。当然 川普吐词清晰 也有功劳。虽然现场有噪音 欢呼声 掌声 偶尔的嘘声。

奇迹在于其稀有。随时随地可现的“神经MT”奇迹,人们似乎麻木了。可是,我是机器翻译出身,在年轻时的梦想全面实现的时代,仍然不敢相信它是真的。因此,不断在测试,在考验,在见证。

【相关】

谷歌NMT,见证奇迹的时刻

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

在机器翻译唾手可得的时代,还要不要学外语?

李:今天快讯,白宫就中美贸易谈判发表声明

Statement of the United States Regarding China Talks

For the last two days, high-ranking officials from the United States and China have engaged in intense and productive negotiations over the economic relationship between our two countries.  The United States appreciates the preparation, diligence, and professionalism shown throughout these meetings by Vice Premier Liu He and his team.
The talks covered a wide range of issues, including:  (1) the ways in which United States companies are pressured to transfer technology to Chinese companies; (2) the need for stronger protection and enforcement of intellectual property rights in China; (3) the numerous tariff and non-tariff barriers faced by United States companies in China; (4) the harm resulting from China’s cyber-theft of United States commercial property; (5) how market-distorting forces, including subsidies and state-owned enterprises, can lead to excess capacity; (6) the need to remove market barriers and tariffs that limit United States sales of manufactured goods, services, and agriculture to China; and (7) the role of currencies in the United States–China trading relationship.  The two sides also discussed the need to reduce the enormous and growing trade deficit that the United States has with China.  The purchase of United States products by China from our farmers, ranchers, manufacturers, and businesses is a critical part of the negotiations.
The two sides showed a helpful willingness to engage on all major issues, and the negotiating sessions featured productive and technical discussions on how to resolve our differences.  The United States is particularly focused on reaching meaningful commitments on structural issues and deficit reduction.  Both parties have agreed that any resolution will be fully enforceable.
While progress has been made, much work remains to be done.  President Donald J. Trump has reiterated that the 90-day process agreed to in Buenos Aires represents a hard deadline, and that United States tariffs will increase unless the United States and China reach a satisfactory outcome by March 1, 2019.  The United States looks forward to further talks with China on these vital topics.

搜狗机器翻译如下:

过去两天,美国和中国的高级官员就我们两国的经济关系进行了紧张而富有成效的谈判。美国赞赏刘副总理和他的团队在这些会议中表现出的准备、勤奋和专业精神。

会谈涉及广泛的问题,包括: ( 1 )美国公司向中国公司转让技术的压力;( 2 )加强中国知识产权保护和执法的必要性;( 3 )美国公司在中国面临的众多关税和非关税壁垒;( 4 )中国网络盗窃美国商业财产造成的危害;( 5 )市场扭曲力量,包括补贴和国有企业,如何导致产能过剩;( 6 )需要消除限制美国向中国销售制成品、服务和农业的市场壁垒和关税;( 7 )货币在美中贸易关系中的作用。双方还讨论了减少美国对中国巨大且日益增长的贸易逆差的必要性。中国从我们的农民、牧场主、制造商和企业购买美国产品是谈判的关键部分。

双方表示愿意参与所有重大问题的讨论,谈判会议就如何解决我们的分歧进行了富有成效的技术性讨论。美国特别注重就结构问题和减少赤字达成有意义的承诺。双方同意,任何决议都将完全可以执行。

虽然取得了进展,但仍有许多工作要做。唐纳德·特朗普总统重申,在布宜诺斯艾利斯商定的90天进程是一个艰难的最后期限,除非美国和中国在2019年3月1日前取得令人满意的结果,否则美国关税将会增加。美国期待着与中国就这些重要议题展开进一步会谈。

阿:@wei 文字相当棒

马:@wei 没看你说明之前,没有觉得是机器翻译的。

李:一字未改,就是搜狗MT。新闻类、IT类、科普类、日常会话类翻译都已经不是障碍了,机译已经达到人译水平,比多数人强。关键是随时随地 立等可取。所以那些写不了通顺英文的人,也不必费时间学英文了。你可以用随便写出来的中文,翻译过去,会成为一篇相当通顺的英文。不信试试搜狗MT或有道MT。译文往往比原文更通顺。从神经机器翻译的原理和目前水平看,译文总是通顺的,基本不受原文顺不顺的影响。原文只要把意思大体表达出来就好了。稍加修改,这比自己用英文拽要简单多了。

其实,可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等比需要做翻译,对于多数人是更加频繁的日常任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。常见应用文针对文体专项训练,肯定比一般人学得地道。这是无疑的。这个产品定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

最近试了试讯飞口语翻译机,日常口语语音传译也已经不是问题了。我有意用非标准的普通话,蹩脚的英文为难它,两边互译倒腾。结果都不错,常常有惊喜。

阿:@wei 怪不得现在大学英文系都萧条了 。

李:AI 各应用领域要是都达到 MT 的水平,我就同意奇点到了,然后就相信马斯克、霍金之流的耸人听闻,呵呵。胜利大逃亡,跟马斯克到火星去避难。

严:看了@wei 引用的机器翻译的文章,加上这些年飞速进展,让我更纠结了。在美国高中的儿子告诉我他不想学外语,但我太太觉得一定要学的,因为绝大多数大学入学都有外语要求。不学外语的话大学选择就会大大缩小。但儿子说得也对,学三年还是比不过机器翻译,不如用这时间学点别的,比如离散数学之类。我真拿不定主意。

瑞:现在医院里护士都用手机上的APP翻译软件跟病人用各种语言交流。虽然翻译未必精确,但足够表达主要意思

迈:@严 如果学外语用数学做代价,可能是定位误差。人应该是多面手,学外语发展另一块脑力,或许可以增加认识能力,学其他科目的成效大大提升,也未可知。

严:@迈 有道理。但通常间接效益超过直接效益,需要特殊条件。

毛:如果机器翻译芯片可以植入人体,那就真的可以不学外语。

阿:@严 学语言不仅仅是学习机械的语言 看上文《【人文科大】语言赋予思维的变革性力量

李:说老实话,绝大多数国人学外语 尤其是相当数量学得很苦 很受罪折磨的人,的确是劳民伤财 何苦来哉。如果把学一门外语当作一个业余兴趣,学了可以开开眼界 了解原来思想可以有不同的表达手段。但学一门 浅尝辄止就好 除非是想专门研究语言。

瑞:马云学数学是对自己的折磨,学英语却是享受

阿:至少对语言的结构有更多了解 不学西语 就不知道什么过去式 进行时 虚拟语气等等 中文好像不教这个。课堂上学的基本没用。

李:当年学第二外语法语 第三外语俄语 回想起来 真是遭罪。现在也几乎全还给老师了。好在做了语言学家 虽然具体语言的能力是久不用就忘了 但语言学职业上还是受益。但绝对不主张 不鼓励非语言学家去学二外三外。有那时间 干什么不好。其实学英语也很遭罪,不过是遭罪一辈子了,麻木了而已。

阿:对有些人来说 语言就是一种爱好 一种游戏。你去跟打游戏的人说 你玩别的多好 他不会理睬。

李:唯一不遭罪 真正感到乐趣的是学世界语。那真是神奇的东西 学起来非常过瘾。学完了 也终于没有还回去 听说是退化了一些 阅读和写作没影响。

自然语言作为外语 基本上就是把人当机器折磨。无数鸡零狗碎的习惯用法需要死记 需要反复练习。可人脑毕竟不是硬盘啊 哪里经得起这种折磨。属于低级的强体力劳动 劳动对象是头脑记忆和条件反射。不值。

世界语不同 死记的部分被压缩到最小 逻辑和规律一统天下 学进去感觉进入了思维表达的自由世界。如果学外语只是为了开阔眼界 了解母语以外的表达方式 可以推荐世界语。

以前老觉得世界语因为没什么用 会逐渐式微。现在看来 有了机器翻译 有用无用已经不是主要标准了。剩下的就是语言的兴趣、特色和投入产出了。保不准100年后 它将成为唯一的“二外”供人娱乐 满足好奇心。

师弟轶事——疯狂世界语

这是当年学世界语的投入,师姐的夸张描述。大概与玩游戏的人入迷类似。

Nuva:学会一门外语,等于大脑多开发了一块地方,语言间链接更多。

梁:多学一门外语,等于在你的黑屋子里多开一道窗户,也让思维更加多元。会外语,才有可能接纳,至少不排斥,来自不同文化的东西。还有,学外语,得老年痴呆的可能性也减小,大脑开发的越多,得老年痴呆的可能越小,cognative reserve 比较大。

李:都是站着说话不腰疼。啥事都有个性价比、投入产出比。学外语需要投入多少时间精力,与它带来的好处对比,简直就是黑洞。而且学了以后,如果不经常使用,一多半都会吐回去。如果回报是可以看外文原文资料、出国旅游可以与老外简单会话,问路点菜上个厕所啥的,这个回报在有机器翻译的现代社会,已经不值一提了。其他的回报还有啥可以度量的?

有一种回报是,因为人与人对于外语的吸收能力差别很大,在全民学外语的环境下,语言能力强的人会有特别的优越感。女孩子一般比男孩子学外语更快,更溜,所以学外语是妇女能顶大半边天的难得机会。这些也算是特别场景下的回报。但这种优越感是建立在其他人学外语的挫折感的基础之上。如果有挫折感的人 突然悟出来现代社会有电脑,没必要进入外语这个赛道了。这个好处也就不复存在了。

总之,外语与钢琴类似。孩子愿意学就让他学。不愿意学不必勉强他学。不是学了没好处,而是投入太大,收益太小,一般来说不值。目前的教育制度还是滞后于时代,规定人人学外语。等再过20年,也许教育制度会改成不是必修。

毛:完全同意。

王:急功近利未必能学好。艺不压身,如果能做到,会弹钢琴比不会要好。会一点外语也不错。这些技能都很费时,不容易达到预期效果。

严:@wei 很受鼓舞!给儿子推荐世界语!估计只有网上资源,又要跟counselor协商了。高中里只有法语、西班牙语、日语。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白105: 结构歧义的视角和角力】

立委按:句法形式 语义常识 和 上下文场景三者 并不总能对齐。但它们蛮拧的时候 其角力决定了解读。有趣的是 人与人的视角不尽相同 因此角力对于不同的人 作用力也可能不同 因此并不是每个人对结构歧义的理解都是相同的。真伪歧义从黑白分明演变为灰色频谱。这是观测者效应和测不准原理的语言学反映吗?kidding..., but  truly fascinating ……

宋:“预约手术请到治疗室”,预约手术  是偏正还是动宾?

刘:英语可以用过去分词和不定式加以区分,中文有歧义。

李:对。预约【的】手术请到治疗室:这是定中关系(偏正),已经预约了的。【要/如果】预约手术请到治疗室:这是动宾关系,“不定式”或未完成体。

“预约手术请直接进手术室”,这大多是定中. “预约手术请到登记处”,属于动宾。

白:字数规整,偏正优先。

宋:今天上午陪老伴去医院做一个门诊小手术,是预约好的。看到诊室门口的条子“预约手术请到治疗室”,第一反应就是偏正结构,原因一是自己这个手术是预约的,之二是到治疗室,治疗室正是通常做门诊小手术的地方。结果是我理解错了。原意是动宾结构。

白:事理图谱对于“预约”的场地和“手术”的场地应该有所设定。“包子往里走”都可以,“预约手术请到治疗室”当然没什么不可以。如果是口语,重音不一样。私刻印章是犯法的。私刻印章是无效的。

“削铅笔刀”为啥没有歧义?

李:“机削铅笔刀”为啥有歧义?“手削铅笔刀”为啥有歧义?

白:看不出来。

李:en ...... 例不成理存。何况也未见得不成立:

“手削铅笔刀是削不了的 机削铅笔刀庶几可成。”

“手削铅笔刀不好用 建议购买机削铅笔刀。”

VP/NP ambiguity: 1 manually cutting sth vs mechanically cutting sth;2 manually cut product vs mechanically cut product

1 和 2 的实例 由于常识的干扰 也常常做 3 解:

3 “手削铅笔刀是老式文具 机削铅笔刀才是新产品 自动作业。”

3 与 ”削铅笔刀” 同,动宾搭配的VP 做“刀”的定语。然而,抛开常识 句法上则更趋向于 1 和 2 的结构逻辑语义。

白:想起了17头羊分1/2,余下的分1/3,再余下的分1/6的故事。这个题目到底有解还是无解,没有歧义,因为靠借来的羊分出来的方案不是原题的解。原题无解是板上钉钉的。在NLP里,靠借来的不同上下文组成(不是助力)的解读,算不算原句的解读?我认为不算。垂直于轴(纹理或纤维走向)的切削是“切”,平行于轴的切削是“劈”,与轴成锐角的切削是“削”。对于一把刀的加工过程,使用“削”的工艺,怪怪的。这是标准的伪歧义。除非是木刀或竹刀,但二者都很难再用于削铅笔。我觉得只有3是正解,1、2都是伪歧义。如果材料无轴向、无纤维、无纹理,通用的表示切削加工的词是“切”,而不是“削”。在3的理解下,“机”“手”只是在“刀”的动力传动方式上的差别,并没有改变“削”与“刀”之间的角色指派关系。人使用了错的表达,系统要做的是容错,而不是把错当歧义。

李:伪歧义与真歧义不是黑白分明的,没有一道鸿沟。当常识、场景和句法倾向性这三种东西开始蛮拧的时候,每个人的理解偏好可能不同。甚至同一个人也在不同的理解面前摇摆不定。很多事情不能深想 想着想着怎么意思就变了。所谓走一根筋就是有时候一不留神就被一种倾向性牵着鼻子走。

白:深想的过程,就是逐步接受抬杠者、犯错者角色的过程。预定义的倾向性,只要优先级足够,是不会被埋没的。非预定义的,就需要容错机制。容错往往都是有代价的,不是只有好处没有坏处。

李:刀削面,机削面条,手削面疙瘩。

白:疙瘩不会做“削”的工具吧。

李:1. 手削面疙瘩就是好吃;手削面疙瘩削不出好的疙瘩来;3. 手削面疙瘩和手削面团子有何区别?

“手削面” 和 “面疙瘩” 都是是蛮好的合成词,加在一起,左右就可以拔河比赛了。

“手削面疙瘩不如糙米疙瘩好吃”。手削面疙瘩,到底“手削”的是“面”,还是“疙瘩”?

白:结果是面疙瘩,削的是面,不矛盾。

李:白马非马呀。

白:不在一个频道。

刻印章,刻的是做印章的材料,做成了才是印章。在印章成品上再刻,就不怀好意了。

李:“现场观赏手削面疙瘩”。

白:现场观看制作成品,没有不妥呀。

李:对呀,是说【观赏+VP】,优先于 【观赏+NP】。“心急吃不了手削面疙瘩”,只能是【吃+NP】。

白:关键是NP和V的关系是制作和成品的关系。对外输出是成品还是制作过程,外部说了算。面是原料,面疙瘩是成品,削是制作过程。

李:严格说,削不出疙瘩来,只能削出面来,然后用削出来的面制作疙瘩。手捏面疙瘩 则不然,捏出来的是疙瘩。

白:疙瘩是一个微粒还是一道菜,这个有另外一套机制。削本来就不正确,已经在容错了。更准确的动词,拨、拨拉、剔,都可以有,捏不准确,疙瘩真心不是捏的。饺子的面剂,确实有“揪”出来的。

李:好像是掐出来的?记得小时候做疙瘩汤,老妈用大拇指和食指一疙瘩一疙瘩掐出来,丢进沸水中。看来 ((手擀面)疙瘩) 无疑。因为无论如何是擀不出来疙瘩的。疙瘩的特性就是奇形怪状,擀却是一个平整化过程。虽然常识如此,不细想的话,句法上的惯性则很可能是走 ((手擀)(面疙瘩))的路径(无论是作显性动宾还是定中+隐性动宾解)。音节上,2+3 的动宾结构也显得比 3+2的定中结构,服帖稳重很多。

白:反拉弧圈球,来球和去球都是弧圈。挡弧圈球,只有来球是弧圈。手抓饼,跟制作工艺无关,只是吃(消费)的时候要去抓。灌汤包,也不是包子做好了才往里灌汤。只是吃的时候感觉包子像被灌了汤。吮指原味鸡,甚至更过分。所以,构词法中的定语动词,到底参与了什么,不能光看格式,还要看动词本身。动词是制作过程的一个环节,固然可以代替全部过程。动词不是制作过程的一个环节,也不妨碍被修饰的词是一个成品。甚至只是来料。化妆舞会,舞会本身不化妆,是参与舞会的人化妆。相谐就反填,没有制作属性就细分或延展。延展可以多级。手抓,延伸到制作以后的吃。擀面疙瘩,延伸到制作“疙瘩”的前置环节。

与“削铅笔刀”更加平行的是“打狗棒”。这个格式没有歧义,刀是削的工具,棒是打的工具。逻辑主语另有安排,不在格式中出现,逻辑宾语紧跟动词,可以近似认为述宾结构就是一体化的成分。“削铅笔刀”有一个简化形式是“铅笔刀”。当分别引入前缀“机-”“人-”时,“削铅笔刀”就不复存在了,代替它的是语义等价的简化形式“铅笔刀”。所以,在“机削铅笔刀”“人削铅笔刀”当中,“削”是随“人/机”带进来的,与“削铅笔刀”中原有的“削”无关。也就是说,“人削铅笔刀”和“机削铅笔刀”均无分词歧义。都是2+3。再说有几个意思。这个2+3组合,从核心动词“削”本身来看,是“<施事>用<工具>从<原料>加工<产出物>”,其中的“原料”和“产出物”在大方向上是一个门类,二者在具体状态(比如特定部位的尖锐程度、平整程度、凹陷程度、裸露程度等)方面具有显著差别。所以,修饰指向施事、工具、原料/产出物,句法上都是可能的,语义上要根据上面的约束来排除伪歧义。首先排除铅笔刀作为“施事”:在显性定义了“工具”的论旨角色体系里,施事只是操作者、策划者、实施者,是具有智能的实体。“刀”无法胜任(以后AI发达了,就难说了)。其次排除原料/产出物,具体逻辑前面说过了,就是对原料的轴向/纹理/纤维及其加工走向有所预设。并非绝对不能对刀进行切削,而是这种切削不能用“削”来描述。这样,剩下来的只有工具了。而“机削面疙瘩”,同样的2+3组合,却自动少了工具一个论旨角色,剩下来,施事排除的逻辑更加简单:“面疙瘩”根本就不可能做“削”的施事。在“原料”和“产出物”当中,“面疙瘩”不具有“原料”所预设的形状和质地要求,只能当产出物。那么,“原料”是什么?当然是跟刀直接接触的原始面团。它有巨大的表面供刀子与切面方向形成锐角进行切削,真的满足加工走向的定义。机削面-面疙瘩,貌似分词歧义,其实分词早就搞定了2+3没商量。这不是白马非马,而是“受事”一个标签不够,必须用“原料”和“产出物”两个标签。参考一下“削苹果皮”,会发现,原料是“苹果”,产出物是“苹果减去皮”,更加复杂。还好,这还都是构词法的内容,讲究节律、利用构词常用字负载结构等等套路都应白名单制,有什么闪失也不会滥杀无辜。因为词例不同,对最终论旨角色的唯一解的选择也不同。尽管这个结构在词法和句法上无歧义,在语义的一般格式到论旨角色的具体映射中有歧义,但是实例化成“机削铅笔刀”和“机削面疙瘩”之后,都没有歧义。

李:“机削面疙瘩快极了,一削一个 一削一个,不到五分钟 削出来的面疙瘩一天也吃不完。”

“吃不完的机削面疙瘩 可以留到第二天接着用吗?”

“机削面疙瘩就是比手擀面疙瘩 粳米面条和糙米团子都要好吃 因为机削面里面有人工智能呢。”

“疙瘩还是那个疙瘩 可面有所不同啊。必须相信机器的力量。”

“可以预计 不久的将来 手擀面就会退出成品原料的市场 由机削面全面替代。”

白:VP另说。食品独有。后面例子中单独出现的“面”,有问题。手擀面、机削面中的“面”都是产出物/成品,跟“面疙瘩”中的“面”,同形不同义。

李:有无歧义会不会成为非限定问题?1 绝对无歧义;2 绝对有歧义; 3 乍一听无歧义,但经不起语境变化 以致不得不休眠唤醒。乍一听无 这类现象感觉在语言中比想象的 要多很多。这就是为什么普通 native speakers 对于歧义无感,比语言学家懵懂多了。

白:乍一听无歧义,另一个说法就是第一选择相对于其他选择存在明显优势。明显到通常会进行剪枝。不剪枝,必须外力。语言学家只不过经常职业性地使用外力而已。

李:“计算”语言学的坏处是 如果不预备合适便利的休眠唤醒机制的话 它在模型自然语言的时候 不得不处处留一手。最后造成伪歧义泛滥成灾,跟人的语感和理解完全不同。

白:外力的作用机制,可以笨拙可以巧妙,远不是只有休眠唤醒一条路。也许,往下下调一下剪枝的阈值就可以了。

李:当然不是窄义的休眠唤醒一途 那是极端情形的带有某种破坏性的操作。多层 hierarchical 的系统 基本上解决了传统规则系统的伪歧义问题,主要靠的不是唤醒,而是创造更多 更细密合理的剪枝环境和条件。靠的是 把规则组织成宽广的层级和优先体系。靠的是把系统看成是随时调控的动态过程 而不是一锤子买卖。深度是根本。一个平面不仅爆炸 而且歧义泛滥。没有足够纵深的伸展空间。

白:有了深度再看从左向右和从一而终,都是浮云。更关键的是,可比的对象一定有共同的可比的度量。不管你来自句法分析、语义资源、统计数据还是事理图谱。

李:仔细再想,“削铅笔刀” 还是有蛮拧的感觉。不同结构的音节数倾向性不同。蛮拧意味着歧义结构的角力。

<<削铅笔> 刀> 作为偏正结构,从音节数(语言形式)上看是 3-1,感觉不稳(比较常见的2-1偏正合成词“打狗棒”)。<削 <铅笔刀>> 作为动宾结构,音节数上看是 1-3,非常自然。所以形式上,VO 的结构得分,Mod 结构失分。

但是,语言还有其他力量在,其中包括常识语义。这个力量的强弱感觉因人而异:有人对语义敏感,“刀” 怎么可以做 “削” 的对象呢,不 make sense,立马否认了形式上的VO偏好。结论是无歧义。然而,习惯于不求甚解的人,常常糊里糊涂说话,也糊里糊涂听话,是其日常交流的常态。这类人可能就更易于保留动宾的解读可能性,至少不马上否决。

3-1 偏正除非已经词典里固化了(死记住了),感觉上别扭的人应该不少,所以我们说:“学马列小组”(3-2偏正),而不说“学马列组”。“看电影-瘾头” 不说 * “看电影瘾”。

3-1 偏正头重脚轻站不住;1-3 述宾则极为普遍自然:行万里路,爬太行山,吃XY饭,喝AB汤 …….

1-3 VO 已经很自然,2-3 VO 则更自然平顺:步行万里路,攀登太行山,大吃XY饭,狂喝AB汤...... (突然想到五言诗里面没做统计,但想必还是很多 2-3 VO 结构的。)

正是从这个音节平顺的角度,提出 “机削铅笔刀” 的歧义视角的。毕竟“削铅笔刀”可以 argue 说是词典里面固化了的例外,不必受音节数形式的约束。而 ”机削铅笔刀“ 肯定不是词典词,而且是 2-3。

白:“无后坐力炮”按照结构是“无-后坐力-炮”,实际读音的节奏是“无后-坐力炮”。已经不需要意识到结构了。“削铅笔刀”的实际读音结构是“削铅-笔刀”。

李:哈,角力的表现/表征之一,形式内容分裂了。

记得第一次意识到 “于无声处” 不是 “于无-声处” 而是 “于-无声-处” 的PP框式结构的时候,感觉是震撼。从小熟读鲁迅“于无声处听惊雷”未曾细想,后来有话剧《于无声处》风行,大街小巷议论此剧,有一天忽然意识到,原来一直读音与结构都在蛮拧着呢。

Despite 这些蛮拧,在很多现象的中文句法解析中,字数(代表音节数)是一个非常得力和重要的辅助条件。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【没有破灭的神话只会越来越神,看中本聪有感】

中本聪,比特币之父,神人也,神话也。最近微信朋友圈有他的传奇,不嫌其长,极为刺激,值得推荐:《成为中本聪(上)》;《成为中本聪(下)》。

看中本聪,想起20多年前中文论坛草创期的一个骨灰级传奇人物图雅(涂鸦)。早年百家争鸣,他以网文的幽默老道,红极一时。神龙见首不见尾,后人间蒸发逾20年,各种回忆,各种景仰,各种怀念,各种猜测,各种托知己。

据说这是当年鸦(图雅)与女网友瓶儿的亲密合影,恰到好处的模糊和暧昧:

瓶儿自然也是造神运动的推手(和涂鸦擦肩而过),情真念切。

结果三四年前,他决定回归,网上露了一面,在方舟子网站发了几篇文章。一个美丽的神话就此破灭。吃瓜网民闹腾一阵子后,发现神人不神,未免有些落寞,议论归于静寂。他本来也许是抱着重回江湖的某种心理,但时过境迁,他的独特性不再。似乎自己知趣,复又隐于江湖,忘于江湖。

但这次短暂复出,比起中本聪那次用区块链密钥试图验明正身,更像个败笔。好处也有,对于少数铁心粉丝,他的露面至少解除了怕他遭遇不测的忧心。但对于大众却是湮灭了一个神话(复出前有传他看破红尘,得道南美森林;有说他华尔街大发,成了怪癖的亿万富翁;也有说他隐匿江湖,正在撰写现代版《红楼梦》)。人的德性就是,无论时间、空间,永远远香近亵。已然造就了神话,为慈悲计,还是不要走向神坛,给普罗一个念想的空间。小20年都耐住了,人老了反而耐不住了。江湖已经不是彼时的江湖,在网络时代,20年太久。人不能二次涉水同一条河,昔日荣光非时间隧道不得复现。

这是2014年的事儿,我科学网博客有记:

第二个惊天新闻,新一代的网人可能完全不知所云,但对于中文互联网第一代网人,却是一个难以置信的大事件。中文网先驱者,网络作家第一人,传奇人物图雅,在人间蒸发20多年后,终于出山了!图雅的传奇,研究中文网历史的人可以找到很多的资料和回忆。他以他的实力,在稳居网文大家第一把交椅的巅峰时期,突然退出,引起的震撼和好奇,经久不衰。算起来,他如今也中年已过,业已退休或即将退休了,不知道触发了哪根神经,居然真地重现江湖了。

图雅欲返人间的新闻最早是他当年的老网友小方放的风,大约在半年前。选择小方倒也很合情理,一来当年的网友才俊,在社会媒体生活中屹立不倒的,小方几乎是唯一的一位了。再有就是,小方虽然为人苛严,自恃甚高,除了鲁迅达尔文这些先哲,活人能入他法眼的几乎没有,但图雅是少有的一个例外,小方对图雅推崇备至而由衷。图雅下凡,借力小方,当属最佳渠道,小方也有面子。可是自从小方发布这个消息后,很多当年的鸦迷(图雅也自称鸦)翘首相望,迄今不见动静,几乎开始怀疑小方是否在造乌龙。现在想来,鸦本人大概也一直在犹豫斟酌怎样的出山之作为佳吧。

终于,图雅给鸦迷和网友的见面礼最近刊发在最近一期的《新语丝:图雅 - 唐诗的心境》。我们当年都是鸦迷,此篇一出,先赌为快。文自然是好文,文字也无可挑剔,可也许是期望太大太久,总不免有些失望。 我的第一反应是:这是重出江湖的作品?欠了点劲儿。人老了,就啰嗦。风格上最大的改变是,变得老夫子了,失去了文字的活泼和俏皮。也是快退休或已退休的人了,失去年轻人的俏皮,倒也在预料之中。这是自己给自己抛砖引玉,拭目以待。最好网上能掀起一股热议,也许更加 激发他。不过,时过境迁,这篇又太淡远雅致了一些,怕是难引起太大的网坛震动。

from 《中文社会媒体的惊天要闻二则

 

【相关】

图雅作品集 - 新语丝

方舟子:怀图雅(代序)

瓶儿:和涂鸦擦肩而过

《朝华午拾》总目录

【机器翻译新时代的排座座吃果果】

刘冰老师反馈,他看了我的NLP频道的笔记(【议一议“微软机器翻译提前七年达到专业翻译水平”】)说,就我随机测试的汉译英两篇,显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人,大牌教授。我倾向于同意他。因为我自己并没有认真比照,只是一时兴起做个测试。粗粗一个印象,觉得几家大都在一个水平级,但由于种种原因而来的偏好,我更喜欢有道。

其实不妨给这几家,加上搜狗,做一个英汉的随机测试,这样更容易评判。大家可以就两点做个各自的评价:(i)是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量。(ii)学学纽约时报給美国大学排名,咱们也給这几家非正式排个座次:当然,这种随机测试免不了有波动,不能算正式的排座次结论。

今天的 USA Today 的新闻,谈普金连任,吸引了我的眼球,不妨试试。

Putin heads for big win — and 6 more years — as Russia's president:
(original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/)

Russian President Vladimir Putin — the country's longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday's election for another six-year term, according to incomplete returns.

Putin's re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator):

根据不完全的回报, 俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 "大国家队", 并补充说 "我们一定会成功"。

他说, 国家需要团结才能向前迈进, 并敦促民众 "思考我们伟大祖国的未来"。然后, 他率领热情的人群高呼 "俄罗斯!" 美联社报道。

谷歌翻译 (https://translate.google.com):

据不完全回报,俄罗斯总统弗拉基米尔普京 - 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 - 在周日的选举中再次获得压倒性胜利,任期六年。

普京的连任是普遍预期的,选举官员已经努力争取强大的投票率,宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理,使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计,从60%的选区算起的选票中,普京赢得了超过75%的选票。

下午7点莫斯科时间,当局表示,投票率已达到近60%。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人,并补充说:“我们必须取得成功。”

他表示,国家需要团结向前,敦促人们“思考我们伟大的祖国的未来”。然后,他带领热情的群众高唱“俄罗斯!”美联社报道。

百度翻译 (https://fanyi.baidu.com/):

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人,根据不完全的回报,他将在星期日的选举中获得压倒性的胜利,任期六年。

人们普遍预期普京连任,选举官员极力要求强有力的投票,以宣布一项无可争辩的任务。自1999年12月以来,普京一直是总统或总理,使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区,普京赢得超过75%的选票,根据中央选举委员会。

到了莫斯科时间下午7点,当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人,并补充说:“我们一定会成功。”

他说,国家需要团结向前迈进,并敦促群众“思考我们伟大祖国的未来”,然后他带领热情的人群高呼“俄罗斯”!美联社报道。

有道翻译 (http://fanyi.youdao.com/):

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报,他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选,而选举官员一直在努力争取更大的投票率,以获得无可争议的授权。自1999年12月以来,普京一直担任俄罗斯总统或总理,这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计,在60%的选区选票中,普京赢得了超过75%的选票。

莫斯科时间下午7点,当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”,并补充说:“我们一定会成功。”

他说,国家需要团结一致向前推进,并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译https://fanyi.sogou.com/):

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任,根据不完全的数据显示。

人们普遍预期普京会再次当选,选举官员们一直在努力争取选民踊跃投票,以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理,这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计,普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点,官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”,并补充说,“我们一定会成功。" "

他说,国家需要团结起来向前发展,并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯!”美联社报道。

老友说,不怕不识货,就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条,“是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量”?

我个人认为,这个结论是成立的。不仅仅是基于这一篇对五家的测试,以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解,加上平时做过的多次测试的印象,形成这一判断快一年了,从来没有觉得遇到过严重挑战。

第二条真要排座次呢,估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条,准确和通顺。我们就以这两条作为标准谈谈。

微软的问题:
1. 普金和斯大林错译成了同位语:“俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--;”
2. 漏译了关键的限定语“自斯大林以来”,结果是让人莫名其妙:“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词:(不完全的)“回报”(returns),(不争的)“任务”(mandate),这算小错。

谷歌的问题:
1. 不合适的选词:(不完全)“回报”(returns),(无可争议的)“任务”(mandate),这算小错。
2. as-短语挂错了地方:他赞扬那些投他为“大国家队”的人 (He hailed those who voted for him as a “big national team”,不大不小的错)
3. “we are bound for success.”(“我们一定会成功”)只有谷歌没翻对,它翻成了“我们必须取得成功”。有相当偏差。

百度的问题:
1. 选词不当:(不完全的)“回报”(returns),(无可争辩的)“任务”(mandate),这算小错。
2. 生硬,两个状语的安排不妥:“【用选票从60%的选区】,普京赢得超过75%的选票,【根据中央选举委员会】”。
3. as-短语挂错了地方:他称赞那些投票支持他为“大国家队”的人(He hailed those who voted for him as a “big national team”,不大不小的错)

有道的问题:
1. 漏译了一个重要的限定语“自斯大林以来”:“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过,有些胆大妄为,化有为无。
2. 一个小瑕疵是“根据不完全的回报”(除了搜狗,其他各家都有这个瑕疵),最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然,因为有上下文,这个译法虽然不妥,还是可以理解。

有道的通篇译文读起来非常顺溜。

搜狗的问题:
漏译“for another six-year term“ (是个不大不小的错)。其他没看到错,读起来也蛮顺。

这样看来,搜狗和有道可以并列第一。谷歌第三。百度第四。微软,对不起,你还欠了火候:不仅是比不了谷歌,其他小兄弟也比你更准更顺。(也有人说,线上的不是他们的新版,最新的技术还没进去,我们拭目以待吧)。

马少平老师告诉我,“搜狗由于做的晚,全部用的是神经翻译,有道以前是统计翻译,后来加上神经翻译,再后来彻底抛弃以前的,全部用神经翻译。百度是在以前基础上(统计翻译)加上神经翻译。可见神经翻译胜出。”

而我呢,第一次体验到神经翻译的不俗表现,是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译,语音合成自动读出来给我的感觉不亚于一个专业的口译员,让我大喜过望,赶紧“录得”现场音频分享给朋友。【谷歌NMT,见证奇迹的时刻】2016-10-2 ) 后来,百度出来说它们比谷歌更早就“神经”了,不过我并没觉得百度比谷歌质量高,所以仍然坚持用谷歌。搜狗刚开始上线,界面和用户友好(长文的翻译拷贝等)不给力,用了一下就没再看了。一两个月前开始注意的有道,发现比谷歌磨得更圆,也颇用户友好和贴心,就开始用有道(问题是有时候过分神经,为了通顺敢于牺牲忠实,这个毛病看上去是目前神经翻译的通病。)。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app.  So I shifted to Youdao.  I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day.  It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance.   Despite the name of the app as Youdao Dictionary,  we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time.  The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations.  From MT as a business perspective, Youdao seems to be gaining momentum.  Xunfei is also a big player, especially in speech translation.

说曹操曹操到,微信刚好在传这个视屏:

第一次听讯飞刘总做 marketing 哇塞!比微软还厉害。一口气下来 促销人工智能 方方面面 顺顺溜溜 底气十足。他用代表能听懂的语言娓娓道来,能给人想象的空间,果然高手,谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象,给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错 可别忘了别家也已经追赶上来了,整个行业提升的结果是,老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译,我用我夹有皖南地方口音的普通话,重复给“有道词典的app”里面的口译界面,翻译结果一点不比讯飞逊色,属于同一量级吧,截屏如下:

 

 

 

【相关】

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白宋93:汉语语序的自由与不自由】

白:
我觉得汉语语序没有那么强的作用。坑也不是非要凑齐了再咋地。应该有一种符号化的mechanism,很方便地刻画这种对语序的包容。大家之前都被误导了

李:
语序我觉得汉语没有那么强的作用
没有那么强的作用我觉得汉语语序
汉语我觉得语序作用没有那么强的
汉语语序作用我觉得没有那么强的
............

尝试结论一下:(1) 宏观语序没有那么强,虽然统计上一定是少数几种语序最常用,但语序灵活性在。(2)微观语序相对固定。譬如 上句中 “汉语语序” 不能说成 “语序汉语”,“我觉得” 不能说 “觉得我”,“那么强” 不能说 “强那么”等(不过 “没有那么强” 倒是可以说 “那么强没有”:这个有点赶巧了,遇到“没有”这个多用法的小词),但“主题化”句式有一定的打破语序的特殊作用:

语序 【停顿】 汉语作用没有那么强

汉语微观语序(phrase内部)不大自由,与有性数格一致关系的欧洲语言对比强烈:有一致关系的语言,就不需要语序来制约谁是修饰语谁是head了。汉语宏观语序(phrases 之间)的自由度,比我们通常以为的,要大很多。我们确实有意无意被误导很久了。

白:
分析用,“不能说”只是在结构作为一个组件参与排岐的时候才有用。其他情况基本不用。

李:
微观中 最显著的关系是 mods 与 head,语序不固定就产生歧义,必须固定。尤其是定中(比较:“木头沙发” vs “沙发木头”)

白:
填坑与盖帽,本来就是两种性质的东西。

李:
到了 副词-形容词组合:很好 vs * 好很 (但是我们有个 “好得很”);状语和动词: 认真工作 vs 工作认真,居然两可,虽然句式不同。

phrases 之间,语序很自由,但仔细看,也有说法。一般来说,宾语提前很常见,但是主语后置不可以,少数例外是“来 去”这些“自动词”:

三个人来了
来了三个人

宾语提前的自由度 大于主语后置,这多少因为前者的说法常见,被共同体约定俗成以后,只好牺牲后者的自由度:太多的自由容易乱套,所以一个元素的自由增加建立在另一个密切相关的元素自由减少的前提下。

白:
喜欢死我了

李:
哈 这个以前议过(【李白82:汉语重叠式再议】):“我稀罕死她:是我喜欢她
她稀罕死我:既可以是 她喜欢我,也可以是 我喜欢她。汉语鬼不鬼?”

S 喜欢死 O:(1) S 喜欢死 O;(2)O 喜欢死 S == O 让 S 喜欢死(O) 【使动解读】

我喜欢死iPhone X 了
iPhone X 喜欢死我了。

歧义:他恨死我了。
不歧义(常识带入):这破玩意儿恨死我了

宋:
汉语的语序,还是有硬约束的。“张三打李四”,一定是张三动手,李四挨打,这个语序不能乱。一般来说,施动受三个短语组成小句,无约束的全排列有6种,能使用的只有3种:施动受,施受动,受施动。当施受无法根据同动词的语义关系来区分时,后两种也不能用。

白:
施受动到底是句法关系还是语义关系?语义关系句法是可以不管的。

宋:
施受动是语义概念,但在汉语句中受语序限制,应该是语义的形式规则。句法分析可以不管,但语义分析要管。我想,用语义适配性解决不了“张三打李四”的语义分析问题,还要使用这种语义的形式规则。

李:
施动受(SVO)是逻辑语义。逻辑语义解析是分析的根本目标。归在哪个模块 分几步走 那是系统内部的事情 但目标不变。

以前说过 常识永远是软约束 而显性形式(关于“显性形式”,见【立委科普:漫谈语言形式】)可以是硬约束 软的不能代替硬的。当一种形式让我们理解了反常识的时候 我们意识到了硬约束。乔姆斯基的绿色思想(“Colorless green ideas sleep furiously”), 精妙不过如此。

硬约束举例:

1 语序: 白米饭吃了我
2 小词 “被” 和 “把”:我被白米饭吃了。白米饭把我吃了。
3 直接解说(包括用小词也用实词):白米饭对我不是吃的对象,反过来我成了白米饭食用的对象。

白:
白米饭把我吃胖

李:
“吃胖” 那种句式(vt 加 结果补语a 构成) 不是硬约束的反例,反而是硬约束的论据。这类词法变式 有严格的规则可循。不仅仅是汉语,很多语言都有一套类似的词法,自动变使动 等等。

有了结果补语,合成词词法从自动变为使动,模式的语序也相应变动,逻辑语义在这个变式中是确定的,因此其中语序仍然是硬约束。如果我们说“我把白米饭吃胖了”,虽然反常识,但语义是确定的。

直接量(小词)、语序 这些显性形式 是硬约束的基本材料,在硬约束实现到pattern的时候 是它们的组合在 enforce 硬约束。

NP1 把 NP2 Vt 了
NP2 把 NP1 Vt+Buyu

其所以后者可以转变自前者,乃是 pattern 里面所规定的语序与小词的硬约束在起作用。无论 “把” 在一种 pattern 里面引入的是受还是施 它都是硬约束能够实行的一个硬件。否则 施受和语句理解就无从谈起。如果常识语义这种软约束可以一统天下 决定我们的理解过程 如果语言学显性形式这些硬约束可以排除在理解之外,人类就不存在新的思想 不存在童话和小说 也不存在知识的更新和应付动态世界的可能。

事实上 常识是最没有信息量的知识 我们的语言交流 其关注点总是集中在非常识和反常识的部分 那才是我们的真正的信息营养。俗话说 狗咬人不是新闻(不具有太多的情报性) 人咬狗才是。

白:
歧义丰富的情况和歧义贫乏的情况,常识的作用是不一样的。歧义丰富时,常识帮助消岐。歧义贫乏时,常识无感,反常识帮助建立修辞性理解。

李:
但是 硬材料不一定是硬约束 只是硬约束可以利用的元素,硬约束离不开 pattern,pattern 才是实行硬约束的执行者,也是协调软约束的场地。是 pattern 告诉我们有个著名的软约束协调的问题 譬如 pp attachment:vt np pp,pattern 是重中之重。FSA++ 就是 pattern 描述和实行的利器和理想的形式平台 formalism,因为它最直接 直观 抓住 pattern 的描述。

白:
举个例子啊这两筐、这筐、两筐,都OK。两这筐不ok,可分析用,也不care。这pattern长啥样,挺关键的。

李:
白老师是要说 语序没大关系 不需要作为硬条件么?问题是,有的时候,它的确就是硬条件,不 care 的前提是它不留歧义的余地或隐患(其他条件足够补偿这个条件的缺失)。但这事儿很难说,至少是睡不好觉。睡不好觉是因为我们不知道它留下隐患的几率有多大。任何一个条件理论上都可以抽掉,在有些 cases 并不影响解析,但其他的一直想不到的 cases 呢?总之,如果觉得某个 pattern 的词序是硬性的(譬如 SVO 不能倒过来 OVS),那么最好还是强制实施。“两这筐” 这种要不要强制排除,存疑。毛姑姑,作为分析不强制问题不大。(当然,作为生成,则必须强制,否则不是人话。)

一般而言,我们在NLP中玩条件平衡术,松一点或紧一点,带入词序或不带入词序,主要是因为自然语言的组词成句的排列,在“法”的平面是非常稀疏的,人类已经或可能说出来的序列比起全排列只是一个极小的子集。因此,作为分析的 parsing patterns 不必要把“合法”的约束,予以全面的强制,只要针对可能的歧义做出区别即可。

完全不需要语序制约的语言理论上存在,因为语序不过就是一种显性形式,总是可以以其他的显性形式代替来表达逻辑语义。可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)标记来表达哪个词与哪个词发生逻辑语义的关系。

可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)来表达哪个词与哪个词发生逻辑语义的关系。

有了这两样东西(小词或语缀常常是表达这些东西的显性形式),语序这种形式就可以完全排除了。因此,任何排列组合都不影响解析。可惜,实际中没有这种自然语言:即便声称自由语序的语言如俄语和世界语,也不是可以完全排除语序条件而达到解析的。

 

【相关】

【语义计算:汉语语序自由再辩】

【语义计算沙龙:语序自由度之辩】

【立委科普:漫谈语言形式】

【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】

【语义计算:李白对话录系列】

《朝华午拾》总目录