《李白109:深度学习的猪与符号逻辑的坎儿》

李:刘群老师转了一篇好文:The Bitter Lesson ,机器之心翻译过来了,《AI先驱Rich Sutton:利用算力才是王道,人工智能一直在走弯路

是以历史事实对符号AI和规则NLU的批判。人的方式就是符号逻辑:这样比较舒服,容易理解。但是面对依赖蛮力(算力)的海量搜索和海量学习,符号逻辑显得单薄。无论多么 bitter,历史事实(speech,vision,MT)很难回避,不得不承认。剩下的问题集中在:

1. 可解释性/可定点纠错性

这是不是蛮力/算力的死结?符号逻辑不存在这个问题,by definition,它就是人可解释的。但实际上,可解释性只是一个表象,因为稍微复杂一点的任务,符号逻辑的模型和算法理论上虽然可解释,但实际上也不是容易说清楚的。

白:过程的可解释性和表示的可解释性是两个不同的issue,没有人苛求过程的可解释性。但是表示的可解释性不同。明明有合理的显性表示,非要把它“嵌入”,这就说不过去了。

李:那是。另外一点就是,可解释性背后的东西似乎更重要,那就是定点纠错的能力。因为是符号逻辑,甭管路径多复杂,专家真想 debug 的话,就可以追下去。学习的模型就很难。可解释性/可定点纠错性,这是符号派还可以拿得出手的一张王牌。第二张王牌就是:

2. 不依赖海量标注

这第二张王牌,也越来越让人“担心”了。倒不是担心无监督学习,或者迁移学习会突然有革命性突破。而是实际上看到的是一种渐进的改变。

第一个改变是所谓预训练的进展。的确从方法论上 把通用的模型与应用的需求做了分工,使得对于后者的标注要求理论上是减轻了:这还是正在进行的过程。但预计不会太久,不同的效果就会显现得更有说服力。方向上,很看好预训练的作用,现在只是一个开始,但已经很让人兴奋/担心了。

第二个改变是,很多标注数据可以半自动收集,通过各种方法,各种 tricks,加上时间积累效应,再加上调动用户积极性的“引诱式”标注的反馈,等等。大规模标注数据的人力要求 并不总是想象的那样无边无际和困难。

白:问题是:什么标注?标注体系的科学性,决定它的天花板。标注含不含复杂结构?如果含,又能自动标注,那还训练个啥,就是解析了。如果不含,怎么保证能“命中”目标语言?命中场景,而不是命中“端到端”游戏?

李:“复杂结构”和体系天花板,这些深层符号逻辑的东西,当然也可以是王牌。靠蛮力/算力的端到端学习可能难以应对。但是深层逻辑的东西,感觉上,在 real world 的任务中,占比不大。可以拿来说事,实际限制往往不大。

最近遇到一个同好,聊起来,朋友对我的符号悲观主义很不理解。说做了一辈子的符号了,“李老师”怎么自己跟自己过不去呢,灭自己威风,长他人志气。

这要看年龄段了,到了这个岁数了,威风志气都是小事,不值一提,主要还是看解决问题的能力和潜力。对于上面几张“王牌”或挡箭牌,估计还要两三年的时间可以化解,或见分晓。到那个时候,可以比较确定地看到符号路线的合理定位。到底有多大价值,如何相处和自处。相信不会“蒸发”,但定位成秘书或打杂的可能性,感觉不是完全不可能的事儿。

白:包含/容纳结构,是NLP不同于普通视觉任务的根本特质。深度学习的猪飞不了多久了。

李:“包含/容纳结构,是NLP不同于普通视觉任务的根本特质”,这话自然不错,可是MT是NLP呀,没有结构,NMT 达到的成就,不得不信服。唯一的退路就是,MT 太独特了,端到端的数据是几乎无限的。这自然是 NMT 奇迹发生的根本原因,但逻辑上这个奇迹反驳和弱化了 没有显性结构,学习难以完成NLP任务 的立论。当然,我们总可以找到 NMT 里面的痛点和笑话,来反证其缺乏结构的短板。可事实是,这些痛点和笑话确实没有什么统计意义,对于任务完成的整体效果,其实影响没那么大。对于传统的文法翻译派,NMT 是一个真正的苦果,又是一个不可逾越的标杆。

白:MT的成功是不可复制的。而且MT不是场景化的。这意味着它只能是陪衬。在核心应用的智能化方面起的作用很边缘,算不上什么苦果。

李:做过RMT很多年的人体会有所不同。苦果是说,曾经相信只要自己努力,RMT就可以创造奇迹,直到有一天发现,这是一个无法匹敌的力量对比。所谓“臣服”,大概就是这样。

白:我们提倡黑白双煞,提倡端到端和场景化并举。端到端不适合做产品,也不适合做整体解决方案。2B尤其如此。场景必须是黑白相得益彰,甚至是白远远大于黑。黑盒子做场景先天劣势。

李:场景化怎么说法?我以前的说法就是 NLU 支持 domain porting,NLU 做得功夫越足,domain 落地这边就越轻省,场景化效率越高。

白:我认为,在过程、控制这些地方,神经大用特用都没有关系,在表示则不然。

做场景化的,千万别被MT带歪了。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“让不让我们上学的人见鬼去吧!”》

白:“他们还把不把领导放在眼里了?”

“把不把”,必选格介词加“不”构成疑问句。

N+ X++ N+,先由“不X++”与“把N+”结合,再由两个N+合并,其中后一个N+携带构式标签,符合白名单要求,进入合并merge操作。介词“在”,引导状语时是“S+/N”,引导补语时是“+S/N”。

李:他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了 ??

应该是等价的。说明选择疑问句,可以从动词的重叠式,转为副动词(介词、助动词)的重叠式: X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 -- 开车去不去南京 -- 开不开车去南京” : 貌似有细微差别。

“被他揍了 -- 被他揍没揍 -- 被没被他揍”??

介词重叠识别以后,就成为一个介词了,后面该怎么走怎么走。唯一需要注意的是,介词重叠得出的“选择疑问句 or-Question” 应该从介词身上,传递到谓语身上。这样就保证了 谓词重叠与介词重叠的解析,是一致的。

还有的助动词 “是不是”:我们去不去?== 我们是不是去?

“有没有” 也是助动词:他们去了没去?== 他们有没有去?

白:“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解,但独立副词不行:狠不狠抓,严不严打,难不难为情;*马上不马上动手,*狠狠不狠狠打击,*太不太硬……

对副词的选择问句,要在副词前面加“是不是”。

李:“是不是不方便”

* 不不不方便

梁:要不要马上动手?

李:是不是要马上动手?

马不马上动手?

梁:没这么说的。

李:听得懂呀,不留神这么冒出来 也是可能的。中文重叠式有时候真绝。

白:*立不立刻转账

李:“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ......

完成:有没有立刻转账;现在:是不是立刻转账;未完成:要不要立刻转账。

白:“让不让我们上学的人见鬼去吧!”

李:这个句子很绝,很绝。能注意到或想出这样例句的人很神 很神。句子“鬼” 啊。

让不让 (重叠式)vs 让/不让 (非重叠式)。试比较:

“叫不让我们上学的人见鬼去吧!”
“让不让我们上学,我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧!“

不好整:重叠式处理离词法较近,远远早于 VP 的句法阶段,二者纠缠的时候,除非特地做休眠唤醒,很难协调好。真要做,唤醒的思路是:让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句(imperative)语气不兼容。这是个唤醒的 trigger:不能够一边说 让还是不让 一个event 发生,一边又说这个 event 是祈使的。要祈使,就是定下了 event 的走向;要选择,就是没有定下这个 event。譬如:

“你给我滚!”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse,哈哈哈 果然中招:

这个解析“几乎”无可挑剔,until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ,这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气,无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒,可以搞定,但是显然不值得了。词驱动的休眠唤醒是定点解决问题,只要能落实到词,总是可以实现,虽然琐碎,实现起来其实不难,问题出在:1. 真地不值得:都是些长尾中的长尾,做了与不做,系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提,就是对于需要唤醒的另一条路径解读,需要有预见。

其实没人真地去做那么多“预见”,所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来,这个技术虽然机制上平台上可以实现,但没有有效的保证可以全面铺开,防患于未然。换句话说,对于小概率的长尾错误,值得做的方法应该可以 scale up,这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打,见到了才能想到去实现,这虽然比束手无策要强,但实践中也还是不能有真正的效果。词驱动就是零敲碎打,专家编码词驱动比愚公移山还要愚。

学习搞不定,专家又不够愚。难!愚公累了,不愿移山,能等得到上帝吗?

可scale up 的长尾处理案例也有, 譬如 成语泛化(所谓 “1234应犹在,只是56改”),大多可以自动半自动批量进行。得益于成语的 ngram 特性,可以让成语词典自动增加变元 实现泛化 而且不用担心损失精准。

其实,没有比愚公更渴望自动化的 ---- 如果自动化能搞定的话。那天与@毛德操 说,我对于完全自动化存有1%的念想,奇迹很难发生,但是毕竟见证过奇迹的发生,譬如NMT。

白:前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看,“给不给”中招不?

“他给不给自己理发的问题还没有答案。”

无论如何,局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转,关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”,不用等到撞上南墙,只要先前的构式带上坛坛罐罐,速度立马下来。局部次优解没有睡死,还在梦游,梦游速度可以反超。

“打死人要偿命,打死人就不必偿命了。”
“打死了的人无法再说话,打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了,相谐知多少?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白108:“他就是要裁你的人”》

李:看一下结构歧义的例3 “他就是要裁你的人”,如果你是个兵 手下无人,这句对你就没有歧义。如果你是经理 麻烦了。

你说:裁我的人 痴心妄想!
我说:拜托 他才不要裁你的手下呢,他是要炒你的鱿鱼!

你说会不会很糟心?

  1. 他就是要裁你
  2. 他要裁你的人
  3. 他就是要裁你的人

白:“你的人”局部优先于“裁你”,这没有错。

李:本来是靠相谐度 力量对比,可是 “你” 和 “人” 都是 human。遇到双关式歧义,傻了。小概率事件发生了。

有意思的是,解析器做了一个候选定语M2,貌似为另一路的解读留有一些端倪:“你的人(your men)”。O 与 M2 不兼容(XOR),虽然借的是AND的表示,这是另一个相关话题了,叫做“如何用确定性数据流表示非确定性结果和歧义”,找时间再论。

上述歧义是不难识别的。中文的【V N1 的 N2】,与英文 PP attachment 句式【V NP PP】有一比,都是结构歧义的典型句式。为什么常常不愿意花力气去做结构歧义的识别工作?

与计算机语言不同,自然语言的特点就是有歧义,NLU的任务就是消歧。彻底消歧不容易,因为需要调动很多知识,不仅仅是语言学知识,还包括常识、领域知识和场景知识,这些知识的作用力不同,最后人是怎么综合各种力量对比做出理解的,是一个不好拿捏的过程。形式化建模有挑战。

然而,与词汇歧义的琐碎不同,结构歧义句式清晰,有迹可循,从理论上是可以识别的。识别歧义不需要世界知识,语言学内部的知识就足够了。结构歧义不是难在识别,而是难在识别了以后如何利用各种知识去进一步过滤消歧(剪枝)。

所以有人建议 nondeterministic parsing,把歧义都识别暴露出来,把球踢给接盘的人。这里面的argument就是,识别问题是解决问题的第一步,总比糊里糊涂好。但是实际上,虽然这是一个可以做的事儿,我们却选择不做非确定性输出。只要算一下账就明白为什么不做是更好的对策。

假如一个结构有两个解读,非确定性输出两个路径(解读),在难以确保后面模块有相当把握和精度消歧的情况下,其实不如从一开始就规定系统只能输出确定性路径,宁愿冒过早剪枝的险。(如果后面的落地方向是支持结构检索,俗称SVO搜索,那又另当别论,因为搜索讲求的是召回,非确定性比确定性的支持更有利。)

人对于二叉歧义(a|b)的理解,不外是三种情况:1. a;2.b;3. a|b:其中,3 是不可解的歧义,即便调动现有的知识,歧义还是存在(如 双关语),是小概率事件,可以忽略。剩下的1和2不是均匀分布的,常见的情况是一种可能比另一种可能要大很多。

这时候,确定性系统在数据驱动的系统开发环境中,就会自然偏向于输出可能性大的路径。数据打磨越久,这种趋向越稳定。如果是不确定性的设计原则指导,就会不断追求召回,干扰了对于最大可能路径的目标追求。一般来说,最终结果自然是不合算的。换句话说,在实践中,不是不可以做到很好的召回和识别出(几乎)所有的歧义,但这个工作肯定会干扰集中精力逼近正确的目标。

自说自话半天,其实是自己给自己的“懒惰”寻找背后的动机,今天算是悟出来的。的确事出有因。很久了,一直觉得应该做也有能力做的这件识别所有歧义的事儿,一直没下决心去做。果然不仅仅是懒惰。既然如此,就有理由继续懒惰下去,好把精力放到更合算和有价值的地方去。

白:合算不合算的思维,不是极客思维。极客没有挡箭牌。

李:一般都是天然地批判 “(过早)剪枝”和确定性数据流,终于找到了这个做法的 “说得过去” 的理由和实际好处。当然前提是把开发看成是一个漫长的数据驱动的打磨迭代过程,今天的看似确定性输出的错误,到明天就纠正了,虽然同样是确定性输出。不确定性是假设在不必迭代的情况下,为后期应用保全潜力。迭代思维把这个后期消歧的假设转换成迭代过程中的前期消歧(譬如一条粗线条规则引起的歧义,在迭代中变成了粗细两组规则,消歧了也就没有非确定性了)。极客不极客,不重要。

白:很多技术可以让剪枝成为伪问题。合理的歧义也许就是前后脚的关系,伪歧义也并非始终寸步难行。允许依序择优梦游,天塌不下来。例如,坛坛罐罐走不齐——各种局部解析非等速前进,就可以把剪枝问题化解于无形。你永远无需做是否剪枝的判断。只要“长芽”被无限期推迟,事实上就相当于剪枝。但是无限期推迟只是一个后果,并不是一个决策。

李:在缺乏厚度或深度 没有足够施展空间的情形下的问题。换了架构 就可以化为伪问题。原来的痛点 逐渐消解了。

白:截流的点可以设置。出一个解析和出N个解析,就是截流阈值的选择而已。所有有语言学意义的判断,都融合在优先级机制里了。截流阈值的选择与语言学无关。

“他就是想利用你,并且在利用完了就杀掉你的敌人。”

“就是”可以带体词性表语,也可以带谓词性表语,造成歧义。“利用”、“敌人”是负面sentiment,“杀掉”可反转sentiment。如果带谓词性表语,从“利用”得知“他”为正面,从“杀掉+敌人”得知“他”为负面。拧巴了。如果带体词性表语,“利用”和“敌人”相谐,“你”和“杀掉”、“敌人”不两立,于是“杀掉”和“敌人”也相谐。这个才是正解。

李:我经常纳闷。白老师冒出来的那些例句是怎么回事。肯定是平时有心,对数据超级敏感,这是数据驱动的角度看例句的收集。数据驱动的有心,本质还是被动的。另一个角度应该是主动的方向性收集+发挥?就是在多种因素中,有意识瞄准冲突最戏剧化的案例。譬如 句法与常识的冲突,惯性与转向/刹车的冲突。

白:嗯,似乎有一种直觉,能筛选出哪条语料对于我来说是不寻常的。

李:中文的【V N1 的 N2】,主要看 V+N1 动宾相谐度与 V+N2 动宾相谐度的力量对比:

“卖火柴的小女孩”
“卖小女孩的火柴”

卖的是东西,不是人。

白:超相谐的填坑>修饰>相谐的填坑>不相谐的修饰>不相谐的填坑

李:这里面貌似有距离因素,修饰距离近 动宾距离远,所以 同等相偕 修饰大于动宾。

白:【笑而不语】

三个境界:1、能单独处理“就是S+(重读)”;2、能单独处理“就是S/2N(轻读)”,其中修饰>填坑;3、能综合处理“就是S+||S/2N”。3又分:“正解+伪歧义”和“真歧义”。境界2中,一度占先的解读推进到某处卡住了,另一个解读后来居上。

“这是卖女孩的小火柴,不卖男孩。”

“卖”的间接宾语坑也来凑热闹了。只要相谐性并无禁止,就可以激活。

李:昨天我想的反例是:“这是卖小女孩的人贩子”。

白:无所谓反例,就是前后脚的事儿。不使用常识(事理),就是歧义。谁比谁先一步都是可能的。这种优先级上的误差,是在容忍范围内的。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《目标导向的质量保证怎么强调也不过分》

我是我家的铲矢官。早晚两次,每天换猫砂,有机会观察猫咪是怎样使用卫生间方便的,很有感触。

猫咪是著名的五讲四美物种,无论多么内急,方便后都会特别仔细收拾干净,绝不像有些国人(或歪果仁),有随地大小便的恶习。

仔细观察,发现猫咪智能水平不一。行动虽然敏捷,但方向感差。嗅觉超灵敏,但动作很盲目。每次掩埋清理大小便,再笨的猫咪都会做得让人挑不出毛病来。怎么回事呢?

原来是目标导向( goal-driven),反复检测以求质量保证(QA)。先是用鼻子去闻味道,凑得很近,确定目标。然后要爪子扒拉沙子,扒拉的速度很快,其实没啥章法,一多半落在目标之外。不是很讲效率。但是,猫咪的优点是,反复鼻子核查,反复爪子动作。宁滥勿缺,不厌其烦。

可见,质量不是靠耍小聪明,而是靠目标导向的劳动保障的,QA比巧妙重要。

所有的端到端系统其实都是这个原理。天知道内部做了多少虚功 绕了多少弯路。但是,端到端的好处是目标明确。只要有不达目的不罢休的劲头,有作为目标的海量数据,没有不成事的。

想起来20年前开始做个人网页玩,学了点 HTML. 后来MS Word 等,所见即所得,做各种图文并茂的网页都很容易,满意了,save as HTML 一切搞定。出于好奇,有时候会看看那些自动生成的 HTML 编码是怎样的。与自己手工编码比较,那叫一个繁复,绝对不是人认为的到达最终显示效果的最佳路径。很多冗余,弯路,叠床架屋,看上去的无用功。但没关系,最终结果是确定的。

这件事给人的启发就是,不要怕“累着”机器。累死机器是不用偿命的。冗余给人的感觉是负重。人们容易忘掉的是,冗余带来的安全和周密。

专家编码也应如此 目标明确后大多就是个力气活。不必追求精巧和概括性 不怕冗余和无用功 只要在目标导向中打磨迭代,甚至东一榔头西一棒头也不怕。可怕的是没有目标和QA。

自然语言就是猫屎,不妨学学猫咪的卫生习惯和质量保障。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“以前没钱买华为,现在没钱买华为”》

这两天社会媒体疯了一般,华为发布折叠式大屏5G手机,超级昂贵,17000 元,让苹果 X Max 失色,赚了多少眼球啊!在美帝国主义处心积虑定点打击挤压的不利国际环境下,华为终于凭实力秀了一把。

于是朋友圈开始重传这个著名的段子:“以前没钱买华为,现在没钱买华为”,大家感叹中文太玄妙啦,看NLU如何应对。微信沙龙的老友开始议论纷纷:

马:新句式:以前没钱买华为,现在没钱买华为。

白:缩合因果复句 vs 兼语

这是啥情况?

不在于是什么,而在于怎么得到。华为自身从低端到高端的历史是唯一线索。否则,反过来也不能说错。

李:好咱来解析解析:“以前没钱 买华为”

国人爱省略小词(“所以”),所以 NX(接续:next)常常表示因果,相当于then:“以前没钱” then “买华为”。倒是想买苹果,可买不起啊,总不能卖肾吧,也就只好拿华为凑合了。华为贱啊。

“现在没钱买华为”

怎么样?电脑不傻,这华为也太贵了,没钱买(cannot afford)呢。

自动解析是靠谱滴。

玩的什么 trick 呢?眼睛睁大一点看,前一句input有了个空格呢。但并非空穴来风,不信问小川老师,他在苹果Siri专门做语音的。

语言背景是,虽然省略小词是国人偷懒的坏习惯,但是口语中的停顿趋势应该还在,语音识别是可以、也应该捕捉的。既然有停顿 转写的时候 起码应该加个空格吧 对于解析 这就齐了:“过去没钱 买华为  现在没钱买华为”。

可是,人比机器差劲,完全的自私,彻底的懒惰,人写字硬是连空格也懒得加!这就逼迫听话的人去调动世界知识了。可华为手机由贱到贵 这种世界知识(而且是动态知识)大海一样无边无沿,这不是“欺机太甚”嘛。国人宁愿靠这种知识 也不愿按一下 spacebar,你说中文玄妙还是操蛋?

网上也看到规规矩矩加了标点的:“过去没钱,买华为;现在,没钱买华为。”

白:以前有人戴头巾,现在有人戴头巾。

李:异曲同工。以前有人(来/在的时候)then  戴头巾,现在有(某个)人戴头巾。

“以前有人罩面纱,现在没人罩面纱”。

加个空格有那么难吗?“以前有人 罩面纱,现在没人罩面纱”。

“以前有人(的时候)then 罩面纱,现在没人罩面纱(即便人来)”。

白:为啥不是更自觉了呢,阿富汗,伊朗,都走了回头路。

李:也是一解:“以前有人(的时候)then 罩面纱,现在没人(的时候)then(也)罩面纱”。这是什么美德?

【相关】

华为手机刷屏:全球首款、5G+折叠屏又一个元年来了

【汉语句法的挑战之一:if-then的简约式】

泥沙龙笔记:汉语就是一种“裸奔” 的语言

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白107: 让人咬牙的中文定语从句嵌套】

白:“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”

“软件开发人员”和“……公司”居然并没有从属关系。

从外向内比较清楚,从左到右就太累了:吸引-人员;依赖-公司;切断-权限。

李:难哪!

“依赖-权限/软件/公司/人员”,啥都可以依赖,所以搭配相谐没啥用。“吸引 - 用户/公司/人员”,也都可以的。

白:不是用相谐排除异己,而是用相谐先到先得。

李:那样的话,可能可行的办法是从内向外,而不是从外向内。先一杆子深入内部 做 (V1 …O1),然后做 中间的 [V2 …(V1 …O1) de O2],最后做最外层的 {V3 …[V2…(V1…O1) de O2] de O3}。这种类似内嵌套的结构,绕三层算是极限了,超过三层嵌套,去它的。(定语从句有 “的” 作为标记,用了超过3个 的 的定语从句嵌套,少见而“缺德”,可以不管。)

从内向外的思想,30多年前,刘倬老师在小黑板上解说过。这可算是NLP掌故了。说的是 如果把 VP 解析的方向,由从左向右一个模式一个模式的匹配,改成由右向左,那么就可以一杆子伸到最内层的 VP。这个技巧可以一次扫描对付不限层的右递归。

上面的类似定语从句嵌套的结构 在一杆子自右向左捅到最内层VP上,有类似的表现。所以说,从内向外层层规约是可能的一个途径。

从外向内 难行在 搞不清该放过内部的什么材料。从外向内 以前提过,如果是强搭配,还是可以的。以前提过的现象是 句首词 与 句末词 往往有关系 可是跨度是句子极限 因此 要指靠自底而上 自内而外 的解析和短语结构的规约 来拉近二者的距离 很难。因为难保解析步步都走对了啊。但是天涯若比邻的一个简单办法 就是把句首和句末接起来。让句子从一条线 变成一个圈儿。天涯立即比邻了,这时候如果发现有搭配,那还犹豫啥。parsing 以句为界,远距离最远不过句首句末。一个长江头 一个长江尾 郎有情妾有意就好了。

almost there!

“依赖”的是“公司”,而不是“人员”,能改进这个就齐了。parse 直到 ”不想依赖可以切断用户访问权限的公司的软件开发人员”,难为它了。这个跨度已经达到 13 个节点 足够长了。要想翻盘 必须更大的上下文。

也不是没有痕迹。trigger 在 那个 NX (next) 上,可以做休眠唤醒的 trigger。正常的 parse 是没有断点的 现在有了 NX 断点,就可以尝试另外的结构路径了。“那些”常常率领一个很长的 NP 而不是自己单独做 NP。如果是 NX 联系的是NP,“那些”就跟它接上合并了,断点消失,休眠就唤醒了,这个顺理成章,很好实现。可惜,NX 接的是个长长的内部结构复杂的 VP(“依赖”统率的VP子图),如何着手改造内部结构呢?唤醒休眠就难。

几乎没指望了,但是真要做,就可以尝试在 VP 里面翻盘。目标还算明白,就是要把 VP 改造成一个 NP 好与 “那些” 结合。挺累的。

白:就是假(du3)定(bo2)最外层括号只有一对

李:办法是有的,到这地步 要做是可以做的。犹豫的原因是:1 值得吗 毕竟这类现象已经有点长尾的样子了。2 更要紧的是,做下去有点太强力了(brute force),容易弄巧成拙,维护成本大。当然如果有自动的办法 另当别论。专家做,到这地步,就非常犹豫,往往下不了手。

白:切断权限,对登录是负面的,于是切断权限的公司和从属于该公司的人员对登录也是负面的。吸引,对登录是正面的。从sentiment角度看,伟哥的图里,不论NX怎么解释,只要把“吸引”传导给“人员”,必然拧巴。

李:要把这套推理带到休眠唤醒去 也很难(尽管其实 sentiment 是同时在做的,符号逻辑推理的基础都在。)。

白:都变成动态优先级的加减分,水落自然石出,此消正好彼长。

李:专家编码不行。头脑感觉不大够用。必须承认人算不过机。

白:唤醒也不是唯一路径。可以半睡半醒,可以梦游,你走百步我走五十步。

李:NLU 太难了吗?今天讨论的算是一例。可以摆个擂台,哪一位出来溜溜?

微博贴出后,王老师试了试神经MT,MT权威刘老师也惊叹:

刘群MT-to-Death:这个句子机器翻译得太好了,原中文句子人理解起来都很费劲。//@王伟DL: 对于“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”,试了一下有道“This approach appeals to software developers who don't want to rely on companies that can cut off access”

王伟DL:就时常在想,翻译都这么好了,那么句法分析会做不好?常有削弱自己做parser的动力。当然,这种end to end翻译路线,与描述句法结构的路线是不同的。若是句法分析做得也很好了,那么提取知识图谱等,及更复杂依靠句法分析基础的阅读理解等就更是春天漫步,鲜花朵朵开了,可现在好像还不是这么回事。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

语义沙龙小品:从侯宝林的四字相声说起

包容歧义与模糊理解是自然语言交流的常态

刘:侯宝林几个说方言的相声也印象深刻,一个是说宁波话像唱歌的,另一个是用几种方言模仿晚上起来撒尿的对话,想起来都好笑

毛:嗯,谁,俺,嘛,尿。

李:这里有什么玄机?单音词 成句。who / me / what / pee。说起来 最后两词 理论上有歧义:pee 是动作 还是 物体?

歧义包容的说法是 没必要消歧。因为动作也好 物体也好 背后的概念是一以贯之的 并不影响交流。对于人类在语用中惯用的模糊理解来说 包容歧义恰好与模糊理解相配。除非遇到较真的。较真的对话大体如下:

A: 我问的是”嘛”
B: 我答的是 “尿”
A: 答非所问。我问的是 你在干嘛?
B: 没错啊 我答的是 尿尿 呀
A:那我要问是什么呢?
B:也没错呀 我答的是这儿一泡尿。

嘛:义项1 干什么;义项2 (是)什么;义项3 句末叹词

尿:义项1 撒尿,动词;义项2 排泄物,名词

歧义对歧义 蛮好。消歧不是自找麻烦?

包容和模糊是人类交流的常态 省力低碳而高效。

白:侯的四字相声,省略是主要的,包容歧义义项倒在其次。

李:@毛德操 四字相声的事儿 有历史的。记得你一年多前就问我 什么叫机器理解?举的就是这个四字对话。当时没多想,觉得这都是词典里面的词(语素),有啥理解不理解的。查词典而已。词典里面绑架了语义,该啥啥,就算是解析了。自然语言理解是说怎么组词成句。

毛:是啊,“谁俺嘛尿”应该进教科书。你的书里何不把它写进去?

李:今天重提这个话头,想了想,机器可以做的,还有一些:1. 首先要确认这是两人对话的语用场景;2. 确定这是个单字句。

识别单字句 对于理解重要。组词成句的极限形式就是这个词就1个,它成了句。怎么识别单字句?就是孤零零一个字(语素)蹦出来,带有语调,前后都有较长的停顿。

好,somehow 上述两点形式化了,提供给机器,下面就可以解说机器怎么理解的了。“谁” 在单字句的条件下,在对话的场景中,它的理解就是挖了一个【human】的坑,要求给填上。在常规的多词句子中,对话的所谓解析是要知道 intent / slot,现在 slot 出来了,就是【human】,intent 因为没有谓词,理论上是模糊不清的。但是在对话场景下,这个 intent 有个标配,可以“脑补”上,机器于是知道 intent 是:谁在那儿?那动静是谁?

有了这个 intent/slot 的解析,第二句对话“我”,作为合理的回答,就自然顺理成章了。如果是机器回答,可选的答案有:是我 / 是小偷 / 没看清(谁) / ......

毛:印象中这段相声好像是侯宝林和郭启儒说的。

李:接下来的“嘛”,词典有两个义项:1. 句末叹词;2.疑问代词 what。在“单字句”条件下,排除了句末叹词的可能性,只剩下what,挖了一个【thing】的坑,有了【slot】,还是没有 intent

在对话的场景里面,单字疑问词,可以“脑补”标配的 intent 是【do(what)】,或进一步脑补为:what are you doing

于是引来回答:1. 名词:尿;2. 动词:尿。对话场景标配延长是:1. 这是尿;2. 我尿尿。顺着这个思路,所谓机器理解及其背后的场景落地,显然是有迹可循的。

毛:以模糊对模糊,以歧义克歧义。负负得正。

白:@wei “嘛”的语音形式不同。做“什么”解的“嘛”,读第四声。做“干什么”解的“嘛”,读第二声。

毛:你的书里应该加一节“谁俺嘛尿 辨”。

李:哈【自然语言答问:尿辩】。记得,语义泰山 菲尔默教授写了 The case for case,许国璋教授翻译过来就叫《格辩》。

毛:不应该是“辩”,应该是“辨”。

李:对。他是辩护他的格理论。这里是辨识/包容“尿”的歧义:【自然语言答问:尿辨】。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白106: “应用文写作助手”的金点子再议】

立委按:嘿 将来普及了 别忘了咱们做的思考和可行性实验哟。微软 office 为啥成为摇钱树 因为人总要写字吧。写作助手类应用为啥会风行 因为人免不了写不好字呀。难得的AI市场切入角度呀 别一窝蜂都去做聊天 bots 啦 已经水泄不通啦 MT 也是如此 搜索巨头把市场基本做死了 如何跟免费竞争?

白:“如果技术达到了那一步,我想不出任何问题是技术解决不了的。”

单看后半句,有歧义,而且sentiment相反。

我想/不出任何问题/是/技术/解决不了的
我/想不出/任何问题/是/技术/解决不了的

联系前半句和常识,可以排除对技术低估的意思,只留下对技术高估的意思。

李:前面那个意思 要使劲想 才想得出来。

不出任何问题/是/技术/解决不了的 == 技术/解决不了/不出任何问题

显得勉强的原因大概是 “解决”的宾语坑要求的是NP,通常不带VP。

? 解决不了野火蔓延

解决不了野火蔓延的问题。

严格说,应该是:技术/解决不了/不出任何问题的问题。

白:不出任何问题的诉求

李:对,不出任何问题 是好事。

白:谓词性成分的上位概念是体词,这没什么不可以。

李:这就回到了所谓名物化(nominalization)。中文这边,零形式的名物化是一个“鬼”,说它不存在,似乎看得到影子。说它存在,却几乎总是摸不着。容易走火。

白:另一端挖的坑只要足够抽象,就容得下这个鬼。解决,挖的坑就属于“足够抽象”那种。

李:“足够抽象” 不好清晰界定。赶巧了,上面的句子听上去还不算别扭,但是感觉很难伸展到其他的谓词。

?技术解决不了不吃饭

?技术解决不了不认真读书

白:和“那个集合”中的元素构成强搭配:

我收到了他自杀未遂(的消息)

张三不愿意正视两地分居(的现状)

括号里的名词是之前谓词性成分的上位名词,和主干谓词构成强搭配。相当于分别以主干谓词节点和谓词性宾语成分节点为圆心,以适当半径画圆,有个不言自明的交点。本体的几何。

李:我的语感可以接受:张三不愿意正视两地分居。但很难接受: ? 我收到了他自杀未遂。

白:分析从宽。

接受不接受无关紧要,不错到别人家里就没关系。

把“收到”换成“听说”,自然?

李:“听说”自然没问题。“听说” 的句法子范畴挖的坑是 Clause/VP or NP,谓词性的为先。“听说他走了”。

白:那个NP的语义本质是VP的上位。在口语里把括号里的省略掉,不影响理解。

李:对,不影响理解,意思都在,就是不符合搭配习惯,萝卜与坑有违和感。这不正是可以借助机器的地方吗?让机器来帮助把句子写顺,前几天提出过这个利用MT倒腾的小窍门:告诉你一个写外语避免常见错误的实用技巧。

可以试试:

我收到了他自杀未遂 --》 I received his attempted suicide --》 我收到了他企图自杀的信。

哇塞,加了 “的信”二字,听上去顺溜多了。截个屏,留存个突破天花板的神(经)迹。(好玩的插曲:“自杀未遂” 来回一倒腾 成了 “企图自杀”,意思没变。)

不得不说,MT发展到今天的“神经”程度,在信达雅之外,多了一个“改良”的维度。以前谈“信达雅” 是以原文作为天花板,然后讲的是翻译过程中 如何尽可能达到原文的品质,从这几个角度来看。现在可以说,MT 可以让破烂的文字,翻译为通顺的文字。也就是说,目标语表述终于有了突破原文天花板的可能了。这可是违背了取法乎上仅得其中的经验法则哟。取法乎下,可得其中哪。

这个奇迹是怎么发生的?

白:这就好比,正确的理解是一些深坑(学术上叫“稳定吸引子”),错误的表达好比球放到了斜坡上,重力自会把它“吸”到深坑里去。只要放球的斜坡处在深坑的喇叭口处。

李:对。这个奇迹的发生 是一种 propagation 的结果。在大数据中,良性熏染强过 error propagation。MT 实际上取法的不是原文输入文句,那个原文只是一个种子,一个引子。真正取法的是目标语大数据。大数据的平均品质必然高于 broken Chinese (or broken English)。因此虽然 trigger 是 broken 的,结果却是好的。

白:大数据是表象。稳定吸引子才是精髓。大数据砸出坑,最后起作用是坑。

李:坑的吸引这些东西 还是需要有足够的数据才能奏效。

以前责怪过神经MT的无中生有(除了张冠李戴指鹿为马外),以为它只会产生弊端/副作用,典型的为通顺,牺牲忠实。现在看来,也有无中生有并不怎么牺牲忠实却带来了通顺好处的情形。前面例子无中生有出来的 “的信” 就是一个改良。因为大数据里面,“收到”后面几乎总是有个抽象名词,突然没有了,那就无中生有给加上一个“(收到......) 的信”。要是somehow 能改为:“我收到了他企图自杀的信息”,那就更好了。“信息” 比 “信” 更加抽象,更适合无中生有,而不产生副作用。其实相信大数据里面“收到 -- 信/信息”都是存在的 但是前者压倒了后者。因此 “无中生有最好采用抽象虚指的词填坑” 这个立足于本体子范畴知识的启发式(heuristic),在目前的模型里面不能贯彻。可以归纳出来的不同角度的启发式这种东西,还是符号系统容易带入,神经比较难。

白:这也可以通过好的本体来做。两弧相交,一样得出无中生有的东东,符号路线本身并不禁止这个。收到+“那个”也是可以的,而且更加抽象,管它是信还是信息。

李:其实 这次”MT倒腾改进表达“的实验,翻译过来的英文本身仍很破烂,如果足够好的话,第一步从破烂中文翻译成英文的时候,就应该已经克服了这个“receive … suicide“ 动宾搭配不当的问题,因为英文的 receive 也是子范畴规定宾语坑要用 NP 而不是 VP的。可惜这一步没到位。好在,翻回中文的时候,良性熏染出效果了。就是说 这么一倒腾 实际上给机器两次改正的机会,somehow 英文的大数据模型在这个数据点上 不够强。预期的改良没有实现,但是还有个中文大数据的第二次机会。

白:真想做改良这个事情,其实完全无需借道MT,作为一个独立的端到端任务,可以做得更好。

李:这就是我前几天说的,A--》A' 的主意 (见 告诉你一个写外语避免常见错误的实用技巧),不用 A --》B --》A'。直接来帮助改进文字,辅助写作,弄得好的话,这可是产品的金点子。

奇怪,写诗写词,都有人做了。写应用文这种惠济苍生的事儿,却还没人在做。这几天的实验实际上已经验证了可行性。剩下的就是产品定位和实际去做了。以后那些文秘可真地要面临失业危险了,据说多数中文系出来的文秘就是为老板写应用文 要写得比较溜 不同文书有不同规范。等到每一个应用文都训练出一个模型后,比一般秘书做得好,几乎是肯定的了。以后 秘书就是留下来 也省力多了,胡乱起草一个文书 只要意思大体在 交给机器生成规范的应用文,比自己在那儿费劲拽好多了。

白:规范就是稳定吸引子。

李:现在可以训练机器讲话,奥巴马可以用自己的调调发表中文演说,惟妙惟肖。很快,也应该可以训练机器写出不同风格的文字,越八股的类型 越好模仿。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

告诉你一个写外语避免常见错误的实用技巧

以前常常有“老外最常见的中文错误”,或者“中国人最常见的英文错误”。现在有了立等可取的免费解决方案了。就是在交作业之前,找一家信得过的网上机器翻译网站(我用的是有道和搜狗),在中英之间倒腾一遍就齐了(其实不会太久就不用这么来回倒腾,一定会有团队直接在本语言中做“翻译”,从A到A' 把不通顺的语句改写成通顺的说法,实际上就是“写作助手”类应用。)

A   --》B   --》A'

刚才到网上查老外的中文错误,见到这个:“盘点老外常错的中文语法点” 。根据里面列举的典型案例,我们试试这个技巧。

遇到的第一个错误是搭配不对:英文都是 strong,可在中文的搭配习惯上,“咖啡”论“浓”不论“强壮”:

“对不起老师,我昨天没睡好,因为喝的咖啡太强壮了”

搜狗MT: --》Sorry teacher, I didn't sleep well yesterday because the coffee I drank was too strong.

然后 翻译回去:--》对不起老师,昨天我睡不好,因为我喝的咖啡太浓了

搭配是语言学习的难点,因为每个语言搭配的习惯不同,不怎么讲道理。没个10年8年的功夫,是很难学会地道的语言搭配习惯的。我女儿从小在家听中文,周末上中文学校,现在开口闭口还是: “我不要穿这个帽子”、“我穿的眼镜 不好看”,纠正过无数次了,还是改不了。

“我不要穿这个帽子” --》I don't want to wear this hat.
--》我不想戴这顶帽子。

“我穿的眼镜 不好看” --》The glasses I wear don't look good.
--》我戴的眼镜不好看。

老师千叮咛万嘱咐:帽子是“戴”的不是“穿”的,帽子要论“顶”,不论“个”。哪里如用的时候随时上网请教一下MT呢,其实让机器把关最放心。

③ “了”这个大难点 

“我和我的老师们一起去了旅游”,“我昨天吃了饭,然后洗了澡”“了”的难点在于本身有很多规则,而且这些规则还总有例外,用在句中还是句末,用在过去还是变化,就连中国人也很难说得清楚。

MT 里面来回一倒腾,这个不该用的“了” 就飞了 :

“我和我的老师们一起去了旅游” --》I went on a tour with my teachers  
--》我和老师一起去旅游

问题是 去+V 中间不合适加“了”,可是老外(甚至老中)哪里知道啊,“went” 在他脑子里呢,出来的时候就成了 “去了”。

无论是老外学中文的难点,还是老中学英文的难点。说到底 大多是对于千千万万鸡零狗碎的与自己母语不同的搭配、语序等等语言习惯,搞不定。记不住啊,除非是没完没了的练习(drills),并且需要不间断地使用。可是大部分人做不到。可是机器没这个问题。

讲解说:“放假快来了”,“放假”是一个动词,学生经常和“假期”搞混了,说出来的句子自然不地道!

?“放假快来了” --》The holiday is coming soon. --》假期快到了。

?我打算了几个计划  --》I made several plans --》 我做了几个计划

“做-计划” 应该算顺了,至少比“打算-计划”的搭配好。不过没实验前,我头脑里想的是 “订-计划”。从有道MT转到搜狗MT,出来的还是“做-计划” 而不是“订-计划”,相信数据里面,前者比后者的搭配频率一定高得多吧。虽然后者显得更加地道,因为用的不是高频的”做“。对于搭配,其实低频率的语素(作为搭配的部件)更加地道。目前的模型显然贯彻不了这个启发式指导。

对于自然语言,生成从严,分析从宽。学外语搞不定的就是不知道如何“从严”。生成出来的外语句子就常常不顺畅,不地道。听上去就是老外。可是语言模型是在大数据上学出来的,虽然语言里面也有各种不顺畅不合法的东西,但是统计上看,飘在上面的,总是趋向于大众常说常见的顺畅的句式。因此利用MT帮助把句子“捋顺”,常常特别见效。

盘点老外常错的中文语法点”中指出了语序方面的问题:

?“我回去台湾一年一次” 用有道MT就成了:
--》 I go back to Taiwan once a year
--》 再把它翻译回中文,句子语序就顺了:我每年回台湾一次。

好,下面自己造几句 Chinglish,按照中文习惯来几句洋泾浜:

she body tall, face beautiful, head smart --》 她身材高大,面容美丽,头脑聪明 --》He is tall, beautiful in face and intelligent in mind.

语句通顺方面,搜狗MT互译是做到了把国人的洋泾浜转化成了合法通顺流畅的英文。(可惜大事聪明小事糊涂,居然把“她”错译成了“He”)

其实,我们老中之所以会整出洋泾浜英语,就是因为头脑里面的意思是母语形式表现的(诸如 “她身材高挑、盘儿靓、脑子聪明”),然后就把词汇替换成英文蹦出来。把洋泾浜翻译回中文,然后再翻译到英文,等价于直接做汉英自动翻译。

随处可见的英文错误,有些还是比较正式的通知,本来都是可以自动提醒克服的,可惜软件不到位,今天又见一例,随手做了个MT倒腾改错:

We offer our apologies to you for the inconvenience has caused you. ==》 对于给您带来的不便,我们向您道歉。
==》We apologize for the inconvenience.

比起原文啰里八嗦还有文法错,机器倒腾过来的,多么精简规范!本来这一切都是可以自动的呀。

另外 由此突然冒出个产品经理梦寐以求的灵感。可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个市场定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

盘点老外常错的中文语法点

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

2019春节,见证奇迹的时刻

2019年春节期间的奇迹。其实,说的不是刘谦换壶的时刻,那个奇迹已经成为全国人民的笑话了。

我还给央视拟了个严正声明:

中央大国,万邦来朝;堂堂央视,亿众瞩目。如所周知,魔术皆伪。然央视之伪,亦有格有调,断非所传之无品。央视之伪,拜夹层高新科技所赐,佐以不可测之隐身神术。所传之影碟,乃小人PS所得,央视保留告诉之权利。特此公告,全民周知。

也不是我家猫咪,叫卡卡的。她要写论文的奇迹,大概还需要时日才能实现。春节期间,老朽著书立说的时刻,她也从来不闲着:

代劳也好 省得我费力气啦。《阿猫论自然语言》,可能比人论得深刻 这年头啥事都说不准。我家小卡的爪子在键盘上 随机按下自然语言的句子 概率有多大?肯定不是零吧,不是零的概率 放在宇宙尺度下 等于乘上无穷大,这个比宇宙从无生物演化为有生物 进而出现人这种吃饱了还会忧虑的物种 应该是同一个量级的神迹。可惜这个奇迹,为人是见证不了的,大概只有造人的上帝才有见证的可能。

奇迹发生在昨晚。

昨天晚上 打开网络细细把川普那么长的国情咨文看了。可以点个赞 除了文采飞扬 内容丰富外,他那么大岁数做一年一度最重要的长篇施政演说 居然手上没拿稿子 一点都不磕巴 抑扬顿挫 始终保持演讲的节奏感。就连当年周总理国庆演讲四个现代化愿景 也还是拿着稿子半念半讲的呀。不知道美国用了什么高科技给总统演讲电子提词?反正现场镜头没看到啥机关。一边听 一边欣赏国会分裂的听众的众生态 一边没忘了测试口语机器翻译 打开有道词典app 点击口语翻译 把手机对着电脑视屏现场 等于是同声传译实验。

这是见证奇迹的时刻。

手机截屏 同声传译的片段。效果不错吧。当然 川普吐词清晰 也有功劳。虽然现场有噪音 欢呼声 掌声 偶尔的嘘声。

奇迹在于其稀有。随时随地可现的“神经MT”奇迹,人们似乎麻木了。可是,我是机器翻译出身,在年轻时的梦想全面实现的时代,仍然不敢相信它是真的。因此,不断在测试,在考验,在见证。

【相关】

谷歌NMT,见证奇迹的时刻

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

在机器翻译唾手可得的时代,还要不要学外语?

李:今天快讯,白宫就中美贸易谈判发表声明

Statement of the United States Regarding China Talks

For the last two days, high-ranking officials from the United States and China have engaged in intense and productive negotiations over the economic relationship between our two countries.  The United States appreciates the preparation, diligence, and professionalism shown throughout these meetings by Vice Premier Liu He and his team.
The talks covered a wide range of issues, including:  (1) the ways in which United States companies are pressured to transfer technology to Chinese companies; (2) the need for stronger protection and enforcement of intellectual property rights in China; (3) the numerous tariff and non-tariff barriers faced by United States companies in China; (4) the harm resulting from China’s cyber-theft of United States commercial property; (5) how market-distorting forces, including subsidies and state-owned enterprises, can lead to excess capacity; (6) the need to remove market barriers and tariffs that limit United States sales of manufactured goods, services, and agriculture to China; and (7) the role of currencies in the United States–China trading relationship.  The two sides also discussed the need to reduce the enormous and growing trade deficit that the United States has with China.  The purchase of United States products by China from our farmers, ranchers, manufacturers, and businesses is a critical part of the negotiations.
The two sides showed a helpful willingness to engage on all major issues, and the negotiating sessions featured productive and technical discussions on how to resolve our differences.  The United States is particularly focused on reaching meaningful commitments on structural issues and deficit reduction.  Both parties have agreed that any resolution will be fully enforceable.
While progress has been made, much work remains to be done.  President Donald J. Trump has reiterated that the 90-day process agreed to in Buenos Aires represents a hard deadline, and that United States tariffs will increase unless the United States and China reach a satisfactory outcome by March 1, 2019.  The United States looks forward to further talks with China on these vital topics.

搜狗机器翻译如下:

过去两天,美国和中国的高级官员就我们两国的经济关系进行了紧张而富有成效的谈判。美国赞赏刘副总理和他的团队在这些会议中表现出的准备、勤奋和专业精神。

会谈涉及广泛的问题,包括: ( 1 )美国公司向中国公司转让技术的压力;( 2 )加强中国知识产权保护和执法的必要性;( 3 )美国公司在中国面临的众多关税和非关税壁垒;( 4 )中国网络盗窃美国商业财产造成的危害;( 5 )市场扭曲力量,包括补贴和国有企业,如何导致产能过剩;( 6 )需要消除限制美国向中国销售制成品、服务和农业的市场壁垒和关税;( 7 )货币在美中贸易关系中的作用。双方还讨论了减少美国对中国巨大且日益增长的贸易逆差的必要性。中国从我们的农民、牧场主、制造商和企业购买美国产品是谈判的关键部分。

双方表示愿意参与所有重大问题的讨论,谈判会议就如何解决我们的分歧进行了富有成效的技术性讨论。美国特别注重就结构问题和减少赤字达成有意义的承诺。双方同意,任何决议都将完全可以执行。

虽然取得了进展,但仍有许多工作要做。唐纳德·特朗普总统重申,在布宜诺斯艾利斯商定的90天进程是一个艰难的最后期限,除非美国和中国在2019年3月1日前取得令人满意的结果,否则美国关税将会增加。美国期待着与中国就这些重要议题展开进一步会谈。

阿:@wei 文字相当棒

马:@wei 没看你说明之前,没有觉得是机器翻译的。

李:一字未改,就是搜狗MT。新闻类、IT类、科普类、日常会话类翻译都已经不是障碍了,机译已经达到人译水平,比多数人强。关键是随时随地 立等可取。所以那些写不了通顺英文的人,也不必费时间学英文了。你可以用随便写出来的中文,翻译过去,会成为一篇相当通顺的英文。不信试试搜狗MT或有道MT。译文往往比原文更通顺。从神经机器翻译的原理和目前水平看,译文总是通顺的,基本不受原文顺不顺的影响。原文只要把意思大体表达出来就好了。稍加修改,这比自己用英文拽要简单多了。

其实,可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等比需要做翻译,对于多数人是更加频繁的日常任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。常见应用文针对文体专项训练,肯定比一般人学得地道。这是无疑的。这个产品定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

最近试了试讯飞口语翻译机,日常口语语音传译也已经不是问题了。我有意用非标准的普通话,蹩脚的英文为难它,两边互译倒腾。结果都不错,常常有惊喜。

阿:@wei 怪不得现在大学英文系都萧条了 。

李:AI 各应用领域要是都达到 MT 的水平,我就同意奇点到了,然后就相信马斯克、霍金之流的耸人听闻,呵呵。胜利大逃亡,跟马斯克到火星去避难。

严:看了@wei 引用的机器翻译的文章,加上这些年飞速进展,让我更纠结了。在美国高中的儿子告诉我他不想学外语,但我太太觉得一定要学的,因为绝大多数大学入学都有外语要求。不学外语的话大学选择就会大大缩小。但儿子说得也对,学三年还是比不过机器翻译,不如用这时间学点别的,比如离散数学之类。我真拿不定主意。

瑞:现在医院里护士都用手机上的APP翻译软件跟病人用各种语言交流。虽然翻译未必精确,但足够表达主要意思

迈:@严 如果学外语用数学做代价,可能是定位误差。人应该是多面手,学外语发展另一块脑力,或许可以增加认识能力,学其他科目的成效大大提升,也未可知。

严:@迈 有道理。但通常间接效益超过直接效益,需要特殊条件。

毛:如果机器翻译芯片可以植入人体,那就真的可以不学外语。

阿:@严 学语言不仅仅是学习机械的语言 看上文《【人文科大】语言赋予思维的变革性力量

李:说老实话,绝大多数国人学外语 尤其是相当数量学得很苦 很受罪折磨的人,的确是劳民伤财 何苦来哉。如果把学一门外语当作一个业余兴趣,学了可以开开眼界 了解原来思想可以有不同的表达手段。但学一门 浅尝辄止就好 除非是想专门研究语言。

瑞:马云学数学是对自己的折磨,学英语却是享受

阿:至少对语言的结构有更多了解 不学西语 就不知道什么过去式 进行时 虚拟语气等等 中文好像不教这个。课堂上学的基本没用。

李:当年学第二外语法语 第三外语俄语 回想起来 真是遭罪。现在也几乎全还给老师了。好在做了语言学家 虽然具体语言的能力是久不用就忘了 但语言学职业上还是受益。但绝对不主张 不鼓励非语言学家去学二外三外。有那时间 干什么不好。其实学英语也很遭罪,不过是遭罪一辈子了,麻木了而已。

阿:对有些人来说 语言就是一种爱好 一种游戏。你去跟打游戏的人说 你玩别的多好 他不会理睬。

李:唯一不遭罪 真正感到乐趣的是学世界语。那真是神奇的东西 学起来非常过瘾。学完了 也终于没有还回去 听说是退化了一些 阅读和写作没影响。

自然语言作为外语 基本上就是把人当机器折磨。无数鸡零狗碎的习惯用法需要死记 需要反复练习。可人脑毕竟不是硬盘啊 哪里经得起这种折磨。属于低级的强体力劳动 劳动对象是头脑记忆和条件反射。不值。

世界语不同 死记的部分被压缩到最小 逻辑和规律一统天下 学进去感觉进入了思维表达的自由世界。如果学外语只是为了开阔眼界 了解母语以外的表达方式 可以推荐世界语。

以前老觉得世界语因为没什么用 会逐渐式微。现在看来 有了机器翻译 有用无用已经不是主要标准了。剩下的就是语言的兴趣、特色和投入产出了。保不准100年后 它将成为唯一的“二外”供人娱乐 满足好奇心。

师弟轶事——疯狂世界语

这是当年学世界语的投入,师姐的夸张描述。大概与玩游戏的人入迷类似。

Nuva:学会一门外语,等于大脑多开发了一块地方,语言间链接更多。

梁:多学一门外语,等于在你的黑屋子里多开一道窗户,也让思维更加多元。会外语,才有可能接纳,至少不排斥,来自不同文化的东西。还有,学外语,得老年痴呆的可能性也减小,大脑开发的越多,得老年痴呆的可能越小,cognative reserve 比较大。

李:都是站着说话不腰疼。啥事都有个性价比、投入产出比。学外语需要投入多少时间精力,与它带来的好处对比,简直就是黑洞。而且学了以后,如果不经常使用,一多半都会吐回去。如果回报是可以看外文原文资料、出国旅游可以与老外简单会话,问路点菜上个厕所啥的,这个回报在有机器翻译的现代社会,已经不值一提了。其他的回报还有啥可以度量的?

有一种回报是,因为人与人对于外语的吸收能力差别很大,在全民学外语的环境下,语言能力强的人会有特别的优越感。女孩子一般比男孩子学外语更快,更溜,所以学外语是妇女能顶大半边天的难得机会。这些也算是特别场景下的回报。但这种优越感是建立在其他人学外语的挫折感的基础之上。如果有挫折感的人 突然悟出来现代社会有电脑,没必要进入外语这个赛道了。这个好处也就不复存在了。

总之,外语与钢琴类似。孩子愿意学就让他学。不愿意学不必勉强他学。不是学了没好处,而是投入太大,收益太小,一般来说不值。目前的教育制度还是滞后于时代,规定人人学外语。等再过20年,也许教育制度会改成不是必修。

毛:完全同意。

王:急功近利未必能学好。艺不压身,如果能做到,会弹钢琴比不会要好。会一点外语也不错。这些技能都很费时,不容易达到预期效果。

严:@wei 很受鼓舞!给儿子推荐世界语!估计只有网上资源,又要跟counselor协商了。高中里只有法语、西班牙语、日语。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白105: 结构歧义的视角和角力】

立委按:句法形式 语义常识 和 上下文场景三者 并不总能对齐。但它们蛮拧的时候 其角力决定了解读。有趣的是 人与人的视角不尽相同 因此角力对于不同的人 作用力也可能不同 因此并不是每个人对结构歧义的理解都是相同的。真伪歧义从黑白分明演变为灰色频谱。这是观测者效应和测不准原理的语言学反映吗?kidding..., but  truly fascinating ……

宋:“预约手术请到治疗室”,预约手术  是偏正还是动宾?

刘:英语可以用过去分词和不定式加以区分,中文有歧义。

李:对。预约【的】手术请到治疗室:这是定中关系(偏正),已经预约了的。【要/如果】预约手术请到治疗室:这是动宾关系,“不定式”或未完成体。

“预约手术请直接进手术室”,这大多是定中. “预约手术请到登记处”,属于动宾。

白:字数规整,偏正优先。

宋:今天上午陪老伴去医院做一个门诊小手术,是预约好的。看到诊室门口的条子“预约手术请到治疗室”,第一反应就是偏正结构,原因一是自己这个手术是预约的,之二是到治疗室,治疗室正是通常做门诊小手术的地方。结果是我理解错了。原意是动宾结构。

白:事理图谱对于“预约”的场地和“手术”的场地应该有所设定。“包子往里走”都可以,“预约手术请到治疗室”当然没什么不可以。如果是口语,重音不一样。私刻印章是犯法的。私刻印章是无效的。

“削铅笔刀”为啥没有歧义?

李:“机削铅笔刀”为啥有歧义?“手削铅笔刀”为啥有歧义?

白:看不出来。

李:en ...... 例不成理存。何况也未见得不成立:

“手削铅笔刀是削不了的 机削铅笔刀庶几可成。”

“手削铅笔刀不好用 建议购买机削铅笔刀。”

VP/NP ambiguity: 1 manually cutting sth vs mechanically cutting sth;2 manually cut product vs mechanically cut product

1 和 2 的实例 由于常识的干扰 也常常做 3 解:

3 “手削铅笔刀是老式文具 机削铅笔刀才是新产品 自动作业。”

3 与 ”削铅笔刀” 同,动宾搭配的VP 做“刀”的定语。然而,抛开常识 句法上则更趋向于 1 和 2 的结构逻辑语义。

白:想起了17头羊分1/2,余下的分1/3,再余下的分1/6的故事。这个题目到底有解还是无解,没有歧义,因为靠借来的羊分出来的方案不是原题的解。原题无解是板上钉钉的。在NLP里,靠借来的不同上下文组成(不是助力)的解读,算不算原句的解读?我认为不算。垂直于轴(纹理或纤维走向)的切削是“切”,平行于轴的切削是“劈”,与轴成锐角的切削是“削”。对于一把刀的加工过程,使用“削”的工艺,怪怪的。这是标准的伪歧义。除非是木刀或竹刀,但二者都很难再用于削铅笔。我觉得只有3是正解,1、2都是伪歧义。如果材料无轴向、无纤维、无纹理,通用的表示切削加工的词是“切”,而不是“削”。在3的理解下,“机”“手”只是在“刀”的动力传动方式上的差别,并没有改变“削”与“刀”之间的角色指派关系。人使用了错的表达,系统要做的是容错,而不是把错当歧义。

李:伪歧义与真歧义不是黑白分明的,没有一道鸿沟。当常识、场景和句法倾向性这三种东西开始蛮拧的时候,每个人的理解偏好可能不同。甚至同一个人也在不同的理解面前摇摆不定。很多事情不能深想 想着想着怎么意思就变了。所谓走一根筋就是有时候一不留神就被一种倾向性牵着鼻子走。

白:深想的过程,就是逐步接受抬杠者、犯错者角色的过程。预定义的倾向性,只要优先级足够,是不会被埋没的。非预定义的,就需要容错机制。容错往往都是有代价的,不是只有好处没有坏处。

李:刀削面,机削面条,手削面疙瘩。

白:疙瘩不会做“削”的工具吧。

李:1. 手削面疙瘩就是好吃;手削面疙瘩削不出好的疙瘩来;3. 手削面疙瘩和手削面团子有何区别?

“手削面” 和 “面疙瘩” 都是是蛮好的合成词,加在一起,左右就可以拔河比赛了。

“手削面疙瘩不如糙米疙瘩好吃”。手削面疙瘩,到底“手削”的是“面”,还是“疙瘩”?

白:结果是面疙瘩,削的是面,不矛盾。

李:白马非马呀。

白:不在一个频道。

刻印章,刻的是做印章的材料,做成了才是印章。在印章成品上再刻,就不怀好意了。

李:“现场观赏手削面疙瘩”。

白:现场观看制作成品,没有不妥呀。

李:对呀,是说【观赏+VP】,优先于 【观赏+NP】。“心急吃不了手削面疙瘩”,只能是【吃+NP】。

白:关键是NP和V的关系是制作和成品的关系。对外输出是成品还是制作过程,外部说了算。面是原料,面疙瘩是成品,削是制作过程。

李:严格说,削不出疙瘩来,只能削出面来,然后用削出来的面制作疙瘩。手捏面疙瘩 则不然,捏出来的是疙瘩。

白:疙瘩是一个微粒还是一道菜,这个有另外一套机制。削本来就不正确,已经在容错了。更准确的动词,拨、拨拉、剔,都可以有,捏不准确,疙瘩真心不是捏的。饺子的面剂,确实有“揪”出来的。

李:好像是掐出来的?记得小时候做疙瘩汤,老妈用大拇指和食指一疙瘩一疙瘩掐出来,丢进沸水中。看来 ((手擀面)疙瘩) 无疑。因为无论如何是擀不出来疙瘩的。疙瘩的特性就是奇形怪状,擀却是一个平整化过程。虽然常识如此,不细想的话,句法上的惯性则很可能是走 ((手擀)(面疙瘩))的路径(无论是作显性动宾还是定中+隐性动宾解)。音节上,2+3 的动宾结构也显得比 3+2的定中结构,服帖稳重很多。

白:反拉弧圈球,来球和去球都是弧圈。挡弧圈球,只有来球是弧圈。手抓饼,跟制作工艺无关,只是吃(消费)的时候要去抓。灌汤包,也不是包子做好了才往里灌汤。只是吃的时候感觉包子像被灌了汤。吮指原味鸡,甚至更过分。所以,构词法中的定语动词,到底参与了什么,不能光看格式,还要看动词本身。动词是制作过程的一个环节,固然可以代替全部过程。动词不是制作过程的一个环节,也不妨碍被修饰的词是一个成品。甚至只是来料。化妆舞会,舞会本身不化妆,是参与舞会的人化妆。相谐就反填,没有制作属性就细分或延展。延展可以多级。手抓,延伸到制作以后的吃。擀面疙瘩,延伸到制作“疙瘩”的前置环节。

与“削铅笔刀”更加平行的是“打狗棒”。这个格式没有歧义,刀是削的工具,棒是打的工具。逻辑主语另有安排,不在格式中出现,逻辑宾语紧跟动词,可以近似认为述宾结构就是一体化的成分。“削铅笔刀”有一个简化形式是“铅笔刀”。当分别引入前缀“机-”“人-”时,“削铅笔刀”就不复存在了,代替它的是语义等价的简化形式“铅笔刀”。所以,在“机削铅笔刀”“人削铅笔刀”当中,“削”是随“人/机”带进来的,与“削铅笔刀”中原有的“削”无关。也就是说,“人削铅笔刀”和“机削铅笔刀”均无分词歧义。都是2+3。再说有几个意思。这个2+3组合,从核心动词“削”本身来看,是“<施事>用<工具>从<原料>加工<产出物>”,其中的“原料”和“产出物”在大方向上是一个门类,二者在具体状态(比如特定部位的尖锐程度、平整程度、凹陷程度、裸露程度等)方面具有显著差别。所以,修饰指向施事、工具、原料/产出物,句法上都是可能的,语义上要根据上面的约束来排除伪歧义。首先排除铅笔刀作为“施事”:在显性定义了“工具”的论旨角色体系里,施事只是操作者、策划者、实施者,是具有智能的实体。“刀”无法胜任(以后AI发达了,就难说了)。其次排除原料/产出物,具体逻辑前面说过了,就是对原料的轴向/纹理/纤维及其加工走向有所预设。并非绝对不能对刀进行切削,而是这种切削不能用“削”来描述。这样,剩下来的只有工具了。而“机削面疙瘩”,同样的2+3组合,却自动少了工具一个论旨角色,剩下来,施事排除的逻辑更加简单:“面疙瘩”根本就不可能做“削”的施事。在“原料”和“产出物”当中,“面疙瘩”不具有“原料”所预设的形状和质地要求,只能当产出物。那么,“原料”是什么?当然是跟刀直接接触的原始面团。它有巨大的表面供刀子与切面方向形成锐角进行切削,真的满足加工走向的定义。机削面-面疙瘩,貌似分词歧义,其实分词早就搞定了2+3没商量。这不是白马非马,而是“受事”一个标签不够,必须用“原料”和“产出物”两个标签。参考一下“削苹果皮”,会发现,原料是“苹果”,产出物是“苹果减去皮”,更加复杂。还好,这还都是构词法的内容,讲究节律、利用构词常用字负载结构等等套路都应白名单制,有什么闪失也不会滥杀无辜。因为词例不同,对最终论旨角色的唯一解的选择也不同。尽管这个结构在词法和句法上无歧义,在语义的一般格式到论旨角色的具体映射中有歧义,但是实例化成“机削铅笔刀”和“机削面疙瘩”之后,都没有歧义。

李:“机削面疙瘩快极了,一削一个 一削一个,不到五分钟 削出来的面疙瘩一天也吃不完。”

“吃不完的机削面疙瘩 可以留到第二天接着用吗?”

“机削面疙瘩就是比手擀面疙瘩 粳米面条和糙米团子都要好吃 因为机削面里面有人工智能呢。”

“疙瘩还是那个疙瘩 可面有所不同啊。必须相信机器的力量。”

“可以预计 不久的将来 手擀面就会退出成品原料的市场 由机削面全面替代。”

白:VP另说。食品独有。后面例子中单独出现的“面”,有问题。手擀面、机削面中的“面”都是产出物/成品,跟“面疙瘩”中的“面”,同形不同义。

李:有无歧义会不会成为非限定问题?1 绝对无歧义;2 绝对有歧义; 3 乍一听无歧义,但经不起语境变化 以致不得不休眠唤醒。乍一听无 这类现象感觉在语言中比想象的 要多很多。这就是为什么普通 native speakers 对于歧义无感,比语言学家懵懂多了。

白:乍一听无歧义,另一个说法就是第一选择相对于其他选择存在明显优势。明显到通常会进行剪枝。不剪枝,必须外力。语言学家只不过经常职业性地使用外力而已。

李:“计算”语言学的坏处是 如果不预备合适便利的休眠唤醒机制的话 它在模型自然语言的时候 不得不处处留一手。最后造成伪歧义泛滥成灾,跟人的语感和理解完全不同。

白:外力的作用机制,可以笨拙可以巧妙,远不是只有休眠唤醒一条路。也许,往下下调一下剪枝的阈值就可以了。

李:当然不是窄义的休眠唤醒一途 那是极端情形的带有某种破坏性的操作。多层 hierarchical 的系统 基本上解决了传统规则系统的伪歧义问题,主要靠的不是唤醒,而是创造更多 更细密合理的剪枝环境和条件。靠的是 把规则组织成宽广的层级和优先体系。靠的是把系统看成是随时调控的动态过程 而不是一锤子买卖。深度是根本。一个平面不仅爆炸 而且歧义泛滥。没有足够纵深的伸展空间。

白:有了深度再看从左向右和从一而终,都是浮云。更关键的是,可比的对象一定有共同的可比的度量。不管你来自句法分析、语义资源、统计数据还是事理图谱。

李:仔细再想,“削铅笔刀” 还是有蛮拧的感觉。不同结构的音节数倾向性不同。蛮拧意味着歧义结构的角力。

<<削铅笔> 刀> 作为偏正结构,从音节数(语言形式)上看是 3-1,感觉不稳(比较常见的2-1偏正合成词“打狗棒”)。<削 <铅笔刀>> 作为动宾结构,音节数上看是 1-3,非常自然。所以形式上,VO 的结构得分,Mod 结构失分。

但是,语言还有其他力量在,其中包括常识语义。这个力量的强弱感觉因人而异:有人对语义敏感,“刀” 怎么可以做 “削” 的对象呢,不 make sense,立马否认了形式上的VO偏好。结论是无歧义。然而,习惯于不求甚解的人,常常糊里糊涂说话,也糊里糊涂听话,是其日常交流的常态。这类人可能就更易于保留动宾的解读可能性,至少不马上否决。

3-1 偏正除非已经词典里固化了(死记住了),感觉上别扭的人应该不少,所以我们说:“学马列小组”(3-2偏正),而不说“学马列组”。“看电影-瘾头” 不说 * “看电影瘾”。

3-1 偏正头重脚轻站不住;1-3 述宾则极为普遍自然:行万里路,爬太行山,吃XY饭,喝AB汤 …….

1-3 VO 已经很自然,2-3 VO 则更自然平顺:步行万里路,攀登太行山,大吃XY饭,狂喝AB汤...... (突然想到五言诗里面没做统计,但想必还是很多 2-3 VO 结构的。)

正是从这个音节平顺的角度,提出 “机削铅笔刀” 的歧义视角的。毕竟“削铅笔刀”可以 argue 说是词典里面固化了的例外,不必受音节数形式的约束。而 ”机削铅笔刀“ 肯定不是词典词,而且是 2-3。

白:“无后坐力炮”按照结构是“无-后坐力-炮”,实际读音的节奏是“无后-坐力炮”。已经不需要意识到结构了。“削铅笔刀”的实际读音结构是“削铅-笔刀”。

李:哈,角力的表现/表征之一,形式内容分裂了。

记得第一次意识到 “于无声处” 不是 “于无-声处” 而是 “于-无声-处” 的PP框式结构的时候,感觉是震撼。从小熟读鲁迅“于无声处听惊雷”未曾细想,后来有话剧《于无声处》风行,大街小巷议论此剧,有一天忽然意识到,原来一直读音与结构都在蛮拧着呢。

Despite 这些蛮拧,在很多现象的中文句法解析中,字数(代表音节数)是一个非常得力和重要的辅助条件。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【没有破灭的神话只会越来越神,看中本聪有感】

中本聪,比特币之父,神人也,神话也。最近微信朋友圈有他的传奇,不嫌其长,极为刺激,值得推荐:《成为中本聪(上)》;《成为中本聪(下)》。

看中本聪,想起20多年前中文论坛草创期的一个骨灰级传奇人物图雅(涂鸦)。早年百家争鸣,他以网文的幽默老道,红极一时。神龙见首不见尾,后人间蒸发逾20年,各种回忆,各种景仰,各种怀念,各种猜测,各种托知己。

据说这是当年鸦(图雅)与女网友瓶儿的亲密合影,恰到好处的模糊和暧昧:

瓶儿自然也是造神运动的推手(和涂鸦擦肩而过),情真念切。

结果三四年前,他决定回归,网上露了一面,在方舟子网站发了几篇文章。一个美丽的神话就此破灭。吃瓜网民闹腾一阵子后,发现神人不神,未免有些落寞,议论归于静寂。他本来也许是抱着重回江湖的某种心理,但时过境迁,他的独特性不再。似乎自己知趣,复又隐于江湖,忘于江湖。

但这次短暂复出,比起中本聪那次用区块链密钥试图验明正身,更像个败笔。好处也有,对于少数铁心粉丝,他的露面至少解除了怕他遭遇不测的忧心。但对于大众却是湮灭了一个神话(复出前有传他看破红尘,得道南美森林;有说他华尔街大发,成了怪癖的亿万富翁;也有说他隐匿江湖,正在撰写现代版《红楼梦》)。人的德性就是,无论时间、空间,永远远香近亵。已然造就了神话,为慈悲计,还是不要走向神坛,给普罗一个念想的空间。小20年都耐住了,人老了反而耐不住了。江湖已经不是彼时的江湖,在网络时代,20年太久。人不能二次涉水同一条河,昔日荣光非时间隧道不得复现。

这是2014年的事儿,我科学网博客有记:

第二个惊天新闻,新一代的网人可能完全不知所云,但对于中文互联网第一代网人,却是一个难以置信的大事件。中文网先驱者,网络作家第一人,传奇人物图雅,在人间蒸发20多年后,终于出山了!图雅的传奇,研究中文网历史的人可以找到很多的资料和回忆。他以他的实力,在稳居网文大家第一把交椅的巅峰时期,突然退出,引起的震撼和好奇,经久不衰。算起来,他如今也中年已过,业已退休或即将退休了,不知道触发了哪根神经,居然真地重现江湖了。

图雅欲返人间的新闻最早是他当年的老网友小方放的风,大约在半年前。选择小方倒也很合情理,一来当年的网友才俊,在社会媒体生活中屹立不倒的,小方几乎是唯一的一位了。再有就是,小方虽然为人苛严,自恃甚高,除了鲁迅达尔文这些先哲,活人能入他法眼的几乎没有,但图雅是少有的一个例外,小方对图雅推崇备至而由衷。图雅下凡,借力小方,当属最佳渠道,小方也有面子。可是自从小方发布这个消息后,很多当年的鸦迷(图雅也自称鸦)翘首相望,迄今不见动静,几乎开始怀疑小方是否在造乌龙。现在想来,鸦本人大概也一直在犹豫斟酌怎样的出山之作为佳吧。

终于,图雅给鸦迷和网友的见面礼最近刊发在最近一期的《新语丝:图雅 - 唐诗的心境》。我们当年都是鸦迷,此篇一出,先赌为快。文自然是好文,文字也无可挑剔,可也许是期望太大太久,总不免有些失望。 我的第一反应是:这是重出江湖的作品?欠了点劲儿。人老了,就啰嗦。风格上最大的改变是,变得老夫子了,失去了文字的活泼和俏皮。也是快退休或已退休的人了,失去年轻人的俏皮,倒也在预料之中。这是自己给自己抛砖引玉,拭目以待。最好网上能掀起一股热议,也许更加 激发他。不过,时过境迁,这篇又太淡远雅致了一些,怕是难引起太大的网坛震动。

from 《中文社会媒体的惊天要闻二则

 

【相关】

图雅作品集 - 新语丝

方舟子:怀图雅(代序)

瓶儿:和涂鸦擦肩而过

《朝华午拾》总目录

【机器翻译新时代的排座座吃果果】

刘冰老师反馈,他看了我的NLP频道的笔记(【议一议“微软机器翻译提前七年达到专业翻译水平”】)说,就我随机测试的汉译英两篇,显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人,大牌教授。我倾向于同意他。因为我自己并没有认真比照,只是一时兴起做个测试。粗粗一个印象,觉得几家大都在一个水平级,但由于种种原因而来的偏好,我更喜欢有道。

其实不妨给这几家,加上搜狗,做一个英汉的随机测试,这样更容易评判。大家可以就两点做个各自的评价:(i)是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量。(ii)学学纽约时报給美国大学排名,咱们也給这几家非正式排个座次:当然,这种随机测试免不了有波动,不能算正式的排座次结论。

今天的 USA Today 的新闻,谈普金连任,吸引了我的眼球,不妨试试。

Putin heads for big win — and 6 more years — as Russia's president:
(original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/)

Russian President Vladimir Putin — the country's longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday's election for another six-year term, according to incomplete returns.

Putin's re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator):

根据不完全的回报, 俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 "大国家队", 并补充说 "我们一定会成功"。

他说, 国家需要团结才能向前迈进, 并敦促民众 "思考我们伟大祖国的未来"。然后, 他率领热情的人群高呼 "俄罗斯!" 美联社报道。

谷歌翻译 (https://translate.google.com):

据不完全回报,俄罗斯总统弗拉基米尔普京 - 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 - 在周日的选举中再次获得压倒性胜利,任期六年。

普京的连任是普遍预期的,选举官员已经努力争取强大的投票率,宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理,使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计,从60%的选区算起的选票中,普京赢得了超过75%的选票。

下午7点莫斯科时间,当局表示,投票率已达到近60%。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人,并补充说:“我们必须取得成功。”

他表示,国家需要团结向前,敦促人们“思考我们伟大的祖国的未来”。然后,他带领热情的群众高唱“俄罗斯!”美联社报道。

百度翻译 (https://fanyi.baidu.com/):

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人,根据不完全的回报,他将在星期日的选举中获得压倒性的胜利,任期六年。

人们普遍预期普京连任,选举官员极力要求强有力的投票,以宣布一项无可争辩的任务。自1999年12月以来,普京一直是总统或总理,使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区,普京赢得超过75%的选票,根据中央选举委员会。

到了莫斯科时间下午7点,当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人,并补充说:“我们一定会成功。”

他说,国家需要团结向前迈进,并敦促群众“思考我们伟大祖国的未来”,然后他带领热情的人群高呼“俄罗斯”!美联社报道。

有道翻译 (http://fanyi.youdao.com/):

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报,他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选,而选举官员一直在努力争取更大的投票率,以获得无可争议的授权。自1999年12月以来,普京一直担任俄罗斯总统或总理,这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计,在60%的选区选票中,普京赢得了超过75%的选票。

莫斯科时间下午7点,当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”,并补充说:“我们一定会成功。”

他说,国家需要团结一致向前推进,并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译https://fanyi.sogou.com/):

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任,根据不完全的数据显示。

人们普遍预期普京会再次当选,选举官员们一直在努力争取选民踊跃投票,以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理,这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计,普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点,官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”,并补充说,“我们一定会成功。" "

他说,国家需要团结起来向前发展,并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯!”美联社报道。

老友说,不怕不识货,就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条,“是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量”?

我个人认为,这个结论是成立的。不仅仅是基于这一篇对五家的测试,以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解,加上平时做过的多次测试的印象,形成这一判断快一年了,从来没有觉得遇到过严重挑战。

第二条真要排座次呢,估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条,准确和通顺。我们就以这两条作为标准谈谈。

微软的问题:
1. 普金和斯大林错译成了同位语:“俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--;”
2. 漏译了关键的限定语“自斯大林以来”,结果是让人莫名其妙:“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词:(不完全的)“回报”(returns),(不争的)“任务”(mandate),这算小错。

谷歌的问题:
1. 不合适的选词:(不完全)“回报”(returns),(无可争议的)“任务”(mandate),这算小错。
2. as-短语挂错了地方:他赞扬那些投他为“大国家队”的人 (He hailed those who voted for him as a “big national team”,不大不小的错)
3. “we are bound for success.”(“我们一定会成功”)只有谷歌没翻对,它翻成了“我们必须取得成功”。有相当偏差。

百度的问题:
1. 选词不当:(不完全的)“回报”(returns),(无可争辩的)“任务”(mandate),这算小错。
2. 生硬,两个状语的安排不妥:“【用选票从60%的选区】,普京赢得超过75%的选票,【根据中央选举委员会】”。
3. as-短语挂错了地方:他称赞那些投票支持他为“大国家队”的人(He hailed those who voted for him as a “big national team”,不大不小的错)

有道的问题:
1. 漏译了一个重要的限定语“自斯大林以来”:“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过,有些胆大妄为,化有为无。
2. 一个小瑕疵是“根据不完全的回报”(除了搜狗,其他各家都有这个瑕疵),最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然,因为有上下文,这个译法虽然不妥,还是可以理解。

有道的通篇译文读起来非常顺溜。

搜狗的问题:
漏译“for another six-year term“ (是个不大不小的错)。其他没看到错,读起来也蛮顺。

这样看来,搜狗和有道可以并列第一。谷歌第三。百度第四。微软,对不起,你还欠了火候:不仅是比不了谷歌,其他小兄弟也比你更准更顺。(也有人说,线上的不是他们的新版,最新的技术还没进去,我们拭目以待吧)。

马少平老师告诉我,“搜狗由于做的晚,全部用的是神经翻译,有道以前是统计翻译,后来加上神经翻译,再后来彻底抛弃以前的,全部用神经翻译。百度是在以前基础上(统计翻译)加上神经翻译。可见神经翻译胜出。”

而我呢,第一次体验到神经翻译的不俗表现,是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译,语音合成自动读出来给我的感觉不亚于一个专业的口译员,让我大喜过望,赶紧“录得”现场音频分享给朋友。【谷歌NMT,见证奇迹的时刻】2016-10-2 ) 后来,百度出来说它们比谷歌更早就“神经”了,不过我并没觉得百度比谷歌质量高,所以仍然坚持用谷歌。搜狗刚开始上线,界面和用户友好(长文的翻译拷贝等)不给力,用了一下就没再看了。一两个月前开始注意的有道,发现比谷歌磨得更圆,也颇用户友好和贴心,就开始用有道(问题是有时候过分神经,为了通顺敢于牺牲忠实,这个毛病看上去是目前神经翻译的通病。)。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app.  So I shifted to Youdao.  I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day.  It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance.   Despite the name of the app as Youdao Dictionary,  we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time.  The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations.  From MT as a business perspective, Youdao seems to be gaining momentum.  Xunfei is also a big player, especially in speech translation.

说曹操曹操到,微信刚好在传这个视屏:

第一次听讯飞刘总做 marketing 哇塞!比微软还厉害。一口气下来 促销人工智能 方方面面 顺顺溜溜 底气十足。他用代表能听懂的语言娓娓道来,能给人想象的空间,果然高手,谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象,给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错 可别忘了别家也已经追赶上来了,整个行业提升的结果是,老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译,我用我夹有皖南地方口音的普通话,重复给“有道词典的app”里面的口译界面,翻译结果一点不比讯飞逊色,属于同一量级吧,截屏如下:

 

 

 

【相关】

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白宋93:汉语语序的自由与不自由】

白:
我觉得汉语语序没有那么强的作用。坑也不是非要凑齐了再咋地。应该有一种符号化的mechanism,很方便地刻画这种对语序的包容。大家之前都被误导了

李:
语序我觉得汉语没有那么强的作用
没有那么强的作用我觉得汉语语序
汉语我觉得语序作用没有那么强的
汉语语序作用我觉得没有那么强的
............

尝试结论一下:(1) 宏观语序没有那么强,虽然统计上一定是少数几种语序最常用,但语序灵活性在。(2)微观语序相对固定。譬如 上句中 “汉语语序” 不能说成 “语序汉语”,“我觉得” 不能说 “觉得我”,“那么强” 不能说 “强那么”等(不过 “没有那么强” 倒是可以说 “那么强没有”:这个有点赶巧了,遇到“没有”这个多用法的小词),但“主题化”句式有一定的打破语序的特殊作用:

语序 【停顿】 汉语作用没有那么强

汉语微观语序(phrase内部)不大自由,与有性数格一致关系的欧洲语言对比强烈:有一致关系的语言,就不需要语序来制约谁是修饰语谁是head了。汉语宏观语序(phrases 之间)的自由度,比我们通常以为的,要大很多。我们确实有意无意被误导很久了。

白:
分析用,“不能说”只是在结构作为一个组件参与排岐的时候才有用。其他情况基本不用。

李:
微观中 最显著的关系是 mods 与 head,语序不固定就产生歧义,必须固定。尤其是定中(比较:“木头沙发” vs “沙发木头”)

白:
填坑与盖帽,本来就是两种性质的东西。

李:
到了 副词-形容词组合:很好 vs * 好很 (但是我们有个 “好得很”);状语和动词: 认真工作 vs 工作认真,居然两可,虽然句式不同。

phrases 之间,语序很自由,但仔细看,也有说法。一般来说,宾语提前很常见,但是主语后置不可以,少数例外是“来 去”这些“自动词”:

三个人来了
来了三个人

宾语提前的自由度 大于主语后置,这多少因为前者的说法常见,被共同体约定俗成以后,只好牺牲后者的自由度:太多的自由容易乱套,所以一个元素的自由增加建立在另一个密切相关的元素自由减少的前提下。

白:
喜欢死我了

李:
哈 这个以前议过(【李白82:汉语重叠式再议】):“我稀罕死她:是我喜欢她
她稀罕死我:既可以是 她喜欢我,也可以是 我喜欢她。汉语鬼不鬼?”

S 喜欢死 O:(1) S 喜欢死 O;(2)O 喜欢死 S == O 让 S 喜欢死(O) 【使动解读】

我喜欢死iPhone X 了
iPhone X 喜欢死我了。

歧义:他恨死我了。
不歧义(常识带入):这破玩意儿恨死我了

宋:
汉语的语序,还是有硬约束的。“张三打李四”,一定是张三动手,李四挨打,这个语序不能乱。一般来说,施动受三个短语组成小句,无约束的全排列有6种,能使用的只有3种:施动受,施受动,受施动。当施受无法根据同动词的语义关系来区分时,后两种也不能用。

白:
施受动到底是句法关系还是语义关系?语义关系句法是可以不管的。

宋:
施受动是语义概念,但在汉语句中受语序限制,应该是语义的形式规则。句法分析可以不管,但语义分析要管。我想,用语义适配性解决不了“张三打李四”的语义分析问题,还要使用这种语义的形式规则。

李:
施动受(SVO)是逻辑语义。逻辑语义解析是分析的根本目标。归在哪个模块 分几步走 那是系统内部的事情 但目标不变。

以前说过 常识永远是软约束 而显性形式(关于“显性形式”,见【立委科普:漫谈语言形式】)可以是硬约束 软的不能代替硬的。当一种形式让我们理解了反常识的时候 我们意识到了硬约束。乔姆斯基的绿色思想(“Colorless green ideas sleep furiously”), 精妙不过如此。

硬约束举例:

1 语序: 白米饭吃了我
2 小词 “被” 和 “把”:我被白米饭吃了。白米饭把我吃了。
3 直接解说(包括用小词也用实词):白米饭对我不是吃的对象,反过来我成了白米饭食用的对象。

白:
白米饭把我吃胖

李:
“吃胖” 那种句式(vt 加 结果补语a 构成) 不是硬约束的反例,反而是硬约束的论据。这类词法变式 有严格的规则可循。不仅仅是汉语,很多语言都有一套类似的词法,自动变使动 等等。

有了结果补语,合成词词法从自动变为使动,模式的语序也相应变动,逻辑语义在这个变式中是确定的,因此其中语序仍然是硬约束。如果我们说“我把白米饭吃胖了”,虽然反常识,但语义是确定的。

直接量(小词)、语序 这些显性形式 是硬约束的基本材料,在硬约束实现到pattern的时候 是它们的组合在 enforce 硬约束。

NP1 把 NP2 Vt 了
NP2 把 NP1 Vt+Buyu

其所以后者可以转变自前者,乃是 pattern 里面所规定的语序与小词的硬约束在起作用。无论 “把” 在一种 pattern 里面引入的是受还是施 它都是硬约束能够实行的一个硬件。否则 施受和语句理解就无从谈起。如果常识语义这种软约束可以一统天下 决定我们的理解过程 如果语言学显性形式这些硬约束可以排除在理解之外,人类就不存在新的思想 不存在童话和小说 也不存在知识的更新和应付动态世界的可能。

事实上 常识是最没有信息量的知识 我们的语言交流 其关注点总是集中在非常识和反常识的部分 那才是我们的真正的信息营养。俗话说 狗咬人不是新闻(不具有太多的情报性) 人咬狗才是。

白:
歧义丰富的情况和歧义贫乏的情况,常识的作用是不一样的。歧义丰富时,常识帮助消岐。歧义贫乏时,常识无感,反常识帮助建立修辞性理解。

李:
但是 硬材料不一定是硬约束 只是硬约束可以利用的元素,硬约束离不开 pattern,pattern 才是实行硬约束的执行者,也是协调软约束的场地。是 pattern 告诉我们有个著名的软约束协调的问题 譬如 pp attachment:vt np pp,pattern 是重中之重。FSA++ 就是 pattern 描述和实行的利器和理想的形式平台 formalism,因为它最直接 直观 抓住 pattern 的描述。

白:
举个例子啊这两筐、这筐、两筐,都OK。两这筐不ok,可分析用,也不care。这pattern长啥样,挺关键的。

李:
白老师是要说 语序没大关系 不需要作为硬条件么?问题是,有的时候,它的确就是硬条件,不 care 的前提是它不留歧义的余地或隐患(其他条件足够补偿这个条件的缺失)。但这事儿很难说,至少是睡不好觉。睡不好觉是因为我们不知道它留下隐患的几率有多大。任何一个条件理论上都可以抽掉,在有些 cases 并不影响解析,但其他的一直想不到的 cases 呢?总之,如果觉得某个 pattern 的词序是硬性的(譬如 SVO 不能倒过来 OVS),那么最好还是强制实施。“两这筐” 这种要不要强制排除,存疑。毛姑姑,作为分析不强制问题不大。(当然,作为生成,则必须强制,否则不是人话。)

一般而言,我们在NLP中玩条件平衡术,松一点或紧一点,带入词序或不带入词序,主要是因为自然语言的组词成句的排列,在“法”的平面是非常稀疏的,人类已经或可能说出来的序列比起全排列只是一个极小的子集。因此,作为分析的 parsing patterns 不必要把“合法”的约束,予以全面的强制,只要针对可能的歧义做出区别即可。

完全不需要语序制约的语言理论上存在,因为语序不过就是一种显性形式,总是可以以其他的显性形式代替来表达逻辑语义。可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)标记来表达哪个词与哪个词发生逻辑语义的关系。

可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)来表达哪个词与哪个词发生逻辑语义的关系。

有了这两样东西(小词或语缀常常是表达这些东西的显性形式),语序这种形式就可以完全排除了。因此,任何排列组合都不影响解析。可惜,实际中没有这种自然语言:即便声称自由语序的语言如俄语和世界语,也不是可以完全排除语序条件而达到解析的。

 

【相关】

【语义计算:汉语语序自由再辩】

【语义计算沙龙:语序自由度之辩】

【立委科普:漫谈语言形式】

【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【校长对话录:向有道机器翻译同仁致敬】

校长:
因为缅因州法条文少了个逗号,牛奶公司吃官司付出500万美金:

Maine law requires time-and-a-half pay for each hour worked after 40 hours, but it carved out exemptions for: The canning, processing, preserving, freezing, drying, marketing, storing, packing for shipment or distribution of: agricultural produce; meat and fish products; and perishable foods. What followed the last comma in the first sentence was the crux of the matter: "packing for shipment or distribution of." The court ruled that it was not clear whether the law exempted the distribution of the three categories that followed, or if it exempted packing for the shipment or distribution of them. Had there been a comma after "shipment," the meaning would have been clear.

原来我这些年学的都是假英文

不过法庭favor劳工,就已经甩天朝几万条街了。在那片国土,只有高端人口才可以随意耍流氓。。。

李:
缅因州法律规定,在40小时后,每小时的工作时间为1.5美元,但它却为:罐装、加工、保存、冷冻、干燥、销售、储存、包装运输或分发农业产品提供了豁免。肉类和鱼类产品;和易腐食品。在第一句话中最后一个逗号是问题的关键:“包装运输或分配。”法院裁定,不清楚该法律是否豁免了随后的三种类别的分配,或是否豁免了对其装运或分销的包装。如果在“装运”之后有一个逗号,意思就清楚了。

这是有道翻译,比像我这样的英语专业生在时间压力下去翻译这段,要强多了。顺便向有道同人致敬一下,他们超越了名震天下的谷歌翻译。谢谢他们提供的免费服务,我经常用它,其实是愿意付费的。MT 连同互联网,与水和空气一样,成了不值钱的必需品。

“1.5 美元” 是一个巨大的错译,应该是一倍半加班费的意思,神经机器翻译的错译问题已经是一个被反复曝光的痛点,在追求顺畅(达雅)的同时,牺牲了精准(信)。

我是这么看机器翻译走向的:

(1) 机器翻译一定会译错,所以认真使用前需要核对。
(2)核对所花时间 比一切靠人翻译 节省太多人工了。翻译员市场萎缩以后,大批译员会退出,少量留存的是那些知道善用机器的核对员,这个工作不会被取代:核对校订的需求永远存在。
(3) 机器翻译本身在进步,明天的错应该比今天的少。
(4)论顺畅 机器越来越赶上或超越人 因为机器是在海量数据里面找 norm,而一个个体,无论学了多少年的外语,都是有限的语言接触,偏离 norm 的可能远大于机器,因此更容易生硬,尤其是在时间压力下。我本人偏好顺畅,更甚于精准,因为翻译错误我一眼可以看出来做译后编辑,但顺畅我老感觉自己还有很多力不从心的时候,需要机器帮助。自己常觉得写不顺,但评判顺不顺还是容易很多。因此,翻译工作先交给机器,然后自己校订,无论纠错,还是找出个别不顺达的细节,都容易很多,因为苦活累活机器做了。

校长:
@wei 有道翻译可以免费用么?amazing!

李:
http://fanyi.youdao.com/
try it yourself
天下真有免费午餐的。

有道的傻瓜式袖珍翻译器 大约100多美元 可以买一台 周游世界的时候用。

校长:
@wei 我靠!你没感受到同行竞争压力?

李:
感到压力的应该是讯飞。他们也出了个翻译器,好像很贵?
这个行业整体提升了,保持领先已经很难。巨头谷歌也不能。

我早跟MT说拜拜了,前几年还较劲,觉得统计MT鲁棒是鲁棒,意思也勉强可以出来,但出来的译文惨不忍睹,想着有空怼一怼统计。神经翻译出来后,基本熄灭了狂妄,顾左右不言他,反给它做宣传,吹喇叭了。(【谷歌NMT,见证奇迹的时刻】) 当然,任何技术都有短板(行话叫知识瓶颈),譬如进入一个没有人工翻译大数据可以学习的领域,神经系统就抓瞎了,譬如电商数据的机器翻译目前的可用度不到 30%(相比较:在新闻领域,机器翻译的可用度高过90%),就是说几乎完全不可用。

校长:
正确选择
典型的乱拳打死老师傅

李:
AI 这次炒热其实是有群众基础的,不完全是媒体鼓噪和精英忽悠。一个是神经机器翻译,一个是语音识别(如 讯飞的自动速记和语音输入),还有一个是人脸和图像识别,这三块儿的进步,不是忽悠,而是现实。还有一个对话,从苹果的 Siri 开始,虽然还有磕磕绊绊,虽然绝大多数普罗还是拿它当玩具,落地应用的产品多不成熟,但 Siri 还是启蒙了大众和教育了市场。这些都是普罗百姓可以亲眼见证和切身体会的科技奇迹。这些个东西激发了草根的想象力。于是,AI 热在民间还是很时髦正面的形象。

留个证据图 以防哪天系统退化(虽然是小概率事件:但马斯克昨天说 科技并不自动进步 逆水行舟 不进则退 它举的是航天技术在 SpaceX 前停滞不前反而退化的例子) MT奇迹不得重复。先防着别人怀疑假造,说不可信:

校长:
本来就是不进则退。很多科幻片里面未来都是破破烂烂破铜烂铁。就是天上一堆飞船在shithole上面飞。我认为那更接近未来的发展方向。

李:
那个是科幻,对科幻,no comment

今天,领导在网上查看 IKEA 网页上的商品,问几个单词怎么讲,我说以后不用问我了,我给你的 iPhone 装了有道,比我强多了,还 handy,可她懒得查词典。我说,你不用查,拍个照就行了,打开 app 有个“拍照翻译”的按钮。wow:

挑错永远可以挑,能做到这么贴心、intuitive,乔布斯再世,也不过如此了。

Guo:
@wei 真要给你泼泼冷水了。哈,也不能太不顾事实啊。“复习空气”,完全不搭啊。这可是连“流畅”也不及格的。打住吧!

李:
还有 39.9克。

原文是:
Airy, soft seersucker duvet covers with a naturally crinkled texture. The beautiful cotton fabric breathes and feels cool against your skin, which is extra comfortable during warm summer nights.
Size: Twin

这玩意儿我不查词典也翻译不了,特别是第一句。领导以为我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在家里我这英语专家的光环已经消磨殆尽了。呵呵。

郭:
看看微信自带的翻译:

轻盈、柔软的泡泡纱被套,具有自然的皱褶质感。美丽的棉织品呼吸和感觉凉爽的皮肤,这是特别舒适,在温暖的夏季夜晚。
大小:双胞胎

李:
不错 不错。这就是我说的,这是整个行业的技术提升,不是哪一家可以专美的了。语音、图像和MT。

$39.99 翻译成 39.9克 原来是因为 OCR 识别成 39.9g 了 哈。实在说,9 跟 g 长得的确差不离儿,加上在数字后常见,也是事出有因。 可惜了前面那个 $ sign 的痕迹。

哈,领导以前迷信我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在自家这英语专家的光环已经差不多消磨殆尽了。呵呵。

回过来想,以前我们常常赞佩的那些大学问家过目不忘,词汇量超大,现在想来算啥,再大也比不上一个小U盘,脑子里被词汇填满,实在有点浪费。反正随身有iPhone,iPhone 里面有【有道】,有道不仅有本地词典,还可以接得上云,脑袋是无限延伸了的。可是 托福 GRE 还在考那些稀奇古怪的词,明知道好不容易记住了,考完了,还是会忘掉。跟不上时代啊。

这个也好玩 请看:

这张截屏里 头两句很顺 最下一句莫名其妙:原因是我不小心按了 英语 的话筒 说的却是汉语 哈哈。这岂止是垃圾进垃圾出啊。但它一本正经给你匹配完全错位的语音 也不设个置信下限 一样翻译出莫名其妙貌似顺畅的句子来。

“英语按钮” 转写成 “英语的二牛”(为什么不是二妞呢),继而翻译成 English two cattle.

有道自己做的翻译器 却把自己的品牌名“有道”, 在英语读出来一个古怪的读音 哈。我说的是 “这个我得反映给有道”,成了“这个我的反应跟有道理”,考虑到我的口音,难为它了,倒也情有可原。

下面的实验是读一段英文新闻

翻译基本没问题。

接着到文学城找一篇中文新闻,读给它听:


不可思议地顺畅 精准,甚至那些百分比 那些数字 也能“听懂”我的口音。

有点吓倒了。老革命心脏也不都好。

最后是我阅读的新闻的网页截屏 有兴趣可以自己对照一下。

这一切 是在我这种普通话不标准 有口音干扰的信道中发生的。错误放大理论会说 这种翻译是完全不可能的,见证的不是奇迹,只能是AI魔术。

想起来谁说过的名言:“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。

 

【相关】

【开复老师说:AI 是最好的时代,也可能是最坏的时代】

谷歌NMT,见证奇迹的时刻

立委随笔:猫论,兼论AI福兮祸兮

有道的机器翻译http://fanyi.youdao.com/)

谷歌翻译 https://translate.google.com/

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【开复老师说:AI 是最好的时代,也可能是最坏的时代】

李:
李开复老师最近发文说:
据我估计,大约一半的工作将在未来十年消失。在全球范围内,人工智能和机器人将很快被人工智能和机器人取代。这一巨大的挑战给一种叫做“普遍基本收入”的旧观念注入了新的活力。在这种观念中,政府为每个公民提供稳定的津贴,不论他们的需要、就业状况或技能水平。

这就是我前几天说的,AI福兮祸兮很难定(【猫论,兼论AI福兮祸兮】)。因为人类对工作(job)的情结,以及社会观念和按X(劳、资、 权等)分配的制度,都受到很大挑战,不一定来得及适应。

Ming:
这的确是大趋势,但未来十年有些夸张了吧

李:
是不是10年不好说,但AI取代人类很多工作是肯定的,其取代速度肯定比人类的观念改变和社会制度的适应要快很多很多,因此 最坏的时代不完全是危言耸听。这跟霍金 马斯克之流说 AI 自主思维 控制人类,完全不同。前者不仅是危言耸听,而且匪夷所思,尽管出自名人大嘴。后者却是真切的人类自身的威胁,AI 不过是 trigger。

开复老师继续说:

“那么,我们应该盲目地给每个人1万美元吗?绝对不是。”

“乐观主义者天真地认为,UBI将成为人们专业重塑自我的催化剂。但是,只有当硅谷的领导者们把他们自己的角色投射到所有将要被转移的工人身上时,UBI才有意义。事实上,如果我们谈论的是一个成功的硅谷企业家,他或她的技能、创业、经验和网络可能成功地帮助将一个中等的UBI收入转化为下一个科技帝国。但这种情况肯定不会发生在那些生活在失业会因传统经济衰退而加剧的地区的失业工人身上。”

“免费发放给失业工人的钱可能会意外地帮助一些人找到工作,但更有可能的是,他们很快就会找到一份新的工作,而且很快就会被淘汰。这是我们在整个劳动力市场看到的一个熟悉的模式。曾经在工厂装配线上工作的卡车司机很快就得再次学习,成为其他的东西。大多数失业的工人不会有远见预测哪些职业会在人工智能革命中幸存下来,因此不知道如何最好地使用UBI货币来确保未来的稳定。”

Qing:
硅谷的领导者们真把自己当颗葱了

李:

下文是:“我们必须共同努力,找到一个全面的解决方案,包括建立新的职业、价值观和社会规范,而不是重新分配现金,并希望得到最好的结果。我们需要重新培训和适应,让每个人都能找到合适的职业。这里有五个必要条件:

1 保证生存。

首要任务是建立和支持项目,以确保没有人挨饿或没有住房和基本的卫生保健。”

这第一条是 同情论,就是说,知道你没用,但必须养着你 跟养pets同理,这叫人道。作为基点是对的,但总觉得观念上有点不对。

首先 被养的“没用的”人,并不是被其他同类或组织养。这个观念必须改变。如果相信人生来平等的天律,生来平等的本义至少包括我们赖以生存的地球上的原始资源应该人人有份。“没用”的人实际上是让出了自己的原始资源,给了社会去用来创造财富(或保护环境,譬如决定闲置),财富部分回流给他们(基本生存在现代社会,比起出让的资源来说,微不足道,其实经济上不参与价值创造的人其实是“亏”了),天经地义,没有“被养”的问题(硬要算谁养谁,那是精英阶层被大众的资源所支持产生出来的巨大社会财富养到富得流油:天平是往精英阶层倾斜,远远谈不上对普罗的平等)。

Qing:
以人类这个操性,多半还是要打一架的

李:
“2 最大化创造性的工作。

只有人类才能创造和提出新的创新。人工智能今天不能跳出框框思考,它只能优化由人类定义的问题。因此,在早期教育中,我们必须确保系统不会抑制好奇心、创造力、批判性思维和个性。在中学和高中,我们应该增加对有天赋和有才能的项目的资助。在大学里,我们需要帮助有创造力的学生学习人工智能工具的程序。”

行:
布热津斯基的奶嘴理论

李:
这第二个说法是,在可能被养的人群中,通过优化教育的机制,百里挑一找出“精英”去养人(做管理者、参与生产),如此延续社会的科技进步和财富创造。

“3 增加社会就业机会。

爱不能表达爱和移情,也不能建立不可替代的社会关系——只有人能。与那些不容易被教授的创造性职业不同,人们可以在大量的社会职业中接受培训。此外,我预计人工智能将产生数万亿美元,消费者支出将随之增加,并将用于民间服务。

这意味着需要人类接触的服务工作——社会工作者、治疗师、教师和生活教练——将会供不应求。此外,新的社会工作将会被发明,在这个过程中,人类将成为顾客和人工智能之间的中间人。例如,当使用人工智能诊断工具时,一位医疗顾问可能帮助病人排除故障并提供补充建议。其中一些工作甚至会得到很高的报酬。”

就是说 大都去做服务性工作?很多服务 机器人做得更专业:譬如 按摩椅 比 平庸按摩师 更具有优势。但总有 顾客与机器人之间的”中间人”和“协调人”(或随机应变性)的工作在?

Qing:
做好多手准备吧

李:
“4 鼓励唯意志论。【貌似译错】

我们需要建立更多的志愿者项目来帮助那些对高技能职业兴趣不大的退休和失业工人。我们还应该考虑补偿志愿者。”

“5。重新定义的职业道德。

每个人都需要有一种自我价值感和自我实现感——他或她相信他或她的存在是有意义的。不幸的是,工业革命错误地灌输了一种社会规范,即自我价值应该主要来自于职业道德——如果你努力工作,你就会得到回报。但是因为人工智能,基于重复性任务的工作很快就会消失。”

“我们需要重新定义新的劳动力范式的职业道德观念。一份工作的重要性不应仅仅取决于它的经济价值,而应由它对社会的贡献来衡量。我们还应该重新评估我们的观念:延长工作时间是获得成功的最佳途径,应该消除与服务行业相关的耻辱。”

“即将到来的人工智能革命将带来最好的时代或最坏的时代。结果将取决于我们是否会被天真的乐观主义所陶醉,或致力于全面解决问题。显然,UBI是不够的。我们要认真、迅速地进行辩论。只有到那时,这场神奇的革命才会引领我们走向创造性的复兴。”
原文在《华尔街邮报》 由 有道现场翻译。)

第五点很有道理:工作所带来的荣誉感和高人一等的自我感觉 需要被新的观念取代 否则 AI 时代会重复工业革命时代的悲剧:在越过温饱线以后,社会财富越增长,人类的多数人越不幸福。

行:
一开始社会(部落)的发展水平由50%的人的水平决定;
工业社会由10-20%的决定;
20世纪由1-2%的决定;
21世纪后由0.00001-0.0001%的决定;
其余的一部分从事辅助工作;越来越多的从事非效率性工作。

李:
如果说 工业革命时代 财富的增长 至少减少了忍饥挨饿的人群 在“生存权”层面上改善了人类,多少弥补了精神上不幸福和焦虑。

到了 AI 取代工作时代,前者的优势不复存在,因为基本上已经没有人忍饥挨饿需要改进。那么 其副作用一面 即引起更多的焦虑 痛苦 则被放大。所以 AI 福兮祸兮,看来是祸更大。因为人类社会适应的速度 没有科技进步的速度快。这就是开复说的 可能是最坏的时代。

行:
不会
工业时代的大多数人肯定比贫困的农业时代的人幸福。

李:
从挨饿到吃饱饭,肯定增加了幸福感,这是飞跃性增加,没有疑问,生存权是最基本的。但如果都不挨饿了,失去工作 感觉到自己无用 无价值 就是纯粹增加痛苦。

行:
满血打怪去。回复到,戴着乌纱帽,骑着小毛驴,吟诗作画的悠闲文人时代。

李:
以上议论过程里,我顺便做了一个AI现场实验:开复在华盛顿邮报这篇是英文,我用有道的机器翻译过来(http://fanyi.youdao.com/),未加修饰,看来以假乱真,也基本不影响我们的阅读、领会和讨论。这是真实世界的AI剥夺翻译员工作市场的一个鲜活实例。搁以前,翻译这篇文章,怎么也得半天时间。

行:
现在任何一台机器都可能取代了过去几百万人的工作,人因此失去工作了吗?

一个人的功率小于一马力,0.75千瓦。现在一台百千瓦,万千瓦的机器比比皆是,兆千瓦的机器也不希奇,人不还得更卖命的工作?!只是不要在上述邻域试图跟机器比大小。

关于技术进步,我有两个观点:一是圈圈理论。即圈圈越大,边界越大,遇到要解决的未知问题越多。二是水舟理论。技术如水,人类在舟。水涨船高。

AI作为一种技术,概不能外。不要自我感觉太好!只是大部分要承认天才和自己的无能。就象你围棋下不过柯洁又咋了?

技术进步像马克思说的,给人真正的自由发展创造了条件。只是之前人的发展重点是解决效率问题,今后人的自娛自乐互娱互乐,甚至与机器人娱乐可能成为产业前沿。

李:
摩登时代 我们看到了两个极端:一个是失业的痛苦;一个是在业的 忙得要死 过度竞争 高度紧张 随时面对失业的威胁。二者都是幸福感的反面。正常的、合理的社会不应该是这样的。

工业社会解决不了的这些 后工业时代可以解决吗?

Ming:
理想情况下,应该研究一下技术进步速度与社会人类幸福感之间的关系,从而寻求一个最佳的发展模式和速度。但现在国家的界限还未消除,不同国家,不同意识形态之间还有竞争。竞争之中,当然是技术进步越快越有优势。在这种情况下,无法奢谈对技术进步的控制。

李:
这就是我说的,也许AI应该缓行(虽然知道缓行不了,人类的一切大多是命定)。

行:
现在的技术进步不是很大程度解决了血汗工厂和高比例失业问题吗?摩登时代预言的地狱并没有到来。总体上,更快的速度和幸福感正相关。正象中国最长寿的地区是雾霾重重的北上广,而不是所谓的长寿之乡巴马之类的地方。

 

【相关】

华尔街邮报李开复原文

立委随笔:猫论,兼论AI福兮祸兮

【猫犹如此,人何以忧,霍金之论谬矣】

有道的机器翻译http://fanyi.youdao.com/

【语义计算:李白对话录系列】

《朝华午拾》总目录

【NLP答问:关于parsing 和自然语言理解】

【立委按】人工智能热潮下,进入自然语言领域的新人也随之增多。新人的好处是喜欢问问题。于是有了答问。

新人:
读过您的parsing方面的系列博文,parsing 及其落地应用的种种,很有意思的领域。把 parsing 这一块做好就非常 exciting 了,能落地就更棒啦

答:
必须落地。否则站不住脚。parsing 做好根本不是问题,已经做了N次了,been there done that()。NLP 是个力气活,但不是看不到头的活儿。达到接近专家的水平是验证过的。落地有所不同,落地需要找到切入点,需要有一套领域化的有效方法。

力气活指的是迭代:就是不断的迭代,每天迭代10次,一年就是3600次。设计思想和框架机制对路了,剩下的就是不断地根据数据制导,去修正系统,保证走在正路上,避免或尽可能减少 regressions,终会达到彼岸。

新人:
力气活是真的,我之前做 NLU badcase 分析,后来能看到准确率确实在上升。我相信迭代的力量。

现在的 parser 已经足够好了吗?您博客中提到的休眠唤醒机制,世界知识的引入,非确定性表达的问题都已经解决得差不多了吗?

答:
还没有,时间和人力的投入不够,一切重起炉灶,系统架构更加合理科学,但血肉不足。没关系,目标导向,急用先做。有些来不及做的,先放在那里。

新人:
想起您博客中各种奇怪的例子

答:
那是刁难系统的,多是语言现象的犄角旮旯,其实不值得太花力气。古怪的句子的好处是测试鲁棒性(robustness)或者测试有没有补救措施(backoff),主要精力还是应该花在统计性强的常用句子身上,不能被长尾牵着鼻子走。

做中文 parsing 特别让人兴奋,比做英语等 要有意思多了,后者太缺乏挑战性了。

新人:
嗯,中文本身很有魅力

答:

看上去一个字符串 人看着都头晕,如果能自动 parse 出结构来,很让人开心的。

新人:
“看上去一个字符串 人看着都头晕”这句感觉对 parsing 挺难的?

答:
不妨试试:


这个当然有问题,但很容易修正。现在的序列是:NP,CL,AP,这个 CL 是一个插入语,最后的结果应该是在NP与AP之间建立主谓关系,把插入语附加上,就完美了。(CL 是 clause,M 是定语,R 是状语。)修改后的结果:

这个结果还合理吧?

新人:
是不是把“看上去”作为RP,就能fix之前的问题了?

答:
主要还是带有插入语性质的 “NP人看着(都)AP",插入语“人看着”是 RP(副词性短语),“看上去”也是RP,但在句首,好办。

新人:
如果去掉“看上去”,整个句子是“一个字符串 人看着都头晕”,改之前的 parser 能解析正确吗?

答:
不能,因为没有处理好这个插入语。与“看上去”无关。插入语在语言中是很有限的表达法,迟早可以穷尽,原则上不是问题。

你以前做过什么parsing有关的工作?遇到过什么挑战?

新人:
之前做parser的离合词这一块。例如“吃了一顿饭”这样的结构,可以从语料中很容易统计到,例如“吃不吃饭”这样的就相对少,只能靠观察。当时是这么做的。首先从研究离合词的论文里找出一个两个字的离合词列表,例如'AB'。然后用'A.*B'在语料中筛选句子,对选出的句子做pos,然后统计'A.*B'中间'.*'的部分的pos组合,但是“吃不吃饭”这样的结构在词性标注的时候就没法搞定了。

答:
这不是简单的离合,而是夹杂重叠。A不AB,是一个相当普遍的现象,对于所有 V+N 离合词都有效的。退一步,V不V 也是一个确定的选择疑问句式。

“对选出的句子做pos,然后统计'A.*B'中间'.*'的部分的pos组合”

做POS 后,你在统计什么?

新人:
当时的需求是,判断"AxxxB"是不是词“AB”的离合现象。因为想提高泛化能力,所以想从语料里产生词性级别的pattern,比如“吃了一顿饭”对应的pattern是“v u mq n”(限定 v 和 n 是单字)。比如“吃不吃饭”词性标注的结果是“吃_v 不_d 吃饭_v”,从词性的层面就不能用“v d v”来匹配了

答:
那两个v是重叠,需要unification机制的,单看POS,根本没戏。如果只是统计 POS-序列,没有什么意义,

新人:
做完了才发现,确实没什么意义。。

答:
是啊,因为就是一个动宾结构,这个 POS 序列,与 NP 中的修饰语序列应该是一致的。

新人:
当时就我一个人在瞎做,都是我拍脑袋想的方法,比较挫

答:
这个不用做统计,就可以想见的。

新人:
能想出来的是有限的呀,肯定有想不到的情况。。

答:
离合词不难处理,它是搭配的一种。搭配现象的本质都是词典的搭配规定与规则的实例化(instantiation)的机制,就是词典与句法需要平台机制上有一个灵活的接口。英语的短语动词 take NP off;put NP on;subcat 句型中对 PP 的 P 的要求(borrow sth from sb),汉语中量词与名词,这些都是搭配现象。

"能想出来的是有限的呀,肯定有想不到的情况。" 但那不是离合词的问题,那是 NP 的问题。NP 当然有很多种组合可能,拍脑袋是想不全的。所以要数据制导,要迭代。类似你上面的语言调查,也是一种。所有的语言现象,不仅仅是NP,都需要数据制导。都有想不到的序列。不过从 POS 序列着手,是远远不够的。POS 太粗,根据 POS 做 NP 或做其他现象,最后都是窟窿。

新人:
是的,最后做了个 字+pos 的规则

答:
字 太细,POS 太粗,加在一起,抓了两头的确会好很多。但是 从字 到 POS 中间还有很多,譬如 【human】以及类似的一整套的本体概念网络(ontology)可以利用(譬如董老师的《知网(HowNet)》)。

新人:
【human】是什么意思?

答:
譬如 “演员”,“总统”,“那家伙”,。。。。就是语义概念标签。【human】是最常用到的标签了,比 N 细线条一些,比 “演员”这些关键词是粗线条了。所以说,一个系统不能光靠最粗的POS分类,也不能光靠最细的关键词,还需要语义概念的 ontology。

新人:
引入语义造成的歧义问题,是用句法来解决吗?比如“演员”是一首歌名

答:
引入并不造成歧义。要是有歧义,那个词不引入也还是歧义的。与引入无关。引入语义只会增加词的信息量,多一些可利用的手段。不是因为引入,所以需要消歧。歧义如果需要解决,也是那个词本身需要这么做。但很多时候,歧义是不需要解决的。

{演员 N},这里有两个信息:(1)演员(2)N。{演员 N 【human】【song】},这里多了两个信息。原来没引入之前,我们根本不知道 “演员” 是什么,不是什么。现在引入语义以后,我们至少知道了 “演员”不是人就是歌。它不可能是其他的1000种可能性,譬如 起码,演员 不是 【furniture】,不是【sentiment】,不是【location】。所以引入新的信息不是增加歧义了,而是大大缩小了歧义的可能性。

新人:
明白了

答:
至于区分歌与人,那个任务叫 WSD,很多应用可以绕过去不做。我写过一篇,说的就是 WSD 很难,但绝大多数应用不需要做(【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】)。

新人:
说实话我不是对 parsing 感兴趣,是对自然语言理解感兴趣,我想知道通用自然语言理解的道路在哪里,但是也不知道往哪个方向发力。

答:
parsing 与 自然语言理解 有什么不同?为什么对后者有兴趣,对前者无所谓?什么叫理解呢?

新人:
以前我一直觉得 parsing 和分词一样,是一种基础的组件。然后我觉得常识才是自然语言理解的核心。不过看了您讲文法和常识的那篇博客(【立委科普:自然语言理解当然是文法为主,常识为辅】),最近也在重新思考这个问题

答:
parsing 强调的是对语言结构的理解,WSD 强调的是对词的理解。粗略的说,语言理解至少包括这两个大的方面。既要知道这个词对应的是什么概念,也要知道这些概念在句子中表达怎样的关系。其实后者更重要。纲举目张啊。做一条项链光有珍珠不成,更需要的是串子,好把散落的珍珠连起来。

新人:
我说下我对自然语言理解的粗浅的想法啊。比如“我喜欢吃苹果”。从句法上很容易就能解析出来,但是计算机通过什么方式才能理解“我喜欢吃苹果”和“我讨厌吃苹果”的区别?虽然能通过词典知道“喜欢”和“讨厌”是不同的概念,那么要怎么这两个概念有什么方向什么程度的不同?然后要怎么表示这种不同?

答:
然后怎样呢?你前面的话没说完啊

新人:
我也不知道要怎么理解这种不同啊。确实,没有句法是不行的。

答:

1 计算机根本没有什么理解不理解。说计算机理解了人类,那是胡扯。说计算机不理解,也是高抬了机器。人类意义的“理解”根本不适合机器。

2. 所谓自然语言理解,那只是一个比喻的说法,千万不要以为电脑能自主“理解”(或者“不理解”)人类语言了。

3. 所以,自然语言理解的本质就是把语言表达成一个内部的数据结构,根据这个结构,比较容易地落地到应用所需要的方向去。譬如 情感分析的应用 需要区分正面情绪(如 “喜欢”)和反面情绪(譬如 “厌恶”)。

4. 换句话说,所谓理解,不过是人跟人自己在玩,与电脑智能没一毛钱的关系。

5. 既然是人自己跟自己玩,那就要看一个系统的内部表达(所谓理解)的设计能不能用有限的表达和逻辑,去捕捉无限的语言表达方式;能不能根据这个表达和逻辑,达到(或模拟)人在理解了语言之后所产生的那些效应。譬如人看了一句话 可以判断是什么情感,情感的强烈程度,谁对什么产生的情感,等等,因此可以得出舆情分析的结论,计算机可以不可以也达到类似的分析效果?

6 因此 脱离应用(理解以后的效应)谈理解,很难。应该通过应用来验证所谓理解。

7 所谓端到端的系统,就是直接模拟应用:里面的过程是黑箱子,叫不叫理解无所谓。

8 符号逻辑派的先理解后应用,不过是用人可以理解的方式把这个理解到应用的过程,透明化。透明化的好处,比较好 debug,可以针对性解决问题。这是黑箱子系统的短板。如果有海量带标(应用效果的标注)数据,黑箱子的好处是可以很快训练一个看上去很不错的系统。如果没有,标注数据就是一个令人生畏的知识瓶颈。

新人:
我是一直从类似微软小冰那种对话系统来考虑自然语言理解,所以不太能接受seq2seq的对话生成系统…

答:
闲聊系统,因为人的对话无时无刻不在进行,理论上有无穷的带标数据,其实可以训练出很好的以假乱真的闲聊机器人的。一个 MT , 一个 闲聊,这两个应用具有天然的海量数据,是少有的知识瓶颈不严重的应用方向。多数NLU应用没有这么幸运。所以不得不组织成千的标注队伍,还是赶不上应用现场的变化中的需求。

新人:
MT 感觉和闲聊机器人还是不一样?闲聊机器人的系统在单轮的时候可以以假乱真,但是在多轮的时候基本都不能维持对话的连续性。

答:
多轮的挑战可能还是源于稀疏数据,这是因为虽然对话的数据是海量的,但是从 discourse 的角度看一个完整的对话篇章,数据就可能很稀疏了。每个对话都是一个特定的话题,以及围绕这个话题的对谈序列。从话题和对谈序列的角度来看,数据就不再是海量的了。突破口应该在对于不同对话序列从篇章脉络角度做有效的抽象,来克服稀疏数据的短板,学会篇章的应对技巧,easier said than done,这个显然有相当的挑战性。篇章(discourse)向来是计算语言学中最不容易形式化的部分。

新人:
我个人觉得如果是通用/闲聊场景,即使有海量数据,对话的话题和序列还是很可能大部分和可获得的数据集的不一致。

答:
那自然,组合就会爆炸。爆炸了 当然数据就稀疏了。

新人:
很多场景还是有办法细分成小的垂直场景,然后通过在系统设计上做一些功夫来达到一个比较好的效果的吧?

答:
垂直当然有利多了。垂直了,就成了子语言,很多歧义也自动消解了。垂直了,就聚焦了,剩下的歧义也就好办了,词驱动(word-driven)也有了发力的场景。

 

 

【相关】

NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

立委科普:自然语言理解当然是文法为主,常识为辅

【语义计算:李白对话录系列】

《朝华午拾》总目录

【与董老师对话:什么是知识图谱?】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题,并分享给各位。面对层出不穷的新生术语和流派,董老师谦逊为怀,不耻下问,让我受宠若惊。我的来自实践的一些粗浅见解,岂及知识大师董老师学问之万一,不胜惶惶。董老师是我一辈子最仰慕的前辈导师,他的逻辑语义学说(逻辑语义及其在机译中的应用)是我入行的导航,他的《知网》(HowNet)是探索人类知识体系结构和常识表达的一个丰碑,其价值必将超越时间和流派( 参见我写的《语义三巨人》)。在很长的时期,董老师是中国计算语言学界的旗帜和对外交流的大使,是中国第一个把机器翻译系统推向大规模实用的先驱(“译星”)。30年前在中关村高立公司兼职搞MT研发的时候,我就有幸与董老师在一起半年左右,当面聆听教诲,受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系,开始酝酿《知网(HowNet)》,酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍,终成正果。我出国前不久,那是1989年风波前夕,中国自然语言界在香山开了个研讨会(年会?),我的导师刘倬先生与董老师在会上就NLP所做的对话,人称“刘董对话”,成为大会热议的主题,此段掌故仍记忆犹新,【立委小传】中有记叙。如今董老师80高龄,离而不休,依然在自己家里亲自上线做系统,深入探索自然语言句法和语义解析,其精神令晚辈高山仰止。


91年出国前在高立合影留念(右下1是董老师,2是我,3是刘倬老师,4是高立CEO)

董:
请给我点启蒙:为何叫”gragh“了?不叫”KB“或”ontology“了。why Google called it "graph"? What does it mean by "graph"?

李:
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google.  Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题--知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例,来说明:在什么情况下必须用到知识图谱了,然后该系统就调用了只是图谱,于是就解决了那个难题了。这样我也许能理解了,也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子 他是怎么炒热这个概念的。

搜索每个人都用,你给一个关键词,它回给你一系列文章的链接,这些文章与之相关,用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾,实际上,越是长尾罕见的关键词query,效果往往越好,这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多,搜索的是实体名,譬如明星,VIP,好莱坞大片或世界500强。对于这类搜索,返回相关文章序列让人看,实在太粗糙了。

于是,他们事先把相关信息结构化、组织好,相互链接,存在某个地方,起了个名字 叫知识图谱。然后一旦查中,就把这整合浓缩了的,比较全面完整,并且充满相关链接的实体信息,和盘托出。结果大家都知道了,无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念,早谷歌十几年我们就提出,而且也实现了,实现在国防部的反恐情报分析挖掘系统中,也实现到我们的b2b品牌情报的商业产品中(参见《知识图谱的先行:从Julian Hill 说起》)。不过当时起名 Entity Profile(EP),而不是 KG (Knowledge Graph)而已。

@董振东 这应该是回答了 非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了,然后想象当年的没有图谱的搜索结果来做比照,说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索,然后可视化展示。其他的图谱应用可以是回答问题,再进一步可以是通过图谱关联做一些推理。理论上,信息组织成图谱了,结构化了,就可以做很多事。

董:
谢谢,李维。再多问一句:这种种图谱,是机器自己做呢,还是人手工做呢?

李:
谷歌是购买 freebase 做为基础,基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了,怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile(刚开始叫 Correlated Entity,CE,也是反映了实体互相关联的本质),简称 EP,我自己不知道怎么翻译好,就译成“实体概览”。后来这个术语也还是流行了,不过到了中文,一般翻译成了“画像”,而不是“概览”。譬如,电商领域大家都谈“商品画像”、“用户画像”,约定俗成。

画像比图解还俗一点,可大家都用,也习惯了。Note 这是图谱的实体名词为中心的一个信息角度,还有另一个以事件动词为中心的图谱角度,目前还没有约定俗成的统一术语命名。MUC (Message Understanding Conference)的信息抽取共同体里面,一般称事件图谱为为 Scenario Template(ST),我归类为 Predefined Event (PE),为的是与 SVO (Subject Verb Object)为核心的 open ended General Event (GE) 比照。把 events 序列串成一个story的结果,叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想,我叫它信息体理论(Theory of information Objects, 参见 《科学网—前知识图谱钩沉: 信息体理论》),成型在我给国防部项目的最后报告里,此不赘述。当然人微言轻,这些思想在今后的知识图谱的发展中,肯定会被别的等价或类似的术语替代,有话语权又能让共同体接受的 往往是巨头。可以拭目以待。

董:
说得好!

李:
近年哈尔滨刘挺老师那里,开始宣扬一个“事理图谱”,似乎闹出一些动静,这就是沿着 event 这条线,概念上非常接近 scenario。事件图谱(or 事理图谱)与实体图谱,虽然二者交叉,你中有我,但事件图谱比实体图谱更难构建,应用起来也更具挑战性。一切还在 evolve。

然而,万变不离其宗。其实这一套所谓知识图谱背后的概念体系,并没有超越《知网》(HowNet)的设计哲学。董老师应该感觉欣慰,语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同,术语名词不过是皮囊。HowNet 是打语义结构体系基础的,是元知识(meta knowledge)体系,面对万事万物的本体(ontology)。 而当我们一旦进入问题领域,我们面对的不再是本体概念,而是一个个实体(individual entity)。 于是实体名(Named Entity,NE)成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology,来作为其 schema 的定义和软约束:这在定义图谱的时候需要用到。

董:
很多年前,刘挺他们曾让我去他们团队,他们跟我讨论过如何建立,例如夫妻关系,在网上搜索相关的事件。这跟实体类相关一样,不从底层来,怕是不好做的。如果是就事论事,那还好,不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释,我知道更多了。

李:
确实更加贴近应用,是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是,把我们在NLU (NaturalN Language Understanding)做无边无沿自动句法解析(parsing)的 SVO(主谓宾)类的语义表达放在一边,重新定义了领域应用驱动的实体抽取和事件抽取(领域事件的例子有“高管变动”事件,CXO上台下台的情报)。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用,创立了信息抽取(Information Extraction,IE)这个领域,也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘,但我们其实可以继续SVO的解析而做得更精准,更具有领域普适性,增强快速领域化的能力。这一点(以parsing支持IE)已经经历十几年的反复实践,其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情,是在我们的分析基础上的再开发。例如:“从轻”的根据之一是“共同犯罪”,而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同...”等等提取的。

李:
实体图谱个人画像(很像履历表)中的一类重要关系就是人与人之间的关系,包括夫妻关系,上下级关系,其他家庭关系等。这就是一个事实的挖掘(公司里面叫 org chart),应该是数据驱动的。

董强做的也是领域数据抽取和挖掘,结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘,绕过了 parsing 和本体知识库。一般来说也是可行的,前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了(有利白领就业,应予鼓励)。尽管如此,人工标注总是一个极大的知识瓶颈(knowledge bottleneck),除非要标注的任务是单一不变,或像机器翻译(MT)那样是自然形成的(人译从来就有,因此永远有积累的海量标注在)。

董:
是的,在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门,受益匪浅。

李:
不敢。祝董老师和全家,平安夜平安喜乐,圣诞节幸福吉祥!

1989年在荷兰,与董老师及BSO多语机器翻译项目组长合影

 

【相关】

【语义网笔记:本体与知识图谱之辨】 – 立委NLP频道

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行:从Julian Hill 说起》

《语义三巨人》

【董振东:逻辑语义及其在机译中的应用】

【立委小传】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白雷宋74:乔老爷的递归陷阱】

李:
咱们可以聊聊为什么叫 center 递归,很多人不做区分。自然语言中,right branching 递归很常见,也常可以超过三层。说的人,听的人,都不感觉是负担。道理就在,虽然“左括号”在不确定的位置,但他们都归于统一的右边界。这样一来就不需要栈(该死的栈!)结构的机制来对付它,有限状态就可以了。乔姆斯基没法拿这个常见的所谓递归来批判有限状态,因此他不得不举 center 递归作为杀手锏。可问题是,自然语言几乎没有什么center 递归。

雷:
The man who the woman who had lost all the keys was calling all day finally came

白:
关于印发关于学习落实关于进一步深化改革的决定的若干意见的通知…… center recursion的中文例子

李:
这些是人话吗?亏老乔是语言学祖师爷!乔老爷反复给我们洗脑:这不仅是人话,而且是人话的本质。

这就是牵强附会,登峰造极地牵强附会。

雷:
right branching 递归是线性的,而center embedding不是线性的

李:
这里面就形成了这么个trap,信服他的人,一个是源于他的权威性, 另一方面是把常见的右递归当成了支持乔老爷的证据。乔形式上没有误导,因为他是严谨的、聪明的,但实际上达到了误导的效果。这就是“递归教”的 fallacy.

雷:
这个是right branching sentence:
The dog slept on the doorstep of the house in which it lived.

李:
右递归太常见了,听上去也不牵强。典型的句式是 vp 的嵌套:
to ask sb to beg sb to order sb to …

雷:
我来理解一下你的意思:center embedding recursive sentences 不存在,或不出三层,所以是finate state的?

李:
不是不存在,是如此罕见与牵强,而且也从来不超过三层,除非你是恶作剧,因此它绝非语言本性。

雷:
不足为道,本来就是线性的。CFG的parsing在理论上是cubic,就是因为这个center embedding

白:
这么多计算手段怎么会被center recursion憋死,自动机加几个计数器就可以线性了,只要计数器不爆表。

李:
拿恶作剧和语言游戏作为语言能力的证据,是乔老爷的最大忽悠。

雷:
我觉得这是数学家和哲学家的通例:形式上的完美。而我们做NLU的,从来就不把这个当真,是不是?

李:
既然最多不过三层, 那么多层有限状态即可轻松应对,三层就是 3x,当然还是线性

雷:
语言学系的人不到计算机系串门

李:
世界上有人把简单的问题复杂化,递归便是一例。

雷:
呵呵,因为我们不是数学家出身?我同意你的说法:就只有几层,有方法可以对付,不必搬出递归来。

李:
他那些理论真地是折磨人,云山雾罩的。有时候感觉,全世界语言学家被他玩得够苦。我还算幸运,我们系比较开通,学句法的时候躲开了乔姆斯基,拿hpsg来充数。hpsg 至少比 gb 接地气,尽管它像个要争宠的小妾,每一个分析都要以乔老爷的主流作为假想对象,反复辩白,妾身清白。

雷:
加州那边不受什么影响吧,走的是另一个路子,如, cognitive grammar, Fillmore

李:
Fillmore 了不起,但过分细琐. Framenet 很好的概念但不实用,以前写【语义三巨人】专门论过。因为它处于语义和语用之间,不尴不尬。

雷:
我专门研究过framenet,觉得还是不够细,同你的琐碎不是一回事。是每个动词的用法还不够全,还有就是Verbnet。感觉是虎头蛇尾,后面都是学生做的,真正要用起来还不够全面。

李:
我看法正相反。我也仔细研究过它。以后找机会展开与你辩论。

白:
伟哥看过来,你的中递归

QJ:
咋了,堆栈溢出了?

雷:
呵呵,一山一寺酒一壶,三层。

李:
还真有这么狗血的不是人话的东西存在。服了我党苏州委员会。

另,再看里面的括号的中递归形式:《 ..<...<...《...》...>...>...》,凭什么这样用括号呢?双单单双......。如果双单都用,应该是交错而行,否则索性一双到底或者一单到底。

wiki 上给的英文中递归(center recursion)的狗血例子是:

A man that a woman loves
A man that a woman that a child knows loves
A man that a woman that a child that a bird saw knows loves
A man that a woman that a child that a bird that I heard saw knows loves

An interesting theoretical point is that sentences with multiple center embedding are grammatical, but unacceptable. Such examples are behind Noam Chomsky's comment that, “Languages are not 'designed for parsability' … we may say that languages, as such, are not usable.” (Chomsky, 1991)

from https://en.wikipedia.org/wiki/Center_embedding

乔老爷的 grammaticality 论,unacceptable 还 grammatical,如此偏执,也只有乔老爷这样的人神才敢了。还有这个 languages are not designed for parsability 的论点,直接与语言的交际通讯本质相抵触。

The linguist Fred Karlsson provided empirical evidence in 2007 that the maximal degree of multiple center-embedding of clauses is exactly 3 in written language. He provided thirteen genuine examples of this type from various Indo-European languages (Danish, English, German, Latin, Swedish). No real examples of degree 4 have been recorded. In spoken language, multiple center-embeddings even of degree 2 are so rare as to be practically non-existing (Karlsson 2007).

也就是说,这种东西统计上是不存在的。是臆想出来的语言学问题,然后把整个 parsing community 给绕进去。雷司令为此搭进去好几年时光,试图去求解它,终于发现只要有中递归就不存在线性算法。

白:
去掉中递归,计算复杂性从接近立方级一下子变成了线性。吃水不忘挖井人啊……

云:
不过计算机语言里这种递归比比皆是啊,尤其是 recursive decedent parser。

白:
人的短时记忆不允许。7加减2,常委数量,也就是三到四对括号,再多了就晕菜。这个可以佐证伟哥的统计结论。

雷:
不怕一万,就怕万一,冷不丁的来

白:
嗯,那就反刍呗。in memory不要搞

李:
还有一个狗血的语言学问题,也是乔老爷造的孽:所谓 binding theory。本来是语言中很小的一个现象,结果被无限夸大,引发了无数论文和论战。由 Binding theory 的三条原则而来的有那么点实践意义的规则,我15年前指导一个实习生,用了不到两个小时就实现并调试完成,后来一直没遇到什么有统计意义的挑战。

可见,一个简单的工程问题,可以怎样地被理论家无限复杂化,烦琐哲学害死人。伟大的理论家害死一代学人。

白:
学人仍然是学人,谁也没被害死,只是又想当学人又想搞工程的被害死而已。这是两种不同的打开方式,老乔根本就当另一种打开方式不存在。

宋:
自然语言规则必须受到人类认知能力的约束,否则就称不上自然语言了。

白:
认知能力有个体差异,也有亚文化差异。

宋:
7加减2应该就是人类共同的认知约束。

白:
内存不够就拿笔作记号呗。

李:
有意思的是,谁创造的标点符号,三层括号:

{ ... [ ...(...)...] ...}

怎么就明白大中小三层就足够了?

白:
摆明了就常委的菜下饭。
多一层也不该憋死人,难受一点而已。艺术一点,难受的程度可以小一点。

李:
已经有人做过大数据调查,多一层也不行,没有超过三层的。

白:
我还是坚持分析要更鲁棒,生成坚决不说。

宋:
自然语言一般来说应该是能听懂的话。如果线形的语音流无法使一般人听明白,非得要落到文字上,左右来回扫描,甚至要用笔做记号,就不自然了。

白:
公文不一定。公文是官场亚文化催生出来的东东。

宋:
非自然语言的确切信息的表达,表格是一例,图形也是一例,再复杂就要用数学公式,必须有足够的数学修养才能看明白。

白:
人能意识到的“回文”,可绝不止7加减2。“上海自来水来自海上”轻轻松松就打到上限。

李:
9-gram,还在 7+2 的极限内。来个 19-gram 的回文,就真服了。人脑就是块豆腐,这方面说过大天去,也无补。人成为万物之灵,绝对不是因为有个记忆能力,或以记忆机制做底的语言递归能力。

 

首发科学网 【泥沙龙笔记:再聊乔老爷的递归陷阱】 & 《泥沙龙笔记:狗血的语言学》 

 

【相关】

乔姆斯基批判

Chomsky's Negative Impact

《立委随笔:自然语言是递归的么?》

语义三巨人

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

11月25号在深圳12月8号在北京,我分别有个NLP的特邀报告

本月底(11月25号)在深圳给个中文NLP的学术主题演讲

 

 

报告题目:中文自动句法解析的迷思和痛点报告人:   李维(京东硅谷研究院)

报告摘要:深度中文信息处理的核心是自动句法语义解析(deep parsing)。长期以来,由于中文文法缺乏显性形式手段,没有形态,功能小词常常省略,中文深度自动解析显得举步维艰,很容易陷入中文分词和短语抱团的浅层漩涡难以自拔。迄今为止的中文NLP应用大多局限于浅层分析或者端对端的系统,并没有做到语言的深度结构分析和语义理解,而后者才是自然语言万变不离其中的奥秘所在,也是中文NLP快速领域化的一条根本出路。本次演讲从通向中文深度解析之路的迷思入手,梳理中文自动处理的痛点并提出和展示可行的对策。主题涉及:中文分词(含切词、合词)与解析的关系,词类识别(POS)与句法角色的关系,离合词(如“洗澡”)带来的词典与句法的接口问题,针对结构伪歧义的细线条词典化道路,以及针对错误放大的休眠唤醒机制(负负得正)。

个人介绍:李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度解析平台及其NLP应用,目前聚焦于中英文大数据情报和舆情挖掘,以及智慧供应链应用。李维NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索、机器翻译等等。 加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,设计并指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 社会媒体全网大数据。李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,在国际学术刊物和大会上发表论文约30篇。2015年,李维被评为SFU 杰出校友(建校历史上50名之一)。

from

http://conference.cipsc.org.cn/annual2017/

下月初(12月8号)在北京的架构师峰会上也要给个talk

专题演讲嘉宾:李维(博士)

京东硅谷研究院 主任研究员

李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度分析平台及其NLP应用,目前聚焦于大数据情报和舆情挖掘,以及智慧供应链应用。NLP深度分析平台具有广阔的应用前景,方向还包括客户情报、信息抽取、知识图谱、问答系统、智能搜索、智能客服、自动文摘等。

加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 大数据,系统质量有第三方评测认定大幅度领先竞争对手(”best of class” by Forrester,Pivot Labs Analytics)。他领导研发或参与的各类NLP应用产品获多项工业界奖项,早期包括INFORMATICS’92 (新加坡) 银奖,近十年包括企业社煤平台行业领先者(A LEADER IN THE FORRESTER WAVE),消费者商品技术(CGT)首选奖等共计17 项工业奖项,多次被主流媒体报道,包括《华尔街日报》《纽约时报》《华盛顿邮报》《财富》MSN,CBS,NBC等等。

李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,发表论文二十余篇,美国专利三项,并多次受特邀就NLP自动分析和大数据挖掘做主题演讲,近年的演讲活动包括哈佛大学医学院,台湾中研院,中国科学院和中文信息学会。2015年,李维被评为SFU 杰出校友(建校历史上50名最杰出校友之一)。

演讲:自动深度语法分析是自然语言应用的核武器

文本自然语言处理(NLP)是人工智能的重要方向,是继图像和语音处理技术(感知技术)突破之后的一个令人期待的关涉认知技术的核心环节。

大数据文本给自然语言处理提供了广阔的场地。本次演讲通过深入介绍自然语言自动分析的历史和现状,勾画出自然语言技术的应用前景。重点在展示和论证深度自然语言自动分析对于自然语言技术应用的革命性作用,这些应用包括智能搜索,情感分析,数据挖掘,问答系统和智能助理等。迄今为止的自然语言应用大多局限于浅层分析或者端对端的系统,并没有做到语言的结构分析和语义理解,而后者才是自然语言表达信息的奥秘所在。自然语言深度分析的技术正在成熟,已经到了显示威力的前夕。

演讲过程中将结合知识图谱和大数据舆情挖掘,来展示深度语法分析(deep parsing)的原理和威力。

演讲提纲:

  1. 人工智能的历史和现状简介:从感知到认知
  2. 自然语言技术的历史和现状:端对端的突破,大数据和深度学习的革命,知识瓶颈的困境,深度分析的对策
  3. 深度分析是什么?非结构的结构化
  4. 什么样的深度法分析是自然语言技术应用的核武器
  5. 应用举例:知识图谱
  6. 应用举例:舆情挖掘
  7. 应用举例:智能搜索和问答系统
  8. 结语

听众受益:

  • 对于人工智能与自然语言的从业人员,以及对自然语言技术感兴趣的人士(学者、学生、投资人、企业家、IT人士)开阔眼界,了解动态以及促进技术的产品化有益。

from http://bj2017.archsummit.com/presentation/123

【李白66:“青春期父母指南”的语义计算】

李:
朋友圈看到一本书书名是:【青春期父母指南】(副标题:如何和谜一般的青春期孩子相处呢?)定语青春期不是指向父母的,而是指向父母的儿女。

有意思的是,定语“青春期”不是指向“父母”的,而是指向父母的孩子。书名的结构是 NP:N1+N2+N3:N1 is neither semantic Mod of N2 nor of N3, but of something only implied yet not mentioned in text.  Grammatically we might still label N1 as Mod of N2, not of N3, N2 is grammatical Mod of N3, and semantic Obj of N3.

当然也不能完全排除这个指南是给处于青春期的父母(teenager moms or dads)

白:
青春期有坑,父母有坑,指南有坑。没有“的”的填坑关系和修饰关系互斥。父母填青春期的坑,是一解。青春期自己升格(处于青春期的某某human子类型),再填父母的坑,是另一解。

李:
后一条路不好掌控。凭什么升格,什么时候不升格?

白:
后面没有相谐的被修饰语,又有人需要这个被修饰语。升格也是有准入条件和优先顺序的。“是什么”是语言学,“选什么”是NLP。讨论语言学和讨论NLP,不是一股劲儿。当父母填青春期的坑的时候,父母自身的坑也只能借助升格来处理。不在这里升格,就在那里升格。要么父母处于青春期,谁的父母没交代;要么父母的孩子处于青春期,孩子是谁没交代。那个没交代的对象就是升格升出来的。

李:
没交代是常态。记得当年学句法课,教授花了很长时间讲解 complement 与 adjunct 的区别,说前者是需要交代结构(及其语义)才算完整,后者是可有可无(可多可少)的附加语。但其实在语言中,需要交代的常常不交代 不出现;可有可无的 往往具有语义的重要性。这道线很难划。语言不是按照逻辑设计的。

白:
语言也不是按照树设计的。多爹、非树是常态。

李:
几乎所有的及物动词都能省略宾语。省了以后,那个没出现的宾语,或者需要根据常识去理解,或者是根据上下文去理解,或者你知我知地通过心灵感应去理解,或者误解。也或者根本就不去(充分)理解:糊涂说 糊涂听 也一样交流。人类交流中 unspecified 的信息太普遍了 大家熟视无睹了。貌似交流也没受到阻碍。

白:
允许名词有坑,这都不是事儿。像上面例子,好像就逼着听话人选择哪个是没交代的。而不能是两个都没交代。

李:
青春期的坑是【human】,父母是【human】,这就算对上了。交代了。至于【父母】的坑,标题上下文里没见着,只好拉倒,stay unspecified。没有升格的理由。

白:
你这是从左到右思想作怪。那我问:“多动症父母指南”呢?

李:
从右到左试试?

“父母”的坑是【human】,左边的“青春期”不是【human】,但是青春期的坑里有一个尚未出现的【human】。如果要让正解出现,不仅需要从右向左,而且还要从别人的坑里面挖出一个根本没见影子的萝卜来。就算挖出来了,填进去的是谁还是一笔糊涂账,最多只能以常识默认推测之。

白:
把“青春期”处理成N+,不存在挖别人坑里萝卜的问题,但前面一些不严谨的表述需要修改。

对前面一些表述的修改:1、“青春期”是修饰语,无坑。2、“父母”取N输出,不在乎/N坑是否饱和,不是“升格”,而是正常的萝卜输出。图上两个方案,(2)的饱和度更高

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【泥沙龙笔记:科学哲学宗教与人生】

尼:
罗素说科学够不着的哲学,哲学够不着的宗教。科学和宗教有交集,如生死,意识,自由意志等。我有篇未完长文 "当我们谈论生死时我们在谈论什么" , 准备作为我《人工智能简史》最后一章。再长的话,得问洪爷了。
@洪 邓总问哲学和宗教啥关系。我昨晚没回复。你接茬说。

邓:
原始问题是宗教、哲学和科学的关系是啥?

白:
科学尽头是哲学,哲学尽头是八卦。

邓:
宗教呢?

白:
宗教尽头是科学啊

洪:
好比有个大鱼缸,
鱼游随便哲学想。
科学只限缸内忙,
缸外有宗教对象。

尼:
@洪 缸能自动变大或变小吗?

邓:
@白 @洪 你俩意见貌似相反

洪:
缸是人所能感知的;如果人类感知进步了人,例如开了天眼啥的,边界就能扩大

邓:
我等白老师和洪爷打起来

邓:
罗素原话怎么说的?
白老师和洪爷彼此惺惺相惜,不打……

白:
缸外有缸

邓:
请白老师明示。解说解说。

马:
探索哲学的小孩

尼:
这小屁孩把想哲学的鱼都给捞走了

邓:
你们都是禅宗的

洪:
身心灵各有其缸,
有界有墙可以撞。
科学自觉不骑墙,
宗教墙外寄希望。

李:
除了红包与痛苦为真 一切皆假。宗教貌似也远不能普度众生,最多是抚慰一小片。至于科学 则是鸦片。让所谓科学家在虚假的高高在上中,求得半片玩积木的兴奋和满足。

邓:
立委登场,讨论正式开始,

彭:
已有的宗教如果不能普渡众生,就只能创新教,当教主了。@wei

李:
当教主肯定更惨。做个追随者至少还可以把负担转嫁 教主的重负转谁呢?

白:
不同领域,宗教尽头到来的时点不同。有的早有的晚。

洪:
假设鱼缸水不浑,
科学/哲学可显灵。
鱼缸壁若玻璃弄,
宗教可以很理性。

李:
面对终极问题 一切那么苍白。高人不高 哲人不哲 敬畏之心难存。

邓:
白老师本质上是认为科学发展会终结宗教?

张:
还有一种可能就是科学发展证实了宗教

邓:
洪爷的说法是两者之间有无法逾越的边界?

李:
都不能解决人类的痛苦问题。

白:
说的就是人类的痛苦问题,科学一定会有办法。

邓:
刺激神经中枢吗?

白:
不是人类整体的痛苦,是一个个具体个体的痛苦。

张:
具体个体的身体痛苦通过科学一个个在解决了。但是精神层面的痛苦无法解决的。就像科学对我们身体的自愈能力一无所知一样。

白:
精神痛苦需要举例,然后看搞定它的途径和时间表

洪:

鱼跃出水有可能,
科学宗教一时懵。
落回或许先知成,
天慧法佛眼开睁。

白:
@张 现阶段科学不等于科学。

邓:
@白 终极的科学是不是等价为绝对真理?

白:
不是。搞科学一般都怕谈“真理”。

张:
精神痛苦的例子太多了,幼年丧母、青年丧父、中年丧妻、老年丧子、失恋,被甩。。。

邓:
如果科学认为不存在真理,宗教又把自己定义为真理,那么是不是可以理解为完全两件事?

张:
估计在地球上找到绝对真理的时候我们要移民外太空了。科学的真理好像是相对的,而宗教的真理是绝对的。

白:
失恋跟记忆关系很密切。如果可以干预和改变记忆,对待失恋的态度也会有所不同。

邓:
原来@尼 大师提到“自我”的容器问题,就是那个换头术悖论,跟白老师这个观点探讨的方向一致吧。

鸣:
精神痛苦,多与欲望相关

白:
执着都是有物质基础的。现在不敢动这个物质基础,主要是怕误伤。如果定点改变,确保不误伤,改了又何妨。离开要解决的问题,真理的绝对还是相对就是个伪问题。有了要解决的问题,大家就直接比疗效好了,不必涉及那些伪问题。

张:
失恋不要被忘记。那也是一种情感需要被回忆的。有了痛苦才有反差,否则人生又有什么意思。

白:
想保留反差就谁也别找,不想反差太大就定点微剂量清除记忆,在这点上宗教活儿太糙,论精准还得寄希望于科学。

邓:
@白 “基督教是现代科学的接生婆”跟您的说法一致吗?

白:
也不尽然吧……

邓:
宗教的尽头是科学

张:
或者科学的尽头是宗教

邓:
现在是张老师力战白老师

张:
来搅浑水。
白老师是严谨的科学家,我们是来搅搅乱。

邓:
必须有人捣乱才能激发白老师讲话的欲望。

白:
娱乐而已。

邓:
@尼 大师该你了。向白老师开炮。咱们那天关于这个主题聚聚。顺便听白老师弹琴。
@白 《those were the days》这歌用曼陀铃应该不错。

尼:
好多讨论的词汇没法定义。例如,"人文"在文艺复兴时的意思是为了和“神”唱反调,科学也算人文,但几经周转,人文语义迁移了。在中国,就成文科生的意思了。

邓:
请大师先定义词汇

尼:
哲学也一样。一种方便的定义是哲学就是哲学系教的那些玩意。那恐怕现在的哲学和100年前哲学不一样了。再过10年,逻辑就不算哲学了。我得开会去,晚上喝两口再聊。

阮:
对于一个生命有穷的个体来说,科学能解决的问题少之又少,当科学不能解决时,就赖宗教获得个体幸福了。因此,科学的终端是宗教。

白:
@阮 宗教就是昨天的科学

李:
一个显而易见的事实是 科学技术的进步带来了物质繁荣 但人类的精神问题没有减少 貌似日趋严重,至少是停滞的感觉 与科技的一日千里 无法比拟。

白:
人类不好伺候啊。
穷也矫情,富也矫情。

阮:
科学伺候的是客观世界,宗教伺候的是人类精神世界,目的不同。

张:
白老师,宗教比科学早啊

白:
对啊,宗教的明天是科学。一个意思。

李:
宗教要真伺候得好 为什么还有那么多迷途羔羊?
譬如 执着心,佛教 甚至fl功 都有很多放下执着心的教义,道理是深刻的,几乎无懈可击,可是怎么那么违背人性 难以接受?

张:
其实科学和宗教确实很难放在一起,科学也许永远找不到最终的答案。

阮:
这世上有这么多无知的人,为什么不说科学伺候得不好?

白:
@阮 不一定啊。你以为高保真音响只是伺候耳朵的?不是的,是伺候听觉欣赏的。

马:
@阮 看你怎么定义终端。科学和技术要分开。享受属于技术。

阮:
@白 科学求真,让人类获得享受是副产品。

李:
好吧 就说死亡不可抗拒 这个我等可以接受 (虽然也是经历很多才接受的)。那么 在我们死亡之前的这些日子里,我们每个人都想减免痛苦,可痛苦依然挥之不去。

马:
所谓死亡只是换了一个躯体而已。

白:
说不定吃一种药就不怕。又减少痛苦又不上瘾。到时候再痛苦就矫情了。

dl:
人之所以痛苦,在于欲望,而其中相当部分欲望,与个体独立性反相关,社会科技越发达,社会越富有,反而大家都落不着好了,这就是现代社会的一个毛病。典型的是权力的欲望。

白:
藏族人对死的态度很豁达

李:
痛苦二字也许太抽象 但我们多少人没感受过一个 “累” 字。人生真累。活着真累。

dl:
越是发达的社会,越是号称平等自由的社会,人们从权力方面获得的满足感越少。越是专制,反而每层都能找到权力的感觉。

阮:
人类麻烦事太多,除了生死,还有一堆其他的。科学帮助解决问题,不能解决的就用宗教。

白:
能量极小化,就是懒;物质极大化,就是贪。

李:
其实这种累的感觉,不是简单的欲望不得满足。

白:
都想出人头地才累。

dl:
归根结底,出人头地也是权力欲望。没有雄心壮志,就比较容易快乐。

熊:
虚其心,实其腹,弱其志,强其骨,美国政府在做的。

白:
权力欲望也一定有物质基础的。吃药可医。早晚的事。

李:
在古代 流行的是简单的快乐。进入文明社会 简单的快乐的能力 现代人丧失了。
我们的远亲 猿猴就没有人类这么多这么深这么厚的痛苦。

dl:
以前皇帝的物质条件未必比现在普通人好啊,但是快乐太多了。现代社会另外一块问题,就是虚伪性,其中最大的就是婚姻制度,也是导致痛苦的主要原因。本来古代制度性解决的问题,现在需要每个聪明人耗尽自己的才智,其实也解决不了问题。@wei 主要是一夫一妻制度的推广造成的。

李:
那就废除这个制度好了。可群婚也不会幸福。

dl:
太多成功学,个人奋斗案例,给大家打鸡血,也是导致大家辛苦的原因。美国鼓吹的那一套人人奋斗也是大家痛苦的原因。以前不成功还可以把原因推到制度上,现在只能埋怨自己了,能不痛苦吗。

邓:
看高手过招真心快乐。@白 将来我们都喝老爸茶、弹琴、斗嘴。

李:
过度紧张 过度竞争 恶性竞争 肯定是罪魁之一。

dl:
人之所以快乐,无外乎比别人优越那么一点点。也许现在宗教存在的意义,就是我失败了,能让我找到一点点借口。否则就是赤裸裸的自我解剖,太痛苦,没几个人受得了。

李:
找不到工作 社会上混得不好 肯定不快乐。
但有一个不错工作的人 也往往快乐不起来

白:
这点借口,科学也会给的。将来都ai了,找不到工作是常态。

dl:
很重要的一点,和身边的人比较起来,是不是优越。最谦虚的人,内心也是希望得到别人的恭维的。最不在乎的人,他在乎的东西,超乎我们的想象,除非这个人完全破罐破摔。

白:
把自己贬低到常人难以接受的水平,来恭维别人的人,一定极其阴暗,破坏力不可低估。自尊心是守恒的。这里按下去,就意味着一定会在其他地方冒出来。

李:
回想起来 人生中比较真切的快乐的确有 就是助人为乐 远比自己得到好处快乐得多。这个助人为乐 首先是亲友。看到自己爱的人 亲友 由于自己而改善了境遇 那种满足幸福感相当不赖。如果觉得自己可以帮助全世界,快乐就源源而来。

dl:
@wei 这也算一个麻醉剂。中国人这个达则兼济天下的思想,本来就是高高在上的。
明白嘛,高高在上。帮助他人,也是体现自己优越感的好地方,当然客观上是有好处的。仔细分析,从内心来讲,并不比我要出人头地高尚多少。

白:
精英已经失去了代表人类平均感受的资格。

dl:
@白 现代社会的痛苦,就是精英阶层弱化的痛苦。

白:
去精英化

李:
暴发户回家乡办学 就是这种幸福的展示。

dl:
@wei 你说的这种东西,并非精英阶层追求的东西,而是把精英阶层平民化的过程。这里有一种不可调和的东西存在。

李:
雷锋的快乐就是,做好事不留名,记在日记里自我欣赏的感觉超级棒。

高:
雷锋不识字,何故多记事

dl:
@wei 雷锋这种现象,主要还是愚民策略的一个证明

李:
一介武夫 无权无钱 不富不贵 但没人否认,雷锋是幸福的 每一天活得那么充实满足。

dl:
反正在这个群里,我得到的快乐,肯定没有我的粉丝群里得到的多,这是肯定的。原因是肯定的,这个群里大家都很自我。没有人太屌谁,这就是以后社会发展的一个趋势。

白:
反过来说,精英扎堆儿的地方,不适合精英自我表扬。

桂:
李白是计算语言学界活雷锋。

dl:
所以每个人权力获得感会大幅下降,这是必然的。预测以后的世界,每个人的存在感问题会更大。这会是一个主要问题。

白:
唱戏当皇上也是爽的。
以后ai发达了,nlp发达了,慕容复何至于那么孤单,可以乱真的奴才臣子还不是要多少有多少?权力欲真那么难满足吗

dl:
@白 反正我不会和机器人谈恋爱。
这个每个人细细体察内心就可以知道

李:
不要说那么绝对。没人会拒绝快乐,快乐来自人和机器 不重要。

白:
来自药物和现实乃至虚拟现实,也不重要,关键是不要有副作用

dl:
精英阶层的人士,快乐在于控制和影响力,不在于太物质的东西。而世界趋势在背道而驰。庸俗化正在席卷全球。
@白 吃药也许可以。五石散。魏晋南北朝,其实也是一个世家没落的时代,和现在有点像。

白:
所以科学宗教哲学,说到底都是solution,是骡子是马,最后都要在problem面前遛遛。

dl:
@白 同意。问题是这里面存在不可调和性。发展趋势和人快乐的基础之间有不可调和性。这是现代社会的一个重要问题。庸俗化引起的权力满足感丢失,可能是问题的核心。

顾:
科学和宗教类同,只不过科学适用面宽些,预测能力强些。

白:
人太多了,逆选择一下也是必要的。这么辛辛苦苦伺候都快乐不起来的人,还是哪儿凉快哪儿呆着去吧。

dl:
目前解决方案,就是创立一个公司,然后去当土皇帝。这才是正道。所以要创业。这才是创业的终极目标啊。公司目前是满足权力感最好的形式。

白:
权力自由但财务不自由的创业,好不到哪儿去。

dl:
@白 这就是你说的唱戏当皇帝也快乐啊。

白:
自己印钱啊,虚拟货币。
想象力太受现实束缚了。

dl:
@白 我只是调侃一下而已

白:
我调侃两下行不

dl:
当然可以。以后都去参加拜公司教就好了。这就是宗教。solution直面最核心的问题,精英阶层存活的意义就在于此。

白:
ai让你唱戏当皇上比真皇上还爽,连个不爽的理由都找不出来。

dl:
@白 现在很多人沉醉于虚拟网络,可能也和这个有关系。找到了存在感。但是如果获得太容易,就没优越感了。存在感其实在某些意义上等同于优越感。

白:
那容易啊,工作量证明,挖矿挖到了的当皇上。

dl:
@白 其实发明一种机制,让人去做梦,这样人的一生其实不需要活动。可以拍一个电影,以后少数精英人士操纵社会,大多数人生下来,就被装在器皿里培养做梦,大家觉得如何?都很快乐。其实社会本质未尝不是这样?

邓:
今天讨论这么热闹@尼 得发个红包。

 

【李白之44:“明确”是老子还是儿子,需要明确】

白:
“北京大学率先明确入雄安路线图”。“明确”是副词还是动词,需要先明确。

李:
我觉得这不是问题的关键。pos 在抽象层面只规定非常宽泛的框框。关键还是语义之间的相谐。正确的问题不是pos,而是 “明确” 在这里是状语(儿子),还是谓词(老子)。在【明确+ vp】里面,pos 上它没有什么限制,所谓跨类词。跨类就是两可。 对于跨类 这是一个没啥意义的问题 或者说 这是一个 circular 的问题。

“明确”的最常见的 subcat 带的是 np,但是 在 “明确v” 出现时,这个 v 可能是 vp,因此 “明确”可能做其状语。也可能这个 v 是np内部的修饰语。

(1) 明确规定游泳违规
(2) 明确规定 严明纪律 这两条是整顿金融秩序的关键所在
(3) 我们要明确规定条例

大数据可以帮到 (1);(2) 是排比的力量 压住了大数据,把潜在的动宾可能激发出来。 但排比因素的形式化实现还需要探究(虽然形式特征在人看来是蛮明显的)。(3) 仍然歧义:“明确(地)规定(相关)条例”,还是 “明确(一下)(有关)规定(方面的)条例”?大数据似乎选择前一个解读,为什么我们仍然感觉得到后一种解读的可能性。设想 如果大数据中 “规定条例” 比例开始高到可以与 “明确规定” 相匹敌的时候,这就是大数据也搞不定的边界之争。

白:
“北京大学率先明确入雄安路线图”这个例句中,“明确”只有一种走得通的词性,就是动词S/N,X。如果是副词,“入”就会过饱和。虽然过饱和也是能处理的,但放着正常饱和的不用却去用过饱和的,终究不妥。因为“入雄安”只剩下一个坑了。副词“S+”不会改变萝卜数和坑数。

李:
“率先明确入雄安的是习大大吗?当年是毛主席率先明确入京的。虽然有人提议仍在南京建都。” 什么叫 入 的过饱和?

看样子 “明确” 的subcat 也有带 vp 的,虽然不如带np的 subcat 用得广。

另。假设 native speaker 的语感与大数据(作为语言共同体语言表现的代表)吻合(实际上当然不会总是吻合), 那么大数据搞不定的歧义就应该视为真歧义。大数据能搞定的就是伪歧义 尽管这个伪歧义以前被认为是句法真歧义。“以前”指的是没有大数据语义中间间或没有语义或常识消歧手段的句法分析器的那个时期。

 

【相关】

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【立委兄:温哥华都市游 2/3】

没办法只好返回Max家去吃晚饭,刚到Max家没多久,雨停了,太阳出来了,时不我待,我们饭也不吃,立马背起相机,直接再去与SFU大学连成一片的本那比山公园照落日晚霞去了。功夫不负有心人,到本那比山公园时机正好,登顶之后,眼前豁然开朗。葱郁的绿里点缀着红黄,极目远望,水光山色尽收眼底。BurnabyMountain Park 奇特的雕塑群(日本雕塑Kamui Mintara sculptures,由日本雕塑家 Nuburi Toko 和他的儿子所创作,象征着人类、动物、自然和上帝的和谐统一),秋日叶色微红的树林,和湖、云、山、峡、光融为一体,远处一两汪不知是湖还是海的碧水,让人仿佛置身在童话世界中,这才是美丽的秋景呀,色彩艳丽,如诗如梦。

与SFU大学连成一片的本那比山公园BurnabyMountainPark

10月20、21、22日天气不好,雨季的温哥华,对它没脾气,我们只得去商场和奥特莱斯转了转,顺道去参观一家湖北籍华人正在建造的木结构三层大别墅。

温哥华小区中林荫道

10月23日星期六,早晨天气转好,我们准备去惠斯勒(Whistler),没出城前有两处路边景点让我们兴奋不已,都在河边。

一处在弗雷泽河旁,是朦胧美,轻雾如纱,烟锁秋波,一层轻纱般薄雾在河面上飘来荡去,河对岸的树林和农舍时隐时现,一切都掩映在宁静、纯净、虚幻的晨雾怀里。那淡淡的地雾,那隐隐的树林,那静静的水面,活灵灵显出一个世外桃源。

另一处在皮特河旁,当车路过皮特河大桥时,我们眼前又一亮,被眼前美丽深深地震撼,赶紧下了主干道,停在河傍,端起相机不停地拍摄,机会难得。远处山峦披着多层薄雾,河两侧处处可见红的黄的树,湛蓝的河水倒映流光山色,黄草依依在河边随风而笑,宛如仙境。这情让人心灵涤净,这景让人飘飘欲仙。

弗雷泽河旁朦胧美,轻雾如纱

皮特河流光山色

走出温哥华前

走出温哥华,进入海天高速公路 Sea to Sky Highway (99号高速公路)。海天公路蜿蜒於太平洋和群山之间,由海洋、河谷、冰川及高山峻岭所铺陈。道路内侧是山峰林立、悬崖陡峭,另一面则是碧波万顷、海水湛蓝,沿途经过多处海湾、瀑布等风景区,景色如诗如画,还有绿色的小岛、高高的雪山,蜿蜒而上的公路,海天相连的景色尽收眼底,一如其名,完全展现由海至天的丰富样貌。

海天公路路过一个非常有特色的高尔夫球场。整个球场顺着山势而建,背山面海,高低错落,真不知老外的灵感怎么得来,设计出如此之美的球场。只是我们找不到俯视这球场的高台,照不出它的神采来。

到香农瀑布(Shannon Falls),虽落差335米,但我们看瀑布太多,就没停下来了。后来路过一个不知名的观景台,居高临下拍了一下海湾的大景观。在斯阔米什小镇(Squanmish),我们休整了一下,发现加拿大民众都在为万圣节筹备各色南瓜及物品,看来西方对这个节日挺重视的。村对面的史坦沃斯峰 Stawanus Chief 很雄奇,很高耸,坐缆车可以登顶,可一览海天高速公路四周美景,可惜我们没上去。

海天高速公路 Sea to Sky Highway

路边山坡高尔夫

斯阔米什小镇

 

【相关】

【立委兄:温哥华都市游 1/3】

【立委兄:温哥华都市游 2/3】

【立委兄:温哥华都市游 3/3】

《朝华午拾:温哥华,我的梦之乡》 

温哥华的美是骨子里的

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大东部枫叶游(1/11)】

【立委兄:多伦多都市游1/2】

【立委兄:多伦多都市游2/2】

【立委兄:尼亚加拉大瀑布】

【立委兄:加拿大自驾游东部风光摄影选粹 1/2】

【立委兄:加拿大自驾游西部风光摄影选粹 2/2】 

【立委兄:加拿大东部枫叶游(8/11)】

二十八天加拿大自驾游东部篇

在小城停留几个小时后,我们驱车赶往距圣安妮大峡谷大约9公里处小村庄 Sainte-Anne-de-Beaupré,我们在小村庄著名的圣安妮大教堂旁预订了一个汽车旅馆--海岸公寓汽车旅馆 Condo & Motel des Berges.  多伦多到魁北克的40号高速路,两侧都是茂密的枫树,如果时间合适,枫景会很壮观,可惜我们今年来的不是时候,枫叶推迟盛红期了。到旅馆服务处,其大门紧闭,留下一个条子,让我们自已在门口小盒子里拿钥匙进房。国外旅馆手续简便,走时也不查房,交钥匙就可走人。安顿好住处,我们立即去圣安妮大峡谷,这是一处赏枫名地。圣安妮大峡谷的门票CAD13.50一人。刚进圣安妮大峡谷大门,还有些金色的枫叶,但到峡谷后,只能偶尔见到变黄变红的叶子,看不出是魁北克的“枫”景之最。说什么:山谷红黄的枫叶漫山遍野,峡谷由于在谷底、山腰和山顶枫叶变红时光不一,有丰盛层次感,我完全没感觉到。瀑布很一般,枫景很一般,没有了秋色,峡谷完全无法吸引到我们。该死的气候,今年天气热的太长,延缓了枫叶变色时间,今年我们武汉桂花也延缓15至20天才盛开哟,理解理解。

圣安妮大峡谷

从峡谷返回我们来到住处,欣赏住处的圣安妮大教堂及四周美景。圣安妮大教堂是一座宏伟的哥特式建筑,矗立在圣劳伦斯河边的这座纯白色教堂,17世纪1658年建立,历史悠久。350多年里,五次扩重建,可惜在20世纪初毁于一场大火。1926年重建。教堂前面的广场上有一个喷水池,青铜铸造的圣安妮怀抱着幼小的圣母玛丽亚安详地站在那里,雕像和喷泉融为一体。大教堂的内部金碧辉煌,气势震撼,我们进去时,主教正在宣教。

第二天一早。我们起床想照圣劳伦斯河日出和朝霞。这一天早晨天气十分寒冷,在河边我们穿了冬季衣物,仍感寒气逼人。可我们旁边一对老外老夫妇,穿着短裤也在河边拍照,本认为他们从车里出来不会很长时间,没想到他们比我们还久,真佩服他们,老外就是不怕冷,我们惭愧。天气虽冷,也时阴时情,但风景确实不错,我们照得尽兴。

圣安妮大教堂

小村庄Sainte-Anne-de-Beaupré

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大东部枫叶游(1/11)】

【立委兄:加拿大东部枫叶游(2/11)】

【立委兄:加拿大东部枫叶游(3/11)】

【立委兄:加拿大东部枫叶游(4/11)】

【立委兄:加拿大东部枫叶游(5/11)】

【立委兄:加拿大东部枫叶游(6/11)】

【立委兄:加拿大东部枫叶游(7/11)】

【立委兄:加拿大东部枫叶游(8/11)】

【立委兄:加拿大东部枫叶游(9/11)】

【立委兄:加拿大东部枫叶游(10/11)】

【立委兄:加拿大东部枫叶游(11/11)】

【立委兄:加拿大西部自驾山水游(13/16)】

二十八天加拿大自驾游西部篇

2日一早,当我起床打开窗户,不由得惊叫:太美呢,太美呢!蓝蓝天空下,白白的雪山,一条云雾缠绕在山间,朝霞印照在山顶,多彩多姿,金光闪烁,不是仙境胜似仙境。原来昨晚是山下下雨,山上下雪,清晨突然转晴,就展现出这神奇的景色来。我们呼着极清新的空气,冒着寒凤,拿着相机,在住宿门外不停地拍摄,太让人心动了。

落基山旅馆四周的好照片

随着我们赶紧打包上路,去朱砂湖拍日出下梦幻般的湖景,我们两天前就对那个地方充满期待。果然上天眷顾我们,给我们很多惊喜,枯黄的草,绚丽的霞,碧蓝的水,山顶的雪,多层的云,洁净的天,这些要素全都具备,实在是可遇不可求。诸要素构成了一幅难得的美丽画卷,让人爱不释手。不停的拍,不停的拍,说来你可能不信,当我们拍完照后,天气又大变,一股厚云从西向东飘来,不一会儿大雨倾盆。虽然我们无法再去我们发现的另一摄像点即1号公路与1A号公路交汇处去取景拍照,但我们心愿已足,便开车直奔优鹤 Yoho National Park 国家公园。

阴雨下的朱砂湖

日出下的朱砂湖

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

二十八天加拿大自驾游西部篇

 

我们今晚住处不在班芙镇,而在离班芙20公里外的坎莫尔Canmore小镇的落基山旅馆,我们在这住两晚。这是我们这几天住得最好的旅馆,楼上楼下,日式联排别墅式的,二室二厅二厕一厨,十分干净和方便。

坎莫尔Canmore小镇的落基山旅馆

10月1日国庆节,天仍下着雨,我们在班芙镇转了一转,天空雾蒙蒙的,自然去硫磺山顶也无意义了,就再去路易斯湖了。环绕湖畔有许多条健行路径,加拿大国家公园大多建有许多许多步行道,人家对体育与锻练都很执着。另外湖边还有一条登山路径,可一直到达山顶。在山顶可俯览翡翠般的露易斯湖,由于天气不佳,我们只在湖边走了一下,没有上山去拍路易斯湖全景了。露易斯湖三面环山,层峦叠嶂的露易斯湖,仍然翠绿静谧,在宏伟山峰及壮观的冰川的衬映下秀丽迷人。我相信如果不是天气太差,这里一定是现实中的世外桃源,毕竟它久富盛名。下午就回到住处,自己做晚歺去了。傍晚雨仍在下,我们心情自然糟透了,明天就要离开班芙了,没拍几张班芙四周的好照片,该死的天气不给力呀。

班芙镇Banff


班芙镇Banff四周自然风光

 

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

二十八天加拿大自驾游西部篇

沿1号公路继续往班芙赶,突然发现在1号公路与1A号公路交汇处,风景很是独特,山、水、林、铁路浑然一体,特适合摄影。天气已开始下雨,我们下车观察一下,决定明早一定要来这里,这里太有特色了。

1号公路与1A号公路交汇处

快到班芙,雨忽停忽下,没完没了。突然一处景观让我们眼前一亮,惊呼起来。美,实在是美。这就是朱砂湖Vermilion Lakes。朱砂湖位于班夫镇入口的高速公路旁,这里十月初湖畔风景线真是美的无语。虽然天气不好,仍让我们心旷神怡,十分振憾。我们赶紧下车猛拍了一番,不能辜负此处如朱砂一般色彩斑斓的动人景色。我们不用说,自然明早还会来,祈祷明天天气会好起来。

到班芙镇 Banff 了,天又下雨了。班芙镇比贾斯帕镇大很多,没有贾斯帕镇淳朴,是加拿大著名旅游城市,被誉为落基山脉的灵魂,加拿大国皇冠上的明珠。班芙镇群山环绕,冬天可以滑雪,夏季可远足。如果登小镇旁硫磺山,可以居高翘望落基山脉磅礴的气势,俯瞰班芙全镇景貌和弓河蜿蜒曲折的美景。硫磺山海拔2285米,有双向缆车到山顶,但因天气与时间原因,我们没有去硫磺山顶,错失俯瞰班芙全景的机会。到班芙镇我们首先到火车站,打听火车时刻表,目的就是希望明天去我们探寻的那个景点时,正好有火车经过,照出一批有特色的照片。天气说好就好,在火车站时天气转晴,太阳出来了,紧赶慢赶照了几张百年老火车站照片,这鬼天气说变就变,不一会又阴转雨了。

班芙镇百年老火车站

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】