尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲? 屏蔽留存

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

屏蔽已有 8461 次阅读 2012-12-14 15:41 |个人分类:社媒挖掘|系统分类:博客资讯| 百度, 社会媒体

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的(the results are not faked?)。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。
 
我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。
 
先谈数据:
 

百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据:

 
 
什么是词云呢?
A word cloud displays the frequently occurring terms surfacing from a topic's text.
 
 
从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了
 
是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸?

请看六个月 的词云数据图:

 
三个月 的词云数据图:
 
一个月 的词云数据图:
 
一周的词云数据图:
 
一天 的词云数据图:
 
再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果
谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了
 
 
 
Let US Drill down: 百度小姐的真相在这里
 
是什么样的推手把 小姐 与 百度快照 弄得满世界都是
日期: 12/14/2012 17:40:43

一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。
 

Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。

大概是删不胜删。
 
 
 
最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。
 

最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。

 
 
前一篇博文:
 

社会媒体测试知名品牌百度,有惊人发现

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-642614.html

上一篇:社会媒体测试知名品牌百度,有惊人发现
下一篇:“我们为什么选择在学校学习”的思考

 

7  刘洋 张婷婷 蔣勁松 武夷山 贺天伟 sz1961sy sun879109994

《李白宋115:句法的脑补,情报的冤家(1/2)》 屏蔽留存

《李白宋115:句法的脑补,情报的冤家(1/2)》

屏蔽已有 222 次阅读 2019-7-21 13:39 |个人分类:立委科普|系统分类:科普集锦

立委按:cs(common sense):句法的脑补,情报的冤家,是为常识。常识语义在语言理解中的作用,一直是AI符号派的重要话题。常识看上去漫无边际,如何形式化有效利用,也一直是个挑战。沙龙讨论的是轻量级或碎片化的常识语义的可行性与实践体会。具体说来有两方面,一是所谓语义相谐反映的常识条件在语言解析中的作用(譬如,EAT谓词概念 与 FOOD类实体的相谐度高),二是所谓“事理”图谱(譬如,“面试”与“录用”之间的因果关系),反映的是某种常识推理。有意思的是,语义落地所强调的情报性有与常识相逆的特性。俗话说,狗咬人不是新闻,人咬狗才是。

白:“他给张三倒洗脚水”、“他向张三泼洗脚水”,在两句中,“洗脚水”各是谁的?“他给张三拿银子”有歧义,一是他帮张三拿张三的银子,二是他拿自己的银子给张三。介词宾语和主语,什么条件下谁来跟宾语发生领属关系?有钱出钱,拿的是自己的钱;有力出力,拿(拎?背?揣?端?抱?抗?)的是别人的钱。

“他给张三写自传”,自然是张三的自传;“他给张三送自传”有歧义,可能是赠送“他”的自传给张三,也可能是给张三跑腿,把张三的自传送给其他人。赠送义本身有间接宾语,但“给”的介词宾语未必与之重合。因为出现了一个“帮办”角色。主语是帮办,主执行;介词宾语是事主,主名分。帮办做动作,名分归事主。间接宾语角色和事主角色造成歧义。

“张三给李四带口信”有三重歧义。张三委托别人把口信带给李四vs别人委托张三把口信带给李四vs李四的口信委托张三带给别人。这里的角色有:事主、帮办、直接宾语、间接宾语,口信是直接宾语,李四不能是帮办、张三不能是间接宾语。剩下的组合构成上述三重歧义。“向”引入的介词宾语坑,在动词不具有间接宾语坑时(如“吐痰”、“泼水”)临时客串间接宾语角色。在动词带间接宾语坑时(如“投掷”、“赠送”),二者共享一个萝卜。没有事主帮办之分。临时客串的情况下,介词宾语和直接宾语没有领属关系。“为”引入的介词宾语又是另一番景象:它是直接宾语的当然领属者。“为他人做嫁衣裳”不管是谁做,穿的一定是“他人”。

“在公园爬树”,“树”是“公园”的附属物,勉强说得上领属关系。“在公园打人”,“人”是不是“公园”的附属物,难说。“张三在公园放风筝”,“风筝”不仅不是“公园”所有,反而大概率是“张三”所有。所以,介词为“在”时,领属关系似可不作标记。真要追究时,靠事理来弄。没有坑的直接宾语,随他去。有坑的,看相谐性或者大数据。“张三在这个公园有月票,每天早上都来锻炼身体。”“月票”的坑就由“公园”来填。

“他给张三买了块巧克力吃”,是“张三”吃,不是“他”吃。“给”的介词宾语置换出来,在谓词群里面横扫千军。在有接续动词的情况下,“帮办”角色自动消失了!

“他给张三送了本自传看。”没歧义了,是“他”的自传而非“张三”的自传,“他”不是帮办“张三”也不是事主。世界清静了。真神奇啊。“他给张三挖了个坑”有微弱歧义;“他给张三挖了个坑跳”一点歧义没有。

汉语的介词,S+/N,禁止名词右填坑;日语的格助词,S+/N,禁止名词右填坑。英语N向S左填坑只限一次,再多的名词只能受动词短语降格修饰,汉语的N向S左填坑则不受这个限制,所以逻辑主语话题主语大小主语一堆堆。方向性对于加速获得正解还是很必要的。汉语的个别词,如“以前”,是反过来的,S+/X,但是X坑只能从左侧填,禁止从右侧填。从CG走来,先把填坑的方向性全部放开,再选择性地关闭其中个别词的个别方向。特别是,语种选择可以批量设置关闭方向。修饰的方向性基本不放开。头尾修饰是否有副作用,还不清楚。

宋:@白硕 在你的系统中如果一句话内的词相同,词序不同,是不是分析结果相同?

白:@宋柔 不一定,看具体配置,特别是词性标注不同会不一样。比如:张三比李四高,李四比张三高,一定是不同的parse。

谁填“高”的坑,谁填“比”的坑,都是不同的,当然是不同的分析结果。

酱油李四打了,李四酱油打了。这俩,分析结果的拓扑一样,内在语义角色的指派也一样。毕竟酱油不能打李四。

后面四个的分析结果,拓扑结构是一样的。它们当中,1-2的语义角色指派是不确定的,3-4的语义角色指派是确定的。如果有更强的上下文,1-2的语义角色指派会随之更为确定一些。这个机制,在句内的已经部分实现,跨句的还没有实现。

宋:猫抓老鼠和老鼠抓猫,分析结果一样吗?

白:拓扑一样,语义角色指派不一样。看图看不出本质差别。

鸡不吃了,在图上是没有歧义的。

宋:猫抓老鼠和老鼠抓猫,施事都是猫,受事都是老鼠?

白:不是的。能说的是:猫和老鼠,相对于抓,都是“填坑”关系,而且填了不同的坑。谁填了哪一个,句法不予确定。语义角色指派可以根据语序推定,但只限于一左一右这种。两个都在一边就无法推定。图上不标施事和受事。现在图上能看到的是LMa、RMa等。不负载施事受事等语义标签信息。

在双宾语的情况,某些江南方言里有时听到“我给钱你”这样的句式。直接宾语和间接宾语倒挂,而且不加介词。二者一人一非人的场景,是可以搞对的。二者皆人,我还没听到例子(不知道“我嫁女儿你”能说否),但真要区分角色的话,可能需要用到事理了。

宋:也就是说,对于二价动词V来说,N1 N2 V中,N1和N2各填V的那个坑,要看N1和N2与V的语义相谐性;N1 V N2,还是要看语序来决定谁填那个坑。对吗?

白:都相谐再看语序。

如果都在一边,语序也不起作用:“猫老鼠抓了”“老鼠猫抓了”,这时还要请出事理啊大数据啊更大上下文啊什么的。

宋:明白了。

李:都相谐再看语序?

svo 语序 为啥要看相谐呢?

“是乌云吃了月亮 还是月亮吃了乌云?”

白:都不相谐也回到语序。

李:“做了个梦好怪 一张烙饼吃下了一窝兔子”。

白:相信说话者别有用心,或者相信一切皆可为专名,都是出路。有强语境做免死金牌的,更可以回到语序。

李:还可以这么说话:

“一个实体x了另一个实体”。

“x 被律师打黑了”。

白:见怪可以不怪,那还相谐个啥。说都不会话了。提着火车上皮包。小孩说话慢慢教,哪有一井挖个锹。

李:问题是 先相谐 然后看语序 次序感觉不对。

“月亮吃乌云” 是都不谐,“烙饼吃兔子” 是谐与语序矛盾, svo 语序是决定性的,相谐是非决定性的。决定性的句法形式 决定了就完了。形式留下空间 才有相谐出场的必要。

白:“草把兔子吃肥了”。“烙饼把兔子吃噎着了”。完不了。句法形式到了汉语,语序变轻了。

李:语序是句法形式 相谐是语义约束。“烙饼把兔子吃噎着了”,不是句法的反例。语序 小词 都是形式,它们留下空间 才有语义约束的可能性。硬指标以后 才看软指标。显性形式没辙了 才求隐形形式 包括常识语义。

白:还有容错一说吧。“拎着火车上皮包”,就是被容错了。韵律感越好,越容错,乃至无感。反过来搭,和不搭,是不同的处理。反过来搭,容错占主导;不搭,句法占主导。句法一主导,然后就进入疯狂的脑补,拼命找辙。

顺杆儿爬,顺杆儿滑,隐喻,夸张,甚至怪诞的专名,都可以有。此外,局部有伪歧义的情况,不搭是最先要排除的。比如“馒头吃光了”。标准svo啊,但是不work。除非拿到怪诞大比拼的免死金牌。

宋:老鼠抓猫,老鼠一定是施事,猫一定是受事,因此,此时的“抓”不会是“抓捕”。而应该是“抓挠”。语序决定了施动受关系,进而决定了动词的语义。

白:这是事理。恰好“抓”有一个义项符合事理。

宋:如果有更大的语境提示是童话故事,或者发生基因变化,“抓”可以是“抓捕”的意思,但仍然老鼠是施事,猫是受事。

白:当你在处理一个局部的sov时,并不知道其他义项是否会组成更搭的合语法结构,所以对局部不搭的sov而言,是否一定会出头,不是局部能确定的,还要看别人。

“老鼠抓不抓猫都吃得好好的。”

“老鼠一抓到猫就可以睡大觉了。”

“老鼠一抓到猫就可以美餐一顿了。”

“猫一抓到老鼠就可以美餐一顿了”。

一个意思。局部要不要搞成不搭的svo,取决于全局。

宋:好例!

白:所以svo不是教条,只是一种可能性。放大看,svo要不要还两说呢……

宋:“老鼠一抓到猫就大祸临头了。”

白:不搭给这种可能性减分,但也不断其生路。外围有更好的组合,svo又算个啥,该扔就扔。外围没有更好的组合,svo就勉为其难吧。但是,组合好不好,一定是句法语义通盘考量的,哪有句法一定优先于语义一说。

“老鼠一抓到猫就大祸临头了。” 有歧义,充分脑补吧。老鼠居然抓到了猫,这世界该翻了天了,大祸临头。猫抓到了老鼠,去掉了主人的心病,主人也该卸磨杀驴了吧,大祸临头。猫给老鼠抓到只是猫的计策,老鼠大祸临头了。接下来玩死你。

事理可以作用于伪歧义的消除,但是对真歧义,事理也毫无办法。猫大祸临头,老鼠大祸临头,看客大祸临头,都有相应的解读。svo作为一个局部,你根本不知道外面有什么时,根本不敢把赌注押在句法上。

李:T1 svo T2,就够了。绝大多数情况不需要语义出场。trigram 是句法 5-gram 也是句法 都还在可控范围之内。以前说过 任何在(dynamic) 5-gram 之内可以搞定的事情 都是 tractable 的。虽然理论上永远可以找到反例,但是随着 n-gram 中 n 的扩大 (up to 5),随着 gram 的定义由 literal 延伸到包括 token features,以及随着 gram 从 word 延伸到动态的句素(包括各类短语),句法兜不住的伪歧义反例急剧减少 — 直到句法发现真歧义。这时候 语义(主要是常识)约束、语用约束、领域约束等等 可以逐步出场,或不出场(保持歧义,或包容歧义)。

“传统” parser 为伪歧义困扰的事情 已经是过去的故事了。“现代”的句法基本上摆脱了伪歧义的羁绊 因为细线条 词汇主义路线 以及多层动态的 parsing。

白:五元组判定过程中用不用语义?用不用相谐性?如果用,那岂不是说相谐性判断先于svo?如果不用,伪歧义怎么弄掉的?单凭句法?就是说,T1、s、v、o、T2,各自携带了一些特征,用于五元组来判断svo要不要归约为s。这些特征包不包括语义/本体特征?动用这些特征是不是先于svo结构被确定?

不妨就试试 “老鼠一抓到猫就可以美餐一顿了”。看看“一”和“就”的辖域分界线是怎么确定的。实际上就四元组。左侧空缺。右侧再饶一个,又怎样?

“酱油打了李四也该回去交差了。”

到底是把“酱油”理解成一个人的外号,还是放弃svo转投ov(s)?哪一个是符合奥卡姆剃刀原则的?

如果上下文介绍李四是杀手,目标是张三,“张三杀了李四也该回去交差了”是不是应该放弃svo?这个上下文是五元组能cover的?事理:x完成任务—>x交差,任务从上文取得。

李:以反例批评一个一般性策略 其结果就是所有的过程性都是跛脚的 所有的因素都必须同时起作用。

白:有更好的系统性策略,而且并不跛脚。就是加分减分而已。看得分是一个统一的策略。硬约束有一个高的基准分。软约束不把它拉下来他往前走就是,拉下来就别怪谁了。

李:(较)软性约束与(较)硬性约束不同步 是一个总体有利的策略。

白:同不同步只是一个计算策略问题。晚几步发现问题还是早几步发现问题的事儿。只要有问题,拉下来则是必须的。就看付出的代价是什么了。另外的选择也虎视眈眈呢。一遇到合适的软约束,马上张口咬人。以现在的算力,神经网络那么大的冗余都不在话下,几个相谐性检查算什么。更何况毕竟都在线速的范围内。只要不破坏现场,总有翻盘机会。你走你的,但别杀死别人。

李:理论上 一个 l 长度的句子 在 l 没有全覆盖之前,任何 n-gram ( n < l )  的模式都是跛脚的。这一点在分词中表现最为简明。不断有人以“反例”来推论 分词必须包括 parsing、常识、领域知识、世界知识…

白:分词不是最终任务,只是一道工序而已。

李:道理都是一样的。这道工序一旦缺乏某个知识 理论上就是 过早剪枝,但实践中 几乎所有 real world 系统都不理睬这种理论上的批评。保留所有可能分词路径 直到最后的系统 不能说没有 但极少。(当然 这个分词的工序 现在有了 越来越流行省心的 char-based 的路线, 干脆绕过去。)

白:曾经的real world系统还都不睬deep parsing呢。按同样逻辑deep parsing甭活了。real world系统也在进步好不好?

常识,有重量级搞法,也有轻量级搞法。不要被重量级搞法吓住了。

白:

李:

“张三杀了李四也该收手了吧”

“张三杀了李四还嫌不够解气吗?”

“张三杀了李四也该有个说法 不能白杀”。

谁白杀谁?

“张三杀了李四也该有个说法 不能白死”。

谁白死?

“人咬死了狗, 不会受处置 合理吗?”

“人咬死了, 狗不会受处置 合理吗?”

“人咬死了狗不会受处置 合理吗”

白:“这些木头盖了房子。”不是svo。

李:工具s 与 施事s 是一个熟透了的现象。中英都很普遍。

白:木头不是工具,是材料。

李:材料也差不多,工具 占据 s 位置 更普遍一些。材料 对于 制造类谓词 占据 s 位置也很多。

白:贴了标签也无益。人家正主儿可能在后面藏着呢。到时候找上门来,嘿嘿,小三上位了。

李:svoc,句法只有 三个位置,逻辑语义几十个。一对多 很自然,也很谐。不过就是需要增加一个 逻辑语义细分的任务,否认不了 svoc 的句法骨架作用。

“枪不杀人 人杀人”

枪真地不杀人吗?子弹杀人 不长眼睛的。

“x 杀人”

x 与 “杀” 相谐吗?x 是不是 s?如果是,x 是 agent,还是 instrument,还是 material?如果 x 未知 怎么填坑?

白:要真是未知就简单了,坑说了算,抽象的听具体的,奥卡姆剃刀。不举证证明不是他,就是他。

æ-¤å›¾åƒçš„alt属性ä¸oç©o;文件名ä¸oScreen-Shot-2019-07-15-at-6.58.54-PM-1024x200.png

李:“他” 很难说是 “盖” 的 S【施事】,更像是 “盖” 的【受益人】。

语言没有明说的 可以存疑 或 模糊。硬要跳坑里去,也不过就是个情报价值不大的常识默认。

白:这没问题啊,没有证据证明策划人、出资人、执行人、受益人是分离的,就假设他们是一致的。这叫非单调逻辑,举证义务在反方。

李:对于模糊表达 可能无所谓正反。一不小心就是 over reading,读出了不存在的语义。

白:情报价值不应由开发方评价。这类连边都有特殊标记。

李:用户方的证据也不足。多少用户需要不可靠的情报 与 明确表达的情报 混杂在一起呢?

逻辑预备的坑总是很完备,但语言不见得。常识是情报的冤家:用的适度 可以帮助情报的完整性;稍不留神 就伤害了情报的准确性和可靠性。

白:想避免错误的填坑可以用阈值拦一刀。但是拦得住拦不住是水平问题,那个位置该不该给小三则是态度问题。先要端正态度,虚位以待。就算一直虚着,也没小三什么事。这些不进坑的角色,语义上都有后路,才不在乎主语的标签。我们也没有主语标签。只有留给施事的标配坑。

李:

“这些木头盖了房子他很开心”,他才不管谁盖的房子呢 木头物有所用就好。

“这些木头盖了房子他很伤心”,木头是他的 房子却是他人的。

白:这叫自己跳出来。

李:根据常识填坑是危险操作,很容易 put words into others mouth。这不是语言理解的目的。

白:不妨设个开关,一切可控,用不用随你。

李:可以,一个叫 s,明说出来的 有句法依据的;一个叫 hiddenS,常识推出了的。就是到了法庭 也不怕了。

如果任着常识使性子,党指挥枪 与 枪指挥党,就同义了。首先 先帝不答应。

枪不能杀人 背后一定有个扣动扳机的 agent,机器人能杀人吗?机器人背后也有人。

“他造了把土枪 专门杀人”

“他造了个机器人 专门杀人”

是他杀人 还是机器人杀人?

白:系统说是就是呗,反正认的是标签,标签背后的道理,说了也不懂。

李:系统1说 a 杀人,系统2说b,系统3说 a and b,系统4 说 a or b,系统5 说 测不准 ……

白:很正常,除非有人强推标准化。

李:这一路不是一直在论标准吗?材料不是 s “他“是 s,也说的是标准。“党“是 s “枪“是 o。

白:党和枪都是隐喻,指挥的坑里面没有能匹配枪的。

李:重点是 常识与句型,谁说了算、比例如何?

白:只有不匹配得离谱,才引出隐喻。说常识太泛,其实就是一个中间件,给出了相谐度的评价。

李:不匹配离谱 的前提是 先逃进坑。谁决定的 枪要跳进坑o,而不是 s?肯定不是常识。

白:枪指挥党就跳进s。

李:对呀。谁决定的?Svo 决定的,准确说是,T1 svo T2 决定的。

白:反正离谱而且没有正解,于是回到svo,或者说,没有相谐度方面给出加分,改变不了句法初始设定的优先格局。是检查了之后没推翻它,而不是不需要检查。

李:不如不检查。这是争论的焦点。不检查先做,做错了“休眠唤醒”再反悔 也是常态。一多半根本就到不了需要检查那一步 就差不多成了铁案。

白:检查了推翻也是常态。不等检查结果出来就做也可以,这只是不同的控制策略。上不到标准层面。

李:譬如 x 指挥 y,根本就走不到相谐还是不相谐,“系统说了算”,这里系统指句法。

白:维也纳爱乐乐团指挥够了,他又来指挥费城了。

@宋柔 不一定。假设李四有个to do list,上写“打张三”“打王五”等等。做完一件事,就划去一项。

宋:“张三杀了”有歧义:杀别人和自己被杀,如此才有了“张三杀了李四也该收手了吧”的歧义。如果换成“打嬴了”,“张三打嬴了”没有歧义,一定是张三打别人。此时,“张三打嬴了李四也该收手了吧”也没有歧义。这个句子的语义就要靠语法来分析了。

李:白老师可以把 “打-赢” 拆开来论证语义大于句法 也许。谁打 谁赢……

宋:不要“打”。只要”嬴”。“张三嬴了李四也该收手了吧”。

白:打是S/2N,赢是S/N。合并的时候两个坑共用一个萝卜,一个占名额,一个不占。

宋:“张三赢了李四让教练很生气。” 谁的教练?

白:@宋柔 都可以,张三李四都行。

宋:除非有更大的语境进行强制约束,否则还是张三的教练生气。这是句法胜过语义。句法胜过常识。

白:句法语义都行,但是sentiment是顺着一头儿说的。赢和生气的不应该是一头儿的,除非教练安排只许败不许胜。因为有只许败不许胜的“找辙”,句法没被颠覆。

宋:当有人说“张三赢了李四让教练很生气。”后,一定会有人觉得奇怪,问“为什么生气?”

白:如果是“有人说”,那么“赢了”后面会有一个停顿。

宋:这里是说没有停顿的情况。有停顿的话就要加逗号。“赢了”后面没有停顿。

白:不吃最后一个馒头不饱,总有人觉得之前的馒头可以不吃。

宋:一般人都会觉得这个表述很奇怪,违反常理。

白:有保镖在身边没人敢动你,并不说明不需要保镖。“李四”后面有没有停顿?

宋:李四后面与无停顿都一样。

白:好像不是。可以都不停顿,但李四后面的间隔更小。这时难说。主要是叙述的视点变化奇怪,并不是句法。

宋:我感觉这句话体现了了句法的硬性约束:教练一定是张三的。但是,嬴者的教练本应高兴,实际的情况是生气,于是就有矛盾。如果教练可以是李四的,就没有矛盾,听者就不会奇怪了。

白:“张三痛打了李四,脸都肿了。”

谁的脸?是句法决定的?跟上面句法可是完全平行。谁的脸肿了,跟谁挨打有直接的事理关联。这就是常识“拗得过”句法了。刚才那个只是没拗过而已,因为可以只许败不许胜,尤其在团队作战时,为了在下一轮避开某个对手。这说明确实两方面因素在较劲。如果不是同时出场,较劲就不会发生。

宋:任何一种行得通的理解都有一种合理的解释。问题在于听者在强大的事理约束下居然并不顺从,还会疑问,就说明句法胜过了事理。

白:胜过了非但不证明句法早起单独起作用,反而证明了事理因素早期就参与较量。恰恰是我的观点的一个旁证。

宋:但较量不过。

白:是。但不是都较量不过。平行的句子也有相反的结果。语义和事理早期参与了较量,这个就够了。

宋:是的。句法约束胜过语义的例子不大好举。

白:伟哥的意思是根本句法就在唱独角戏,语义和事理没参加较量。

宋:路线斗争。李维:先看句法再看语义;白硕:先看语义,辨不清时再看句法。

白:我是句法先拿到基准分,出不出线,要看句法和其他因素的较量结果。较量可以不改变得分的高低顺序。

宋:合二而一。

白:但是这时,非句法因素相当于最后一个馒头、相当于没有动手的保镖,不可以认为非句法因素是多余的,是不在现场的。较量不是多余的,基准分不是一锤定音的。甚至,如果并行机制设计得好的话,拿基准分和较量可以异步。中间有一段时间存在叠加态,保留部分坛坛罐罐走不齐。

宋:当然。我完全同意语义的重要性,只是觉得词汇语义+事理常识+专业知识,实在是无边无际,难以控制。某个句子可以采用某种语义关系加以解释,但可选用的语义关系非常多,机器怎么就能选对了语义关系进而做出正确的解释?大数据并非万能。所以,挖掘句法的硬约束还是有意义的。

白:硬约束已经在基本分里体现了呀

宋:一些硬约束其实还没有挖掘出来。操纵语义需要极大的功力。当然,做实际应用系统,语义相谐性是绝对离不开的,而且是最大量的工作所在。

白:软约束就像保险,花点小钱,保你关键时刻用非句法兜底。也许没用到,但是不等于没有用。特别是,软约束可以灵活地面对长尾。看起来每一个都是小概率,但是放在一起并不少。所谓没用到,就是较量了但没产生颠覆效果。并不是没较量。

宋:解决长尾问题必须靠软约束,但这个尾巴太大,需要的软约束太多,如何挖掘和使用软约束是一个极困难的问题。

白:软约束不仅数量大而且类型多、机制复杂。我现在尝试做的事情是:1、不管什么类型什么机制,最后都折合为同一种量(优先级),这是较量的前提。2、当个别软约束缺失时,不会影响其他软约束以及硬约束的较量,这是软约束增量化建设的需要。3、集中把两三个重要的软约束类型吃透做透,形成明显的“高地”,再图类型的扩充。其实绝不是无边无际,完全把握得住的。

宋:我觉得难度非常大。在某一个较小的专业领域,可能可以正确解决大多数问题。做一个通用的理解系统,恐怕不好办。

白:先分类型,再抓主要类型,铺开规模时以领域为抓手。做出来的不会是通用理解系统,但可能是通用理解机制框架+领域资源。

宋:AI的知识工程(知识获取、知识表示、知识使用)讲了几十年了,未见到突破性进展。现在的数据驱动+深度学习是一个突破,但是范围很受限。

白:加类型不影响通用机制,上规模不影响通用机制,改参数不影响通用机制。而且它不是知识处理,只是标签演算。也不能说是理解,只是某种程度上的精准解析。

我们范围也很受限。

(喘口气儿,待续……《李白王116:句法的脑补,情报的冤家(2/2)》

【相关】

  •  

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1190479.html

上一篇:《李白王116:句法的脑补,情报的冤家(2/2)》
下一篇:《李白宋117:汉语连动兼语式句型的解析》

 

1  武夷山

【泥沙龙笔记:带标大数据这道坎迈不过去,不要侈谈AI革命】 屏蔽留存

【泥沙龙笔记:带标大数据这道坎迈不过去,不要侈谈AI革命】

屏蔽已有 1368 次阅读 2019-5-22 01:34 |个人分类:立委科普|系统分类:科普集锦| NLP

李:前两天与NLP主流的权威人士聊人造智能的现状和前景。我问,人造智能这么牛,你给我找一个在自然语言方面没有标注大数据,靠非监督学习落地成功的案例。只要一例。

其实主流里面就是找不到一例(非主流有,但大家习惯性视而不见)。主流里面规模化成功的全部是监督学习,全部靠大数据。应了那句话,多少人工,多少智能。

毛:你这要求太苛刻了。咱们人小时候不也要靠爹妈教吗?@wei

李:不对,爹妈教的不是大数据。孩子跟父母学的是小数据,举一反三,不是举100返1。当然乔姆斯基认为那不是爹妈的功劳 也不是学童的功劳,是上帝的功劳,固化遗传的。

白:人工用在语料上还是用在资源上,才是区分技术路线的关键。

李:同意。前者简单野蛮粗暴,容易推广,后者需要精心设计。

在带标大数据的这道坎迈不过去前,不要侈谈人造I的革命。

有些疑似不需要带标大数据的有效学习,可以一一讨论。看看到底是不是无监督学习突破了,知识瓶颈化解于无形了。

MT 不用说了,无穷无尽的带标大数据。人类翻译了多少年,而且还会一直翻译下去,或者利用MT然后修订编辑。活水源源不断。好处是免费,是人类正常翻译活动的副产品。

白:小数据带标、大数据聚类,小数据循聚类举一反三。实际就是协同推荐。

李:好,看看大数据聚类,clustering 的本性就是非监督,有成功案例吗?clustering 是个好东西 但是独立规模化成功的,几乎不见。

白:加上小数据,不是纯聚类。

李:对。以前有一个路子,貌似有部分成功,就是先聚类,然后人工少量干预(给好的聚类起一个名字、把混进革命队伍的异己分子手工踢出去之类),然后利用所起的名字作为带标数据,把聚类(clustering)转换为可以落地有价值的分类(classifciation)。狸猫换太子,多少就克服了大数据短缺的知识瓶颈,聚类–》分类,曲线救国。

白:带标小数据更关键。

李:那也是一途 叫 seeds,boot strapping,找个办法来 propagation,用得巧的话,也有部分成功的,算是弱监督学习。

白:聚类是纯几何行为,不知道对什么敏感。小数据告诉你该对什么敏感。两轮驱动,不可偏废。大数据聚类可以提供疑似窝点,小数据一举捣毁。不是所有疑似窝点都值得捣毁。聚类是等势线(超曲面)相互包围的拓扑。

毛:立委你这不是抬杠吗,也没人说AI已经等同于人类智能呀。

肖:用户分群很有用啊,例子很多很多。聚类方法找异常也有很多成功应用,比如反欺诈。

李:聚类的结果 粗线条应用大概是有的,在宁可错杀一千的应用场合,或有当无的场合,聚类可松可紧,拿来就用,总之是有统计基础,作为参考,强过看不见。细线条就傻了。只要用眼睛和脑袋去检视过聚类结果的,大都有这个体会:这玩意儿说它不对,还长得蛮像,说它对吧,米锅里 到处可见老鼠屎。经常的感觉是鸡肋 食之无味 弃之可惜,用又不敢用,对接吧 可费劲了。词典习得 (lexicon acquisition),聚类用得上,最后的难点还是在对接上,就是聚类以后的标注(起名字),并让标注与现有的知识体系对接上。

白:不需要,有内部编号即可。以xor为例。聚类可以聚出四个象限。不需要为每个象限取名。如果小数据指向一三象限,就把这两个聚类的内部名称贴一个外部标签。聚类按小数据的指引,当粗则粗,当细则细。不能只用一个尺度,小波的成功就是借鉴。记得工厂里钣金,师傅领锤,力道不大但是都在点儿上,徒弟力大但不能乱锤,必须跟着师傅走。小数据是师傅,大数据是徒弟。

李:这个形象。

最近的NLG(自然语言生成)方面的成功,是因为语言模型在深度学习的时候 强大了。生成的句子 比我们普通人还顺溜。我们受过这么多年教育 还免不了文法错误 语句不顺。机器生成的句子 越来越“超越”人类了。怎么回事?

原来 NLG 比 MT 还邪性 还牛叉,MT 还需要双语的翻译大数据,NLG 面对的是单一的语言,数据无穷无尽,文满为患,这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场。我们每个人写文章 都是潜在给 NLG 提供标注服务。自然语言语句与词汇随机发生器发出来的字符串 的不同,全部体现在每一篇人类撰写的文章里面。它不出色才怪呢。NLG 可以预见将来有大发展,在应用文写作等方面。有孩子的 可以放松他们的语文训练了,将来他们只要学会善用机器 就没有写不出规范的文章的。

白:大家写文章全一个味儿,也是问题。应该以强风格的作家为吸引子,形成若干漩涡,你接近某个漩涡,就持续往里面吸。至少不能千人一面。

肖:(NLG)现在摘要还写不好。

李:孩子不必特地去修应用文写作课,反正后来会有电脑帮忙写文字的。这就跟我小时候钢笔字写得狗爬似的,一直难受 羡慕小伙伴每天练字 让人看得赏心悦目。(当年喜欢一个女孩子 一半看脸蛋 一半看她写的字。)结果 我成年后 除了签字 就几乎没有写钢笔字的机会。

以前要成为(文科)大学者,最为人津津乐道和崇敬的是:

(1)记忆能力:过目不忘,检索起来可以闭着眼睛把典故的章节甚至页数指出来。社科院里面有很多这样广为传诵的奇闻逸事,尤其是关于钱锺书、吕叔湘这些老先生。

马:我认识一个理工科的教授,跟他聊天时,经常会说,那本期刊第几期第几页提到了这个问题。

李:(2)好书法。(3)诗词歌赋。

白:千万别提机器那个诗词歌赋,倒胃口。

李:感觉清华的《九歌》比不少郭沫若的诗词写得好。小时候看郭沫若带着西哈努克去山里面玩,诗性大发 口占一首,那个诗可真是纯粹应景 干瘪无味,就是平仄啥的应该整对了,论意境、诗味,啥都没有。

机器诗词倒胃口 也比不上郭沫若的那次表演(忘了是什么纪录片了),印象极深刻 不是好印象 而是坏印象。当然 艺术的鉴赏 见仁见智 不好说绝对。但往前看,机器做诗词 还有很多提升空间。人要熟读唐诗300首就很不容易了,机器灌输它个全唐诗去模仿,是小菜。人在时间限制下 需要应景作诗 提升空间就不大了。五步诗这样的天才 万里无一。

白:端到端、简单无结构标签、大数据是深度学习商业化的关键。但凡涉及到场景化、复杂结构和小数据,深度学习一定会不适应。是让应用迁就深度学习还是用技术改造深度学习,这不是个简单的选择。我主张:1、把标注的对象从“语料”迁移到“资源”;2、用带标小数据引领无标大数据;3、尊重领域专家、融合领域知识。

【相关】

【 立委小品:AI is fake I 】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1180399.html

上一篇:【 立委小品:AI is fake I 】
下一篇:《李白刘114:围着白老师沙龙聊点文字学问》

《一日一析:“让机器学习思考的人”》 屏蔽留存

《一日一析:“让机器学习思考的人”》

屏蔽已有 2626 次阅读 2019-3-1 23:34 |个人分类:立委科普|系统分类:科研笔记

白:“让机器学习思考的人”

wang:1.让 机器 学习 (思考的人) 2.(让 机器 学习 思考)的 人 3. (让 机器学习 思考)的人

李:parse parse:

这个 therefore 可能是个 bug,语义模块做因果关系过头了,走火入魔了?深度解析其他该有的关系都在 though。

wait a minute,好像也对,说的是,因为 X 促成了 event,X 是因,event 是果。这就是语义模块本来的因果关系逻辑,落在这句就是,thanks to “人”, (therefore)ML thinks now。这符合 “有多少人工 有多少智能,人是一切机器学习的原始发动机” 的因果本质。乍一看有点绕,是因为赶巧这一句不是一个 statement,而是一个定语从句修饰的NP。其结果,这个因果关系虽然不错,但实际上是隐含的因果(hidden causal links)。如果是一个NE,更加容易理解一些“”让机器学习思考的图灵大师“。因为图灵, 所以机器思考。我思故我在,图灵在故机器思。

wang:顺便一提,@wei 我对你的海量规则对系统的comment,回复一下写得有点多,发微博上了。

李:很好,拷贝留存如下

昨晚在一个群里就李老师说的内容提了一些问题,今天看到李老师详细回复,本想简单写写再发回群里,写完一看,这篇幅好像不适合放微信群里了,不如单发微博作为回复。李老师若觉不妥,告知我则立删。

@wei 中午看到李老师的后续回应, 现在正好有空这里回复一下。

看了李老师的后续内容,很是详细,而且前前后后已经考虑到很多方面,说明早有备货。大体勾勒一下:虽规则总量数万条,但通过分层(分组),就可以每组千条左右,规则之间的博弈也就在一个组内范围,即便组内的内斗激烈也不会引发组外的群组混战,这的确是“局部战役隔离解决”的最经济策略。另外,既然已经见识了规则系统的越大越不好对付的教训,想必肯定是避开了这个陷阱。一个组内至少再采用了共性+个性的两种及以上分支处理,先个性(词典)规则先前拦截,然后再共性来兜底,这样以来,一个组内可能内斗的程度又减轻不少,从走向来看,基本上是走大词典+小语法的组合路线,词典虽大但有索引方式来保速。如此以来,就把庞大的规则库,通过条块分割,把规则有序执行限制在了一个狭小的隔离河内,维护者在这样一个窄河里“捉鱼”确实容易得多。当然还有若干辅助策略,通过控局堵漏来进行加固。当然也看到“我是县长派来的”和“我是县长蹲点来的”有了不同的解析。这肯定不是一个简单“V”解决的,想必一定是词典策略起了作用。这词当然有丰富的语义信息了,我认为采用合适的语义范畴比词会有更好的覆盖性,尽管采用词准确性更高。

下面说下感受,必须承认之前本人还停留在规则系统教训的层面,另外,就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言,化繁为简,调整规则能达到信手拈来,那么在机器学习满天飞的当下,这存量稀少的规则派之花,自有它的春天。如今是个多元的世界,允许各路英雄竞技,只要有独到之处,更何况人工智能皇冠上明珠,尚无人触及,怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行,而学术界则只为提高小小百分点而狂堆系统,专挑好的蛋糕数据大把喂上,哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统,能有怎样的结局,我确实没有定论,要么一方好的东西自然会好的走下去,要么两方都走得不错而难分输赢,或者发现只有结伴相携更能走远,那谁还能拦着么!

百花齐放,百家争鸣,各自在自己的路上,走出自己的精彩就好!世界本身就不是一种颜色,也不是一直就一种颜色

李:很赞。工作量大是所有专家编码、程序员编程的短板,自不必说。在一个好的机制平台架构下,规则应该可以非常容易编写和调试。规则应该看上去简单、透明,而不是需要玩精巧。像集成电路一样,能力不是每个单元的精巧,而是大量单元的组织集成。其实,半个世纪的持续探索,这种类似人海战术的规则海量快速编码迭代的路子是有了端倪了。说到底是数据制导,可以半自动进行,这与机器学习的海量数据训练,理据是相同的。昨天说自然语言是猫矢,应该学猫咪目标导向,反复迭代,不在一时一地的得失,不怕冗余,也不怕零星的中间错误。说的就是要创造一个环境,把小作坊的专家编码,变成可以工业化的规则流水线。以规则量取胜,而不是靠专家的精雕细刻。这条半自动的海量规则路线还在探索之中,但是前景已经相当清晰。

最后,符号规则不必争雄,游兵散勇也无法与正规军打遭遇战,但差异化总是优势与短板并存。寸有所长就是这个意思。大家在同一条路上跑,遇到困境与天花板都是类似的。这时候有人在另一条路上,保不准在最痛的某个部分,突然会有突破。原因无他,因为这力气使得角度不同,世界观不同,设计哲学不同。据说,NLU是AI皇冠上的明珠,是珠穆朗玛峰。

老友周明一直在为NLP鼓与呼,认定今后10年是NLP的黄金10年。AI似乎每天都在翻新,每周都有新闻,每月都有突破,浪头一个赶一个,新的算法、突破的model层出不穷,很多人惊呼“奇点”就要来临。为什么周老师还要提10年,对于AI进步主义者,这听上去简直是宇宙尺度了。为什么?无他,皇冠自有皇冠的难处,登顶珠峰绝非儿儿戏。唯此,有什么招使什么招吧,武器库还嫌武器多吗?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1165076.html

上一篇:自然语言就是猫矢
下一篇:《一日一析:“你家的地得扫了”》

 

3  刘钢 方琳浩 李毅伟

【从博鳌机器同传“一带一路”的翻译笑话说起】 屏蔽留存

【从博鳌机器同传“一带一路”的翻译笑话说起】

屏蔽已有 2439 次阅读 2018-4-12 03:09 |个人分类:立委科普|系统分类:科研笔记| NLP, 机器翻译, 博鳌

 

这是网上这两天广泛热议和流传的AI笑话(博鳌AI同传遭热议):

昨天还在想,这“一带一路”的翻译笑话是怎么回事儿呢?这类高频新术语、成语是机器的大拿,不就是一个词典记忆嘛。

今天看新智元的采访(博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说),原来,这次的笑话不是出在成语上,而是出在成语的“泛化”能力上。“成语泛化”的捕捉和翻译,这一点目前还是短板。

对于中译英,“一带一路”的翻译完全没有问题,因为这是近年来习大大新时代新政的最流行的新术语,家喻户晓,没有人去泛化它。机器翻译自然不会错,主流怎么翻译,机器就会怎么翻译,不会更好,也绝不会更差。

可是这个中国的术语到了英语世界,并不是所有受众都记得住准确的说法了。结果,“标准” 的流行译法 “one belt one road”,被有些老外记错了,成了“one road one belt” or "the road and belt" 等。这也是可以理解的,老外没有政治学习时间也不没有时事政治考核,能记得一个大概就不错了。

虽然说法不同了,次序有变,但两个关健词 road 和 belt 都在,这种成语“泛化”对于人译不构成挑战,因为老外的记忆偏差和“泛化”的路数,与译员的心理认知是一致的,所以人工传译遇到这类绝不会有问题。可是,以大数据驱动的机器翻译这次傻了,真地就神经了,这些泛化的变式大多是口语中的稀疏数据,无法回译成汉语的“一带一路”,笑话就出来了。

提高MT的“成语泛化”能力,是当今的一个痛点,但并不是完全无迹可寻。将来也会成为一个突破点的。只是目前一般系统和研究还顾不上去对付它。以前我提过一个成语泛化的典型案例应该具有启示作用的:“1234应犹在,只是56改”。

早期机器翻译广为流传的类似笑话也是拿成语说事(The spirit is willing, but the flesh is weak,心有余而力不足 据传被翻译成了“威士忌没有问题,但肉却腐烂了”),因为一般人认为成语的理解最难,因此也必然是机器的挑战。这是完全外行的思路。成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐。

NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最:

 

说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语:

 

The spirit is willing, but the flesh is weak (心有余而力不足)

 

翻译成俄语后再翻译回英语就是:

 

The whiskey is alright, but the meat is rotten(威士忌没有问题,但肉却腐烂了)

 

这大概是媒体上流传最广的笑话了。很多年来,这个经典笑话不断被添油加醋地重复着,成为NLP的标准笑柄。

 

然而,自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测,这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”,似乎暴露了机器的愚蠢,殊不知这样的“错误”是系统最容易 debug 的:补全词典即可。因为成语 by definition 是可列举的(listable),补全成语的办法可以用人工,也可以从语料库中自动习得,无论何种方式,都是 tractable 的任务。语言学告诉我们,成语的特点在于其不具有语义的可分解性(no/little semantic compositianlity),必须作为整体来记忆(存贮),这就决定了它的非开放性(可列举)。其二是对于机器“理解”(实际是一种“人工智能”)的误解,以为人理解有困难的部分也必然是机器理解的难点,殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事,需要历史知识才可以真正理解其含义,而机器是没有背景知识的,由此便断言,成语是NLP的瓶颈。

事实是,对于 NLP,可以说,识别了就是理解了,而识别可枚举的表达法不过是记忆而已,说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。 

 

from NLP 历史上最大的媒体误导:成语难倒了电脑

 

关于新时代“一带一路”的合适译法,我曾经从语言学构词法角度也论过:

“一带一路”,官方翻译是: one belt one road。

不得其解,昨天才搞明白是中国倡导 由中国带头 沿着古丝绸之路 开发新的经济贸易开发区 一方面帮助消化过剩的产能 一方面带动区域经济 实现共赢 让区域内国家分享中国经济高速发展的火车头效益 从而树立中国崛起的和平领军形象。

感觉还有更多也许更好的选项 反正是成语 反正光字面形式 谁也搞不清真意 总是需要伴随进一步解释 不如就译成:

一带一路 ===》 one Z one P (pronounced as:one zee one “pee”)

怎么样,这个翻译简直堪比经典翻译 long time no see (好久不见)和  “people mountain people sea” (人山人海)了。认真说,Zone 比 Belt 好得多。

One zone one path.
One zone one road.
New zone old road.
New Silk Road Zone.

感觉都不如 one Z one P 顺口。

from 【语言学随笔:从缩略语看汉字的优越性】

 

【相关】

博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说

NLP 历史上最大的媒体误导:成语难倒了电脑

立委随笔:成语从来不是问题

【语言学随笔:从缩略语看汉字的优越性】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

http://blog.sciencenet.cn/blog-362400-1108635.html

上一篇:【一日一析:“爱情这种事……”】
下一篇:【一日一析:中文解析中的动名短语歧义】

 

2  尤明庆 ljxm

发表评论评论 (2 个评论)

删除 |赞[2]吴炬   2018-4-12 10:08
有意思 

删除 |赞[1]ljxm   2018-4-12 09:20
短时间还是人脑厉害,即便他是个疯子.......

【李白99:从大小S的整体部分关系看舆情挖掘的统计性】 屏蔽留存

【李白99:从大小S的整体部分关系看舆情挖掘的统计性】

屏蔽已有 1487 次阅读 2018-3-10 04:15 |个人分类:立委科普|系统分类:科研笔记| NLP

白:
“这家公司从年报看业绩没什么起色。”

李:
“业绩”可以是小s 也可以是“看”的宾语,其实语义基本不变。“从N看”很像个习惯表达法,可以等于 “从N看上去”(“以N而观之”)。

白:
“这个人从眼睛看瞳孔是蓝色的。”

董:
两位,“这家公司”、“这个人”,还是“状语”吗?怕不合适吧?

李:
主语。“从N看”可以做状语。还是大s小s那套,及其变式。逻辑上就是整体与部分的情形,谓语说部分自然也在说整体。感觉 大小S的问题 有很强的逻辑意味 是逻辑在语言中的表现形式。大S是整体 小s是部分 谓语直接说的是部分,自然也就间接说了整体,这是逻辑上的不完全归纳,与三段论的演绎正好相反。归纳不如演绎严谨,容易引发种种争议,但归纳是人类认识和表达世界广泛使用的手段,表现在语言形式上就很有说法了。

这个问题我们在做舆情分析中,无数次遭遇:说 “iPhone 屏幕很好”,直接说的是“屏幕”,间接说的是 “iPhone”,算不算是说 iPhone 的好话?当然算,至少是找到了 iPhone 的一个亮点。

A:iPhone屏幕好
B:iPhone 屏幕好,但别的都不行。
A:照你说,iPhone 只剩屏幕好了?
…………

A 是说 iPhone 的好话,用的逻辑是不完全归纳。B 是说 iPhone 的坏话,但也做到了与 A 并不矛盾,根据的是归纳的不完全原理。所以说 不完全归纳就是那半瓶水,乐观主义看见的是水,算是点赞;悲观主义看见的是空气,可以是吐槽。如果反过来用三段论演绎法,说的是整体而不是部分,譬如 “iPhone 就是好”,就没有这些弯弯绕了,不会留下模糊的空间。

大前提:iPhone 好
小前提:iPhone 屏幕也是 iPhone (有机部分)
结论:iPhone 屏幕好。

这跟 “文化大革命就是好” 一个道理,是点赞没商量。

回到原句:“这家公司从年报看业绩没什么起色。” 句法上的大S在逻辑语义层转为O,句法上的小s上升为S,这些都说得通,只欠O(整体)与S(部分)之间的关系了:

愿意做细活的话,这个有点特别的 “从N看”(习惯表达法)可以看成是状语或插入语,它不是语句的重心。不过,这种细活做多了,不仅费工,而且也难免弄巧成拙,譬如,万一前面出现了一个通常不出现的主语“我们”或“大家”,就找不到自己的谓语了。

“这个人从眼睛看瞳孔是蓝色的。”

“瞳孔是蓝色的。”
? “这个人是蓝色的。”

这就是不完全归纳法推向极端的情形:上句因为是极限事例,听上去不 make sense,但却的的确确隐含归纳法从部分到整体的逻辑链条在内。如果改写成这样,就貌似有些道理了:

“就瞳孔而言,这个人是蓝色的。”

“瞳孔” 这个概念 在其常识性本体知识库里 在Color的字段下 其 appropriate 的属性值里面包括了“蓝色”。但是 “人” 这个概念里面 常识本体库里面的 Color 栏目 没有“蓝色”这个选项,只有“黑 白 黄 红”。说 这个人是蓝色的 违背了这个常识 所以觉得很怪:除了妖怪和童话,怎么会有蓝色的人呢?但人的某个部位的确可以是蓝色的。部分的属性推广到整体的时候 遇到了矛盾。

“希特勒特别善于演说”

是说 希特勒好 吗?还真地就是说他的好话。在舆情抽取的时候,我们记录每一个这种表述,部分好相当于给整体好投了一票,但抽取的碎片化情报只是零散的一票一票,到了对于整个数据源进行信息融合(fusion)的时候,这每一张投票就被统计出来,“舆情”就自然得出。

白:
这是诛心。说鸡蛋好是不是也给下蛋的母鸡投了一票?

李:
最后的结果非常 make sense。原来,在与希特勒相关的舆情数据里面,整体而言,点赞的不足 1% 吐槽的高达 99%,可见其不得民心。这是全貌。舆情的细线条分析 进一步揭示 即便点赞,赞他的方面(aspects)或依据(why)几乎总是其客观能力(演说才能)等,吐槽的却是他的实质:思想,行动,内心,等。

说鸡蛋好,的确是给那只老母鸡点了赞。虽然钱先生对喜欢他的《围城》的粉丝说,鸡蛋好吃,又何必认识老母鸡呢。其实钱先生不仅仅是谦虚或清高,其实就是懒。懒得搭理那些无穷无尽的崇拜者。他内心何尝不知道,鸡蛋吃得香的人,对于老母鸡是有赞的。至少,我去超市买鸡蛋,对于能下黄鸡蛋的母鸡,比只会下食之无味的白鸡蛋的母鸡,心里不是一视同仁的。anyway,我们做了多年舆情挖掘,就是这么个原理。利用的是不完全归纳,对于不完全归纳所带来的副作用和逻辑不严谨,弥补的手段就是大数据投票。并不离谱,有全貌,有细节。

在大数据下,好人不会被评坏了,坏人也不会被评好了。当然,国内水军据说可以左右大数据,另当别论:主要是数据还不够大,水军也太便宜。

白:
无罪推定的原则,逻辑上(典型的就是三段论)推不出来的,你不能安给我。统计算个数也就罢了,把标签落到人头上,贻害无穷。这与诛心何异。比如,我反对一个人的证据(比如钓鱼贴里面那种荒唐证据),对其结论并没表态(尽管结论可能很政治正确),这是一个正常的理性行为。如果因为这个给我打上政治不正确的标签,我很难接受。

李:
大数据下,任何标签都不是黑或白。

白:
可是这种粗暴做法,冠以“舆情分析”的高科技帽子,几乎每天都在发生着。

李:
说你 99% 的政治正确,1% 的政治不正确,你应该很高兴。我要是开个餐馆,或经营一家NLP咨询公司,只要有 80% 的赞誉度 就笑懵了。每次找餐馆,我从来不特别找全五星的,总是找4星以上的,一万个评论打了四星的,比一千个评论打了五星的,要好得多。

白:
评好人缺点的人、不赞成拍好人马屁的人、不赞成捧杀好人的人、不赞成用荒唐论据支持好人的人被当作跟好人不一伙的人,这样的技术是危险的。其实是在诛心,或者在实现一种诛心的逻辑。

李:
退回到人工问券调查民意的时代,手工民意测验其实更差 更不完备。因为大S作为调查对象虽然是确定的,这个 大S的方方面面 那些点赞他吐槽他的种种理由 却五花八门。这些五花八门 个体可能有诛心的风险 整体统计却化解了风险。到了民主政治 一人一票 根本就无心可诛。大数据下 只看票 不看理由。

白:
挺转和反转,就因为双方的旗手而呈现站队状态。反崔挺崔,反方挺方,本来与挺转和反转是互相独立的,在舆论场中愣是给弄成掰不开了。这个话题与政治关系不大。一个人只要不满崔,就会被当成挺转分子。

 

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1103141.html

上一篇:【李白98:从对联和孔子遗言看子语言自动解析】
下一篇:【立委兄:小城记忆】

 
 

收藏

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】 屏蔽留存

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

屏蔽已有 1692 次阅读 2018-3-18 19:40 |个人分类:立委科普|系统分类:教学心得| NLP, NMT

 

李:
最近微信群疯传一条新智元的人工智能新闻专访,【机器翻译提前7年达到人类专业翻译水平,微软再现里程碑突破】。不少老友也特地转发给我这个“老机译”。微软这几天的营销好生了得。到处都是这个第一家超越人类的MT新闻 而且提前了七年!

这个微软 MT 是在哪里? 比较过百度,谷歌,有道。有道似乎最好,所以现在就用有道。不妨也试试微软。

事到如今,这几家都可以 claim 新闻翻译超过业余翻译的水平,进入专业翻译的段位了。跟语音类似,这是整个行业的突破,神经翻译大幅度超越上一代统计翻译,尤其是顺畅度。眼见为实,这一点我们都是见证人。已经 n 多次测试过这些系统了。(【谷歌NMT,见证奇迹的时刻】【校长对话录:向有道机器翻译同仁致敬】). 如果是新闻文体,很少让人失望的。

说是第一个正式超越的系统云云,基本上是 marketing。

MT 的下一个突破点应该是:(i)对于缺乏直接对比语料的语言对的 MT(据说进展神速);(ii)对于缺乏翻译语料的领域化 MT,譬如翻译电商领域,目前可用度差得一塌糊涂(20%左右),可有需求,无数据; (iii) 在保持目前NMT 目标语顺畅度的优势情况下,杜绝乱译,确保忠实可信。

这次他们严格测试的是汉译英,拿出数据来证明达到或超越了一般人的翻译水平。然后说,英译汉是类似的方法和原理,所以结论应该相同。这个我信。

有意思的是,在规则MT时代,绝不敢说这个话。汉译英比英译汉困难多了,因为汉语的解析比英语解析难,基于结构解析和转换的翻译自然效果很不相同。但目前的NMT 不需要依赖解析,所以语言的方向性对质量的影响很小。以前最头疼的汉译外,反而容易成为亮点。

当年入行的时候,有两个兴趣点:一是做外汉MT(主要是英汉),一是探索中文解析。前者有底气,知道这条路是通的,就是力气活,假以时间和资源,质量会逐渐越来越好。后者其实没有底气,感觉慢慢长路,“红旗不知道要打多久”(【从产业角度说说NLP这个行当】),但是实在太有趣了。当年的梦想是,什么时候中文解析做好了,用它来做汉外MT,能与外汉MT一样,那该多解气啊。

中文解析经过n多年的思索和实践,终于有底气了(【美梦成真】)。可是原先要落地MT的设想,却突然失去了这个需求和动力。好在 NLU 不仅仅在 MT 落地,还有许多可以落地的地方。

真所谓人算不如天算,看潮起潮落。老友谈养生之道,各种禁忌,颇不以为然,老了就老了,要那么长寿干嘛?最近找到一条长寿的理由,就是,可以看看这个世界怎么加速度变化的。今天见到的发生的许多事情,在 30 年前都是不可想象的:NMT,voice, image, parsing,iPhone,GPS, Tesla, you name it.

王:
中文解析,当然不一定中文,其他语言解析也一样,前景十分广阔,市场巨大。因现阶段还不能达到如人般的理解程度,所以还属于只能踩着有限小石子过河(落地)阶段,以后才能上大路,开高速。我也期望能有一个万能智能秘书,能准确理解且快速帮我办事,达到期望的结果。但能力都还有限,自然还是解析很力不足。

李:
parsing 的应用潜力很大,道理上没人说不对,毕竟这是AI在认知道路上可以预见的一个关键的支持。但实际上有两个坎儿:一是不好做,二是不好用。不好做是,想用的人往往不大会做,不能要求每个人都成为parsing专家。不好用是,独立的 offshelf 的,迄今没有见到大规模使用的成功案例。相对成功使用的,大多是内部消化,自己做自己用。这就局限了它的应用范围和潜力发挥。内部使用的成功经验,最多算是一种可行性论证,证明结构解析对于应用是的确可以赋能的。但平台化领域化的道路还很长。

核武器之所以在吆喝,是因为它还没爆炸,也似乎短期内不会爆炸。真爆炸了,听响声就够了,不需要吆喝了。

嘿,找到 MS Translator URL 了:https://www.bing.com/translator

做个现场测试和比较,用今天城里的新闻:

白宫发言人桑德斯14日表示,电视评论员柯德洛(Larry Kudlow)将出任国家经济会议主席。

桑德斯透过声明指出,川普向柯德洛提出担任总统经济政策助理,以及国家经济会议主席一事,柯德洛也接受了;白宫之后会宣布,柯德洛上任的时间。

川普月初宣布将对进口钢铁和铝材分别课征关税,其国家经济会议主席柯恩(Gary Cohn)因不认同川普此举,在6日请辞。

柯恩请辞后,柯德洛是接任的人选之一;在过去一年,柯德洛是川普的非正式顾问,也是川普2016年总统大选竞选期间的顾问。

川普13日向媒体表示,他有很高机率将任命柯德洛递补首席经济顾问柯恩辞职遗缺。川普说,“柯德洛成为我的好友一段时间了,他在我竞选早期就力挺我,是我最初的支持者之一。他是名非常有才华的人。”

70岁的柯德洛在前总统雷根任内监督白宫管理及预算局5年。柯德洛2001年加入财经媒体CNBC,之后成为知名评论家与主持人。

微软的自动翻译是:

White House spokesman Sanders said 14th that TV commentator Codro Larry Kudlow will serve as president of the National Economic Council.

Sanders said in a statement that Trump to Codro as president of the economic policy assistant, as well as the President of the National Economic Council, Codro also accepted, the White House will announce later, Codro time.

Cohn, the president of the National Economic Council, resigned on 6th for not agreeing to Trump’s move, announced earlier this month that it would impose tariffs on imported steel and aluminium.

After Cohen resigned, Codro was one of the successors, and in the past year Codro was Trump’s unofficial advisor and advisor to Trump during the 2016 presidential election campaign. Trump 13th to the media that he had a high chance of appointing Codro chief economic advisor Cohen to resign casual vacancies. Trump said, “Codro has been my best friend for a while, and he’s been my first supporter of my early campaign.” He is a very talented person.

” The 70-year-old Codro oversaw the White House administration and Budget Office for 5 years in former President Ronald Reagan. Codro joined the financial media CNBC in 2001 and became a well-known critic and moderator.

有道的译文是:

Larry Kudlow, a television commentator, will become President of the national economic council, White House spokesman jay sanders said Sunday.

In a statement, Mr. Sanders said he had accepted Mr. Cordelo as an assistant to the President’s economic policy and the President of the national economic council. The White House would then announce that Mr. Cordelo took office.

The chairman of the national economic council, Gary Cohn, said he would resign on June 6 after he announced that he would impose tariffs on imported steel and aluminum.

When cohn resigned, he was one of his successors. Over the past year, he has been an informal adviser to trump and an adviser to trump during the 2016 presidential campaign.

Trump told the media on Wednesday that he had a high chance of appointing the resignation of coderot’s chief economic adviser, korn/ferry. “He was a good friend for a while,” trump said. “he supported me early in my campaign and was one of my first supporters. He is a very talented person.

The 70-year-old has overseen the White House administration and budget office for five years under former President Reagan. Cordelojoined CNBC in 2001 and became a well-known critic and host.

谷歌的译文是:

White House spokesman Saunders said on the 14th that television commentator Larry Kudlow will serve as chairman of the National Economic Council.

Saunders pointed out through the statement that Trump had proposed to Cadero as the president’s economic policy assistant and the chairman of the national economic conference. Caldero also accepted it; the White House will later announce the time when Calderon took office.

Trump announced at the beginning of the month that it would impose tariffs on imported steel and aluminum products. Gary Cohn, chairman of the National Economic Council, resigned on the 6th because he did not agree with Trump.

After Keen resigned, Kedlow was one of the candidates for the replacement. In the past year, Kedro was an informal advisor to Trump and a consultant during Trump’s 2016 presidential campaign.

Trump stated to the media on the 13th that he has a high chance of appointing Kodlow to replace his chief economic advisor. Trump said, “Kadelo has been a friend of mine for some time. He supported me early in my campaign and was one of my initial supporters. He is a very talented person.”

Kodlow, 70, oversees the White House’s Office of Management and Budget for 5 years under former President Reagan. He joined the financial media CNBC in 2001 and later became a famous critic and host.

粗粗读一遍,都不错。可能是偏爱,还是更喜欢有道。

再来一片,其实不是新闻:

列宁的导师普列汉诺夫的遗言:
一、随着生产力的发展,知识份子的队伍比无产阶级增加得更快,在生产力中的作用跃居首位,在电气时代马克思主义的无产阶级专政理论将会过时。
二、布尔什维克的无产阶级专政将迅速演变成一党专政,再变为领袖专政。而建立在欺骗和暴力基础上的社会,本身就包含着自我毁灭的炸药,一旦真相大白,便会立刻土崩瓦解。
三、“布”党将依次遇到四大危机:饥荒危机、意识形态危机、社会经济危机和崩溃危机,最后政权土崩瓦解,这一过程可能持续数十年,但这个结局谁也无法改变。
四、国家的伟大并不在于它的领土甚至它的历史,而是民主传统和公民的生活水平。只要公民还在受穷,只要没有民主,国家就难保不发生动荡,直至崩溃。

微软:
Plekhanov’s last words:

With the development of productive forces, the team of intellectuals has increased faster than the proletariat, the role of the productive forces leaped to the top, and the Marxist proletarian dictatorship theory in the era of electricity will be outdated. Second, the Bolshevik dictatorship of the proletariat will rapidly evolve into a one-party dictatorship, then become a leader dictatorship.

A society based on deception and violence, in itself, contains self-destructive explosives that, once the truth is revealed, Fall apart immediately.

Third, the “cloth” party will encounter four major crises: Famine crisis, ideological crisis, social economic crisis and collapse crisis, the final regime fell apart, this process may last for decades, but this end can notchange. The greatness of the state is not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as citizens are still poor, as long as there is no democracy, the state will not be in turmoil until it collapses.

谷歌:
The words of Plekhanov:
     First, with the development of productive forces, the ranks of intellectuals have grown faster than the proletariat, and they have taken the lead in productivity. In the age of electricity, the Marxist theory of the dictatorship of the proletariat will become obsolete.
     2. The dictatorship of the proletariat of the Bolsheviks will rapidly evolve into a one-party dictatorship and will become a dictatorship of leaders. The society based on deception and violence itself contains self-destructive explosives. Once the truth is revealed, it will soon fall apart.
     Third, the “cloth” party will encounter four major crises in sequence: the famine crisis, the ideological crisis, the socio-economic crisis, and the collapse crisis. The final regime collapsed. This process may last for decades, but no one can change this outcome.
     Fourth, the greatness of the country does not lie in its territory or even its history. It is the democratic tradition and the standard of living of its citizens. As long as citizens are still living in poverty, as long as there is no democracy, the country cannot guarantee that there will be no turmoil until collapse.

有道:

His last words:
One, with the development of productive forces, intellectual team increase faster than that of the proletariat, in the role as the first productivity, at the age of electricity of marxism’s theory of the dictatorship of the proletariat will be out of date.

The dictatorship of the proletariat of the bolsheviks will quickly turn into a one-party state and become a leadership dictatorship. Society, based on deception and violence, contains self-destructive explosives, and when the truth comes out, it will fall apart.

Three, “cloth” party will, in turn, have four big crisis: hunger crisis, the collapse of the ideology, social and economic crisis and crisis, the regime collapse, this process may last for decades, but the end no one can change.

The greatness of a nation lies not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as the citizens are still poor, as long as there is no democracy, there will be no unrest until the country collapses.

梁:
这岂不让专业翻译人士好紧张吗?

李:
没办法,准备改行做编辑吧。作为职业,译员的市场的确在急剧萎缩中,大势所趋。

昨天跟老友说 还是要抬头讲故事 不能只是低头做实事。还要看故事的风口和时机。微软这一宣传 家喻户晓 老妪能解 普罗惊叹。一叹人工智能已经步步紧逼 看得见摸得着了。二叹微软太牛 给人印象是把对手远远抛在后面 在这个一日千里的AI时代 居然提前七年实现赶超人类语言认知的里程碑。

梁:
对,讲个好故事,比什么都重要!

李:
其实这几家品质都差不多 还有搜狗 还有一些初创 自从大约两三年前深度神经以后 都陆续达到了新闻翻译超越业余人工翻译的水平。换句话说 整个行业提升了。任何一家都可以心不跳脸不红做此宣称。可是老百姓和投资人不知道。这就看谁会讲故事了。

马:
大公司自己宣传,一帮不懂的媒体也愿意跟着捧,甚至捧得更卖力气。现在机器翻译拼的就是语料和平台,以前搜狗没有机器翻译,和我们实验室的刘洋合作后,不到一年就出了一个很不错的系统。

李:
AI 越来越像当年美苏的军备竞赛了,size matters.

@马少平 搜狗要营销的话 可以与电视台合作 搞个新闻现场大奖赛 请翻译界名人做评委 找n个专业翻译 m 个业余翻译 现场出题 限时翻译(要限制到熟练专业来不及查工具书 全凭大脑 勉强可以应付 为最佳)

马:
@wei 比起其他公司来,搜狗不是太会营销。

李:
这种比赛 没有悬念 最终一定是机器赢。好好设计一下,双盲比赛,让专家评审,也不能说它不公平。万一机器没得冠军 而是亚军或季军 宣传效果更佳 为下一轮比赛的高潮做了铺垫。那位人类选手神译 要好好保护 大力宣传 大书特书他过目不忘 博闻强记 知识渊博的种种事迹。当年花生智力竞赛大胜人类 本质上就是玩的这个套路。一直玩到进入了计算机历史博物馆的里程碑专区去了。MT 现在要玩的话,类似的效果,更容易设计,要想拉巨头参与也容易:几家巨头的MT网站都是公开的,随叫随到。

Ben:
@wei  youTube上 《成都》 有高圆圆的音乐,立委应该会喜欢!

李:
歌是好歌,早听过n多遍了,温暖慰藉。赵雷嗓子很有味道,可这小子镜头太多;圆圆友情出境,镜头太少,前面的剪影还是替身。

成都是个养人的好地方,出国前呆过大半年,乐不思非蜀(见【立委外传】):

1990 : 尝尽成都美食。 茶馆 火锅 夫妻肺片。

赵雷草根天才啊,独领城市歌谣,能写出这样的绝妙好词:

【画】
为寂寞的夜空画上一个月亮
把我画在那月亮的下面歌唱
为冷清的房子画上一扇大窗
再画上一张床
画一个姑娘陪着我
再画个花边的被窝
画上灶炉与柴火
我们一起生来一起活
画一群鸟儿围着我
再画上绿岭和青坡
画上宁静与祥和
雨点儿在稻田上飘落
画上有你能用手触到的彩虹
画中有我决定不灭的星空
画上弯曲无尽平坦的小路
尽头的人家梦已入
画上母亲安详的姿势
还有橡皮能擦去的争执
画上四季都不愁的粮食
悠闲地人从没心事
我没有擦去争吵的橡皮
只有一只画着孤独的笔
那夜空的月也不再亮
只有个忧郁的孩子在唱
为寂寞的夜空画上一个月亮

我不知道如何翻译,劳有道机器翻译一下:

“Draw a moon for the lonely night sky.
Draw me under the moon and sing.
Draw a large window for the cold house.
Draw another bed.
Draw a girl with me.
Draw another lace bed.
Draw a stove and firewood.
We were born to live together.
Draw a flock of birds around me.
Let me draw green ridge and green slope.
Picture peace and serenity.
The rain fell on the rice fields.
There’s a rainbow you can touch with your hands.
There are stars in the picture that I have decided not to destroy.
There are endless smooth paths.
The end of the family dream has entered.
Picture mother’s peaceful pose.
There’s also an eraser argument.
Paint food that is not sad in four seasons.
A leisurely person never worries.
I didn’t wipe out the quarrel eraser.
There was only one painting of a lonely pen.
The night sky was no longer bright.
Only a sad child was singing.
Draw a moon for the lonely night sky.”

自然有错译的地方(如 there’s also an eraser argument. I didn’t wipe out the quarrel eraser),可是总体而言,专业出身的我也不敢说一定能译得更好,除非有旬月踟蹰。机器翻译超越业余翻译,已经是不争的事实。

 

 

【相关】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1104572.html

上一篇:【立委兄:小城记忆】
下一篇:【一日一parsing:修饰语的组合爆炸挑战】

 

3  黄仁勇 柳文山 徐令予

【机器翻译新时代的排座座吃果果】 屏蔽留存

【机器翻译新时代的排座座吃果果】

屏蔽已有 3176 次阅读 2018-3-19 14:24 |个人分类:立委科普|系统分类:教学心得| NLP, NMT

 

刘冰老师反馈,他看了我的NLP频道的笔记(【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】)说,就我随机测试的汉译英两篇,显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人,大牌教授。我倾向于同意他。因为我自己并没有认真比照,只是一时兴起做个测试。粗粗一个印象,觉得几家大都在一个水平级,但由于种种原因而来的偏好,我更喜欢有道。

其实不妨给这几家,加上搜狗,做一个英汉的随机测试,这样更容易评判。大家可以就两点做个各自的评价:(i)是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量。(ii)学学纽约时报給美国大学排名,咱们也給这几家非正式排个座次:这种随机测试免不了有波动,不能算正式的排座次结论。

今天的 USA Today 的新闻,谈普金连任,吸引了我的眼球,不妨试试。

Putin heads for big win — and 6 more years — as Russia's president:
(original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/)

Russian President Vladimir Putin — the country's longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday's election for another six-year term, according to incomplete returns.

Putin's re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator):

根据不完全的回报, 俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 "大国家队", 并补充说 "我们一定会成功"。

他说, 国家需要团结才能向前迈进, 并敦促民众 "思考我们伟大祖国的未来"。然后, 他率领热情的人群高呼 "俄罗斯!" 美联社报道。

谷歌翻译 (https://translate.google.com):

据不完全回报,俄罗斯总统弗拉基米尔普京 - 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 - 在周日的选举中再次获得压倒性胜利,任期六年。

普京的连任是普遍预期的,选举官员已经努力争取强大的投票率,宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理,使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计,从60%的选区算起的选票中,普京赢得了超过75%的选票。

下午7点莫斯科时间,当局表示,投票率已达到近60%。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人,并补充说:“我们必须取得成功。”

他表示,国家需要团结向前,敦促人们“思考我们伟大的祖国的未来”。然后,他带领热情的群众高唱“俄罗斯!”美联社报道。

百度翻译 (https://fanyi.baidu.com/):

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人,根据不完全的回报,他将在星期日的选举中获得压倒性的胜利,任期六年。

人们普遍预期普京连任,选举官员极力要求强有力的投票,以宣布一项无可争辩的任务。自1999年12月以来,普京一直是总统或总理,使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区,普京赢得超过75%的选票,根据中央选举委员会。

到了莫斯科时间下午7点,当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人,并补充说:“我们一定会成功。”

他说,国家需要团结向前迈进,并敦促群众“思考我们伟大祖国的未来”,然后他带领热情的人群高呼“俄罗斯”!美联社报道。

有道翻译 (http://fanyi.youdao.com/):

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报,他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选,而选举官员一直在努力争取更大的投票率,以获得无可争议的授权。自1999年12月以来,普京一直担任俄罗斯总统或总理,这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计,在60%的选区选票中,普京赢得了超过75%的选票。

莫斯科时间下午7点,当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”,并补充说:“我们一定会成功。”

他说,国家需要团结一致向前推进,并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译https://fanyi.sogou.com/):

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任,根据不完全的数据显示。

人们普遍预期普京会再次当选,选举官员们一直在努力争取选民踊跃投票,以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理,这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计,普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点,官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”,并补充说,“我们一定会成功。" "

他说,国家需要团结起来向前发展,并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯!”美联社报道。

老友说,不怕不识货,就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条,“是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量”?

我个人认为,这个结论是成立的。不仅仅是基于这一篇对五家的测试,以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解,加上平时做过的多次测试的印象,形成这一判断快一年了,从来没有觉得遇到过严重挑战。

第二条真要排座次呢,估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条,准确和通顺。我们就以这两条作为标准谈谈。

微软的问题:
1. 普金和斯大林错译成了同位语:“俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--;”
2. 漏译了关键的限定语“自斯大林以来”,结果是让人莫名其妙:“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词:(不完全的)“回报”(returns),(不争的)“任务”(mandate),这算小错。

谷歌的问题:
1. 不合适的选词:(不完全)“回报”(returns),(无可争议的)“任务”(mandate),这算小错。
2. as-短语挂错了地方:他赞扬那些投他为“大国家队”的人 (He hailed those who voted for him as a “big national team”,不大不小的错)
3. “we are bound for success.”(“我们一定会成功”)只有谷歌没翻对,它翻成了“我们必须取得成功”。有相当偏差。

百度的问题:
1. 选词不当:(不完全的)“回报”(returns),(无可争辩的)“任务”(mandate),这算小错。
2. 生硬,两个状语的安排不妥:“【用选票从60%的选区】,普京赢得超过75%的选票,【根据中央选举委员会】”。
3. as-短语挂错了地方:他称赞那些投票支持他为“大国家队”的人(He hailed those who voted for him as a “big national team”,不大不小的错)

有道的问题:
1. 一个小瑕疵是“根据不完全的回报”,最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然,因为有上下文,这个译法虽然不妥,还是可以理解。
2. 漏译了一个重要的限定语“自斯大林以来”:“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过,有些胆大妄为,化有为无。

但通篇译文读起来非常顺溜。

搜狗的问题:
漏译“for another six-year term“ (是个不大不小的错)。其他没看到错,读起来也蛮顺。

这样看来,搜狗和有道可以并列第一。谷歌第三。百度第四。微软,对不起,你还欠了火候:不仅是比不了谷歌,其他小兄弟也比你更准更顺。(也有人说,线上的不是他们的新版,最新的技术还没进去,我们拭目以待吧)。

马少平老师告诉我,“搜狗由于做的晚,全部用的是神经翻译,有道以前是统计翻译,后来加上神经翻译,再后来彻底抛弃以前的,全部用神经翻译。百度是在以前基础上(统计翻译)加上神经翻译。可见神经翻译胜出。”

而我呢,第一次体验到神经翻译不俗表现,是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译,语音合成自动读出来给我的感觉不亚于一个专业的口译员,是我大喜过望,赶紧“录得”现场音频分享给朋友。【谷歌NMT,见证奇迹的时刻】2016-10-2 ) 后来,百度出来说它们比谷歌更早就“神经”了,不过我并没觉得百度比谷歌质量高,所以仍然坚持用谷歌。搜狗刚开始上线,界面和用户友好(长文的翻译拷贝等)不给力,用了一下就没再看了。一两个月前开始注意的有道,发现比谷歌磨得更圆,也颇用户友好和贴心,就开始用有道(问题是有时候过分神经,为了通顺敢于牺牲忠实,这个毛病看上去是目前神经翻译的通病。)。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app.  So I shifted to Youdao.  I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day.  It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance.   Despite the name of the app as Youdao Dictionary,  we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time.  The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations.  From MT as a business perspective, Youdao seems to be gaining momentum.  Xunfei is also a big player, especially in speech translation. 

说曹操曹操到,微信刚好在传这个视屏:

第一次听讯飞刘总做 marketing 哇塞!比微软还厉害。一口气下来 促销人工智能 方方面面 顺顺溜溜 底气十足。他用代表能听懂的语言娓娓道来,能给人想象的空间,果然高手,谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象,给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错 可别忘了别家也已经追赶上来了,整个行业提升的结果是,老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译,我用我夹有皖南地方口音的普通话,重复给“有道词典的app”里面的口译界面,翻译结果一点不比讯飞逊色,属于同一量级吧,截屏如下:

 

 

 

【相关】

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

http://blog.sciencenet.cn/blog-362400-1104695.html

上一篇:【立委兄:小城记忆】
下一篇:【一日一parsing:修饰语的组合爆炸挑战】

【李白70:计算语言学界最“浪漫”的事儿】 屏蔽留存

【李白70:计算语言学界最“浪漫”的事儿】

屏蔽已有 2733 次阅读 2017-9-12 23:29 |个人分类:立委科普|系统分类:科研笔记| parsing, 自动分析, 汉语NLP

白:

根据什么知道“他人”不是三个动词共享的逻辑宾语?----相谐性!

李:
【human】vs【physical-object】?丢失【physical-object】vs 丢失【human】?
丢失“孩子”呢?假如是直接量相谐的统计对比,“丢失-设备”与“丢失-他人”,前者完胜。
如果是上升到类别上去做对比,丢失-【physical】与丢失【human】就有可能会势均力敌,假如 “丢失-孩子” 的说法在语料里面特别高频的话。

直接量对比最好,可是总有数据稀疏不足为据的担心。类别对比克服了稀疏数据,也可能走偏。“申领”类似,似乎也可能申领【human】? “ 损坏”好像比较单纯,很难“损坏人类”(人类够皮实的?)。到了“转借”问题复杂了,是个双宾词,大数据里面,跟 【human】与跟【physical】的都很多。当然,现场已经让【human】(“他人”)占了坑,只剩下【physical】的可能,如果要把这一套符号逻辑加入大数据相谐的统计里面去,貌似也不是很好整,虽然琢磨起来总是头头是道的。

白:
三个动词共享的话,备选坑的subcat取最小公共上位。
损坏的坑不是human,甚至不是animate,看来只能是physical
大家都从它。

李:
最小公共上位,实现起来又多了一层,而且预设了 并列结构的正确识别。看看这个问题的完满解决牵涉了多少不同层面的预设:

(1)预设并列结构识别
(2)预设最小公共上位
(3)预设排除已经占据的坑的类别

这里面的每个预设,说起来都很合理,但揉进一个算法里面就感觉有相当挑战。这只是就这一个案例的应对思路所做的抽象。遇到其他案例,也会出现其他听上去合理的应对。然后把这些合理应对整合起来成为一套相谐性checking的算法,感觉上不是一点点的挑战。

白:
显然这时候就看出来中间件分离的好处。相谐性检查也好,求最小公共上位也好,都是matcher向中间件请求,中间件回应matcher的关系,中间件并不介入matcher自身的逻辑,不介入待分析文本的结构性判断。

梁:
两个词的相谐性,可以计算出来么?或统计出来吗?

白:

李:
处得久了 粘在一起 chemistry 就确定了。大数据可以。就是如何实施的 know how 了。

白:
“避免了一个十亿人口数量级的核大国彻底倒向美国和日本成为死敌”
和谁成为死敌?谁和谁成为死敌?

1、十亿人口的核大国和日本
2、美国和日本
3、十亿人口的核大国和缺省主语
4、十亿人口的核大国和美国

李:
我昨天下午也搞定了一个痛点: 就是 “学习材料” 类。完满解决这个问题 其实有几个坎儿。凑合事儿也可以,但总觉得对于这么普遍的现象,还是形成一个一致的比较完美的解决才好,类比以前对于离合词“洗澡”的解决方案那样。

说个有趣的汉语缩略现象:

南美北美 --> 南北美
上位下位 --》 上下位
进口出口 --》进出口
AxBx --> ABx

some more examples: 红白喜事,冷热风,高低端,东南向,南北向,软硬件,中青年,中老年,黑白道,大小布什 ......

这些个玩意儿说是一个开放集(合成词)吧,也没有那么地开放;说封闭吧,词典也很难全部枚举。它对切词和parsing都构成一些挑战。这是词素省略构成合成词的汉语语言现象,还原以后是 conjoin 的关系 (Ax conj Bx),至于 ABx --> AxBx 的逻辑语义,还真说不定,因词而异,可以是:(1) and:南北美 --> 南美 and 北美;大小布什 -->大布什 and 小布什;(2)or:冷热风 --> 冷风 or 热风;正负能量 --> 正能量 or 负能量;(3)range:中青年 --> from 中年 to 青年,中老年 --> from 中年 to 老年;(4)and/or: 进出口 --> 进口 and/or 出口;(5)一锅粥(and/or/ranging): 高低端 --> 高端 and/or 低端 or from 高端 to 低端。

白:
小微银行;三五度

李:
逻辑语义解析先放一边(很可能说话的人自己就一笔糊涂账,不要勉强听话人或机器去解析 and、or 还是 ranging),就说切词和parsing的挑战怎么应对就好。冷热风 在传统切词中是个拉锯战:【冷热】风 vs 冷【热风】;“南北美”:【南北】美 vs 南【北美】。

看官说了,还是 南【北美】 似乎对路。可那个撂单的“南”怎么整呢?

白:
词不都是切出来的,也可以是捏出来的

李:
【国骂】,切词切词,只让我切,不让我补,这不是憋死我吗?不具体说雕虫小技了,要达到的目标是:Input:南北美;output:【南美 conj 北美】。

问,难道切词或 parser 还能补语言材料?当然能。不能的话,bank 怎么成的 bank1 (as in bank of a river)和 bank2(as in a com李rcial bank)?举个更明显所谓 coreference 的例子:John Smith gave a talk yesterday. Prof Smith (== John Smith), or John (== John Smith)as most people call him, is an old linguist with new tricks.

白:
高低杠、南北朝、推拉门、父母官……

李:
This last example below demonstrates the need for recovering the missing language material:

A: Recently the interest rate remains low.
B: How low is the rate (== interest rate)?  // 不补的话,就不是利率了,而是速率。

所以 parsing 中适当补充语言材料,重构人类偷懒省去的成分,也是题中应有之义,虽然迄今绝大多数系统都不做,也不会做,或没有机制或相应的数据结构做。

白:
不该补的也要那个。反方向的还不普遍?比如“海内外”

李:
听上去好像我的系统做了似的。必须说句老实话,目前还没做。虽然没做,这些个东西老在心里绕。绕老绕去问题清晰了,candidate 策略s 也有了,就是等一个时间点,去 implement。做实用系统有一个毛病,千头万绪,大多是跟林彪似的,急用先做。不急用的,甭管心里绕了多少回,往往是一等再等,几十年等一回,那一回有时候似乎永远不来似的,有时都就等到白头了。其中一个办法描述如下:假如 “南北韩” 不在词典里,但“南韩”和“北韩”都在,“南北”也许在,也许不在,不管他。切词的结果不外是:南/北韩 or 南北/韩。“揉”词的算法可以放在切词之后。最简单的算法就是再查两次词典,如成功,就把切词结果加以改造,爱怎么揉怎么揉。

(1) Input: A/Bx
Is Ax in lexicon? If yes, then
output: Ax conj Bx

(2) Input: AB/x
Are Ax and Bx both in the lexicon? If yes, then
output: Ax conj Bx

(3) Input: 海内/外:
Is 海外 in the lexicon? If yes, then
output: 海内 conj 海外

张:
李白对话将载入计算语言学历史

李:
前些时候,还真有个出版商寻求合作,要出版个啥 NLP 系列。旁门左道,从来没想要出书的,甚至写了也不管有没有读者。总之没拿读者当上帝。自媒体时代,写已经不仅仅为了读,写主要是为了写,日记疑似。与其读者做上帝,不如自己做上帝。反正也不指读者养活自己,完全是共产主义义务劳动,而且是高级劳动。此所谓,说给世界听,可并不在乎世界听不听。后来想起《对话录》,我说,也许你应该去找白老师。如果白老师愿意,倒是可以选辑修订成册。里面不乏精品,譬如最近的这篇:【李白69:“蛋要是能炒饭,要厨师干啥用?”】。

张:

计算语言学界最浪漫的事就是不忙的时候(坐在摇椅上)看李白悠悠地“怼”,慢慢地“坑”

白:
如果前缀两个字,就比较容易接受:大江南北、长城内外

李:
“大江南北、长城内外” 不同,“大江南” 、“大江北” 不在词典,而是句法组合。“大江-南” 是句法,“大江-南北” 也是句法,没有必然的必要性去补足构词材料。

白:
但是相比共享后缀,语义并无结构上的特别之处。所以补足只是针对同类现象的部分解决方案。按构词规则捏出一个有微结构的合成词才是根本。

“欧洲一体化已死,何须中国分裂?”  有个“它”或者“之”,关系会更明确。

李:
那就有点不伦不类了。“欧洲一体化已死 何须中国分裂之”,听上去成诗句了,好比
“花开花落两由之”。

白:
多好。如果像我引用的那样,就比较麻烦,总得有些关于统一和分裂相对关系的铺垫才能正确理解“中国”在其中的使动角色。

李:
想起个故事 在我知道胡适之是胡适之前,我写了句 “胡适之名句”,那还是高中的时候。高中同班一个公认的秀才,老夫子,读书巨多,平时颇孤傲,会背诵古文观止。 他马上对我刮目相看,他没料到我居然知道胡适乃是胡适之。别小看一个之,知道不知道它当年被认为是有学问与孤陋寡闻的重要区别。天地良心 我的确不知道胡适还有个之。后来知道了,不禁哑笑,哈,被学问了。秀才最后成了一辈子最铁的朋友,现在也在米国,做大学教授 系主任多年。

白:
英语“xxx specific”怎么翻译才地道?直译为“yyy特定的”读起来很不爽。比如“language specific”我宁愿麻烦点翻译成“针对特定语言的”。见到“语言特定的”这样的翻译,总感觉不舒服。但是,汉语处理已经必须处理这种因为直译导致的语言现象了。因为我们左右不了人家的翻译质量。

昨天徒步时看到的“旅游厕所”让我对降格又深入了一步。简单地看,这是动词“旅游”降格做定语修饰“厕所”。但是,1、“厕所”无法反填“旅游”的坑,这和“打火机”不同。2、“厕所”并不是与“旅游”的坑完全隔绝,它是给旅游者上的厕所。构词的微结构里面虽然没有直接出现“上”,但是这个“上”却是连接“旅游”和“厕所”的枢轴。跟前些天讨论的“孟姜女哭倒长城”里面那个没出现的“修”,有的一比。述语动词“哭”和结果补语“倒”没有相谐的共享坑,但是深层次通过“修”和“丈夫”的坑,延展开来实现了共享。

王:
我感觉是“旅游(用)厕所“,这样绑定是否可行。“上“有点窄,但“用”面大,覆盖广,只要没有反例就好。类似英语动词+ing。traveling toilet。学英语时,v+ing,分词和动名词,用来旅游的厕所 or 旅行着的厕所(移动厕所)。不知对构造新词是否有帮助。

白:
直觉“旅游”和“厕所”也是通过“上”实现了回填。等下我画个图验证一下。“用”也还是意犹未尽,不是严格用填坑关系串起来的,是一个虚动词,“上”是一个实例。

梁:
我有点忘了,“孟姜女哭倒长城”是孟姜女晕倒了,还是长城倒下了?好像两种理解都可以。

白:
长城倒了。
旅游[的](上、用……)[的]厕所

双线是“旅游”成为“厕所”定语的路径。简化一下:

把phi_1、phi_2缩并到“旅游”,形成虚拟节点“旅游'[S/N]”的话,上图就进一步简化为:

回填结构昭然若揭。phi_1是“旅游者”,phi_2是“上、用……”。

王:
第一个图好理解,简化后自己有点跟不上了,呵呵!当然白老师心中是门清的,只要可操作就是好的。

李:
为了一个定语 弄出两个无中生有的节点 才把这根线搭上,够绕的。某人 v 了厕所
此人 旅游,因此 旅游厕所就是为某些旅游的人所v的厕所。萝卜坑貌似搭上了,不过绕了这么一大圈搭上了又有啥好处呢?

白:
1,如果对不能反填置之不理,这一步大可不必。2,深层语义结构本来如此,顺藤摸瓜找到相谐的反填路径,看起来是句法任务,实际已经是语义任务。所以parser只做到降格就可以收工了。

李:
对于 “v (的)n”,知道 v 是 n 的修饰语 是根本,v 的坑 对于语言理解不重要,或无关系,因为语言中的谓词,填不上坑或不值得填坑的,是常态 是多数。需要填坑的(处于clause里面的)谓语动词是少数,多数是非谓语动词。即便谓语动词 一来也常省略萝卜
二来可填的坑 句法痕迹也比较明显直白,不会那么绕,少数远距离例外。

白:
对句法不重要,对语言理解不能说不重要。无中生有只是假装,其实联想到的实例都是有的。旅游厕所真的就是那个意思啊…… 难不成碰到了那个意思还要过河拆桥,告诉别人不存在这个桥。

王:
我觉得白老师对新词的剖解挺好,词生有根,把根找到是件有意义事情。当然在有些处理新词场合,可能不需要处于隐形的中介出场。一旦需要时,能有套路可找到,那么这价值就体现了。这也是机器搜刮了词典中的多种关联后得到吧。不排除有些情况可能找不到,也有可能找出了多个。这可能更大视野来考虑相协。

白:
刚才用“坑论”试了一票英语例句,巨爽。

李:
Man 填了万能词 is 又填 fat 中间还来个 +N  看上去有点复杂 (N+ 是定语,+N 应该是后补同位语)。/N 在身边没找到萝卜 就进休息室了 +N 守株待兔 等待左边来客,这一套蛮绕。

白:
@wei 别看man填了那么多坑,除了一个花了额度,其他都是免费的,而且都说得清来由。这个免费额度的机制,看来真的是universal 。

“自从有了智能移动电话,我的智能、移动和电话都在减少......” 这段子,又涉及微结构了。

宋:
“制裁没起作用,朝鲜又爆炸了氢弹。”其中,“制裁”的受事是“朝鲜”。机器没有相关的背景知识,能发现这种论元关系吗?

李:
“制裁没起作用 美国只有先发制人一途了。”

白:
“制裁没起作用,中国躺枪。”

李:
对于 hidden 论元 既然说者都不愿显性表达出来,为什么要挖出来?在哪些应用场景 需要挖出 hidden roles 哪些场景不需要?机器翻译基本不需要,信息抽取和大数据挖掘的应用也基本不需要,explicit 论元都成山成海冗余无度呢。自动文摘的场景不需要。阅读理解的场景似乎是需要的,但这也看哪一种level 的阅读理解,四级阅读与六级阅读 要求不同。总之 感觉多数场景不需要。实用主义来看 做了也白做 何况做也难做好。

白:
这根本不是个别词的问题,而是场景的问题。在先行的大场景中各自什么角色,决定了填“制裁”坑的萝卜是谁。向后找萝卜,方向反了。

“耳朵聋了,莫扎特的音乐照样演奏。”
“耳朵聋了,贝多芬的音乐照样演奏。”

吕:
这个需要接入外界知识了

白:
第二句有歧义,第一句没有。原因,就是大家知道莫扎特和贝多芬谁耳朵聋了。可以把“贝多芬耳朵聋了”看成一个先行场景,“联立地”决定后续空白坑的填充。重要的事情说三遍,只要语言不要常识不要常识不要常识。Simultaneous anaphor

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1075655.html

上一篇:【李白69:“蛋要是能炒饭,要厨师干啥用?”】
下一篇:【李白71:“上交所有不义之财!“】

【李白之40:逻辑语义是语义核心,但不是全部】 屏蔽留存

【李白之40:逻辑语义是语义核心,但不是全部】

屏蔽已有 3017 次阅读 2017-4-27 23:31 |个人分类:立委科普|系统分类:科普集锦| 逻辑语义, 表层结构, 深层结构

李:
"不晓得是啥":不晓得[ ]是啥

不晓得【萝卜】是啥。
这个宾语从句中的主语的坑省略以后,萝卜哪里去了呢?

萝卜不晓得是啥
不晓得是啥的萝卜
一口可口可乐喝完, 吐出一块不晓得是啥的东西

白:
“拿一些自己都不晓得是啥的东西来糊弄别人。”
定语从句反而是自然的

李:
why not 不晓得 NP[是啥的东西]? “晓得”的 subcats 既可带宾语从句,也可带NP宾语的:

不晓得啥东西
不晓得这东西

then, why the parse [[不晓得是啥]的东西] is better than [不晓得[是啥的东西]]?回答清楚这个问题,貌似需要一点说法。

白:
“他是个连微积分都不晓得是啥的东西”
又回去了。“晓得”带小句宾时,不满足穿透性,就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候,就出现了两个坑,不知道反填哪一个,这是要避免的。

李:
是吗?
“我不晓得到哪里去” == 我不晓得【我】到哪里去。

白:
不一定,可自主决策类,可以穿透。一般性的动词,无法穿透。

李:
“不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。

白:
狂吠是不及物的,一个坑。没有歧义。

李:
“不晓得是啥” 也是vp 也是不及物 或 宾语已经内部 saturated。

白:
不晓得是啥,两个坑:a不晓得b是啥。但“连微积分都不晓得是啥”,微积分填掉了一个坑,就没这个问题了。b锁定,只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人,虽然逻辑上包含人。连……都不晓得是啥,显然承载了这个负面情感。

李:
对。两个坑。但是 b 坑比 a 坑更具有必填性。

在“不知道是啥的东西”里,“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语,宏观上 是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。”
这里“晓得”的主语是“大家”。

白:
有“大家”,先填掉了逻辑主语。“东西”拔不走了。

李:
“晓得”的第二个坑 是宾语子句。“东西” 显然与 “晓得” 没有直接关系,因为根本就没坑了, “晓得” 已经饱和了。如果引进短语结构ps,可以说 “不晓得是啥” 这个 vp,还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。

白:
“是”的两个坑,“啥”占了一个

晓得的逻辑宾语是X,S比N优先,顺序比逆序优先。
“这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。

李:
大主语 topic,有可能是一个 arg 的坑 也有可能不占坑 那就是 mod。小主语必然填一个坑。

白:
双主语有两种情形,一种是大小主语,往往有part of联系;另一种是宾语提前或话题化,这种没有part of联系。有part of的,可以名词自带坑。没有的,只能消费里面的坑。名词自带坑的,里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是:1、他哭;2、眼睛肿;3、眼睛是他身体的部分。眼睛,和哭,共享“他”这个萝卜。因为“肿”合并到“哭”,“肿”辖域内的残坑(谁的眼睛)获得免费额度。可以复用已填坑的萝卜。

李:
有 part of 这种特别有意思:“他身体不错”。

== 【他 身体】不错。
== 他 【身体 不错】

这两个看似水火不容的结构,都有各自的合理和优点,二者互补才反映全貌。

(1) “他的身体不错”:显性形式的小词“的”,让“他”降格为修饰语,属于填了“身体”所留的坑的修饰语。

白:
有“的”,修饰语辖域自然归并到被修饰语辖域,也获得免费额度。他,可以既填“的”本身的坑,也可以再填“身体”的坑。

李:
(2) 他身体方面不错:“身体”被降格,降格成后置词短语PP“身体方面”(Postpositional Phrase),类似状语。
(3) “他么,身体不错”,“他”降格为话题状语,用了口语小词“么”。
(4) “他身体好,又聪明” 可算是谓词“升格”(或“小句降格”)。从一元化领导升格为集体领导。本来谓词(譬如“聪明”)就是谓语,但现在“身体好”这个短语或小句整体变成了谓语,与另一个AP谓语“聪明”并列。

白:
“身体好”整体相当于一个不及物动词。两个带坑的成分级联,略去中间环节,还是吃N吐S。

李:
这些现象极端有趣,fascinating。表明 在基本相同的逻辑语义底层结构中,语言表达可以借助语言学的形式手段,给这个底层结构穿不同的衣服,打扮成不同的形象。进而对其语义做某种非核心的修饰。

白:
从填坑角度看只是初等的数学运算。免费额度算清楚了,其他都是小菜一碟。这又打破树的形态,真心不是树。

李:
但是 即便所有的坑都填妥了,那也只是逻辑语义的胜利,底层核心的被求解,表层的细微语义差别(nuances), 那些不同表达方式,那些“升格”、“降格”的不同语言形式。它们所反映的东西 严格地说 也应该被恰当的捕捉和表达。

白:
两件事情,谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。

李:
对呀。

白:
比如听说双方之前各知道什么,强调什么,诸如此类。这些不在“主结构”框架内,但是是一些“环境变量”,需要的时候可以从里面捕捉这些信息。

李:
最典型的例子是 “我读书” 与 “我读的书”,二者语义的区别,虽然逻辑语义核心以及填坑关系是相同的。

白:
焦点不同、有定性不同,已然未然不同,甚至单复数也可能不同。我当下正在读的书可能标配是单数,我读过的书标配就是复数。

李:
这些语义 与 逻辑语义,处于不同的层面。逻辑语义是本体(ontoogy)作为模版, 这些语义与本体模版无关。所谓本体模版,说到底就是规定了坑与萝卜,及其 type appropriateness(相谐性),他不反映这些有待填充的模版之间的结构关系,也不反映关系中的节点上附加的语义或细微差别,诸如 强调、委婉、正式、非正式、语气 等。

白:
这些都可以抽象为:语境的坑,只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的,都是耍流氓。

李:
不仅仅人机对话,机器翻译也要这个。
30年前,董老师强调要以语言之间的核心,即逻辑语义,作为机器翻译的基础。让我们脑洞大开 深受启蒙。然而 这只是翻译需要正确传达的一个方面,的确是最核心的一面,但不是全部。边缘意义和细微差别,在核心问题基本解决后,就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看,主动被动是表层的语言现象,在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面,但人不是这样翻译的:一个高明的译者懂得,什么时候被动可以翻译成主动,什么时候需要翻译成显式的被动,什么时候可以翻译成隐式的被动,什么时候改造成反身自动的表达方式(譬如在英语到法语的翻译中加 se)。

白:
视角选择,也是一个考量因素。有时,被动语态的采用,纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。

李:
总之 逻辑语义是个纲 纲举目不一定张 对目下功夫是区别一个好的系统和一个很好的系统重要指针。

白:
纳入语境的坑,一个好处就是所有填坑的机制可以复用过来,无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等,都可以套用本体的subcat。

李:
这个方向探索不多。但现在是可以考虑的时候了。

白:
我考虑很久了。语义是船,语境是河。船有内部结构,但行进也受到河的左右。内部结构不能完全决定行进的选择。

白:
不知道“王冕死了父亲”算是交叉还是不交叉?
王冕游离在外,另一部分的中心词是死,但王冕却不填它的坑,而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系,这个link还是在王冕和父亲之间。从形式上看,王冕(N)和父亲填坑后的残坑(/N)中间隔着中心谓词“死(S)”,但这个吃饱了的S对N和/N之间的眉来眼去是无感的。
乐见其成。

F:
如果是语义依存,是non-projective的,是有交叉的,"父亲"这个词的投射不连续。

白:
‘’倒是“父亲”填“死”坑的一刹那,让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑,则是左侧核心成分优先级高,我把它们处理成句法上存在填坑关系了。

李:
“王冕死了父亲”的交叉与否的问题,这个以前想过。不交叉原则针对的是句法关系
这是句法关系的逻辑底线,交叉了逻辑上无法说通,所以判违规。还没见过例外:句法关系可以并列,嵌套,但不能交叉。但不交叉原则不适用于逻辑语义关系。其实,严格说,相对于逻辑语义的不应该叫句法关系,也包括词法关系(可以看成是小句法)。总之是形式层面的结构关系。形式层面的结构关系不允许交叉,这个原则是对的。有意思的是,语言中的不同层面的形式结构关系,戴上逻辑语义的眼镜,或映射到逻辑语义的表达的时候,就可能发现交叉现象。原因是昨天说过的,逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图(graph)中是不包含句法结构层次之间的关系语义的。换句话说,逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜,完全有可能去填句法层面的逻辑语义的坑。反之亦然:词法层面中的坑,完全有可能让句法层面的萝卜去填。用乔老爷的Xbar句法框架或概念来说就是,语言单位X的层次,在逻辑语义看来是不重要甚至不存在的,无论是 X 是 -1 (我把词法内部的层上标为负数),0(词一级),1(组一级),2(短语一级)。萝卜与坑可以在这些不同层次中继承或跳转,但是句法上却有层次之间的区别和禁忌。

这些层次以及层次间的关系和规定(譬如不交叉原则)是客观存在的反映,是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法(PSG)及其表达中,体现得较好。在不重视层级的依存文法(DG)中就反映和表达得不好或不够。不管我多么喜欢DG,多么讨厌PSG表达的叠床架屋,我还是要指出DG的某些不足,正是PSG的长处。

回到白老师的例子,可以看得清晰具体一些:“王冕死了父亲”。PSG句法上,王冕 是NP,“死了父亲”是VP,构成S。VP里面“死了”是V-bar, “父亲”是NP宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次,句法不允许一个单位钻进另一单位的里面去建立联系,这是违反了君臣父子的天条。一个句法结构,对外就是一个元素,里面是黑箱子,不透明(但可以利用某种机制传递某种东西)。唯此,才能维护结构的清晰。但是到了逻辑语义,这些条条框框都可以打破:一个儿子可以有n个老子,交叉也不是不可以。树(tree)是无法承载逻辑语义的任意性和结构扁平化了,于是需要用图(graph)。我早就说过,DG本性上比较亲近逻辑语义(深层核心结构),而PSG则亲近的表层句法结构。很多人以为它们是互换的或等价的,只是表达(reprentation)方式不同。其实不仅如此。在我们饭还吃不饱的时候,我们首先想到的肚子问题,核心问题。当我们衣食无忧的时候,我们就要讲究全面一些,核心和边缘都不放过。并不是不放过边缘,不放过表层结构语义,就一定要回到PSG,但是至少仅仅逻辑语义是不够的,还需要添加其他,就如白老师昨天提到的那些以及他的一些表达方案。

白:
这些所谓的句法,功劳不大,脾气倒是不小。比他多识别出有价值的二元关系,反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。

站在外层N的角度,它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体,这个联合体挖了一个名词坑,“王冕”填进去,天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道,共享“他”这个萝卜。

中心词作为组块的代表,统一对外提供坑。这是对的。但是这坑未必是中心词自带的,可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑,相当于用镣铐把自己锁起来。何苦自己为难自己?

李:
今天的对话,符号逻辑,参杂点黑话与绿色幽默,有点绕,烧点脑。管他呢,还是发了吧。

白:
“把字句”与补语所带坑的深度捆绑,也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”,没有坑可以共享萝卜,“哭”与human相谐,“肿”与body part相谐,二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用,吃human,吐human body。看这个“肿了眼睛”的联合体所带的坑,与“哭”所带的坑,完全相谐,恰恰是可以共享的了。所以,在PSG那里避之唯恐不及的穿越交叉,其实隐藏着重大玄机。恰如其分地把它请回句法,可以起到四两拨千斤的作用。我对什么该放在句法层面,其实只有一个标准,能描述谁和谁有关系。如果谁和谁就是交叉着发生关系,句法不仅不应该回避,而且应该忠实描述。更何况,大的方面,中心词代表所在组块对外发生关系方面,并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑,都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍,一定是障碍错了而不是关系错了。

退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”,什么都结了。

李:
说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断,坚信不隔断 谁也做不好 做不纯粹和深入。何况 语义是全人类共同的 哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法(UG) 仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义,语言学就开始参杂逻辑的杂质了。

白:
我说的也都是句法,不是语义。只不过是能给语义省点事儿的句法。

李:
夹杂了本体,或本体的隐藏式 譬如 大数据中间件,就不能说是纯句法,因为常识揉进了形式系统。

白:
只是在控制(怎么做)层面引入了本体/大数据,在描述(是什么)层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说,如果只是为了写一本句法书而不是为了做parser,本体连一句话都不需要提。那就在这个层面比,谁揭示了更多的结构性信息。

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1051610.html

上一篇:辨析相对论、相对论性与相对论性(的)效应
下一篇:【李白之41:Gui冒VP的风险】

 

1  马耀基

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》 屏蔽留存

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

屏蔽已有 2472 次阅读 2017-5-7 09:32 |个人分类:立委科普|系统分类:科普集锦| FSA, 多层分析 CFG

题记:此地有金八百两,隔壁RNN不曾偷。

李:今天我们可以讨论伪句法歧义(pseudo-parses)的问题。我说过,多层 FSA 的 deep parser 不受伪歧义的困扰,虽然这是事实,但也还是需要一个阐释。这个问题是革命的根本问题,虽然文献中很少讲述。

第一章,事实篇。

话说某年某月某日,立委与白老师在微博狭路相逢。其时,立委正海吹深度分析(deep parsing)乃是自然语言之核武器,批评主流只在浅层做文章,摘下的不过是低枝果实(low-hanging fruit)。白老师当时插话说(大意): 你们搞深度分析的不算,你们也有自己的挑战,譬如伪歧义问题。最后留下三个字:你懂的。

各位看官网虫,大凡社会媒体,只要留下这三个字,那就是宣告对手的不上档次,不值得一辩,叫你无还手之力,无掐架之勇,先灭了你的志气。此前,与白老师未有私人交往,更无卡拉ok,江湖上下,白老师乃神人也,天下谁人不知,况青年偶像,粉丝无数。立委见势不妙,战战兢兢,唯唯诺诺:“那自然”。我懂的。心里却颇不以为然:伪歧义其实不是一切深度分析的命门,它只是单层分析的挑战,特别是 CFG (Context-Free Grammar)类 parsers 的困扰。

这是第一章第一节,是锲子。

虽然心里不以为然,但是“我懂的”,却是有丰富的事实依据。骨灰级老革命有一个好处,就是碰壁。无数的碰壁。革命,碰壁,再革命,再碰壁,直至百毒不侵,火眼金睛。老革命可能还有一个好处,就是走运,走狗屎运(譬如赶上上世纪末的网络泡沫,米国的科技大跃进,天上掉馅饼),直至反潮流也没被杀头,硕果仅存。

话说自上世纪80年代社科院出道以来, 就开始做deep parsing, 跟着两位导师,中国NLP的开山前辈,中国MT之父刘先生。他们的几十年的机器翻译积累,在分析这块的传承就是多层模式匹配(multi-level pattern matching)。用 CL术语,就是 multi-level FSA (finate state automata)或 cascaded FSA,有限状态的。我是苦力、主力,新毕业生嘛,为 deep parsing 写了无数个性的词典规则和反复调试精益求精的600条抽象句法规则。埋头拉车,无需抬头看路。从来就没有碰到过什么伪歧义的问题。这是事实一。

事实二发生在我做博士的时候,90年代中期。在风景如画的SFU山头上。当时我的两位导师,电脑系的 Fred 和 语言系的 Paul 合作开了一个自然语言实验室。这两位博导虽也绝顶聪明,但毕竟还年轻。在 NLP 场面上,需要站到一条线上,才好深入。实际上,他们是加拿大 NLP 的代表人物。他们于是选择了当时流行的 unification grammar school (合一文法学派)之一种,就是继 Prolog 以后,开始火起来的合一文法中的后起之秀,名叫 HPSG (Head-driven Phrase Structure Grammar)。这一个小流派,斯坦福是主打,欧洲有一些推崇和践行者,在北美,闹出动静的也包括我的导师的实验室。HPSG 说到底还是 CFG 框架,不过在细节上处处与乔老爷(Chomsky)过不去,但又处处离不开乔老爷。理论上有点像争宠的小妾,生怕得不到主流语言学界乔老爷的正视。

白: 还没进正题

李:白老师嫌拖沓了??现在还在事实篇内。不讲道理。

HPSG 推崇者不少,真懂的怕不多,特别是把 HPSG 用于中文 parsing 方面。看过一些国人不着边际的 HPSG 论,造成了这个印象。这玩意儿得跳进去,才知优劣深浅。当然没跳的也不必跳了,合一(unification)这一路没成气候,现在跳进去也是白跳,浪费时间。HPSG 有一个好处,就是它的词典主义,它实际上就是此前流行的 GPSG 的词典主义版本。NLP 领域各路英豪你争我斗,但有一个很大的共识,就是词典主义,lexicalist approach or lexicalist grammar。这也反映在 HPSG,LFG 等风行一时的文法派中。

我呢,有奶便是娘。本来嘛,导师做什么,学生就要做什么,这才是学位正道。于是,我在HPSG里面爬滚了几年。照猫画虎,写了一个 CPSG,就是 Chinese 版本的 HPSG。用它与实验室的英文 HPSG 对接,来做一个英汉双向机器翻译的实验,当然是玩具系统。这是我博士论文的实验部分。

为什么双向?这正是 Prolog 和所有 unification grammars (又称 constraints based grammars)所骄傲的地方:文法无需改变,文法就是对语言事实的描述,文法没有方向。无论做分析(parsing),还是做生成(generation),原则上,规则都是一样的,不过是执行层面的方向不同而已。理论听上去高大上,看上去也很美,一度让我入迷。我也确实完成了双向的实验,测试了几百个句子的双向翻译,得到了想要的结果。细节就不谈了,只谈相关的一点,就是,伪句法歧义在这些实验中是一个 huge problem。这个 HPSG parsing 中,伪歧义的事实有多严重呢?可以说是严重到令人窒息。当时用PC终端通过电话线连接到实验室的server上做实验,一个简单的句子在里面绕啊绕,可以绕出来上百条 parses。当然,可以设置成只输出一条 parse 来。有时忍不住好奇心,就耐心等待所有的 parses 出来,然后细细察看,究竟哪个 parse 对。

额的神!

乍看全长得差不多,细看也还是差不多。拿着放大镜看,才看出某个 feature value 的赋值不同,导致了 parses 之间的区别。可这种不同基本上没有语义的区别性价值,是为 pseudo parses 之谓也。要都是伪歧义也好,那就随机选一个parse 好了,问题出在,这百来条 parses 里面有时候会混杂一两条真的歧义,即语义上有区别性价值的 parses,这时候,选此废彼就具有了操作层面的价值取向。否则就是以一派压制另一派,反对党永无出头之日。

这个问题困扰了整个 HPSG community(其实是整个 CFG 框架下的 community)。记得在 HPSG 内部邮件组的讨论中,怨声鼎沸,也没人能找出一个理论上和实践上合理的解决途径来。

白: 简单说就是时间复杂性上去了,结果复杂性没下来。折了兵,真假夫人还混在一起不知道赔谁合适。

李:这就是为什么当时您那么肯定地指出我作为深度分析语言工作者所面临的挑战,他是把我归到主流语言学乔老爷 CFG 的框架里说的。

在第一章事实篇结束前,简单说一下实践中的对策。后来我的导师与本省工业界合作,利用 HPSG MT 帮助翻译电视字幕。在真实应用中,他们只好选择了第一条成功的 parse 路径,完全忽略其他的 parses。这也是没有办法的办法。质量自然受损,但因为无区别意义的 pseudo-parses 占压倒多数,随机选第一条,在多数场合也还是可以的。

第一章小结:骨灰级老革命在没有理论探索的情况下,就在 deep parsing 的 field work 中经历了两种事实:一种是不受困扰的多层 parser,一种是深陷其中的单层 parser。因此,当白老师一口咬定深度分析的这个挑战的时候,我觉得一脑门道理,但就是有理说不清。至少一句两句说不清,只好选择逃遁。

对于绝大多数主流NLP-ers,NL的文法只有一派,那就是 CFG,无论多少变种。算法也基本上大同小异,chart-parsing 的某种。这个看法是压倒性的。而多层的有限状态文法做 parsing,虽然已经有半个多世纪的历史,却一直被无视。先是被乔姆斯基主流语言学派忽视,因为有限状态(FSA)的名字就不好听(多层不多层就懒得细究了),太低端小气下位了。由于语言学内部就忽视了它,自然不能指望统计派主流对它有重视,他们甚至对这路parsing没有啥印象(搞个浅层的模式匹配可以,做个 NE tagging 啥的,难以想象其深度parsing的潜力),尽管从有限状态这一点,其实统计派与FSA语言派本是同根生,二者都是乔老爷居高临下批判的对象,理论上似乎无招架还手之力。

白: 概率自动机和马尔可夫过程的关系

李:但是,多层 FSA 的精髓不在有限状态, 而是在多层(就好比 deep learning 的精髓也在多层,突破的是传统神经网络很多年停滞不前的单层)。这就是那天我说,我一手批判统计派,包括所有的统计,单层的多层的,只要他们不利用句法关系,都在横扫之列。因为这一点上还是乔老爷看得准,没有句法就没有理解, ngram 不过是句法的拙劣模仿,你的成功永远是浅层的成功, 你摘下的不过是低枝果实。不过恰好这种果子很多,造成一种虚假繁荣罢了。

另一方面,我又站在统计派一边,批判乔姆斯基的蛮横。实践中不用说了,管用的几乎都是有限状态。乔老爷要打死单层的有限状态,我没有意见。统计派的几乎所有模型(在 deep learning 火起来之前)都是单层,他们在单层里耗太久了不思长进,死不足惜,:)。 蛮横之处在于乔老爷对有限状态和ngam多样性的忽视,一竿子打翻了一船人。

白: RNN可以完美模拟FSA, 但是现在的人都把RNN当做统计派的功劳。

李:但是他老人家忘记了, 我只要叠加 FSA 就可以比他所谓的 more powerful 的 CFG 做得深透,而且合体(特别适合白老师说的自然语言的毛毛虫体型)。他对有限状态的批判是那么的无视事实和缺乏理性。他是高高在上的神,不食人间烟火的,我们各路NLP实践派对他都敬而远之,基本没有人跟他走。在他本应发挥影响的领域,他其实缺乏起码的影响力。倒是语言学内部被他控制了,语言的形式化研究跟着他亦步亦趋走了半个多世纪,离作为其应用场景的 NLP 却渐行渐远。这是一个十分滑稽的领域怪相。 

白: RNN加层、计数器、加栈、加长时记忆,本质上都在突破单层FSA的计算能力

李:好了,咱们接着聊第二章:为什么多层系统,尤其是 多层 FSAs ,不受伪歧义的困扰?

白: 只要证明毛毛虫以外不是人话,就只管放心玩毛毛虫好了。伪歧义跟规则的递归形式无关,跟规则的词例化水平和压制机制有关。但是,要hold住十万百万量级的规则,CFG一开始就必须被排除在外。

李:对。

说到底是规则的个性与共性关系的处理,这是关键。这个不是我的发现,我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为 专家词典(expert lexicon )系统,就是因为我们把个性的词典规则与共性的句法规则分开了,并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对,单层的 CFG 基本是死路。眉毛胡子一把抓,甚至所谓词典主义的 CFG 流派,譬如 HPSG 也不能幸免,不出伪歧义才怪呢。如果规则量小,做一个玩具,问题不严重。如果面对真实自然语言,要应对不同抽象度的种种语言现象,单层的一锅炒的parsing,没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合,但是在树本身的选择数目都在爆炸时,这种整合是不能指望的。

李:可以说得具体一点来阐释其中道理。分两个小节来谈,第一节谈多层系统中,单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制,比如“美国和中国的经济”’。“张三和李四的媳妇”

李:如果这两种伪歧义都有自然的应对方式,那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦,学文科的,生存下来不容易,各位包涵了。

白: 抽象的并列,天然优越于抽象的长短不齐。似乎并不关乎词例,词例化的、次范畴化的规则,都好理解。抽象的结构化压制,处于什么地位呢?

李:但是难得大家围坐在一起,忍不住借题发挥一下,顺带进一步阐释了上次“上海会面”上的论点:我对乔老爷既爱且恨,爱他批判单层统计派的一针见血;恨他一竿子打翻一船人,敌我不分,重理论轻事实。

白: 是因爱成恨好吧

李:我们实际上半条身子在统计派的船上,大家都是有限状态;半条身子在语言派船上,毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word,而我们的有限状态是真正的 ngram,这个“gram” 就是刘老师当年一再强调的 “句素”,是一个动态的句法单位,可以是词、短语或者小句,随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的,因为它反映的是真正的语言学,多数统计学家天然不懂。

白: 世界上只有深层派和浅层派,这是复旦美女教授教导的。我认为只要touch深层,无论什么派都会殊途同归。

李:先说单层内部的伪歧义。这个白老师心里应该没有疑问了,不过为了完整还是先讲它。单层的有限状态说到底就是一个 regex (正则表达式),只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层,面对的单位就是 words (or tokens)。如果是句法关系的解析层,面对的单位就是短语(可以看作是头词,它代表了整个短语,“吃掉”了前后修饰语)。

对于单层,有两种结构歧义,一种是伪歧义,占多数;一种是真歧义,占少数,但存在。单层系统里面的每一条规则都是一个 pattern,一个缩小版的局部 parser (mini-parsing),试图模式匹配句子中的一个字符子串(sub-string)。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。这是难免的:因为描述语言现象的规则条件总是依据不同的侧面来描述,每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多,相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分,是那个部分使得 parsing 越来越强大,涵盖的现象越来越多。至于相交的部分,结论一致的规则有可能表现为伪歧义(结论完全一致是异曲同工,没有歧义,但设置一个系统的内部表达,难免涉及细节的不同),这是多数情形。结论不一致的规则如果相交则是真歧义。这时候,需要一种规则的优先机制,让语言学家来定,哪条规则优于其他规则:规则成为一个有不同优先度的层级体系(hierarchy)。

白: 在线?

李:FSA Compiler 事先编译好,是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系,不能初一十五不一样。

李:个性的现象优先度最高。共性的现象是默认,优先度最低。这个很自然。一般来说,语言学家大多有这个起码的悟性,什么是个性现象,什么是共性。

白: “张三的女儿和李四的儿子的婚事”

李:如果优先语感不够,那么在调试规则过程中,语言数据和bugs会提请语言工作者的注意,使得他们对规则做有意义的优先区分,所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity,这是个铁律。在非单调推理中也是如此。

李:这个优先权机制是所有实用系统的题中应有之意。优先级别太多太繁,人也受不了。实际情形是,根本不用太多的优先级别区分,每一层分析里只要三五个级别、最多八九个优先级别的区分就足够了(因为多层次序本身也是优先,是更蛮横的绝对优先)。

白: 我还是觉得优先级初一十五不一样的时候一定会发生,而且统计会在这里派上用处。

李:一切是数据制导,开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义,恰好就落在了原来的伪歧义的区间里面。这时候,虽然有n条规则都产生了 local parses,他们之间没有优先,那就随机选取好了,因为他们之间其实没有核心 semantic 的区别价值(尽管在表达层面可能有细微区别,hence 伪歧义)。换句话说,真歧义,归优先级别控制,是数据制导的、intuitive 的。关涉伪歧义困扰的,则变成随机选取。这一切是如此自然,以至于用FSA做parsing的从业者根本就没有真正意识到这种事情可能成为困扰。关于初一15的问题,以及白老师的具体实例,等到我们简单阐释第二节多层之间的伪歧义的应对以后,可以演示。

第二章第二节,多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义,不外是围追堵截,这样的应对策略在开发过程中也是自然的、intuitive 的,数据制导,顺风顺水。围追堵截从多层上讲,可以在前,也可以在后。在前的是,先扫掉例外,再用通则。在后的是先做默认,然后再做修补(改正、patching)。道理都是一样的,就是处理好个性和共性的关系。如果系统再考究一点,还可以在个性中调用共性,这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识,甚至常识(根据应用需要),共性里面就是句法模型之间的变式。

好,理论上的阐释就到此了,接下去可以看实例,接点地气。白老师,你要从哪个实例说起?我要求实例,加问题的解释。

白: “中国和美国的经济”。这就是我说的初一十五不一样。

李:这是真的结构歧义,Conjoin (联合结构)歧义 。在语言外知识没带入前,就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义,其他的还有 “的”字结构的歧义。这些歧义在句法层无解,纯粹的句法应该是允许二者的共存(输出 non-deterministic parses),理论上如此。句法的目标只是区分出这是(真)歧义(而这一点在不受伪歧义困扰的多层系统中不难),然后由语义模块来消歧。理论上,句法和语义/知识是这么分工的。但是实践中,我们是把零散的语义和知识暗渡陈仓地代入句法,以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

李:缺省优先由“大数据”定,原则上。统计可以提供启发(heuristics)。

白: 有次范畴就能做出缺省优先。不需要数据。

李:当然。次范畴就是小规则,小规则优先于大规则。语言规则中,大类的规则(POS-based rules)最粗线条,是默认规则,不涉及具体的次范畴(广义的subcat)。subcat based 的其次。sub-subcat 再其次。一路下推,可以到利用直接量(词驱动)的规则,那是最优先最具体的,包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的,就联合结构而言。但是,about 次范畴,理论上有太多的层。

李:那是,联合结构消歧中的次范畴不是很好用,因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet,里面的 taxonomy 可以很深,统统用来作为次范畴,不太现实。但理论上是这样使用的。

白: 再一个,“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗?

李:上例的问题和难点,白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象?

白: 上例是处理深度的问题,各自理解即可。歧义叠加,只有更加歧义了。可是实际相反,叠加限制了歧义。

李:在分层处理中,我们是这样做的:

(1)Basic NP, 最基本NP层的结果是:NP【张三】 的 NP【女儿】 和 NP【李四】 的NP【儿子】 的 NP【婚事】

(2)Basic XandY, 最基本的联合结构层:在这个层次,如果条件宽,就可能发生联合错误,错把 【女儿 和 李四】 联合起来。这个条件可以是 HUMAN,二者都符合。而且在 95% 的现象中,这个条件是合适的。如果条件严的话,譬如用 RELATIVES 这个语义次范畴(HUMAN的下位概念),而不是 HUMAN 来限定的话,这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢,这实际上决定于设定的目标,没有一定之规。做细总是可以做到更好质量,大不了多加几层 NP 和 XandY 的模块(FSAs),但还是增加了开发和维护的负担。如果做粗一点,只要所造成的 parsing 质量上的后果能控制在应用可接受的范围,那也未尝不可,因为说到底,世界上没有完美的系统。上帝允许人类的不完美。

白: 把这个换成“AB的中点与AC的中点的连线”?同样的结构。

李:另一个思路,就是多层协调中的修补。对于上述两个例子,修补的办法似乎更好。与其分多层,代入各种繁琐的语义条件来消歧,不如任他出错,然后根据pattern的平行因素加以修正。在多层系统中,这个常常是有效的策略,也符合开发的总体规划。先把系统大体弄得work了,可以对付多数现象,然后有时间和余力了,后面可以 patching。前提是,错误是 consistent 和 predictable 的。对于多层管式系统(pipeline system),错误并不可怕,只要这种错误 consistent 有迹可循,后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation(错误放大)的难题。其实,多层系统也可以做到负负得正(矫枉过正是也)。一个好的系统设计,是后者,通过 data-driven,可以做到把错误放大控制到最低限度,并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行,太细则边际效益大减。

李:上例中 “中点与AC” 可以联合,不过是一个暂时的内部错误而已,后面可以修正。总之,这些都不是根本的 challenge,想做就可以做,实际操作上,也可以选择不做。问题大了,就做;用户发飙了,就做;否则就无视。很少有歧义是做不出来的,功夫和细节而已。最终决定于值得不值得花这份力气,有没有这样的开发时间和资源。

白: 做与不做,有可能影响架构选择。补丁有好处也有后遗症。

李:NLP 可以做一辈子,在基本机制(优先机制,修正机制,范畴、次范畴机制,专家词典等)由平台实现提供以后,慢慢磨到最后就是 diminishing return,与爬山类似,这决定了我们何时罢手。如果85%的精度作为parsing的目标,那么系统会选择不做一些稀有的现象。有了这个 85%,已经可以满足很多应用的要求了。

有了 85% 做底, 还可以让机器变得智能起来,自动地自我提高,所谓 self-learning,这是研究课题了,但是是可以实现的。实际上在我指导的实习生实验中已经实现,不过就是在线开销太大而已。

白: 再看“馒头吃光了”?

李:这个例子更容易讲清楚。在系统的某一层,可以有个规则 把某种 “V+光" parse 成为动补结构,这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

李:好,这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例,譬如,“黑洞吃光了”, 那么或者修正它,或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则,如果需要的话。至于这么做值得不值得,那是应用层面的决定。很多时候是不必要的。错了就错了,不过是显得系统缺乏专家的知识,so what?我们普罗 native speakers 也都不是每一行的专家,也并不是每句话都听懂,不也一样没觉得交流困难。就此例来说,决定于听者的知识面,小学生和文盲一般不能正确 parse 理解 “黑洞吃光” 的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要,那是语言内的句法知识(最多说是句法子范畴或小规则,但不涉及专业知识),是所有国人的默认理解。

白: 这一点非常重要。一个开放,一个封闭。一个外部,一个内部。外部的事儿,就算没有专业知识,也可以大数据招呼。

李:今天似乎可以结束了,说到底,就是:

一,平台需要提供一些基本机制来处理共性与个性的关系,从而应对歧义,这些在 FSA formalism 的教科书定义中可能不存在,或被忽略,但却是实用系统不可或缺的。

二,NLP 的确是个力气活,有无限的可能深入。当然,我们可以选择不深入,可以选择何时罢手。

至于大数据招呼,那个在前述的自学习上也必须用到。我们教授机器做到 85%,大数据基础的自学习可以让它自行提高到 90%,这个是部分证实了的,可惜还没有发表出来,以前说过,懒得成文。都骨灰级老革命了,谁在乎那个。我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。

这次神侃算不算基本回答了疑惑,可以得出“伪歧义在多层系统中不是困扰”这个结论?

白: @wei 是,非常感谢。

李:不过,我们一方面实用制导,一方面没有忘记基本面和大局。与纯粹的实用主义,头痛医头,脚痛医脚,还是不同。这种积一辈子挖煤的经验之谈,正式论文中罕见,也算一件功德。难得的是白老师还有雷司令身为主流精英,居然能一开始就高于主流,不排斥异端或少数派。所以上次上海聚会,我就说,火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。但我知道也有很多统计死硬派,甚至大牛,是不尿这壶的。

白: 只要聚焦于深层,一定会殊途同归。RNN记在统计账上,但已经是深层了。

可以再关心一下NLP的商业模式,怎么能讲一个好故事。我们说fsa也好分层也好,资本都是不感冒的。

李:滑稽的是发现有些死硬派做了n年NLP,却真地不懂语言学,有个别大牛连常识都不懂,让人跌破眼镜。当然这个只能内部说说,不能博客的。所以往往是互相地不尿对方那一壶,与宗教之战类似。

RNN 我不敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何,我不知道。可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来,也殊途同归。

李:其实 多层 FSAs 本质上就是 ngram 的花样,不过 gram 不再仅仅是词了,而是等于或大于词的句素。能以动态句素作为 ngram 的对象,是因为多层的原因,跟剥笋子一样,层层扒皮,gram 当然就是动态的了。这一点很关键,是乔姆斯基都没想到的 power。

白: 对,边扫描边归约,边抛出句素。

李:这里面最 tricky 的不是机制而是细节。魔鬼在细节,就是指的这个。FSA 是“古老”简单的机制了,细节就是玩平衡,玩模块之间的协调。玩得好的就好比中餐的大厨,可以做出满汉全席来,玩不好的还不如麦当劳、keywords。到这一步,经验因素开始起作用。没碰过n次壁,甚至几万小时的炼狱,这个火候掌握不好。这类系统很难做得表面上漂亮光洁,总是在混沌中前行,要忍受不完美。这方面的忍受,数学家不如语言学家。数学家天生追求简洁完美,不愿意将就。

白: 句素的个头大,影响范围就大,相当于抛得就远。可以进入远距离的滑动窗口,伟哥说的Ngram的缺点就不存在了。

dirty是必然的。

李:ngram 的缺点是主流的缺点,不是语言多层派的缺点。恰好相反, ngram 多层以后,很容易比任何 CFG 做得细致深入,以至于,想怎么深入就怎么深入, 如果持续开发的话。

CFG 那套单层范式,无论统计模型还是传统文法加以实现,真地深入不下去,是框框决定的。两边都玩过,这种对比太强烈了。我对我的博导说过, HPSG 真地不好用,那边费那么大劲的事儿,在我这儿是小菜。说拿的是牛刀,可对象不是牛,而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表(相当于语言的head中心词)之间发生全局相互作用的地方。真是神了。

李:今天到此,特别谢谢白老师的互动和精彩的及时点评。

原载:
科学网—泥沙龙笔记:真伪结构歧义的对策(1/2) 
骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【相关】

乔姆斯基批判

【立委科普:管式系统是错误放大还是负负得正?】

关于NLP方法论以及两条路线之争

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【白硕 – 打回原形】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1053411.html

上一篇:【立委随笔:听喜马拉雅老罗侃人工智能】
下一篇:【李白之42:谈谈工具格的语言形式】

【李白之31:绕弯可以,弯不过三】 屏蔽留存

【李白之31:绕弯可以,弯不过三】

屏蔽已有 2467 次阅读 2017-2-19 10:19 |个人分类:立委科普|系统分类:科研笔记| parsing, 中文自动分析

白:
“一定要在他家里没有醒过味来的时侯把生米做成熟饭。”
 
我:
词典:加入成语 醒过味来:
 
白:
填坑严重不全的,要减分啊……
“在他家里”这个,貌似掉进就近结合的陷阱了。
 
我:
“在他家里”不是主要问题,那个可以补救。“在” 本来就是可有可无的 P。
 
白:
在 和 时候 的间距,被你这么一弄弄短了。
 
我:
间距短不是问题,小词配对的目的就是把关系厘清。达到目的了,间距无所谓。“在。。。家里” 与 “在。。。时候” 是两个“在”共享了一个syntax。
 
白:
“在他家里还没有察觉到这一层利害关系的时候把生米做成熟饭。”
 
我:
 
白:
也是辖域问题
 
我:
“在” 比较特别,是个万能介词。做了补救唤醒,主语还是恢复了。
 
白:
“他家+里”,做主语的可能性就太小了。要是能搞成“他+家里”,就不一样了。
 
我:
关键还是怎样处置合算的考量。
“在(PRP)家里” 脱离上下文的时候 就是一个扩展的合成词。处置成更多做状语的PP 还是更多做主语的NP 就是一个强盗的规定。事实上目前的处置 “(PRP)家里” 已经是主语状语兼容了,因为方位词结构在汉语的确是大多做状语 像PP,少部分做 NP,因为方位词本身是从名词变过来的。可是前面出现了一个 “在”,因此就几乎决定了其状语特性 很难翻盘了。这时候再带入辖域的考量,说这个 “在” 被 overloaded 了,不能光看就近原则,它可能不就近。然后就要在两股力量里面去权衡。第一股力量是就近原则的  “在+方谓词结构”,非常常见。第二股力量是 方位词结构去填主语的空,这个其实不常见,因为主语是经常省略的。然后指望一个 “精巧” 的系统能在上面两股力量的权衡中,恰到好处地拿捏分寸,达到人的具体情况具体对待的灵活性。这样的要求不大现实 而且极易弄巧成拙。因为里面绕弯太多了,而且都不是确定性的。系统不能做得太精巧,正如人不能太聪明,有过很多这个教训。绕弯可以,但弯不过三是基本原则。
 
“弯不过三”是我实践中总结出来的开发原则。这个弯就是规则之间的 dependency。理想的系统,规则之间是完全独立的,相互不牵扯,这叫做“规则与规则分开”:否则规则系统就容易成一团乱麻,宁肯冗余,也不要把规则搅合在一起。但是,实践中,我们其实做不到完全的规则独立,分层处置的本身就已经隐含了某些规则之间的依赖关系(dependency):某些规则是 assume 另一些规则做了某事以后才有意义的。这时候,设计开发系统的时候,就需要一个原则性的掌控,那就是“弯不过三”。意思是说,相互牵扯的规则最多可以有三层,多于三层的,就违反原则了,容易造成系统的不鲁棒,最好不要到三层: a 依赖 b,b 依赖  c,这就已经危险了。c 如果 还指望 d 那就超出了系统逻辑链条可以承受的极限了。可以做出一个绕弯多于三层的系统,在某一个时候也调通它。但是这样的系统 几乎不可维护。弯不过三是针对具体规则而言的原则,并不是说 作为一个规则系统,只能做三层,那就太局限了。事实上 规则系统整体绕弯可以多达百层。至少几十层是常见的,那么在几十层的分层处理中,这个弯不过三的原则一定要坚守。模块之间总体的依赖不在此列,譬如做 PP 要求基本 NP 已经就位,做 VP (包括动宾、双宾、宾补等各种 subcat patterns)要求基本的 XP (NP,AP,PP,VG)等短语都已经形成,做主谓要求VP结构已经解析,等。
 
白:
为什么我的眼中昨天的把字句辖域和今天的在字句辖域是同一个问题?
 
我:
因为你是从一个角度看,确实是同类问题。我说的不是辖域,辖域只是 弯不过三原则中的一个弯而已。如果这个弯与其他弯的交错中,造成了违背原则的危险,就要舍弃这个弯。
 
白:
都是介词跨定语从句,而且也可以规定跨不过三,那样的话同一个问题就可以在同一个框架下解决。
 
我:
你就是要说,有很强的可能应该: 家里还没有察觉到 --》 SVO,来让出那个 “在” 去找远距离的搭配。第一,“还没有察觉到”对主语的要求没有那么强烈。主语省略太常见了,以至于人类创造了显式和隐式的被动句。
 
“在还没有察觉到这一层利害关系的时候把生米做成熟饭”
 
上句没有主语,一样很顺:“还没有察觉到这一层利害关系的时候”。第二,“在 。。。里” 作状语,是压倒多数。甚至 “在 。。。家里” 也是压倒多数。这个是我毛姑姑 但八九不离十,可以统计验证的。第三 “在” 恰好遇到辖域的远近距离的歧义的情形,就是你现在关注的这个现象,其实没有那么普遍。这个也是我的毛姑姑,也许可以统计推翻。即便就这个辖域现象本身而论,远距离辖域控制 多于 就近原则的可能性有多大?感觉不超过一半。
 
白:
定语从句中,本来就有缺项,主语再省略就有点过了。所以,正常主句中主语省略状语强化占优我认,但定语从句中应该是主语填全状语弱化占优。
 
我:
听起来有理,但照你这些说法做,总觉得走偏的危险大。
 
白:
顺手而已
 
我:
感觉是属于过分聪明的思路。你又增加了一个维度: 主句 vs 从句。而且用 “占优”  这样的不确定性的平衡。说来归齐,主语和状语弄错了 有什么大后果么?
 
白:
填坑角度,这都是应有之义,根本就不用加维度。
 
我:
其实主语宾语弄错了 都没啥后果。因为主语、状语和宾语都是姐妹节点,都与 parent 有直接亲属的关系。弄错了,对于 IE 抽取,没啥影响(对于 MT 可能有些影响)。这是从语用考量。
 
白:
不是的,他家+里,没有这个意思。
抽不出来。
 
我:
从句法考量,就是一种关系弄错了,多大程度上影响其他部分的 parsing。如果影响小,就无所谓。在上面的例子中,是没有影响。第三个考量就是,弄错了,真要翻盘,可以不可以,就当是休眠了,可以唤醒不?当然可以唤醒,都是儿女,不过是标签有误,要翻等句法完成以后也可以翻。我不把句法看成是最终的语义理解,更多是把它看成桥梁和标配的语义理解。作为桥梁,有了架子,怎么改都可以,因为句型清晰了。作为标配,翻盘自然也是可以的。
怎么抽不出来?那么 “难过” 是怎么抽出来的?不能因为 “难过” 不是 “难/过”,于是作为非情感的后者就抽取不了?一样可以抽取,抽取出来说,标配错了,这个不是 sad 的情绪(emotion),这个是客观的困难(negative behaviour), 虽然都是负面的东西,情报上我们是当作不同的情报来抽取的。后者是 actionable insight,前者不过是情绪而已。
 
白:
翻盘多了,线速就是个笑话。
 
我:
QUOTE: Countless lessons learned over the years in the NLP system development show that a robust real life system should not be too sophisticated just as man should not be too smart.  As a rule of thumb,  anything involving more than 3 levels of dependency is too delicate.  You can "make" it work today, but it will break some day.
 
基本上如此。
 
翻盘是聚焦以后的动作,都到了雷达上了,还有什么可以影响线速?长尾在语用层面成为短尾了。这个以前论过。指望句法做长尾是劳民伤财,吃力不讨好。句法对长尾能有一个相对 “合理” 的安置,就已经很尽心了。譬如 都是 children,但是主宾有错位。其实,宾语很少错,主语有逻辑宾语的可能,不过是多了一种可能而已,对于语用是小菜,谈不上影响线速。譬如 我有一条语用规则要查宾语,instead of 查宾语,我不过就是查一下 “宾语 OR 主语” 而已。这个怎么可能影响速度?搜索空间没有任何实质变化。
 

http://blog.sciencenet.cn/blog-362400-1034561.html

上一篇:【语义计算:汉语语序自由度再辩】
下一篇:科普一下条纹码二维码的历史

 

3  吉宗祥 xiyouxiyou xlsd

发表评论评论 (1 个评论)

删除 |赞[1]mirrorliwei   2017-2-19 12:17
“绕弯可以,但弯不过三是基本原则”有普适性。在理工科的设计中,用同样技术手段的重叠使用一般不过3次。比如说电磁铁里加电磁铁的线圈,提升磁场强度;再比如3级火箭的设计,都是这样的事例。因为背后都有一个效果递减的法则在起作用。

【语义计算:领域专家是 AI 的未来】 屏蔽留存

【语义计算:领域专家是 AI 的未来】

屏蔽已有 2297 次阅读 2017-3-7 03:26 |个人分类:立委科普|系统分类:科研笔记| 人工智能, 领域专家

Feng:
近来一些语言学泰斗提出汉语没有主谓结构的观点,轰动一时,我等做nlp的人怎么办?

Bai:
有无主谓无所谓,有坑就灵。名分的事,NLP不介入也不会损失什么。

Wang:
支持白老师的观点

Bai:
“这本书我只读了第一章。”
反正首先要回答“我、这本书、第一章、读”之间谁跟谁有关系(可以先不问是什么关系)。能答对的理论就比不能答对的理论强。我、这本书、第一章,都跟读有关系。这本书和第一章有关系。怎么起名,其实无所谓。

Dong:
“汉语没有主谓结构”,其实本来应该由nlp学者提出的。其实nlp界早有人对词类、词性标注、树库提出过挑战。然而,人微言轻,更何况语言学界的那种学术民主、平等观念的淡薄,阻碍了学术的发展。

Feng:
振东意见高明。

Feng:
语言学家不关心nlp的研究,但是又想指导nlp的研究。这是很遗憾的?

Liang:
NLP 由数学家研究比较好,也许。思路不一样。语言学家描述,language-as-we-know-it. 老乔的思路其实挺好的,什么样的机制能够生成语言。语言是怎样 emerge 出来的。白老师的“萝卜-坑理论”挺好的,挺简单,动词、形容词、一价二价名词是坑,专有名词都是萝卜。

Me:
语言学家不是不关心 是没法关心。不懂怎么关心?只好无视。各种跨学科的事儿 有很多,但像 nlp 这样的跨学科还是比较特别。特别就特别在 两边大都不懂,互相不认账 互相无视。 就是这样。

Bai:
小心有人躺枪~

Feng:
nlp是在深层次上跨学科,需要进行更新知识的再学习。

Me:
就是。即便做nlp的 互相不懂也不为少数。更不要指望纯粹的语言学家(人称文傻)去懂了,也不要指望精算师(统计学家、数学家,人称理呆)去懂语言学了。隔行如隔山,同行也隔山。没办法,术业有专攻。

Jiang:
太互相不懂了!

Liang:
这很正常。思路不一样。

Jiang:
嗯!亲身工作体验很重要。

Me:  
冤家,属于人类学者的 spectrum 中的两极,两种不同的材料制造出来的人。不懂居多是常态;两边都懂属少数。两边懂得又深又透的,可尊为国宝,比大熊猫还稀罕。

Liang:
快灭绝了?

Me:
所处的层面不一样。

肯定有躺枪了。至少显得后继无人 不信问白老师。好在白老师桃李满天下,保不定出息几个出来。但大环境在那儿。大环境不利于跨学科相互了解和融入。

Bai:
我觉得微观上从语言学获得了许多营养,宏观上欠语言学一个理论创新。

Me:
我们这种半瓶水只能羡慕嫉妒了。燕雀仰慕鸿鹄之志。

有意思的是,nlp 回归语言学 是大势所趋。其实 整个 ai 都有回归的趋势。未来的 ai 是领域专家的天下。

Bai:
烈火过后看出来什么是真金

Me:
现在做nlp平台的少数贵族,做 ai 平台的极少数大神,都已经看到了,平台出来是给领域专家施展的,而不是给精算师的。高明的平台创造种种条件,让领域专家有最大的决策和施展的空间。

精算师将来只有两条路,要不升格为贵族,要不降格为机器人。想做领域专家也是一条路 可底子不行 又放不下身段 基本走不通。

Bai:
nlp称不上平台,引擎差不多

Me:
nlp 有平台的一面。当然 可以说 ai 平台涵盖了 nlp 平台,不过毛毛虫机制(formalism)的探索,现有的ai平台貌似不能完全涵盖。

我们所处的时代恰好是领域专家被歧视的时代。主流把领域专家看成资料员,或负担,不是一日两日了,是整整一代,有一代的断层。但大趋势是,领域专家在下一个时代会成为香饽饽,他们是 ai 的主力和实施的关键,质量的保证。对于可能降格为机器人的平台维护人员,领域专家是他们的客户,他们的上帝。一切为领域专家服务。

这不是乌托邦的图景,是有相当明显迹象的趋势。其实在小范围内,这也是一种已经实现过的模式。过去18年在我建立的环境中,基本就是采这种模式。语言学家团队属于领域专家,一直被伺候着。一个很深的体会是,领域专家中有两类,一类是可以培训出来,具有某种 engineering sense,因此可以适应这种 AI 模式。也有领域专家就是不入,虽然领域素养很深厚,但就是与 AI 无缘。

【相关】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【NLP主流的傲慢与偏见】

【NLP主流的反思:Church – 钟摆摆得太远(1)】

【Church – 钟摆摆得太远(5):现状与结论】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1037947.html

上一篇:【立委兄:加拿大东部枫叶游(6/11)】
下一篇:【立委兄:尼亚加拉大瀑布游记】

【李白之22:兼语式的处置及其结构表达】 屏蔽留存

【李白之22:兼语式的处置及其结构表达】

屏蔽已有 1833 次阅读 2017-1-21 16:26 |个人分类:立委科普|系统分类:科研笔记| 自动分析, 兼语式, 宾语补足语, 汉语NLP

白:
hownet坑的供给比较充分,但是也很难说一定不会超出上限。(董老师可以试试“这场火多亏消防队来得及时”)

有很多其他类型,比如,“穿着拖鞋就走出来了”。不知道该贴啥标签。还有“撸起袖子加油干”。这两个例子中,在时间上,伴随行为本身在前,伴随行为的遗留状态持续时段包含核心行为持续时段。比如,撸袖子的动作在前,然后遗留状态持续,然后加油干持续,然后加油干结束(或有),然后放下袖子(或有)。

我:
with sentiment:

at least for semantic landing to sentiment, the parse gives decent support。

宋:
O和ObjV是什么关系?

我:
宾语和宾语补足语

白:
比如:知道你来了。你是O,来了是objV

我:
not really

宋:
@wei 你的论元关系分析,相当炉火纯青了。

我:
宋老师果酱。

白:
这俩的区别?“消防队来得及时”为啥不可以是objClause?

我:
“多亏” 直接 link “消防队”,“知道” 不直接 link “你”,only linking to the event

白:
我是问,是否直接link,准则是什么?有什么必要区分这两者?

我:
语言学家的多数有共识。词典subcats 印象也是区分的,落地时候也发现有益。

白:
但很多研究汉语语法的人并不认为汉语有“宾语补足语”的。准则是什么呢?一词一议?
sentiment传递?
“我讨厌他总出差”
这里的“总出差”成了objV,“他”是O。“讨厌”的负面属性可以传递给O,是吗?如果这样,O必须是objV的逻辑S,否则,“我讨厌花摆在阳台上(,掉下来砸到人怎么办?)”
里面的“花”就要受牵连了。

我:
对。

我讨厌ipod
我讨厌iPod老死机
我讨厌花儿
我讨厌花儿老养不活

这事儿真细究的话,属于 subcats 同形打架:带 clause 的句型与带宾补的句型。

白:
“我喜欢厕所门朝北开”
问题是要给宾补一个存在的理由。理由不存在,打架就不存在了。

我:
几乎所有的汉语文法(英语文法亦大同小异)都区别下面三种句型:(1)动宾式;(2)兼语式;(3)宾语从句式。动+宾+宾补的 representation 反映的是兼语式句型。兼语是一种简省的说法,不是一个单纯的(atomic)的关系成分标签。兼语说的是既当V1的宾语又当V2的主语。表面上看,只要我们连上了 O,也连上了 S,所谓的宾补V2 也就间接连上了 V1,因此 把 V2 直接联系上 V1 作为宾补似乎没有必要。问题是,那样的 representation 不能表达 V2 在结构configuration上是低于 V1 的。事实上,这是一个典型的 right branching recursion,V2 是一个 VP(V-bar according to X-bar theory),V1 只是一个 lexical V (V no bar),V2 代表的 VP 整体都是包含在 V1 所辖的边界内。帮助 V1 构成一个更大的 VP。V2 的 VP 也可以是一个兼语式 (递归)。

白:
对。兼语句前后句的坑共享没有疑问。有疑问的是后句不必是前句的objV。在能清晰表达坑共享的前提下,V2有必要成为V1的直接成分吗?如果是,那就做小句宾。如果不是,就是松散的两个谓词做兼语式。为什么要弄出个第三条道路?

我:
小句宾 与 兼语式 有相同的地方,有不同的地方,也有灰色地带。

白:
我知道你来。我喜欢你来。
这是一样的结构。

我:
不能拿灰色说事儿。“得悉”,只能带小句,不能带兼语,这是黑白分明的 case。

得悉你来
* 得悉你

灰色地带最突出的案例在英语的 minimal pair:

I demand him to leave immediately.
I demand that he leave immediately.

白:
这是生成时才用得到的区别,分析时可忽略。

我:
英语句法上泾渭分明的两个句型,在逻辑语义深层其实是大同小异的,很灰色。

白:
汉语里没必要弄出第三条道路

我:
不一定只有生成才需要区分。语义落地也可能得益。如果没有宾补的直接联系,我问 O,就不能区分单纯的 O 和带宾补的 O,如果所有的兼语都变成 宾语小句。

白:
我派你去,就是“我派你”“你去”不需要让“去”从属于“派”。
或者说,“派”不需要给“去”预留一个坑。

我:
那就切断了动词 V1 与兼语的直接联系。必须通过 V2 才能间接联系到兼语。

白:
错,萝卜共享就是联系

我:
有时候我们不在乎是 宾语 还是 兼语,我们就没办法用同一个子树句型做抽取。譬如,“多亏”:

多亏老李。
多亏老李送我回来。

这两句要找感谢的对象,就无需区分 宾语和兼语。

白:
这没什么不好。多亏我处理成副词。“多亏了”也是一个副词

我:
如果第一句是 VO 第二句是 V+Clause,就必须用两个句型才能捕捉。

白:
多亏老李,是副词升格为动词。

我:
关键是,有时候我们需要区分宾语和兼语,有时候我们不要区分,为了同时照顾这两种需要,把兼语处理成子句是不妥的。

白:
可以不从句法上区分,而从词典来区分。

我:
退一万步,多一个宾补的直接联系,只有好处,没有坏处。

白:
我的处理是要么包进来要么切断。多了歧义打架需要处理,而这本来可以是伪歧义。

我:
是真歧义,那就该处理。是伪歧义,也可以硬走一线,系统内是可以保持一致性的。你这里所谓伪歧义的情形实际是灰色地带,或两可地带,系统内部可以规定走哪一线,内部协调即可。伪歧义的真正困扰是系统无法区分,随机走路径。如果有办法确定性地走一条路径,理论上的伪歧义在实践中就化解了。传统 parser 的伪歧义困扰是,伪歧义与真歧义混淆在一起,使得真歧义无法现身。这里的情形不是。

白:
中间没有N的,也有助动词和补语两种可能性。助动词带的谓宾真包进来,补语我处理成共享萝卜的对等合并,与所谓核心动词并无隶属关系。只不过形式上把根让渡给前面核心动词而已。
看看前面的例子,“我喜欢厕所朝北开门”,什么特征决定了“厕所朝北开门”是小句宾?

我:
不好说。
假如有一家厕所公司专门建厕所,就好像苹果公司造 iPhone 一样,“喜欢厕所朝北开门” 与 “喜欢iPhone照相清晰” 有什么根本区别?再如,“喜欢厕所清洁卫生”。

与其花力气区分灰色地带的兼语 from 子句,不如一条路走到黑,对灰色的那些词规定一条路径。到落地的时候,如果需要,再进一步 fine-tune 来决定。如果是 sentiment 落地,就可以这样来 fine-tune:“喜欢”的兼语必须是产品或其他实体专名,才可以让其得到 positive sentiment,这是从严的 fine tuning。从宽的 fine-tuning 可以要求兼语不能是带有贬义色彩的名词,assuming “厕所”是这种类别。但是这种 fine-tuning 的拿捏,只对做“兼语”的名词需要,如果“喜欢”所带的不是兼语,而是纯粹的名词宾语,那么不管宾语是王八蛋还是杀人犯,喜欢的 positive sentiment 还是落在宾语身上。

当年的德国,很多人喜欢甚至崇拜希特勒。” 对于希特勒,这是 positive sentiment。但是,cf:

我喜欢希特勒被处以绞刑,而不是自杀身亡,逃避人民的审判。

这句中的“喜欢”,对于 希特勒 就不是 positive sentiment,因为 parser 把希特勒parse成有宾补的O(即兼语),而不是纯粹的 O

白:
喜欢厕所朝北开门 与 喜欢iPhone照相清晰 有什么根本区别?---这话也是我想说的,但我认为它们都是小句宾句式,与兼语无关。

我:
我要说的是,对于这样的 cases,要不一律处理成兼语。要不一律处理成小句宾语,只要 consistent 即可。

白:
希特勒那句,也是小句宾,没兼语什么事儿
什么情况下sentiment可以穿透到下面一层的成分,不是由句法决定,而是由另外因素决定。

我:
“我喜欢少年希特勒努力发奋。” 这句呢,也是小句?

白:

我:
我要说的是,对于有灰色地带的那些词和句型,可以人为规定一条路径。
区分:“我喜欢少年希特勒努力发奋” 和 “我喜欢老年希特勒被处绞刑”,一个是对“希特勒”是褒义,一个不是。

白:
褒义针对整体,是否传导到部分,it depends, 针对整体都是褒义。

我:
说的是部分。我喜欢【human】和 我喜欢【human】VP,对于这个 human,默认是褒义的。

白:
要区分的只是能传导到部分的褒义和不能传导到部分的褒义。我喜欢【human】vp 是天经地义的,喜不喜欢其中的【human】,不由句法决定。
在我这里不默认。而且默认sentiment设定,和搞出一个句法类别,也是两回事。

我:
默认有很多便利。偷懒的时候,默认在统计上对数据质量有好处。默认这东西,不用白不用,尤其是从工程和实用上考量。我目前的 喜欢 的 sentiment 规则,不论中文英文,都是走默认的道路:管它后面的 NP 带不带 VP,只要 NP 是 entity,就默认是 positive 落地了。这个 practice 在实践中有莫大的好处。“喜欢厕所VP” 和 “喜欢希特勒 VP” 这样的例外极其罕见,以致于根本不必在默认之外再费力气去区分。

白:
充其量是个heuristic

我喜欢张老师讲古代史,不喜欢张老师讲现代史

我:
这个不是反例,前半句是 褒,后半句是 贬,都落地到 张老师身上。

白:
加分减分都没问题。问题是逻辑推论有没有。喜欢张老师和不喜欢张老师如果都是逻辑推论就有问题。讲逻辑的人是分得很清楚的,喜欢,对事不对人。sentiment也是很清楚的,一个给张老师加分,一个给张老师减分。但是确实没有“喜欢张老师”和“不喜欢张老师”这两个逻辑推论。

我:
回到原来的 arguments,如果 (1)我喜欢张老师;与 (2)我喜欢张老师讲古代史,是两个不同的 parses,sentiment 落地的时候,就必须有两个规则来对付这两个不同的结构

白:
这个很难吗?我不觉得。爱屋及乌,爱小句及小句逻辑主。一句话的事情.

我:
天下无难事。
但是,对于如此基本而普遍的 sentiment 的表达(love类 和 hate 类),本来可以直接搞定,非要绕一个弯儿再搞定。本来一组规则,非要增加一倍的工作量去写规则,去维护,这是很不合算的。

即便不谈 sentiment 这个具体的落地应用,抽象来说策略,这个争论的本质就是:两个句型有相同的部分,有不同的部分,如何处理?其实没有普世标准,就是系统内的一致性和方便性,系统内协调。

白:
不是这样的,就是一个sentiment penetration属性赋值yes还是no的问题,直接写在相关动词的词典里。其他都不受影响。标配赋值no,需要设yes的明示。

我:
我喜欢他。
我喜欢他老实。
我喜欢他做好事。

换一个角度看,第一句和第二、三句在“我喜欢他”这个部分是一样的。后面的 AP 和 VP 也可以看成是喜欢的某个部分或方面(aspect)(或理由),这个角度是先对人后对事儿。与你的“喜欢”应该对事不对人,或由事及人,是类似的逻辑性。即便我说“我喜欢X”,常识告诉我们,世界上没有完美的X。“喜欢X” 后面隐藏着后面的 likable aspects,X 与 aspects 是整体与部分的关系。

白:
我喜欢他,我喜欢他老实,我喜欢他的老实。VS
我喜欢这本书,我喜欢这本书出版,我喜欢这本书的出版。

也就我们这种领域,讨论一个语言学概念的立和废,也要扯上系统甚至应用。

我:
是从部分的角度来推及整体,还是从整体的角度推及部分,不过是角度不同。

白:
如果一个arg,是这样。角度不同。两个坑就未必了。

我:
就好比半瓶水,一个角度看到了半瓶水,另一个角度看到了半瓶空气,都是有效的逻辑。

白:
我喜欢这本书出版,和我喜欢这本书,不是延展后者的关系。我们还可以说,我喜欢这本书春节后再出版。喜欢的重点既不在书也不在出版,而是在出版的时间。可以既不喜欢书,也不喜欢出版,只是对那个出版时间情有独钟。一个坏人干了件好事,我们总可以喜欢那件好事吧。不需要扯上喜欢坏人。

白:
一个出版商可能对某本书恶心到吐,但是那本书的出版可以帮他赚大钱。他喜欢“那本书出版”但不喜欢“那本书”也是情理之中的。heuristic可以进入系统,但进入语言学是否合适要画个问号。进入系统也有“诛心”之嫌。喜欢坏人干的某件好事,被当成支持坏人的证据,这样的系统大家都要当心了。

我:
喜欢坏人干的某件好事,被当成支持坏人的证据,在情感分析上没有错。在大数据分析的时候,点点滴滴皆证据。坏人干了好事儿,只要被提到,就给这个坏人加了一分(褒)。这一点儿也不影响对于这个坏人的舆情分析全貌。恰恰相反,这才是真实的舆情。如果坏人干了好事儿被提及 n 次,坏人干了坏事儿提到了 m 次,纯粹厌恶坏人的情绪表达提到了 o 次,纯粹喜欢坏人的情绪表达提到了 p 次(p 通常接近零),那么这个坏人的褒贬指数,就是 (n+p) 与 (m+o) 的比例。请放心,p 基本是 0,而 n 也会远远小于 m,这个大众舆情不仅靠谱,而且真实,没有 bias。

宋:
我喜欢希特勒自杀。

我:
宋老师的这个例子前面已经论及。回顾一下就是:情感分析中,“喜欢”的默认规则的确可能把它算成是对“希特勒”的正面评价。因为这个默认规则是把宾语和兼语同等看待,不去问后面的宾补 VP。理论上,这个结构根本就不是【宾语+宾补】的结构,而是【宾语子句】的结构,但是由于区分二者对于“喜欢”这样的词,有一定的难度,所以我们可以在 parsing 阶段一律当成兼语结构处理和表达。这样一来,默认的sentiment规则就会犯错。

犯错怎么办?如果这种案例极其罕见,不值得做,那就算了,因为默认的sentiment规则在绝大多数的场合是保证了数据质量的。如果觉得还是值得做,那就在默认sentiment规则之上再做一条规则去 override 默认。这条规则不需要改变 parser,而是利用 parsing 在这类结构上的 consistency(错也错得可以预测) ,将错就错,矫枉过正,把这个错纠正过来。换句话说,这个策略等于是休眠唤醒,不过这个休眠唤醒不是在 parsing 的后期进行,而是在 sentiment 语义落地的时候进行,其效果等价于把【兼语式】重新分析为【宾语小句】,切断“喜欢”与“希特勒”的语义直接联系。

不知道我说清了没有。可能有人会问:既然在语义落地时候要做类似休眠唤醒的工作,为什么不索性在parsing里面(parsing的后期,语义模块)里面做休眠唤醒呢?理论上,提前做休眠唤醒,使得parsing更精准,可以benefit不仅仅这个 sentiment 的语义落地,还可以 benefit 其他的语义落地和应用的场合。但是,实践中在哪个阶段做合算,不是那么简单。因为休眠唤醒这些事儿大多是长尾现象,鸡零狗碎,做不胜做。在还不能确认到底有多少好处前,往往顾不过来在 parsing 中统一处理好。而且很多时候,做了也白做,你需要用到那个落地或那批落地也许根本就用不到。

Anyway,point is,落地的时候是可以包容 parsing 的错误和不足做包容性产品开发(adaptive dev),只要 parsing 是可预测的数据结构,是有内部直通车的,而不是 offshelf  拿来的 parser,缺乏足够的内部支持和协调。Having said that,如果确实事先可以 identify 一些带有普遍性的休眠唤醒现象,以及可以惠及很多可能的语义落地应用,而且也有足够的时间和资源去做这些细线条的深度语义工作,那么不要等到落地就在提前在 deep parser 的语义模块里面做好,当然是更理想的情况。

白:
对坏人的褒贬判断,对事不对人自然左右不了大局,没什么可担心的。问题是拿对事不对人的表述做以坏人为参照的站队分析,这就很可怕了。

我:
可怕啥?或者就是大海里的一颗老鼠屎,丝毫没有影响。或者就是,用休眠唤醒杜绝它(它=“拿对事不对人的表述做以坏人为参照的站队分析”)。休眠唤醒之所以可以进行,是因为 parser,已经准备好了结构基础:要啥有啥,哪怕这个 parse 是不完善的。要 O 有 O,要 宾补 有 ObjV,要逻辑 S 有对于 V2 的逻辑 S,四通八达的路径都在。driving word “喜欢”也在,可以词驱动。所有的结构的节点词的信息,包括 ontology 都在,包括 “希特勒” 是个独裁者、通常是坏人这样的信息也都在。有了直通车,啥事儿做不成?什么案子不能翻?什么深度休眠不能唤醒?什么具有统计性的“可怕”的后果不可以杜绝?

白:
分析成小句宾,诛心或误伤的责任就不在分析器的开发者。而在后道工序。否则人家会说,都是你分析的我喜欢希特勒,我哪儿喜欢了?一颗老鼠屎,也那个。对于小句宾来说,没分析出我喜欢希特勒,这大不一样。但是小句宾结构与“喜欢”结合,大概率被穿透,这句话可以说,之后也是要啥有啥。谁用了谁负责,但分析器的开发者也没说错话。

我:
话说到这份上了,其实也没有多少进一步需要辩护各自做法的 arguments 了。选择这个兼语的表达,肯定不是因为明明知道处理成宾语小句更好,而不为之。一定是自有苦衷和盘算。

白:
我若干年前也用过这样的表达。最典型就是“我是县长派来的”,把其中的“来”也作为“派”的一个arg。后来发现,其实去掉它没什么损失。因为“派”和“来”共享了一个萝卜,所有联系都在里面了。

我:
隐约的感觉是,去掉它在逻辑语义深层没有损失,可能的损失是句法表层的痕迹(语法学界叫做 configuration info,就是 X-bar 理论里面的 bar 的信息)。

白:
这是有很多其他途径可以记录的

我:
留住它就是留下了这种 bar 的痕迹,就好比我们利用小词解构了实词之间的句法语义关系以后,我们并不把小词当敲门砖丢弃,而是用 X 挂上一样。虽然 理论上,这些小词对于深层语义已经没有意义。另一个例子是主动被动,到了逻辑语义的核心,这个 voice 的不同色彩,没有地位,可是语言分析中,留下表层的 voice 信息,还是可能对语义落地和应用有好处的。

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1029088.html

上一篇:【李白之21:萝卜多坑不够咋办】
下一篇:【语义计算:关于解析逻辑语义角色】

【一日一parsing:#自然语言理解太难了# 吗?】 屏蔽留存

【一日一parsing:#自然语言理解太难了# 吗?】

屏蔽已有 2429 次阅读 2017-2-7 00:44 |个人分类:立委科普|系统分类:科研笔记| NLP, 自动分析, 中文处理, NLU

白宫命令司法部申请紧急冻结今天华州政府在西雅图联邦法院申请到的总统冻结穆斯林七国入境EO的临时冻结令。
如果成功的话,临时冻结令将被紧急冻结令冻结,穆斯林七国入境继续冻结
#自然语言理解太难了#

wang:
李老师这是要把机器累吐血啊!
不太理解为何要和这类超长难句对上了。
以前只顾着忙着单句,对篇章理解终未敢有奢望。
恩,到时句法分析,感觉可以分成若干小句来分析也不错。
只要把前继跟准了,把大树搞成森林,由若干棵小树构成,而每个小树分析结果表达清晰准确。也是一种选择

我:
不是跟难句过不去,是 parse 着玩。现如今凡是遇到 “绝妙的中文”、,#自然语言理解太难了#  这类标题,就忍不住想,我 parse parse 会怎样呢。是一种类似于软件工程上 stress test 的心态,人说难,偏试试,看极限在哪里。哭笑不得的结果有之。喜出望外的也有,以为难仔细一想其实不难。总之都会有启发。不特意为这些 outliers 去动手术。不值当。

特别心烦意乱的时候,啥招都不管用,只有调系统可以安神。明知系统是个无底洞,以有涯对无涯。killing time,一点儿也不殆。

白:
“这些泡沫包装糟透了。”
“这些水果包装糟透了。”

我:

“泡沫包装”作为合成词词典化了。

白:
“这些学生宿舍都没回就一头扎进了图书馆。”

我:

第一句差强人意,层次纠缠。知道病源,不敢确定该不该修理。分层这事儿,你不能占尽了它的好处,一点不吃亏啊。主要是衡量亏的大小,值得不值得去打补丁或做高危微调的动作。观望。有时候需要时间和新的数据去驱动和决策开发和维修。

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1031986.html

上一篇:【李白之27:莫名其妙之妙,妙可道,妙不可言】
下一篇:【语义计算:耍一耍中文 SyntaxNet 和百度翻译】

 

1  张珑

【李白之28:“天就是这样被聊死的”】 屏蔽留存

【李白之28:“天就是这样被聊死的”】

屏蔽已有 2275 次阅读 2017-2-8 07:10 |个人分类:立委科普|系统分类:科研笔记| parsing, 自动分析, 休眠唤醒

白:
“天就是这样被聊死的。”

我:
说谁呢 ?

梁:
@wei ,I also admired your “层次纠缠“ comment.

我:
哦 那是刘少奇主义, 吃小亏占大便宜。真的,反单层parsing的传统潮流,悄悄地不知道占了多少便宜了,不吃点亏都觉得不好意思了

白:
“的”可以“买一送一”或者“卖一送一”。比如“卖火柴的小女孩”中,“小女孩”既可以作为整个定中结构的代表正常对外填坑,也可以“无偿”填定语从句内部“卖”的坑;“这本书的出版”既可以作为整个定中结构的代表正常对外填坑,也“无偿”对内接受定语部分“这本书”的填坑。“无偿”的意思是,一个括号配一个反方向括号后,对方消失了自己还在。多“饶”了一次匹配机会。现在从坑的角度看,最不情愿的一个处理就是把形容词的使动用法处理成一可选的坑。如果坑可以强制出来就好了。

我:
多一次匹配机会,就是一个儿子可以有两个老子,类似一个是生父,一个养父。对外填坑是句法的显性 dependency,对内无偿就是逻辑语义的隐性 dependency,中外皆然。“小女孩”就是如此,“小女孩”做“卖火柴”的【逻辑主语】。而“卖火柴”其实是“小女孩”的【定语】:让自己的显性的儿子去做自己的隐性的逻辑老子。到了谓词指称化就不同了,对外填坑不变,爱啥啥。对内的逻辑关系则反过来,自己的显性的句法定语儿子(adjunct),被用来填充为自己的隐性的逻辑儿子(argument)。“这本书” 做 “出版” 的逻辑宾语。与英语平行。

this book‘s publication;girl selling matches
? the sell-matches girl

白:
这两件事,被我统一成一件事了。

我:
统一的好处是?

白:
词典化,没有规则,只有词典和原则,一条原则管两头。到原则层面,只需要解决什么条件下谁提供bonus。

我:
一边是 NP , 一边是 V 或 VP。如果是 NP 的 V,V有坑,尽管 V 指称化了。那么 NP 就去填坑(宾语,或主语),如果是 VP 的 N,那么 VP 有主语的坑,N正好填。

白:
根本不看POS,只有买单和卖单。一对多的订单、一对一的订单、可以提供bonus的一对一订单。

我:
POS 也没啥,不过就是填坑中几百上千个可能的约束条件的一个而已。我要 Human 来填坑,与我要名词来填坑,对系统不过就是条件的宽窄不同而已。这是从填坑的角度看 POS。对于设坑的一方,当然无所谓 POS,V 也好 N 也好 A 也好,他们有没有坑,有几个坑,都可以认为是词典化的 subcat 规定的。都直接量(词)驱动了,自然就不谈 POS 了,因为 literal 永远比任何抽象信息量更足。

据说当年一个叫 Small 的人首创专家词典(Expert Lexicon),里面全部是词例化的规则,没有任何抽象规则,可以想象这样的系统在一个狭窄的 domain 里面的可行性。譬如 在天气预报的 domain 里。词条 “下雨”里面规定 要到左边去找 “老天”,到右边去找 “很猛、很急”,等等。

白:
肯定不是这样的。

我:
在一个小词汇表中 是可行的的 而且准确 有点组合爆炸而已。这是没有任何抽象的本义。一旦有抽象,哪怕是词例化,也必须引入 features,而不是直接量之间的交易了。lexical-POS 就是最简单的一个 feature。

白:
原则不看POS,matcher要看。但原则不放水,matcher就没有bonus给。

“张三这两条建议是关于修宿舍的。”

这里面,“建议”有两个坑,“张三”填了一个,然后这个词的“母体”填给“是”了,剩下一个坑成了没娘的孩子。后面当“关于修宿舍的”作为一个整体与“修宿舍”剩下的没娘孩子(human)不匹配的时候,匹配点会迁移到前一个没娘孩子(info,建议的内容)进行匹配。

我:

白:
这不是说,建议的内容就一定是“关于修宿舍”,万一“是”换成了“不是”呢?只是说,这一萝卜一坑,存在着语义类型上的关联。至于肯定否定,那是由围绕着谓词的修饰语决定的。

我:
肯定否定是另一层次的东西,无需牵扯进来。说到底就是 “建议” 有 Subcat,里面有 human agent,和 “关于 content” 的 PP 的规定。human S 连上了,【关于】的坑暂时没连上,但也不难。

白:
建议谁修宿舍,文本中找不到,作罢

“他死去多年的战友就埋葬在这里。”

“他”要憋着不参加后面的VP,直到被定语从句修饰的中心语露面,填入中心语所带的坑,才算了结。什么样的“过程性”控制策略能给出这个选择?

宋:
他死去多年,儿女都已经长大的战友埋葬在这里。

白:
嗯,其实谓词部分是收束的,只有谓词部分对外需要消解。所以,需要栈,但栈不必很深。栈和RNN是不矛盾的。栈顶元素可以作为输入的一部分,对栈的操作可以作为本轮输出的一部分。

我:
查一下后条件不就解决了?在主谓规则中 ,一个 np 与 一个 vp 不着急结为 s,往后查一下条件再决定。

没问后条件,错了。可以加上:

白:
往前看一个,只能做等待与否的决策,不能做结合与否的决策。等待就意味着要记忆某种东西。

我:
等待与否与决策与否,这里不是一个简单的答案。因为涉及两个问题:一个是“他死” 的主谓问题,一个是“死”做定语(兼“战友”的逻辑谓语)的问题。如果不考虑二者相交,第一个问题当成一个独立的问题,当然可以决策,不过是问合适的条件包括后条件而已。这样“他死”本来的主谓错误可以避免,但还是需要有人(“埋葬”)接盘。从相交的角度看,关键是定从句型的处置安放在何处合适的问题,定从解决好了,顺带也就解决了“他死”要不要就近连主谓的问题。涉及的句型也不那么复杂:

NP+VP+de+N

就是一个四元组。把上述句型在做主谓之前 fine-tune 到正好涵盖【定从】,问题就解决了。宋老师的句子是难一些,难在那个 VP 复杂化了,VP 实际是两个 VP 用逗号并列了(其实应该用顿号的,可国人把逗号当万金油,没办法)。这倒也罢,第二个谓语本身也是一个主谓结构:“儿女都已经长大”。“儿女长大” 与 “身体健康” 类似,都是那种句型紧凑的典型的【主谓谓语】。这类主谓只能有限扩展,跟通常主谓的自由度无法比,也因此可以考虑先行解决,给个标签,作为整体,它有一个逻辑主语的坑(通常是其前的 Topic 去填):实质上是对付一层的中心递归(center recursion)。总之是有些难缠,但并非无迹可寻,要做也可以做,考验的是细活。等低枝果实都摘差不多了,再去磨这个细活好了,现在不必。

白:

他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。第一个“那些”如果去掉:

?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。

好像不通了。或者说链条断开了。所以凌空开凿的坑无法填装远距离的“友元”。

我:
看样子这个 “那些” 是个关键的小词,应该善加利用:

human+那些+[human action] + 的+human

麻烦的是 human action 的谓语的扩充性。如果这个句型足够的频繁(感觉上是的),那么一个策略是,对于那个【定从谓语】的界定可以放的很宽,一路扫描下去,直到发现 【的+human】,就把这个 【定从】 的性质卡住了。定语定性以后,再慢慢对付里面的monsters,这个策略可能管用。

他的那些blahblah的朋友们

管它 blah 有多长、多复杂。一个 token* 就卡住了。还有一个策略就是 patching,对上面的那颗“循规蹈矩”而出错了的树做修补:

S1[X那些] + Pred1 + Conj + Mod(Pred2)+S2+Pred3

要问五个链条才能修补全,也不知道能概括多少现象,值得费这么大力气,会不会弄巧成拙。道理上是可行,问了这五个链条了,然后

(1)离婚 S1 和 Pred1
(2)结合 S1 与 S2,让 S1 zuo S2 的定语
(3) 切断 Conj
(4) 用新的 Conj 链接 Pred1 和 Pred2

可以做个实验玩玩,看这条路可行不。
MY GOD 值不值得做先放在一边,可的确做成了!

这个太tm牛了。我都不得不崇拜自己了。

还是那句话,没有翻不了的案子,毛太祖钦定的文化大革命都彻底否定了。这样的翻案 patching 应该没有副作用,因为都是 word driven 和非常 restricted 的现象。

同一条规则略加微调(没有“那些”但原主语是 human),就把宋老师的难题一并解决了。休眠唤醒术好使,以后要多使,这比条件不成熟的时候霸王硬上弓轻松多了。

白:
不对呀……
怎么是“他”死去?应该是“战友”死去才对。另外,“战友”并没有“长大”,“长大”的是战友的“儿女”。

我:
鸡蛋里挑骨头啊。明明“儿女”是“长大” 的 S。长大的战友,不过是一个边界不合适的 XP 懒得在 patching 的时候再动手术去重新修理边界而已。

白:
就是说,定语从句的两个分句,第一个“死去”的坑被提取出来,由中心语“战友”反填;第二个“长大”的坑由“儿女”填充,同时“儿女”挖了一个新的human类的坑,由中心语“战友”反填。

我:
真要修理也不是不可以,但已经没有啥意义,因为逻辑语义上已经阻止了 “战友” 做 “长大” 的主语。对,“他” 不该是 “死去” 的 S,这个我去查查 code

白:
要简化也是“儿女长大的 战友”,而不是“长大的 战友”

我:
那是因为偷懒 共享了 “那些”的规则。得,我分开来一步步来。
目前的机制可以改关系,暂时不可改边界。有空了写个 specs 让工程师增加边界调整的功能。不该有的 S 没有删去,是个 bug,规则是对的。对数据结构做手术,要做干净、不拖泥带水、不留后遗症,还需要磨一阵子。不过苗头是好的。

白:

“目前尚未毕业、导师已经超过六十三岁且不是院士的博士研究生要来教务处登记。”

谁不是院士?导师,还是博士研究生?如何确定?两个conj并列,是一股势力;“导师”辖域延展,是另一股势力。

我:
不用 common sense 出场?

白:
后一股势力因为“导师”自带的坑得到“博士研究生”在右侧遥相呼应而得到加强。当然“博士研究生”自身也因距离更近参与“不是院士”的逻辑主语坑的争夺。定性分析这是打个平手。common sense之外似乎看不到一锤定音的结构性要素。或者换个说法,大数据里,“导师”和“院士”共现的频度,与“博士研究生”和“院士”共现的频度比起来,谁高?

一提common sense就有把问题搞复杂的嫌疑,提大数据则明显把问题简化了。

我:
不错。现在的问题是,应该怎么挖掘和表达大数据的这些隐含了常识的知识,使得需要用的时候,够得着。人手工费那么大劲精心构建的 ontology 和常识,目前用起来还是不能得心应手,挖掘的东西应该呈现怎样的形态才好用呢。

白:
词向量可直接反映共现。

我:
在两个词抢夺同一个词的时候,最简单的办法就是看他们的两两共现来决定力量对比。这个听起来简单,但这种三角争夺是 on-the-fly 的,共现数据可以预先计算并 index,三角计算必须是 at run time,感觉上有一个不小的 overhead

白:
现场直接变成算距离了,index出来是向量,向量的距离直接反映共现。而且是“应该的”共现而不是“现实的”共现,中间加上了互通有无。互通有无是数学模型帮我们做的。

我:
大数据出来的统计不都是“应该的”么?都只是一种趋向。增加一个砝码,不是铁定。(一定有违反大数据统计的反例在。)

白:
不是这个意思,是说很多数据是稀疏的

宋:

(1)应该做大数据挖掘,与专家的规则结合起来。白硕建议比较两对共现频次,我觉得比常识知识库靠谱。

(2)这种大数据中的知识挖掘应当是实时的。应该有某种大数据存放的中间形式,支持快速的实时统计。这种中间形式会比原始的线性字符串对于统计更高效,同时应当有一定的通用性。

白:
在降维中稠密化了,原来语料中直接没搭上钩的,经过降维处理也可以搭上钩了。

宋:
(3)恐怕会有一些问题不是单纯的词语共现所能解决的。

白:
算距离,复杂性主要跟维度有关。维度降下来了,不仅数据稠密了,而且计算开销也下来了。@宋 老师的(3)完全赞同。共现的数学模型,build和run的确是分离的。我:

我:
synonym 或 clustering 就是 降维 和 数据稠密化吧,但同时也抹平了。不知道目前有没有哪个系统真地在歧义判别时候用到大数据统计的。

白:
word embedding并不严格抹平,但可以拉近,而且如果只为了比较大小,距离算到平方和足矣,没必要再开方。

我:
对,根本不需要精确计算,只需要相对的结论,谁强谁弱,或打平。

康:【首届语言与智能高峰论坛会议邀请函】 …

白:
这种会怎么不请伟哥啊……

阮:
第一届会议重在推动,伟老师估计会泼凉水。

白:
我们大家还在混圈子,伟哥已经高处不胜寒了。

我:
一觉醒来 左眼发跳 原来是白老师。冷不丁开个涮 由头却是啥高峰会议。
认真滴说 休眠唤醒是正道 开始尝甜头了 。感觉以前syntax下力可能太大太苦 ,不如把负担更多转嫁给语义唤醒。

【相关】

【立委科普:结构歧义的休眠唤醒演义】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1032238.html

上一篇:【语义计算:耍一耍中文 SyntaxNet 和百度翻译】
下一篇:【李白之29:依存关系图引入短语结构的百利一弊】

 

1  马德义

【杞人忧天:可怕的信息极乐世界】 屏蔽留存

【杞人忧天:可怕的信息极乐世界】

屏蔽已有 3677 次阅读 2017-1-17 01:09 |个人分类:立委科普|系统分类:科普集锦| 信息过载, 抵抗诱惑

 

今天想

信息过载的

问题,

有点感触。
 
我们生在大数据信息过载的时代。以前一直觉得作为NLPer,自己的天职就是帮助解决这个过载的问题。就好像马云的宏愿是天下没有难做的生意,我们玩大数据的愿景应该就是,天下没有不能 access 的信息。于是谷歌出现了,用粗糙的关键词和数不厌大的气概,解决了信息长尾问题。于是我们开始批判谷歌,信息长尾解决的代价是数据质量太差。于是人智(AI)派来了,借力深度作业(deep processing, whether deep learning or deep parsing),企图既要解决大数据的长尾,也要大幅提升数据质量,让全世界对于信息感兴趣的心灵,都有一个源源不断的信息流。这是从我们从业者的角度。
今天换了个角度想这个问题,从信息受众的角度。作为消费者,作为白领,我们从人类的信息过载的战役不断优化的过程中得到了什么?我们得到的是,越来越高质量的、投我所好的信息流。以前是在过载的海洋、信息垃圾里淹死,如今是在精致的虚假的满足里噎死。感受不同了,但反正都是死。哪怕做鬼亦风流,死鬼却从不放过我们。于是我们花费在朋友圈、新闻apps、娱乐apps的时间越来越多。无数天才(很多是我的同行高人)绞尽脑汁研究我们的喜好,研究如何黏住我们,研究什么诡计让我们拼死吃河豚。
一个人敌不过一个世界,这是铁律。七情六欲血肉之躯的消费者个体敌不过无数盯着消费者喜好的商家及其帮凶(包括在下)。于是我们沉沦了,成为了信息的奴隶。我们同时也不甘心,在努力寻求自救,不要在糖罐里甜腻死,虽然这甜越来越幽香、巧妙,充满诱惑。我们就这么一路挣扎着。但随着信息技术的提升,中招的越来越多,能自救的越来越少。
世界有n十亿人,m千万个组织,在每时每刻产生信息。假如我们把自我信息满足的门槛,用各种 filters 无限拔高,拔高到千万分之一,我们面对的仍然是 n百人和m个组织的产出。当技术提升到我们可以 access 这个高纯度但仍然能淹死人的信息的时候,我们一定相见恨晚,乐不思蜀,有朝闻道夕死可矣的感觉。这是一个可怕的极乐世界。
我们作为消费者在打一个注定失败的自虐之仗,试图抵制抵制不了的诱惑。说一点个人的应对体会,结束这个杞人早忧天的议论。这个体会也从朋友中得到印证过。
体会就是,有时候我们可以学林彪副统帅,不读书不看报,突然就掐了信息源和apps,专心做自己的事儿。一个月甚至半年过去,回头看,自己其实没有损失什么,而且完成了拖得很久的工作(其中包括如何去用语言技术提高信息质量诱惑别人的工作,不好意思,这颇滑稽,但无奈它是在下借以安身立命的天职)。
同行刘老师有同感,他是做事儿的人。我问他要不要加入群,咱们大伙儿聊聊NLP啥的。刘老师说,我这人经不起诱惑,曾经加入了n多群,一看话题有趣,就忍不住要看、要回应、要投入。结果是做不完手头的事儿。后来一横心,退了所有的群,就差把手机扔了。刘老师的做法也是一种自救。
其实我们最后还是要回到信息流中,再坚强的灵魂也不可能苦行僧一样长时期拒绝高品质信息以及消遣式信息享受。一味拒绝也自有其后果。意志力强的是在这两种状态中切换。更多的人意志力不够,就一步步淹没。退休了被淹没,也可算是福气。年轻人被淹没,这就是罪过,而恰恰是后者才是最 vulnerable 的群体。

 

“忽视

信息视而不见

”乃是白领劳动者的生存技巧,但对于涉世未深的年轻人很难很难。据观察,在信息轰炸中淹没(info-addiction),其问题的严重性已经不亚于吸毒和酗酒,感觉与游戏的泛滥有一拼,虽然我没有统计数据。

因此,我想,人智可以缓行,我们没必要那么急把全世界的人生和时间都吞没,可以积点德或少点孽。同时,希望有越来越多的人研究如何帮助人抵制信息诱惑,抵抗沉沦。理想的世界是,我们既有召之即来的高质量信息,又有挥之即去的抵制工具在(类似戒毒program)。虽然后者的商业利益少,但却是拯救世界和人类的善举。

最可怕的是在下一代,可以看到他们的挣扎和无助。games、social media 和 internet 吞噬了无数青春。而世界基本是束手无策,任其沉沦。家长呢,只有干着急。我们自己都不能抵制诱惑,怎么能指望年青一代呢。充满 curiosity 和躁动的心灵,注定受到信息过载的奴役最深。其社会成本和代价似乎还没有得到应有的深入研究。

今天就扯到这儿,希望不是信息垃圾。

【相关】

Trap of Information Overdose

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1028040.html

上一篇:【李白之17:“我的人回来了, 可心还在路上”】
下一篇:Trap of Information Overdose

 

7  姬扬 武夷山 侯沉 冯国平 dachong99 xlsd table

发表评论评论 (6 个评论)

hidden
删除 |[6]用户名   2017-1-28 00:30
评论已经被科学网删除

删除 |赞[5]文克玲   2017-1-17 19:14
碍于情面,保留了三个朋友圈。
于是,每天要花20分钟以上来删微信。 

删除 |赞[4]birdparadise   2017-1-17 14:30
好文!论点脱俗,有智慧!

删除 |赞[3]岳雷   2017-1-17 14:10
  

删除 |赞[2]jao   2017-1-17 13:54
   求打救。

删除 |赞[1]李坤   2017-1-17 13:43
     信息是沼泽 我们身陷其中而不得出

【李白之19:三探白老师的秘密武器】 屏蔽留存

【李白之19:三探白老师的秘密武器】

屏蔽已有 2236 次阅读 2017-1-20 04:07 |个人分类:立委科普|系统分类:科研笔记| parsing, 语义计算, 依存关系

【立委按】专业探讨的时候,第一要义是互相搞懂各自的术语。老司机的毛病是经年积淀,自成体系,自创术语,不拘一格。白老师有一套自己的术语,立委也有一套术语。好在过去一年来,在白老师的语义计算群唠嗑唠久了,互相开始明白了各自术语的所指。但对于后学,很可能就麻烦了。为深入虎穴,三探奥秘,我把相关术语编辑在篇末,供各位查阅,不准确处可请白老师指正。

白:
我们先解决“谁和谁发生关系”而不必具体明确“是何种关系”,只笼统地分成:“a是b的直接成分”、“a是b的修饰成分”以及“a是b的合并成分”三种情况。

洪:
@wei 八九十年代 Steven Small 有套Word Expert distribute parsing理论,当时ucsd的Garrison Cottrell和 umass的 wendy lehnert也有类似研究。

白:
word expert理论当年也跟踪过,因为跟汉语实际相差太远,后来不了了之了。

我:
Small 的工作以前常引用,因为我导师刘老师给自己的 MT 机制也取名叫专家词典。术语撞车了,不得不引。句法词典化作为大的方向,在parsing的人以及整个的NLP共同体,长期以来是有相当大共识的,虽然各有做法不同(GPSG以后盛行的词典主义的LFG和HPSG就是这种共识的一个反映)。白老师的分步走,想来是一条结合大数据和词典化的大道。第一步只做 dependency,而且允许以后反悔。只依赖词典,先塔个句法的架子,靠中间件的语义化操作来减除伪歧义的困扰。Parsing 的语义化不外两个层面,一路是 nodes 的语义,即wsd;另一路是 arcs 的语义,就是 matcher 的结构消歧工作,为了求解靠谱的 parses(白老师所谓二元关系)。其后的细线条逻辑语义解析,包括部分二元关系的休眠唤醒以及揭示隐藏的逻辑语义关系,算是深度语义计算。这两路靠的都是大数据与初始结构的“恋爱”结果来克服知识瓶颈,而不是靠带标的treebank。其中最有意思的工作应该是这个无监督大数据与初结构的恋爱学习过程,貌似水性杨花 漫天撒网 愿者上钩,最后根据统计性落实各自秉性与最佳搭配。等着听白老师这个无监督的核爆炸吧,大数据引爆这种针对 deep parsing 的语义知识习得,据说可借力深度学习的 RNN 机制。

白:
不务虚了,讨论点昨天出的具体的例子吧。总会有突如其来的不带介词的NP,让没有坑的VP措手不及。躲得过初一躲不过十五。大数据会告诉我们什么呢?比如,“那堆砖让我垒了鸡窝了”,垒,没有预备坑给“那堆砖”,怎么办?

我:
不务虚 那请教白老师几个问题:第一层词典化二元parsing 是 nondeterministic 吗
还是绝对 deterministic?那么粗糙的 parsing - 如果是后者的话,对后去的学习和反悔 感觉会不够给力。

白:
大数据变了,结果会不同。这算nondeterministic?

我:
不算。那是两套系统,依据的是不同的数据和训练,在不同的时间框架。
不是说不需要大数据吗?连二元关系的性质都模糊,就是先勾搭上而已。

白:
不需要带标大数据。性质可以模糊,但约束必须明确。比如萝卜什么时候占名额什么时候不占名额。Matcher不是语义中间件,他要用到语义中间件。wsd也要用到。一个确定节点标签,一个确定留下的二元关系。

我:
约束不就是词典里面的挖坑,实际中的填坑 ➕ 挖坑么?用的是 cat,因为一个词可以有多个 cats(or subcats),所以调用了 WSD 模块来决定。根据这个决定来填坑构成二元结构。好像就是这么个过程。

白:
“这碗猪”还记得吧。

我:
不搭没关系吧 - 开始的时候。

白:
【碗,猪】这个二元关系有还是没有,问中间件。没有,就不建立arc。虽然cat相配,也不建。

我:
那是大数据训练以后的事儿了,训练之前呢?语义中间件就是一个大数据训练出来的类似 hownet 的资源。在训练之前 大数据怎么结构化的?

白:
训练是独立的,跟matcher无关,跟ontology有关,ontology是结构化的

我:
无监督训练,总要有个啥吧。训练是独立的 offline 进行,利用大数据得出的语义相谐的统计性历史总结,作为 parsing 的资源。Matcher 是 online runner,来对新的 input 做 parsing 的。这跟我们专家去写 patterns 道理一样。训练的结果包含 ontology,
训练的支持难道不是结构化的大数据?这个结构怎么来的?谁给的第一推动?

白:
这是一个冷启动窗口长短的问题。matcher可以只看3个,大数据看13个。大数据的13个中包含被matcher拉近到3个的概率不低。

我:
拉近不是结构化的作为吗?

白:
大数据中非结构化的词串,十三个词里面“碗”和“猪”的共现,以及背后subcat的共现,同“碗”和“汤”的共现相比,这数据有统计意义不?我说的是“包含”。

我:
有意思。非结构化词串就是 ngram,13 词区间大体就是一个子句的长度,再长也没啥统计价值的关联了。

白:
碗,背后的subcat是“容器”“餐具”;汤,背后的subcat是“液体”“食物”。统计subcat共现,可以脱离具体的词例,获得大样本。在大窗口里进行,跑都跑不掉。所以,有无结构的说法是含混的。从parse角度讲,冷启动时无结构;从ontology角度讲,冷启动时结构很丰富。

我:
嗯,为了统计性,脱离具体词,先用 hownet 或 wordnet 支持一下。

白:
冷和热的唯一区别,就是有了冷的基础,热应该更好做。因为大窗口的关联都挖出来了,小窗口更不在话下。

只有一种情况,就是热的情况下,小窗口里面的关联,是把大窗口都覆盖不到的远距离关联拉近了的结果,这种会失手。

我:
好,在 onyology 支持下,在13词窗口内,系统学到了“碗”与“汤”的搭配,so what?

白:
在遇到这碗猪的时候,会选择不match,把“这碗”留着,让“猪”去找自己的坑

我:
这口气得憋多久啊

白:
就是所谓的“过程性因素”,用中间件的查询结果来控制,而不是用手编的语言学知识或规则来控制。

我:
停下的意思类似于入栈。稍有闪失就沉底出不来了。

白:
对啊,RNN+栈。入栈,等着填坑

我:
不知道栈有多深

白:
出不来的情况,参见刚才的例子 “那堆砖让我垒了鸡窝了”。在“垒”只有两个坑的情况,“那堆砖”就是进去了出不来的,如果不想其他办法的话。

荀:
如果这种二元决策是确定性的过程,如果出错,填入的坑的萝卜就得靠唤醒了。

白:
不妨仔细推演下这个例子。

我:
赶巧这个【工具】的坑,处于可有可无的边缘。“垒” 其实也可以带三个坑的。

白:
如果大数据中,存在着大量“砖”带着明确的介词和“垒”共处一个窗口的情况呢?或者投射到subcat上,“建筑材料”带着介词和“建筑行为”共现?

荀:
如何辨认“工具”和“施事”就很重要了

我:
【工具主语】 与 【人主语】 几乎有类似的统计性。

荀:
需要用启发式信息,引导RNN训练,这个引导过程是至关重要的。

白:
这里有“我”,已经明确会填坑。我说的是,没有坑可填不可怕,翻翻大数据,历史上别人用它带什么介词,就把那个介词补上好了。然后就堂而皇之地做状语了。这些东东,有了ontology和大数据的结合,就不要人来操心了。

荀:
把subcat嵌入到RNN中,用启发式信息结合LM训练方式引导RNN编织权重。

我:
如果加上显性形式“用”,工具作为萝卜有很多数据。

白:
我昨天出了那么多例子,伟哥居然没觉出用心良苦:

“这些纸能写很多字”
“这些铁可以打很多钉子”

荀:
[用]这些铁可以打很多钉子
[在]这些纸能写很多字

白:
从形式上,为严谨起见,我们不会去给这个句子凭空添加任何一个莫须有的介词,但总可以用一个不占位置的虚介词吧……
【phi】这些铁可以打很多钉子。

荀:
利用大数据可以做“小词“还原,这对缺少标记的汉语很重要了。

白 :

至少有了这个phi,栈里的不会出不来了。

荀:
借助大数据,RNN做“还原”这类事情很在行。把小词“虚化”,也是一种subcat处理。抓住了小词就抓住了汉语结构命门,白老师在这上花足了心思。对句子做“结构归一化”处理。

白:
推而广之,就是利用大资源+大数据把看起来不那么规范的句子有理有据地整理成更规范的,这样parser负担就轻了,无需独自面对复杂情况。“这场火多亏消防队来得及时”,这里的“这场火”同样面临“没给留坑”的尴尬。但是,把句子中的“火”“消防队”两个实词送入中间件,可以发现与他们共现频次相当高的“救”。有“救”垫底,就可以引入及物的虚动词phi,这样萝卜和坑就相安无事了。

荀:
白老师提到的parser需要确定的三种关系,权重信息编织在网中了,在应用时,词典发出请求,RNN做认定。Parsing就是做<W1,W2,Relation>认定的过程, W1或者W2 可以是小词。 功夫在于Relation定义,在承载结构的小词处理以及<W1,W2,Relation>训练过程,白老师对这些都有一套不同以往的做法。

我:
如果没有坑可跳,就自己挖个坑去跳,这也是 mods 的常规了。在形态语言中,mods 有显性小词或词尾帮助确定该怎么挖坑自裁。在裸奔的汉语,形式没了,只好靠搭配。

白:
救火这个例子,已经不是subcat嵌入了,根本就是词嵌入。

我:
wait:“这场火多亏消防队来得及时”,这里的“这场火”同样面临“没给留坑”的尴尬。

咱们走一走这场火。哪里出来的“救火”,“消防队”本体里面的吗?Hownet 里面肯定有。

常规的做法是,遇到句首 np 没法填坑,就给个 topic 标签。有点像英语的 as for,with regards to,topic 很像pp做的状语。往后找一个谓语挂靠:“这场火” 挂靠到 “来”。

白:
人家只有一个坑,还是给human预留的。

我:
不需要啊。状语是随机的。状语可以看成是不填坑,而是挖坑,挖个坑让谓语填进去
或者让自己跳进去 再去找主儿。

白:
比如“为了”?

我:
想不出来为什么要绕那么大弯,让“救火”出来救驾。Topic 式状语,无需那么清晰的标签,就是把np 降级为 pp。至于什么 p 什么格,另说着。

世界语有个万能介词 je,柴门霍夫这样解说:介词就是格,都是确定性语义的。
几十个介词 就是几十个格。但是如果有一个状语,你不知道哪个介词合适
或者你懒得费劲琢磨什么格合适,你就用 je。与前面提的phi,异曲同工啊。

白:
那样活儿太糙。补介词合适还是补动词合适,大数据说了算。

我:
用了 je 就确定了其地位。不是没有道理。人如果要清晰,他可以有清晰的形式,譬如介词或词尾。如果他不用,那就模糊。虽然模糊,句法地位和关系还是大体确定了。这类模糊要确定语义关系,可以在后面的语义模块(我以前也叫它语义中间件)决定,而不是白老师的中间件在parsing 过程中调用。我选择把二者分开,因为这类情形句法没有到走投无路,就算耍个流氓 亦无不可。先躲过初一,到15再说。其实 15 到了,要求很可能与初一不一样了。人走茶凉不了了之也是有的。

白:
数据支持的话,可以冒进一点。中间件就是在过程中调用啊,否则有啥用。

我:
deep parsing 的过程可以分两个阶段,两个模块:句法和语义。我叫语义中间件是指它在句法模块之后,产品语义落地之前,夹在中间。怎么没用?几乎所有的 hidden 逻辑语义,都可以留到这里做,而不必在句法模块做。

不仅句法模块内部可以多层去做,句法到逻辑语义,也可以分开,成为两个层面的 parsing,Syntactic parsing to semantic parsing。非谓语动词的主宾等都可以后延,
句法只要确定其状语还是定语或补足语身份即可。对于谓语的主宾等,也可以先在句法做一个糙活,到语义中间件再细化或修正。糙活是不到不得已不调用 ontology,如 np 主语,管他 【human】 还是 【instrument】:

张三砍了李四
斧头砍了李四

开始都是同一个parse。

张三吃了大餐
乌云吃了月亮

也是如此。

白:
现在还都没说定性,只说定位,谁跟谁有关系。结论是,就这么糙的事儿,也得动用ontology。

我:
句法不必要太细。语义可以细,但那个活儿可以悠着点,做多少算多少。

回到白老师前面给的句子,试试我目前语义模块还没丰富完善的 parsing:

“那堆砖让我给搭鸡窝了”
“这辆车能坐六个人”
“这个方向不被看好”
“这些铁可以打很多钉子”
“这些纸能写很多字”


see,句法架子是出来了,但未尽如意的语义还有一步之遥。这一步补不补,不紧急,因为语义落地的时候,如果是 integrated 一体化的直通车,而不是提供给第三方做 offshelf support 的,就可以在落地模块内部协调。譬如,“坐车” 带了“六个人” 为 O,ideally,语义模块应该把 “六个人” 从句法的 O 转为 逻辑语义的 S。但是,如果是内部协调,转不转也无所谓。O 不过是一个符号而已。词驱动落地的时候,“坐车”的 arg 是 O 或 S,完全不必计较。当然,如果要补足这一步,虽然琐细,但真要做也不难。在没弄清楚多少利益之前,懒得做这细活。同理:“那堆砖”最好是加一条线,连上“搭”,标签是 【Instrument】。“这个方向不被看好”已经把表层的小词 “被” 带入考量,直接给了 O,一切到位,没有可做了。“打铁” 和 “钉子”,最好是加上标签【Result】。最后一句,最好给 S 进一步加上逻辑语义标签【Instrument】or 【Material】,但其实落地也未必需要这个,就是加上了显得很酷,很智能,让人看着爽,倒未必是对落地产品真地就有多大利益。

【术语 Index】

Matcher:the syntactic parsing program,有时候我们叫 runner,在白老师的系统里面,就是接受输入文句,对其二元依存关系解析的模块。

WSD:与 community 的依据义项划分的定义有别,白老师的 WSD 模块指的是:在词负载结构的体系里,一个具体的词负载了好几种可能的结构,结合上下文选择其中一种的模块,称之为wsd模块。事实上,这里的WSD 是利用大数据得来的词与词或其上位概念之间的语义相谐,来决定采纳某种区分一个词不同用法的扩展的 POS tags or 白老师所谓 subcats,来帮助结构消歧。粗线条义项的区分成为二元关系结构消歧的副产品。当(细线条)义项区别不影响结构的时候,义项区分就不是这个WSD模块的任务。

二元关系:两个词之间的句法依存关系(bianry dependency)。白老师的系统分为三类:修饰关系(如 定语、状语),算元(args)关系(如主语、宾语)和合并关系。

POS(cat):part-of-speech (or category,相对于 subcat 子类而言)词类,不必是 PennTree 定义的集合。作为模块,指的是根据系统给定的词类标准,自动做词性标注。一个词可能跨类,POS 模块可以根据上下文决定最合适的类别(词性)。在白老师的系统中,是所谓 WSD 模块做这个 POS 的事儿,来供给 Matcher 充当合法填坑的 candidates。在白老师的系统,我们可以把 POS 的词性标注理解为粗线条的 WSD。不影响结构的词义区分不是白老师所说的 WSD 模块的任务,虽然 community 的 WSD 不是这样定义的。

subcat:subcat 的原义指的是谓词的子类,这个子类对应了这个词的特定句型(譬如,双宾句型,宾+宾补句型,等)。白老师说的 subcat 扩展到不一定具有对应句型的子类。譬如,碗,背后的subcat是“容器”“餐具”;汤,背后的subcat是“液体”“食物”。这实际上是本体语义(ontology)的层级结构,如 ISA taxonomy chain:碗 ISA 餐具,餐具 ISA 工具,工具 ISA 商品;商品 ISA 人造物品;人造物品 ISA 物品;物品 ISA 实体(逻辑名词,这是这个 chain 的顶端节点 TOP 了)。

“耍流氓”:指的是对于二元依存关系不能定性,但是可以认定具有某种关系。汉语句法中,句首的名词短语在没有确定其性质是主语、宾语或定语、状语之前,往往先给它一个 Topic 标签,挂靠到后面的谓语身上,白老师认为这就是耍流氓。同理,当两个实词之间的关系基本可以确认,但是不能定性的时候,我们往往根据其出现的先后次序,让 parser 给一个 Next 的标签把二者连上,作为一个增强句法分析器鲁棒性(robustness)和查全率(recall)的打补丁的手段。这也算是先耍一下流氓,因为理论上后去还是需要语义模块去确认是何种关系才算深度分析到位。如果是两个中文动词一先一后系统给了 Next,其默认关系是【接续】,就是汉语文法书上所谓的“连动”结构。

Topic:汉语分析中,句首名词短语如果不直接做主语、宾语等,很多分析就给 一个Topic(主题)的标签。汉语文法的一个突出语言句型现象就是所谓双主语句(常常分析成一个Topic or 大主语,加一个小主语:譬如,他身体特别好。这家公司业绩直线上升。)由于这种关系逻辑语义的性质不明,聊胜于无,所以也称这种二元关系的建立为“耍流氓”。

Next:两个词一先一后,但不能确认他们发生了什么句法语义关系,系统常常给一个特殊的关系标签,叫 Next,其默认关系是【接续】。 这是一个增强句法分析器鲁棒性(robustness)和查全率(recall)的打补丁的手段。由于这种关系逻辑语义的性质不明,聊胜于无,所以也称建立这种二元关系为“耍流氓”。

mod:修饰成分或关系。包括定语、状语、补语。

arg:算元成分或关系。包括主语、宾语、(宾语)补足语或间接宾语。

Hownet:董振东前辈发明的面向MT和NLP服务的跨语言本体知识(ontology)网络《知网》的英文名称。

小词:教科书上叫做功能词。包括介词、连词、代词、副词、感叹词、联系动词等。

伪歧义:也叫伪路径,指的是 parsers 产生出来的貌似成功但没有价值的结构分析路径。伪歧义,是相对于真(结构)歧义而言。真的结构歧义的典型案例是某些 PP-attachment 的现象,同一个 PP 可以理解为两种可能:做宾语的后置定语;或做谓语动词的后置状语,这两个 parses 都是有效的语义解析。但是,很多传统的 parsers,会产生很多貌似成功解析输入文句的分析路径(numerous parses),给人以文句结构歧义严重的假象,但其实这些不同路径大多没有区别意义,是为伪歧义。这是一个困扰了传统 parsing 很多年的难题。白老师和立委的系统都利用不同的策略(包括休眠唤醒机制)很好地解决了这个问题。

中间件:白老师的所谓语义中间件,指的是在 ontology(本体知识库,如 HowNet,WordNet)的支持下,通过大数据训练得出来的语言词汇之间的语义相谐(各种关系之间的语义搭配)的知识库。这个中间件被 WSD 和 Matcher 模块调用作为对于输入文句的 parsing 的资源。立委以前的NLP博文种的所谓语义中间件虽然有与白老师的中间件相同的一面,但却是不同的所指。在立委的 deep parsing 的系统种,语义中间件不是一个知识库资源,而是指的句法模块后面的语义模块。这个模块利用句法框架,负责深度分析的逻辑语义细化、隐含的逻辑语义关系的解析、休眠唤醒新的语义结构关系(包括改正此前的错误路径),如果需要的话,也可以在这个模块做一些词义消歧工作(WSD的本义)。总之,这个语义模块是独立于领域,夹在句法分析之前和领域的语义落地之前,为了更好地服务于语义落地。为了不再混淆术语,立委考虑今后不再称此模块为中间件,而是把术语让出,就叫语义模块。

萝卜:指的是那些参与谓词结构(所谓 argument structure)所要求的实体角色的词,譬如充当主语、宾语、补足语的成分。谓词结构通常被认为是一个语句的核心语义。谓词以动词为主(但也有形容词和名词做谓词的),在词典主义(lexicalist)的系统中(白老师和立委的系统均属于词典主义),一个谓词的潜在的结构都标注在这个词的词典信息 subcat 里面。换句话说,谓词的 subcat 规定了它期望什么样的成分(所谓挖坑),需要什么样的词(萝卜)来填。譬如,“走路”挖了一个坑,需要一个优选语义位【human】的名词萝卜来充当其施事主语。再如,“喜欢” 挖了两个坑:谁喜欢什么。充当主语的是【human】名词,充当宾语的是几乎任何词。

坑:就是依存关系(dependency)的被预期的节点。对于谓词,其坑就是它预期的算元(args)成分,主语、宾语、补足语。对于修饰关系(mods),譬如定语、状语和(汉语)的补语,一般认为是附加的边缘语义,不占坑。也可以看成是修饰语预期了谓词,或看成是谓词不占坑地吃掉了修饰语。

填坑:一个词(包括代表短语的头词)根据谓词对坑的句法(甚至语义)要求,充当了其谓词结构的成分,建立了与谓词的二元关系(binary dependency),这个建构过程叫做填坑。谓词结构的成分填满了,核心语义就完整了,这个状态叫 saturated。

萝卜指标:指的就是坑。所谓不占萝卜指标,是说的一个词可以合法填两个坑的情形,其中一个坑不影响其填另一个坑的能力。听上去似乎与坑与填坑的概念出发点相违背,但在依存关系图的构建过程中,是必须考虑一个萝卜填多个坑(一个儿子多个老子)的情形才可以把依存关系进行到底(有些一个萝卜多个坑的情形在短语结构表达中,可以借助非终结节点避免)。

优选语义:最早由著名人工智能和机器翻译前辈 Wilks 提出的概念,指的是在本体网络(ontology)中,概念之间的语义相谐表现在自然语言的表达的时候,呈现的是一个区间,而不是一个固定的语义约束。譬如,【eat】这个概念对于【受事】的优选语义是【food】,但是这只是其优选,并不是一定要是【food】。语言表达的时候,优选语义可以根据句法的约束条件不断放松,以至于达到完全不相谐的程度(nonsense)。乔姆斯基认为,句法可以独立于这些语义相谐的约束,举的就是句法约束决定结构关系,偏离优选语义到极端的例子:Colorless green ideas sleep furiously。对于形态语言,句法独立性的原则有较多的证据。对于汉语,这个原则需要打折扣,合理利用优选语义的约束就成为汉语解析的关键依据。立委 parser 改造使用了 HowNet 来弥补句法形式的不足。白老师的系统是依靠大数据训练出来的中间件来实现优选语义的对 parsing 的约束。

逻辑语义:指的是深层结构关系。最早起源于乔姆斯基的深层结构和费尔默的深层格(关系)。中国NLP和MT的旗手级前辈董振东老师发扬光大,深化了这方面的研究,指出解析逻辑语义是深度自然语言理解的关键:所谓理解一个句子,主要就是理解了这个句子里面概念之间的逻辑语义,谁是施事,谁是受事,时间、地点、条件,等等。在 community,对应于所谓 role labeling 的任务。一般而言,主谓宾定状补之类的句法关系比较粗糙,这些是表层关系,一个语言深度解析器(deep parser)不仅要解析(decode)句法关系,而且要进一步揭示后面的逻辑语义关系,包括细化句法关系(譬如句法主语可以进一步标注为施事、受事、工具等逻辑语义,句法宾语可以标注为受事、对象、结果等逻辑语义,诸如此类),和揭示隐含的逻辑语义关系(所谓 hidden links,就是句法上没有直接联系但逻辑语义上具有直接联系的结构关系,譬如宾语是宾语补足语的隐藏的逻辑主语)。

休眠唤醒:在李白的系列研讨中,这个术语指的是一种把可能性较小的路径暂时搁置的parsing策略,被搁置的路径可以在适当的条件下被唤醒。这种策略据信反映了人的语言解析的过程,可以从段子、相声抖包袱等现象看到这个过程的表现。立委有系列博文专谈这个机制。譬如:【立委科普:结构歧义的休眠唤醒演义

【相关】

【李白之18:白老师的秘密武器再探】

【李白之15:白老师的秘密武器探幽】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1028715.html

上一篇:【李白之18:白老师的秘密武器再探】
下一篇:【李白之20:得字结构的处置及其结构表达】

 

1  史晓雷

神经机译:川普宣告,米国人民今天站起来了 屏蔽留存

神经机译:川普宣告,米国人民今天站起来了

屏蔽已有 2452 次阅读 2017-1-21 06:16 |个人分类:立委科普|系统分类:海外观察| 就职演讲, 川普, 神经机器翻译, 谷歌翻译

虽然有跨国抄袭嫌疑,川普宣告,人民当家作主,米国人民今天站起来了!

川普今天总统登基,发表就职演说,谷歌神经翻译如下,请听(作为一个老机译,给这篇机器翻译打分的话,我会给忠实度85分,顺畅度90分,可懂度95分,个人觉得已经超越人工现场翻译的平均水平):神经机器翻译的现场录音

我们,美国公民,现在加入了伟大的国家努力,重建我们的国家,恢复其对我们所有人民的承诺。
在一起,我们将决定美国和世界的路线许多,未来几年。我们将面临挑战,我们将面临艰难,但我们将完成这项工作。

每四年,我们将采取这些步骤,进行有秩序和和平的权力转移,我们感谢奥巴马总统和第一夫人米歇尔奥巴马在这一过渡期间的恩典援助。他们是壮观的。谢谢。

然而,今天的仪式具有非常特殊的意义,因为今天我们不仅仅是将权力从一个政府转移到另一个政府,或从一个政党转移到另一个政府,而是我们从华盛顿转移权力,并将其交还给你,人民。

长期以来,我们国家首都的一个小团体获得了政府的奖励,而人民承担了成本。华盛顿蓬勃发展,但人民没有分享其财富。政治家兴旺,但工作离开,工厂关闭。企业保护自己,但不是我们国家的公民。他们的胜利不是你的胜利。他们的胜利不是你的胜利。虽然他们在我们国家的首都庆祝,但没有什么可以庆祝在我们的土地上奋斗的家庭。

所有的变化从这里开始,现在,因为这一刻是你的时刻,它属于你。

它属于今天聚集在这里的每个人,每个人都在整个美国。这是你的一天。这是你的庆祝。而这个,美利坚合众国,是你的国家。

真正重要的不是哪个党控制我们的政府,而是我们的政府是否由人民控制。

2017年1月20日将被记住为人民成为这个国家的统治者的那一天。

我们国家被遗忘的男人和女人将不再被忘记。

每个人都在听你的。你来自成千上万的人成为历史运动的一部分,世界从未见过的那些喜欢。

在这个运动的中心是一个关键的信念,一个国家存在为其公民服务。美国人想要他们的孩子的伟大的学校,他们的家庭的安全的邻里,并为自己好的工作。这些是对义人和公义的公正和合理的要求。

但对于我们太多的公民,存在一个不同的现实:母亲和儿童陷入我们内部城市的贫困;生锈的工厂散落像墓碑横跨我们国家的景观;教育制度与现金齐齐,但使我们年轻美丽的学生失去了所有的知识;和犯罪,帮派和毒品偷走了太多的生命,抢夺了我们国家这么多未实现的潜力。

这美国大屠杀停在这里,现在停止。

我们是一个国家,他们的痛苦是我们的痛苦。他们的梦想是我们的梦想。他们的成功将是我们的成功。我们分享一颗心,一个家,一个光荣的命运。我今天所做的宣誓就是对所有美国人的忠诚宣誓。

几十年来,我们以牺牲美国工业为代价丰富了外国产业;补贴了其他国家的军队,同时允许我们的军队非常悲伤的消耗。我们捍卫了其他国家的边界 ,拒绝为自己辩护。

在海外花费了数万亿美元,美国的基础设施已经失修和腐烂。我们已经使其他国家富有,而我们国家的财富,实力和信心已经消失了地平线。

一个接一个地,工厂关闭了,离开了我们的岸边,甚至没有想到数百万和数百万留在美国工人。我们的中产阶级的财富已经从他们的家里被剥夺,然后再分配到世界各地。

但这是过去。现在,我们只看到未来。

我们今天聚集在这里,正在发布一项新法令,在每个城市,每个外国首都和每一个权力大厅上听到。从今天起,我们的土地将有一个新的愿景。从这一天开始,它将只有美国第一,美国第一。

每一项关于贸易,税收,移民,外交事务的决定都将使美国工人和美国家庭受益。我们必须保护我们的边界免受其他国家的蹂躏,使我们的产品,偷窃我们的公司和破坏我们的工作。

保护将导致巨大的繁荣和力量。我会为我的身体每一口气,为你而战,我永远不会让你失望。

美国将再次赢得胜利,赢得前所未有的胜利。

我们将带回我们的工作。

我们将带回我们的边界。

我们将会

Google Translated from:

TRUMP: Chief Justice Roberts, President Carter, President Clinton, President Bush, President Obama, fellow Americans and people of the world, thank you.

We, the citizens of America, are now joined in a great national effort to rebuild our country and restore its promise for all of our people.
Together, we will determine the course of America and the world for many, many years to come. We will face challenges, we will confront hardships, but we will get the job done.

Every four years, we gather on these steps to carry out the orderly and peaceful transfer of power, and we are grateful to President Obama and First Lady Michelle Obama for their gracious aid throughout this transition. They have been magnificent. Thank you.

Today's ceremony, however, has very special meaning because today, we are not merely transferring power from one administration to another or from one party to another, but we are transferring power from Washington, D.C. and giving it back to you, the people.

For too long, a small group in our nation's capital has reaped the rewards of government while the people have borne the cost. Washington flourished, but the people did not share in its wealth. Politicians prospered, but the jobs left and the factories closed. The establishment protected itself, but not the citizens of our country. Their victories have not been your victories. Their triumphs have not been your triumphs. And while they celebrated in our nation's capital, there was little to celebrate for struggling families all across our land.

That all changes starting right here and right now because this moment is your moment, it belongs to you.

It belongs to everyone gathered here today and everyone watching all across America. This is your day. This is your celebration. And this, the United States of America, is your country.

What truly matters is not which party controls our government, but whether our government is controlled by the people.

January 20th, 2017 will be remembered as the day the people became the rulers of this nation again.

The forgotten men and women of our country will be forgotten no longer.

Everyone is listening to you now. You came by the tens of millions to become part of a historic movement, the likes of which the world has never seen before.

At the center of this movement is a crucial conviction, that a nation exists to serve its citizens. Americans want great schools for their children, safe neighborhoods for their families, and good jobs for themselves. These are just and reasonable demands of righteous people and a righteous public.

But for too many of our citizens, a different reality exists: mothers and children trapped in poverty in our inner cities; rusted out factories scattered like tombstones across the landscape of our nation; an education system flush with cash, but which leaves our young and beautiful students deprived of all knowledge; and the crime and the gangs and the drugs that have stolen too many lives and robbed our country of so much unrealized potential.

This American carnage stops right here and stops right now.

We are one nation and their pain is our pain. Their dreams are our dreams. And their success will be our success. We share one heart, one home, and one glorious destiny. The oath of office I take today is an oath of allegiance to all Americans.

For many decades, we've enriched foreign industry at the expense of American industry; subsidized the armies of other countries, while allowing for the very sad depletion of our military. We've defended other nations' borders while refusing to defend our own.

And spent trillions and trillions of dollars overseas while America's infrastructure has fallen into disrepair and decay. We've made other countries rich, while the wealth, strength and confidence of our country has dissipated over the horizon.

One by one, the factories shuttered and left our shores, with not even a thought about the millions and millions of American workers that were left behind. The wealth of our middle class has been ripped from their homes and then redistributed all across the world.

But that is the past. And now, we are looking only to the future.

We assembled here today are issuing a new decree to be heard in every city, in every foreign capital, and in every hall of power. From this day forward, a new vision will govern our land. From this day forward, it's going to be only America first, America first.

Every decision on trade, on taxes, on immigration, on foreign affairs will be made to benefit American workers and American families. We must protect our borders from the ravages of other countries making our products, stealing our companies and destroying our jobs.

Protection will lead to great prosperity and strength. I will fight for you with every breath in my body, and I will never ever let you down.

America will start winning again, winning like never before.

We will bring back our jobs.

We will bring back our borders.

We will ......

【相关】

Newest GNMT: time to witness the miracle of Google Translate

【谷歌NMT,见证奇迹的时刻】

关于机器翻译

《朝华午拾》总目录

【置顶:立委NLP博文一览】

立委NLP频道

http://blog.sciencenet.cn/blog-362400-1028954.html

上一篇:【李白之18:白老师的秘密武器再探】
下一篇:【李白之20:得字结构的处置及其结构表达】

 

4  岳雷 冯国平 houzhenyu yangb919

发表评论评论 (4 个评论)

删除 |赞[4]yangb919   2017-1-22 08:11
神经机译牛逼

删除 |赞[3]岳雷   2017-1-21 15:25
     米国人民今天站起来了 

删除 |赞[2]wqhwqh333   2017-1-21 10:45
从神权、君权到民权;从打天下、家天下到选天下,世界在不断改变。

删除 |赞[1]张珑   2017-1-21 10:01
翻译的基本能看懂啊,太牛了

【从IBM沃森平台的云服务谈AI热门中的热门 bots】 屏蔽留存

【从IBM沃森平台的云服务谈AI热门中的热门 bots】

屏蔽已有 2485 次阅读 2016-12-20 04:19 |个人分类:立委科普|系统分类:科研笔记| 沃森, BOT, 人机接口, chatbot, 对话机器人

我:
哥仨老革命在去 IBM 的 traffic 中 去大名鼎鼎的沃森(Watson)系统探秘

洪:
讲者是这位印度籍女士:http://researcher.watson.ibm.com/researcher/view.php?person=us-vibha.sinha:

郭:
比较有意思的是她后面讲的三点:

1. LSTM based intent recognition and entity extraction

2. "tone" recognition
这里tone指的是从一句话(书面语)反应出的说话人的喜怒哀乐和处事方式等

3. personality recognition
主要基于心理学的分类,用200到2000条tweets训练

她重点强调的是,通过增加tone和personality的识别,人机对话可以有更高的可接受度。

我:
唐老师 诸位 汇报一下昨天的听闻。上面 郭老师也总结了几条,很好。我再说几点。
话说三位老革命慕名而去,这个 meet-up 一共才来了20几位听众吧 大概湾区此类活动甚多 marketing 不够的话 也难。据说北京的 AI 沙龙,弄个花哨一点的题目 往往门庭若市。

1. 没有什么 surprises 但参加沙龙的好处是可以问问题和可以听别人问问题,而主讲人常常在回答的时候给出一些书面没有的数据和细节。否则的话,各种资料都在网上(最后的 slide 给了链接),要写利人似的调研报告,只要不怕苦,有的是资料。

听讲的另一个好处是,主讲人事先已经组织好材料讲解,可以快速了解一个项目的概貌。

2. 特地替唐老师问了他钟情的 Prolog,问你们有用吗,在什么模块用。主讲人说,没有用。我说有报道说有用到。她说,她没听说,至少在她主讲的已经产品化的这个沃森 chatbot 的组建 toolkit 里面没有 Prolog。当然她不排除某个小组或个人 在沃森的某个项目或模块用到。IBM 对 AI 的投入增大,在沃森的名号下的各种研究项目和小组很多。

马:
我问过了IBM中国的,在沃森参加电视节目版本中没有用prolog,但是后续的版本中,确实用到了prolog

陈:
它是很多services构成,用不会奇怪,尤其是某些既有系统

我:

3. 现在不少巨头都在 offer 这样的 toolkit,问微软 offer 的 cortana 的 toolkit 与你们沃森的这套有啥不同。回答是,非常类似,不过她自认为沃森质量更好。亚马逊也有类似的 offer。

所以回来路上,我们就谈到这个 bots 遍地开花的场景。郭老师说,现如今谁要想做一个领域内的 bot,或自己的 app 做一个 bot 接口,根本就不需要编程。只要准备好领域的 experts,把数据准备好,用这些巨头的工具箱就可以构建一个出来。也一样可以 deploy 到 messenger 或嵌入其他场景,这几乎是一条龙的云服务。

当然 用这些服务是要交钱的,但主讲人说很便宜很便宜的,郭兄说,真用上了,其实也不便宜。便宜与否放一边,至少现如今,bots 的门槛很低,需要的不是软件人才,而是领域数据的人。于是,我看到一种前景,以前毕业即失业的语言学家、图书馆业人士,将来可能成为 AI 的主力,只有对数据和细节敏感的人,最终才是 AI 接口的血肉构筑者,反正架构是现成通用的。这个细想想是有道理的。这是沃森 API calls 的价格。

我:
这就回到我们以前议论过的话题。AI 创业,如果做平台或工具箱,初创公司怎么敌得过巨头呢?我觉得几乎是死路。

大而言之 做平台和工具箱创业的,历史上就没见过什么成功案例(不排除做了被收购那种,那也是“成功”,如果你的技术有幸被巨头看中:其实昨晚介绍的沃森系统的一个重要组件 AlchomyLanguage 就是收购的,洪爷知道收购的来路和细节)。

白:
麦当劳玩法,方便,质量可控,但绝非美食,虽然是“美”食。

我:
不错,这些巨头的 offerring 都是麦当劳式的流程。创业的空间,从工具角度,可以是中华料理的配方辅助工具之类。不过,还是那句话,最好绕过平台本身创业的思维,而是用巨头的工具或者自家建造匕首去做领域的 AI,这样的创业应该具有更大的空间和更多的可能性。

对于 NLP(AI之一种) 我写过 n 篇博文强调,所有的 offshelf 的平台和toolkit(譬如 历史悠久的GATE),甚至一个小插件(譬如 Brill Tagger or some Chinese word segmenter)都不好用。可以 prototyping 但如果稍微有点长期观点 要建一个大规模的NLP的应用,还是一切自家建造为好。当然,自家建造的门槛很高,多数人造不起,也没这个 architect 来指挥。但最终是,自家建造的胜出,从质量上说(质量包括速度、鲁棒性、精度广度、领域的可适应性等关键综合指标)。

巨头的工具箱的产品 offers 一开始也不赚钱,但他们的研发积累已经做了,且还在不断投入,不产品化成工具箱不是傻瓜吗,赚多少算多少。如果真到了AI bots 遍地开花的时候,他们凭借巨大的平台优势,赚钱也是可能的。小公司这条路没门吧。如果你的 offer 的确 unique,譬如是中华料理,譬如是伟哥的 parsing,你可能会吸引一批使用者。但想赚钱必须有规模,而 component tech 或平台工具之类,在小公司的环境中,是成不了规模的。所以不要想赚钱的事儿。

赚钱靠的是产品,而不是工具,这是AI创业铁律。

当然,通过平台或工具打出影响,做 marketing,曲线救国创业,另当别论。
回到 meet-up:

4. bots 构建的核心当然是 conversations 的训练工具。IBM沃森的工具用的是深度神经。

对于 bots,input 是确定的,就是用 bots 的人的输入。自然语言的语音也好 文字也好,语音反正也要转化为文字 所以我们面对的就是人机接口中的“人话”,理论上无止境 千变万化。

bots 的 output 呢?

在目前的框架里,在绝大多数实际场景,这个 output 都是以极为有限的集合
最典型的案例是为 apps(天气、股票、时间之类) 做 bots 作为 apps 的人机接口,
其 output 就是 app 里面的 commands 集合。于是 bot 产品定义为从无限到有限的映射,这是一个典型的分类场景。于是沃森提供这个深度学习为基础的工具帮助你训练你所需要的 classifiers,这是标准做法 无甚新意。

数据越多,分类质量越好。千变万化的死敌是稀疏数据。好在对于 bots,数据的收集会是一个边使用边加强的过程。如果你的 bots 开始有用户,你就形成了正循环,数据源源而来,你不断打磨、训练,这些都是可以 streamline 的流水作业,就越来越好。Siri 如此,Echo 也如此。

白:
分类本身是不带参数的,而bots的应对必须是带参数的,这是硬伤。
拿分类来做对话是看得到天花板的。

我:
I cannot agree more :=)

这里其实是有历史渊源的。IBM 做问答,一直是把问题简化为分类。18 年前我们在第一次 QA 竞赛(TREC-8)中交流 就是如此,这么多年这个核心做法一直不变。当时我们的QA成绩最好,得分66%,沃森的系统印象是40%左右,他们的组长就追在后面问,我们思路差不多呀,都是 question intents(我们叫 asking points,比多数 intents 其实更聚焦),外加 Named Entity 的support。我说我们还用到了语言结构啊。

直到今天他们仍然是没有句法分析,更甭提深度分析。他们当年的 QA 就是基于两点:
1. 问句分类:试图了解 intents;2. NE。有了这两条,通过 keywords 检索作为 context,在大数据中寻找答案,对于 factoid questions 是不难的(见【立委科普:问答系统的前生今世】)。这就是沃森打败人类的基本原理,一点也不奥秘,从来没有根本改变。现在这一套继续体现在其 bots 工具箱 offering 里面。

洪:

昨晚Watson讲座听,
今早广告已跟进。
IBM可真下本,
今天我试Bluemix云。

我:
2.  因此 conversations 训练,其核心就是两条:一个是 intents classification (这个 intents 是根据 output 的需求来定义的),一个 NE,不过 NE 是他们已经训练好的模块(NE有一定的domain独立性),用户只是做一些微调和增强而已。

顺便插一句,这几天一直在想,AI 现在的主打就是深度神经,所有的希望都寄托在神经上。但无论怎么神经,都不改 supervised learning 的本性:所以,我的问题是:你怎么克服缺乏带标大数据的知识瓶颈?

ok 你把机器翻译玩转了。因为 MT 有几乎无限的 “自然” 带标数据(其实也不是自然了,也是人工,幸运的是这些人力是历史的积累,是人类翻译活动的副产品,是不需要开发者花钱的 free ride)。可其他的 ai 和 nlp 应用呢,你还可以像 MT 这样幸运 这样享用免费午餐吗?

现在想,紧接着 MT 的具有大数据的热门应用是什么?非 bots 莫属。
对于 bots,数据已经有一定的积累了,其最大的特点在于,bots 的使用过程,数据就会源源而来。问题是 这些数据是对路的,real life data from the field,但还是不带标啊。所以,bots 的前景就是玩的跟数据打仗:可以雇佣人去没完没了地给数据做标注。这是一个很像卓别林的【摩登时代】的AI工厂的场景,或者是列宁同志攻打冬宫的人海战术。看上去很笨,但可以确定的是,bots 会越来越“智能”,应对的场景也越来越多。应了那句老话,有多少人工,就有多少智能。然而,这不是、也不应该是 唯一的克服知识瓶颈的做法。

毛:
嗯,有多少人工,就有多少智能。这话说得好。

我:
但这个景象成为常规 也不错 至少是帮助解决了一些白领就业。是用高级的专家知识去编写规则来提高系统质量,还是利用普罗标注去提高质量,从帮助就业和维稳角度看,几乎蛮力似的深度神经对于标注大数据的无休止的渴望和胃口,对于社会似乎更为有利。为了社会稳定和世界和平,我们该看好这种蛮力。我们做深度分析和理解的专家,试图尽可能逼真地去模拟人的智能过程,但对蛮力也应该起一份敬意。

将来的AI,什么人都可做:1. 你发现一个领域的 AI 需求; 2. 你雇佣一个对这个需求可以形式化定义的设计家; 3. 你调用巨头的一个通用的 AI 工具箱(譬如 TensorFlow) 或面向专项产品的工具箱(譬如 bot 的沃森工具箱) 4 你雇佣一批失业但受过教育的普罗,像富士康一样训练他们在流水线上去根据设计家的定义去标注数据、测试系统,你于是通过 AI 创造了价值,不排除你的产品会火。因为产品火不火已经不是技术了,而是你满足需求的产品角度。

3. 但是 正如白老师说的 这种用分类来简化问题的 AI 产品化,走不远。它可能满足一些特定领域的特定的需求 但是后劲不足是显然的。其中一个痛点或挑战就是,这种东西走不出三步,三步以上就抓瞎。如果你的应用可以在三步之内就基本满足需求,没问题。

bots 最显然的有利可图的应用场景是客服。一般而言,bots 取代和补充客服是大势所趋,因为客服的知识资源和记忆,根本没法与我们可以灌输给 bots 的知识来相比。利用知识去回答客户疑问,人不如机,是可以想见的。但是 观察一个好的客服与客户的交互 可以发现,三步的交流模型是远远无法满足稍微复杂一点的场景的。三步的说法是一个比喻,总之是目前的工具箱,对于较长时期的对话,还是束手无策。

bots 对用户话语的理解简化为 classification,以此为基础对用户的回答就不是那么简单了。目前提供的做法是:因为 intents 是有限的集合,是 classification 的结果,那么对于每一个 intent 可以预知答案(存在数据库的 hand-crafted text snippet)或回应(譬如展示一个图,譬如天气app的今日天气图表)。 这些预制的答案,听上去非常自然、生动甚至诙谐,它们都是领域专家的作品。且不说这些预制的 snippets,如何根据classification hierarchy 本身需要做不同组装,在存于数据库里面的核心应答的预制以外,还可以加上情感的维度,还可以加上 personalized 的维度,这些都可以使得对话更加人性化、自然化,但每加一个维度就意味着我们开始接近组装式策略的组合爆炸后果。三步、三维以上就无法收拾。

我问主讲人,你的这些预先制定好的应答片段,按照你的工具的组装方式,不就是一个 decision tree 吗?回答是,的确,就是一个 decision tree 的做法。然后她说,有不少研究想突破这种应答模式,但都是在探索,没有到可以产品化工具化的阶段。

郭老师说,谁要是有本事把人机的 “自然对话”能够延长到 20 分钟,换句话说 就是突破图灵测试,谁就是 AI bots 的真正破局者。如果你证明你能做到,巨头会抢着来高价收购你的。这是所有做 bots 的所面临的共同挑战。

据说小冰最高记录是与单一的人谈了九个小时的心。但那不是真正的突破,那是遇到了一个异常人类。正常的人,我的体会是两分钟定律,你与小冰谈话 超不过两分钟。我试过多次,到了两分钟,它所露出来的破绽就让你无法忍受,除非自己铁心要自我折磨。其实 工业界要求的连续对话,不是小冰这种闲扯。而是针对一个稍微复杂一点的任务场景(譬如订票)如何用自然对话的假象去把相关的信息收集全,来最大限度地满足客户需求。

累了,先笔记和评论如上。其余还有一些有趣的点儿可以讨论,以后再说。这是交给我们唐老师的作业。

郭:
Amazon’s $2.5M ‘Alexa Prize’ seeks chatbot that can converse intelligently for 20 minutes

洪:
亚马逊正设大奖,
chatbot赛悬赏。
对话若超廿分长,
两半米粒到手上。// 2.5M

【相关】

立委科普:问答系统的前生今世

Amazon’s $2.5M ‘Alexa Prize’ seeks chatbot that can converse intelligently for 20 minutes

微软小冰,两分钟定律

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录  

http://blog.sciencenet.cn/blog-362400-1021860.html

上一篇:【语义计算:从神经机器翻译谈起】
下一篇:【从V个P到抓取邮电地址看 clear patterns 如何抵御 sparse data

 

1  周健

发表评论评论 (3 个评论)

删除 |赞[2]张海涛   2016-12-20 10:32
当年的Watson是建在UIMA(Unstructured Information Management Architecture)的基础上的,确实使用Prolog(The Prolog Interface to the Unstructured Information Management Architecture,https://arxiv.org/ftp/arxiv/papers/0809/0809.0680.pdf)。

删除 |赞[1]张海涛   2016-12-20 10:05
“IBM沃森的工具用的是深度神经。”
"直到今天他们仍然是没有句法分析,更甭提深度分析。"
当年Watson打败Jeopardy!冠军后,IBM Journal of Research and Development出过专辑,对于Watson的构造的描述好象不是这样的。比如parsing是这样描述的:http://ieeexplore.ieee.org/document/6177729/
“Two deep parsing components, an English Slot Grammar (ESG) parser and a predicate-argument structure (PAS) builder, provide core linguistic analyses of both the questions and the text content used by IBM Watson™ to find and hypothesize answers. Specifically, these components are fundamental in question analysis, candidate generation, and analysis of passage evidence. As part of the Watson project, ESG was enhanced, and its performance on Jeopardy!™ questions and on established reference data was improved. PAS was built on top of ESG to support higher-level analytics. ”

现今的Watson的建构和多年完全不一样了吗?

 回复  : Thanks.  Good to know.

2016-12-20 14:101 楼(回复楼主)

【语义计算沙龙:三角关系的 chemistry 种种】 屏蔽留存

【语义计算沙龙:三角关系的 chemistry 种种】

屏蔽已有 1963 次阅读 2016-9-6 23:25 |个人分类:立委科普|系统分类:观点评述| 歧义, 结构, 句法, 中文分析

白:
朴泰恒小组成绩不好,今天不一定能进决赛
上面例子,“小组”怎么摆,是个考验。
原意是“在小组赛阶段的”

梁:
朴泰恒今天小组成绩不好。
孙杨小组第一。

白:
以人命名的小组也是存在的

梁:
是啊,感觉“小组成绩不好”是谓语。这里小组也不是“朴泰恒的小组“,考验来了。

我:
不是说大数据吗 看 某某某小组 是不是够资格

t08061

t08062

t08063

t08064

t08065

梁:
@wei 很棒! 有个 Topic.

宋:
@wei 确实很好。但是确实能区分两种“小组”,还是只顾一头?

我:
没有大数据,应该是只顾一头吧,可以试试另一头的典型案例

宋:
即使有大数据,还得区分时代、地域、行业等,不好办。
而且,这就成了有监督的学习了,需要做语料标注。

白:
不一定宋老师。可以词典里离线加标签,目标文本在线只需计算标签密度,不涉及监督学习。

宋:
具体解释一下吗?

我:
词典习得本质上是无监督的 ngram 频率做底。假设北京大学不在词典 应该可以学出来,某某某小组 亦然。白老师说的是在线词典化 通过现场计算。

宋:
@wei 就这个例子而言,对比“朴泰恒小组”和“朴泰恒……小组”的频率,是吗?

我:
能不能解决这个问题:北京大学、中学、小学要立刻全部动员起来
xyz 相交切分的通则:xy 强 还是 yz 强,这个道理上可以在线检索计算
“北京大学” 还是 “大学、中学” 强

宋:
如果看作交搭型歧义问题,那么在大数据中,肯定是“小组成绩”频率高过“朴泰恒”的频率,除非朴泰恒这个人太红。因此,以此决定句法结构,似乎理由不足。

我:
人是怎么决策的呢?
这里可能涉及大数据的范围问题。
数据不是越大越好 尤其不能杂 大而杂 就把领域抹平了,而很可能这是领域知识

宋:
对,我糊涂了。

白:
其实,和人名结合是兜底的,要学的只是不和人名结合的高频词串。
向右结合的条件不满足,就默认向左好了。
大数据不是这么用的。

宋:
不过无论如何,一般来说,X小组 比不上 小组成绩。这里是领域知识问题,不大好用词频去处理。

我:
先说一下篇章现象 one sense per discourse.
如果同一篇中 还有 某某某小组 再现。那个原则是过硬的 可以 在篇章内搞定,这时候大数据认输。

宋:
张三小组第一,李四小组第二。

白:
@宋柔 这个是歧义

我:
分为四级
第一级 是词典绑架 北京大学基本如此
第二级 是篇章原则
第三级 是领域数据
第四级 才是大数据 超领域的
涉及到专名 术语的 走不到超领域的大数据,大数据抹平了领域知识 反而不妙

白:
词例级如此,特征级未必
特征级可以把xx小组一起拿上来统计。

我:
明白。不过具体操作起来,还是一笔糊涂账。xxx 小组 与 小组成绩 打架,要赢多少 算赢?在多大的数据里?如果特别悬殊 好说,稍微有些接近 就是烂帐,or 烂仗。

白:
另外,针对篇章可以计算特征密度,如果某种特征密度显著比其他特征高,也可用。比如体育特征显著,“小组”做前缀就优先级较高。

宋:
我在11年人民日报中检索,“小组赛”1013次,“小组成绩”4次,“小组赛成绩”两次,人名+小组3次。对于一个毫无体育比赛知识的人,如果有一般的比赛知识,知道比赛会出成绩,就能推知“小组比赛”是一个短语。首先是从黏着的“赛”黏着到“小组赛”,知道有“小组赛”这个术语,并能理解这是分小组而比赛。由于知道比赛会出成绩,就能推知“小组成绩”是一个短语,指某人在小组赛中的成绩。人名+小组7次,但都与体育无关:赵梦桃小组,郝建秀小组等,都是棉纺厂的。一个人,没有体育比赛知识,但有一般的比赛知识,又有语言知识,就可以有这样的推理

我:
“周恩来思想深刻 谈吐幽默”,vs. “毛泽东思想深刻”
“思想” 与 “小组” 类似

宋:
1940年代以前,汉语中好像没有“人名+思想”作为一个词的。此后,“毛泽东思想”频率越来越高。但其他人名+思想就不能成词。

我:
这个政治有意思:从此 其他 人名+思想 成为禁忌:我花开来百花杀啊。

白:
@宋 “小组循环赛”“小组出线”“小组第一”……等各种组合均以“小组”为前缀,如果只对实例,其实比“朴泰恒小组”好不到哪里去。统计频度多一点少一点都做不得结构优选的依据。但是如果抽象地考察“前缀模式”和“后缀模式”的优先程度受什么影响,必然会追溯到特征以及特征在篇章中的密度分布。如果“体育”或“竞赛”特征及其密度优势显著,“小组”倾向于做前缀,否则倾向于做后缀。如果前缀所带的实例碰巧在大数据里固然好,不在,也可通过特征及特征密度间接获得友军的支持。同样,如果“人名”“任务名”特征或特征密度显著,“小组”倾向于做后缀。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1001313.html

上一篇:【中文处理小品:1234应犹在 只是56改】
下一篇:大加速器的意义有明面儿的和背面儿的

【没有翻不了的案子,兼论专家vs学习的现状】 屏蔽留存

【没有翻不了的案子,兼论专家vs学习的现状】

屏蔽已有 1985 次阅读 2016-7-22 23:53 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 自动分析, 专家系统, 深度神经

白:
分层不是要害,one way才是

我:

什么叫 one way? 没有不可推翻的。原则上讲,如果某个现象足够突出,值得去做,NLP 就没有翻不了的案子。连毛太祖钦定的文化大革命都全面否定、彻底翻案了。

Parsing的分层设计本身隐含了语言学的流程和算法,但与一切的语言学规则一样,规则的背后就是例外。只不过规则及其例外构成的 hierarchy 在同一层表现,而分层的例外则在 pipeline(管式)中处置。经常是做几层 就加一层 patching 做例外处置或修正,也有留到最后通过【词驱动】(word-driven)去唤醒的。词驱动不单单是词,可以是任意可能 trigger 歧义休眠及其唤醒的 ngram。(非词驱动的唤醒,如果需要,还需要研究,目前不太清晰。)但凡是可以词驱动的,问题就不大,因为词驱动聚焦了特定的歧义现象,错误的 parse 在聚焦为有限子树patterns以后是可以预计的,当然也就可以修正。错误不怕,就怕错误不可预测。可预测的 consistent 的错误,在管式架构下不是挑战,不必担心其 error propagation,如果设计者具有“负负得正”的准备和机制的话。

白:
唤醒的ngram再进一步,就是一个CNN了。parsing用明网RNN,休眠唤醒用暗网CNN。相得益彰啊。

我:
听上去高大上,cnn fox abc 呵呵

白:
多层卷积

我:

我骨子里是相信数据的,相信大数据的自动学习,因为太多的语言细节隐含其内,终归是可以挖掘出来帮助parsing和理解的。但不大相信短期内可以改天换地,匹敌专家的经验积累。

syntaxnet 已经被我剁成稀泥了。但同时也注意到 statistical parsing 的精度在最成熟的文体 news 方面,很多年 stuck 在 80 以下,syntaxnet 确实突破了 90,这个成就让他们忘乎所以一把、吹点不符合实际的牛也是情有可原的,虽然多年前我们就把规则系统做到了 90 以上的parsing精度,当时的感觉是理所当然,貌似苦力不值得弹冠相庆(不是蛮力,当然也不可能仅仅是力气活,还有架构者的设计匠心和类似 dark art 一样不可言传的绝技,譬如经年经验加研究而来的 NL“毛毛虫”的formalism及其实现,等等)。没有炫耀,就这么一直默默地领先了“主流”很多年。

虽然仍然无法匹敌规则系统,但深度神经的运用的确使得统计型parser有了新闻领域内的90的突破。很好奇他们如今用了多大的训练库,还用了什么 tricks(据报道行内达人声称真正能玩转深度神经系统的大牛全世界不过百人,因为里面不仅仅是科学,还是 art),其他人多快可以重复结果?最后的大问题是,cnn rnn 等深度神经的牛算法,多快可以移植到新的文体、新的domain和新的语言,这种成功移植的最低条件(譬如最少需要多大的带标数据)是什么。未来的某个时候,如果新的文体新的语言,就像流水线一样,可以高质量快速自动学习出来一个个可应用的 parser 出来,语言学专家们也就死得其所,可以安然地“永垂不朽”了。

不过,在共产主义神经大同真能实现之前,专家还不愁饭碗。

在 parsing 这个NLP核心任务方面,要赶上专家的系统质量也并非易事,因为专家的系统已经证明可以做到非常接近人的分析水平,而且文体和领域独立,鲁棒、线速且可以 scale up,这对学习有诸多挑战。Deep parsing,专家一边是 production system,已经达到实用的高度,学习一边还是 research 在努力追赶,这就是 parsing 质量的现状。可很多人误导或被误导,把深度神经未来可能的成功当成现实或铁定,完全无视专家系统现实的存在。

【相关】

Is Google SyntaxNet Really the World’s Most Accurate Parser?

立委科普:歧义parsing的休眠唤醒机制再探

【泥沙龙笔记:语法工程派与统计学习派的总结】

《新智元笔记:NLP 系统的分层挑战》

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

NLP 是一个力气活:再论成语不是问题

【科普随笔:NLP主流的傲慢与偏见】

关于NLP方法论以及两条路线之争】 专栏:NLP方法论

【置顶:立委NLP博文一览】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-992281.html

上一篇:【随笔:台湾不可小觑】
下一篇:Is Google SyntaxNet Really the World’s Most Accurate Parser

Dr Wei Li on NLP (English) 屏蔽留存

Dr Wei Li on NLP (English)

屏蔽已有 2099 次阅读 2016-6-17 20:34 |个人分类:立委科普|系统分类:科研笔记| NLP

【置顶:立委科学网博客NLP博文一览(定期更新版)】  

http://blog.sciencenet.cn/blog-362400-985260.html

上一篇:Deep parsing 每日一析 半垃圾进 半垃圾出
下一篇:【河东河西,谁敢说SMT最终一定打得过规则MT?】

"快叫爸爸小视频" 的社会计算语言学解析 屏蔽留存

"快叫爸爸小视频" 的社会计算语言学解析

屏蔽已有 2529 次阅读 2016-6-21 11:35 |个人分类:立委科普|系统分类:科研笔记| 大数据, 社会语言学, 词汇演变

“快叫爸爸小视频” 这样的东西 有社会语言学的味道 随着时代和潮流翻滚。在微信朋友圈及其提供的小视频功能风靡之前 小视频不是术语 不是合成词 也没有动词的引申用法。它就是一个定中结构的 NP,在句型中等价于说”把爸爸叫做小视频”,虽然常识是 “人(爸爸)不可以等价于物(视频)”。在语言的强制性subcat结构(叫NP1NP2)里面,常识是没有位置的。句法不需要顾及常识 正如 “鸡把我吃了”的违反常识一样 也正如乔姆斯基千古名句的 green ideas。
可是 社会语言学登场了 语言被置于流动的社会背景之下,小视频成了 technical term,然后又从术语融入了语言共同体的动词用法,正如谷歌从术语(专名)变成动词一样: “我还是先谷歌一下再回应吧”,“快小视频呀”,“一定要小视频这个精彩时刻”。
白:
“一下”强制“谷歌”为动词。半个括号已经有了 另半个没有也得有。
我:
于是 subcats 开始 compete,有了 competition,有了结构歧义 就有了常识出场的理由。顺应常识者于是推翻了句法的第一个 reading。
白:
你是我的小苹果,怎解?
我:
“你是我的小苹果”是强制性的句法啊,无论怎么理解这个苹果(到现在我也没有理解为什么把爱人或意中人叫做小苹果,是因为拿高大上的苹果比喻珍贵吗?)都与常识无关:你是我的 x,就是强行的句法等价关系。
“一下”强制“谷歌”为动词 这一类看似临时的强制 在语言共同体中逐渐从临时变成常态后就侵入了词汇。换句话说,“谷歌”在以前的词典里面是没有也无需“潜在动词”的标注(lexical candidate POS feature),因为几乎所有的动词用法都是零星的 句法强制的 无需词典 support 的。但是随着语言的发展 “谷歌”的动词用法逐渐变成了语言共同体司空见惯的表达方式(其动词用法的流行显得简洁、时髦甚至俏皮),这时候 语言的用法被反映在语言共同体的集体词汇表中,我们模型这个共同体的语言能力的时候 就开始标注其动词的可能性了。
金:
厉害,这抠的!金融语义在一边看热闹
我:
或问:这词典里面标注了(反映的是共同体集体意识到这种用法的流行)和不标注 有什么区别?
当然有区别。标注了 就意味着其动词用法作为一个合理的路径 参与 parsing 的正常竞争;不标注 虽然也不能排除临时的动词用法 但是因为缺乏了底部的词典支持 其动词用法的路径是默认不合法,除非句法(包括词法)的context逼迫它成为动词,这就是 “一哈”的所谓强盗句法: 不仅词典是绑架的天堂,句法也可以绑架。
白老师说:“兼语理解(叫某人做某事)有谓词性的坑不饱和,双宾理解(叫某人某称呼)有体词性的坑不饱和。如果拘泥于结构,二者半斤八两。但如果结合语境,非兼语理解是颠覆性的,兼语理解是常识性的。放着常识性的理解不选选择颠覆性的理解,说明心头的阴云不是一天两天了。冰冻三尺。
重温一下白老师 作为对比,字字玑珠,而且妙趣啊。“冰冻三尺”就是社会语言学。

也可以说,冰冻三尺就是大数据
我:
我们学习语言学 模型句法 绝大多数都是针对现时的 把语言看成是一个静态的剖面 来研究它 模型它。这个也没大错 而且简化了问题。但是语言是流动的 社会语言学强调的就是这个流动性。流动自然反映在大数据中。因此对于静态的语言模型 需要不断的更新 如果有大数据 那就定时地 check 它。
白:
有个动态更新的中间件就够了
我:
陈原是个大家。他写的社会语言学很有趣味。在世界语场合 有幸聆听过陈原先生的世界语演讲:那个才华四射、感染力和个性特色 让人高山仰止。人家做语言学是业余 本职工作是出版商。据说是中国最权威的出版家,也是个左派社会活动家。
洪:
虽然解放初才入党,但应该早就是中共地下党员,三十年代初就在三联当编辑,胡愈之邹韬奋的部下,以前《读书》上一直有陈原的《在语词的密林里》
我:
陈原的那次演讲 与 黄华(我做翻译的那次)的演讲 都有一个共同的特点,就是表情丰富、富于感染力,能感受到人的 personality,都是“大家”。
aaa

【相关】

我的世界语国》《朝华午拾:欧洲之行

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-985924.html

上一篇:【河东河西,谁敢说SMT最终一定打得过规则MT?】
下一篇:Deep parsing 每日一析:内情曝光 vs 假货曝光

 

2  李颖业 张云

计算语言学的尴尬 屏蔽留存

计算语言学的尴尬

屏蔽已有 4087 次阅读 2016-6-22 15:06 |个人分类:立委科普|系统分类:教学心得| 计算语言学

白:
我关心“老婆情人”在那个语境下为啥不是定中结构。
老王卖瓜自开涮,
创新形容瓜特甜。
老婆情人小三见,
买回刀劈报仇般,
我:
没看懂。似乎有个 context:
老婆情人小三见 == 老婆情人见小三 or
老婆情人小三见 == 老婆见情人小三 ?
诗人特权害死人
Nick:
老婆情人小三见==三缺一
洪:
老婆/情人/小三见
两者兼顾,读诗看图,歧义何出?误解消除。
情人/小三,心理概念;原型维度,因人而殊。
RW:
情人/老婆,心理概念;原型维度,因人而殊。
我:
情人(lover)与小三当然不同。小三虽然没有法统地位,但既然排了次序,就有了事实的地位(“事实婚姻”的事实)。因此还有小四小五之说,这个次序也可能有新来后到的意思,或反映了喜新厌旧,数字越大新人可能越受“老爷”的宠(沿袭三妻四妾的旧制度思维),虽然事实的地位在俗众的心目中似乎越低。
陈:
情人一般是有夫之妇?小三是未婚?
我:
情人比较浪漫,超脱,爱情唯上。与世俗的地位和次序脱钩,倒是有某种秘密的刺激。
Nick:
小三是有上位企图的,情人没有。so情人就是炮友的意思。法国人那种关系都叫情人?我:
情人一旦转成小三 就低下了浪漫的头 失去了独立性 成了金屋藏的娇。广义的情人 也可以转成夫人 实现从浪漫到世俗的脱胎换骨。窄义的情人 专对已婚而言 那是法国英国贵族爱玩的公开的秘密游戏。
白:
你们都是发散思维,就我死啃一个点,结果没人回应。
我:
白老师的问题是老婆小三之间的顿号,是怎么进入人的语言心理的?虽然根本就没看见顿号的影子。为什么顿号不是“的”?
为什么呢?因为大数据!
白老师这次不是“窃喜”,而是感叹心有灵犀了吧
@白老师 “大数据” 是不是你心中老婆情人parsing的标准答案
白:
@wei 大数据中,老婆情人的对举用法远多于修饰用法,这是肯定的。另外老婆的情人有个更简约的用法“情敌”,放着不用偏要拐着弯说,浪费能源。现实中两个因素都在起作用。
我:
白老师的问题是太能干 这个世界不够他玩的。又是语言学 又是金融平台 又是什么块什么链。否则的话 拉出来我们搭个档 做做 NLP 多刺激。就依照你那个 RNN 还是啥的路子走。别人的路子不敢信服。别人也很少懂这一边。
白:
身不由己啊
我:
说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。白马非马 计算语言学亦非语言学 只剩下语言的计算 这就是【计算语言学】的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。
但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊 主流可以不转眼珠 可是心里并不是想象的那么有底气 一个潮流来 可以鸡血一下 忘记幽灵的飘荡 但幽灵始终徘徊。

 

【相关】

【文傻和理呆的世纪悲剧(romance tragedy)】

【科普随笔:NLP主流的傲慢与偏见】

没有语言学的 CL 走不远

老教授回函:理性主义回摆可能要再延迟10几年

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

发布于

http://blog.sciencenet.cn/blog-362400-986168.html

上一篇:【河东河西,谁敢说SMT最终一定打得过规则MT?】
下一篇:Deep parsing 每日一析:内情曝光 vs 假货曝光

 

5  武夷山 闵应骅 郑小康 刘钢 邱嘉文

发表评论评论 (2 个评论)

删除 |赞[1]闵应骅   2016-6-22 15:45
别说是你这里那复杂充满歧义的诗,就是普通的语言,也有许多不是计算语言。所以,我一直相信:计算和自然语言、人工智能,差远去了!
 回复  :   

2016-6-24 00:011 楼(回复楼主)

deep parsing (90/n):“雨是好雨,但风不正经”】 屏蔽留存

【deep parsing (90/n):“雨是好雨,但风不正经”】

屏蔽已有 3033 次阅读 2016-6-24 14:36 |个人分类:立委科普|系统分类:科研笔记| parsing, 句法分析, 中文处理

Deep parsing 每日一 fun: 雨是好雨,但风不正经

气象局通知~~~原约定今日凌晨来的暴雨,因半路上被堵,耽误了点时间,或许今天下午到夜间赶到。这场雨如果下大了肯定不小,下小了也肯定……不能大,请市民再耐心等待!具体情况等气象台会上研究后报给市民。气象台温馨提醒:今天如果不下雨,明天不下雨的话,这两天就没有雨了,等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子,容易被撩,雨是好雨,但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a
QUOTE:

说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。做了一辈子的某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

 

http://blog.sciencenet.cn/blog-362400-986563.html

上一篇:【立委科普:NLP核武器的奥秘】
下一篇:【语义计算沙龙:坐而论道谈“的”“地”】

 

1  郭战胜

deep parsing 小讲座】 屏蔽留存

立委科普:deep parsing 小讲座】

屏蔽已有 2866 次阅读 2016-5-26 23:59 |个人分类:立委科普|系统分类:教学心得| parsing, 语义, 句法歧义, 语用

就上面的parsing实例开一个小讲座吧。群里的学生辈的提问,老师辈的指正。

上图中显然把 “还” 分析错了,道理也明显,因为“还”这个词是特别常用的小词,副词性质,但在此句是用作动词,意思是“归还”。这样的错误就需要系统做细功夫去应对,因为稍不留神,你解决了这个 case,你引起更大的问题,毕竟在绝大多数场合还是个小词嘛。怎么个细活:可以考虑 “还” 与“信用卡” 的 动宾搭配,等于是把“洗澡”类的搭配延伸一下就可以了。

上图第二句的分析,就是我以前说过的结构歧义的应对。你看整个句法树,有三个 O (宾语) 的路径。其中两个是正确的【到-上海】; 【买-上海的飞机票】。第三个 O 【到-上海的飞机票】 是不对的。可以说,“到上海”和“买飞机票”,但不可以说“到飞机票”。这类结构歧义在汉语特别普遍,因为汉语没有宾格,加上汉语的小词 “的”的辖域是一个很大困扰。

在实践中,我们的策略就是句法分析尽量保存歧义(keep ambiguity),把可能的途径全部标示出来或休眠起来,这样就为下一步的语义模块(我叫语义中间件)或者下一步直接做语用层面信息抽取的模块,打下了修正和利用的基础。下面的问题就是,休眠了或保留了多种结构歧义,但是到用的时候(语义落地为产品的时候),唤不醒或辨不清真想要的正确路径怎么办?

这话说起来长了,但简单的回答是,在句法阶段,我们的 parser 核心引擎是独立于 domain 和应用场景的,同一个 parser 可以为各种中文应用服务(舆情,问答系统,自动文摘,智能 bots,等等)。因此,要识别保留或休眠尽可能多的结构歧义路径,不要勉强去排歧。但是到了具体语义落地为产品的阶段和模块,我们就进入了应用的语用考量,换句话说,我们的语义目标聚焦了,或者我们的 domain 固定了。这时候,排歧的条件就比漫无目标的大海一样的句法阶段好太多了。譬如我做舆情,我就聚焦到舆情相关的歧义上,而整个语义大海的其他部分就隐去了,这时候,我因为所有的路径都还在,我就可以根据聚焦以后的词驱动规则去做合适的选择。

理论上讲,词驱动的细线条排歧也可以糅合到句法阶段去做,但是那样的话,你面对自然语言大海,你的核心引擎,就会太庞大了,即便你有能力和资源一点点去做词驱动。这样也是不合适的,因为你很可能做了很多无用功,而且很难维护。事实上也不现实:聚焦与不聚焦大不一样。到了应用场景,问题都是聚焦的。有经验的NLP系统架构师不会那么做。

当然,如果某个语义排歧对于很多应用都可以预见有好处,那么也可以在句法模块以后,进入产品应用之前,做一个语义中间件去做这个工作:句法 --》 语义 --》 语用(语义落地)----》支持产品应用,句法模块是核心,是核武器,但是不要叠床架屋,陷入语义泥潭。条件创造好,后去还有语义中间件可以做一些工作,最后在语义落地的语用层面,因为语义聚焦了,有些难题也可能自然消解和简化了。

这才是NLP做产品的正道、王道。

再进一步说一点,为什么同样一个歧义的难题,后面做,比前面做要合理和合适?道理就在,自然语言太复杂,我们需要分而治之,一步一步从浅层做到深层。在句法规则做线性的模式匹配的阶段,我们的上下文视野是有局限的,局限于线性序列的羁绊。过了句法阶段以后,我们就有树结构了,这时候,我们的上下文条件就清晰了。你想啊,一维转二维了,通过一个 graph(术语叫 dag)来看结构中的上下文,与通过一个线性序列来看上下文,前者比后者的排歧条件好太多了。线性的结构化是NLP的一个质的飞跃。结构图中的 patterns (就是 sub-trees)可以从任一个合适的角度去概括。

其实你们也已经能看到,我现在的这个 deep parser 不是完美的,你总可以发现这里那里的错误,这是所有的 real life 系统免不了的。但是,所有这些错误,都不会总体影响句法分析的进行。错误被局限在局部范围内,这就是我一再强调的,要自底而上层层推进。这样的系统才鲁棒,才能落地为产品。

【外一则】

说说做 deep parsing 的体会吧。

中文的确缠人一些,多数欧洲语言的deep,难度也没那么大。做细了当然要功夫,但总体难度不比 chunking 大,对于俄语和德语,就更容易。

这就跟谈恋爱结婚一样,两个 XPs 看对眼了,眉来眼去觉得条件合适了,就结合了。动名形这些大词有 subcat 的细类,决定与谁谈恋爱。至于 Modifier 和 Adveribial,就直接去傍大款,找靠山。找到了,就投身做小了。不像subcat的明媒正娶,做小的可以有n个,小三啊小四啊。

最后大家差不多都配对了,那就合成了一个共产主义大家庭,分析树就形成了。共产不共妻,虽然在一颗大树下,里面的小两口还是有向直接联系的,不与他人共享或混杂。大家庭里面的核心仍然是小两口为主的 argument structures。

可叹的是这种结构秩序与人类或commnity大家庭一个德性,就是处处不平等。(生来人人平等之所以成为口号和我们世世代代的理想,乃是因为人类社会从来也是不平等的。)

主语谓语小两口,谓语做主。动词宾语小两口,男尊女卑,动词决策。至于小三小四的时间地点程度原因结果等等条件状语,甭管她们多么体贴,多么面面俱到,根本就是二等三等公民。到了修饰语的小五小六们就更惨了,那是大家庭的佣人,与奴隶无异,根本就上不了台面,只能伺候着主语宾语这些小主子,远远望着老爷。

语言成分的 hierarchy 啊。

【后记:新智元语义计算群的相关讨论笔记】

白:

伟哥的两个例子做些补充:一是兼语动词的提示作用:“提醒sb做sth”是一个比较成套路的用法,尽管不是“提醒”的唯一用法,但是会给“还”的动词义项加分;二是“明天到上海的飞机票”从填坑角度出现错配,因为飞机和人到上海才是关键,票到不到上海(物理上)并不是最主要的问题,客票电子化以后,不出票、不打印票、事后打印票的情形大量存在,语言处理上理解为“明天到上海的飞机+票”才更符合填坑的规范,知识处理上“明天”和“去上海”都来填“飞机票”的坑才是正解。

宋:

明天到纽约的飞机票呢? 明天起飞,后天到,也可以说明天到纽约的飞机票. 再加上时差,就更糊涂了。得允许糊涂。

白: 哈

首先是,时间词和介词短语可以并列修饰“飞机”,但不是修饰“飞机票”?再说,里面可能有隐含动词,比如“起飞”?细究起来,买的是“航班服务”,票是享受航班服务的凭证,但是已经虚化了(没有相应物理实体)。航班服务有许多选项,出发地、目的地、起飞时间、航空公司、服务等级(舱位)、乘机人之类。那个是知识层面的事情。语言层面究竟做什么,除非之间把“飞机票”就当作“航班服务”,买凭证是面子,买服务是里子。“明天”是服务开始的时间,与“去上海”并列,共享那个“的”。“飞机票”和“去上海”不是填坑的关系。“去上海的航班”,是说以去上海为内容的航班,航班本身不填坑,反而是去上海要填航班的坑。

宋:

明天和到上海可能是并列关系,也可能是状中关系。并列关系时说的是起飞时间,状中关系说的是到达。有歧义。正式的通知需要更精确的表达方式。

白:

正式无歧义的表示是“明天飞往上海的航班”。考虑到时差,甚至可能是“昨天到夏威夷”。“往”的参照点是未然,“到”的参照点是已然。“去上海”也比“到上海”准确。伟哥原文是“去”,我中间跟“到”混用了。“明天去上海”作为定语从句可以成立了,但不是提取结构,不发生向从句内部的填坑。不是提取结构,就只能是总括结构,被修饰成分以修饰成分为内容。也就是说,被定语从句修饰的“飞机票”是属于那个非标配的小集合的。

宋:

考虑到时区的差别,说话人与听话人是否在同一个时区,说话人是以自己所在的时区为参照还是以听话人所在时区为参照也是影响意义的因素。

白:

伟哥分析树原文是“到”,后面也有与“去”混用。套近乎的话,就应该说“来”而不是“去”。“往”和“到”是相对于过程的,“来”和“去”是相对于说话人的。把听话人的参照点赋予说话人,是一种套近乎,就跟“咱”类似。

宋: 可计算吗?

白: 也不排除狗比狐狸算得更深

宋: 这个例子能否说明下棋程序有空子可钻?

白: 空城计也是,诸葛亮知道司马懿知道诸葛亮谨慎,所以反常理而行之。如果狗知道狐狸知道狗信守承诺,而且狗知道狐狸在关键时刻不信守承诺,就可以将计就计。然后还可以作无辜状。

我:白老师在绕口令呢? QUOTE 如果狗知道狐狸知道狗信守承诺,而且狗知道狐狸在关键时刻不信守承诺,就可以将计就计

宋: 知道应改成认为。

白:或者认定。计谋的逻辑。

宋:对,认定。

我:

不尽如人意,也懒得调了(有一个patching没到位,掉链子了)。这话非白老师宋老师这样的大知识分子不能说的。也是乔姆斯基毛毛虫的毛边了,不值当花气力了。

白: 有主观性。对有主观性的认知作主观性的表达,反而更客观。

还有“回”。伟哥在美国出生的孩子第一次来中国,也叫“回”,是吧?

我: 甜甜从来都是把中国当成外国 但她知道这是对她最重要的外国

QUOTE 甜甜自记事起,就住在这里,水牛城自然是她心目中不可替代的唯一故乡。记得四年前第一次带甜甜回北京探亲,第一天的晚上住在姥姥家,一切对她是那么陌生,没有她已经习惯的美国卡通电视,她满脸委屈地吵着闹着要回家(“I want to go home!”)--当然是回水牛城的家。我告诉她这就是家呀,是妈妈的家,她怎么也无法认同。

from 《朝华午拾:乡愁是一张无形的网》

【相关】

【立委科普:美梦成真的通俗版解说】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

《新智元笔记:NLP 系统的分层挑战》 

 《泥沙龙笔记:连续、离散,模块化和接口》 

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】 

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 - 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

【置顶:立委科学网博客NLP博文一览(定期更新版)】  

http://blog.sciencenet.cn/blog-362400-979987.html

上一篇:【泥沙龙笔记:强人工智能的伟哥测试】
下一篇:【新智元笔记:工程语法与深度神经】

 

3  庄世宇 xlianggg bridgeneer

学习乐观主义的极致,奇文共欣赏】 屏蔽留存

泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

屏蔽已有 2821 次阅读 2016-5-20 05:58 |个人分类:立委科普|系统分类:教学心得| 深度学习, 程序猿, 规则系统

洪:

大数据上火车跑,

告别编程规则搞。

garbage in & garbage out,

烧脑码农被废掉。

AI不再需要“程序猿”,未来数据比代码重要-新智元-微头条(wtoutiao.com)

我: 最近心智元那篇深度学习要代替程序猿的译文很有看头,是学习(ML)乐观主义的极致,但又呈现了两条路线合流的某种迹象,有的可唠。白老师洪爷尼克一干人熟悉ai两条路线你死我活斗了半个多世纪的,跟我党10次路线斗争类似,看这篇的极端乐观主义,最终宣告斗争结束世界大同的架势,可以评评掐掐。抛几个玉看能不引来啥砖砸。

【1】 quote:编程将会变成一种“元技能(meta skill)”,一种为机器学习创造“脚手架”的手段。就像量子力学的发现并未让牛顿力学失效,编程依旧是探索世界的一种有力工具。但是要快速推进特定的功能,机器学习将接管大部分工作。

这个说法听上去怎么与白老师前一阵说的有类似或平行的味道?

洪:

这种鸡血文,可别仔细读,否则@wei 你就前功尽弃邯郸学步了

我:

它代表了这股“热”的一种极致。还是比ai取代或消灭人类,更加“理性”一些,调子是乐观主义的。

洪:

老@wei 你还是要待价而沽,找机会当老黄忠,杀一回nlp夏侯渊啥的,抖抖威风。赶紧做benchmark,你为刀斧手,syntaxnet啥的为鱼肉。

我:

杀一回nlp夏侯渊根本不是问题。

现在说的是取代程序猿,凭什么他们成为劳工中的贵族。

【2】 谷歌搜索真地从规则和 heuristics 调控正在过度到深度学习吗?这是里面爆料的新发展?

(benchmarking 我心里有数,稳操胜券:新闻媒体如果所报 94 为确,那么大家都已经登顶,基本不分伯仲,没多大余地了。一旦超越领域限制,哈哈)

我疑惑的是这个报料:quote 甚至,Google搜索引擎这座由人工规则建立起来的“大厦”也开始仰仗这些深度神经网络。2月份,Google用机器学习专家John Giannandrea替换掉了多年以来的搜索部门负责人,还开始启动一个针对工程师的“新技能”再培训项目。“通过培养学习机制,我们不一定非要去编写规则了。”Giannandrea告诉记者。

这个转移如果是真地,对于搜索这么大的一个产业,在根基上做这种转移,在这种热昏的大气候下,哈哈,是福不是祸,是祸躲不过,谷歌这座搜索大厦是不是面临倾覆的前兆?不过想来即便想在 existing 手工调控的搜索路线中夹带新货,management 也不会冒进,估计是逐渐渗透和试验,否则不是自杀?

关于这个,有一些背景,见我以前的博文:《再谈机器学习和手工系统:人和机器谁更聪明能干?

还有 [转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

Nick:

我赶脚伟哥最近修改resume和google开源parser有关系。再不改嫁就真砸手里了。

说到两条路线斗争,最极端的符号派当属定理证明,我最近在写篇定理证明简史。你们想听啥,告我一声,我再加料。

白:

那篇不需要“程序猿”的文章,理论上是错的,懒得转也懒得评。

我:

谁能证实谷歌搜索要走深度学习取代规则调控的路线?

Nick 真以为 SyntaxNet 对我是威胁吗?是一个 alert,是实。

南:

Nick大师逗你玩呢

我:

威胁还太远。alert 是因为确实没想到这一路在新闻领域训练能这么快达到94的高度,因为这个高度在我四五年前达到的时候,我是以为登顶了,可以喘口气,不必再做了。从应用角度,确实也是 diminishing returns 了,没有再做的价值了。如果想争口气的话,有些已知的地方还可以再做圆,那还是等退休没事儿的时候玩儿比较合适。

问题不在那里,问题在这儿:

【3】 领域转移和语义落地

机器学习的系统天生地难以领域转移,SyntaxNet 恐非例外。你花费牛劲儿,把各种 features 设计好,优化了,加上真正海量的训练数据,在一个领域 譬如新闻媒体,达到了最优的 benchmark 譬如 94%,但是一旦转换领域,performance 直线下滑是常见的问题。除非 retrain,这个谈何容易,不论。

陈:

新闻能做到的话,在其他领域,无非就是积累数据

我: 你的说法是经典的。

quote 当然,还是要有人来训练这些系统。但是,至少在今天,这还是一种稀缺的技能。这种工作需要对数学有高层次的领悟,同时对于“有来有往”的教学技巧有一种直觉。“使这些系统达到最优效果的方法差不多是一门艺术”,Google  Deepmind团队负责人Demis Hassabis说。“世界上只有寥寥数百人能出色地完成这件事。”

(这么说来还不错,世界上还有几百号大牛可以玩转它。另一条路线断层了,能玩转的会有几十人吗?)

以前就不断听说,同一个算法,同一批数据,甚至基本相同的 feature design,不同人训练出来的结果大不相同。虽然科学上说这个现象不合理,科学的东西是可以完全重复的,但是如果参杂了艺术或某种 tricks,说不清道不明的经验因素啥的呢。不用说得那么玄,重新训练的确不是一个简单的过程重复。

Self-quote:

问题的另一方面是,机器学习是否真地移植性那么强,象吹嘘的那么神,系统无需变化,只要随着新数据重新训练一下就生成一个新领域的系统?其实,谈何容易。首先,新数据哪里来,这个知识瓶颈就不好过。再者,重新训练的过程也绝不是简单地按章办事即可大功告成。一个过得去的系统常常要经历一个不断调控优化的过程。

说到这里,想起一段亲历的真实故事。我以前拿过政府罗马实验室10多个小企业创新基金,率领研发组开发了一个以规则系统为主(机器学习为辅,主要是浅层专名标注那一块用的是机器学习)的信息抽取引擎。我们的政府资助人也同时资助另一家专事机器学习的信息抽取的团队(在美国也是做机器学习很牛的一家),其目的大概是鼓励竞争,不要吊死在一棵树上。不仅如此,罗马实验室还选助了一家系统集成商开发一套情报挖掘应用软件,提供给政府有关机构试用。这套应用的内核用的就是我们两家提供的信息抽取引擎作为技术支撑。在长达四年的合作中,我们与集成商有过多次接触,他们的技术主管告诉我,从移植性和质量改进方面看,我们的规则引擎比另一家的机器学习引擎好太多了。

我问,怎么会,他们有一流的机器学习专家,还常年配有一个手工标注的团队,引擎质量不会太差的。主管告诉我,也许在他们训练和测试的数据源上质量的确不错,可是集成商这边是用在另一套保密数据(classified data)上,移植过来用效果就差了。我说,那当然,训练的数据和使用现场的数据不同类型,机器学习怎么能指望出好结果呢,你们该重新训练(re-training)啊。你们用他们引擎五年来,重新训练过几次,效果如何?主管说:一次也没有重新训练成过。重新训练,谈何容易?我问:你们不可以组织人自己标注使用领域的数据,用他们的系统重新训练?主管说:理论上可行,实践上步步难行。首先,要想达到最优效果 ,当然是根据我们的数据重新标注一个与引擎出厂时候大体等量的训练文本集来。可那样大的数据标注,我们根本无力做成,标注过程的质量控制也没有经验。结果是我们只标注了部分数据。理论上讲,我们如果把这批自己的数据加到引擎提供者的训练数据中,重新训练可以把系统多少拉到我们的领域来,效果总会有 提高。但是我们不是信息抽取和机器学习专家,我们只擅长做系统集成。机器学习用新旧数据混合要想训练得好,要牵涉到一些技术细节(甚至tips和tricks) 和一些说明书和专业论文上不谈的微调和小秘密。尝试过,越训练效果反而越差。我问:那怎么办?遇到质量问题,怎样解决?他说:没什么好办法。你们不同,我们只要例示观察到的错误类型,你们下一次给我们 update 引擎时基本上就已经解决了。可我们把问题类型反馈给机器学习开发者就不能指望他们可以改正,因为他们见不到这边的数据。结果呢,我们只好自己在他们的引擎后面用简单模式匹配程序打补丁、擦屁股,可费劲了。

我当时的震惊可想而知。一个被NLP主流重复无数遍的重新训练、移植性好的神话,在使用现场竟然如此不堪。学习大牛做出来的引擎在用户手中四五年却连一次重新训练都实施不了。系统成为一个死物,完完全全的黑箱子。所有改进只能靠隔靴搔痒的补丁。
from 【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】 

即便是同一个大厨,做了一锅好饭菜以后,下一锅饭菜是不是同样好,也不是铁定的。

【4】 这一点最重要,白老师批评。如果你的“模型”就不对,你怎么增加数据,怎么完善算法,你都不可能超越。这里说的是自然语言的“样子”,即白老师说的“毛毛虫”(见 [转载]【白硕- 穿越乔家大院寻找“毛毛虫”】)。

整个自然语言的边界在哪里?不同语言的“样子”又有哪些需要不同调控的细节?

这些东西有很多体悟,并不是每一种都可以马上说清楚,但是它是的确存在的。无视它,或对它缺乏认识,最终要栽跟头的。

Nick:

那得看是什么餐馆,麦当劳每天味道都同样,路边馄饨摊每天各不相同。

我: exactly 麦当劳每天一样的代价是低品质,它要保持 consistency 就不可能同时保持高品质,只能永远在垃圾食品的标签下。

Nick:

我意思是你今能卖麦当劳的价钱,再不嫁,明就馄饨摊了。

我:

鼎泰丰来湾区了,小笼包子比他家贵出好几倍。前两天一尝,果然名不虚传。被宰认了,因为心甘情愿,谁叫它那么好吃呢。

我又饿不死,何苦卖麦当劳呢?怎么也得成为鼎泰丰吧。

最不抵,我开个咨询公司也有饭吃,没必要看贱自己。

现在就是,如何领域突破,如何语言突破?换一个语言,本质上也是换一个领域。因为只有这两项突破,才能真正NLP广泛落地为产品。94 很动听了,后两项还在未定之数。这种领域和语言的突破与毛毛虫什么关系 很值得思考。

洪爷说的“鸡血”文的最有意思的地方是,机器学习终于从过去遮遮掩掩的自动编程黑箱子,被鸡血到正式宣告和标榜为终极的自动编程。程序猿下岗,资料员上岗,在最上面的是几百号能玩转黑箱子魔术的超人。一切搞定,环球太平。一幅多么美妙的AI共产主义图景。

【相关】

AI不再需要“程序猿”,未来数据比代码重要-新智元-微头条(wtoutiao.com)

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

再谈机器学习和手工系统:人和机器谁更聪明能干?

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】

[转载]【白硕- 穿越乔家大院寻找“毛毛虫”】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

Comparison of Pros and Cons of Two NLP Approaches 

《立委随笔:语言自动分析的两个路子》

why hybrid? on machine learning vs. hand-coded rules in NLP

【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】

 【科普随笔:NLP主流最大的偏见,规则系统的手工性】

 【科普随笔:NLP主流的傲慢与偏见】

【科研笔记:系统不能太精巧,正如人不能太聪明】

 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】

《立委随笔:机器学习和自然语言处理》

与老前辈谈 NLP 及其趋势

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-978466.html

上一篇:【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】
下一篇:【李白对话录:你波你的波,我粒我的粒】

 

1  张骥

【让机器人解读洪爷的《人工智能忧思录》(2/n)】 屏蔽留存

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

屏蔽已有 2108 次阅读 2016-3-2 10:55 |个人分类:立委科普|系统分类:科研笔记| 人工智能

数字识别模版认,机械臂动reinforcement。若说人也如此行,将信将疑难convinced。
如意算盘扒拉曾,赴美留学取真经。到时心灰更意冷,只因京城响枪声。
认知科学只好扔,找处回头练编程。OCR识字model train,邮编地址自动认。
得博辞校工作寻,微软AOL先后蹲。然后两度初创进,预测模型可掘金。
如此廿年IT混,人老珠黄白发生。电脑换代却没停,286到四核芯。
CPU能力大提升,GPU更快画图形。单机游戏动画真,联网计算笼罩云。
电脑处理速度增,视听数据图文声。Big Data&Machine Learning,用AI捕风捉影。
神经网络又复兴,Deep Learning此次称。Hidden Layers八九层,无监督先pre-train。

IT Tycoons嗅觉敏,就像鲨鱼闻血腥。各学王老虎抢亲,然后造车紧闭门。

【相关博文】

人工智能忧思录_zhazhaba_新浪博客

【让机器人解读洪爷的《人工智能忧思录》(4/n)】

【让机器人解读洪爷的《人工智能忧思录》(3/n)】

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 

老革命遇到新问题,洪爷求饶打油翁

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-959923.html

上一篇:【让机器人解读洪爷的《人工智能忧思录》(1/n)】
下一篇:【让机器人解读洪爷的《人工智能忧思录》(3/n)】

对于 tractable tasks, 机器学习很难胜过专家》 屏蔽留存

新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

屏蔽已有 3503 次阅读 2015-12-26 19:50 |个人分类:立委科普|系统分类:科研笔记| parsing, 机器学习, 信息抽取, 规则系统

我们 “语义计算” 群在讨论这个句子的句法结构:The asbestos fiber, crocidolite, is unusually resilient once it enters the lungs, with even brief exposures to it causing symptoms that show up decades later, researchers said.
我说,it looks fine in its entirety. "once-clause" has a main clause before it, so it is perfectly grammatical.  The PP "with even brief exposures to it" is an adverbial of  "causing ...": usually PP modifies a preceding verb, but here it modifies the following ING-verb, which is ok.

然后想到不妨测试了一下我们的 parser,果然,把 PP 连错了,说是 PP 修饰 enters,而不是 causing。除此而外,我的 parse 完全正确。这也许是一个可以原谅的错误。如果要改进,我可以让两种可能都保留。但是统计上看,也许不值得,因为一个 PP 面对前面的一个谓语动词和后面的一个非谓语动词,修饰前者的概率远远大于修饰后者。

张老师问: 是否此句在你的训练集里?如是统计方法。否则太不容易了
我说,我这是语言学程序猿做的规则系统,不是统计方法。句子不在我的 dev corpus 里面。parsing 是一个 tractable task,下点功夫总是可以做出来,其水平可以达到接近人工(语言学家),超越普通人(非语言学家)。说的是自己实践的观察和体会。靠谱的 parsing,有经验的语言学程序猿可以搞定,无需指靠机器学习。为了说明这个观点,我测试了我的汉语 parser:

这个汉语句子的 parsing,只有一个错误,“语言学”与 “程序猿” 之间掉链子了(说明 parsing 还有改进余地,汉语parsing开发晚一些,难度也大一些,当前的状况,掉链子的事儿还偶有发生)。但整体来看基本也算靠谱了。所以,即便是比英语句法更难的汉语,也仍然属于 tractable 人工可以搞定的任务。

语言学家搞不定的是那些千头万绪的任务,譬如语音识别(speech recognition),譬如文章分类 (document classification),譬如聚类习得 (clustering-based ontology acquisition) 。这些在很多个 features 中玩平衡的任务,人脑不够用,见木不见林。但是对于 deep parsing 和 信息抽取,解剖的是一颗颗树,条分缕析,这是语言学家的拿手好戏,都是 tractable 的任务,当然可以搞定。(甭管多大的数据,一句句分析抽取完了存入库里,到retrieve的时候还是需要“挖掘”一番,那时候为了不一叶障目,自然是需要用到统计的)。

在条分缕析的 tractable 任务上(譬如,deep parsing),我的基本看法是:有NLP经验的语言学家立于不败之地。而机器学习,包括深度学习(deep learning,当前呼声最高的机器学习神器),也许在将来的某一天,可以逼近专家水平。值得期待。最多是逼近语言学家,但是要超越人工,我不大相信。再牛的机器学习算法也不可能在所有任务上胜过专家的手工编码,这个观点本来应该是显然的,但是学界的多数人却天然地认为深度学习总是可以超越人工系统。

parser 的直接目标不是语义求解,而是提供一个靠谱的结构基础,这样后续的(语用层面的)语义理解、信息抽取、舆情分析、机器翻译、自动文摘、智能秘书或其他的NLP应用,就可以面对有限的 patterns,而不是无限的线性序列。从这个目标来看,我们的中文英文的 parsers 都已经达标了。

【相关】

【围脖:做 parsing 还是要靠语言学家,机器学习不给力】

手工规则系统的软肋在文章分类

《立委随笔:语言自动分析的两个路子》

 再谈机器学习和手工系统:人和机器谁更聪明能干?

why hybrid? on machine learning vs. hand-coded rules in NLP

Comparison of Pros and Cons of Two NLP Approaches

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-946065.html

上一篇:《泥沙龙笔记:再谈 cyc》
下一篇:《新智元:有了deep parsing,信息抽取就是个玩儿》

 

3  华春雷 徐令予 陈辉

发表评论评论 (4 个评论)

删除 |赞[2]hongyan123   2015-12-28 15:47
这样的parser也不在少数,问题是怎么grouding,这是和语境有关的,和个体经验知识有关的。所以,一个parser只是一把剃刀,但并不证明它能正确发挥其作用。
 回复  : 可以理解你提出的困扰、困难。但是:(1)“这样的 parser 不在少数”,是你看不出区别,不是这个 parser 太普通:这个 parser 是独一无二的,否则算我白吃了30年NLP的饭;(2)问题是 grounding,自然没错,那是在某类应用中 parser 落地所面临的挑战,但本文不是谈的这个话题,那个需要针对具体应用专论;(3)我没想证明这个parser一定能正确发挥作用:再牛的核武器遇到一个不懂使用的人,也炸不死敌人,反而可能自伤。其实,一般而言,parser 根本就不该用 offshelf 的,自己用才顺手,才能做成事儿。

2015-12-29 01:241 楼(回复楼主)赞|

删除 |赞[1]华春雷   2015-12-26 20:49
信息技术只是在“形式”的计算和理论方面很成功;而在其“涵义”的理论研究方面非常失败。例如关于“语义”的研究实际上仍然是“形式”层面的研究性质。所以,单独地研究语义学,只能在信息的”形式“层面上研究来研究去,会走向虚空,或走火入魔的。
这个问题的解决,还在路上。我们后来采取的解决方法是,将对信息"涵义”的研究转向生态学的理论角度,这将有助于发现信息的“形式”背后的生成原因。也就是信息的”涵义“问题。

[1]华春雷  2015-12-25 02:25

 回复  : 不太懂您的理论及其意义。我的目的很简单,这里一切自动的形式分析都是为了完成某个自然语言的任务提供结构基础。这些任务包括数据挖掘、舆情分析、问答系统等。

2015-12-27 00:331 楼(回复楼主)