【新智元笔记：WSD与分析器，兼谈知识图谱与分析器】

屏蔽已有 3292 次阅读 2015-12-4 01:07 |个人分类:立委科普|系统分类:教学心得| 知识图谱, WSD, parser, 分析器

我: 热闹啊。一路扫过去: 印象是这里大概是搞NLP和语义的人最集中的地儿了，托白老师的福。大树底下好乘凉。二是现在讨论很杂，大概是大家伙儿热情太高。

wang: 白老师在，人正常说话能看出破绽，那机器就无抬头日啊

@wei 昨天挺不好意思，耽误老师太晚

我: 昨天泼冷水，是从我个人角度

不知道你已经钻进去了，没有退路了，：）

wang: 李老师，精力也是令人佩服！还好，基本出来了啊

白: 权当预处理了，第0层。也符合伟哥的分层思想。

我: 那是有熬出头的意思，因为成果在望？我以前枪毙过一个加拿大的 WSD 公司。

wang: 前面我已经提到，不用太好的WSD也可以支持不错的句法分析，--这是我的结论。因为我的3级语义码识别，可85%的精度，而这是纯多义词情况比例，而正常句子一般47%的多义词。

嗯，李老师文中提过

我: 哦文中说过了。人老了，记不住自己都说过啥。反正喷得多了，就成了维吾尔族姑娘，也不怕白老师们抓小辫子了。

白: WSD不是一个解决方案，只是可以和分析器形成流水作业的一道工序。当解决方案用就大错特错了。如果目标在深层的话。

wang: 白老师，确实皆通，句句问到点子上，白老师总结的对，是而这流水协同作用。

我: 关键的要害是，吃力不讨好

wang: 这样，全句的词义消歧92左右，包括单义词，这个正确率，确实不影响太多的句法分析。若算一级语义分类正确率的话，还要再高些。

我: WSD 肯定可以帮到句法，但是费工太大。世界上的事体，没有不能补偿的。譬如眼瞎了，耳朵就灵敏了。不用WSD，别的资源就来补偿了，也可以走得很远。实在绕不过去, 就 keep ambiguity untouched，等到语用的时候再对付。语用的时候，语义问题一下子缩小到一个子集，一个domain，所以原来大海一样的 WSD，就变得 tractable 了，有时甚至自然而然就消失了，不再是问题了。

wang: 嗯，我也不总是一下有解，有些留到后层处理。结果良好，可以接受。

同意，确实有些看似问题，后来不用解决也自然解决

白: 伟哥的意思，解空间是人定的，你搞不清是a还是b，就在论域里增加一个ab好了，后面自有机会把论域再缩小的。不要为了一定要在信息不足的条件下强行分出a还是b，把系统搞重。

我: @白硕对，白老师说话清楚多了。

第 0 层的想法也对。因为 WSD 这东西可以依靠 density，而 density 是可以在一篇文章的 discourse 下做的。这个有拉动全局帮助局部的好处。

白: 嗯，董振东老师举的“薄熙come”的例子犹如在耳。

我: 这个加 ab 的状况对于完美主义者心里觉得别扭。但其实，模糊是自然常见的状态，而清晰才是少见的人力的结果，而且还保不定会被翻盘。既然是自然状态，那么就应到不得不清晰的时候去对付它。而不是先清晰了，再去等着不断翻盘。

白: 这个就是量子力学里的叠加态，保留到最后坍缩。

wang: 嗯，刚才也谈到翻盘的，有些压根前期就清晰不了。

我: 不过话说回来，如果先做 WSD 多少把太不像话的枝枝蔓蔓减除一些。然后做句法应该还是有益的，只要小心就好。

wang: 嗯，的确减不少。比如一个句子多义词，按平均5个义项算，句子长了各种组合也有很大的规模。

白: 这个，人有时不是这样的。在信息不足时强行坍缩，遇到trigger再翻盘的情况，在段子里一把一把的。我们都被耍弄得很开心。

我: WSD 是个不一定需要结构就可以做个大概的东西。因为全盘的 density 对于 WSD 的影响，比局部的结构对它影响，一般来说，更大一些。这样，discourse 的威力就可以发挥了。道理就在，WSD 虽然是针对个体的词，但是一个 discourse 里面的词的共现，是有很自然的语义相谐性。n 个多义词在同一个 discourse，互相作用，互相消歧。

白: 我就给它定位第0层

他窗口很小，哪里看得见density。

wang: 我接受白老师定义的0层。

是这样的，况且更多是单义词。连续几个多义词在一起也有，处理也还可以，就是连续未登陆词，会出问题

白: 伟哥知道薄熙come的典故吗？

我: 不知道这个典故，但是似乎可以想见董老师的机智和幽默。跟董老师太熟了。

薄熙来了。

薄熙来走了

薄熙come了。

薄熙come走了。

类似这样的?

白: 说的是某汉语文章译成英语，文中出现了5次薄熙来，译成英语后，四次翻译成“Bo Xilai”，一次翻译成“Bo Xi Come”。

wang: 这样啊,

我: 那个系统还是蛮了不起的。

敢于对抗 one sense per discourse 的大原则。我们一般是不敢的。

wang: 从篇章提取关键核心词进行制导，会有改善，但也有改错的时候

我: 你反正是做粗线条，而且是 n-best。目标不是真地消歧，而是减负，譬如从原来的5个，减到3个（3-best）。

wang: 把句法分析结果进行分层，组成篇章理解框架，这样的高级层处理也许，比单句作战要好，---现阶段，只是想想，不敢干。

说的对。

白: 某年我在百度和谷歌翻译上测试周恩来、薄熙来、朱云来，效果依次递减。

wang: @白硕专有名词词典，能及时跟进，可能就好很多

白: 分析器的lookahead，也是减负，一个道理。

wang: 我目前是选3个，有些很明显分数很大，基本取Top1

白: 但他只看cat不看subcat，典型的活人叫那啥憋死。

wang: 白老师说我？

白: 不是，说分析器，LR（k），包括我自己提出的角色反演算法，都是这个毛病。

wang: main cat 确实误导很多，

我: 哪家分析器只看 cat 不看 subcat？cat 算个球啊，太大太空太少。

白: 不是工程用的。@wei

wang: 同意李老师，subcat 太细也不是好事，但是解说容易懂，

我: 想做分析器，基本靠 cat，那是 CL 教科书玩具系统留下的后遗症。

最大的后遗症来自：

S --》NP VP

NP --》 DT JJ* NN+

VP --》 V

VP --》 V NP

被这么灌输了一阵子，看自然语言就当儿戏了。所以才会有共识：lexicalist ，这可能是 NLP 领域这么多年最大的共识了。没有人不认为不需要词典化。词典化的方案各个不同而已。

白: 这话分两截说，一是那么定义的问题要用那种系统去做，二是那么定义问题是不对的所以不该那么做。

wang: 我觉得CFG，自由太过了，加上cat 太粗，因此这个处理，很难跳出。加上词汇化，又太稀疏。词汇化n元开大了，稀疏问题相当严重。

白: cat是可自定义的，没有谁一定说非得NP，VP。关键是自定义work的，都要到词例化层级。

我: POS 的地位是阴错阳差弄出来的。

结果是大家误以为，必须做 POS，而且 assume POS 是个 solved problem，然后在 POS 上做分析器，擦不完的屁股。

白: @wang 你这个n=5也是醉了。

wang: 我是语义码,同义词词林义项1400个，比几万，十万词构成规模，还是轻量级。

跳过POS我认为是个进步，但是后面的还是有很多问题要解决。

刘: 在SMT里面ngram的n=5甚至更多都不少见，现在的neural language model已经超过ngram了，rnn、lstm可以更好的利用远距离依赖。

wang: 刘老师晚上好！

刘: 你好！好久不见了

wang: 是啊，好久不见。白老师来大连，我不凑巧没见着，李老师太远，呵呵

白: 如果想要处理段子，还是激进一点好，太保守会消灭笑点的。

我: 觉得白老师有时也走火入魔，一天到晚想着段子，这个对做 real life NLP 是 “过度思维”。

白: @wei real life NLP并不是只有一种

我: 段子的事儿，可以启迪思维，但做的时候，就该放在一边。

白: 看应用场景

@刘群处理WSD的RNN可以和处理句法的RNN流水。

我刚想说5-gram真是巧合，记得多年前你的学生和骆卫华同一天答辩那次，就是用的5-gram。

洪:

李维擂鼓佟佟佟，

分明书生老黄忠。

转战各群显神勇，

定军山找不轻松。

我: 最后一句湿不懂 @洪涛Tao

雷: @wei 老当益壮的意思

我: 哦四大名著唯一没看下去的是《三国》，不知道定军山与黄忠的实体关系，这个需要 IE 一下就好了，看 “三国图谱” 一目了然。

洪: @wei 你需要找你的定军山，具体地说，找你的夏侯渊。

我: 特佩服读破万卷书的人，譬如洪涛这样的简直就是神人，或人神。

我从小读书就慢，所以读书少，要是在西方的教育体系下，早就淘汰了。

看我女儿上课，那教科书参考书都比砖头还厚，都是一目十行的人才能对付。

我看一个句子，要读三遍，咀嚼五遍，然后进一步退三步地反刍。

洪: 老李今天的作业，看在一个陌生领域，如何迅速建图谱

我: 图谱的问题已经解决，就是工作量了。这是说的真心话，不是胡吹。

图谱的抽取挖掘，比起舆情真地不是一个量级的难度。

舆情都做的，回头做图谱，没有做不成的，不管啥 domain，你给钱，我就做。

白: 可以和郝总PK了

wang: 各位老师，我先下了，各位多聊，温馨提示：白老师也要注意休息！各位聊好 88！

洪: @wei 要不说你老黄忠。可能比老黄忠还老黄忠，因为都不用诸葛亮使激将法。

我: 陌生领域做图谱，关键是要有一个好的分析器。只有这样，domain 的 porting 才可以做得很薄很快。而分析器基本是不变的，现成的，那剩下还有啥难的？

你 parsing 做浅了，IE 图谱就必须做深，反之亦然，parsing deep 了，IE 就是薄薄的一层。

反正不管到那个领域，语言还是那个语言，文法还是那个文法，只有词汇（术语，ontologyy）才有最大的差异。

洪: 国内大家都晚安。我也赶紧跑，否则十有八九成为老李刀下的夏侯渊

我: 晚安晚安。

【相关】

词义消歧（WSD）

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-940905.html

上一篇：衙门文化（后续）
下一篇：【新智元笔记：词类消歧没那么漂亮，也没那么重要】

收藏修改| 删除|

当前推荐数：3 推荐人：谢平 黄永义 shenlu

发表评论评论 (1 个评论)

删除 |赞[1]黄永义 2015-12-4 17:57: 讲得很形象！

【新智元笔记：WSD与分析器，兼谈知识图谱与分析器】屏蔽留存

【新智元笔记：WSD与分析器，兼谈知识图谱与分析器】

当前推荐数：3 推荐人：谢平 黄永义 shenlu

发表评论评论 (1 个评论)

发布者

立委

发表回复

【新智元笔记：WSD与分析器，兼谈知识图谱与分析器】

当前推荐数：3 推荐人： 谢平 黄永义 shenlu

发表评论评论 (1 个评论)

发布者

立委

发表回复

当前推荐数：3 推荐人：谢平黄永义 shenlu