【新智元笔记:WSD与分析器,兼谈知识图谱与分析器】 屏蔽留存

【新智元笔记:WSD与分析器,兼谈知识图谱与分析器】

屏蔽已有 3292 次阅读 2015-12-4 01:07 |个人分类:立委科普|系统分类:教学心得| 知识图谱, WSD, parser, 分析器

我: 热闹啊。一路扫过去:  印象是这里大概是搞NLP和语义的人最集中的地儿了,托白老师的福。大树底下好乘凉。二是现在讨论很杂,大概是大家伙儿热情太高。
wang: 白老师在,人正常说话能看出破绽,那机器就无抬头日啊
@wei 昨天挺不好意思,耽误老师太晚
我: 昨天泼冷水,是从我个人角度
不知道你已经钻进去了,没有退路了,:)
wang: 李老师,精力也是令人佩服!还好,基本出来了啊
白: 权当预处理了,第0层。也符合伟哥的分层思想。
我: 那是有熬出头的意思,因为成果在望?我以前枪毙过一个加拿大的 WSD 公司。
wang: 前面我已经提到,不用太好的WSD也可以支持不错的句法分析,--这是我的结论。因为我的3级语义码识别,可85%的精度,而这是纯多义词情况比例,而正常句子一般47%的多义词。
嗯,李老师文中提过
我: 哦 文中说过了。人老了,记不住自己都说过啥。反正喷得多了,就成了维吾尔族姑娘,也不怕白老师们抓小辫子了。
白: WSD不是一个解决方案,只是可以和分析器形成流水作业的一道工序。当解决方案用就大错特错了。如果目标在深层的话。
wang: 白老师,确实皆通,句句问到点子上,白老师总结的对,是而这流水协同作用。
我: 关键的要害是,吃力不讨好
wang: 这样,全句的词义消歧92左右,包括单义词,这个正确率,确实不影响太多的句法分析。若算一级语义分类正确率的话,还要再高些。
我: WSD 肯定可以帮到句法,但是费工太大。世界上的事体,没有不能补偿的。譬如眼瞎了,耳朵就灵敏了。不用WSD,别的资源就来补偿了,也可以走得很远。实在绕不过去, 就 keep ambiguity untouched,等到语用的时候再对付。语用的时候,语义问题一下子缩小到一个子集,一个domain,所以原来大海一样的 WSD,就变得 tractable 了,有时甚至自然而然就消失了,不再是问题了。
wang: 嗯,我也不总是一下有解,有些留到后层处理。结果良好,可以接受。
同意,确实有些看似问题,后来不用解决也自然解决
白: 伟哥的意思,解空间是人定的,你搞不清是a还是b,就在论域里增加一个ab好了,后面自有机会把论域再缩小的。不要为了一定要在信息不足的条件下强行分出a还是b,把系统搞重。
我: @白硕 对,白老师说话清楚多了。
第 0 层的想法也对。因为 WSD 这东西可以依靠 density,而 density 是可以在一篇文章的 discourse 下做的。这个有拉动全局帮助局部的好处。
白: 嗯,董振东老师举的“薄熙come”的例子犹如在耳。
我: 这个加 ab 的状况对于完美主义者 心里觉得别扭。但其实,模糊是自然常见的状态,而清晰才是少见的人力的结果,而且还保不定会被翻盘。既然是自然状态,那么就应到不得不清晰的时候去对付它。而不是先清晰了,再去等着不断翻盘。
白: 这个就是量子力学里的叠加态,保留到最后坍缩。
wang: 嗯,刚才也谈到翻盘的,有些压根前期就清晰不了。
我: 不过 话说回来,如果先做 WSD 多少把太不像话的枝枝蔓蔓减除一些。然后做句法 应该还是有益的,只要小心就好。
wang: 嗯,的确减不少。比如一个句子多义词,按平均5个义项算,句子长了各种组合也有很大的规模。
白: 这个,人有时不是这样的。在信息不足时强行坍缩,遇到trigger再翻盘的情况,在段子里一把一把的。我们都被耍弄得很开心。
我: WSD 是个不一定需要结构就可以做个大概的东西。因为全盘的 density 对于 WSD 的影响,比局部的结构对它影响,一般来说,更大一些。这样,discourse 的威力就可以发挥了。道理就在,WSD 虽然是针对个体的词,但是一个 discourse 里面的词的共现,是有很自然的语义相谐性。n 个多义词在同一个 discourse,互相作用,互相消歧。
白: 我就给它定位第0层
他窗口很小,哪里看得见density。
wang: 我接受白老师定义的0层。
是这样的,况且更多是单义词。连续几个多义词在一起也有,处理也还可以,就是连续未登陆词,会出问题
白: 伟哥知道薄熙come的典故吗?
我: 不知道这个典故,但是似乎可以想见董老师的机智和幽默。跟董老师太熟了。
薄熙来了。
薄熙来走了
薄熙come了。
薄熙come走了。
类似这样的?
白: 说的是某汉语文章译成英语,文中出现了5次薄熙来,译成英语后,四次翻译成“Bo Xilai”,一次翻译成“Bo Xi Come”。
wang: 这样啊,
我: 那个系统还是蛮了不起的。
敢于对抗 one sense per discourse 的大原则。我们一般是不敢的。
wang: 从篇章提取关键核心词进行制导,会有改善,但也有改错的时候
我: 你反正是做粗线条,而且是 n-best。目标不是真地消歧,而是减负,譬如从原来的5个,减到3个(3-best)。
wang: 把句法分析结果进行分层,组成篇章理解框架,这样的高级层处理也许,比单句作战要好,---现阶段,只是想想,不敢干。
说的对。
白: 某年我在百度和谷歌翻译上测试周恩来、薄熙来、朱云来,效果依次递减。
wang: @白硕 专有名词词典,能及时跟进,可能就好很多
白: 分析器的lookahead,也是减负,一个道理。
wang: 我目前是选3个,有些很明显分数很大,基本取Top1
白: 但他只看cat不看subcat,典型的活人叫那啥憋死。
wang: 白老师说我?
白: 不是,说分析器,LR(k),包括我自己提出的角色反演算法,都是这个毛病。
wang: main cat 确实误导很多,
我: 哪家分析器只看 cat 不看 subcat?cat 算个球啊,太大太空太少。
白: 不是工程用的。@wei 
wang: 同意李老师,subcat 太细也不是好事,但是解说容易懂,
我: 想做分析器,基本靠 cat,那是 CL 教科书玩具系统留下的后遗症。
最大的后遗症来自:
S --》NP VP
NP --》 DT JJ* NN+
VP --》 V
VP --》 V NP
被这么灌输了一阵子,看自然语言就当儿戏了。所以才会有共识:lexicalist ,这可能是 NLP 领域这么多年最大的共识了。没有人不认为 不需要词典化。词典化的方案各个不同而已。
白: 这话分两截说,一是那么定义的问题要用那种系统去做,二是那么定义问题是不对的所以不该那么做。
wang: 我觉得CFG,自由太过了,加上cat 太粗 ,因此这个处理,很难跳出。加上词汇化,又太稀疏。词汇化n元开大了,稀疏问题相当严重。
白: cat是可自定义的,没有谁一定说非得NP,VP。关键是自定义work的,都要到词例化层级。
我: POS 的地位是阴错阳差弄出来的。
结果是大家误以为,必须做 POS,而且 assume POS 是个 solved problem,然后 在 POS 上做分析器,擦不完的屁股。
白: @wang 你这个n=5也是醉了。
wang: 我是语义码,同义词词林义项1400个,比几万,十万词构成规模,还是轻量级。
跳过POS我认为是个进步,但是后面的还是有很多问题要解决。
刘: 在SMT里面ngram的n=5甚至更多都不少见,现在的neural language model已经超过ngram了,rnn、lstm可以更好的利用远距离依赖。
wang: 刘老师晚上好!
刘: 你好!好久不见了
wang: 是啊,好久不见。白老师来大连,我不凑巧没见着,李老师太远 ,呵呵
白: 如果想要处理段子,还是激进一点好,太保守会消灭笑点的。
我: 觉得白老师有时也走火入魔,一天到晚想着段子,这个对做 real life NLP 是 “过度思维”。
白: @wei real life NLP并不是只有一种
我: 段子的事儿,可以启迪思维,但做的时候,就该放在一边。
白: 看应用场景
@刘群 处理WSD的RNN可以和处理句法的RNN流水。
我刚想说5-gram真是巧合,记得多年前你的学生和骆卫华同一天答辩那次,就是用的5-gram。
洪:
李维擂鼓佟佟佟,
分明书生老黄忠。
转战各群显神勇,
定军山找不轻松。
我: 最后一句湿不懂 @洪涛Tao
雷: @wei 老当益壮的意思
我: 哦 四大名著唯一没看下去的是《三国》,不知道定军山与黄忠的实体关系,这个需要 IE 一下就好了,看 “三国图谱” 一目了然。
洪: @wei 你需要找你的定军山,具体地说,找你的夏侯渊。
我: 特佩服读破万卷书的人,譬如洪涛这样的简直就是神人,或人神。
我从小读书就慢,所以读书少,要是在西方的教育体系下,早就淘汰了。
看我女儿上课,那教科书参考书都比砖头还厚,都是一目十行的人才能对付。

我看一个句子,要读三遍,咀嚼五遍,然后进一步退三步地反刍。

洪: 老李今天的作业,看在一个陌生领域,如何迅速建图谱

我: 图谱的问题已经解决,就是工作量了。这是说的真心话,不是胡吹。
图谱的抽取挖掘,比起舆情真地不是一个量级的难度。
舆情都做的,回头做图谱,没有做不成的,不管啥 domain,你给钱,我就做。
白: 可以和郝总PK了
wang: 各位老师,我先下了,各位多聊,温馨提示:白老师也要注意休息!各位聊好 88!
洪: @wei 要不说你老黄忠。可能比老黄忠还老黄忠,因为都不用诸葛亮使激将法。
我: 陌生领域做图谱,关键是要有一个好的分析器。只有这样,domain 的 porting 才可以做得很薄很快。而 分析器 基本是不变的,现成的,那剩下还有啥难的?
你 parsing 做浅了,IE 图谱就必须做深,反之亦然,parsing deep 了,IE 就是薄薄的一层。
反正不管到那个领域,语言还是那个语言,文法还是那个文法,只有词汇(术语,ontologyy)才有最大的差异。
洪: 国内大家都晚安。我也赶紧跑,否则十有八九成为老李刀下的夏侯渊
我: 晚安晚安。

【相关】

词义消歧(WSD)

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-940905.html

上一篇:衙门文化(后续)
下一篇:【新智元笔记:词类消歧没那么漂亮,也没那么重要】

 

3  谢平 黄永义 shenlu

发表评论评论 (1 个评论)

删除 |赞[1]黄永义   2015-12-4 17:57
讲得很形象!

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据