【一日一parsing:休眠唤醒的好例子】

白:
IPTV首页广告语“IPTV,电视新看法”。
需要休眠唤醒的好例子。

我:
t0796a
对,这个 hidden ambiguity 与 “难过”、“好过”一样,可以也应该休眠唤醒。如果真想做的话,就在“看法”的词条下,在句法后做一个词例化规则:
查一下“看法”(默认词义:viewpoint,有个 human 的坑)的 Mod 来唤醒第二条路径(词义)。
查 Mod 的条件有宽松两个选择,可以根据大数据测试的质量来权衡定夺:
(1)宽的话,如果 Mod 不是 Human,那就唤醒
(2) 窄的话,如果 Mod 是“看”的搭配词(看电影、看电视、看戏、看热闹、看耍猴 etc),那就唤醒

白:
作为一个词的“看法”有两个坑,“谁”对“什么”的看法。“谁”即使锁定到human和“电视”不搭调了,还有“什么”可供填充。所以,单纯从一个坑的不匹配,还不足以翻盘。需要“看-电视”这样的强搭配来推波助澜里应外合。

我:
好!
唤醒的是句法层面的定中关系(默认的是词典的合成词,可以看成词的黑箱子,也可以看成是词法内部的定中关系):“看-法”(而不是“看法”),语义落地在 MT 上的表现就是选择第二个译法:way of 看。因为搭配找着了,MT 也就可以把“看”的翻译从默认的“see”改成搭配的“watch”:
IPTV,电视新看法 ==》
IPTV, a new way of watching TV (而不是 TV’s new viewpoint)
这个思路是没有问题的 虽然需要花点儿力气。至于选择做还是不做 那是另一个问题。
在“难过” vs “难-过” 这样的case上,我们做 sentiment,是选择了去做,用到上述休眠唤醒的招术,把表达主观负面情绪的默认的“难过”解读,语义落地为表达客观负面情形的“难-过”。见 【立委科普:歧义parsing的休眠唤醒机制再探】 。

梁:
“IPTV,电视新看法” 这句话,连我都休眠了好一阵,刚刚被唤醒。
语义落地到 MT, 是 “ IPTV, a new way to watch TV” ?
so it is either, 一种看电视到新方法, or 一种对电视的新的看法? ”看法“ could be “opinion”?

我:
广告跟段子一样,故意弄这些,为了俏皮,加深印象。
可喜的是,至少我们寻到了解决这类段子似的俏皮话的计算机实现的路径。
休眠唤醒的事儿,以前在语义落地的时候“自发地”做过,但从来没有总结到现在的高度,可以有意识地推广运用。这是在本群与白老师等探讨的收获。
hidden ambiguity 和段子这类的parsing,以前一般都认为是难以企及的语言难题。至少现在不是那么遥不可及了。

梁:
想想这事是挺有趣。“看法”,本来挺强劲的结合,硬是给左边的“电视”拆开了。这类暗中较劲,猜想、比较、争吵,分裂,结合,settle 的过程,人的大脑 parsing 的时候,可能也有这样的过程。据说人思考时经历一种微型达尔文过程。

白:
【转神段子】航拍记录显示,湖北已经基本都是湖,找不着北了。
看看如何休眠唤醒。

K:
他伸出双手,要露上两手。

我:
唤醒啥? “找不着北” 是成语:
t0707a

白:
湖北两个字,只剩一个字了 另一个字找不着了
元层次和对象层次的纠缠

我:
并不影响语义理解

白:
影响段子理解

我:
俏皮的定性 如果也是语义的一部分 可以利用机械扫描匹配 来发掘 无需与句法层发生纠缠

白:
总之是要吃回头草

我:
不属于核心语义。核心语义是 湖北这个地儿现如今到处是水 方向辨别不清了

白:
核心语义没发生颠覆或荒诞化 只是附加了一层元层次上的俏皮。段子理解,有颠覆型的也有附加型的。

我:
“伸出双手 露上两手” 同理 同机制 也可以扫描匹配发掘 后半部也是成语 唤醒的是成语的非成语解读。这与切词中的 hidden ambiguity 同理。

白:
俏皮也是附加。还有我之前举的例子,“贾宝玉托举林黛玉,纯粹是多此一举”。先导词语素的重叠使用。

K:
电视的新看法 看法有了非成语语义属于唤醒

我:
Longest principle 默认一个多语素词的黑箱子性质,但在特定的上下文中 可以唤醒句法透明的解读。
t0707b

K:
露上两手 多此一举 是否与之类似呢?唤醒了手与举的非成语语义?

白:

我:
就是。词法的内部关系 唤醒为句法的外部关系。哪怕词法句法是一脉相承 平行的,句法解读与词法解读 在语义和概念层面是很不同的。英语类似的 hidden ambiguity 有blackboard 解读为black board

K:
感谢二位老师
我理解 成语语义的整体性与成语内部结构的潜在可分解性会影响休眠唤醒
比如 新看法 作为成语有其常用语义,但其内在结构可分解,(新(看(法))),这种结构分解为 看法 增添了新的语义。这与分词中的组合型歧义有关联。何时分,何时合,可能单在分词层面难以完成,有什么好的解决办法吗?

白:
先说没有外部刺激是不该拆开来的
然后再说外部刺激可能有哪些特征
比如,重复。

 

【相关】

立委科普:歧义parsing的休眠唤醒机制再探】 

泥沙龙笔记:NLP hard 的歧义突破

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论