【李白张61:长尾问题种种】

李:
欢迎金老师。从理转文 学语言学的 往往功力深厚 别具一格。白老师 还有语言所的前辈范继淹先生 都是证明。

白:
这里是NLP的一大窝点,每天都有扯不完的话题。
“白总,您可以给我一点您的简介,关于区块链的文章我来报选题不?”
看看这个“可以……不”之间经过了多么漫长的旅途。

李:
这个“可以不”肯定是搭配不上了,硬做也不值得,主要还是看看怎么凑合吧?当然是用 Next 把局部parses先patch起来,这样至少通道是有的,想做功的话,余地在。
t0704a

白:
从技术层面来讲,我们可以将8.11之后的人民币汇率形成机制简单表述为“双锚相机转换机制”。
这里的“相机”,谁的机译系统能翻对?
aaa

李:
not bad

白:
bbb
全是camera

李:
不是 camera 是啥?不懂术语。
谷歌这次及格了。涉及汉语的MT,谷歌总是比百度差或略差。谷歌干脆 license 百度得了,至少中文MT。

白:
take actions accordingly
这哪是术语。地道的中文。

李:
那就是我中文不行。哦,相机-见机 而行
双锚相机是什么相机?

白:
在没有camera的时候,就有这个“相机”

李:
但是大数据把它冲得快没影了

白:
我朋友圈转发了FT这篇文章,一看便知。

李:
相机是现代高频词。一个不懂行的人,看到这一段虽然不懂,但是心里在问:
“双锚相机是个什么相机?”

白:
双锚,也不修饰“相机”,他俩都是状语,修饰“转换”。

李:
那是你懂。对于不懂domain的人 不是这样的。
cf:“单反相机转换机制”

白:
双锚vs单反,完美的对仗。

李:
如果汉字保留“像机”不用“相机”,可能不至于。
一个 real life MT 很难为了一个几乎从来不用的 WSD 的选项,做啥特别的功夫。不单不合算,而且太容易弄巧成拙了。对于 trained model, SMT 根本就没有这个data;对于规则MT,也不大值得做。拉倒好了。

白:
这种逻辑,等于告诉用户,你就从了吧。

李:
对于极小概率的现象,如果真要做,那就尽可能词典化。词典化或 expert lexicon,没有啥副作用,可以应对长尾。任何概括化的努力,都容易亏本。

白:
极小概率累计起来就是长尾

马:
谋求单反相机起义。造一个,哈哈

白:
在不同formalism下,亏本与否可能结论大不相同。比如,如果formalism天然就是词例化的,就不存在弄巧成拙的问题。满世界都是拙。

张:
极小概率的词典化是规则系统最可爱而可贵的品质和能力

李:
可不,满世界都是拙,高高在上的精英规则就可以很光鲜。词例化 or expert lexicon 也还是不时需要与上面的合作。譬如句型的变式。合作的方式有不同。有句法语义一体的合作方式,也有先句法后语义的合作方式。各有利弊。

张:
这种拙是大局观,是大智若愚
我们这里有个小组正在天晕地暗研究知网的MT~~~

李:
愚公移山呗
挖一块儿 少一块儿 而山不加增 ……

张:
两位大师何时有空一来论剑?@白 @wei

李:
没去过东北,都说东北有三宝。

张:
白到骨,wei入髄
wei来we妙; wei说I 赞

李:
张老师那地儿 迟早是该去看看
李: 似乎是调通了,但还是选择不做“相机”。非不能也,是不为也,你懂的
有一个 catch: 将 —-> 把: “将” 等于 “把”(介词),但更歧义(modal V),好在前面有 “可以”。

t0704c

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一parsing:NLP应用可以对parsing有所包容】

白: “西方人类比用得少,是因为西方的逻辑学产生的早。”
t0614a
什么叫狗屎运?我的定义就是:
遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug 了,因为此例就没有 bug。
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。S 是主语,Subj 是主语从句。
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。对于汉语常见的 NP1+NP2+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2)[S + Pred] +Pred
when the second element can be Pred (V, A, or deverbal N)
(3) [Mod + S] Pred
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness
顺便做个广告,承蒙高博协助,立委 NLP (liweinlp)频道 再张大吉:
liweinlp.com

【相关】

关于 parsing

【关于中文NLP】

《朝华午拾》总目录

【关于 parsing】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】

语义计算沙龙:parsing 的鲁棒比精准更重要】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家,机器学习不给力】

《泥沙龙笔记:狗血的语言学》

语义计算沙龙:关于汉语介词的兼语句型,兼论POS】

泥沙龙笔记:在知识处理中,很多时候,人不如机

《立委科普:机器可以揭开双关语神秘的面纱》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

泥沙龙笔记:语言处理没有文法就不好玩了

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【立委科普:自然语言理解当然是文法为主,常识为辅】

语义计算沙龙:从《知网》抽取逻辑动宾的关系】

【立委科普:教机器识英文】

【立委科普:及物、不及物 与 动词 subcat 及句型】

泥沙龙笔记:再聊乔老爷的递归陷阱

【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

泥沙龙笔记:儿童语言没有文法的问题

《自然语言是递归的么?》

Parsing nonsense with a sense of humor

【科普小品:文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论 以及各式树形图表达法

【泥沙龙笔记:依存语言学的怪圈】

【没有语言结构可以解析语义么?浅论 LSA】

【没有语言结构可以解析语义么?(之二)】

自然语言中,约定俗成大于文法教条和逻辑

泥沙龙笔记:三论世界语

泥沙龙笔记:再聊世界语及其文化

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记:NLP component technology 的市场问题》

【泥沙龙笔记:没有结构树,万古如长夜】

Deep parsing:每日一析

Deep parsing 每日一析:内情曝光 vs 假货曝光

Deep parsing 每日一析 半垃圾进 半垃圾出

【研发随笔:植树为林自成景(10/n)】

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

语义计算沙龙:植树为林自成景(40/n)】

【deep parsing 吃文化:植树为林自成景(60/n)】

【deep parsing (70/n):离合词与定语从句的纠缠】

【deep parsing (80/n):植树成林自成景】

【deep parsing (90/n):“雨是好雨,但风不正经”】

【deep parsing (100/n):其实 NLP 也没那么容易气死】

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

 

【语义计算沙龙:其实 NLP 也没那么容易气死】

白:
“严把个人商用房客户准入关”
我:
这个句子我人脑也费了半天劲才明白讲的啥(“严把个人商用房客户准入关”==”对个人商用房客户应严把准入关”),尝试用parser也只好瞎碰了,果然乱得不是一处两处,甚至把 “准入关”词典化(拼音联想词组里面 还真有这个词条)也还是不行:
t0626a
白:
“严把个人商用房客户准入关”
严还是个姓,上下文清晰时,可以用裸姓指代全名
“入关”也是词
“把”作动词用不如作介词用的概率高
“房客”也是词

我:
幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢? 虽然也饶了几圈,backtracking ……
白:
这个例子是银行发的正式文件里的
纵向不确定性比较丰富,导致结构貌似不稳
“个人”是定语
我:
这个“严” 做状语也不好掌控 因为更多是做谓语的
“个人”也有些难缠,词典不行 因为有 “n个人” 的存在,只好后面补救了。
个人的定语问题倒是可以解决,但还是搞不定这句:
t0626b

算了,就当没看见。我投降。
白:
“准入”是有坑的,“把关”是有坑的。当“准入”+“关”生成“准入关”的时候,坑也要有同步的调整。
我:
谁(被)准入; 为谁把关(把谁的关)?
白:
把什么事由的关。
我:
把VP的关
白:
“皇军要当你的家”类似
我:
“把学习英语的关”
“英语学习的关真不好把”
白:
“严把生猪进口质量关”
我:
“要把好业务关”
这个事由的坑可以是 VP or (abstract)NP,逻辑语义大体是 about:关于什么事儿的关

白:
“教室的地得扫了”
旅行的目的地得调整了
马:
气死NLP
的士的目的地得调整
我:
其实 NLP 也没那么容易气死 @马少平
t0626c
t0626d
t0626g

马:
哈,强大
我:
当然不能指望“世界第1”的谷歌NLP,靠的是世界第0 的立氏NLP。毛主席保证,上面的句子是一次通过,没做任何工作(当然此前一定是有工作的)。
白:
扫地的离合词处理
目的地,长词优先,不用特意做什么
我:
幸好 real world 的句子也有貌似困难其实无根本挑战的 我们还有活路。
白:
反过来才有挑战性,看着是离合词,就是不该碰一块儿的。伟哥试试:“这地是这样地难扫。”
我:
t0626e
哈哈哈哈 仰天大笑
李白曰过的:我辈岂是蓬蒿人
白:
很好
舍近求远得真解
我:
不过我心内是把它当成狗屎运的,只不过狗屎运常光顾愚公似的人。以前说过n次,NLP 是力气活
白:
话说,离合词这个功能好像也没多久。
我:
两三月前?早就想做了 盘算很久了 实现是最近几个月的事儿。量词更近,才个把月。
白:
量词和本群有直接关系
我:
离合词的处理 直接源于我13年前做英语的 phrasal verbs:take it off / take off the coat / take the coat off 之类(Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003
对量词,的确是本群反复议论才被促上马的 因为没有量词搭配 90%+以上的场合无碍 以前一直拖着没做。

白:
“蔡英文说得不好。”
我:
这种还是休眠吧,hidden ambiguity,跟 “难过” 类似。真做就唤醒,用 word driven
t0626f
白:
和大语境有关
如果满篇都在说另一个蔡,就和蔡英文没啥关系了。
我:
是的,但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。
白:
分层不是单向,该交互时就交互
我:
word driven 是可以想象的,因为“蔡英文”这个词对于我们来说,的确是既透明又黑箱的:黑箱是,只要不是文盲,基本上都知道蔡英文是一个人名;透明是,尽管知道这是一个人名,我们也仍然知道这个词的内部结构,以及这个词的句法可能性:蔡 — 英文,Topic – S 的潜在性,单从这个词,我们就知道。
白:
一个上下文提供了所提及对象的“场”,重复出现可以增加“场强”,左右句法层面对部件的“抢夺”。
我:
不过这些可以想象的操作,大概很少有人去做,选择不做为多,因为还有很多可做的事儿还没做完呢。
白:
分场景。在游戏场景,上下文中的活跃对象“场”是至关重要的,不仅对其中的NLP,也对智能角色的动作规划。用于NLP是捎带脚
我:
所有的 hidden ambiguity 都可以用 word driven 机制唤醒 如果我们真想做的话。
而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说,死穴不一定就死。换句话说,在休眠唤醒理论(见文末【相关】链接)正式提出之前,这个挑战很可能是被认为无解或极其困难的
但是,我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现,证明了还是有救。“小王很难过” vs “小桥很难过”,如今在我们的中文舆情系统中处理得如此漂亮!(重温  【立委科普:歧义parsing的休眠唤醒机制再探】)

白:
从一个包含NLP在内的更大系统视角来看,关键语境参数的实时刷新,受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点,在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以,观点的主人是谁,就需要甄别。
我:
至少在知识图谱的工作中,discourse 内的实体aliasing 以及 anaphor 的工作,成为整合抽取信息的相对可靠的关键元素,这一步可以 leverage document-internal 的线索,这才为下一步的跨文本的 information fusion 打下了基础。
跳过 discourse 直接做 fusion 是不智的。

 

【相关】

《泥沙龙笔记:parsing 的休眠反悔机制》

立委科普:歧义parsing的休眠唤醒机制再探

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

《朝华午拾:我的考研经历》

NLP 是一个力气活:再论成语不是问题

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003

【置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一 fun: 雨是好雨,但风不正经

气象局通知~~~原约定今日凌晨来的暴雨,因半路上被堵,耽误了点时间,或许今天下午到夜间赶到。这场雨如果下大了肯定不小,下小了也肯定……不能大,请市民再耐心等待!具体情况等气象台会上研究后报给市民。气象台温馨提醒:今天如果不下雨,明天不下雨的话,这两天就没有雨了,等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子,容易被撩,雨是好雨,但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a下面是笔者对两条路线斗争的总结,也 parse parse see see 吧,QUOTE:

说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。做了一辈子的某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

My interview:
wei_interview
from http://www.netbase.com/about-netbase/

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

NLP核武器的奥秘

我总说,deep parsing 是NLP应用的核武器,有人以为夸张,今天就说说这道理儿。

NLP 的应用主要分两部分,一部分是对于 text input 的分析或“理解”,一部分是反映这种分析理解的 output(俗称语义落地,譬如 output 是另一个语言,就是MT;output 是 response,就是对话系统;output 是针对 input 问题的答案,就是问答系统;等等)。NLP 应用就是连接 input 到 output 的系统。其中第一部分是关键,核心就是 parsing,可以实现为作为条件的模式匹配,而第二部分很多时候不过是与第一部分对应的作为结论的 mapping 或 side effects。

在上述场景的抽象描述中,可以这样来看 parsing 对于处理text的作用。首先,input 的样本就是我们 parsing 的 dev corpus,样本中的语句相同或类似意义的是我们识别的对象。绝大多数情形,识别了就算 “理解” 了,系统就知道如何应对最合适。

自然语言的难点在于表达这些 input 的语句千变万化,因此用 ngram 枚举它们是不现实的。现实的办法是 parse 相同或类似意义的input语句成为结构树,然后在这些树上找共同 patterns,叫“最大公约树”吧(intuitively 叫最小才顺耳,就是这些树的common core,树大了的话就没有召回率了,白老师提议叫“最大公共子树”)。如果找不到,那就把这批句子分而治之 直到可以找到几个所谓子树 patterns,写成逻辑或的模式规则。

Patterns 的宽严度调试得恰到好处 就可以以有限的规则 应对无限的表达了。宽严不外是调整结构arc的条件 或 节点(node)的条件,deep parsing 说到底就是创造这些结构条件的机器。

以不变应万变,用有限的patterns抓住无限的语言变化,这就是自然语言核武器威力的表现。

【相关】

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing: 每日一析,内情曝光 vs 假货曝光

白老师出的那个 minimal pair:
“这家公司卖给张三的内情曝光了。”“这家公司卖给张三的假货曝光了。”

测试一下,现在没有区分:
t0623
结构上粗线条是一样的 没大问题 可是 同位与动宾的区别没表达出来。既然句法大筐子不变,只是 roles miss 掉了,应该可以在语义中间件中轻易解决,透过定语从句的路径以及约束条件。

一觉醒来,在中间件加了一条简单的找逻辑宾语填坑的规则,看看怎么样?改进版:
t06231
这条规则是说,如果定语从句谓语句法完了以后仍然有宾语坑未填满,那么它所修饰的NP就来跳坑,除了 “消息” 类的NP。“内情” 于是被堵在外面 不跳,“假货”当然无所畏惧。至于 “内情” 与 定从 的同位语关系,可以做,但选择不做,因为定语的概念包含了同位语,比同位语大,目前没有感到有细分的必要。
上图中还有一个 catch,“公司”与 “卖给” 的逻辑主语没有做,而只是做了 “公司”与“假货”和“内情”的句法定语关系。目前也选择不做,等到需要的时候也不难在中间件中补。主要理由与上面同,偷懒而已。主语是arguments中最接近adjunct(定语就是一种 adjunct)的角色,细分的必要性不强。当然语义落地真地需要,那就或者在语义中间件补上,或者在落地时候唤醒。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一析 半垃圾进 半垃圾出

白: 越南一架载有9人的巡逻机执行搜救任务时失踪,这失踪的CASA是去搜寻刚刚失踪的苏-30的。搜寻失踪的,自己也失踪了,得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了。

白老师看重的是 不是人话的人话 “。。。得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了”。不是人话的话,我把它叫做半垃圾。

半垃圾我都不想试,笃定搞不定。犯“错”了吧心里别扭,又想逞能,就必然去debug一个其实也没啥bug的系统 其结果很可能是得不偿失,或费九牛二虎之力不过是为了一个基本不会再次出现的长尾之长尾。如果无视吧,跟眼里揉了沙子似的。

好奇心害死猫,还是忍不住测试了,不过毛主席呢保证,绝不 debug,我说的是绝不! 也不进 unit test,任它 half-garbage in half-garbage out, 有当无好了:

t0617a

合上揉进沙子的眼呼呼去也,希望今夜无梦,至少无语言学的噩梦。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing:每日一析

“西方人类比用得少,是因为西方的逻辑学产生的早。
t0614a
什么叫狗屎运?我的定义就是:遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。
严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。(S 是主语,Subj 是主语从句。)
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。

对于汉语常见的 NP+XP+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2) [Mod + S] Pred
(3)[S + Pred] +Pred
when the second element XP can be Pred (V, A, or deverbal N)
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录