【李白86:这是最后的斗争?】

宋:
“严正指出”中,“严正”有歧义;“严正说”中,“严正”无歧义,一定是人名。

李:
宋老师观察真切。这里面有什么说法 怎样实现?

“说” 挖了个 【human】 的坑,人名就跳进去。“指出”也挖了个 【human】的坑, 所以,“严正”作为可能的人名也可以跳进去,是为歧义。

但作为副词的 “严正” 为什么可以修饰 “指出” 不可以修饰 “说”呢,虽然二者是同一个动词子类。通常的说法是,搭配使然。搭配说的是比类别(包括子类)颗粒度还要细微的词汇之间的语义相谐。“严正” 就是喜欢修饰 “指出”, “指出” 就是喜欢被 “严正” 修饰,对上眼了,之间有化学。这个倒也不罕见 也有词驱动的实现方式。难点(或痛点)在为什么 “严正” 不可以修饰 “说”?

相谐的事儿 一般认为是软约束,能谐自然好,不能特别谐的话,也可将就着,凑合一辈子的夫妻有的是。难道我们不仅仅要记住搭配,还要记住不搭配?实现的话, 就是有无必要,既有搭配的白名单,也要有不搭配的黑名单(谁谁与谁谁就是互相看不上 不共戴天)?开了这个黑名单的口子 无疑给电脑处理 也给人脑记忆增加了负担 到底必要性如何?

当然 还是大数据好说。如果大数据玩得转 容易无缝连接的话,大数据中 “严正指出” 就是个 4 gram 出现频次很高,而 “严正说” 频次很低。但怎么知道 前者是歧义 后者不歧义?

“严正指出” 频次高 因为副动组合出现多,外加少量的主谓组合。“严正说” 频次低 是因为副动组合在这里遭遇不搭配陷阱,只剩下少量的主谓组合了。这些东西不是没有统计根据 但要理清这些 感觉好难。

白:
这里的搭配是词对词的,而不是特征对特征的。比如“老实讲”就没有办法为“严正说”的可接受性做任何贡献。虽然前者在大数据中频次不低。

李:
是 搭配说词对词。
词与词搭配 背后的关系怎么解?无监督大数据看得见搭配,看不见关系,除非变成有监督 让人标注。如果 a 与 b 搭配 只有一种可能的关系,当然就无需标注。有两种 单看统计就难。

白:
有词典就可以看得见subcat,用不用subcat,(词对subcat或者subcat对subcat)由什么决定。

弹钢琴、弹琵琶、弹三弦、弹吉他、弹曼陀林

李:
打-酱油,吃-亏,…… 这些都是搭配,不用讲道理。

白:
这又离合词了。离合词不需要subcat。但是系统性的词对标签或者标签对标签,不一样。你词典里都有了,就是个拿来用的问题,也不用讲道理。

李:
所有词对词搭配 离合不论 都是词典绑架,要不要一个不搭配词典?里面全是例外 是黑名单。好比两人结婚前请八卦先生算命,看相克不克 如果克夫或克妻,坚决不能成婚。

标签对标签 就是抽象语法条例。我们都知道那种东西就跟筛子一样 到处是眼,但没有它也不行。要鲁棒 要召回 就要靠它。

白:
不要人来写

李:
于是可以把颗粒度变细,在抽象条例周围 ,前堵后补。也可以在条例里面 做黑名单约束 用逻辑与加逻辑非, 难看一点 但管用。词对标签同理,如果引入黑名单,也可以。这样来看 似乎没有必要单单来个 词对词的黑名单(不搭配词典)?

白:
否定的统计判断,是排除歧义用的。当没有歧义可以排除,这种东东还应不应该起作用,值得怀疑。

李:
我也怀疑。回到原问题:问题1,是 要不要考虑加一个不搭配词典。问题2是,无监督情况下 统计上相谐的词 如果有歧义 统计本身如何消歧?理论上 后者也不是非监督就束手无策了。理论上,通过对类似的但不歧义的词与词的统计数据作为参照,可以计算出歧义词的歧义程度和歧义偏向,甚至不排除可以通过某种 propagation 来无监督地消歧。

白:
就算没标记,还可以根据embedding干点啥,还可以协同推荐。

李:
哈 正是我想说的。
现如今 embedding 就好像上帝之手,啥事儿都可能,什么戏法都难保变不出来。

今天路上与郭老师还在说这些神奇事儿,翻译如今也不需要平行语料了,就在两个独立的语言语料里面训练,然后把句子一 embedding,二者就相互翻译了。(据说,一个双语的儿童就是这么学会两种语言,并自然切换或翻译两种语言的,儿童并不需要有翻译样板才学会翻译。)

更神奇的是 翻译两端也不一定是自然语言, source 可以是语言,target 可以是图片,反之亦然。根据啥 ? embedding。这么神奇的媒介语表达 难怪人看不懂,人脑只能看懂 symbolic 的东西。

embedding 到底是不是真的这么神奇美妙 先放一边,问题是其不可解释性 看不懂 怎么办 怎么掌控 怎么纠错。郭说 谁让你看懂了?看懂了的东西怎么可能神奇?蚂蚁看得懂人类语言吗?人类读得懂上帝旨意吗?

也许我们天天鼓捣这些看得懂的符号逻辑,算计来 算计去,全部是瞎操心,最多也就是过家家 儿戏一样。

想想怪悲凉的。

白:
咋改抒情诗了?

李:
30年前入行的时候 我们语言所有三拨搞 AI 相关的,每一拨都是中国AI的开山人物(现如今的中国AI史似乎抹去了这一页,其实这些老教授都是让人景仰的大师):

第一拨是我的导师 两位刘先生 搞规则mt的,第二拨是范继淹先生的自然语言理解,是传统 AI 那套常识推理的符号逻辑,第三拨是语音合成,吴老先生和杨顺安。 当年听马老师同学杨国文学姐介绍范先生小组的那套AI符号逻辑,心里很不以为然,觉得常识和推理很不协调,推理链条又显得太小儿科了,太脆弱(fragile)。无法与我们同属符号逻辑派的mt规则路线比,我们这边不用常识用语言学,接地气多了,而且分析语言也深入多了。那种 AI 果然没成气候 几乎绝迹(很长时间 AI 成了一个笑话),规则派苟延残喘 算是活下来了,但退一步想 我们当年诟病试图利用常识推理的AI符号逻辑,也许就是(或者还不如)50步笑百步呢。符号也许根本就不是必要的手段,更不必谈什么两派大团结大融合。国际歌很悲壮 说这是最后的斗争,等价的说法就是 这是垂死的挣扎—— 如果世界的本质根本就不是符号的话。

白:
世界本质是波粒二象性

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论