【李白宋郭90:句法与逻辑和语用的纠缠】

宋:
@wei 张三是打李四的凶手。其中,张三一打,是一凶手,两个依存关系交叉,你是怎样处理的?

白:
凶手有个X坑,动名皆宜。

宋:
@白硕 这个坑的语义是什么?

白:
使其成为凶手的事件

李:
“张三是打李四的凶手”的问题,这是句法与逻辑的纠缠,不在一个层次。“是” (表示上下位关系,taxonomy)与“的”(表示所属或限定的关系)在逻辑上没有节点地位,只有关系意义,纯粹是一个句法形式,是一个小词。因此,逻辑上的关系没有依存交叉,逻辑上,“张三” 与 “凶手” 发生 ISA (上下位)关系,“张三” 与 “打” 发生逻辑主语关系。这不是交叉 而是同一个起点。见下图:

【SV: 张三,打】
【VO:打,李四】
【限定:打(李四),凶手】
【ISA:张三,凶手】

这四个 binary 的逻辑依存关系没有交叉。反映了本句的逻辑语义,“是”,“的”,都是小词,没有作为节点的逻辑地位。

Me:
至于句法的依存结构,那是另一个平面的事体:

白老师所说的“凶手”挖了个【刑事案件】的坑,用得好的话,可以帮助句法消歧:因为 “打李四的凶手” 有一个句法歧义在:“打”的是“李四”,还是“凶手”?从“打人” 的本体知识,可以得知打人属于刑事案件(寻衅滋事),正好填“凶手”的坑,比“李四”更加合适。但其实要真用上这个知识,无论是经过常识推理,还是利用大数据的语义相偕的统计,里面还有不少沟沟坎坎,并不是那么容易。其他的消歧的 heuristics 也有,似乎更好用。

“打李四的二儿子的凶手”,“打” “李四”,“打” “二儿子”,还是“打” “凶手”?

白:
匹配这种X的原则:1、S优先;2、如果是N,表“事件”的类别名词优先。二儿子二者都不是,优先级最低。“打李四的黑社会团伙的凶手”有歧义了。凶手属于团伙、团伙属于李四的可能性存在。这种解释下,“凶手”的坑仍未填上,且处在“挨打”境地。关键是,“黑社会”、“团伙”、“凶手”负sentiment一致,搞成一伙很顺,偏要黑吃黑很拧巴。坑填上了,sentiment却拧巴,这不好接受。

李:
在 “打 【human-1】的…………【human-m】的【human-n】”的模式里面,“打” 最不可能的宾语是 【human-n】,虽然理论上不能排除。排除其他知识,“打” 最可能的O 是 【human-1】,打嘛,打不了那么远。动宾有某种就近原则的 heuristic 在。但是,如果 【human-1】的【human-2】里面,【human-2】有个很大的坑,需要一个【human】所有者,麻烦就来了:“二儿子” 恰好是 这么一个 【human-2】,他一定有个“老子” 的坑。除了孙猴子,没有老子的儿子是不存在的。于是,“二儿子” 要抢“李四”这个可能的老子,“打” 也根据就近原则想“打”这个“李四”。

白:
各种heuristics角力的最佳模型还是神经。

李:
打不赢还是打得赢,天知道。也许“神经”知道,谁知道呢。不知道神经什么时候能够把这些个鸡零狗碎的 heuristics 都考虑进去,省得专家费这个脑子。关键是,费尽了脑力,还是“测不准”。

白:
“打李四的二儿子的犯罪事实”:李四占位置优势,二儿子占大坑优势,犯罪事实位置最远,论坑反而要“打”当萝卜,填“打”的坑不占任何优势。这就是角力。任何一种heuristics只是从一个侧面做贡献而已。但自身暴露的弱点也会埋下祸根。是没爹更坏,还是没“爹”更坏?

李:
因素一多,人肯定干不过机器。但前提是不是有一个巨大的标准答案在(带标),数据不稀疏,然后一锅炒去看角力。

白:
“的”字的嵌套顺序也很有意思。

李:
“的” 不知道什么时候开始进入,继而被滥用的。古汉语的 “之” 可没有现代的 “的” 这么被滥用。有了 “的” 汉语裸奔性得到极度夸张。修饰语之间的内在次序约束被打破,想到啥(修饰语)说啥 根本不过脑子 直接就蹦出来。蹦出来后加上个 “的” 就齐了,显得符合语法。没有 “的” 的话,一个 NP 的前修饰语 怎么摆弄 很有讲究 各种约束。超过两个 的 以上的 NP 没有好东西。语文老师应该一律打回去重做。

白:
比如“张三打李四的二儿子的女朋友的犯罪事实”。又出来一个“女朋友”是张三的,还是二儿子的,的问题。其实就是一个“当量”问题,一个坑顶几个位置。一个首选位置顶几个次选位置。等等。一个反过来抢萝卜的猪队友相当于扣掉几个位置。如此等等。这个“当量”也就是神经里的权值。

李:
想到另外一个语义计算的问题:在句子 “我穿中号鞋大吗” 里面,这个“大”是怎么个说法?“大” 前有四个先行者:1. “我” 2. “穿” 3. “中号鞋” 4. 整句:“我穿中号鞋”。“大” 貌似针对的是 “中号鞋”,这样的话,那就是后置定语或后置补足语了,但感觉总有一点不对劲。比较:

(1) 中号鞋大吗
(2)中号鞋穿起来大吗
(3)中号鞋我穿起来大吗
(4)中号鞋对于我大吗
(5)中号鞋对于我的脚大吗

感觉, (5) 具有理解客观性形容词“大”所需要的完整信息:【对象:我】,还有 【小对象:脚】(二者是整体与部分的关系,这也是情感分析(sentiment analysis)中针对主观形容词(如“好”、“坏”)的大小对象的常见形态:“iPhone X 的屏幕很好”,其中【对象:iPhone X】,【小对象:屏幕】)。

“鞋” 可以从本体知识里面引申出【小对象:脚】出来,所以 3和4 在引申以后具有完整的信息。(1) 最差,需要对话双方有相当的默契和 shared 背景和上下文,才可以相互理解,否则就是无厘头,缺省了关键信息。(2) 缺乏大对象(主体),理解也不完整,反问或追问的话,应该问:谁穿“大”呢?“大”对谁而言呢?

郭:
@wei “我穿中号鞋大吗?” 觉得你的问题问偏了。

首先,这句dependency parsing应该没问题。那么,问题其实在语用。就是说,你丢给我这句话,我怎么接?

先回想下你自己的逻辑:
1. 中文可用两极对照来指代属性:“大小”就是指“size”
2. 两极中的一极是default:“大小”里的“大”就是这个default.

按此,这样三句,其实等价:

“我穿中号鞋 大 吗?”
“我穿中号鞋 小 吗?”
“我穿中号鞋 尺寸对 吗?”

这样,我已经有理由做一步 reduction,理解你其实要我帮忙回答:

“我穿中号鞋?”

或者更简单地:

“我 穿 什么尺寸 ?”

这就好办了!

李:
不错,不错。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论