【李白105: 结构歧义的视角和角力】

立委按:句法形式 语义常识 和 上下文场景三者 并不总能对齐。但它们蛮拧的时候 其角力决定了解读。有趣的是 人与人的视角不尽相同 因此角力对于不同的人 作用力也可能不同 因此并不是每个人对结构歧义的理解都是相同的。真伪歧义从黑白分明演变为灰色频谱。这是观测者效应和测不准原理的语言学反映吗?kidding…, but  truly fascinating ……

宋:“预约手术请到治疗室”,预约手术  是偏正还是动宾?

刘:英语可以用过去分词和不定式加以区分,中文有歧义。

李:对。预约【的】手术请到治疗室:这是定中关系(偏正),已经预约了的。【要/如果】预约手术请到治疗室:这是动宾关系,“不定式”或未完成体。

“预约手术请直接进手术室”,这大多是定中. “预约手术请到登记处”,属于动宾。

白:字数规整,偏正优先。

宋:今天上午陪老伴去医院做一个门诊小手术,是预约好的。看到诊室门口的条子“预约手术请到治疗室”,第一反应就是偏正结构,原因一是自己这个手术是预约的,之二是到治疗室,治疗室正是通常做门诊小手术的地方。结果是我理解错了。原意是动宾结构。

白:事理图谱对于“预约”的场地和“手术”的场地应该有所设定。“包子往里走”都可以,“预约手术请到治疗室”当然没什么不可以。如果是口语,重音不一样。私刻印章是犯法的。私刻印章是无效的。

“削铅笔刀”为啥没有歧义?

李:“机削铅笔刀”为啥有歧义?“手削铅笔刀”为啥有歧义?

白:看不出来。

李:en …… 例不成理存。何况也未见得不成立:

“手削铅笔刀是削不了的 机削铅笔刀庶几可成。”

“手削铅笔刀不好用 建议购买机削铅笔刀。”

VP/NP ambiguity: 1 manually cutting sth vs mechanically cutting sth;2 manually cut product vs mechanically cut product

1 和 2 的实例 由于常识的干扰 也常常做 3 解:

3 “手削铅笔刀是老式文具 机削铅笔刀才是新产品 自动作业。”

3 与 ”削铅笔刀” 同,动宾搭配的VP 做“刀”的定语。然而,抛开常识 句法上则更趋向于 1 和 2 的结构逻辑语义。

白:想起了17头羊分1/2,余下的分1/3,再余下的分1/6的故事。这个题目到底有解还是无解,没有歧义,因为靠借来的羊分出来的方案不是原题的解。原题无解是板上钉钉的。在NLP里,靠借来的不同上下文组成(不是助力)的解读,算不算原句的解读?我认为不算。垂直于轴(纹理或纤维走向)的切削是“切”,平行于轴的切削是“劈”,与轴成锐角的切削是“削”。对于一把刀的加工过程,使用“削”的工艺,怪怪的。这是标准的伪歧义。除非是木刀或竹刀,但二者都很难再用于削铅笔。我觉得只有3是正解,1、2都是伪歧义。如果材料无轴向、无纤维、无纹理,通用的表示切削加工的词是“切”,而不是“削”。在3的理解下,“机”“手”只是在“刀”的动力传动方式上的差别,并没有改变“削”与“刀”之间的角色指派关系。人使用了错的表达,系统要做的是容错,而不是把错当歧义。

李:伪歧义与真歧义不是黑白分明的,没有一道鸿沟。当常识、场景和句法倾向性这三种东西开始蛮拧的时候,每个人的理解偏好可能不同。甚至同一个人也在不同的理解面前摇摆不定。很多事情不能深想 想着想着怎么意思就变了。所谓走一根筋就是有时候一不留神就被一种倾向性牵着鼻子走。

白:深想的过程,就是逐步接受抬杠者、犯错者角色的过程。预定义的倾向性,只要优先级足够,是不会被埋没的。非预定义的,就需要容错机制。容错往往都是有代价的,不是只有好处没有坏处。

李:刀削面,机削面条,手削面疙瘩。

白:疙瘩不会做“削”的工具吧。

李:1. 手削面疙瘩就是好吃;手削面疙瘩削不出好的疙瘩来;3. 手削面疙瘩和手削面团子有何区别?

“手削面” 和 “面疙瘩” 都是是蛮好的合成词,加在一起,左右就可以拔河比赛了。

“手削面疙瘩不如糙米疙瘩好吃”。手削面疙瘩,到底“手削”的是“面”,还是“疙瘩”?

白:结果是面疙瘩,削的是面,不矛盾。

李:白马非马呀。

白:不在一个频道。

刻印章,刻的是做印章的材料,做成了才是印章。在印章成品上再刻,就不怀好意了。

李:“现场观赏手削面疙瘩”。

白:现场观看制作成品,没有不妥呀。

李:对呀,是说【观赏+VP】,优先于 【观赏+NP】。“心急吃不了手削面疙瘩”,只能是【吃+NP】。

白:关键是NP和V的关系是制作和成品的关系。对外输出是成品还是制作过程,外部说了算。面是原料,面疙瘩是成品,削是制作过程。

李:严格说,削不出疙瘩来,只能削出面来,然后用削出来的面制作疙瘩。手捏面疙瘩 则不然,捏出来的是疙瘩。

白:疙瘩是一个微粒还是一道菜,这个有另外一套机制。削本来就不正确,已经在容错了。更准确的动词,拨、拨拉、剔,都可以有,捏不准确,疙瘩真心不是捏的。饺子的面剂,确实有“揪”出来的。

李:好像是掐出来的?记得小时候做疙瘩汤,老妈用大拇指和食指一疙瘩一疙瘩掐出来,丢进沸水中。看来 ((手擀面)疙瘩) 无疑。因为无论如何是擀不出来疙瘩的。疙瘩的特性就是奇形怪状,擀却是一个平整化过程。虽然常识如此,不细想的话,句法上的惯性则很可能是走 ((手擀)(面疙瘩))的路径(无论是作显性动宾还是定中+隐性动宾解)。音节上,2+3 的动宾结构也显得比 3+2的定中结构,服帖稳重很多。

白:反拉弧圈球,来球和去球都是弧圈。挡弧圈球,只有来球是弧圈。手抓饼,跟制作工艺无关,只是吃(消费)的时候要去抓。灌汤包,也不是包子做好了才往里灌汤。只是吃的时候感觉包子像被灌了汤。吮指原味鸡,甚至更过分。所以,构词法中的定语动词,到底参与了什么,不能光看格式,还要看动词本身。动词是制作过程的一个环节,固然可以代替全部过程。动词不是制作过程的一个环节,也不妨碍被修饰的词是一个成品。甚至只是来料。化妆舞会,舞会本身不化妆,是参与舞会的人化妆。相谐就反填,没有制作属性就细分或延展。延展可以多级。手抓,延伸到制作以后的吃。擀面疙瘩,延伸到制作“疙瘩”的前置环节。

与“削铅笔刀”更加平行的是“打狗棒”。这个格式没有歧义,刀是削的工具,棒是打的工具。逻辑主语另有安排,不在格式中出现,逻辑宾语紧跟动词,可以近似认为述宾结构就是一体化的成分。“削铅笔刀”有一个简化形式是“铅笔刀”。当分别引入前缀“机-”“人-”时,“削铅笔刀”就不复存在了,代替它的是语义等价的简化形式“铅笔刀”。所以,在“机削铅笔刀”“人削铅笔刀”当中,“削”是随“人/机”带进来的,与“削铅笔刀”中原有的“削”无关。也就是说,“人削铅笔刀”和“机削铅笔刀”均无分词歧义。都是2+3。再说有几个意思。这个2+3组合,从核心动词“削”本身来看,是“<施事>用<工具>从<原料>加工<产出物>”,其中的“原料”和“产出物”在大方向上是一个门类,二者在具体状态(比如特定部位的尖锐程度、平整程度、凹陷程度、裸露程度等)方面具有显著差别。所以,修饰指向施事、工具、原料/产出物,句法上都是可能的,语义上要根据上面的约束来排除伪歧义。首先排除铅笔刀作为“施事”:在显性定义了“工具”的论旨角色体系里,施事只是操作者、策划者、实施者,是具有智能的实体。“刀”无法胜任(以后AI发达了,就难说了)。其次排除原料/产出物,具体逻辑前面说过了,就是对原料的轴向/纹理/纤维及其加工走向有所预设。并非绝对不能对刀进行切削,而是这种切削不能用“削”来描述。这样,剩下来的只有工具了。而“机削面疙瘩”,同样的2+3组合,却自动少了工具一个论旨角色,剩下来,施事排除的逻辑更加简单:“面疙瘩”根本就不可能做“削”的施事。在“原料”和“产出物”当中,“面疙瘩”不具有“原料”所预设的形状和质地要求,只能当产出物。那么,“原料”是什么?当然是跟刀直接接触的原始面团。它有巨大的表面供刀子与切面方向形成锐角进行切削,真的满足加工走向的定义。机削面-面疙瘩,貌似分词歧义,其实分词早就搞定了2+3没商量。这不是白马非马,而是“受事”一个标签不够,必须用“原料”和“产出物”两个标签。参考一下“削苹果皮”,会发现,原料是“苹果”,产出物是“苹果减去皮”,更加复杂。还好,这还都是构词法的内容,讲究节律、利用构词常用字负载结构等等套路都应白名单制,有什么闪失也不会滥杀无辜。因为词例不同,对最终论旨角色的唯一解的选择也不同。尽管这个结构在词法和句法上无歧义,在语义的一般格式到论旨角色的具体映射中有歧义,但是实例化成“机削铅笔刀”和“机削面疙瘩”之后,都没有歧义。

李:“机削面疙瘩快极了,一削一个 一削一个,不到五分钟 削出来的面疙瘩一天也吃不完。”

“吃不完的机削面疙瘩 可以留到第二天接着用吗?”

“机削面疙瘩就是比手擀面疙瘩 粳米面条和糙米团子都要好吃 因为机削面里面有人工智能呢。”

“疙瘩还是那个疙瘩 可面有所不同啊。必须相信机器的力量。”

“可以预计 不久的将来 手擀面就会退出成品原料的市场 由机削面全面替代。”

白:VP另说。食品独有。后面例子中单独出现的“面”,有问题。手擀面、机削面中的“面”都是产出物/成品,跟“面疙瘩”中的“面”,同形不同义。

李:有无歧义会不会成为非限定问题?1 绝对无歧义;2 绝对有歧义; 3 乍一听无歧义,但经不起语境变化 以致不得不休眠唤醒。乍一听无 这类现象感觉在语言中比想象的 要多很多。这就是为什么普通 native speakers 对于歧义无感,比语言学家懵懂多了。

白:乍一听无歧义,另一个说法就是第一选择相对于其他选择存在明显优势。明显到通常会进行剪枝。不剪枝,必须外力。语言学家只不过经常职业性地使用外力而已。

李:“计算”语言学的坏处是 如果不预备合适便利的休眠唤醒机制的话 它在模型自然语言的时候 不得不处处留一手。最后造成伪歧义泛滥成灾,跟人的语感和理解完全不同。

白:外力的作用机制,可以笨拙可以巧妙,远不是只有休眠唤醒一条路。也许,往下下调一下剪枝的阈值就可以了。

李:当然不是窄义的休眠唤醒一途 那是极端情形的带有某种破坏性的操作。多层 hierarchical 的系统 基本上解决了传统规则系统的伪歧义问题,主要靠的不是唤醒,而是创造更多 更细密合理的剪枝环境和条件。靠的是 把规则组织成宽广的层级和优先体系。靠的是把系统看成是随时调控的动态过程 而不是一锤子买卖。深度是根本。一个平面不仅爆炸 而且歧义泛滥。没有足够纵深的伸展空间。

白:有了深度再看从左向右和从一而终,都是浮云。更关键的是,可比的对象一定有共同的可比的度量。不管你来自句法分析、语义资源、统计数据还是事理图谱。

李:仔细再想,“削铅笔刀” 还是有蛮拧的感觉。不同结构的音节数倾向性不同。蛮拧意味着歧义结构的角力。

<<削铅笔> 刀> 作为偏正结构,从音节数(语言形式)上看是 3-1,感觉不稳(比较常见的2-1偏正合成词“打狗棒”)。<削 <铅笔刀>> 作为动宾结构,音节数上看是 1-3,非常自然。所以形式上,VO 的结构得分,Mod 结构失分。

但是,语言还有其他力量在,其中包括常识语义。这个力量的强弱感觉因人而异:有人对语义敏感,“刀” 怎么可以做 “削” 的对象呢,不 make sense,立马否认了形式上的VO偏好。结论是无歧义。然而,习惯于不求甚解的人,常常糊里糊涂说话,也糊里糊涂听话,是其日常交流的常态。这类人可能就更易于保留动宾的解读可能性,至少不马上否决。

3-1 偏正除非已经词典里固化了(死记住了),感觉上别扭的人应该不少,所以我们说:“学马列小组”(3-2偏正),而不说“学马列组”。“看电影-瘾头” 不说 * “看电影瘾”。

3-1 偏正头重脚轻站不住;1-3 述宾则极为普遍自然:行万里路,爬太行山,吃XY饭,喝AB汤 …….

1-3 VO 已经很自然,2-3 VO 则更自然平顺:步行万里路,攀登太行山,大吃XY饭,狂喝AB汤…… (突然想到五言诗里面没做统计,但想必还是很多 2-3 VO 结构的。)

正是从这个音节平顺的角度,提出 “机削铅笔刀” 的歧义视角的。毕竟“削铅笔刀”可以 argue 说是词典里面固化了的例外,不必受音节数形式的约束。而 ”机削铅笔刀“ 肯定不是词典词,而且是 2-3。

白:“无后坐力炮”按照结构是“无-后坐力-炮”,实际读音的节奏是“无后-坐力炮”。已经不需要意识到结构了。“削铅笔刀”的实际读音结构是“削铅-笔刀”。

李:哈,角力的表现/表征之一,形式内容分裂了。

记得第一次意识到 “于无声处” 不是 “于无-声处” 而是 “于-无声-处” 的PP框式结构的时候,感觉是震撼。从小熟读鲁迅“于无声处听惊雷”未曾细想,后来有话剧《于无声处》风行,大街小巷议论此剧,有一天忽然意识到,原来一直读音与结构都在蛮拧着呢。

Despite 这些蛮拧,在很多现象的中文句法解析中,字数(代表音节数)是一个非常得力和重要的辅助条件。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论