李:从最近的访谈看,原来,乔姆斯基认为结构歧义是语言中最有意思的现象,他也提到,现在这个现象已经不再神秘了。我们对它有清楚的认识。
问:你在语言学或认知科学中看到的语言或思想中最迷人的方面是什么?
答:我认为语言最深层的属性或者最令人费解的属性是一种结构性依赖的东西。现在我们对它很了解,但之前却令人费解了很长一段时间。
举例来说,这家伙修车小心翼翼地打包工具(the guy who fixed the car carefully packed his tools),这句话其实是模棱两可的,它所表达的意思可以是小心翼翼地修理汽车,也可以是小心地打包他的工具。副词与哪个动词相关的(是离最近的还是最远的)是一个非常令人费解的事情。
from《乔姆斯基专访:深度学习并没有探寻世界本质》
原文更清晰,这一段是:
[Lex] He has something in common with infants in that way. So, back to linguistics, if you could humor me, what are the most beautiful or fascinating aspects of language, or ideas, in linguistics, or cognitive science, that you've seen in a lifetime of studying language and studying the human mind?
[Noam] Well, I think the deepest property of language and puzzling property that's been discovered is what is sometimes called structure dependence. We now understand it pretty well, but it was puzzling for a long time. I'll give you a concrete example. So, suppose you say "the guy who fixed the car carefully packed his tools." That's ambiguous. He could fix the car carefully or carefully pack his tools. Now suppose you put carefully in front: "Carefully the guy who fixed the car packed his tools." Then it's carefully packed, not carefully fixed. And in fact you do that even if it makes no sense. So, suppose you say, "carefully the guy who fixed the car is tall". You have to interpret it as carefully he's tall even though that doesn't make any sense. And notice that that's a very puzzling fact because you're relating carefully not to the linearly closest verb but to the linearly more remote verb. Linear closeness is a easy computation, but here you're doing a much more, what looks like a more complex computation. You're doing something that's taking you essentially to the more remote thing. Now, if you look at the actual structure of the sentence, where the phrases are and so on, turns out you're picking out the structurally closest thing, but the linearly more remote thing. But notice that what's linear is 100% of what you hear; you never hear structure, you can't. So, what you're doing is, and instantly, this is universal -all constructions, all languages-, and what we're compelled to do is carry out what looks like the more complex computation on material that we never hear, and we ignore 100% of what we hear and the simplest computation. And by now, there's even a neural basis for this, that's somewhat understood, and there's good theories but none that explain why it's true. That's a deep insight into the surprising nature of language with many consequences.
from《Interview of Noam Chomsky by Lex Fridman》
总之是回到了句法结构这个核心,认为这是语言学中最令人兴奋的发现:看上去是流线型的语言,原来具有可以独立于语义的句法结构在背后起作用。结构上的近距离可以是物理上的远距离。结构上的约束条件似乎是硬约束,它甚至可以打败常识,让人理解不符合常识的逻辑语义。这些乔老爷的语言学遗产我们都耳熟能详了。
白:那个句首的carefully让人不自觉地联想到hopefully,后者放到那个句子就一点儿没有违和感了。所以可以简单地认为是纠错的优先级高过了语义相谐性的优先级。不是拘泥于结构打败了常识,而是在相同结构内只要替换词语就更符合常识,这个的“编辑距离”更短。是常识打败了“拘泥于词”。是不是一定用hopefully改错并不重要,句首最优先的替换词千人千面又何妨,重要的是其中总有一款跟后面是搭调的。结构does not make sense并不是值得夸耀的,在同样结构内用常识把sense找补回来才更amazing。
李:是啊,不过他老人家无法认识到这一点的重要性了。
“那美好的仗”,他已经打过了。接下来的仗,是后人的事儿。他的黄金时代已然过去。
不同角度吧。他强调句法硬约束,打败常识有其道理,也有其依据。他的“绿色思想”(从 colorless green ideas sleep furiously 说开去)虽然是一万年也见不到的生造句子,但听起来确实合乎文法而且有解。因此,常识打败“拘泥于词”,也不是总可以成功。推向极端,格丰富的语言的确可以几乎“随意地”打败常识。只是到了“裸奔”的语言,那一套就不好使了。批评乔老爷的人有指出他老人家对其他语言不够了解,吃了局限于欧洲语言的亏。
白:不是还有一切皆专名么,不是还有修辞么,不是还有meta level么,总有一款适合你。这都是常识。能把sense找回来是硬道理。
李:修辞的解读本身不应该归于常识的胜利。修辞解读往往是句法引导,从而由常识的违和而引申的联想。用到了常识,但起点、驱动是句法。
白:常识的边界在哪可以慢慢探讨。
所谓句法引导有两层含义:一是拘泥于词+句法引导,对此我表示反对;二是合理修正词+句法引导,对此我表示拥护。纠错、专名、修辞、meta level,都是“合理修正词”的范畴。
合理,就是合常识的理,乔家大院的毛毛虫,外包絡总会罩住一款“合理”。
李:可以肯定,我们现在探讨的自然语言现象及其解析深度,已经远远超出乔姆斯基时代。
抠字眼的话,合“理”就没有修辞,也没有诗歌和艺术了。
白:合理不是合逻辑,是合情理。
李:那天与我久违的老师和师兄周流溪(语言学家)微信里谈格律诗,他谈他当年如何苦学作诗的经历。我就用@刘群 老师的那个乐府,做了几首诗给他看。他大加赞赏,虽然也挑了几个毛病。称赞我格律诗有功底,有诗意。我就告诉他所有的妙句和诗意,都是瞎猫撞出来的。是读者的联想,不是“作诗者”的本心,因为作者是电器,根本没有“心”。因为没有心,也没有常识,只是记住了“典故”、习惯搭配以及过往诗句中的常用词汇,因此难免出现奇怪的词语组合。但是,“越是违和和古怪的组合,越违背常识,越容易引起人的联想,因此也越容易成就绝妙好辞。”
白:修辞是semantic deviation,用相谐性的尺子来卡肯定不对,但所谓情理之中又是有依托的,顺杆儿爬不太远。违和和古怪是必要条件,否则就白开水了;但不是充分条件,否则谁都是诗人了。
李:抬头看天上云彩,看出里面的山水画或动物人物画不在少数,我们都有过切身体会。但云彩虽然也许有自然的结构,但断断没有人世的常识和美学。“顺杆儿爬不太远”是修辞和诗意解读的原理,但问题在它是发散的。谁也不知道如何收敛。收敛的条件也因人而异。100个读者有90种解读,是常见的。
白:没有标准答案,发散又何妨。让人一时不理解的艺术多的是。
李:发散就不能铁口说,找回了“sense”。
白:自以为理解就收敛了,后来又被喷的也有的是。
sense不唯一啊,主要是这个心路历程有意义就够了。没拘泥,有sense,有依托,这就OK。跟“原意”如何根本不相关。
李:这是美学体验的历程了,李泽厚的地儿了(cf:旷世奇作《李泽厚:美的历程》)。
白:铁口为啥不行,我的体验我做主。
李:LOL 那是强盗逻辑,没商量。
白:只要把顺杆儿爬的“杆儿”给亮出来,自有公论。
编辑距离总是可以算出来的,几步联想,在知识图谱上都能追踪出来,绝不是胡扯。比如小冰那句,“阳光失了玻璃窗”。玻璃可以透射和反射光,阳光是光,透射意味着透明,反射意味着传播,阳光失了玻璃窗,自然联想到透明的缺失,传播的阻断。阳光意味着所谓正能量,于是正能量的传播被阻断。这些联想都找得到本体的依托。
有本事小冰跳出来说,我不是那个意思。这个根本不取决于作者,不管是小冰还是ta背后的人
李:符号逻辑的命门就是绕。下意识的事儿,到了符号逻辑学家手中就在那里绕啊绕 ......,终于绕到了外婆桥。
白:说时迟 那时快。怎么知道下意识就不在绕。这个绕和摇,语音上也是近亲。
李:神经网络倒是不绕,结果乔老爷一句话就怼回去:
你那里面一点 science 都没有,全是工程。(记得先帝毛主席批判政敌的时候常爱说:你那里一点马列主义都没有!)做 AI 还可以混个博士,到任何其他学科,早给你赶出大门。
这就是乔老爷对红得发紫的主流AI的态度。
一代智者,老矣。
白:奇怪的是,当下AI不这么玩还混不到博士。
李:不怪 因为还有的做。等到没啥地儿下脚的时候,黑天鹅就该出现了。博士嘛,也不好纯粹拿应用凑数。(再想了一下,博士其实好像凑数的还是多数,至少在下是,当年也没有任何理论创新,就是跟着导师的喜好,把当时热门的HPSG往中文里套。)
詹:Future generations are gonna watch that video with their jaws open in disbelief," Carlson said in response to Barbot. "How could someone charged with protecting public health so recklessly endanger it?
未来的几代人看到这段视频时,一定会目瞪口呆,不敢相信。”“一个被指控如此不顾后果地保护公共健康的人,怎么可能危及公共健康?”
recklessly -> ?
白:这跟汉语里形容词向左作补语向右作定语的歧义句/伪歧义句有得一拼。
詹:有charge,protect,endanger 三个大汉等着,比乔爷举的例子复杂。
白:charge中性,protect是正面情感,endanger是负面情感,reckless是负面情感,怎么最不拧巴,一目了然啊。
詹:但“拧巴”跟“怎么”和疑问又天然的“不拧巴”,单看这个小句自己的逻辑,很和谐。
怎么+拧巴 = 和谐
白:charged with,还有“委以……重任”的意思。
詹:是,像charge的词,应该特别注意,它译成汉语的两个词“负责”“指控”,语义相差极大,弄不好就把意思给弄反了。
白:“一个被委以保护公共健康重任的人,怎么可能如此不顾后果地危及公共健康?” 这样翻译就一点都不拧巴了。
sentiment在后,但却通过是否拧巴,纠正之前的义项选择和更后的结构选择,立了大功啊……
关键是这个例子不支持老乔的观点呀。
詹:英语的状语后置,跟汉语的定语前置,在引起歧义方面,似乎功劳相当。
白:是。
詹:我没看出乔爷有啥观点。如果有的话,就是结构决定语义关系。这个基本原则应该没法证伪吧,怎么说都是对的。因为如果不能决定语义关系,把结构改一下就可以了。你总有办法改结构的。我肤浅的理解:把结构分成深层和表层,提供了巨大的玩游戏的空间。不行就“调”结构,语言学家的debug。
白:乔的例子证明不了结构优先于常识,只能说结构和常识联合起来可以欺负不搭调的词。
詹:他好像默认的就是“树结构”?万一不是树结构呢?总用树结构去欺负线性结构,不是个好主意。
白:结构长啥样可以另讨论。
万一是图呢?说不定也好欺负一把树结构。
老乔想说的无非是,不管你谁和谁相谐,我结构就在这里,无法绕开,无法颠覆。
詹:白老师,纠错跟容错是操作,操作需要静态知识作为条件,句法和语义都可以划入静态知识。所以,纠错优先不能否定句法优先。反而很可能成为句法优先的证据。纠错是底线(相当于“法”),容错是高要求(相当于“德”)。不知我这样看,能否为乔老辩护?
白:编辑距离最短是硬道理。替换一个词而已,又不需要以接受任何对词的标注体系为前提。所以,仅仅就操作而言,纠错优先比任何静态知识都更加“硬核”。但纯操作是盲目的,没有导向性的。要建立导向性,比如结构ok,相谐性ok,sentiment不拧巴,就必须使用静态知识。
这个例子就是句法和语义联手给出了一个异议最少、意义最谐的导向性纠错选择。而不能成为句法压制语义的例证。
白:《白硕:老乔新论述评》
李:一觉醒来,大作已就,白老师威武!
@白硕 @詹卫东 结构决定逻辑语义不能证伪 所以乔老爷总是可以维护的。
白老师说,“Unfortunately,老乔说这个例句的场景正中了我的下策。”
其实,乔老爷不 care 解读是作为 nonsense 或层次纠缠,也不必是走下策的路,走前面的两条路也不违背/证伪他的主张。他的绿色思想是句法统领大纲,解读自由他去。好比是说:句法结构是如来佛的手心掌,语义解读这个孙猴子跳不出他的手心掌。
我们知道这个主张有粗暴甚至误导的一面,但的确很难证伪。反驳可以,结果就是辩论,跟民主党共和党似的,谁也说服不了谁。语义学派大小不同人物在历史上没少挑战乔老爷,他的句法大旗一直飘摇,语言学地位稳如喜马拉雅山。
再者,句法独立于语义不仅理论上自成体系自圆其说,实践中的指导作用也是诸多方案中的一条广为采纳比较好走的道路,而且自有其先简后繁的优势(缺点和软肋先放下):句法模块置前,先画个框,然后再上各种语义的手段去排除歧义或做其他解读。
这条视句法为硬约束需要先行的道路,客观上对于繁杂的自然语言现象以及更加繁难的背后知识支持系统(如本体常识、领域知识、交互现场知识等等),不失为一条“捷径”,让人不至于被语义泥淖所吓倒而裹足不前。硬约束的意思不是说句法结构唯一地决定了句子解读(逻辑语义),而是说,句法可以给解读先画个框框。句法不必总是唯一地指定解读路径(逻辑语义),但可以作为硬约束首先“剪枝”,否定一些路径。
就辨识(identification)而言,结构歧义原则上不需要语义,句法可以包揽。至于消歧,你用常识也好,或其他手段也好,大门是敞开的。即便在“绿色思想在狂躁地睡眠”里面,句法也只是“唯一地”确立解读的大纲,也就是粗线条的逻辑语义框架。句法并不管解读的细节,在这个“逻辑主谓宾定状补”的大框架下,受者的解读是走白老师的上策中策下策,都不影响句法作为老佛爷的崇高地位。
并不是每个人都能玩得转语义和常识的,其实是绝大多数人玩不转。但是玩句法,或者以句法作为导航进入语言的解析大门,则是一条看上去比较光明的道路,对于很多符号学者,其实是唯一的可行之路。
PP-attachment 在带入语义、习惯搭配、知识等等之前,就是可以由句法判断其二叉的路径的。更加复杂的结构歧义,包括歧义叠加,都是句法可以识别的。句法不必然说是什么,但可以说不是什么,这一点原则上是站得住的。既然句法原则上可以说不是什么,那么句法独立的主张就自圆其说了,就有依据了。独立的意思是说它不必借助其他支持,就可以独立为语言解析作出贡献:把自然语言文句的随机组合爆炸,压缩到一个小得多的路径图里,就是它的贡献。这种贡献因语言不同而效益不同,但原则上是普适的。遇到“裸奔”的中文,它效益较差,但遇到形态丰富的语言,它的效益蛮高。
句法是在十位数的符号(名动形副加小词是输入,主谓宾定状补是输出)里面玩游戏,容易掌控。到了本体常识、领域知识,那是在千甚至上万的符号集里面玩,不晕菜才怪。光一个ISA上下位就是成千上万的节点,另外还有层层叠叠的 partOf 关联,谓词格框架还可能有好几个坑对各自萝卜的类型要求,等等。想想就头大。还是乔老爷仁慈,治大国如烹小鲜,根本不扯这些鸡零狗碎的语义和谐、常识推理。
白:我今天谈到的例子,站在反对他的阵营角度解释,更简单。所以够不上一个新证据。仅此而已。没想过要证伪谁。
李:明白。很多事儿,包括学问,都不是简单的真伪问题。而是论洞见的深浅。乔姆斯基在他的时代,是最具有洞见的。但远远不如白老师的洞察。这不是恭维,也不是盲目吹捧,而是时代变了。我们都站在了巨人肩膀之上。
白:不敢当。
【相关】
《Interview of Noam Chomsky by Lex Fridman》
从 colorless green ideas sleep furiously 说开去
Dad, can you explain Chomsky's X-bar Theory to me?
老师您好,我是您Blog的新粉,也是NLP 以及语言学的新粉。我很好奇关于这篇文章里提到的: “编辑距离总是可以算出来的,几步联想,在知识图谱上都能追踪出来,绝不是胡扯”。这里提到的知识图谱是绝对的自然知识图谱吗? 还是在某一篇文章内部形成的有边界的知识图谱呢? 另外这里讲的可能的追踪方法,是如何实现的呢?