《语言形式的无中生有:从隐性到显性》

话说华裔语言学泰斗赵元任先生曾经有过一个游戏名作,通篇只用同一个音,讲了这么个故事,天下人无不叫绝。

《施氏食狮史》
石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

这是比较浅白的文言文,读起来拗口,看懂这篇并不难。俏皮在通篇只有一个音节 shi,但对应了文言中不同的汉字。文言文汉字基本上就是一个独立语素(有意义的最小单位),属于孤立语,没有形态,虚字也极少用。文句主要就是靠实字概念之间的相谐(所谓“意合”)以及语序来表达内容,使人看得懂。

如果我们假设每个汉字对应一个确定的概念(多义汉字可以假设通过二字组或三字组来消歧),那么通过这些概念在西方语言中的词汇对应物及其组合成句的对比,我们就可以把孤立语与形态语之间的句法区别凸显出来。想来做一下这个练习会很有意思的,因为我们可以揭示语言的奥秘之一:无中生有。

这个对比练习最令人启发和好玩的地方,是做文言文与世界语(Esperanto)的对比,因为世界语实词的形态变化有两大特点:第一是形态词尾不可省略(起码词类词尾对于实词是必须存在的,不允许零形式);第二所有的形态变化是100%规则化的。这就会凸显形态这种词尾形式和小词这种形式怎么冒出来的。

咱们先建一部双语词典,让相同概念的实词一一对应:

石:ŝton / 室:ĉambr / 诗:poem / 士:ist / 施:Shi / 氏:S-ro / ,嗜:hobi / 狮:leon / ,誓:promes / 食:manĝ / 十:dek / 狮:leon / 。氏:S-ro / 时:temp / 时:temp / 适:ven / 市:merkat / 视:vid / 狮:leon / 。十:dek / 时:hor / ,适:ĝust / 十:dek / 狮:leon / 适:ven / 市:merkat / 。是:tiu / 时:temp /,适:ĝust / 施:Shi / 氏:S-ro / 适:ven / 市:merkat / 。氏:S-ro / 视:vid / 是:tiu / 十:dek / 狮:leon /,恃:fid / 矢:sag / 势:potencial /,使:kauz / 是:tiu / 十:dek / 狮:leon / 逝:forlas / 世:mond / 。氏:S-ro / 拾:kolekt / 是:tiu / 十:dek / 狮:leon / 尸:korp / ,适:ven / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 湿:malsek /,氏:S-ro / 使:kauz / 侍:servist / 拭:viŝ / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 拭:viŝ /,氏:S-ro / 始:ek / 试:prov / 食:manĝ / 是:tiu / 十:dek / 狮:leon / 尸:korp /。食:manĝ / 时:temp /,始:ek / 识:kon / 是:tiu / 十:dek / 狮:leon / 尸:korp /,实:fakt / 十:dek / 石:ŝton / 狮:leon / 尸:korp / 。试:prov / 释:klarig / 是:tiu / 事:afer /。

我们做语言对比的目的是考察完全不同类型和语系的语言之间,语言形式的不同是如何体现在组词造句的句法上,来帮助我们表达、理解和翻译的。因此,我们把多义字(词)的问题先放在一边,假定只有一个词义。但实际上不少字是有歧义的,即便在本篇中,也还有几个相同的字,意义不同(从而词类和用法也不同)。不过,这个问题可以用二字组(bigrams)来解决。本篇中需要用到的二字组有5条就够了:

施Shi / 氏S-ro –》S-ro Shi (倒装)
时temp / 时temp –》 tempo-al-tempo;de tempo al tempo
适ven / 市merkat –》 venas merkaton;venas al merkato
十dek / 时hor –》 dek-horon;je la dek horo
逝forlas 世/mond –》 forlasas mondon;forlasas la mondon

Ŝtonoĉambre poemisto S-ro Shi, hobias leonojn, promesas manĝi dek leonojn. S-ro tempo-al-tempe venis merkaton vidi leonojn. Dek horon ĝuste dek leonoj venis merkaton. Tiu-tempe ĝuste S-ro Shi venis merkaton. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kauzis tiujn dek leonojn forlasi mondon. S-ro kolektis tiujn dek leonokorpojn, venis ŝtonoĉambron. Ŝtonoĉambro malsekis, S-ro kauzis serviston viŝi ŝtonoĉambron. Ŝtonoĉambro viŝinte, S-ro ekprovis manĝi tiujn dek leonokorpojn. Manĝtempe, ekkonis tiuj dek leonokorpoj faktis dek ŝtonoleonajn korpojn. Provu klarigi tiun aferon.

实际上等价于:

石o室e 诗-士o 氏o 施/NNP,嗜as 狮ojn,誓as 食i 十/Num 狮ojn。氏o 时时e 适as 市o 视i狮ojn。十/Num 时-on,适-e 十/Num 狮oj 适as 市on。是/DT 时-e,适-e 氏o 施/NNP 适is 市on。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is 石o室on。石o室o 湿is,氏o 使is 侍on 拭i 石o室on。石o室on 拭inte,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。食-时e,始-识is 是/DT 十/Num 狮o尸oj,实is 十/Num 石o狮ajn 尸ojn。试u 释i 是/DT 事on。

Ŝton-o-ĉambr-e poem-isto S-ro Shi, hobi-as leon-ojn, promes-as manĝ-i dek leon-ojn. S-ro temp-o-al-temp-e ven-as merkat-on vid-i leon-ojn. Dek hor-on ĝust-e dek leon-oj ven-is merkat-on. Tiu-temp-e ĝust-e S-ro Shi ven-is merkat-on. S-ro vid-is tiu-jn dek leon-ojn, fidis sag-o-potencial-ojn, kauz-is tiu-jn dek leon-ojn forlas-i mond-on. S-ro kolekt-is tiu-jn dek leon-o-korp-ojn, ven-is ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o malsek-is, S-ro kauz-is servist-on viŝ-i ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o viŝ-inte, S-ro ek-prov-is manĝ-i tiu-jn dek leon-o-korp-ojn. Manĝ-temp-e, ek-kon-is tiu-j dek leon-o-korp-oj fakt-is dek ŝton-o-leon-ajn korp-ojn. Prov-u klarig-i tiu-n afer-on.

世界语形态很简单:

o 名词词尾,e 副词词尾,as 谓语现在时,ojn 名词-复数-宾格,i 不定式,on 名词-宾格,is 谓语过去时,inte 副词-主动-完成体,oj 名词-复数-主格,u 谓语命令式

那这些形态是怎么来的呢?

形态原文根本就没有,这是在翻译过程中“无中生有”的,否则就不符合世界语文法,也无法正确表达原文的结构内容。可以问:中文没有这些形态,不也是一样表达吗?凭什么知道它表达的,正好对应上面的形态呢?答案是,中文用的是隐性形式,而世界语的形态是显性形式。在我们用具体例句讲解隐性形式在文法上是如何工作的之前,我们再看看世界语的另外一种形式,所谓分析形式,是如何表达这一篇故事的。前面译文采用的语言形式是所谓综合语言的形态形式,世界语也可以更多依赖小词,采用所谓分析语言形式来表达,结果大致是这样的:

En la ŝtonoĉambro, la poemisto S-ro Shi hobias leonojn, kaj promesas manĝi dek leonojn. S-ro de tempo al tempo venis al merkato por vidi leonojn.  Je la dek horo, ĝuste dek leonoj venis al merkato.  Je tiu tempo, ĝuste S-ro Shi venis al la merkato. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kaj kauzis tiujn dek leonojn forlasi la mondon. S-ro kolektis tiujn dek leonokorpojn, venis al la ŝtono-ĉambro.  La ŝtonoĉambro malsekis, kaj S-ro kauzis serviston viŝi la ŝtonoĉambron. Kiam la ŝtonoĉambro estis viŝinta, S-ro ekmanĝis tiujn dek leonokorpojn. Je la manĝtempo, li ekkonis ke tiuj dek leonokorpoj fakte estas dek ŝtonoleonaj korpoj. Provu klarigi tiun aferon.

En la 石o室o 诗-士o 氏-o 施/NNP,嗜as 狮ojn,kaj 誓as 食i 十/Num 狮ojn。氏o 时时/de tempo al dempo 适is al 市o por 视i 狮ojn。Je 十/Num 时o,适-e 十/Num 狮oj 适is al 市o。Je 是/DT 时o,适e 氏o 施/NNP 适is al la 市o。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i la 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is al la 石o室o。La 石o室o 湿is,kaj 氏o 使is 侍on 拭i la 石o室on。Kiam la 石o室o estis 拭inta,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。Je la 食-时o,始-识is ke 是/DT 十/Num 狮o尸oj,实e estas 十/Num 石o狮aj 尸oj。试u 释i 是/DT 事on。

(En la) ŝtono-ĉambro poemisto S-ro Shi hobias leonojn, (kaj) promesas manĝi dek leonojn. S-ro (de) tempo (al) tempo venis (al) merkato (por) vidi leonojn. (Je la) dek horo, ĝuste dek leonoj venis (al) merkato. (Je) tiu tempo, ĝuste S-ro Shi venis (al la) merkato. S-ro vidis tiujn dek leonojn, fidis sago-potencialojn, (kaj) kauzis tiujn dek leonojn forlasi (la) mondon. S-ro kolektis tiujn dek leono-korpojn, venis (al la) ŝtono-ĉambro. (La) ŝtono-ĉambro malsekis, (kaj) S-ro kauzis serviston viŝi ŝtono-ĉambron. (Kiam la) ŝtono-ĉambro (estis) viŝinta, S-ro ek-manĝis tiujn dek leono-korpojn. (Je la) manĝ-tempo, (li) ek-konis (ke) tiuj dek leono-korpoj fakte (estis) dek ŝtono-leono-korpoj. Provu klarigi tiun aferon.

其中用到的世界语小词是:en (in),la(the),kaj(and),de(from/of),al(to),por(for,in order to),je(at/in/about),dek(10),S-ro(Mr/Sir),tiuj(these), estas (is/am/are),  estis(was/were)

我们以第一句为例:“石室诗士施氏,嗜狮,誓食十狮。” 相当于:

(En la) 石-o-室-o 诗-o-士-o 施/Shi 氏/S-ro,嗜-as 狮-ojn, (kaj) 誓-as 食-i 十/Num 狮-ojn.

好玩吧,概念不变,里面多出了很多文法形式和小词。原文没有,为什么要加?怎么加?为什么加了才是对的?

前面说过,文言是孤立语,缺乏显性形式手段,它的文法关系是隐藏在词内部的“隐性形式”,通过揭示这些隐性形式,我们可以知道是什么语法关系,到了目标语,又该用什么显性语言形式。

自动句法解析例示如下,第一张是所谓短语结构句法树(PS tree),第二张是分析更加深入的依存关系结构图(DG graph):

“石/室/诗/士/施/氏” 这头6个字都是名词 N,虽然没有 -o 这样的形式。怎么知道的,这是词所对应的词义概念决定的。在我们头脑里面是有词典记忆的,如果建立词典的话,N 这样的词类特征就在词典里面了。可见所谓隐性形式,就是词典里面的藏在词背后的东西。词类是一种,更多的词的子类也是隐性形式,也是查词典可以得到的。

下一个问题是,6个名词串在一起,怎么知道它们之间的关系,又怎么知道它们在句子中的角色,从而知道世界语该如何合法组织它们呢?

第一条规则是,单字名词与单字名词在一起,经常是先组织成合成词。(这叫词法双音化倾向,当然有例外,但很多时候是这样。)于是,我们把6个字变成三个合成词::石室 / 诗士 / 施氏。

到了世界语,N 与 N 怎么联系为合成词呢,通常加 -o- 连。如果后面的N是后缀,或者前面的N是前缀,则不用加 o,而 -ist(者/士)正是后缀。最后两个字有一个小规则,就是:百家姓(这是隐性形式,查词典可得)+ “氏” 组合成人的专有名词,这种组合到了世界语正好要倒过来:

X+氏 –》 S-ro X

为什么两种语言表达人名与称呼的词序不同(词序本身也是语言显性形式)?没有道理,就是两个语言在这方面习惯不同。把它当成语言之间的转换规则记住就好了。

这样一来,这6个字的词法(组合成词)都有了表现的形式:

石-o-室-? 诗-士-? 氏/S-ro 施/Shi

前面两个合成词后面的问号表示世界语还需要确定用什么形态(或小词)来把合成词之间的关系,或合成词在句子中的角色搞清楚。通常名词组合的合成词默认就是 -o,但有例外,这个例外也是隐性形式决定的。

这样讲下去太累了,虽然也不知道如何才能既简单也能讲清楚语言的奥秘。所有在这里讲的过程,都可以在电脑上实现。也就是说,这里的讲的隐性形式最后转换成世界语的合法的形态和小词形式,都是一个完全透明可以一步步机械实现的过程。句法为基础的“经典式”机器翻译当年就是这么做的。(最新的机器翻译不是这样做的,是用所谓神经网络算法,纯粹从大量的平行翻译语料死记硬背模仿出来的,这话先放下。)

好,运用了专有名词组合的小规则以后,我们就有了:

石-o-室-? 诗-士-? 施氏/S-ro Shi

第一个合成词与第二个合成词可以有三种结合方式:一种是第一个修饰第二个(做定语),于是第一个用形容词词尾 -a,第二个用 -o,这是最常见的默认的“定中式”名词组合:

(1)石-o-室-a 诗-士-o 施氏/S-ro Shi

另一种结合方式是, 遇到 “地点名词/时间名词”(这是名词的子类,也是词典里面可以记录的隐性形式)在句首的话,我们可以认为它是状语,而不是前面说的默认的定语。状语在世界语有两个形式:一个是用副词词尾 -e表示,一个是用介词 je(或 en ),于是我们有了第二种和第三种译法:

(2)石-o-室-e 诗-士-o 施氏/S-ro Shi

(3)en 石-o-室-o 诗-士-o 施氏/S-ro Shi

把上面三种译法替换成实词对等物,于是我们有了这个片段的世界语:

(1a)ŝton-o-ĉambr-a poemist-o S-ro Shi
(2a) ŝton-o-ĉambr-e poemist-o S-ro Shi
(3a)En ŝton-o-ĉambr-o poem-ist-o S-ro Shi

如果用分析形式(3a),最好适当加上冠词:

(3b):En la ŝton-o-ĉambr-o la poem-ist-o S-ro Shi

冠词怎么加就不细说了,总之有些微妙,好在是可加可不加的。

这句后面还有几个字:“……, 嗜狮,誓食十狮”。

查了词典,我们知道它们各自的词类: 嗜V 狮N ,誓V 食V 十Num 狮N,名词外,也出现动词 V,数词 Num 了。动词后面跟名词,通常就是宾语,要用 -on 或 -ojn;数词(除了1)后面跟名词必须要用复数形式 -ojn。动词本身默认是现在时态 -as(讲故事情节的时候,最好改用过去时态-is)。两个动词连用的时候,后一个动词通常变成不定式 -i(严格地说这是由前一个动词的子类决定的)。于是我们就有了:

嗜-as 狮-ojn ,誓-as 食-i 十Num 狮-ojn

把实词换成世界语的等价概念,于是我们就“无中生有地”生成了合法的世界语翻译:

(1) ŝtonoĉambra poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.
(2)ŝtonoĉambre poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.
(3)En ŝtonoĉambro poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.

后面的句子都可以如法炮制。就是说,词典里面记录的词概念的词类、子类特征越丰富,我们就有了隐性形式的充足依据,拿它作为条件,根据上下文实词的组合,就可以指明世界语需要添加什么形态和小词,就可以用这些貌似无中生有的语言形式,表达隐藏在文言中的句法关系和语义逻辑,从而实现形式不同,但内容一样。

最后说一下,到底是中文文言这样的隐性形式好,还是用形态和小词把关系都挑明了好?当然是后者更胜一筹。小葱拌豆腐,一清二白呀。当然你也可以说,对于中文为母语者,也没觉得利用隐性形式,通过头脑里面看不见的词典记忆,组词造句是个负担。的确如此。但是对于其他语言来学中文的人,这不就要人命吗(语言天才例外)。对于机器分析和理解,也难得多。做一套世界语的电脑解析系统,一个星期妥妥的,做一个文言的解析系统,几年也不一定能做好呢。复杂度天壤之别。

好了,这次分享比开始想象的长多了。希望对于感兴趣的同好们,能有个启发。也在讲故事的过程中了解一下传统机器翻译的背后原理。也顺便普及一下世界语的文法概貌。

 

 

【相关】

语言形式漫谈

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

 

 

 

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据