《语言形式的无中生有:从隐性到显性》

立委按:这篇自选,大概只有对语言或语言学真有兴趣的读者,才能读到底。不过倘若真读下来了,欧洲语言的形态(语法词尾)及其生成的奥秘,也就清楚了哈。语言学真滴好迷人。简单打个比方,中文就是个“裸奔”的语言,头脑里的概念直接变成词往外冒。欧洲语言不同。思想化为语言表达出门前,先要穿戴整齐,西装革履一番。本文讲解的就是这个穿衣服的过程。术语叫“形态生成”。

 

话说华裔语言学泰斗赵元任先生曾经有过一个游戏名作,通篇只用同一个音,讲了这么个故事,天下人无不叫绝。

《施氏食狮史》
石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

这是比较浅白的文言文,读起来拗口,看懂这篇并不难。俏皮在通篇只有一个音节 shi,但对应了文言中不同的汉字。文言文汉字基本上就是一个独立语素(有意义的最小单位),属于孤立语,没有形态,虚字也极少用。文句主要就是靠实字概念之间的相谐(所谓“意合”)以及语序来表达内容,使人看得懂。

如果我们假设每个汉字对应一个确定的概念(多义汉字可以假设通过二字组或三字组来消歧),那么通过这些概念在西方语言中的词汇对应物及其组合成句的对比,我们就可以把孤立语与形态语之间的句法区别凸显出来。想来做一下这个练习会很有意思的,因为我们可以揭示语言的奥秘之一:无中生有。

这个对比练习最令人启发和好玩的地方,是做文言文与世界语(Esperanto)的对比,因为世界语实词的形态变化有两大特点:第一是形态词尾不可省略(起码词类词尾对于实词是必须存在的,不允许零形式);第二所有的形态变化是100%规则化的。这就会凸显形态这种词尾形式和小词这种形式怎么冒出来的。

咱们先建一部双语词典,让相同概念的实词一一对应:

石:ŝton / 室:ĉambr / 诗:poem / 士:ist / 施:Shi / 氏:S-ro / ,嗜:hobi / 狮:leon / ,誓:promes / 食:manĝ / 十:dek / 狮:leon / 。氏:S-ro / 时:temp / 时:temp / 适:ven / 市:merkat / 视:vid / 狮:leon / 。十:dek / 时:hor / ,适:ĝust / 十:dek / 狮:leon / 适:ven / 市:merkat / 。是:tiu / 时:temp /,适:ĝust / 施:Shi / 氏:S-ro / 适:ven / 市:merkat / 。氏:S-ro / 视:vid / 是:tiu / 十:dek / 狮:leon /,恃:fid / 矢:sag / 势:potencial /,使:kauz / 是:tiu / 十:dek / 狮:leon / 逝:forlas / 世:mond / 。氏:S-ro / 拾:kolekt / 是:tiu / 十:dek / 狮:leon / 尸:korp / ,适:ven / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 湿:malsek /,氏:S-ro / 使:kauz / 侍:servist / 拭:viŝ / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 拭:viŝ /,氏:S-ro / 始:ek / 试:prov / 食:manĝ / 是:tiu / 十:dek / 狮:leon / 尸:korp /。食:manĝ / 时:temp /,始:ek / 识:kon / 是:tiu / 十:dek / 狮:leon / 尸:korp /,实:fakt / 十:dek / 石:ŝton / 狮:leon / 尸:korp / 。试:prov / 释:klarig / 是:tiu / 事:afer /。

我们做语言对比的目的是考察完全不同类型和语系的语言之间,语言形式的不同是如何体现在组词造句的句法上,来帮助我们表达、理解和翻译的。因此,我们把多义字(词)的问题先放在一边,假定只有一个词义。但实际上不少字是有歧义的,即便在本篇中,也还有几个相同的字,意义不同(从而词类和用法也不同)。不过,这个问题可以用二字组(bigrams)来解决。本篇中需要用到的二字组有5条就够了:

施Shi / 氏S-ro --》S-ro Shi (倒装)
时temp / 时temp --》 tempo-al-tempo;de tempo al tempo
适ven / 市merkat --》 venas merkaton;venas al merkato
十dek / 时hor --》 dek-horon;je la dek horo
逝forlas 世/mond --》 forlasas mondon;forlasas la mondon

Ŝtonoĉambre poemisto S-ro Shi, hobias leonojn, promesas manĝi dek leonojn. S-ro tempo-al-tempe venis merkaton vidi leonojn. Dek horon ĝuste dek leonoj venis merkaton. Tiu-tempe ĝuste S-ro Shi venis merkaton. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kauzis tiujn dek leonojn forlasi mondon. S-ro kolektis tiujn dek leonokorpojn, venis ŝtonoĉambron. Ŝtonoĉambro malsekis, S-ro kauzis serviston viŝi ŝtonoĉambron. Ŝtonoĉambro viŝinte, S-ro ekprovis manĝi tiujn dek leonokorpojn. Manĝtempe, ekkonis tiuj dek leonokorpoj faktis dek ŝtonoleonajn korpojn. Provu klarigi tiun aferon.

实际上等价于:

石o室e 诗-士o 氏o 施/NNP,嗜as 狮ojn,誓as 食i 十/Num 狮ojn。氏o 时时e 适as 市o 视i狮ojn。十/Num 时-on,适-e 十/Num 狮oj 适as 市on。是/DT 时-e,适-e 氏o 施/NNP 适is 市on。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is 石o室on。石o室o 湿is,氏o 使is 侍on 拭i 石o室on。石o室on 拭inte,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。食-时e,始-识is 是/DT 十/Num 狮o尸oj,实is 十/Num 石o狮ajn 尸ojn。试u 释i 是/DT 事on。

Ŝton-o-ĉambr-e poem-isto S-ro Shi, hobi-as leon-ojn, promes-as manĝ-i dek leon-ojn. S-ro temp-o-al-temp-e ven-as merkat-on vid-i leon-ojn. Dek hor-on ĝust-e dek leon-oj ven-is merkat-on. Tiu-temp-e ĝust-e S-ro Shi ven-is merkat-on. S-ro vid-is tiu-jn dek leon-ojn, fidis sag-o-potencial-ojn, kauz-is tiu-jn dek leon-ojn forlas-i mond-on. S-ro kolekt-is tiu-jn dek leon-o-korp-ojn, ven-is ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o malsek-is, S-ro kauz-is servist-on viŝ-i ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o viŝ-inte, S-ro ek-prov-is manĝ-i tiu-jn dek leon-o-korp-ojn. Manĝ-temp-e, ek-kon-is tiu-j dek leon-o-korp-oj fakt-is dek ŝton-o-leon-ajn korp-ojn. Prov-u klarig-i tiu-n afer-on.

世界语形态很简单:

o 名词词尾,e 副词词尾,as 谓语现在时,ojn 名词-复数-宾格,i 不定式,on 名词-宾格,is 谓语过去时,inte 副词-主动-完成体,oj 名词-复数-主格,u 谓语命令式

那这些形态是怎么来的呢?

形态原文根本就没有,这是在翻译过程中“无中生有”的,否则就不符合世界语文法,也无法正确表达原文的结构内容。可以问:中文没有这些形态,不也是一样表达吗?凭什么知道它表达的,正好对应上面的形态呢?答案是,中文用的是隐性形式,而世界语的形态是显性形式。在我们用具体例句讲解隐性形式在文法上是如何工作的之前,我们再看看世界语的另外一种形式,所谓分析形式,是如何表达这一篇故事的。前面译文采用的语言形式是所谓综合语言的形态形式,世界语也可以更多依赖小词,采用所谓分析语言形式来表达,结果大致是这样的:

En la ŝtonoĉambro, la poemisto S-ro Shi hobias leonojn, kaj promesas manĝi dek leonojn. S-ro de tempo al tempo venis al merkato por vidi leonojn.  Je la dek horo, ĝuste dek leonoj venis al merkato.  Je tiu tempo, ĝuste S-ro Shi venis al la merkato. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kaj kauzis tiujn dek leonojn forlasi la mondon. S-ro kolektis tiujn dek leonokorpojn, venis al la ŝtono-ĉambro.  La ŝtonoĉambro malsekis, kaj S-ro kauzis serviston viŝi la ŝtonoĉambron. Kiam la ŝtonoĉambro estis viŝinta, S-ro ekmanĝis tiujn dek leonokorpojn. Je la manĝtempo, li ekkonis ke tiuj dek leonokorpoj fakte estas dek ŝtonoleonaj korpoj. Provu klarigi tiun aferon.

En la 石o室o 诗-士o 氏-o 施/NNP,嗜as 狮ojn,kaj 誓as 食i 十/Num 狮ojn。氏o 时时/de tempo al dempo 适is al 市o por 视i 狮ojn。Je 十/Num 时o,适-e 十/Num 狮oj 适is al 市o。Je 是/DT 时o,适e 氏o 施/NNP 适is al la 市o。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i la 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is al la 石o室o。La 石o室o 湿is,kaj 氏o 使is 侍on 拭i la 石o室on。Kiam la 石o室o estis 拭inta,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。Je la 食-时o,始-识is ke 是/DT 十/Num 狮o尸oj,实e estas 十/Num 石o狮aj 尸oj。试u 释i 是/DT 事on。

(En la) ŝtono-ĉambro poemisto S-ro Shi hobias leonojn, (kaj) promesas manĝi dek leonojn. S-ro (de) tempo (al) tempo venis (al) merkato (por) vidi leonojn. (Je la) dek horo, ĝuste dek leonoj venis (al) merkato. (Je) tiu tempo, ĝuste S-ro Shi venis (al la) merkato. S-ro vidis tiujn dek leonojn, fidis sago-potencialojn, (kaj) kauzis tiujn dek leonojn forlasi (la) mondon. S-ro kolektis tiujn dek leono-korpojn, venis (al la) ŝtono-ĉambro. (La) ŝtono-ĉambro malsekis, (kaj) S-ro kauzis serviston viŝi ŝtono-ĉambron. (Kiam la) ŝtono-ĉambro (estis) viŝinta, S-ro ek-manĝis tiujn dek leono-korpojn. (Je la) manĝ-tempo, (li) ek-konis (ke) tiuj dek leono-korpoj fakte (estis) dek ŝtono-leono-korpoj. Provu klarigi tiun aferon.

其中用到的世界语小词是:en (in),la(the),kaj(and),de(from/of),al(to),por(for,in order to),je(at/in/about),dek(10),S-ro(Mr/Sir),tiuj(these), estas (is/am/are),  estis(was/were)

我们以第一句为例:“石室诗士施氏,嗜狮,誓食十狮。” 相当于:

(En la) 石-o-室-o 诗-o-士-o 施/Shi 氏/S-ro,嗜-as 狮-ojn, (kaj) 誓-as 食-i 十/Num 狮-ojn.

好玩吧,概念不变,里面多出了很多文法形式和小词。原文没有,为什么要加?怎么加?为什么加了才是对的?

前面说过,文言是孤立语,缺乏显性形式手段,它的文法关系是隐藏在词内部的“隐性形式”,通过揭示这些隐性形式,我们可以知道是什么语法关系,到了目标语,又该用什么显性语言形式。

自动句法解析例示如下,第一张是所谓短语结构句法树(PS tree),第二张是分析更加深入的依存关系结构图(DG graph):

“石/室/诗/士/施/氏” 这头6个字都是名词 N,虽然没有 -o 这样的形式。怎么知道的,这是词所对应的词义概念决定的。在我们头脑里面是有词典记忆的,如果建立词典的话,N 这样的词类特征就在词典里面了。可见所谓隐性形式,就是词典里面的藏在词背后的东西。词类是一种,更多的词的子类也是隐性形式,也是查词典可以得到的。

下一个问题是,6个名词串在一起,怎么知道它们之间的关系,又怎么知道它们在句子中的角色,从而知道世界语该如何合法组织它们呢?

第一条规则是,单字名词与单字名词在一起,经常是先组织成合成词。(这叫词法双音化倾向,当然有例外,但很多时候是这样。)于是,我们把6个字变成三个合成词::石室 / 诗士 / 施氏。

到了世界语,N 与 N 怎么联系为合成词呢,通常加 -o- 连。如果后面的N是后缀,或者前面的N是前缀,则不用加 o,而 -ist(者/士)正是后缀。最后两个字有一个小规则,就是:百家姓(这是隐性形式,查词典可得)+ “氏” 组合成人的专有名词,这种组合到了世界语正好要倒过来:

X+氏 --》 S-ro X

为什么两种语言表达人名与称呼的词序不同(词序本身也是语言显性形式)?没有道理,就是两个语言在这方面习惯不同。把它当成语言之间的转换规则记住就好了。

这样一来,这6个字的词法(组合成词)都有了表现的形式:

石-o-室-? 诗-士-? 氏/S-ro 施/Shi

前面两个合成词后面的问号表示世界语还需要确定用什么形态(或小词)来把合成词之间的关系,或合成词在句子中的角色搞清楚。通常名词组合的合成词默认就是 -o,但有例外,这个例外也是隐性形式决定的。

这样讲下去太累了,虽然也不知道如何才能既简单也能讲清楚语言的奥秘。所有在这里讲的过程,都可以在电脑上实现。也就是说,这里的讲的隐性形式最后转换成世界语的合法的形态和小词形式,都是一个完全透明可以一步步机械实现的过程。句法为基础的“经典式”机器翻译当年就是这么做的。(最新的机器翻译不是这样做的,是用所谓神经网络算法,纯粹从大量的平行翻译语料死记硬背模仿出来的,这话先放下。)

好,运用了专有名词组合的小规则以后,我们就有了:

石-o-室-? 诗-士-? 施氏/S-ro Shi

第一个合成词与第二个合成词可以有三种结合方式:一种是第一个修饰第二个(做定语),于是第一个用形容词词尾 -a,第二个用 -o,这是最常见的默认的“定中式”名词组合:

(1)石-o-室-a 诗-士-o 施氏/S-ro Shi

另一种结合方式是, 遇到 “地点名词/时间名词”(这是名词的子类,也是词典里面可以记录的隐性形式)在句首的话,我们可以认为它是状语,而不是前面说的默认的定语。状语在世界语有两个形式:一个是用副词词尾 -e表示,一个是用介词 je(或 en ),于是我们有了第二种和第三种译法:

(2)石-o-室-e 诗-士-o 施氏/S-ro Shi

(3)en 石-o-室-o 诗-士-o 施氏/S-ro Shi

把上面三种译法替换成实词对等物,于是我们有了这个片段的世界语:

(1a)ŝton-o-ĉambr-a poemist-o S-ro Shi
(2a) ŝton-o-ĉambr-e poemist-o S-ro Shi
(3a)En ŝton-o-ĉambr-o poem-ist-o S-ro Shi

如果用分析形式(3a),最好适当加上冠词:

(3b):En la ŝton-o-ĉambr-o la poem-ist-o S-ro Shi

冠词怎么加就不细说了,总之有些微妙,好在是可加可不加的。

这句后面还有几个字:“......, 嗜狮,誓食十狮”。

查了词典,我们知道它们各自的词类: 嗜V 狮N ,誓V 食V 十Num 狮N,名词外,也出现动词 V,数词 Num 了。动词后面跟名词,通常就是宾语,要用 -on 或 -ojn;数词(除了1)后面跟名词必须要用复数形式 -ojn。动词本身默认是现在时态 -as(讲故事情节的时候,最好改用过去时态-is)。两个动词连用的时候,后一个动词通常变成不定式 -i(严格地说这是由前一个动词的子类决定的)。于是我们就有了:

嗜-as 狮-ojn ,誓-as 食-i 十Num 狮-ojn

把实词换成世界语的等价概念,于是我们就“无中生有地”生成了合法的世界语翻译:

(1) ŝtonoĉambra poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.
(2)ŝtonoĉambre poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.
(3)En ŝtonoĉambro poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.

后面的句子都可以如法炮制。就是说,词典里面记录的词概念的词类、子类特征越丰富,我们就有了隐性形式的充足依据,拿它作为条件,根据上下文实词的组合,就可以指明世界语需要添加什么形态和小词,就可以用这些貌似无中生有的语言形式,表达隐藏在文言中的句法关系和语义逻辑,从而实现形式不同,但内容一样。

最后说一下,到底是中文文言这样的隐性形式好,还是用形态和小词把关系都挑明了好?当然是后者更胜一筹。小葱拌豆腐,一清二白呀。当然你也可以说,对于中文为母语者,也没觉得利用隐性形式,通过头脑里面看不见的词典记忆,组词造句是个负担。的确如此。但是对于其他语言来学中文的人,这不就要人命吗(语言天才例外)。对于机器分析和理解,也难得多。做一套世界语的电脑解析系统,一个星期妥妥的,做一个文言的解析系统,几年也不一定能做好呢。复杂度天壤之别。

好了,这次分享比开始想象的长多了。希望对于感兴趣的同好们,能有个启发。也在讲故事的过程中了解一下传统机器翻译的背后原理。也顺便普及一下世界语的文法概貌。

 

 

【相关】

语言形式漫谈

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

 

 

 

【李白之40:逻辑语义是语义核心,但不是全部】【存档】

李:
"不晓得是啥":不晓得[ ]是啥

不晓得【萝卜】是啥。
这个宾语从句中的主语的坑省略以后,萝卜哪里去了呢?

萝卜不晓得是啥
不晓得是啥的萝卜
一口可口可乐喝完, 吐出一块不晓得是啥的东西

白:
“拿一些自己都不晓得是啥的东西来糊弄别人。”
定语从句反而是自然的

李:
why not 不晓得 NP[是啥的东西]? “晓得”的 subcats 既可带宾语从句,也可带NP宾语的:

不晓得啥东西
不晓得这东西

then, why the parse [[不晓得是啥]的东西] is better than [不晓得[是啥的东西]]?回答清楚这个问题,貌似需要一点说法。

白:
“他是个连微积分都不晓得是啥的东西”
又回去了。“晓得”带小句宾时,不满足穿透性,就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候,就出现了两个坑,不知道反填哪一个,这是要避免的。

李:
是吗?
“我不晓得到哪里去” == 我不晓得【我】到哪里去。

白:
不一定,可自主决策类,可以穿透。一般性的动词,无法穿透。

李:
“不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。

白:
狂吠是不及物的,一个坑。没有歧义。

李:
“不晓得是啥” 也是vp 也是不及物 或 宾语已经内部 saturated。

白:
不晓得是啥,两个坑:a不晓得b是啥。但“连微积分都不晓得是啥”,微积分填掉了一个坑,就没这个问题了。b锁定,只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人,虽然逻辑上包含人。连……都不晓得是啥,显然承载了这个负面情感。

李:
对。两个坑。但是 b 坑比 a 坑更具有必填性。

在“不知道是啥的东西”里,“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语,宏观上 是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。”
这里“晓得”的主语是“大家”。

白:
有“大家”,先填掉了逻辑主语。“东西”拔不走了。

李:
“晓得”的第二个坑 是宾语子句。“东西” 显然与 “晓得” 没有直接关系,因为根本就没坑了, “晓得” 已经饱和了。如果引进短语结构ps,可以说 “不晓得是啥” 这个 vp,还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。

白:
“是”的两个坑,“啥”占了一个

晓得的逻辑宾语是X,S比N优先,顺序比逆序优先。
“这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。

李:
大主语 topic,有可能是一个 arg 的坑 也有可能不占坑 那就是 mod。小主语必然填一个坑。

白:
双主语有两种情形,一种是大小主语,往往有part of联系;另一种是宾语提前或话题化,这种没有part of联系。有part of的,可以名词自带坑。没有的,只能消费里面的坑。名词自带坑的,里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是:1、他哭;2、眼睛肿;3、眼睛是他身体的部分。眼睛,和哭,共享“他”这个萝卜。因为“肿”合并到“哭”,“肿”辖域内的残坑(谁的眼睛)获得免费额度。可以复用已填坑的萝卜。

李:
有 part of 这种特别有意思:“他身体不错”。

== 【他 身体】不错。
== 他 【身体 不错】

这两个看似水火不容的结构,都有各自的合理和优点,二者互补才反映全貌。

(1) “他的身体不错”:显性形式的小词“的”,让“他”降格为修饰语,属于填了“身体”所留的坑的修饰语。

白:
有“的”,修饰语辖域自然归并到被修饰语辖域,也获得免费额度。他,可以既填“的”本身的坑,也可以再填“身体”的坑。

李:
(2) 他身体方面不错:“身体”被降格,降格成后置词短语PP“身体方面”(Postpositional Phrase),类似状语。
(3) “他么,身体不错”,“他”降格为话题状语,用了口语小词“么”。
(4) “他身体好,又聪明” 可算是谓词“升格”(或“小句降格”)。从一元化领导升格为集体领导。本来谓词(譬如“聪明”)就是谓语,但现在“身体好”这个短语或小句整体变成了谓语,与另一个AP谓语“聪明”并列。

白:
“身体好”整体相当于一个不及物动词。两个带坑的成分级联,略去中间环节,还是吃N吐S。

李:
这些现象极端有趣,fascinating。表明 在基本相同的逻辑语义底层结构中,语言表达可以借助语言学的形式手段,给这个底层结构穿不同的衣服,打扮成不同的形象。进而对其语义做某种非核心的修饰。

白:
从填坑角度看只是初等的数学运算。免费额度算清楚了,其他都是小菜一碟。这又打破树的形态,真心不是树。

李:
但是 即便所有的坑都填妥了,那也只是逻辑语义的胜利,底层核心的被求解,表层的细微语义差别(nuances), 那些不同表达方式,那些“升格”、“降格”的不同语言形式。它们所反映的东西 严格地说 也应该被恰当的捕捉和表达。

白:
两件事情,谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。

李:
对呀。

白:
比如听说双方之前各知道什么,强调什么,诸如此类。这些不在“主结构”框架内,但是是一些“环境变量”,需要的时候可以从里面捕捉这些信息。

李:
最典型的例子是 “我读书” 与 “我读的书”,二者语义的区别,虽然逻辑语义核心以及填坑关系是相同的。

白:
焦点不同、有定性不同,已然未然不同,甚至单复数也可能不同。我当下正在读的书可能标配是单数,我读过的书标配就是复数。

李:
这些语义 与 逻辑语义,处于不同的层面。逻辑语义是本体(ontoogy)作为模版, 这些语义与本体模版无关。所谓本体模版,说到底就是规定了坑与萝卜,及其 type appropriateness(相谐性),他不反映这些有待填充的模版之间的结构关系,也不反映关系中的节点上附加的语义或细微差别,诸如 强调、委婉、正式、非正式、语气 等。

白:
这些都可以抽象为:语境的坑,只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的,都是耍流氓。

李:
不仅仅人机对话,机器翻译也要这个。
30年前,董老师强调要以语言之间的核心,即逻辑语义,作为机器翻译的基础。让我们脑洞大开 深受启蒙。然而 这只是翻译需要正确传达的一个方面,的确是最核心的一面,但不是全部。边缘意义和细微差别,在核心问题基本解决后,就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看,主动被动是表层的语言现象,在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面,但人不是这样翻译的:一个高明的译者懂得,什么时候被动可以翻译成主动,什么时候需要翻译成显式的被动,什么时候可以翻译成隐式的被动,什么时候改造成反身自动的表达方式(譬如在英语到法语的翻译中加 se)。

白:
视角选择,也是一个考量因素。有时,被动语态的采用,纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。

李:
总之 逻辑语义是个纲 纲举目不一定张 对目下功夫是区别一个好的系统和一个很好的系统重要指针。

白:
纳入语境的坑,一个好处就是所有填坑的机制可以复用过来,无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等,都可以套用本体的subcat。

李:
这个方向探索不多。但现在是可以考虑的时候了。

白:
我考虑很久了。语义是船,语境是河。船有内部结构,但行进也受到河的左右。内部结构不能完全决定行进的选择。

白:
不知道“王冕死了父亲”算是交叉还是不交叉?
王冕游离在外,另一部分的中心词是死,但王冕却不填它的坑,而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系,这个link还是在王冕和父亲之间。从形式上看,王冕(N)和父亲填坑后的残坑(/N)中间隔着中心谓词“死(S)”,但这个吃饱了的S对N和/N之间的眉来眼去是无感的。
乐见其成。

F:
如果是语义依存,是non-projective的,是有交叉的,"父亲"这个词的投射不连续。

白:
‘’倒是“父亲”填“死”坑的一刹那,让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑,则是左侧核心成分优先级高,我把它们处理成句法上存在填坑关系了。

李:
“王冕死了父亲”的交叉与否的问题,这个以前想过。不交叉原则针对的是句法关系
这是句法关系的逻辑底线,交叉了逻辑上无法说通,所以判违规。还没见过例外:句法关系可以并列,嵌套,但不能交叉。但不交叉原则不适用于逻辑语义关系。其实,严格说,相对于逻辑语义的不应该叫句法关系,也包括词法关系(可以看成是小句法)。总之是形式层面的结构关系。形式层面的结构关系不允许交叉,这个原则是对的。有意思的是,语言中的不同层面的形式结构关系,戴上逻辑语义的眼镜,或映射到逻辑语义的表达的时候,就可能发现交叉现象。原因是昨天说过的,逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图(graph)中是不包含句法结构层次之间的关系语义的。换句话说,逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜,完全有可能去填句法层面的逻辑语义的坑。反之亦然:词法层面中的坑,完全有可能让句法层面的萝卜去填。用乔老爷的Xbar句法框架或概念来说就是,语言单位X的层次,在逻辑语义看来是不重要甚至不存在的,无论是 X 是 -1 (我把词法内部的层上标为负数),0(词一级),1(组一级),2(短语一级)。萝卜与坑可以在这些不同层次中继承或跳转,但是句法上却有层次之间的区别和禁忌。

这些层次以及层次间的关系和规定(譬如不交叉原则)是客观存在的反映,是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法(PSG)及其表达中,体现得较好。在不重视层级的依存文法(DG)中就反映和表达得不好或不够。不管我多么喜欢DG,多么讨厌PSG表达的叠床架屋,我还是要指出DG的某些不足,正是PSG的长处。

回到白老师的例子,可以看得清晰具体一些:“王冕死了父亲”。PSG句法上,王冕 是NP,“死了父亲”是VP,构成S。VP里面“死了”是V-bar, “父亲”是NP宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次,句法不允许一个单位钻进另一单位的里面去建立联系,这是违反了君臣父子的天条。一个句法结构,对外就是一个元素,里面是黑箱子,不透明(但可以利用某种机制传递某种东西)。唯此,才能维护结构的清晰。但是到了逻辑语义,这些条条框框都可以打破:一个儿子可以有n个老子,交叉也不是不可以。树(tree)是无法承载逻辑语义的任意性和结构扁平化了,于是需要用图(graph)。我早就说过,DG本性上比较亲近逻辑语义(深层核心结构),而PSG则亲近的表层句法结构。很多人以为它们是互换的或等价的,只是表达(reprentation)方式不同。其实不仅如此。在我们饭还吃不饱的时候,我们首先想到的肚子问题,核心问题。当我们衣食无忧的时候,我们就要讲究全面一些,核心和边缘都不放过。并不是不放过边缘,不放过表层结构语义,就一定要回到PSG,但是至少仅仅逻辑语义是不够的,还需要添加其他,就如白老师昨天提到的那些以及他的一些表达方案。

白:
这些所谓的句法,功劳不大,脾气倒是不小。比他多识别出有价值的二元关系,反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。

站在外层N的角度,它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体,这个联合体挖了一个名词坑,“王冕”填进去,天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道,共享“他”这个萝卜。

中心词作为组块的代表,统一对外提供坑。这是对的。但是这坑未必是中心词自带的,可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑,相当于用镣铐把自己锁起来。何苦自己为难自己?

李:
今天的对话,符号逻辑,参杂点黑话与绿色幽默,有点绕,烧点脑。管他呢,还是发了吧。

白:
“把字句”与补语所带坑的深度捆绑,也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”,没有坑可以共享萝卜,“哭”与human相谐,“肿”与body part相谐,二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用,吃human,吐human body。看这个“肿了眼睛”的联合体所带的坑,与“哭”所带的坑,完全相谐,恰恰是可以共享的了。所以,在PSG那里避之唯恐不及的穿越交叉,其实隐藏着重大玄机。恰如其分地把它请回句法,可以起到四两拨千斤的作用。我对什么该放在句法层面,其实只有一个标准,能描述谁和谁有关系。如果谁和谁就是交叉着发生关系,句法不仅不应该回避,而且应该忠实描述。更何况,大的方面,中心词代表所在组块对外发生关系方面,并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑,都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍,一定是障碍错了而不是关系错了。

退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”,什么都结了。

李:
说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断,坚信不隔断 谁也做不好 做不纯粹和深入。何况 语义是全人类共同的 哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法(UG) 仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义,语言学就开始参杂逻辑的杂质了。

白:
我说的也都是句法,不是语义。只不过是能给语义省点事儿的句法。

李:
夹杂了本体,或本体的隐藏式 譬如 大数据中间件,就不能说是纯句法,因为常识揉进了形式系统。

白:
只是在控制(怎么做)层面引入了本体/大数据,在描述(是什么)层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说,如果只是为了写一本句法书而不是为了做parser,本体连一句话都不需要提。那就在这个层面比,谁揭示了更多的结构性信息。

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录



http://blog.sciencenet.cn/blog-362400-1051610.html

上一篇:辨析相对论、相对论性与相对论性(的)效应
下一篇:【李白之41:Gui冒VP的风险】

【李白之44:“明确”是老子还是儿子,需要明确】【存档】

白:
“北京大学率先明确入雄安路线图”。“明确”是副词还是动词,需要先明确。

李:
我觉得这不是问题的关键。pos 在抽象层面只规定非常宽泛的框框。关键还是语义之间的相谐。正确的问题不是pos,而是 “明确” 在这里是状语(儿子),还是谓词(老子)。在【明确+ vp】里面,pos 上它没有什么限制,所谓跨类词。跨类就是两可。 对于跨类 这是一个没啥意义的问题 或者说 这是一个 circular 的问题。

“明确”的最常见的 subcat 带的是 np,但是 在 “明确v” 出现时,这个 v 可能是 vp,因此 “明确”可能做其状语。也可能这个 v 是np内部的修饰语。

(1) 明确规定游泳违规
(2) 明确规定 严明纪律 这两条是整顿金融秩序的关键所在
(3) 我们要明确规定条例

大数据可以帮到 (1);(2) 是排比的力量 压住了大数据,把潜在的动宾可能激发出来。 但排比因素的形式化实现还需要探究(虽然形式特征在人看来是蛮明显的)。(3) 仍然歧义:“明确(地)规定(相关)条例”,还是 “明确(一下)(有关)规定(方面的)条例”?大数据似乎选择前一个解读,为什么我们仍然感觉得到后一种解读的可能性。设想 如果大数据中 “规定条例” 比例开始高到可以与 “明确规定” 相匹敌的时候,这就是大数据也搞不定的边界之争。

白:
“北京大学率先明确入雄安路线图”这个例句中,“明确”只有一种走得通的词性,就是动词S/N,X。如果是副词,“入”就会过饱和。虽然过饱和也是能处理的,但放着正常饱和的不用却去用过饱和的,终究不妥。因为“入雄安”只剩下一个坑了。副词“S+”不会改变萝卜数和坑数。

李:
“率先明确入雄安的是习大大吗?当年是毛主席率先明确入京的。虽然有人提议仍在南京建都。” 什么叫 入 的过饱和?

看样子 “明确” 的subcat 也有带 vp 的,虽然不如带np的 subcat 用得广。

另。假设 native speaker 的语感与大数据(作为语言共同体语言表现的代表)吻合(实际上当然不会总是吻合), 那么大数据搞不定的歧义就应该视为真歧义。大数据能搞定的就是伪歧义 尽管这个伪歧义以前被认为是句法真歧义。“以前”指的是没有大数据语义中间间或没有语义或常识消歧手段的句法分析器的那个时期。

【相关】

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

【语义计算:李白对话录系列】

《朝华午拾》总目录



http://blog.sciencenet.cn/blog-362400-1055262.html

上一篇:【李白之43:谈谈绑定和回指】
下一篇:【李白宋铿锵行:聪明的一休与睿智的立委】

泥沙龙笔记:真伪结构歧义的对策(2/2) 【存档】

【存档】者,恢复科学网博客被遮蔽之博文也。有些文字也不知道犯了啥规矩,譬如本篇,纯学术沙龙,也莫名其妙封杀了。总之现在是风声鹤唳,杯弓蛇影。也难为编辑了,宁可错杀一千,不能放过一个,这也是高压下自保之策,可以理解。人在弯腰树,惹不起可以躲一躲,不是?

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

 

【立委按】读者的反应是,这次笔记是《立委科普》专栏中最深奥的。看得稀里糊涂,不明觉厉。的确,没有专业背景不行,这两篇不算严格意义的科普,当然也不是科唬,而是严肃的探讨,希望对后学和同仁更有价值。

好了,咱们接着聊,第二章:为什么多层系统,尤其是 多层 FSAs ,不受伪歧义的困扰?

白: 只要证明毛毛虫以外不是人话,就只管放心玩毛毛虫好了。

头头绪绪,怎么讲好呢?

白: 伪歧义跟规则的递归形式无关,跟规则的词例化水平和压制机制有关。但是,要hold住十万百万量级的规则,CFG一开始就必须被排除在外。

对。

说到底是规则的个性与共性关系的处理,这是关键。这个不是我的发现,我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为 专家词典(expert lexicon )系统,就是因为我们把个性的词典规则与共性的句法规则分开了,并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对,单层的 CFG 基本是死路。眉毛胡子一把抓,甚至所谓词典主义的 CFG 流派,譬如 HPSG 也不能幸免,不出伪歧义才怪呢。如果规则量小,做一个玩具,问题不严重。如果面对真实自然语言,要应对不同抽象度的种种语言现象,单层的一锅炒的parsing,没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合,但是在树本身的选择数目都在爆炸时,这种整合是不能指望的。

可以说得具体一点来阐释其中道理。分两个小节来谈,第一节谈多层系统中,单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制,比如“美国和中国的经济”’。“张三和李四的媳妇”

如果这两种伪歧义都有自然的应对方式,那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦,学文科的,生存下来不容易,各位包涵了。说到现在,从白老师的眼中,都是偏离主题核心了的。

白: 抽象的并列,天然优越于抽象的长短不齐。似乎并不关乎词例,词例化的、次范畴化的规则,都好理解。抽象的结构化压制,处于什么地位呢?

但是难得大家围坐在一起,忍不住借题发挥一下,顺带进一步阐释了上次“上海会面”上的论点:我对乔老爷既爱且恨,爱他批判单层统计派的一针见血;恨他一竿子打翻一船人,敌我不分,重理论轻事实。

白: 是因爱成恨好吧

我们实际上半条身子在统计派的船上,大家都是有限状态;半条身子在语言派船上,毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word,而我们的有限状态是真正的 ngram,这个”gram“ 就是刘老师当年一再强调的 “句素”,是一个动态的句法单位,可以是词、短语或者小句,随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的,因为它反映的是真正的语言学,统计学家天然不懂。

白: 世界上只有深层派和浅层派,这是复旦美女教授教导的。我认为只要touch深层,无论什么派都会殊途同归。

先说单层内部的伪歧义。这个白老师心里应该没有疑问了,不过为了完整还是先讲它。

单层的有限状态说到底就是一个 regex (正则表达式),只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层,面对的单位就是 words (or tokens)。如果是句法关系的解析层,面对的单位就是短语(可以看作是头词,它代表了整个短语,“吃掉”了前后修饰语)。

对于单层,有两种结构歧义,一种是伪歧义,占多数;一种是真歧义,占少数,但存在。单层系统里面的每一条规则都是一个 pattern,一个缩小版的局部 parser (mini-parsing),试图模式匹配句子中的一个字符子串(sub-string)。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。

白: 然后?

这是难免的:因为描述语言现象的规则条件总是依据不同的侧面来描述,每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多,相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分,是那个部分使得 parsing 越来越强大,涵盖的现象越来越多。至于相交的部分,结论一致的规则表现为伪歧义,这是多数情形。结论不一致的规则如果相交则是真歧义。这时候,需要一种规则的优先机制,让语言学家来定,哪条规则优于其他规则:规则成为一个有不同优先度的层级体系(hierarchy)。

白: 在线?

FSA Compiler 事先编译好,是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系,不能初一十五不一样。

个性的现象优先度最高。共性的现象是默认,优先度最低。这个很自然。一般来说,语言学家大多有这个起码的悟性,什么是个性现象,什么是共性。

白: ”张三的女儿和李四的儿子的婚事“

如果优先语感不够,那么在调试规则过程中,语言数据和bugs会提请语言工作者的注意,使得他们对规则做有意义的优先区分,所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity,这是个铁律。在非单调推理中也是如此。

这个优先权机制是所有实用系统的题中应有之意。

优先级别太多太繁,人也受不了。实际情形是,根本不用太多的优先级别区分,只要三五个级别、最多八九个优先级别的区分就足够了。

白: 我还是觉得优先级初一十五不一样的时候一定会发生,而且统计会在这里派上用处。

一切是数据制导,开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义,恰好就落在了原来的伪歧义的区间里面。这时候,虽然有n条规则都产生了 local parses,他们之间没有优先,那就随机选取好了,因为他们之间没有 semantic 的区别价值。

换句话说,真歧义,归优先级别控制,是数据制导的、intuitive 的。伪歧义则随机选取。这一切是那么自然,以至于从业者根本就没有真正意识到这种事情可能成为理论上的困扰。

关于初一15的问题,以及白老师的具体实例,等到我们简单阐释第二节多层之间的伪歧义的应对以后,可以演示。

第二章第二节,多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义,不外是围追堵截,这样的应对策略在开发过程中也是自然的、intuitive 的,数据制导,顺风顺水。围追堵截从多层上讲,可以在前,也可以在后。在前的是,先扫掉例外,再用通则。在后的是先做默认,然后再做修补(改正,patching)。道理都是一样的,就是处理好个性和共性的关系。如果系统再考究一点,还可以在个性中调用共性,这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识,甚至常识(根据应用需要),共性里面就是句法模型之间的变式。

好,理论上的阐释就到此了,接下去可以看实例,接点地气。白老师,你要从哪个实例说起?我要求实例,加问题的解释。

白硕: “中国和美国的经济”。这就是我说的初一十五不一样。

这是真的结构歧义,Conjoin (联合结构)歧义 。在语言外知识没带入前,就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义,其他的还有 “的”字结构的歧义。这些歧义在句法层无解,纯粹的句法应该是允许二者的共存(输出 non-deterministic parses),理论上如此。句法的目标只是区分出这是(真)歧义(而这一点在不受伪歧义困扰的多层系统中不难),然后由语义模块来消歧。理论上,句法和语义/知识 是这么分家的。但是实践中,我们是把零散的语义和知识暗度陈仓地代入句法,以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

缺省优先由”大数据“定,原则上。统计可以提供启发(heuristics)。

白: 有次范畴就能做出缺省优先。不需要数据。

当然。次范畴就是小规则,小规则优先于大规则。语言规则中,大类的规则(POS-based rules)最粗线条,是默认规则,不涉及具体的次范畴(广义的subcat)。subcat based 的其次。sub-subcat 再其次。一路下推,可以到利用直接量(词驱动)的规则,那是最优先最具体的,包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的,就联合结构而言。但是,about 次范畴,理论上有太多的层。

那是,联合结构消歧中的次范畴不是很好用,因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet,里面的 taxonomy 可以很深,统统用来作为次范畴,不太现实。但理论上是这样使用的。

白: 再一个,“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗?

上例的问题和难点,白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象?

白: 上例是处理深度的问题,各自理解即可。歧义叠加,只有更加歧义了。可是实际相反,叠加限制了歧义。

在分层处理中,我们是这样做的:

(1)Basic NP, 最基本NP层的结果是:NP【张三】 的 NP【女儿】 和 NP【李四】 的NP【儿子】 的 NP【婚事】

(2)Basic XandY, 最基本的联合结构层:在这个层次,如果条件宽,就可能发生联合错误,错把 【女儿 和 李四】 联合起来。这个条件可以是 HUMAN,二者都符合。而且在 95% 的现象中,这个条件是合适的。如果条件严的话,譬如用 RELATIVES 这个语义次范畴(HUMAN的下位概念),而不是 HUMAN 来限定的话,这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢,这实际上决定于设定的目标,没有一定之规。做细总是可以做到更好质量,大不了多加几层 NP 和 XandY 的模块(FSAs),但还是增加了开发和维护的负担。如果做粗一点,只要所造成的 parsing 质量上的后果能控制在应用可接受的范围,那也未尝不可,因为说到底,世界上没有完美的系统。上帝允许人类的不完美。

雷: 联合类的问题一直是nlp的难点。

白: 把这个换成“AB的中点与AC的中点的连线”?同样的结构。

另一个思路,就是多层协调中的修补。对于上述两个例子,修补的办法似乎更好。与其分多层,代入各种繁琐的语义条件来消歧,不如任他出错,然后根据pattern的平行因素加以修正。在多层系统中,这个常常是有效的策略,也符合开发的总体规划。先把系统大体弄得work了,可以对付多数现象,然后有时间和余力了,后面可以 patching。前提是,错误是 consistent 和 predictable 的。对于多层管式系统(pipeline system),错误并不可怕,只要这种错误 consistent 有迹可循,后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation(错误放大)的难题。其实,多层系统也可以做到负负得正(矫枉过正是也)。一个好的系统设计,是后者,通过 data-driven,可以做到把错误放大控制到最低限度,并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行,太细则边际效益大减。

上例中 “中点与AC” 可以联合,不过是一个暂时的内部错误而已,后面可以修正。总之,这些都不是根本的 challenge,想做就可以做,实际操作上,也可以选择不做。问题大了,就做;用户发飙了,就做;否则就无视。很少有歧义是做不出来的,功夫和细节而已。最终决定于值得不值得花这份力气,有没有这样的开发时间和资源。

白: 做与不做,有可能影响架构选择。补丁有好处也有后遗症。

NLP 可以做一辈子,在基本机制(优先机制,修正机制,范畴、次范畴机制,专家词典等)由平台实现提供以后,慢慢磨到最后就是 diminishing return,与爬山类似,这决定了我们何时罢手。如果85%的精度作为parsing的目标,那么系统会选择不做一些稀有的现象。有了这个 85%,已经可以满足很多应用的要求了。

有了 85% 做底, 还可以让机器变得智能起来,自动地自我提高,所谓 self-learning,这是研究课题了,但是是可以实现的。实际上在我指导的实习生实验中已经实现,不过就是不大实用而已。

白: 再看“馒头吃光了”?

这个例子更容易讲清楚,。在系统的某一层,可以有个规则 把某种 “V+光" parse 成为动补结构,这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

好,这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例,譬如,”黑洞吃光了“, 那么或者修正它,或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则,如果需要的话。至于这么做值得不值得,那是应用层面的决定。很多时候是不必要的。错了就错了,不过是显得系统缺乏专家的知识,so what?

即便是人,也决定于他的知识面,小学生和文盲一般不能正确 parse 理解 ”黑洞吃光“  的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要,那是语言内的句法知识(最多说是句法子范畴或小规则,但不涉及专业知识),是所有国人的默认理解。

白: 这一点非常重要。一个开放,一个封闭。一个外部,一个内部。

外部的事儿,就算没有专业知识,也可以大数据招呼。

今天似乎可以结束了,说到底,就是

一,平台需要提供一些基本机制来处理共性与个性的关系,从而应对歧义,这些在 FSA formalism 的教科书定义中可能不存在,或被忽略,但却是实用系统不可或缺的。

二,NLP 的确是个力气活,有无限的可能深入。当然,我们可以选择不深入,可以选择何时罢手。

至于大数据招呼,那个在前述的自学习上也必须用到。

雷: 人在语言理解中也会发生许多歧义。如果机器发生的理解歧义同人的歧义,这个反而正常了。

我们教授机器做到 85%,大数据基础的自学习可以让它自行提高到 90%,这个是部分证实了的,可惜还没有发表出来,以前说过,懒得成文。都骨灰级老革命了,谁在乎那个。

雷: 大数据太笼统了。言语理解有太多层了。比如,比喻或隐喻。

白: 他就是要抹平这些层 @雷

我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。

啰里啰嗦,把大家都吓跑了,只剩咱哥仨了?

雷: 这些抹平是暂时的还是永久的?

白: 实用主义的

雷: 同意,实用主义

对。实用主义,就是小平的猫路线。

这次神侃算不算基本回答了疑惑,可以得出 ”伪歧义在多层系统中不是困扰“ 这个结论?

白: @wei 是,非常感谢

不过,我们一方面实用制导,一方面没有忘记基本面和大局。与纯粹的实用主义,头痛医头,脚痛医脚,还是不同。

雷: @wei 这些可以发表在你的博客吗?@wei 许多东西在博客里更好更有指导意义

既然讲了,就博客吧。这种积一辈子挖煤的经验之谈,正式论文中罕见,也算一件功德。

难得的是白老师还有雷司令身为主流精英,居然能一开始就高于主流,不排斥异端或少数派。

所以上次上海聚会,我就说,火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。

白: 可以再关心一下NLP的商业模式,怎么能讲一个好故事。我们说fsa也好分层也好,资本都是不感冒的。

雷: 是,商业模式, 如李长官以前说的,怎么2c,而不是仅仅2b

白: 只要聚焦于深层,一定会殊途同归。

但我知道也有很多统计死硬派,甚至大牛,是不尿这壶的。

白: RNN记在统计账上,但已经是深层了。

滑稽的是发现有些死硬派做了n年NLP,却真地不懂语言学,有个别大牛连常识都不懂,让人跌破眼镜。当然这个只能内部说说,不能博客的。所以往往是互相地不尿对方那一壶,与宗教之战类似。

RNN 我还需要学习,才敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何,我不知道。

可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来,也殊途同归。

其实 多层 FSAs 本质上就是 ngram 的花样,不过 gram 不再仅仅是词了,而是等于或大于词的句素。能以动态句素作为 ngram 的对象,是因为多层的原因,跟剥笋子一样,层层扒皮,gram 当然就是动态的了。这一点很关键,是乔姆斯基都没想到的 power。

白: 对,边扫描边归约,边抛出句素。

黄: ngram是简单的统计,这几年也有许多进展,representation learning 算是深度学习在自然语言处理的热点。

这里面最 tricky 的不是机制而是细节。魔鬼在细节,就是指的这个。FSA 是”古老“简单的机制了,细节就是玩平衡,玩模块之间的协调。玩得好的就好比中餐的大厨,可以做出满汉全席来,玩不好的还不如麦当劳、keywords。到这一步,经验因素开始起作用。没碰过n次壁,甚至几万小时的炼狱,这个火候掌握不好。

白: 句素的个头大,影响范围就大,相当于抛得就远。可以进入远距离的滑动窗口,伟哥说的Ngram的缺点就不存在了。

黄: 很多新的模型都试图去capture long distance, sentence, paragraph的依赖关系,这里头可做的事情很多。

这类系统很难做得表面上漂亮光洁,总是在混沌中前行,要忍受不完美。这方面的忍受,数学家不如语言学家。他们天生追求简洁完美,不愿意将就。

白: dirty是必然的

ngram 的缺点是主流的缺点,不是语言多层派的缺点。恰好相反, ngram 多层以后,很容易比任何 CFG 做得细致深入,以至于,想怎么深入就怎么深入, 如果持续开发的话。

黄: 我感觉统计模型的优点之一是在某种程度上加上了semantic,比pure syntactic有很多好处

CFG 那套单层范式,无论统计模型还是传统文法加以实现,真地深入不下去,是框框决定的。两边都玩过,这种对比太强烈了。我对我的博导说过, HPSG 真地不好用,那边费那么大劲的事儿,在我这儿是小菜。说拿的是牛刀,可对象不是牛,而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表(相当于语言的head中心词)之间发生全局相互作用的地方。真是神了。

为世界和平和人类福祉计,统计模型和规则系统一定是要融合和弥补的,in some form。

这个忽视统计的教训我们也有过。如果没有统计的概念,没有大数据的制导,往往拍着脑袋而过度开发,最终是系统的臃肿不堪,甚至报废。我们语言学家是一种可能走火入魔的动物。必须要用数据制导和工程操作规范来制约我们,不能由着我们任性胡闹。

白:飞机要起飞了。关机。到北京再继续。

今天到此,特别谢谢白老师的互动和精彩的及时点评。

黄: 大胆假设,小心求证。复杂模型的威力如果有了海量带标数据没准能发挥。这几年好些统计模型都是老树开花。

黄老师还沉浸在主流的傲慢与光荣中,呵呵。

黄: 不好意思。

 

当然,任何奇迹都可能发生,就如在图像和语音中发生的奇迹一样。也许 deep learning 在 parsing 方面会有突破。可以想见,很多 DL 研究者正在朝着这个目标奔跑,似乎谁跑得快,谁就可以摘除NLP皇冠上的明珠。

不过这边厢有半个多世纪的传承和几十年的积累,奇迹已经发生了。

我最乐观的预测是,统计的奇迹一旦发生,从功能上也就是多层规则派奇迹的再现。从今后扩展上,也许更具优势?

拭目以待-ing。

【相关博文】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2) 2015-09-21

 乔姆斯基批判

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-922450.html

上一篇:泥沙龙笔记:真伪结构歧义的对策(1/2)
下一篇:【旧文翻新:温哥华,我的梦之乡】
 

1  陈辉

发表评论评论 (4 个评论)

删除 回复 |赞[2]李维   2015-9-24 15:35
一不小心,把我以前的关于有限状态不是确定性状态的回复覆盖了,懒得重写了。总之,有限状态是一个 formalism,用来描写输入串如何模式匹配,而确定性和非确定性(deterministic、nondeterministic)是指的输出结果的形式。
删除 回复 |赞[1]srrc   2015-9-21 23:09
这种方法总觉得离人对语言的理解有偏差,人阅读会有回溯。但很多情况下,读如花园小径句子并不需要重读,可见人脑中本身就有多种后选,这与确定性状态有悖。
 回复  : 有限状态(finite state)不是确定性状态。有限状态只是一个formalism,一个捕捉语言句型和现象的工具,并非不允许不确定的状态。更加接近这个概念的是 deterministic,有限状态的方法并不是天然地输出 deterministic results,虽然实际上还是 deterministic 的过程实用。Non-deterministic 的结果,如果真地需要和有益的话,也还有其他的方法和技巧在系统中体现。
2015-9-21 23:491 楼(回复楼主)赞|回复
 回复  : 微博的一些评论转抄如下:

王伟DL
文章透露着落地的经验(经历)的光泽,不同的人对此文吸收和反射的谱线也会不同。我贪婪地一连看完,很多地方只觉得在理,的确是是是,有些地方也想表己见,却欲辨已忘言。“...指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。",好羡慕这个大块头!大块头有大智慧!

@算文解字:这篇顶级高手对话,充满思想,可以当武林秘籍参悟的文章,竟然没人转。。。强烈推荐啊!

算文解字
依存关系的确更好用//@立委_米拉: (1) 分层是正道。最起码要两层,基本短语层和句法关系层。(2)顺便一提,作为生成结果,短语结构的表达远不如依存关系的表达。短语结构叠床架屋,不好用,也不够逻辑和普世(不适合词序自由的语言)。当然,这后一点是另外的话题了,不仅仅是 CFG vs FSG 之争了。

算文解字
也对,镜老师批评的是用同一层次的规则处理不同层次的现象的"原教旨"CFG生成方法,提出的对策为FST分层处理。而在CFG下用coarse2fine的(分层)策略,也算是殊途同归了。//@沈李斌AI: 没必要排斥CFG。CFG树是生成结果,不是生成步骤。设计好coarse to fine的生成策略,控制每一步的perplexity和recall
2015-9-24 15:242 楼(回复楼主)赞|回复
 

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

题记:此地有金八百两,隔壁RNN不曾偷。

李:今天我们可以讨论伪句法歧义(pseudo-parses)的问题。我说过,多层 FSA 的 deep parser 不受伪歧义的困扰,虽然这是事实,但也还是需要一个阐释。这个问题是革命的根本问题,虽然文献中很少讲述。

第一章,事实篇。

话说某年某月某日,立委与白老师在微博狭路相逢。其时,立委正海吹深度分析(deep parsing)乃是自然语言之核武器,批评主流只在浅层做文章,摘下的不过是低枝果实(low-hanging fruit)。白老师当时插话说(大意): 你们搞深度分析的不算,你们也有自己的挑战,譬如伪歧义问题。最后留下三个字:你懂的。

各位看官网虫,大凡社会媒体,只要留下这三个字,那就是宣告对手的不上档次,不值得一辩,叫你无还手之力,无掐架之勇,先灭了你的志气。此前,与白老师未有私人交往,更无卡拉ok,江湖上下,白老师乃神人也,天下谁人不知,况青年偶像,粉丝无数。立委见势不妙,战战兢兢,唯唯诺诺:“那自然”。我懂的。心里却颇不以为然:伪歧义其实不是一切深度分析的命门,它只是单层分析的挑战,特别是 CFG (Context-Free Grammar)类 parsers 的困扰。

这是第一章第一节,是锲子。

虽然心里不以为然,但是“我懂的”,却是有丰富的事实依据。骨灰级老革命有一个好处,就是碰壁。无数的碰壁。革命,碰壁,再革命,再碰壁,直至百毒不侵,火眼金睛。老革命可能还有一个好处,就是走运,走狗屎运(譬如赶上上世纪末的网络泡沫,米国的科技大跃进,天上掉馅饼),直至反潮流也没被杀头,硕果仅存。

话说自上世纪80年代社科院出道以来, 就开始做deep parsing, 跟着两位导师,中国NLP的开山前辈,中国MT之父刘先生。他们的几十年的机器翻译积累,在分析这块的传承就是多层模式匹配(multi-level pattern matching)。用 CL术语,就是 multi-level FSA (finate state automata)或 cascaded FSA,有限状态的。我是苦力、主力,新毕业生嘛,为 deep parsing 写了无数个性的词典规则和反复调试精益求精的600条抽象句法规则。埋头拉车,无需抬头看路。从来就没有碰到过什么伪歧义的问题。这是事实一。

事实二发生在我做博士的时候,90年代中期。在风景如画的SFU山头上。当时我的两位导师,电脑系的 Fred 和 语言系的 Paul 合作开了一个自然语言实验室。这两位博导虽也绝顶聪明,但毕竟还年轻。在 NLP 场面上,需要站到一条线上,才好深入。实际上,他们是加拿大 NLP 的代表人物。他们于是选择了当时流行的 unification grammar school (合一文法学派)之一种,就是继 Prolog 以后,开始火起来的合一文法中的后起之秀,名叫 HPSG (Head-driven Phrase Structure Grammar)。这一个小流派,斯坦福是主打,欧洲有一些推崇和践行者,在北美,闹出动静的也包括我的导师的实验室。HPSG 说到底还是 CFG 框架,不过在细节上处处与乔老爷(Chomsky)过不去,但又处处离不开乔老爷。理论上有点像争宠的小妾,生怕得不到主流语言学界乔老爷的正视。

白: 还没进正题

李:白老师嫌拖沓了??现在还在事实篇内。不讲道理。

HPSG 推崇者不少,真懂的怕不多,特别是把 HPSG 用于中文 parsing 方面。看过一些国人不着边际的 HPSG 论,造成了这个印象。这玩意儿得跳进去,才知优劣深浅。当然没跳的也不必跳了,合一(unification)这一路没成气候,现在跳进去也是白跳,浪费时间。HPSG 有一个好处,就是它的词典主义,它实际上就是此前流行的 GPSG 的词典主义版本。NLP 领域各路英豪你争我斗,但有一个很大的共识,就是词典主义,lexicalist approach or lexicalist grammar。这也反映在 HPSG,LFG 等风行一时的文法派中。

我呢,有奶便是娘。本来嘛,导师做什么,学生就要做什么,这才是学位正道。于是,我在HPSG里面爬滚了几年。照猫画虎,写了一个 CPSG,就是 Chinese 版本的 HPSG。用它与实验室的英文 HPSG 对接,来做一个英汉双向机器翻译的实验,当然是玩具系统。这是我博士论文的实验部分。

为什么双向?这正是 Prolog 和所有 unification grammars (又称 constraints based grammars)所骄傲的地方:文法无需改变,文法就是对语言事实的描述,文法没有方向。无论做分析(parsing),还是做生成(generation),原则上,规则都是一样的,不过是执行层面的方向不同而已。理论听上去高大上,看上去也很美,一度让我入迷。我也确实完成了双向的实验,测试了几百个句子的双向翻译,得到了想要的结果。细节就不谈了,只谈相关的一点,就是,伪句法歧义在这些实验中是一个 huge problem。这个 HPSG parsing 中,伪歧义的事实有多严重呢?可以说是严重到令人窒息。当时用PC终端通过电话线连接到实验室的server上做实验,一个简单的句子在里面绕啊绕,可以绕出来上百条 parses。当然,可以设置成只输出一条 parse 来。有时忍不住好奇心,就耐心等待所有的 parses 出来,然后细细察看,究竟哪个 parse 对。

额的神!

乍看全长得差不多,细看也还是差不多。拿着放大镜看,才看出某个 feature value 的赋值不同,导致了 parses 之间的区别。可这种不同基本上没有语义的区别性价值,是为 pseudo parses 之谓也。要都是伪歧义也好,那就随机选一个parse 好了,问题出在,这百来条 parses 里面有时候会混杂一两条真的歧义,即语义上有区别性价值的 parses,这时候,选此废彼就具有了操作层面的价值取向。否则就是以一派压制另一派,反对党永无出头之日。

这个问题困扰了整个 HPSG community(其实是整个 CFG 框架下的 community)。记得在 HPSG 内部邮件组的讨论中,怨声鼎沸,也没人能找出一个理论上和实践上合理的解决途径来。

白: 简单说就是时间复杂性上去了,结果复杂性没下来。折了兵,真假夫人还混在一起不知道赔谁合适。

李:这就是为什么当时您那么肯定地指出我作为深度分析语言工作者所面临的挑战,他是把我归到主流语言学乔老爷 CFG 的框架里说的。

在第一章事实篇结束前,简单说一下实践中的对策。后来我的导师与本省工业界合作,利用 HPSG MT 帮助翻译电视字幕。在真实应用中,他们只好选择了第一条成功的 parse 路径,完全忽略其他的 parses。这也是没有办法的办法。质量自然受损,但因为无区别意义的 pseudo-parses 占压倒多数,随机选第一条,在多数场合也还是可以的。

第一章小结:骨灰级老革命在没有理论探索的情况下,就在 deep parsing 的 field work 中经历了两种事实:一种是不受困扰的多层 parser,一种是深陷其中的单层 parser。因此,当白老师一口咬定深度分析的这个挑战的时候,我觉得一脑门道理,但就是有理说不清。至少一句两句说不清,只好选择逃遁。

对于绝大多数主流NLP-ers,NL的文法只有一派,那就是 CFG,无论多少变种。算法也基本上大同小异,chart-parsing 的某种。这个看法是压倒性的。而多层的有限状态文法做 parsing,虽然已经有半个多世纪的历史,却一直被无视。先是被乔姆斯基主流语言学派忽视,因为有限状态(FSA)的名字就不好听(多层不多层就懒得细究了),太低端小气下位了。由于语言学内部就忽视了它,自然不能指望统计派主流对它有重视,他们甚至对这路parsing没有啥印象(搞个浅层的模式匹配可以,做个 NE tagging 啥的,难以想象其深度parsing的潜力),尽管从有限状态这一点,其实统计派与FSA语言派本是同根生,二者都是乔老爷居高临下批判的对象,理论上似乎无招架还手之力。

白: 概率自动机和马尔可夫过程的关系

李:但是,多层 FSA 的精髓不在有限状态, 而是在多层(就好比 deep learning 的精髓也在多层,突破的是传统神经网络很多年停滞不前的单层)。这就是那天我说,我一手批判统计派,包括所有的统计,单层的多层的,只要他们不利用句法关系,都在横扫之列。因为这一点上还是乔老爷看得准,没有句法就没有理解, ngram 不过是句法的拙劣模仿,你的成功永远是浅层的成功, 你摘下的不过是低枝果实。不过恰好这种果子很多,造成一种虚假繁荣罢了。

另一方面,我又站在统计派一边,批判乔姆斯基的蛮横。实践中不用说了,管用的几乎都是有限状态。乔老爷要打死单层的有限状态,我没有意见。统计派的几乎所有模型(在 deep learning 火起来之前)都是单层,他们在单层里耗太久了不思长进,死不足惜,:)。 蛮横之处在于乔老爷对有限状态和ngam多样性的忽视,一竿子打翻了一船人。

白: RNN可以完美模拟FSA, 但是现在的人都把RNN当做统计派的功劳。

李:但是他老人家忘记了, 我只要叠加 FSA 就可以比他所谓的 more powerful 的 CFG 做得深透,而且合体(特别适合白老师说的自然语言的毛毛虫体型)。他对有限状态的批判是那么的无视事实和缺乏理性。他是高高在上的神,不食人间烟火的,我们各路NLP实践派对他都敬而远之,基本没有人跟他走。在他本应发挥影响的领域,他其实缺乏起码的影响力。倒是语言学内部被他控制了,语言的形式化研究跟着他亦步亦趋走了半个多世纪,离作为其应用场景的 NLP 却渐行渐远。这是一个十分滑稽的领域怪相。 

白: RNN加层、计数器、加栈、加长时记忆,本质上都在突破单层FSA的计算能力

李:好了,咱们接着聊第二章:为什么多层系统,尤其是 多层 FSAs ,不受伪歧义的困扰?

白: 只要证明毛毛虫以外不是人话,就只管放心玩毛毛虫好了。伪歧义跟规则的递归形式无关,跟规则的词例化水平和压制机制有关。但是,要hold住十万百万量级的规则,CFG一开始就必须被排除在外。

李:对。

说到底是规则的个性与共性关系的处理,这是关键。这个不是我的发现,我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为 专家词典(expert lexicon )系统,就是因为我们把个性的词典规则与共性的句法规则分开了,并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对,单层的 CFG 基本是死路。眉毛胡子一把抓,甚至所谓词典主义的 CFG 流派,譬如 HPSG 也不能幸免,不出伪歧义才怪呢。如果规则量小,做一个玩具,问题不严重。如果面对真实自然语言,要应对不同抽象度的种种语言现象,单层的一锅炒的parsing,没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合,但是在树本身的选择数目都在爆炸时,这种整合是不能指望的。

李:可以说得具体一点来阐释其中道理。分两个小节来谈,第一节谈多层系统中,单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制,比如“美国和中国的经济”’。“张三和李四的媳妇”

李:如果这两种伪歧义都有自然的应对方式,那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦,学文科的,生存下来不容易,各位包涵了。

白: 抽象的并列,天然优越于抽象的长短不齐。似乎并不关乎词例,词例化的、次范畴化的规则,都好理解。抽象的结构化压制,处于什么地位呢?

李:但是难得大家围坐在一起,忍不住借题发挥一下,顺带进一步阐释了上次“上海会面”上的论点:我对乔老爷既爱且恨,爱他批判单层统计派的一针见血;恨他一竿子打翻一船人,敌我不分,重理论轻事实。

白: 是因爱成恨好吧

李:我们实际上半条身子在统计派的船上,大家都是有限状态;半条身子在语言派船上,毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word,而我们的有限状态是真正的 ngram,这个“gram” 就是刘老师当年一再强调的 “句素”,是一个动态的句法单位,可以是词、短语或者小句,随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的,因为它反映的是真正的语言学,多数统计学家天然不懂。

白: 世界上只有深层派和浅层派,这是复旦美女教授教导的。我认为只要touch深层,无论什么派都会殊途同归。

李:先说单层内部的伪歧义。这个白老师心里应该没有疑问了,不过为了完整还是先讲它。单层的有限状态说到底就是一个 regex (正则表达式),只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层,面对的单位就是 words (or tokens)。如果是句法关系的解析层,面对的单位就是短语(可以看作是头词,它代表了整个短语,“吃掉”了前后修饰语)。

对于单层,有两种结构歧义,一种是伪歧义,占多数;一种是真歧义,占少数,但存在。单层系统里面的每一条规则都是一个 pattern,一个缩小版的局部 parser (mini-parsing),试图模式匹配句子中的一个字符子串(sub-string)。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。这是难免的:因为描述语言现象的规则条件总是依据不同的侧面来描述,每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多,相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分,是那个部分使得 parsing 越来越强大,涵盖的现象越来越多。至于相交的部分,结论一致的规则有可能表现为伪歧义(结论完全一致是异曲同工,没有歧义,但设置一个系统的内部表达,难免涉及细节的不同),这是多数情形。结论不一致的规则如果相交则是真歧义。这时候,需要一种规则的优先机制,让语言学家来定,哪条规则优于其他规则:规则成为一个有不同优先度的层级体系(hierarchy)。

白: 在线?

李:FSA Compiler 事先编译好,是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系,不能初一十五不一样。

李:个性的现象优先度最高。共性的现象是默认,优先度最低。这个很自然。一般来说,语言学家大多有这个起码的悟性,什么是个性现象,什么是共性。

白: “张三的女儿和李四的儿子的婚事”

李:如果优先语感不够,那么在调试规则过程中,语言数据和bugs会提请语言工作者的注意,使得他们对规则做有意义的优先区分,所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity,这是个铁律。在非单调推理中也是如此。

李:这个优先权机制是所有实用系统的题中应有之意。优先级别太多太繁,人也受不了。实际情形是,根本不用太多的优先级别区分,每一层分析里只要三五个级别、最多八九个优先级别的区分就足够了(因为多层次序本身也是优先,是更蛮横的绝对优先)。

白: 我还是觉得优先级初一十五不一样的时候一定会发生,而且统计会在这里派上用处。

李:一切是数据制导,开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义,恰好就落在了原来的伪歧义的区间里面。这时候,虽然有n条规则都产生了 local parses,他们之间没有优先,那就随机选取好了,因为他们之间其实没有核心 semantic 的区别价值(尽管在表达层面可能有细微区别,hence 伪歧义)。换句话说,真歧义,归优先级别控制,是数据制导的、intuitive 的。关涉伪歧义困扰的,则变成随机选取。这一切是如此自然,以至于用FSA做parsing的从业者根本就没有真正意识到这种事情可能成为困扰。关于初一15的问题,以及白老师的具体实例,等到我们简单阐释第二节多层之间的伪歧义的应对以后,可以演示。

第二章第二节,多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义,不外是围追堵截,这样的应对策略在开发过程中也是自然的、intuitive 的,数据制导,顺风顺水。围追堵截从多层上讲,可以在前,也可以在后。在前的是,先扫掉例外,再用通则。在后的是先做默认,然后再做修补(改正、patching)。道理都是一样的,就是处理好个性和共性的关系。如果系统再考究一点,还可以在个性中调用共性,这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识,甚至常识(根据应用需要),共性里面就是句法模型之间的变式。

好,理论上的阐释就到此了,接下去可以看实例,接点地气。白老师,你要从哪个实例说起?我要求实例,加问题的解释。

白: “中国和美国的经济”。这就是我说的初一十五不一样。

李:这是真的结构歧义,Conjoin (联合结构)歧义 。在语言外知识没带入前,就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义,其他的还有 “的”字结构的歧义。这些歧义在句法层无解,纯粹的句法应该是允许二者的共存(输出 non-deterministic parses),理论上如此。句法的目标只是区分出这是(真)歧义(而这一点在不受伪歧义困扰的多层系统中不难),然后由语义模块来消歧。理论上,句法和语义/知识是这么分工的。但是实践中,我们是把零散的语义和知识暗渡陈仓地代入句法,以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

李:缺省优先由“大数据”定,原则上。统计可以提供启发(heuristics)。

白: 有次范畴就能做出缺省优先。不需要数据。

李:当然。次范畴就是小规则,小规则优先于大规则。语言规则中,大类的规则(POS-based rules)最粗线条,是默认规则,不涉及具体的次范畴(广义的subcat)。subcat based 的其次。sub-subcat 再其次。一路下推,可以到利用直接量(词驱动)的规则,那是最优先最具体的,包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的,就联合结构而言。但是,about 次范畴,理论上有太多的层。

李:那是,联合结构消歧中的次范畴不是很好用,因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet,里面的 taxonomy 可以很深,统统用来作为次范畴,不太现实。但理论上是这样使用的。

白: 再一个,“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗?

李:上例的问题和难点,白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象?

白: 上例是处理深度的问题,各自理解即可。歧义叠加,只有更加歧义了。可是实际相反,叠加限制了歧义。

李:在分层处理中,我们是这样做的:

(1)Basic NP, 最基本NP层的结果是:NP【张三】 的 NP【女儿】 和 NP【李四】 的NP【儿子】 的 NP【婚事】

(2)Basic XandY, 最基本的联合结构层:在这个层次,如果条件宽,就可能发生联合错误,错把 【女儿 和 李四】 联合起来。这个条件可以是 HUMAN,二者都符合。而且在 95% 的现象中,这个条件是合适的。如果条件严的话,譬如用 RELATIVES 这个语义次范畴(HUMAN的下位概念),而不是 HUMAN 来限定的话,这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢,这实际上决定于设定的目标,没有一定之规。做细总是可以做到更好质量,大不了多加几层 NP 和 XandY 的模块(FSAs),但还是增加了开发和维护的负担。如果做粗一点,只要所造成的 parsing 质量上的后果能控制在应用可接受的范围,那也未尝不可,因为说到底,世界上没有完美的系统。上帝允许人类的不完美。

白: 把这个换成“AB的中点与AC的中点的连线”?同样的结构。

李:另一个思路,就是多层协调中的修补。对于上述两个例子,修补的办法似乎更好。与其分多层,代入各种繁琐的语义条件来消歧,不如任他出错,然后根据pattern的平行因素加以修正。在多层系统中,这个常常是有效的策略,也符合开发的总体规划。先把系统大体弄得work了,可以对付多数现象,然后有时间和余力了,后面可以 patching。前提是,错误是 consistent 和 predictable 的。对于多层管式系统(pipeline system),错误并不可怕,只要这种错误 consistent 有迹可循,后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation(错误放大)的难题。其实,多层系统也可以做到负负得正(矫枉过正是也)。一个好的系统设计,是后者,通过 data-driven,可以做到把错误放大控制到最低限度,并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行,太细则边际效益大减。

李:上例中 “中点与AC” 可以联合,不过是一个暂时的内部错误而已,后面可以修正。总之,这些都不是根本的 challenge,想做就可以做,实际操作上,也可以选择不做。问题大了,就做;用户发飙了,就做;否则就无视。很少有歧义是做不出来的,功夫和细节而已。最终决定于值得不值得花这份力气,有没有这样的开发时间和资源。

白: 做与不做,有可能影响架构选择。补丁有好处也有后遗症。

李:NLP 可以做一辈子,在基本机制(优先机制,修正机制,范畴、次范畴机制,专家词典等)由平台实现提供以后,慢慢磨到最后就是 diminishing return,与爬山类似,这决定了我们何时罢手。如果85%的精度作为parsing的目标,那么系统会选择不做一些稀有的现象。有了这个 85%,已经可以满足很多应用的要求了。

有了 85% 做底, 还可以让机器变得智能起来,自动地自我提高,所谓 self-learning,这是研究课题了,但是是可以实现的。实际上在我指导的实习生实验中已经实现,不过就是在线开销太大而已。

白: 再看“馒头吃光了”?

李:这个例子更容易讲清楚。在系统的某一层,可以有个规则 把某种 “V+光" parse 成为动补结构,这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

李:好,这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例,譬如,“黑洞吃光了”, 那么或者修正它,或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则,如果需要的话。至于这么做值得不值得,那是应用层面的决定。很多时候是不必要的。错了就错了,不过是显得系统缺乏专家的知识,so what?我们普罗 native speakers 也都不是每一行的专家,也并不是每句话都听懂,不也一样没觉得交流困难。就此例来说,决定于听者的知识面,小学生和文盲一般不能正确 parse 理解 “黑洞吃光” 的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要,那是语言内的句法知识(最多说是句法子范畴或小规则,但不涉及专业知识),是所有国人的默认理解。

白: 这一点非常重要。一个开放,一个封闭。一个外部,一个内部。外部的事儿,就算没有专业知识,也可以大数据招呼。

李:今天似乎可以结束了,说到底,就是:

一,平台需要提供一些基本机制来处理共性与个性的关系,从而应对歧义,这些在 FSA formalism 的教科书定义中可能不存在,或被忽略,但却是实用系统不可或缺的。

二,NLP 的确是个力气活,有无限的可能深入。当然,我们可以选择不深入,可以选择何时罢手。

至于大数据招呼,那个在前述的自学习上也必须用到。我们教授机器做到 85%,大数据基础的自学习可以让它自行提高到 90%,这个是部分证实了的,可惜还没有发表出来,以前说过,懒得成文。都骨灰级老革命了,谁在乎那个。我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。

这次神侃算不算基本回答了疑惑,可以得出“伪歧义在多层系统中不是困扰”这个结论?

白: @wei 是,非常感谢。

李:不过,我们一方面实用制导,一方面没有忘记基本面和大局。与纯粹的实用主义,头痛医头,脚痛医脚,还是不同。这种积一辈子挖煤的经验之谈,正式论文中罕见,也算一件功德。难得的是白老师还有雷司令身为主流精英,居然能一开始就高于主流,不排斥异端或少数派。所以上次上海聚会,我就说,火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。但我知道也有很多统计死硬派,甚至大牛,是不尿这壶的。

白: 只要聚焦于深层,一定会殊途同归。RNN记在统计账上,但已经是深层了。

可以再关心一下NLP的商业模式,怎么能讲一个好故事。我们说fsa也好分层也好,资本都是不感冒的。

李:滑稽的是发现有些死硬派做了n年NLP,却真地不懂语言学,有个别大牛连常识都不懂,让人跌破眼镜。当然这个只能内部说说,不能博客的。所以往往是互相地不尿对方那一壶,与宗教之战类似。

RNN 我不敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何,我不知道。可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来,也殊途同归。

李:其实 多层 FSAs 本质上就是 ngram 的花样,不过 gram 不再仅仅是词了,而是等于或大于词的句素。能以动态句素作为 ngram 的对象,是因为多层的原因,跟剥笋子一样,层层扒皮,gram 当然就是动态的了。这一点很关键,是乔姆斯基都没想到的 power。

白: 对,边扫描边归约,边抛出句素。

李:这里面最 tricky 的不是机制而是细节。魔鬼在细节,就是指的这个。FSA 是“古老”简单的机制了,细节就是玩平衡,玩模块之间的协调。玩得好的就好比中餐的大厨,可以做出满汉全席来,玩不好的还不如麦当劳、keywords。到这一步,经验因素开始起作用。没碰过n次壁,甚至几万小时的炼狱,这个火候掌握不好。这类系统很难做得表面上漂亮光洁,总是在混沌中前行,要忍受不完美。这方面的忍受,数学家不如语言学家。数学家天生追求简洁完美,不愿意将就。

白: 句素的个头大,影响范围就大,相当于抛得就远。可以进入远距离的滑动窗口,伟哥说的Ngram的缺点就不存在了。

dirty是必然的。

李:ngram 的缺点是主流的缺点,不是语言多层派的缺点。恰好相反, ngram 多层以后,很容易比任何 CFG 做得细致深入,以至于,想怎么深入就怎么深入, 如果持续开发的话。

CFG 那套单层范式,无论统计模型还是传统文法加以实现,真地深入不下去,是框框决定的。两边都玩过,这种对比太强烈了。我对我的博导说过, HPSG 真地不好用,那边费那么大劲的事儿,在我这儿是小菜。说拿的是牛刀,可对象不是牛,而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表(相当于语言的head中心词)之间发生全局相互作用的地方。真是神了。

李:今天到此,特别谢谢白老师的互动和精彩的及时点评。

原载:
科学网—泥沙龙笔记:真伪结构歧义的对策(1/2) 
骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【相关】

乔姆斯基批判

【立委科普:管式系统是错误放大还是负负得正?】

关于NLP方法论以及两条路线之争

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【白硕 – 打回原形】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

世界语论文钩沉:世界语的语言学特点(3/3)

【立委按】语言类型学把自然语言分为注重词法的综合语言和注重句法的分析语言。区别在所依赖的主体语言形式和表达手段不同。世界语的最大特点是兼收并蓄,分析综合两种表达手段在武器库并存。这是设计时候的有意为之(不得罪任何民族),进而产生了表达手段丰富、风格多变灵活的效果,让人惊艳。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

3. 分析形式和综合形式

3.1 世界语的另一个突出的语言学特点是,它既具有分析语言的手段,又具有综合语言的精髓。世界语在功能词和词尾变化方面都很丰富,可以通过分析形式(借助功能词)或通过综合形式(借助词尾变化)表达语义关系。 当然,这两种形式并不完全等同,它们展示了不同的风格。 世界语非常灵活且富有表现力。 作为目标语言,它可以很好地模仿原文作品的语言特征,无论是词序自由富有弹性的斯拉夫风格,还是诸如中文和英文这类语言的平实风格。

以下是世界语中分析形式和综合形式普遍并存的一些示例:

分析形式 / 综合形式

(1) 时态:
Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

(2) 语态:
Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS. Ĝi lim-IĜAS. Ĝi SIN-limig-AS

(3) 词义:
Tio estas MALGRANTA (ETA) sekreto. / Tio estas sekret-ETO.

(4) 介词短语与格变以及副词形容词(-E/-A)的类变:
Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).
la libroj DE mi / mi-AJ libroj
Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.
LAŬ mia opinio / miaopini-E
ridi JE iu / ridi iu-N
EN (JE) fakto / fakt-E
inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (副词带名词宾格!)
vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

(5) 介词手段与合成词手段:
finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(更多例示参见【附录3】及 2.1.7.)

3.2. 最重要的分析形式:助/系动词 EST- 与介词

3.2.1. 仅有的助/系动词 EST-

3.2.1.1. EST- (BE)没有实义, 从综合语角度看,它是不需要的:


Ili ESTOS skrib-ITAJ ĉe la jarfino. --> Ili skribi-ITOS ĉe la jarfino.
Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. --> Ni ĝoj-AS ricev-INTI iliajn leterojn.
Vi ESTAS vere bonkor-AJ (vi en pluralo). --> Vi vere bonkor-AS (没有数的变化).
Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato.
--> Li profesor-IS (profesor-ADIS) en tiu universitato.

注意,EST- 作为助动词可以被取代,但作为系动词则不能简单取消:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.
ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.


3.2.1.2 EST-一词虽然只有一个,但作为分析形式却极大地丰富了表达方式。否则,语言将具有完全不同的风格,趋向紧凑和刻板,很难为母语为分析语言的人所接受。

3.2.2 介词短语

3.2.2.1 在语言学界普遍认为介词短语(介词加名词补足语)本质上也是一种"格",唯一的区别是介词表达语义关系通常比"格"更为具体。实际上,不同介词也包含不同程度的具体性,例如,比较:

intituto JE lingvistiko --> instituto DE lingvistiko --> intituto PRI lingvistiko
(从抽象到具体)

有一些相当抽象的介词实际上可以像其他语言中的"格"一样工作,例如 JE / DE / AL / PRI / PER(请参阅【附录3】)。 (请注意,格的语义在抽象上也有所不同。)

3.2.2.2 正如2.3 中已经提到的,副词(以-E结尾)也是一种语义抽象的格(状语格)。但是,世界语中的副词其实也可以表示与任何介词一样具体的关系! 条件是词干是词根和介词前缀派生而来。例如:

LAŬ (la) regulo(j) --> LAŬ-regul-E (更抽象地: regul-E)

有许多这样的示例(请参阅2.1.7)。 实际上,完全可以在介词短语"P+la+N"与其相应的副词"P-N-e"之间自由转换(省略冠词LA)。

3.2.2.3 因为每个介词也可以同时充当前缀(世界语前缀集的主要部分!),所以所谓的“重要的分析形式”介词恰恰也是最重要的综合形式(词缀)之一!

3.3 【小结】 世界语随处可见分析形式和合成形式的共存,这是世界语不同于民族语言的重要特点之一。尽管没有排除任何分析形式手段的纯粹的综合语言,也没有完全独立于综合形式的纯粹的分析语言,但是每种民族语言总是以一种形式为主导,难以见到两种形式的普遍并存和自由转换。

4. 世界语的透明性

4.0 世界语的本性是形式足够透明(无论是词与词组合的分析形式还是词内部组合的综合形式,但分析形式似乎比综合形式具有更高的透明度),这无疑是其突出的优点之一,也是世界语易于学习的主因。世界语之所以如此,是为了让人们可以使用很少的形式(元素)来表达无限的信息,也为了让接受方易于将语句解析成理解的元素。

4.1  世界语是完全透明的吗?

并非如此,而且永远也做不到,而且也不必要 - 至少对于人类语言而言。

透明性的前提是,每个概念都可以被分析成可数的语义因子或"义素"(这可能吗?参考人工智能圈中的相关进展)。另外,语义相互联系的复杂度应该是可以容忍的。这一点并不总能满足,特别是对于科学术语而言。术语通常内容丰富且含义精确,以至于其阐释往往需要完整的论文。因此,这种概念只能通过某种语音形式固定在人脑中,其书面对应物往往是个不透明的单词!另一方面,大多数科学术语都享有国际性,因此,硬性把术语按照世界语构词法透明化往往并非智举,例如,把 matematiko 叫做 nombro-scienco,但是“数学”仅仅是数字科学吗?(参见4.4)

4.2 就像分析形式和综合形式的共存一样,在世界语中,许多情况下(当然是在不同的层面),透明形式和非透明形式也普遍并存。

Pekino: Beijing
lingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

值得注意的是,为了术语的精确性和世界性,世界语甚至可以容忍这种完全“非世界语化的”外来词黑箱子(komputoro/komputero)!

4.3 然而,一些最常用的日常用语已经将自己确立为透明形式,这又表明了世界语有强烈的透明化倾向!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

但是,良好风格的世界语不走极端,即使是手握最有效和最容易的手段:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4 世界语的两难

4.4.1 世界语作为国际语言,旨在为全人类提供便利的交流。但是,在语言实践中,透明度(世界语的语言内涵)与国际性(世界语的目标外延)之间往往存在两难,这在术语的构造中表现最为明显。结果,世界语词汇比预期的要大得多,增加了学习的难度。

4.4.2 世界语作为一种有效的沟通工具应该而且往往也是偏向紧凑的形式,但透明性是紧凑性的反面。实际上,越透明,就变得越松散。

4.4.3 最后,在透明性(从而易于学习而很少消耗记忆和精力)和包容性之间也存在两难。世界语作为一种科学的和面对人类的语言,需要在形态和句法上包容所有有效的语言资源,这就需要多种形式的共存,自然也包括不透明的形式。

5. 总结

5.1 从上面论述可以看出,与主观推论相反,世界语是一种极其灵活的语言,具有多种可以相互补充和转换的表达方式。语言的灵活性也更易适应人类思维的模糊性。它为人们提供了极大的表达自由,为充分发挥使用者的语言潜能提供了最佳条件。另一方面,它也具有很大的包容性,即使是初学者或语言能力欠缺者也可以比较轻松简单地以易于理解的方式表达自己。这是一个适合所有人的表达天地。但是,这种灵活性不会影响世界语基本语法的严谨性。自由与严谨在这里和谐相处。在世界语中,每个人都是创造者,每个世界语者都能体验到这种创造的乐趣。人们不再是语言习惯的奴隶。世界语的灵活性和规律性的和谐统一是一种真正的语言奇迹。

5.2 世界语语言学特点关键字集合:
(以)人(为)本性/自然性/科学性/规律性/包容性/容忍性/弹性/粘合性/数学性/拟递归性/逻辑性/透明性/可分析性/灵活性

5.2.1 这些特点大体呈现如下关联:灵活性 <-- 粘合性(从而透明性)和各种形式的包容性(无论分析形式还是综合形式,透明或不透明);规律性与科学性 <-- 数学性和逻辑性

5.2.2 从容忍性和实际信息交流的角度来看,前文所有标有??的示例都是可以容忍的,至少是可以理解的。与民族语言相比,这种宽容显得尤为突出。

5.3 【结论】 世界语的超凡成功是人类语言历史上的一个伟大奇迹。这是人类理性的胜利,语言学的胜利!在“习惯就是上帝”的语言领域,世界语作为国际语言独树一帜,其与民族语言形成的语言学对比,怎样赞誉也不过分。

【附录1】

我们以词根STUD-的全部动词和形容词形式为例,将其与英语study 的相应形式进行比较。

(1) 42 个动词形式:

stud-I [to study]
stud-U [(let...) study]
stud-US [would (should) study / stud-IED / would have stud-IED / ...]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let...) be study-ING]
stud-ANT-US [would be study-ING / ...]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let...) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let...P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let...) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let...) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / ...]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let...) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

2. 28个形容词形式

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

【附录2】


世界语词尾削尾算法(自动词法分析):

(1) 若词尾为 -O, 则得结论 "Substantivon / Nominativon / Singularon", 转(2); 否则, 转(11).

(2) 削尾后查词干词典. 查词典成功则得结论 "Nulmodon/Aktivon", 加工毕; 否则, 转(3).

(3) 若词尾为 -ANT, 则得结论 "Participon / Aktivon / Kontinuon", 转(9); 否则, 转(4).

(4) 若词尾为 -INT, 则得结论 "Participon / Aktivon / Perfekton", 转(9); 否则, 转(5).

(5) 若词尾为 -ONT, 则得结论 "Participon / Aktivon / Malperfekton", 转(9); 否则, 转(6).

(6) 若词尾为 -AT, 则得结论 "Participon / Pasivon / Kontinuon", 转(9); 否则, 转(7).

(7) 若词尾为 -IT, 则得结论 "Participon / Pasivon / Perfekton", 转(9); 否则, 转(8).

(8) 若词尾为 -OT, 则得结论 "Participon / Pasivon / Malperfekton", 转(9); 否则, 转(10).

(9) 削尾后查词干词典. 查词典成功则加工毕; 否则,转(10)

(10) 得结论 "Novavorton", 加工毕。

(11) 若词尾为 -A, 则得结论 "Adjektivon / Nominativon / Singularon", 转(2); 否则, 转(12).

(12) 若词尾为 -E, 则得结论 "Adverbon / Nominativon", 转(2); 否则, 转(13).

(13) 若词尾为 -OJ, 则得结论 "Substantivon / Nominativon / Pluralon", 转(2); 否则, 转(14).

(14) 若词尾为 -AJ, 则得结论 "Adjektivon / Nominativon / Pluralon", 转(2); 否则, 转(15).

(15) 若词尾为 -ON, 则得结论 "Substantivon / Akuzativon / Singularon", 转(2); 否则, 转(16).

(16) 若词尾为 -AN, 则得结论 "Adjektivon / Akuzativon / Singularon", 转(2); 否则, 转(17).

(17) 若词尾为 -EN, 则得结论 "Adverbon / Akuzativon", 转(2); 否则, 转(18).

(18) 若词尾为 -OJN, 则得结论 "Substantivon / Akuzativon / Pluralon", 转(2); 否则, 转(19).

(19) 若词尾为 -AJN, 则得结论 "Adjektivon / Akuzativon / Pluralon", 转(2); 否则, 转(20).

(20) 若词尾为 -AS, 则得结论 "Verbon / Predikaton / Prezencon", 转(2); 否则, 转(21).

(21) 若词尾为 -IS, 则得结论 "Verbon / Predikaton / Preteriton", 转(2); 否则, 转(22).

(22) 若词尾为 -OS, 则得结论 "Verbon / Predikaton / Futuron", 转(2); 否则, 转(23).

(23) 若词尾为 -US, 则得结论 "Verbon / Predikaton / Kondicionalon", 转(2); 否则, 转(24).

(24) 若词尾为 -U, 则得结论 "Verbon / Predikaton / Volitivon", 转(2); 否则, 转(25).

(25) 若词尾为 -I, 则得结论 "Verbon / Infinitivon", 转(2); 否则, 转(26).

(26) 该词没有词尾。查功能词词典。 查词典成功则得结论 "Funkcivorton"; 否则, 得结论 "Novavorton / Substantivon / Propranomon"。 加工毕。

【说明】 上述算法已经上机实现,验证其有效性。

【附录 3】

世界语与其他语言格系统的比较

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

世界语论文钩沉:世界语的语言学特点(2/3)

【立委按】上一节论的是世界语的高度规则性。这节想说的是,模糊性为灵活性提供了空间。学习世界语的人,没有那么多禁忌和清规戒律。语言表达是思想的反映。一来思想本身具有某种模糊性,二来细节的精细与否不必影响主旨的表达,三来不同母语背景的人在语言手段的倾向性上有不同的偏好,因此,语言设计中允许界限模糊是一种利用手段的包容,来容纳更多使用者的良好策略。

都说世界语是黏合语,但我们同时也看到,所谓黏合(典型的代表是土耳其语和日语),其实与合成(中文造词的主要手段)也差不多,就是把语素添加在一起,只要添加以后的复合概念可以传达出去(只要 make sense),就达到了造词的目的。不设置句法和词法过多的人为规范,允许语言形式的灵活自由组合,让人类共同的常识来决定语言组合(无论组词还是造句、造短语)是否可以达到交流的实现。文法不过10来条原则性大纲,其余基本可以实现无为而治。

纯粹从设计来看,世界语其实没有必要用助动词 EST-(相当于英语的时态助动词 be/have),这个唯一的必须有形态变化的功能小词。刚好这个助动词又是系动词(“是”),这就导致了自然语言同样的歧义问题。(当然,与自然语言如英语类似,把系动词当成助动词用来构造复杂谓语,其好处是使得母语为这些语言的人容易适应世界语的形式。)把 EST- 的助动词用法去掉以后怎样呢?

Mi estas studanta la lingvon -->
(1)Mi as studanta la lingvon
(2)Mi studantas la lingvon

La lingvo estas studata far multaj nun -->
(1)La lingvo as studata far multaj nun
(2)La lingvo studatas far multaj nun

助动词与形态统一,比助动词借用系动词词根外加形态,更加经济、规整,转换起来也更合理,包括转换成综合形式的 studantas / studatas。根本上说 EST- 在构造谓语形式中,没有贡献任何信息量,完全是多余的。它存在的理由就是跟自然语言的类似用法更接近。这当然是一个重要的考量,但它同时带进来歧义的可能性,就不是优点了。但从另一个角度看,所谓歧义也可以看成是形式手段的模糊及由此带来的灵活性。

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

2.  世界语的灵活性

2.1  世界语模糊了很多语言学概念的界限,包括:

2.1.1  及物动词与不及物动词的界限模糊了:

Mi IRAS. / IRU vian propran voj-ON.
La tuta homaro PAROLOS nur unu lingv-ON. / Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  直接宾语与间接宾语的界限模糊了:

informi ION al IU / informi IUN pri IO

2.1.3  宾语与状语的界限模糊了:

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  词根与词缀(甚至词尾)的界限模糊了,从而派生词与合成词的界限也模糊了,例如:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. 后缀与词尾(形态)的界限模糊了:

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Chiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  实词词根与功能小词的界限模糊了(如果需要,小词也可以与实词词根一样,添加后缀和形态词尾):

JES, mi JES-as vian opinion.
Li TRO ĝojas.  --> Li ĝojas TRO-e.
tie --> tie-aj homoj
nur --> la nur-a studento / nur-ul-o / nur-ul-in-o
per --> per-anto
tre --> tre-ege

2.1.7 词组与合成词界限模糊了,尤其表现在介词词组与其相应的副词、形容词、动词和名词的合成词形式上:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtbl-en

la lingvo por homj / porhom-a lingvo (porhomalingvo)
(sed ĉu "porhomlingva" = "porhom-lingva" aŭ "por-homlingva"?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-OS, subpopol-OS, interpopol-OS kaj porpopol-OS.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   谓语与表语的界限模糊了:

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9. 最后,黏合、合成、派生这些构词手段的界限模糊了(参见本文第一节);可数名词与不可数名词的界限模糊了(例如 konklud-o / konklud-oj), 限定与不定的界限也模糊了(表现在行文中对于使用定冠词 LA 的一定程度的随意性上), 等等等等。 

2.2.  世界语设计了一个万能介词 JE。人们表达思想的时候,常常感到两个概念之间存在某种确定性关系,但这种逻辑语义关系不易也不必归纳到现有的类别去(现有逻辑语义关系如时间、地点、条件、原因、结果、工具、程度等,往往借助介词表达),因为概念之间的相谐本身不会引起听说双方的误解。为了适应人类思维的这种模糊性,柴门霍夫天才性地创造了万能介词 JE(我认为介词 JE 可能是世界语第二重要的分析形式了,第一重要的分析形式是小词 EST-,参见3.2节)。思维模糊性的语言表示还有另一个天才创造,即后缀 -UM-,但那是词义概念的不清晰,JE 表示的则是两个概念之间的逻辑语义关系的模糊。有意思的是,作为分析形式 JE 的对等物,形态词尾(综合形式)-n(宾格)或 -e(副词: 可表示工具,但也可表示其他状语)也可以用来表达这种模糊和抽象的逻辑语义关系。

Mi interesiĝis JE tio. / Mi interesiĝis tio-N.

Ni ne scias JE tiu rilato.  / Ni ne scias tiurilat-E.

2.3.  世界语一个非常突出的语言学特点是格与词类的功能趋同。词类与格变在组词造句过程中,都带有动态句法的特征。二者相互补充,都可以表示虽然不同但同样具有抽象度的逻辑语义关系。这与介词这种分析形式有所不同,世界语介词除了特别设置的万能介词 JE 以外,通常是用来表大比较具体的逻辑语义关系(参见3.2.2.)。比较世界语的副词用法与俄语的工具格:

Mi skribas plum-E.  /                                                     (ruse)

如前所述(见1.1.),世界语的基本形态词尾的数量虽然很有限,但涵盖词法范畴足够完整,表达力丰富。以格变为例。世界语只有两个格,主格(零形式)和宾格(词尾“-N”)。但世界语的格变,加上词类形态,再加上分析形式介词(如果需要),使得世界语的表达力可以与其他形态丰富的语言媲美。俄语是形态最丰富的语言之一,它有六个格。在这方面,将俄语与世界语进行比较可能具有一定的启发性和意义。 大体上,俄语的一格对应于世界语的主格,二格相当于形容词(表示所有,以“ -A”结尾),四格与宾格(以“-[OJ] N”结尾)对应,五格相当于副词(以“ -E”结尾,见上例)。 只有三格在国际语中没有其相应的词尾形式,而是通常由介词“AL”来表示。俄语六格本身并不表示明确的语义关系,而是与诸如“ O”,“ HA”,“ B”之类的介词搭配使用。 有趣的是,在世界语介词短语中的名词既可以是主格,也可以是宾格,后者表示方向性。对照俄语中的类似用法,世界语显得更为简单和完善。 (请参阅附录3。)

2.4.  世界语的词序足够自由

2.4.1. “我(mi)爱(amas)你(vin)”的表达:

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(主谓 宾三个句素的全排列共6种,全部合法。). 

2.4.2.  再如:“学习(studantaj)数学(matematikon)的 人(homoj)

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi shatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
加上连字符显得更规范: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3.  ”我(mi)提出(proponita)的 提案(propono)”:

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

上组句子除了小词定冠词与介词必须居于短语之首外,其他元素的词序完全自由,即:la (...) propono; de mi; proponita 三个句素可以任意排列。

2.4.4.  世界语甚至允许远距离搭配,见著名诗句:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

当然,上例中的远距离现象也有诗歌不受拘束的特许因素在。但诗人的特许证通常在像世界语这样特别具有柔性的语言中最易得到保障,且不违反语言的基本文法。

2.5.  世界语的形态系统虽然具有缺陷(见1.1.4.5.),总体而言仍然不失为一大创造。另一个奇迹般的创造是世界语的相关词表。世界语形态系统在唯一的助动词 EST- 的帮助下,可以表达动词各种复杂的时态、时体以及语态和语气。其实,即便没有助动词,形态词尾的黏合特性也一样可以表达这些复杂的词法范畴。相关词表的丰富性及其表达具体语义关系的能力更是出类拔萃。它是如此经济、逻辑而且美丽,每一个世界语的践行者都体会在心。这种审美体验,很像化学家欣赏门捷列夫的元素周期表一样。

2.6.  另一个值得提出的是,几乎所有的世界语介词,也同时可以充当前缀去帮助造词。这自然极大地增强了语言表达的灵活性(见2.1.7)。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(1/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《学外语的紧箍咒,兼谈世界语的前途》

【立委按】最近受邀加入了一个世界语者的群,有老朋友,也有新同志。谈到一些有关世界语的前途问题。很多老世界语者奋斗一辈子,做梦都想替代英语的实际“世界”语地位,抱怨联合国、欧盟都有眼不识“吾语”之优越性。但英语的地位却似乎越来越稳固。胳膊拧不过大腿,哪怕学习世界语的效率数倍于学习英语。但很少人会想到,英语的霸主地位不会长久。不是别的语言以任何优势取胜取代它,而是机器翻译进步的大势所趋。在这样的形势展望下,世界语作为二外选修的首选,前途却是光明的。

在科技领域,当年我们津津乐道的是,世界语可以作为比较理想的多语机器翻译的媒介语。可现在基本上没人用世界语做媒介语来做机器翻译探索了。因为没这个需要了,最新的机器翻译都是神经网络系统,是从平行语料中自动学习/模仿出来的,质量接近人译水平。以前多语言要媒介语是因为以前的系统是专家一行行代码编制调试出来,每一次增加一个语言,要做很多辛苦的词典工作,语法规则,还有转换和生成,很辛苦的调试,有了媒介语可以大大减少工作量。如今,即便 A 语言与 B 语言没有足够大的翻译样本(平行语料)可供机器模仿,现在的技术也不必借助世界语做媒介语。可以借助其他的热门语言做媒介,譬如英语。A 与 B 语料不够,但 A 与 英语, B 与 英语,语料应该是足够大的,那么机器就可以借助这两种语料来学习,等于是拿英语做媒介语了。为什么不用世界语?因为世界语与 A 语言,B 语言 之间的翻译数据,远远没有英语大。现在的机器胃口大,数据越多,学出来质量越好。古人云,取法乎上仅得其中。好像是说,机器永远赶不上人的水平。其实不尽然。在大数据的学习过程中,最终可以做到,取法乎中,可得中上。取法乎上仅得其中,说的是徒弟跟师傅学,是个体学个体,你自然超不过这个上限。如果你的学习对象是超大的数据,尽管数据的平均水平不高,参差不齐,里面还藏着不少错误。这都没关系,大数据有一种自然筛选的过程,会把噪音沉底。最终机器比一般人翻译得好,是自然的结果,特别是在时间限制条件下。机器很难比顶级翻译人员比,也难以比一个一名之立旬月踯躅的慢工磨细活的死磕的人,但是超过一般人的水平是没有问题的。所谓一般人就是那些学了好多年外语,通过了5级还是6级的人。这样一来,机器翻译的技术进步基本上解决了国际交流的问题,而且只会越来越好。

因此,世界语如果是以充当国际交流工具作为生存基础,是难以维系长久的。柴门霍夫当年创造、发布和宣传世界语,充当国际交流工具可是作为一个主要依据提出的。但时代不同了,作为人必须去学习才能使用的工具,如何与自动翻译比呢?翻译中死记和模仿的成分很大,很多说法以前都见过,双语平行(翻译)语料里面有存,机器有几乎无限的记忆能力,当然是机器强。我现在从来不自己翻译任何东西,都是让机器翻译了再稍作调整。如果是新闻和日常的文字,基本不需要加工就很顺畅了。国际旅游者利用翻译机周游世界的,也越来越多了。到世界旅游,带个随身翻译机,或者手机下个程序,日常问题就解决了。问路啊、找厕所啊,都不是问题。以前是说,你学了世界语就走遍天下。柴门霍夫的意思是说,实在不行随身带一部词典,就是遇到不懂世界语的,凭借词典,人家也不难搞懂你的意思。这样的场景当年是可能有用场的,总比互相完全没办法沟通强,但是有了翻译机,这个场景就完全没有意义了。当然到世界各地世界语俱乐部找“同志”,搞联谊,那是另一回事。那不是世界语的功能性主导,而是世界语的文化性和社会性作为纽带。

看看英语的不规则动词表,再看看法语、俄语词法里面那些大小规则里面的种种例外,就可以体会到自然语言对于不规则的东西,是如何容忍的。基本上就是这样一个局面:自然语言里面的不规则恰好达到了一个想学它做外语的人的死记硬背的极限。再多就学不会语言了。可是一旦学了它,它就绑架了你,使得你必须不中断地使用它练习它,稍微一松懈,你就把学到的外语还给老师了。这就是学外语的紧箍咒。世界语还是从根基上改变了这种局面。

关于世界语到底是不是简单易学,不同的人往往感受和看法不一,也说点自己的切身体会。我觉得一切都在比较之中。毛委员说过:没有比较,就没有鉴别。记得老电影《南征北战》里面,国军长官说过:“不是我军无能,而是共军太狡猾了”。可以说,不是世界语容易,而是其他外语太难了。

对于国人,如果学会一门欧洲语言,再学世界语,的确更容易体会其简单容易。如果除了母语,只学世界语,那就很难有这种体会。如果是欧洲人,世界语做第二外语,那的确不难,毕竟世界语根本上是欧洲语言的简化规范版。但对于非印欧语系为母语的人,不会觉得容易。

我英语专业的,二外是法语,三外是俄语,到接触世界语的时候,这应该算是四外了。当时有晕眩的感觉,天哪,还有这么容易的语言,学了四五天就可以写信,学了一两个月,就可以写论文,心里一点都不怵。记得第一封世界语信是写给(河南还是枣庄?)一位世界语朋友(当地的一个世界语活跃分子),收到他的回信,以及附在信里面的绿星等纪念品,开心死了。几十年下来,二外法语现在带着词典还能勉强读一点,但绝对写不出合法的句子了。三外俄语完全还给老师了。只有世界语多年没用,感觉还可以随时捡回来。这样看来,世界语的确是其他外语没法比的。没跟英语比较,是因为一直在英语世界里。真要比较,我觉得我的世界语水平大体可以与我的英文水平,打个平手。口语不如英语,那玩意儿需要有环境和机会实际操练。但书面语可能还强过写英文。我从小学开始学英文字母,中学一直跟着广播英语,到后来本科英文受专业培训,再到后半辈子一直在这个语言世界里面,那是多少时间和精力的投入啊。相比之下,世界语连学英语的零头功夫都没有。

我在想,现在大家随时可用翻译机,国际交流场合的功能性需求基本可以满足,这一方面不再需要世界语了。在未来的世界,英语作为实际上的“世界语”的地位也必然会因为翻译机的不断改进和普及而动摇。最后的情况很可能是,学习“外”语只是人类的好奇心驱使。这时候,世界语作为好奇心和求知欲驱使的外语首选,是最合适的。

试想一下这样一个世界,我们不再需要学习任何其他语言,英语也是天书。这时候我想以最少的时间,了解唧唧呱呱讲各种外语的人到底有什么新奇的东西。世界语作为印欧语言的集大成者,应该是最合适的学习对象和窗口,会给人带来新奇。我觉得这个价值是恒久的,只要世界语可以活下去,活到英语从钦定二外以及事实上被全世界学习的地位走下来的时候。其实不知道多少人浪费了多少时间学英语,但英语的地位从科技发展的趋势看,不可能是永远稳固的。总会到一个临界点,人类社会说,除了少数人外,去它的,大中小学里面全部废弃二外作为必修课,把精力转移到学习其他知识上来。然后,二外成为选修。这时候,竞争选修课,世界语的优势是压倒性的。

老哥学了一辈子英语,一辈子没学会。年轻时候学 Follow Me, New Concept 好几年,还是记不住。现在大概只认识几个单词,听说读写啥都没会,可一辈子投入的时间总量却不少。他常跟我说:我大概是太缺少语言天赋了。也许他的确没有多少语言天赋。但更根本的还是语言太难学了,本质上是一个死记硬背的东西。对于很多像我哥哥这样的人,回头来看,他们对于外语学习所投入的时间精力与所得,完全不成比例,是极大的资源和人生的浪费。这种浪费在全世界不断重复着。英语一天不走下神坛,这种浪费一天不会停止。但是英语必然下台,这是可以确认的。这个过程也许需要50-100年,我觉得。

世界语已经活了100多年了,再活 100 年,就可以赶上自由竞争二外选修的好时光了。换句话说,世界语的前途,恐怕并不在于我们当年想象的用它取代英语作为全世界公认的国际辅助语。功能性上取代英语的不大可能是世界语,而是机器翻译的普及和推广。目前实际上已经存在随时可及的网上机器翻译(各大厂如谷歌、百度、微软,还有比他们更强的后起之秀如有道、搜狗和腾讯等),所有的手机里都随时可用机器翻译的apps。翻译质量虽然参差不齐,但总体可读可懂,新闻、日常用语已经可达人译水平。质量提升还在持续。到了一支钢笔里面也有个机器翻译芯片的年代,社会不会容忍英语学习所花费的代价。最终的发展趋势是,世界语的前途,会超过英语和其他所有自然语言,成为人们选修外语的最多选择。在一个排除了功能性考量的选择里,世界语的胜出是可以预见的。

最终的情形很可能是:相当一些人决定不学任何外语,其余的人决定选修外语。选修外语的人中,有对拉丁语、阿拉伯语、中文、英文、希腊语等感兴趣,这些死的活的自然语言虽然很难,但总会有少数人有浓厚的研究兴趣。但更多的人选择了世界语,并且延续和发展了世界范围内的世界语联络网,作为联谊和文化交融的实践。

未来的人类交流没有实质性阻碍,语言的统一就不再成为目标。世界大同也不以语言统一作为前提。倒是有可能是反过来,世界先大同了,然后某个阶段,人类决定还是把语言也统一算了。到那时候,倒是不妨选择世界语。那应该是不知道是多少年以后的事儿了,难以打算。老实说 世界大同和世界末日,哪个先来还很难说呢。看核武器、看气候变化、看瘟疫,看人类的短视和"作",每一个灭绝人类的可能性都依然存在。

世界大同或世界末日的命数先放下,可以预见的是,在不太久远的未来,英语终将走下神坛,世界语作为外语选修有流行的优势和希望。

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

《李白121:关系的语义解密》

李:白老师新作【白硕:闲话语义(7):事件】最后一段 “5、元关系·关系类型·裸关系” 蛮深奥,但很重要。看我理解对不对。想请教@白硕 的是,ontology 里面的概念节点,相当于词典里面的词。这些节点之间的关系都是“裸关系”吗?我一直把本体知识库 ontology 里面的一切关系看成“元关系”,对照于实体之间的“关系”,前者是后者的抽象,是人类世代积累的常识积淀。

ISA 与 “关系-判断”类型(譬如 partOf)不同样是“语义知识体系内部的关系”吗?当然感觉上 ISA 是 ontology 的核心骨架,单列出来也是合理的。 作为落地实现工具的知识图谱里的“关系”,是实体知识库,感觉不能与 ontology 混杂。前者是动态的“世界知识”(对于形势、趋势、身边事、国家大事的感知),后者是静态的常识(元知识)。

白:我们的目标,最后是要把与HowNet在表达能力上至少相当、在计算能力上更胜一筹的ontology写在知识图谱里。

李:是的,HowNet 很丰富细腻,但不好用,因为没有图谱的“技术栈”。

首先,实体和本体是分开的吧?怎么建立二者的联系是另一回事儿。作为知识库管理,应该是分开的。本体是封闭的、可以穷尽的知识体系。实体是完全开放的世界知识,而且每时每刻都在演变。

白:这个语义知识库只是应用的一部分。或者说,借助知识图谱的技术栈让语义知识库落地。怎么用,后面还有很多种可能性。

李:partOf 这类“关系-判断”类型的输出是“布尔”即逻辑真值。ISA 不也是吗?

“抽屉”是“橱柜” 的 part:TRUE
“动物” ISA “生物”: TRUE
“橱柜” ISA “生物”:FALSE

白:如果解析句子“他过去是单身汉,现在不是了。”

李:那是实体知识,不是本体知识。

白:本体要提供表示手段。

李:相关的本体知识是:“单身汉”是关于 “男人” 的属性,或一个子集。

白:这是经过一层解析了。单身汉首先是一个节点,他是另一个节点(男人节点的实例)。先要说这两个节点是怎么连的,再说根据单身汉的定义怎么“重写”他的属性。

李:解析是落地到实体,真还是假。本体是说类型合适不合适(相谐否):“类型”不合适的连真假都谈不上(记得以前的一个名句:his argument is not true,it is not even false,说的就是“不着调”的论辩)。

白:在“怎么连的”这个问题上,我的意思是,不是在“他”和“单身汉”之间连一个标签为ISA的飞线(裸关系),而是把二者都作为输入(一个实例、一个类型),连到一个“属于判断”节点的实例。语义解析不只是判断相谐性,还要构造一系列实例。

有两个“属于判断”事件。二者都是实例,一个指向“单身汉”,另一个排除指向“单身汉”。二者的时间标签不同。第二个事件“刷新”逻辑主语在实体知识库中的婚姻状况属性,但事件本身是log,当我们需要replay或者进行时序有关的查询时,就必须借助之。

李:对,“构造实例”本来就是“信息抽取”的核心目标。语言解析是支持信息抽取的。

张三:前-单身汉;现-已婚。
假设 已婚 == !单身汉(在西方不成立:在美国填有些表可复杂呢:在个人关系栏目里面有一长列关系:同居、异性婚、同性婚、变性婚、单身、丧偶 ........)

实体知识图谱“通常”不收入“非”:排除单身汉的常规不收,除非换个特征名/维度(譬如:从“单身汉”换成“已婚”)。因为定义一个实体,定义是什么,比定义不是什么,边界清晰多了。

白:这个观点,和人机对话系统不支持回答否定句的那件事,互相锁定了现状。

李:回到前面的问题:“属性类型” 说的就是 ISA 元关系吗?

白:属性类型之间可以存在ISA元关系,但那不是给“构建实例节点及其相关的边”用的。

李:的确如此。当然不是“构建实例节点”。本体里面,by definition,根本就没有“实例”。实例是实体知识的范畴。本体里面说的关系,大多是“潜在”的关系。悬在空中没有落地的那种,才叫本体。这是人类把握世界,人脑给世界分类的概念化结果。

关于本体和实体,最有意思的例子可以追溯到“白马非马”论。这个悖论(?)中,“白马” 在理解中是落地到实体的(就是那个说话者和听话者你知我知的那匹白马);第二个 “马” 则是没落地的本体(概念/类型)。对于朴素唯物主义者来说,任何表达或判断,都必须“唯物”,不落地就无从辨真伪,辨别不了真伪的东西,一律不承认,因此 “(此)白马非(类型)马”。这是把元关系 ISA 也从 ontology 拉出来,非要让它落地。也不能怪他,本来这种关系就是内在的(存在人类共同体的脑瓜中,或集体记忆中),可以认为是一种给定的无需证明的公理,是你知我知的“真理”。把没有信息量的“公理”表述出来,哲学家可以借此反思本体论的形而上特性,表现朴素唯物论的反智。如果我们把“知识”默认为实体的种种(知识就是了解世界发生了什么),“元知识”的本来意义就是悬在空中,没有落地(到实体)的意思。

白:我们在本体里就区分元知识和潜在知识。潜在的关系也不是元关系,比如比较大小:

<quantity>大于<quantity>

语义解析不构造元关系的实例,但会构造潜在关系(我们叫关系类型)的实例。

李:不太明白。数量可以比较大小,这不就是元知识、元关系吗?到了实例,就是:

pi > 3 : TRUE
pi > 4: FALSE

这就落地了,成为实体知识(实际上是数学常识)。

白:大于,是关系类型,不是元关系。元关系是我们推理用的,不是理解用的。元关系永远留在本体里,关系类型可以实例化。

李:有点晕了,主要是术语概念先要有个统一的定义。“潜在关系(我们叫关系类型)”,举个例子。

白:刚才说的“大于”就是啊。大于是关系类型。

李:“构造潜在关系(我们叫关系类型)的实例”,上面的 pi > 3 就是。ISA 不也是关系类型?

白:ISA不是。关系类型用节点实现,不用边实现。节点带论元,也就是态射。节点还带属性。关系类型节点可以带时态属性。

李:“节点” 就是 “词/概念”。节点带论元的典型例子是谓词。

白:纯粹的边不带属性。大于,就是谓词。大于,不处理成纯粹的边;ISA,处理成纯粹的边。ISA没必要带时态属性。

李:这是本体的 ISA,确实谈不上时态,是超时间的,恒真。因为概念世界就是这么定义和抽象的。

实体的 ISA 是有时间变化的:人曾经是猴子,很多年以后,人成为政治动物。

白:属于判断,是另外的事情。我们不用跟ISA混淆的表示,而且必须用带论元的节点表示。

李:对,实体判断的 ISA 与本体内部的 ISA 不是一回事。

白:这也不算是实体,只是可落地为实体而已。“人曾经是猴子”。这个“人”,用的既不是全称量词,也不是存在量词。是那个时候活着的人全体。

李:上面的“人”(人类)感觉是“半实体”。显然早已不是纯粹的本体了。

白:不是本体。是“实例化+泛化”。

李:嗯。

<quantity>大于<quantity> 如何在 ontology 里面体现?有什么用处?<quantity> 是一个节点(类型/概念)。

白:两个quantity是输入节点。“大于”是输出节点。它的类型继承路径可以一路走到event/static/boolean……。event再往上,就是thing(root)了。

要说用处,自然是为实例化提供了模板,同时也为相谐性检验提供了门神。一个向左一个向右。

李:就是说,看到 “5 大于 3” 甚至 “3 大于 5” 这样的说法,本体知识“门神”说,对,类型靠谱。看到 “品性大于知识” 的说法,本体知识说:类型不符合,可能是引申或比喻。如果这就是“用处”的话,不能说没用。但也说不出对语言理解有啥真用。

<quantity>大于<quantity> 在以前的谓词句型词典里面是这样的:

大于:Subject:CD;Object:CD

这是所谓 SUBCAT 句型对潜在填坑的萝卜做了限定:是期望一个数词。它与其他及物动词的 SUBCAT 标注是一致的,如:

EAT:Subject:Animate;Object:Edible

白:“5大于这三个数的平均数”

对parsing的作用是逆向选择,对语义解析的作用是顺向构建。

李:我好奇 "<quantity>大于<quantity>" 与 "大于:Subject:CD;Object:CD" 有什么区别?提供了哪些额外的价值?

“平均数” 虽然不是 CD, 但它是可以兼容的类型 (CD 的本体类型)。这就好像要求【human】,不仅仅实体 “张三” 合格(合乎预期类型), “演员” 也合格。

白:“平均数”也是一个态射,输入类型是quantity的集合,输出类型是quantity。这就实现了符合相谐性的“组装”。

李:对,“平均数” 也是某种 谓词:

平均数:【Arg1:CD】【Arg2:CD】 (......[Argn:CD])

如果用传统 SUBCAT 标注的话,大体如上:它期望至少两个数作为输入。还是不大清楚这种知识在实际语言解析和落地中的价值。有了 SUBCAT,解析感觉就够了。除了要做逻辑推理,譬如,验证某三个数的平均数是不是像语言表述中的那样,是真的还是错的?(这在文档核对、质检的场景似乎有用。)

白:针对类型的检查和针对值的推理/计算不是一回事。关键是,延展到领域知识,只需要做加法,不需要改动顶层设计。通用语义知识和领域知识可以无缝衔接。解析的输出物是自带螺钉螺母并经过装配的义素。领域知识中的实体和事件,也是如此这般地装配,没有其他。

李:“元关系永远留在本体里,关系类型可以实例化。” 这句话好,把 ontology 中两种关系区分开了。

“解析的输出物是自带螺钉螺母并经过装配的义素。” 这就是语言学中的 semantic compositionality。就是把珍珠串成项链。

白:朝着“构成”这个方向看去,应用潜力巨大无比。

李:潜在知识就是为落地的。元知识不需要落地,因为它本来就是从无数历史实例中抽象出来的“真理”。潜在知识虽然也是从历史实例中抽象出来的(“趋势”),但不是恒定的“永真”。“构成”/“组装” 就是 "compositionality",这是语义学中的最核心的概念了。

白:但是它可以一定程度上超脱于“语”。

李:“类型(type)” 就是超越 “语(词)”,是“概”念之间的东西。所谓本体是“元”知识,也就是说的这种超越,不仅仅超越“语”(这种表达体系),而且超越“实体”(客观世界),构成的是概念世界,是人这种物种所特有的范畴。当然,概念世界是从客观世界抽象来的,不是凭空来的。这些应该算哲学了。

白:不仅如此。语言表述可能比较细粒度,有情报价值或其他应用价值的事件粒度更粗,由細到粗,事件长的样子没变,但是已经脱离了字面意义的解释,进入事件驱动的推理、模拟、重演甚至数字孪生了。一个公司的几项人事变动后面隐藏着的粗粒度事件,可能是清洗。财务指标变动的后面是啥,也都有主儿。

李:有意思。这是从碎片化信息 event instances 推导其背后的情报。不过这种推导、预测或形势判断,开始进入“雷区”。就好比前几天我的公司让我重发当年对特朗普的大数据分析预测(《弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里》),我说,不要提“预测”,那是雷区:

把:“预测了特朗普的胜选” 改为 “大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增”。留点余地。当时的确是胶着,任何预测都冒风险。但选情变化之快,没有大数据,很难及时提出预警。主流民调就没有来得及预警,因为他们被信息压倒了。

白:我们的核心思想是,语言解析得到细粒度的事件,细粒度的事件imply粗粒度的事件,粗粒度的事件驱动其他粗粒度的事件或与之互动。对错另说,但事件长什么样不用另起炉灶了。如果粗粒度的事件完全是另一套,两张皮,就是NLP的失败。

李:两张皮怎么讲?以前的NLP怎么到了应用就两张皮了?

白:比如游戏,对命令的解析结果是一种数据结构,执行命令的战争进程是另一种数据结构,这就是两张皮。

李:不懂游戏。不过如果是两种数据结构,应该是一种映射到另一种。这也是常见的做法。譬如我们的 parsing 就是先造树结构,然后映射到图结构。以前也做过直接的图结构,不建树。这么多年实践下来,还是觉得建个树作为桥梁,感觉系统更加模块化,也更加方便。树虽然表达力不够,但作为桥梁是有便利之处的。过河拆桥,树在深度解析中最后基本是废弃了。

白:在金融领域也是这样。如果领域专家理解的事件、事件驱动,跟语言解析得到的事件、事件驱动,有很大的鸿沟,就没法玩了。一定有一个东西是统一的,而且是直接跨过去的。装配可不局限于树。在语义层面,树是没道理的。

李:顺便一提,图有种种好处,但是图规则不直观,难以理解,维护和调试都有挑战。这是因为图增加了维度,丧失或忽略了线性特点,结果就是面对一个图模式(graph pattern),在头脑里需要首先形成一种多维度的“图形”(picture),才感觉直观,才理解在节点之间穿行的模式,到底是干什么的。

本来我曾想尽量把更多的工作从句法树层次转移到语义图层次来做,感觉更加合理,但几年下来发现,句法是精简了,漂亮了,但语义这块越来越看不懂了。可是句法的东西即便是N年前做的,却一看就懂。接地气,容易维护。

再提一点:句法树 --》语义图 --〉实体知识图,这个 pipeline 的确有一个理由在:有情报价值的实体知识图谱与语义图是“同质”的,与句法“树”是不同质的。因此经过语义模块以后再做抽取,显得更加合理,很多时候所谓落地实用不过就是把图里面的“边”改个名称而已(甚至可以让用户配置)。譬如。针对 HIRE 这样的谓词,把 “S”(逻辑主语)这个边改为 【雇佣者】,“O” 改为【受雇者】,这就完成了“雇佣/HIRE” 这个 event 的抽取(逻辑语义图到事件图的映射)。这个事件的其他特征,譬如时间、地点、条件 等情报,常常可以照搬过来,连改都不用改(改就是映射),直接从图上继承下来即可。这里描述的语言技术的实践,感觉是呼应了白老师说的“无缝连接”。而共同体使用的宾州树(Penn Tree)结构,就很难做到“无缝连接”,由于表示体系的“鸿沟”。

还是回到 ontology 来。

白:前面说的“张三的小说没有散文写得好”,其实有两个“写”事件的实例,逻辑主语都是张三,逻辑宾语一个是小说,一个是散文,两个事件都通过“副作用”把自身的输出类型藏起来,而让各自的逻辑宾语带着其输入类型进入“好”获得quantity类型,再把两个quantity送进“大于”事件。

李:这个非常有意思。哦,“大于”事件不仅局限于数量,也可以是其他度量比较(包括质量)。

白:


这个图大概就是装配的结果。“没有”还有一层否定,在Boolean的右面。“没有”还有一层否定,在Boolean的右面。或者其实应该使用“小于”关系。主要以此说明义素装配出来长啥样。没有装配就没有语义理解。

李:虽然大作最后一段文字也不长,开始感觉是,每个字都认得,每句话都不大认得,LOL:

5、元关系·关系类型·裸关系

在事件的表示中,我们使用了态射。事件有多种类型,其中有一种就是静态事件,它又細分为属性类型和关系-判断类型。这里的“关系-判断”类型的输出是“布尔”即逻辑真值。因此,它构成集合论和数理逻辑含义下的“关系”。这种语义知识体系内部的“关系”和IS-A这样的“元关系”是什么“关系”呢?它们和作为落地实现工具的知识图谱里的“关系”又是什么“关系”呢?我们看到一些语义知识表示框架的相关文献在这个问题上有些含糊。在这里,我们要做一些基本的约定。

把语义表示单元(类型)作为研究对象,探讨它们之间的“关系”,这是元关系。

作为语义表示单元(事件)之一个细分类别的“关系”,这是关系类型。跟元关系不是一回事。“部件(PartOf)”关系就是一种关系类型,而不是元关系。

在知识图谱体系内,无论是元关系,还是关系类型,都可以用知识图谱显性定义的“二元关系”来实现。我们把知识图谱里显性定义的二元关系称为“裸关系”,并约定,元关系在知识图谱里一律直接实现为裸关系,关系类型在知识图谱里一律间接实现为事件节点,哪怕关系类型就是二元关系,也必须通过事件节点来实现。具体来说就是:设事件A有n个输入类型一个输出类型,那么事件A就必须拆分成n个裸关系,其中每一个裸关系的开始节点都是这个事件节点本身,目标节点则是对应的输入类型节点,而边上的标记就是角色名,包含角色名由粗到細、由抽象到具体的整个继承路径。

这样做的好处,就是对元关系和关系类型做出严格区分,既避免了因开发团队个人理解的差异而将本体定义引向歧途,又给类型作为统一的语义知识表示对象留出统一的数据结构模型,便于定义方式的整体把握。举一个明显的例子,无论实体类型还是事件类型,其特征K-V对都是定义在自身节点上的,不会因为事件类型恰巧是二元关系就把它实现为裸关系,因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上,不仅架构上是很不协调的,而且也给实现带来不必要的难度。

白:这一段憋了我不少天呢。

李:就像吕叔湘先生批评乔姆斯基一样,说他什么都好,就是说话艰涩,不懂得科普。白老师也可能有同样的问题。不知道,这段话有多少人能看明白。当然,肯定比爱因斯坦的相对论要强,据说很长时间,全世界只有三个半人看得懂相对论。

白:这个系列,不是严肃的学术论文,更像是整理阶段性思路的随笔。至于科普写作,还早着呢。

李:不拘一格。没必要用学术论文的那种格式。探寻语义结构和理解认知的奥秘,也是AI的前沿了。无论主流的热潮怎么走来走去。

关于这一小节的最后,你说:

"举一个明显的例子,无论实体类型还是事件类型,其特征K-V对都是定义在自身节点上的,不会因为事件类型恰巧是二元关系就把它实现为裸关系,因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上,不仅架构上是很不协调的,而且也给实现带来不必要的难度。"

我的问题是:“事件类型恰巧是二元关系就把它实现为裸关系” 这种做法不大可能在 ontology 里面的呀,譬如 HowNet,所有的潜在关系的预示全部是以节点为单位的。我的理解是,只有到了实体知识图谱,才会有实现为裸关系的“边”来表示的(当然也可以不用裸关系来表示)。

白:不限制,就有可能。所以作为一条铁的纪律。

李:顺便提一句:白老师所谓 “特征 K-V 对”,在HPSG这类 constraint based formalisms 中叫做 AVM(Attribute-Value Mattrix)。而且这些 formalisms 中的 AVM 是严格的 typed AVM(typed data structure),每一个AVM图示为一个框,type作为框的下标。AVM 中的 V 可以是原子,也可以是另一个 typed AVM。从表示形式的统一性、操作的单一性(合一)以及逻辑严谨性和丰富性来看,这种formalism 是非常令人印象深刻的。

白:借助数据结构的type和本体的type是一回事?我表示谨慎怀疑。

李:这类系统的根本缺陷不仅仅是繁复,还有就是unification(合一)无法应对“顺杆儿爬”。另一个就是这种formalism提供了使用者相当程度的任意性,你可以把任何一个子结构(sub AVM)用 合一(实现的时候叫 structure sharing,实际上就是子图匹配和融合)的手段,放到任何一个 Attribute 里面去。

白:顺杆儿爬是句法适应语义。到了语义哪有顺杆儿爬,都是严格的类型检查。该脑补的都得在前面做掉。

李:“该脑补的都得在前面做掉。” 这个可以商榷。更多也更便利的做法是,脑补留到最后。

白:比如,“张三的小说没有(张三的)散文写得好。” 那个括号里面的东东就是顺杆儿爬出来的。到了语义层面,另一条边就得乖乖地画出来。句法的最后,相对于语义仍然是“前”。最多是内部名字有了,挂什么外部名字留到最后。但是内部名字跟事件的连线,必须有。而且必须符合类型约束。

李:严格的类型检查是一面,检查的另一面是,根据犯规的程度,来决定如何松绑或输出另外的解读或者输出 nonsense 的判断。

关于连线(linking),觉得也可以反过来想。在一个局部环境里(local context,say 5-gram),把默认的不连线,因此必须“做功”(句法解析)才能连线,改为默认就连线,因此找一些条件去不断剪枝。当然这蕴含着组合爆炸。但爆炸不爆炸是随着计算条件的不同,而有不同的抗压力的。如果反过来思维,上面的办法就是把句法、语义和语用等等的约束,全部统一看成是“剪枝”的过程。这个思路我感觉有突破性的潜力。因为实际上所谓的 compoasitionality 其实根本不需要真地去组装每一个原子(义原)部件,而是可以组装“预制件”。local context 都连然后通过词典或其他模块去剪枝,就与预制件的思想比较一致了。

白:这就是我说的统一优先级啊。语义、情感、事理、大数据,都可以给优先级加分或者减分。最后还是调整后的优先级说了算。不调整就相当于按句法default装配。

李:统一优先级的最大问题在怎么统一?

白:回到机器学习啊。加分减分不就是一个待定的参数么。神经做这个最擅长了。

李:这是机器学习里面说的 heterogeneous evidence 如何对付的老问题,这个挑战,学习里面一直困扰了好多年,到深度学习以后也不能说就解决了。譬如特斯拉内部人员透漏的最大难点也是在这上面,说上百个模型弄出那么多东西出来。最后的输出就是 x(速度)和y(方向)两个赋值。面对那么庞大的输入参数,和这么小的输出,老是在 “杂乱的(heterogeneous)” 输入因素之间摆不平。自动驾驶的质量控制因此成为一个非常大的挑战。一不小心就有了 regressions:明明上一个版本在一个急转弯控制得很好,版本更新后,突然就失控了。这种事情,很多用户有反馈。

他们现在还是学 Lidar(激光雷达),把各种 cameras 的感知数据,先整合成统一的三维模型,然后去 feed 给系统。这样来减少“杂乱度”,说这种模拟激光雷达的软件模型解决办法,比以前的系统,好多了。

白:对于NLP错误结果不会那么致命,就是正确的解析早几个回合出来还是晚几个回合出来的事儿

李:谢谢 @白硕 老师,大作的最后一段总算看得有些明白了,一开始觉得是天书。期待语义系列的下一篇。


【相关】

白硕:闲话语义(7):事件

【弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

是特斯拉的自驾AI牛还是马斯克牛?

【语义计算:李白对话录系列】

白硕 – 穿越乔家大院寻找“毛毛虫”

【置顶:立委NLP博文一览】

《朝华午拾》总目录



是特斯拉的自驾AI牛还是马斯克牛?

说到马斯克,全世界做AI的谁有他这个门外汉牛?

他可以让自己的上帝,特斯拉车主们,争先恐后地付巨款,不惜生命危险做小白鼠,给他免费地源源不断地标注数据。他拿着数据训练他的AI 所谓的“全自动驾驶”(FSD,Full Self Driving)。FSD 能力提高以后,他就不断加价,剥削新的上帝。

FSD 根本还没影子的事儿,他就从 5000 美金一套开始预售,一路加价到现在的 7000,据说不久还要加 1000 美金。最近开始发布他的过了n次自设死期的红绿灯自动停车功能,这是走向 city driving 的前提。注意,不管红绿,一律停车。除了电脑视觉(CV)外其实没有任何路口智能,说得赤裸裸:就是要顾客教会它如何过十字路口。万一出车祸了,对不起,责任自负。

红灯停,绿灯也停,见灯就停。甚至有车友说路过一个穿绿毛衣的女孩,它误以为是信号灯,也停了。他丫是完全没有智能,放出来就是让小白鼠们免费教会AI何时不停。见灯就停是默认,何时学会不停,完全等小白鼠义勇军(fleet)的反馈:你踩油们就表示你发现(1)这是绿灯;(2)路面上也安全(无阻碍),你觉得应该穿行。这就给特斯拉做了标注。带标数据反馈给神经网络去训练,机器就慢慢学会了。识别红灯绿灯路口 STOP 招牌,据我自己的多次测试,这个能力已经很成熟了。现在就等过路口的数据了。

从用户角度,即便没有智能,也愿意尝试啊。除了新鲜感以外,有时候也的确省了力气。第一,是绝不会冒大意闯红灯受罚的危险了。第二,遇到绿灯且无阻碍,点一下油门也不过就是举脚之劳,总比自己开车省力。也就是说,你上街开车,除了路口,你完全不用操心了。即便到了路口,遇到红灯、黄灯,你也不必操心,它很保守,总是乖乖给你停下来。只是遇到绿灯,你才需要举手之劳地点一下脚。这样算下来,90% 的 city driving 你是可以交给机器了,10% 的时候动动脚(点一下油门)或动动手(点一下操纵杆也可以)。这样的小白鼠,哪个热爱新科技的人不愿意做呢?何况咱还是AI背景的技术爱好者。10% 之内还有路口转弯,这个是更高级的功能,还没进入特斯拉的机器学习的视野。

这阵子读了一些他们的材料。从各种CV子任务,到建立“鸟瞰”view,到测算3D depth,到综合这些信息决定操作,总共上百个模型一起协作。也是一团乱麻,谈不上端到端。非端到端的好处是透明性和模块化。AI的透明性表现在对这100个模型的细分定义中,可是这些模型之间的协调落地,其实基本是个黑箱子。常出现的问题就是,有的模型 overfitting,与其他模型难以 sync好。不同模块对最终的驾驶控制(输出 x,y:x 是速度,y是方向)有不同的影响,协调不好的后果就是争抢“控制权”,表现在自动驾驶能力的不稳定或退步(regressions)上。

几乎所有其他家的自动驾驶都用激光雷达(LIDAR)主导。马斯克说,这是死路,我就不用,我只用摄像头,靠CV。有啥道理?其实没啥道理,马斯克不是AI专家,他就是个有技术背景的商人而已。他算过一笔账,激光雷达的成本高昂(好像是最基本的LIDAR至少6000美金以上,一辆车通常至少要部署两台,这就是一万多),它没有办法用到量产的特斯拉车上,而不失去顾客和市场。就是为了这么个非科学的理由,他就硬说人家用LIDAR是死路。

LIDAR最大的好处是精确测量障碍物与车的距离,而这是自动驾驶安全性的最重要的信息。特斯拉不用LIDAR,但绕不过这个三维(3D)景深(depth)的计算呀,否则如何避免碰撞呢。特斯拉只好通过多个摄像头从不同角度得来的视觉信息,做所谓信息融合(info fusion)在线建立3D模型,来逼近距离的测算,这需要海量的数据训练以及巨大的即时计算能力。最近的报告说,他们与LIDAR的鸿沟已经越来越小了。事实上,他们是用软件的办法实现了一个LIDAR的模拟结果。据称,模拟LIDAR的好处是,很多利用LIDAR发展起来的驾驶算法和技术就可以拿来主义地用了,补足单一依赖视觉的不足。

这叫什么?明修栈道,暗度陈仓。一面宣告竞争对手依赖LIDAR硬件是死路,一面台下模拟LIDAR的软件效果(等价于复制了一个粗糙的LIDAR)。这样也好,等到未来某一天硬件价格下降,特斯拉量产也装配得起LIDAR了,整个算法路线无需大的改变即可实现平滑升级。马斯克的“死路说”,只有一种解释可以站得住,就是:你丫选择用LIDAR,因此成本大到无法量产,因此也就无法交付给成千上万的客户(特斯拉迄今已经交付了100多万辆,形成了一个可以自动海量汇集驾驶数据的车队,叫 fleet,这个 fleet 每天在路上跑着,源源不断给特斯拉输送数据)。这样一来,你的实际训练数据的收集,无法与特斯拉比,相差太多了。在数据为王的AI年代,自动驾驶的最终规模化和适应性,很大程度上取决于数据的采集量和训练量。从这一点看,特斯拉显然把对手远远抛在后面。

关于踢开LIDAR闹AI革命,可以打个比方。弹钢琴是个手艺活儿,各种大赛,各路选手可以把钢琴弹得让人眼花缭乱。这时候你说,我出一个选手,把双手剁了,也来参加钢琴赛,可以不可以?当然可以,没有手,可以用脚呀。不知道各位见没见过用双脚把钢琴弹得让人掉眼泪那种。

这就是补偿作用。当你把一条路堵死,虽然那是一条公认的光明大道,甚至是很多人确认为“唯一”的路径,你其实还可以把另一条暗道无限发挥到极致,最后也常常可以达到目的。这就是马斯克的算盘,虽然费老鼻子的力气了,现在看来他是在成功的道路上,开始逼近对手的自驾能力。我看过竞争对手Zoox的自动驾驶展示,利用LIDAR和高精地图,在旧金山市区繁忙地带穿行自如,性能上比特斯拉要强得远。(顺便插一句,AI 中很多任务,其实主流的深度学习和更传统的符号逻辑,其实都可以做。当你把某个路线堵死,把所有资源排山倒海般注入其中一条路线,奇迹是可以发生的。但这并不说明,那个被堵死的路线,如果有了类似的资源投入,就不可行。很多时候,另一路根本就不在雷达上,完全被忽略了而已,没有施展的舞台和需要的资源而已。)

回到特斯拉的自动驾驶(auto pilot)的设计思想。马斯克说,现代的交通系统(各种路标、红绿灯,以及驾驶规则等)就是设计给人用的。人与蝙蝠不同,没有雷达,主要就是靠双眼来采集信息,靠大脑消化信息来指挥驾驶。既然人可以驾驶,那么机器凭着眼睛(摄像头)也就一样可以。说得倒也有道理,但那是最低标准的道理。没有任何理由要求自动驾驶仅仅跟着人后面去学。人每天都在出事故,难道机器也应如此?人的双眼其实很差劲,为此不知道坑进去多少条人命,伤胳臂丢腿的更是无数。好在特斯拉不止双眼,它配备了10多个摄像头,也配了普通雷达,只是没有激光雷达而已。(特斯拉其实走了一条难得多的道路,他自愿砍掉了自己的两条腿,除了LIDAR这条腿外,他还坚持不用高清地图。砍掉第二条腿的动机是增强系统的鲁棒性和动态适应性,因为高清地图不仅制作和维护成本很大,而且也难于对地面情况的变动做及时的更新反映。但在人口密集地区,譬如交通复杂的都市中心,没有预制的高清地图的结构化知识支持,单靠现场的视觉计算是很难把控交通形势做出合理决策的。相信,最终特斯拉还是会在特别的地区,譬如旧金山市中心,添加高清地图,来优化它的一般驾驶算法的场景性能。)

“跟人学”,这是特斯拉自动驾驶的设计哲学。这也是它的 AI 具有一定程度的透明性、可解释性以及模块化 practice 的指路灯。从工程上看这是最好实施的方案之一。但理性来想,其实很难证明这是最佳的自动驾驶途径。红绿灯识别这类子任务,定义起来很有道理,也很清晰,它直接与驾驶操作有关。其他的一些子任务就难说了,譬如识别垃圾桶。垃圾桶与其他障碍物,在驾驶操作的决策中到底有没有特别的意义,不大能说清楚。本着“跟人学”的指导思想,他们自底而上去定义任务,哪个任务似乎常引起驾驶者的注意,就先定义了,先假设它对驾驶决策有区别性影响。对每个定义的任务,首先收集和标注训练集,做一个模型出来。这样每个模型/模块,就可以独立训练独立测试,开发起来很有章法。至于一下子整了这么多同时在开发、因素杂乱(heterogeneous)、训练集大小不一、拟合程度不一的模型,如何把它们整合到大系统去协调总体驾驶决策,这其实依然是个很大的挑战。他们自己也承认这是一个很大的问题。目前还有相当程度的瞎撞的成分。这就是为什么不少特斯拉车主发现有些功能,新版突然不如旧版了。有时候,过了几个版本又回来了。但也有一些能力曾经在某个版本表现很好,后来再训练新版本后就一直回不到以前的最佳状态。

总之是,模块化、透明化、跟人学智能而不是跟最高理性加最好配置学智能决策,这一套设计哲学对于工程化落地部署有好处,也接地气,但是在 regressions 的掌控上,仍然有很大欠缺。

说了这么多,最后还是沦为马斯克的小白鼠。你都想象不出特斯拉车主的宽容博爱精神多么宏大:对于特斯拉任何一点不起眼的进步,他们从来不吝赞誉;对于马斯克如超人般尊崇;对于失误(包括车祸死人这种人命关天的大事),他们总是冲上去卫护特斯拉,常常指责同是车主的 victims 的不专心或违规操作;对于免费标注、免费做广告、每个季度末忙碌的时候免费义务去 Fremont 帮助交付特斯拉新车,等等,热心无比。这种现象超过了当年的乔布斯粉丝。以至于网上传言,特斯拉车主都是一帮爱好技术的单纯的人。以前孩子迷路了,家长教育孩子,除了找警察叔叔,就去找带着孩子的阿姨。现在的教育据说是,迷路了就去找特斯拉车主,他们都是好人。

盼星星盼月亮,可惜前阵子 beta,只给 early access 的小团伙试用,咱想当小白鼠,无门可入。终于昨天夜里得到了空中更新(OTA:over-the-air),今天有点迫不及待了。

有道是:"... just tell me what you want" (歌词)

 

【相关】

购买特斯拉,请用我的推荐,你我均可得到免费超级充电的奖励:https://www.tesla.com/referral/wei29218 

精彩绝伦的旧金山市区自动驾驶演示:

 

世界语论文钩沉:世界语的语言学特点(1/3)

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。20多页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

毕竟过去20多年了,回头看当年的文章,觉得的确有一些新意,但欠平实,也失之细琐,。感觉上是一个语言学学生“学习/探索/发现”一门新语言的过程实录。也的确是这么个背景。当年最震撼的一个“发现”是,世界语不过就 17 个词尾,居然会变出 112 个不同词形来。这大大出乎我的预料。当时手边的世界语文法书,只是讲解这些形态词尾的用法,我从来没看到有人指出到底能变出多少花样来。记得我跟我的语言学同学说,你猜猜一个词在世界语会有多少种变化?同学说,据她所知,世界语也不是形态特别丰富的语言,最多不过20-30种变化吧。后来就琢磨怎么回事?黏着(就是叠加)这种特点能有这么神奇的产生性吗?还真是如此。

17个形态不难记忆,112种形式怎么不把人整晕呢?靠的就是黏着的规则性。这些规则,文法书也没有写清楚,一切都是在例子中。但其实是可以总结出来的,到底有几种基本词尾形态,形态之间的粘着有什么限制?次序上,类型上,为什么?这些原来都是可以小葱拌豆腐讲清楚的。对形态词尾组合规律的穷尽式探索也是我所学的计算语言学的需要:所谓“削尾”算法就是要应对一个词的所有变形,这是自动形态分析的前提。没有它就查不到词典,没有词典信息加形态分析的信息,就无法做句子分析,也没办法往下走机器翻译规则系统。最后就把对于国际语的语言学研究,变成了一个机器翻译的应用课题。

有些东西是天生在这个语言中的,属于其语言学特点所决定的东西,但语言教科书上,包括柴门霍夫自己的实践都很少系统论述。譬如,复杂时态语态,通常的教学只教利用助动词 est- 的用法:estas studanta / estis studota / ... 等等,其实系统学习背后的语言学特性,会发现,这个助动词完全可以不用:  studantas / studotis / ... (其实,即便保留助动词加中心动词的复杂分析形式,当年助动词词根 EST- 完全可以不用,让 EST- 只做系动词而不必兼做助动词,让三个时态词尾直接独立做助动词用即可:as studanta / is studota / ...)。。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

1.  世界语的黏着性

1.0  众所周知,世界语在很大程度上是一种典型的黏着语,它的语素(词尾、词缀和词根)具有相对固定而独立的含义,可以“黏着”(叠加)构词。下面我着重探究世界语词尾黏着的构词能力,尽管词缀黏着(所谓派生词构词法)与词根黏着(所谓复合词构词法)同样有趣,值得研究。

[说明] 本文中的术语“词尾”专指语法词尾,亦叫“形态”。

1.1  词尾黏着

一般而言,词尾用于表示语法信息:词类、格、数、时态、语态、语气等。

1.1.1  世界语中有多少个独立的形态语素?

其绝对数非常有限,只有17个,即:-o,-a,-e,-n,-j,-i,-u,-as,-is,-os,-us,-ant-,-int-, -ont-,-at-,-it-,-ot-。由于它们的黏着组合的特性,17个形态语素就足够完整,其表现力几乎可以与形态丰富的语言媲美。

1.1.2  根据17个基本形态,可以从一个词干按规则生成多少个单词形式呢?

理论上的答案是112:42个动词,28个名词,28个形容词和14个副词(请参阅附录I)。

1.1.3.  形态语素黏合成词尾的规则

1.1.3.1.  每个单词只有一个词类。实词总是以其形态标示其词类:名词、形容词、动词还是副词。但是,功能词(例如介词,原副词等)是由词典人为规定的词类,它们是可枚举的。因此,表达词类的形态语素之间不允许黏合,就是说,-o,-a,-e,-i /-u/-as/-is/-is/-os/-us 这些词尾相互独立,不可叠加,例如下列形式是非法的:

** -as-o / ** -e-i

【说明】 ** 表示不合法的语言形式(单词或短语),而 ?表示成问题的语言形式。

1.1.3.1.1.  词类不交叉是国际语很大的优势:世界语不存在词类同形现象,这无疑为无论是人还是机器的对词的功能解析提供了的极其有利的条件。而词是最小的句法单位和基础。世界语的高度规则性在此得到了最好的体现。

1.1.3.1.2.  另一方面,上述特点也带来了世界语利用词尾任意转换词类的自由,只要词类转换不违背逻辑(参见1.1.5.1)。这不正是世界语兼具高度规则性与高度灵活性的体现吗?例如:

La flor-OJ glor-AS. (那花儿绽放了:“花儿” 与 “绽放/开花” 是同一个词根 flor- 只是词类词尾不同)
Li kan-AS italan popolan kant-ON. (他唱意大利民歌:“唱” 与 “歌” 是同一个词根 kant-,只是词类词尾不同)
Mi estas ĝoj-A.  Mi ĝoj-AS. (他开心:“开心/高兴” 无论是动词谓语,还是做系动词后面的形容词标语,词根都是一样的 ĝoj- )
la propon-ITA propon-O (所提建议:“提议” 与 “建议” 同一个词根,只是词类词尾不同)

词类转变在古代汉语也有类似的自由度,叫做“词类活用”。但是,不幸的是,古汉语的词类转换没有以可见的形态表现出来,只能通过上下文句法、逻辑的分析来识别(“句读”)。请比较:

1)三“人”行,必有我师。(Tri hom-OJ iras, inter kiuj nepre estus mia instruisto.)
(因为没有词尾形态,逐词直译就是:tri hom? ir?, nepr? est? mi? instruist?).

其狼“人”立而嗥。(La lupo hom-E staras kaj hurlas.) 

(逐词直译:tiu? lup? hom? star? kaj hurl?).

2)其物“净”且清。(La aĵo pur-AS kaj klaras.) 
(逐词直译:tiu? aĵ? pur? kaj klar?).

“净”其身,食其肉,乃去。(Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. )
(逐词直译:pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?).

1.1.3.2  表示词类的形态都可以黏合到 7 个“中缀”型形态上(中缀形态永远不会出现在单词的结尾),其中6个是所谓“分词”形态,用来表示“时体”(进行体、完成体与未完成体)和语态(主动语态和被动语态)。这6种分词形态各自独立,不能相互黏着。第7个是“零形式”(即分词形态阙如,表示默认的“一般体”加主动语态的含义)。

1.1.3.3  动词的黏着规则

1.3.3.1  一个动词必须用以下词尾之一:-i / -u / -as / -is / -os / -us,它们之间不再存在黏着的可能性。这意味着,以 -i(不定式),-u(命令式) 或 -us (虚拟式)结尾的不再有时态的变化/含义,而 -as(现在时) / -is(过去时) / -os(未来时)不再有“时体” 的变化/含义。

1.1.3.3.2  世界语动词没有“数”与“格”的变化。因此,动词词尾不能与复数词尾 -j 和 宾格词尾 -n 黏着。因此,在世界语中,不存在以下两种形式的区别:

Mi skrib-as. / ** Ni skrib-j-as.  (au: ** Ni skrib-as-j.) 
(即不存在其他语言那种主谓在数上的“一致关系”要求。)

1.1.3.3.3  表示时态(现在,过去和将来)和语气(不定式、命令式和虚拟式)的 6 种动词词尾,加上表示时体和语态的7格分词形式,黏着在一起的结果为:6*7 = 42 个动词形式。

【问题探讨】不定式到底是语气(modo)还是独立的词类(speco)?

1.1.3.4  名词和形容词的黏着规则

1.1.3.4.1  名词和形容词有“数”(单数为零形式,-j 为复数形式)和“格”(主格为零形式,宾格形式为 -n)的形态变化。7个名词词尾 -o / -ant-o / -int-o / -ont-o / -at-o / it-o / ot-o,两个数变 (加 -j 或不加) 和两个格变(加 -n 或不加),最终形成 2*2*7 = 28 个名词形式(同理,有28个形容词形式)。

1.1.3.4.2  它们之间的顺序是:(词干)+ 分词 + 词类 + 数 + 格,其中词干 = 前缀+词根+后缀(前后缀可省)。例如:stud-ant-o-j-n。仅词根语素和词类语素必须有,其他语素可能根本不出现。上述语素之间的次序是很自然建立的,有语音方面的原因(尽管从形态上说,词尾语素之间的次序是纯粹任意的,因为次序本身不会改变其语法意义,这方面与词缀黏着的情形有所不同!参见1.2)。如前所述,即使词干以元音收尾,词类词尾的元音 o 或 a,后面跟半元音 j (复数)和鼻辅音 n(宾格)串起来发音和听音也还是很顺:

sci-aj-n / ** sci-j-an

1.1.3.5  副词的黏着规则

与名词和形容词的规则非常相似,只是副词不包括“数”这个语法范畴(在这种情况下,应注意,副词宾格与名词宾格用法不同)。因此,这些副词形态变体的总数为 2*7 = 14。

1.1.3.6  关于黏着的词尾规则为建立用于“削尾”和加尾的算法提供了很好的依据,这是机器解析和翻译世界语的第一个必要阶段。由于黏着语内部的高度规则性(包括一定程度的递归),研究此类令人满意的算法并不困难(请参阅附录2)。

1.1.4  世界语17个基本形态语素是否做到了在语义上的单纯,没有交叉?

1.1.4.1  可惜不是。这在【附录2】削尾算法中看得很明显(比较各个形态对应怎样的词法意义)。

1.1.4.2  语义不交叉的词尾只有5个:-o / -a / -e / -i / -n。应该说明的是,所谓的语义不交叉的词尾并不一定意味着只对应一个语义。语义不交叉词尾 -n 实际上有三个语义(即包括了三个单独的句法或逻辑功能,当然,三者并不共存):(i)宾语;(ii)方向(通常用于副词或介词后名词);(iii)状语(通常用于时间、距离等名词,功能等价于介词 je)。再如,在某些语言中,存在三个数,单数(1)、双数(2)和复数(大于2),但是世界语复数词尾 -j 的含义更大,包括2或大于2。

1.1.4.3  在世界语中,没有单纯的基本形态语素来表示"动词"、"谓语"的特征以及词法范畴"时态"、"语态"、"语气"和"时体“的具体所指。在分词的6个形式中,时体和语态是混杂在一起的。时态、语气与动词/谓语的特征也混合在一起。但是,这些不透明的的混合性词尾不会给人的理解带来困难。相反,它们显得足够自然和方便,特别是,那些混合在一起的词法特征都是紧密相关的。

【延伸讨论】 分词并不是独立的词类,它可以属于4个主要词类的任何一类。分词的真正含义是给一个词以逻辑动词的意味,类似于表示动作性意味的后缀(或“类词尾”)-ad- 。

1.1.4.4  有意思的是,即使在世界语不透明的混合形态中,也存在一定程度的“透明性”。在 -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot- 中,“a” 似乎表示“现在”或“进行”,“i” 表示“过去”或“完成”,“o” 是 “未来”或“未完成”,“s” 似乎指 “谓语”(但命令式谓词 -u 则是例外,”n“ 表示 “主动”。尽管从形态学上,这些“类词尾”不能被视为基本形态,但是,所反映的这种“透明性”客观上加强了使用者对形态的把握,而且,人们总是体验到这些混合式形态构成的平行之美。

【延伸讨论】作为句法范畴,时态与时体显然彼此不同,但在实际使用中,其边界其实是灰色的:

Verk-ONT-oj estas tiuj, kiuj verk-OS au verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ghojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ghojas.

Li jam vid-IS/vid-INT-AS la filmon.

实际上,这两个词法范畴均与客观世界的时间维度相关,是针对事件时间的不同角度的反映。这大概就是柴门霍夫作为语言践行者,对两个客观相似的概念(例如“过去”与“完成”)采用相同的元音(“i”)作为形态构成因素的考量吧。

1.1.4.5  然而,正因为世界语没有单纯的形态语素表示语态,语态信息是融合在6个分词形态里面,这就造成如下情形:一个被动形式对应了两个主动形式,如下所示:

-as / -antas  -->  -atas;    -as / estas -anta(j) --> estas -ata(j)
-is / -antis  -->  -atis;        -is / estis -anta(j) --> estis -ata(j)
-os / -antos  -->  -atos;    -os / estos -anta(j) --> estos -ata(j)

这个问题的本质是世界语实际上有四个时体:一般体(零形式),进行体,完成体和未完成体,同时存在两个语态:主动(零形式)和被动。而六个平行的分词形式只能蕴含三个时体和两个语态。这种状况使得以零形式表示的一般体没有其对应的被动形式,从而使它无奈之下不得不去共享或抢夺进行体被动态的分词形式 -at-。不能不承认,这是世界语形态系统的一个理论缺陷。其结果是,尽管 -at- 理论上是 -ant- 的被动对等物(进行体:-antas  -->  -atas),但实际上 -at- 通常是作为一般体的被动形式(一般体:-as  -->  -atas),越俎代庖了,因为一般体比进行体更为常用。因此,有人建议允许黏合形式 -ant-at- 或 -at-ant-,用作进行体和被动式的结合,或者将混合式分词形态独立开来,即:-ant-at- 代替 -at -,-int-at- 代替 -it -,-ont-at- 代替 -ot- ,以这种透明的黏合形式弥补形态体系的理论缺陷。这种符合黏合特性和组合逻辑的书斋提案,对于机器可能更加合理有效,但是对于我们人类来说,它们失之繁琐,反而成为不必要的学习负担。

1.1.4.6   【小结】理想的纯黏合语言是每个语素,至少每个词尾形态,应该具有单纯唯一的独立含义,正如柴门霍夫在《第一书》中声称的那样。任何复杂的意义组合都应该以语素的黏合手段加以表达。这也正是黏合语与其他的形态语言之间的根本区别。由此单词词形内的词法结构将变得彻底透明,完全可解析。最方便彻底贯彻这一黏合设计思想的语素正是词尾形态,而不是数量大得多的词缀语素和词根语素。然而,就这一点而言,世界语也没有表现出100%的黏合性。在我看来,这可以用语音手段的局限来解释:将所有词尾形态原子化肯定会导致每个单词的音节数大增,这样对于使用者的接受度来说太过复杂。 此外,世界语只有5个元音 a / i / e / o / u,这些元音也已经严重超载。世界语过去、现在和将来都是为人实际使用而设计的足够“自然的”人类语言(尽管其起点是人造),而不是机器语言。 (请参阅第4节。)

1.1.5  这 112 个单词形式都会用到吗?

1.1.5.1  在词法上,是的,所有这些形式都可能用到。实际中有一个限制:词干与这112种词尾的黏合,必须在逻辑上是可理解的,即语义上可以兼容。譬如,在我看来,那些表示具体物体的词根(例如“tabl-”)是应该没有分词形式的:

? tabl-ant-i / tabl-ot-a / tabl-ant-a / tabl-int-o

这种限制是使用者自然遵守的,毕竟人不大可能表达自己也无法理解的信息。

1.1.5.2  尽管从实用角度来看,这112种形式的使用频度彼此之间有很大差异,但是不能说哪种形式不可使用。这112种形式的有效性和可理解性是同样的。哪些形式更受青睐,更多出现是由多种因素决定的,包括:说话者的语言习惯和母语背景、风格、教育程度、语言能力、听众是谁以及希望产生何种效果,等等。

尽管如此,世界语的简约原则要求尽可能多地使用简单形式而不是复杂形式。例如:

"Mi NUN stud-AS (au: Mi ESTAS stud-ANTA)" 代替 "Mi stud-ANT-AS".
"Ili JAM ir_IS (au: Ili ESTAS ir-INTAJ)" 代替 "Ili ir-INT-AS".
"veredir-E" 代替 "veredir-ANT-E"

因此,人们宁愿使用 “la parol-O far_E de Zamenhof(柴门霍夫做的演说)”,而不是“ la parol-ADO far-ITA de Zamenhof”,或将短语 FARE DE 简化为新的介词 FAR(la parolo FAR Zamenhof)。

因为人类思想本身就存在必要的模糊性,此外,上下文和功能词(包括唯一有形态变化的助动词 EST-)通常也对解析有所助益(如上面示例所示,另请参阅 3.2.1),所以,世界语的节约原则并不难遵守。

1.1.5.3  【小结】仅仅17个基本形态最终形成112个有效的词尾形式!每个词都可以有112种变化,这真可算是黏合造词的奇迹。更重要的是,无论是表达还是理解,如此众多的词形却不会给人带来负担。这不是世界语黏合规律的最好证明吗?实际上,黏合的本质不外乎是选择性排列(由造词结果角度观之)和拟递归(由过程角度观之,请参阅【附录2】)。更抽象地讲,是一定的数学特性引入世界语了。世界语词汇是规则性和灵活性高度统一的典型案例,在世界语中这是同一现象的相互依存的两面。

1.2  词缀的黏合

词缀主要用于表达单词的细微差别。其黏合通常遵守自然逻辑或语义的兼容性,都是全人类共同的准则。因此,没有(也没有必要)特别规定词缀黏合的规则,使用者自然会让黏合易于理解。有一个世界语结构关系的就近原则在这里起作用,该原则要求两个相互关联的元素尽可能地接近,以便于清晰理解。比较 PLIMALBONIGI 与 MALPLIBONIGI 之间的细微差别:

bon-a --> mal-bona --> malbon-ig-i --> pli-malbonigi
bon-a --> bon-ig-i --> pli-bonigi --> mal-plibonigi (aŭ: bon-a --> malpli-bon-a --> malplibon-ig-i)


1.2.1  词缀的抽象度有所不同。 最抽象也是最常用的词缀有 -et- (“小”,程度轻微)、-eg-(“大”,程度严重)、mal-(反义词)、ne-(否定词),可以用于任何词根/词干和任何词类(原则上,每个词根具有一个逻辑词类,就像每个单词都有一个语法词类一样),而其他词缀,如 -ul-(“者”)、-ing-(“值得”)、 el- (“出”)、 kun-(“一起”)则非常具体。

1.2.2  与多后缀黏着相比,前缀黏合或多或少受限,并且语音上不允许在前缀之间或前缀与词根之间连音(例如,MALAPERI 和 MALANTAUPORDO:

mal-a-pe-ri / ** ma-la-pe-ri;
mal-an-tau-por-do / ** ma-lan-tau-por-do


1.2.3  后缀的黏合非常灵活自由:

rid-i --> rid-et-i --> ridet-em-a --> ridetem-et-a--> ridetemet-ul-o -->  ridetemetul-in-o --> ridetemetulin-et-o --> ridetemetulinet-aĉ-o --> ridetemetulinetaĉ-et-o ...
= la ete aĉa eta knabino, kiu ete emas rideti

上面这个由一个词根一个词尾中间黏着了8个后缀的派生词词义组合透明、易于理解,意思是:有点儿爱微笑的有点恶作剧的小女孩。后缀有:-et-(程度轻微)、-em-(倾向于)、-ul-(“者”)、-in-(女性)、aĉ(恶作剧)。

有意思的是,语缀(如 -et-)可以在一个单词中多次出现,这与形态语素完全不同。从理论上讲,后缀的数量在黏合过程中是不受限制的。当然,一个单词太多音节,发音器官可能有困难,人们通常不会使用过于繁复的多后缀黏合的词法综合形式。一般取而代之的是,使用句法词组的分析形式来表达复杂的概念组合。

另外,世界语中有两个特别的后缀 -ĉj-/-nj-,它们会更改与之黏合的前面的发音:patro(父亲) / patrino(母亲) --> pa-ĉj-o(爸爸)/ pa-nj-o(妈咪)。

1.3  词根的黏合

词根黏合用来表达复杂概念,其黏合规则非常简单也很自然:中心词始终居后。词根复合的黏合,与中文(以及德语)合成词的构成,具有类似的自由性。示例:

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。近20页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

Li,Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

1. Aglutineco de Esperanto

1.0.  Kiel sciate al ĉiuj, Esperanto estas grandparte tipa aglutina lingvo, kies morfemoj (finaĵoj, afiksoj kaj radikoj) havas siajn apartajn signifojn kaj povas aglutini unu sur alia por vortofarado.  Ni intencas portempe esplori sube ĉefe pri la aglutineco pri la finaĵoj, kvankam estas same studindaj la trajtoj por la aglutineco pri afiksoj (lige kun derivaĵfarado) kaj pri radikoj (lige kun kunmetaĵofarado).

[Klarigo] La termino finaĵo en tiu ĉi arktikolo specifikas je gramatika finaĵo.

1.1. Aglutineco pri Finaĵoj

Principe vortofinaĵoj estas nur uzataj por montri gramatikajn informojn: vortospecon, kazon, nombron, tenson, voĉon, modon kaj aliajn.

1.1.1.  Kiom da sendependaj finaĵmorfemoj estas en Esperanto?

La absoluta nombro multe limigitas, nur 17: -o, -a, -e, -n, -j, -i, -u, -as, -is, -os, -us, -ant-, -int-, -ont-, -at-, -it-, -ot-.  Tamen, estas admirinde, ke ili sufiĉe kompletas kaj proksimume esprimriĉas kiel en fleksiegaj lingvoj, dank' al sia aglutineco. 

1.1.2.  Baze de la 17 fundamentaj finaĵoj, po kiom da vortoj oni povas produkti el unu vortokorpo laŭregule?

La teoria respondo estas 112: 42 verboj, 28 substantivoj, 28 adjektivoj kaj 14 adverboj (Vd. APENDICON I).

1.1.3.  Kiuj estas la reguloj, laŭ kiuj la finaĵoj sinaglutinas?

1.1.3.1.   Ĉiu vorto havas nur unu vortospecon, nociaj vortoj ĉiam per siaj finaĵoj sinaspektas je siaj specoj ĉu kiel substantivo, aŭ adjectivo aŭ verbo aŭ adverbo; funkciaj vortoj, kiel prepozicio, originala adverbo, kaj aliaj, tamen, gajnas siajn specojn artefarite, kaj ili estas nombreblaj.  Tial, ne estas permesite, ke interaglutiniĝu la finaĵoj indikantaj specojn, -o, -a, -e, -i/-u/-as/-is/-os/-us, t. e. ne ekzistas la formoj kielsube:

** -as-o / ** -e-i

[KLARIGO] ** estas indiko por negramtikaĵo (ne-vorto aŭ ne-frazo) dum ?? por gramtikeproblemaĵo.

1.1.3.1.1.  Tio estas granda avantaĝo por la internacia lingvo, ke en Esperanto ne povas esti gramatikaj samformoj, kio sendube estas eksterordinare favora kondiĉo por rekoni (far ĉu homoj ĉu maŝinoj) la funkcion en frazo de la minimuma sintaksa unuo vorto.  La alta reguleco tipe enkorpiĝas ĉi tie, ĉu ne?

1.1.3.1.2.  Sekve kaj aliflanke, Esperanto sin karakterizas per laŭplaĉa transformado de vortospecoj, se nur la transformaĵo ne kontraŭas al logiko (kp. 1.1.5.1).  Ĉu tio ne estas okulfrapa sinmanifesto de alta fleksebleco de Esperanto? Ekzemble:

La flor-OJ flor-AS.
Li kan-AS italan popolan kant-ON.
Mi estas ĝoj-A.  Mi ĝoj-AS.
la propon-ITA propon-O

La sama laŭplaĉeco je specotransformo sintrovas ankaŭ en la antikva ĉina lingvo.  Tamen, treege bedaŭrinde, la transformo sin montras per neniaj videblaj morfologiaj formoj, kaj tio povrekoniĝas nur laŭ kunteksta sintaksa aŭ/kaj logika analizo.  Komparu:

1) 三人行,必有我师。(ĉine) Tri hom-OJ iras, (inter kiuj) nepre estus mia instruisto.
(vorto-al-vorte: tri hom? ir?, nepr? est? mi? instruist?).

其狼人立而嗥。(ĉine) La lupo hom-E staras kaj hurlas (t.e. kvazaŭ homo starus). 
(vorto-al-vorte: tiu? lup? hom? star? kaj hurl?).

2) 其物净且清。(ĉine) la aĵo pur-AS kaj klaras. 
(vorto-al-vorte: tiu? aĵ? pur? kaj klar?)

净其身,食其肉,乃去。(ĉine) Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. 
(vorto-alvorte: pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?)

1.1.3.2.  Ĉiuj specofinaĵoj bone sinaglutinas sur la 7 "interfinaĵoj" (kiuj neniam aperas je la fino de vortoj), t.e. la 6 participaj formoj indikantaj aspektojn (kontinuan, perfektan kaj malperfektan) kaj voĉojn (aktivan kaj pasivan), kaj 1 nulformo, kiu fakte indikas ĝeneralan aspekton (aŭ nulaspekton) kaj aktivan voĉon. Tamen, la participaj por si mem ne povas interaglutini unu sur la alia. 

1.1.3.3.  Aglutinaj Reguloj por Verbo

1.1.3.3.1.  Verbo finas nepre je unu el la subaj finaĵoj: -i/-u/-as/-is/-os/-us, kiuj tial certe aperas je vortofinoj kaj inter kiuj ne plu estas la eblo por aglutinado, t.e. la formoj kun -i, -u aŭ -us kiel finaĵo ne plu sinvarias je tenso-signifo, kaj -as/-is/-os nur povas enhavi la signifon de ĝenerala modo (aŭ nulmodo). 

1.1.3.3.2.  Esperantaj verboj ne sinvarias pro nombro aŭ kazo, verbofinaĵoj do ne aglutineblas al la finaĵoj -j kaj -n.  Tial en Esperanto ne ekzistas la kontrasto inter la subaj 2 formoj:

Mi skrib-as. / ** Ni skrib-j-as.  (aŭ: ** Ni skrib-as-j.) 

1.1.3.3.3.  La 6 verboformoj indikantaj tensojn (prezencan, preteritan kaj futuran) kaj modojn (infinitivan, kondicionalan kaj volitivan) kaj la 7 interfinaĵoj por aspektoj kaj voĉoj interaglutinas kun la rezulto de 6*7=42 verboformoj.

[PROBLEMO] Ĉu infinitivo vere estas ia modo aŭ ia sendependa vortospeco?

1.1.3.4.  Aglutinaj Reguloj por Substantivo kaj Adjektivo

1.1.3.4.1.  Substantivoj kaj adjektivoj fleksias je nombro (singularo per nulformo kaj pluralo per -j) kaj kazo (nominativo per nulformo kaj akuzativo per -n).  La 2 nombroj kaj 2 kazoj aglutinantaj sur la 7 interfinaĵoj fariĝas fine 2*2*7=28 formoj.  

1.1.3.4.2.  Jen la ordo inter ili:  (korpo)-interfinaĵo + speco + nombro + kazo, interkie korpo = prefikso(j) + radiko(j) + sufikso(j).  Ekzemple: stud-ant-o-j-n.  Nur radiko kaj speco nepre kunaperas, la aliaj morfemoj povas tute ne aperi.  La supra interordo establiĝas tre nature, kun fonetika kialo (kvankam morfologie la finaĵ-ordo estas pure arbitra, ĉar la ordo mem ne variigas iliajn grametikajn signifojn, kio tiurilate diferencas de la stato pri afiksoaglutinado!  Kp. 1.2.  Ordite kiel supre, la vokalo oa, la duonvokalo j kaj la nazala konsonanto n prononciĝus kaj aŭskultiĝus plej facile, eĉ en la okazo, ke la korpo hazardus kun vokalo je fino: 

sci-aj-n / ** sci-j-an

1.1.3.5.  Aglutinaj Reguloj por Adverbo

Ili multe similas al tiuj por substantivo kaj adjektivo, nur adverbo ne inkluzivas en si la gramatikan kategorion de nombro (por kazo, menciindas, ke la adverba akuzativo signife ne malgrande foras de la substantiva).  La formoj do rezultiĝas entute je 2*7=14.

1.1.3.6.  La aglutinaj reguloj pri finaĵoj bone fundamencas al la establado de la algoritmoj por fortranĉi finaĵojn kaj por ilin adicii, kiu estas la unua necesa etapo por maŝine kompreni kaj traduki Esperanton.  Dank' al la alta reguleco, inkluzive de iugrada rekursiveco, interna en la aglutinareguloj, estas ne malfacile elesplori tiajn algoritmojn kontentigajn (Vd. APENDICON 2).

1.1.4.  Ĉu la 17 fundamentaj finaĵoj ĉiuj semantike senmiksas?

1.1.4.1.  Bedaŭrinde, ne.  Tio klare evidentas en la algoritmo de APENDICO 2.

1.1.4.2.  Jen la senmiksaj finaĵoj: -o/-a/-e/-i/-n.  Estas klarigende, ke la tiel nomata semantike senmiksa finaĵo tute ne necese signifas, ke ĝi devu signife specifiki nure.  La Esperanta senmiksa finaĵo -n signife inkluzivas fakte de tri apartaj funkcioj sintaksaj aŭ logikaj (neniam kunekzistaj, kompreneble): objekto, direkto (kutime lige kun adverbo aŭ postprepozicia substantivo) kaj adjekto (ofte kun la substantivoj de tempo, distanco aŭ similaj).  Plurekzemple, en iuj lingvoj estas tri nombroj, singularo (1), duumo (2) kaj pluralo (pli ol 2), tamen la Esperanta pluralofinaĵo -j plivaste signifas, inkluzive de kaj 2 kaj pli ol 2.  

1.1.4.3.  En Esperanto ne estas elementaj finaĵoj por respekte indiki verbon, predikaton kaj la signifojn de tenso, voĉo, modo kaj aspekto.  La signifoj de aspekto kaj voĉo miksiĝas en la koncepto de participo.  Kaj tenso, modo ankaŭ sinmiksas kun verbo aŭ/kaj predikato.  Tiuj netravideblaj miksaĵoj, tamen, ne kaŭzas malfacilon por homa rekonado; anstataŭe, ili aspektas sufiĉe nature kaj favore, ĉefe ĉar la signifoj miksitaj kune estas tiuj, kiuj proksime interrilatas.  

[PLUVORTOJ]  Participo ne estas sendependa vortospeco, kiu povas aparteni al ajna el la 4 ĉefaj specoj kaj kies vera senco nur efikas je tio, ke ĝi, kiel la sufikso aŭ kvazaŭ interfinaĵo -ad-, donus al vorto la logike verban signifon.  

1.1.4.4.  Estas sufiĉe interese ke ankaŭ estas iugrada "travidebleco" eĉ en Esperantaj netravideblendaj miksaj finaĵoj.  El la formoj -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot-, verŝajnas al ni, ke -a- signifus "presencon" aŭ "kontinuon", -i- "preteriton" aŭ "perfekton", -o- "futuron" aŭ "malperfekton", -s "predikaton" (escepte nur de la volitiva predikato -u), kaj -n- "aktivon", ktp.  Kvankam morfologie tiuj kvazaŭfinaĵoj ne povas sinsendependi kiel elementaj finaĵoj, tamen, tia "travidebleco" objetive multe helpas nin por memorado, kaj plue, oni ĉiam sentas la belecon je la paraleleco en la miksformoj  konsistantaj el ili.  

[PLUVORTOJ]  Kiel sintaksaj kategorioj, tenso kaj aspekto ja evidente diferencas unu de la alia, sed je praktika uzado ege malklariĝas la interlimo:

Verk-ONT-oj estas tiuj, kiuj verk-OS aŭ verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ĝojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ĝojas.
Li jam vid-IS/vid-INT-AS la filmon.

Fakte, la 2 konceptoj ambaŭ rilatas al TEMPO en la objektiva mondo.  Tio eble ĝuste estas la kialo, pro kio Zamenhof, kiel lingva majstro, maldogmiste elektis la samvokalojn por la 2 objektive similaj konceptoj.  

1.1.4.5.  Tamen, guste ĉar en Esperanto ne estas elementaj finaĵoj por voĉoj, kies informoj sin montras nur en la 6 participoj, do formas la situacio, ke 1 pasivformo kontrastas al 2 aktivformoj kielsube:

-as / -antas  -->  -atas;    -as / estas -anta(j) --> estas -ata(j)
-is / -antis  -->  -atis;        -is / estis -anta(j) --> estis -ata(j)
-os / -antos  -->  -atos;    -os / estos -anta(j) --> estos -ata(j)

La esenco de ĝi estas, ke en Esperanto estas efektive 4 aspektoj: ĝeneralo (per nulformo), kontinuo, perfekto kaj malperfekto, kaj ekzistas 2 voĉoj: aktivo (per nulformo) kaj pasivo.  La 6 paralelaj participoj konsistas el nur 3 aspektoj kaj 2 voĉoj, dum la nulforma ĝenerala aspekto ne havas sian respondan pasivformon, rezultante, ke ĝi senrimede kunĝuas la kontinuan pasivaĵon!  Ni ne povas ne konfesi, ke kvankam -at- estas teorie formala kontrastaĵo al -ant-, tamen oni efektive emas rigardi -at- kiel la pasivan formon por ĝenerala aspektom, kiu pli often uziĝas ol la kontinua.  Tial, iuj proponas, ke oni uzu la aglutinan formon -ant-at--at-ant- kiel la kunaĵon de kontinuo kaj pasivo, aŭ plue, tute sendependigu la 2 katekoriojn, sekve estus: -int-at- anstataŭ -it-, -ont-at- anstataŭ -ot-, ktp.  Tiaj travideblaj formoj eble ja efikas por maŝinoj, sed por ni homoj ili estas troaj kaj nenecesaj ŝarĝoj.  

1.1.4.6.  [Sumeto]  Ideala pure aglutina lingvo estas tia, ke ĉiu morfemo, almenaŭ ĉiu finaĵo, devas havi elementan aŭ simplan signifon, tiel, kompleksa signifo estas esprimata en la formo de morfemaglutinaĵo.  Tio ja estas la fundamenta diferenco inter aglutina lingvo kaj alia fleksitipa lingvo, kaj nur pro tio la vortoj fariĝus travideblaj, tute analizeblaj.  Kompreneble, finaĵoj estas tiuj morfemoj, kiujn oni plej facile aglutinigas tutpure.  Tamen, eĉ tiurilate, Esperanto ne sinmontras je 100% senmiksa aglutineco, kio povas, laŭ mi, klarigata fonetike: signife simpligi ĉiujn finaĵojn en elementojn certe kaŭzas la plimultigon de silaboj por vorto, kaj la aglutinaĵo sekve tro kompleksas por homa akcepteblo.  Plue, en Esperanto estas nur 5 vokaloj a/i/e/o/u, kiuj ĉiuj estas sufiĉe ŝarĝitaj jam!  Esperanto estis, estas kaj estos HOMA PRAKTIKUZA kaj sufiĉe NATURA lingvo (kvankam origine artefarita) anstataŭ maŝinlingvo.  (Vd. Sekcion 4.)    

1.1.5.  Ĉu la 112 formoj ĉiuj estas uzataj?

1.1.5.1.  Gramatike, jes. Praktike, estas nur unu limigo:  la ligaĵo de korpo kaj finaĵo devas esti logike komprenebla, t.e. semantike ligebla.  Ŝajnas al mi, ke tiuj konkretaj aĵo-radikoj kiel "tabl-" ne povas fariĝi en participformojn:  

?? tabl-ant-i  / tabl-ot-a / tabl-ant-a / tabl-int-o

Tiun limigon laŭas nature la uzantoj, kiuj verŝajne ne eblas esprimi iun informon eĉ ne kompreneblan al si mem!  

1.1.5.2.  Kvankam pragmatike la uzofteco por la 112 formoj multe varias unu de alia, tamen oni neniel povas diri, ke kiuj formoj estas neuzeblaj.  La efikeco kaj la komprenebleco de la ĉiuj 112 formoj estas same certaj.  La problemo, kiuj el ili estas prefere elektitaj por esprimado, decidiĝas de variaj faktoroj:  la lingva kutimo kaj origino de la parolanto, la stilo, la situacio, kiaj aŭskultantoj ĉeestas kaj kia efiko estas intencita, la poveco de la uzanto, ktp.  

Tamen, Esperanta Ŝpara Principo bezonas, ke oni plej ofte eble uzu malmultajn simplajn formojn.  Ekzemple: 

"Mi NUN stud-AS (aŭ: Mi ESTAS stud-ANTA)" anstataŭ "Mi stud-ANT-AS".
"Ili JAM ir_IS (aŭ: Ili ESTAS ir-INTAJ)" anstataŭ "Ili ir-INT-AS".
"veredir-E" anstataŭ "veredir-ANT-E" (kp. angle: truly speak-ING).

 Do, oni prefere uzas "la parol-O far_E de Zamenhof" anstataŭ "la parol-ADO far-ITA de Zamenhof", aŭ plue plisimpligus la vortogrupan prepozicion FARE DE en la novan prepozicion FAR: la parolo FAR Zamenhof (kp. "la parolo de Zamenhof", formon pli abstraktan).  

Ĉar en la homa pensado mem iugrade ekzistas necesinda nebuleco, kaj samtempe, ofte helpas ankaŭ la kunteksto kaj funkciaj vortoj inkluzive de la nura fleksia efektive funkcieca vorto EST- (helpe de ĝi, oni bone sinesprimas per analizaj formoj ĝenerale pli klaraj ol la sintezaj kompleksaj formoj, kiel jam montrite en la supraj ekzemploj.  Vd. ankaŭ 3.2.1), Ŝpara Principo de Esperanto ne malfacile laŭiĝas.  

1.1.5.3.  [SUMETO]  Nur 17 fundamentaj finaĵoj povas interaglutiniĝi fine en 112 efikaj finaĵoformojn!  Ĝi estas miraklo por vortofarado dank' al aglutineco.  Kaj, plue, tiel multaj formoj neniel fariĝas ŝarĝo sur homoj ĉu por esprimo aŭ por kompreno.  ĉu tio ne estas la plej bona pruvo por la Esperanta aglutina reguleco?  La esenco de aglutineco estas faket ne plu ol elekta permutado (el la anglo de rezulto) kaj kvazaŭrekursiveco (el la angulo de procezo, Vd. APENDICON 2), aŭ pli abstrakte, ia matematikeco, kiu plej multe eble enkondukiĝis en nian lingvon.  Ĝuste pro tio, Esperanta vortofarado estas tipa ekzemplo de la alta unuiĝo de reguleco kaj fleksebleco, kiuj estas en Esperanto interdependaj flankoj de la sama fenomeno.  

1.2.  Aglutineco pri Afisoj

Afiksoj ĉefe poras esprimi vortonuancojn.  La aglutino ofte limigatas de natura logiko aŭ semantika kunligebleco, kiu estas grandparte komuna al la tuta homaro, tial ne ekzistas, kaj ankaŭ necesas, perfortaj reguloj por la afiksordo, la uzantoj en komunikado nature interkompreniĝas tiurilate.  Funkcias ĉi tie la Esperanta Interproksima Principo, kiu bezonas la interrilatajn 2 elementojn kiel eble plej proksimaj por facila kaj klara komprenado.  Komparu la nuancon inter PLIMALBONIGI kaj MALPLIBONIGI:

bon-a --> mal-bona --> malbon-ig-i --> pli-malbonigi
bon-a --> bon-ig-i --> pli-bonigi --> mal-plibonigi (aŭ: bon-a --> malpli-bon-a --> malplibon-ig-i)

1.2.1.  Estas diferenco je abstrakteco de afiksoj.  La plej abstraktaj kaj ankaŭ plej ofte uzataj afiksoj kiel -et-/ -eg-/-aĉ-/mal-/ne- ĉie uzeblas kun kiu ajn radiko, kies logika speco (principe, ĉiu radiko kutime havas unu logikan specon, ĝuste kiel ĉiu vorto havas unu gramatikaspecon) estas ne antaŭkondiĉita, dum aliaj kiel -ul-/-ing-/el-/kun- multe konkretas.

1.2.2.  La povecon je prefiksa aglutino estas pli-malpli limigita, kompare kun tiu je la sufiksa, kaj fonetike ne kiele permesitas la kunprononco de la silaboj inter prefisoj aŭ inter prefiso kaj radiko (kielekzemple MALAPERI kaj MALANTAŬPORDO: mal-a-pe-ri / ** ma-la-pe-ri;  mal-an-taŭ-por-do / ** ma-lan-taŭ-por-do).  

1.2.3.  Multe pli flekseblas la aglutinado pri sufiksoj:

rid-i 
rid-et-i
ridet-em-a
ridetem-et-a
ridetemet-ul-o
ridetemetul-in-o
ridetemetulin-et-o
ridetemetulinet-aĉ-o
ridetemetulinetaĉ-et-o ...
(= la ete aĉa eta knabino, kiu ete emas rideti)

Ni trovu, ke la samafikso povas aperi plurfojoin en unu vorto nur laŭ la sence celita, tio estas tute malsama de finaĵo.  Teorie, la nombro de sufiksoj dum aglutinado semlimas, kvankam oni prefere uzas analizan formon anstataŭ tro kompleksan plursufiksan aglutinaĵon, limigite de la povo de homaj organoj.  

[PLUVORTOJ]  Estas en Esperanto 2 malaglutinecaj sufiksoj -ĉj-/-nj-, kiuj ŝanĝas la antaŭajn silabojn:  patro / patrino --> pa-ĉj-o / pa-nj-o.

1.3.  Aglutineco pri Radikoj

Radikaglutineco uziĝas por manifesti malsimplan koncepton, kaj la aglutina regulo tre simplas kaj naturas: aksa elemento ĉiam sekvu.  La laŭplaĉeco por kunmetaĵfarado kaj la aglutina regulo tre similas al la vortofarado en la ĉina lingvo (kaj ankaŭ la germana).  Ekzemplojn:

(Esperante : ĉine)

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

2. Fleksebleco De Esperanto

2.1  En Esperanto malklariĝas la limoj ...

2.1.1  Inter transitivo kaj netransitivo

Mi IRAS.
/ IRU vian propran voj-ON.

La tuta homaro PAROLOS nur unu lingv-ON.
/ Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  Inter objektoj rekta kaj nerekta :

informi ION al IU / informi IUN pri IO

2.1.3  Inter objekto kaj adjekto

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  Inter radiko kaj afikso (eĉ finaĵo), sekve inter derivaĵo kaj kunmetaĵo, kiel ekzemple:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. Inter sufikso kaj finaĵo

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Ĉiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  Inter nocia vorto-radiko kaj funkcia vorto, t.e. funkciaj vortoj ankaŭ povas sekvati de finaĵoj eĉ afiksoj ĝuste kiel radikoj, se necese:

JES, mi JES-as vian opinion.
Li TRO ĝojas.  --> Li ĝojas TRO-e.
tie --> tie-aj homoj
nur --> la nur-a studento / nur-ul-o / nur-ul-in-o
per --> per-anto
tre --> tre-ege

2.1.7  Inter vortogrupo kaj grupovorto (kunmetaĵo), speciale prepozitivo kaj ĝiaj respondaj adverbo, adjektivo, verbo kaj eĉ substantivo:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtabl-en

la lingvo por homoj / porhom-a lingvo (porhomalingvo)
(sed ĉu "porhomlingva" = "porhom-lingva" aŭ "por-homlingva"?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-U, subpopol-U, interpopol-U kaj porpopol-U.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   Inter predikato kaj predikata komplemento (predikativo):

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9.  Fine inter la konceptoj de aglutinado, kunmetado kaj derivado (Rf. Sekcion 1); inter la konceptoj de substantivo nombrebla kaj nenombrebla (ekz. konklud-o / konklud-oj), difinita kan nedifinita (sinmotrante je iugrada laŭplaĉo en la uzado de la artikolo LA), ktp. 

2.2.  En Esperanto kreiĝis la ĉiopova prepozicio JE.  Kiam oni esprimas sian penson, oni ofte sentas, ke ekzistas iagrada nubula determina rilato inter konceptoj, sed ne povas diri klare kaj ne bezonas klare montri ilian semantikan rilaton.  Por adapti la lingvon al tia nebuleco de homa pensado, Zamenhof, same kiel li elpensis la sufikson -UM-, genie kreis la prepozicion JE (kiu eble estas la dua plej grava analizaĵo en Esperanto.  La unua estas la vorto EST-, Vd. 3.2.)  Oni povas esprimi tian nebulan rilaton ankaŭ per fleksiaj formoj (sintezaĵoj), kiel akuzativo aŭ adverbo.  

2.3.  En Esperanto estas mirinda unueco en la uzado de kazo kaj vortospeco, kio estas ĝia treege elstara lingvistika trajto.  La vortospeco kaj kazo estas ambaŭ dinamikaj sintaksaj karakteroj, kiuj sinmontras nur dum la konstruado de frazo.  Tial, ili same povas esprimi abstraktajn semantikaj rilatojn, kvankam diferencajn, kaj efektive kompletigas unu la alian.  (Diferencante de la analizforma prepozitivo, kiu en Esperanto estas uzata ĝenerale por esprimi kompare koncretan kaj determinan semantikan rilaton, escepte de la prepozicio JE.  Porplue, vd. 3.2.2.)  Ni komparu jenajn frazojn:

Mi skribas plum-E.  /                                                       (ruse)

Kiel supre jam menciite (vd. 1.1), bazaj finaĵformoj en Esperanto, kvankam nemultaj, estas sufiĉe kompletaj kaj esprimriĉaj.  Ni nun citu kazon kiel pluan ekzemplon.  Esperanto havas nur du kazojn, t.e. nominativon, aŭ alivorte neakuzativon (per nulformo), kaj akuzativon (kun la finaĵo "-N").  Kun la kazoj kaj vortospecoj, kaj analiza formo prepozitivo (se necese), Esperanto estas tiel esprimriĉa kiel aliaj fleksiegaj lingvoj.  La rusa estas unu el la lingvoj kurante plej fleksiriĉaj, kun 6 kazoj.  Estas ne malinspirante kaj ne malinterese kompari la rusan lingvon kun Esperanto tiurilate.  Proksimumedire, la unua kazo de la rusa respondas al nominativo de Esperanto, la dua kazo al adjektivo (kun la finaĵo "-A"), la kvara al akuzativo (kun la finaĵo "-[OJ]N"), kaj la kvina al adverbo (kun la finaĵo "-E").  Nur la tria kazo ne havas sian respondan fleksian formon en la internacia lingvo kaj estas ansataŭata ĝenerale de la prepozicio "AL".  La sesa kazo per si mem ne esprimas difinitan semantikan rilaton kaj funkcias nur kune kun la prepozicioj kiel "O", "HA", "B".  Estas interese, ke en Esperanto prepozicioj povas esti sekvataj kaj de nominativo kaj de akuzativo, montrante nedirekton kaj directon respektive.  Kompare kun la simila uzo en la rusa lingvo, Esperanto estas multe pli simpla kaj perfekta. (Vd. APENDICON 3.)   

2.4.  En Esperanto estas sufiĉe libera vortordo

2.4.1  

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(ĉiuj permutaĵoj de tri elementojn)

2.4.2  

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi ŝatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
(plibone: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3 

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

Ĉi tie ni vidas, ke la malibereco sinmontras nur je la ordo inter artikolo aŭ prepozicio kaj ĝia ĉiam sekvanta rilata subsvantivo, tial, en la ĵuscititaj frazoj estas fakte 3 ordo-varieblaj elementoj: la (...) propono; de mi; proponita, kies permutado nombriĝas je 6.

2.4.4  Esperanto eĉ permesas tian uzadon:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

Certe, en la supraj du ekzemploj, multe helpas la poetika licenco, kiu povas, tamen, tiel libere kaj efike funkcii je vortordo nur kondiĉe, ke ĝi estu en iu treege milda lingvo kiel Esperanto kaj samtempe ke ĝi tute ne kontraŭu al la fundamenta gramatiko de la lingvo.

2.5.  La konjugacia sistemo de Esperanto (kvankam kun, tamen, la difekto supremenciita en 1.1.4.5.) kaj la tabelo de korelativaj vortoj de Esperanto estas mirindaj kreaĵoj.  Per la nura help-verbo EST- (kiu estas la plej grava analizaĵo en Esperanto!  Vd. 3.2.), oni povas bone esprimi analizforme diversajn kompleksajn tensojn kaj voĉojn.  (Sen la help-verbo, dank' al la aglutineco de gramatikaj finaĵoj, oni ankaŭ egale pove ilin esprimas sintezforme.)  La tabelo de korelativaj vortoj estas eksterordinare riĉa kaj konciza por esprimi semantikajn rilatojn.  Ĝi estas tiel perfekta, logika kaj bela, ke ĉiuj esperantistoj spertas ĝian belecon, same kiel kemiistoj la belecon de la Mendeleeva tabelo de kemiaj elementoj.

2.6.  En Esperanto almenaŭ ĉiuj prepozicioj estas samtempe prefiksoj.  Do sekvas nature la granda fleksebleco je esprimado (vd. 2.1.7.). 

 

3.  ANALIZAJ KAJ SINTEZAJ FORMOJ

3.1. Alia elstara lingvistika trajto de Esperanto estas, ke ĝi havas la esencojn de kaj analiza lingvo kaj de sinteza lingvo, sufiĉe riĉante je kaj funkciaj vortoj kaj fleksiaĵoj.  Oni povas sin esprimi semantike aŭ per analiza formo (helpe de funkciaj fortoj) aŭ per sinteza formo (helpe de fleksioj). La du formoj, kompreneble, ne tute identiĝas. Ili sin montras diversastile. Pro tio, Esperanto estas elastega kaj esprimriĉa. Kiel celolingvo, ĝi povas plej bone imiti la lingvajn karakterizaĵojn de originala verko, ĉu la mildan slavan stilon kun libera vortordo, ĉu la stilon de fleksimankaj lingvoj, kiel la ĉina kaj angla. Sube estas kelkaj ekzemploj de ĉiea kaj ĉiutavola kunekzistado de analizaj kan sintezaj formoj en Esperanto:

Analizaj Formoj / Sintezaj Formoj

1. Tenso:

Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

2. Voĉo:

Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS.  Ĝi lim-IĜAS.  Ĝi SIN-limig-AS

3. Senco:

Tio estas MALGRANDA (ETA) sekreto. / Tio estas sekret-ETO.

4. Preposicioj kaj la kazo akuzativo aŭ vortospecoj -E aŭ -A:

Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).

la libroj DE mi / mi-AJ libroj

Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.

LAŬ mia opinio / miaopini-E

ridi JE iu / ridi iu-N

EN (JE) fakto / fakt-E

inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (adverbo sekvata de akuzativo!)

vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

5. Prepozicio kaj vorto:

finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(Por aliaj ekzemploj vd. APENDICON 3 kaj 2.1.7.)

3.2. Plej Gravaj Analizaj Formoj: Vorto EST- kaj Prepozicio

3.2.1. Nura Helpa aŭ Liga Vorto EST-

3.2.1.1. Verŝajnas, ke ne estas nocia senco en la vorto EST-, kiu, el la punkto de sinteza lingvo, tute ne necesas:

Ili ESTOS skrib-ITAJ ĉe la jarfino. --> Ili skribi-ITOS ĉe la jarfino.

Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. --> Ni ĝoj-AS ricev-INTI iliajn leterojn.

Vi ESTAS vere bonkor-AJ (vi en pluralo). --> Vi vere bonkor-AS (nombro nur certita en kunteksto).

Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato. --> Li profesor-IS (profesor-ADIS) en tiu universitato.

Tamen, ankoraŭ estas problemoj:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.

ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.

3.2.1.2. Kun la vorto EST-, kvankam nur unu, Esperanto treege riĉiĝas je esprimado per analiza rimedo! Alie, la lingvo havus tute alian aspekton, kiu tro konpaktus kaj malmildus, kaj kiu plejeble malakceptitus de homoj el la analizalingva tipo.

3.2.2. Prepozicio

3.2.2.1. Estas kutime akceptite en la lingvistika rondo, ke prepozitivo (aŭ prepozicia sintagmo = prepozicio + substantiva komplemento) estas esence ankaŭ ia kazo, kun la nura malsamo, ke prepozicio ĝenerale pli knokretas ol kazo. Fakte, prepozicioj mem enhavas variajn gradojn de konkreteco inter si, kiel ekzemple, komparu:

instituto JE lingvistiko --> instituto DE lingvistiko --> instituto PRI lingvistiko (plikonkretiĝas unu ol alia)

Estas kelkaj sufiĉe abstraktaj prepozicioj, kiuj efektive funkcias ĝuste kiel kazoj en iuj aliaj lingvoj, kiel JE/DE/AL/PRI/PER (vd. APENDICON 3). (Notu, ke la semantikoj de kazoj ankaŭ varias je abstrakteco.)

3.2.2.2. Kiel jam iom menciite en 2.3., adverbo (kun finaĵo -E) estas ankaŭ iu semantike abstrakta kazo. Sed, adverbo en Esperanto anaŭ povas indiki tiel konkretajn rilatojn kiel ajna prepozicio! Nur kondiĉas, ke la vortocorpo deriviĝas de radiko kaj prepozicioprefikso. Kp:

LAŬ (la) regulo(j) --> LAŬ-regul-E (kp. la pli abstraktan vorton: regul-E)

Estas multaj tiaj ekzemploj (vd. 2.1.7.). Fakte, oni povas libere intertransformi prepozitivon kaj ĝian respondan adverbon (kun la ofteapera artikolo LA ellasita).

3.2.2.3. Ĉar almenaŭ ĉiuj prepozicioj samtempe ankaŭ povas funkcii kiel prefiksoj (la ĉefa parto en la Esperanta prefiksaro!), la tiel nomata "grava ANALIZA formo" prepozicio vere estas egale unu el la plej gravaj SINTEZAJ formoj!

3.3. [SUMEO] En Esperanto ĉie kaj ĉiutavole videblas la kunekzitado de analiza kaj sinteza formoj, per kiu Esperanto sin diferencas de naciaj lingvoj. Kvankam ne ekzistas pura sinteza lingvo sen ajna analiza formo, nek pura analiza lingvo sen ajna sinteza formo, tamen ĉia nacia lingvo havas nur unu formon kiel la ĉefan: aŭ la analizan aŭ la sintezan, kaj almenaŭ ĉiu estas tia, ke la du formoj ne ekzistas samokaze.

4. TRAVIDEVLECO DE ESPERANTO

4.0.  Estas naturo de Esperanto, ke sufiĉe travideblas Esperantaj formoj (ĉu analizaj aŭ sintezaj, tamen, la analizaj formoj ŝajne ĝuas pli da travidebleco ol la sintezaj), kio estas certe unu el la plej elstaraj avantaĝoj kaj la ĉefa kialo por la facileco en la lernado de Esperanto, ĉar ono povas uzi malmultajn formojn (elementojn) por esprimi senlimajn informojn, aŭ analizi la akceptitajn formojn en elementojn por komprenado.

4.1. Ĉu Esperanto estas perfekte travidebla?

Ne. Kaj neniam povos. Kaj ankaŭ neniam necesos - almenaŭ por homa lingvo.

La antaŭkondiĉo por tutetravidebleco estas, ke ĉiu koncepto povus esti analizata en nombreblajn semantikajn atomojn aŭ semantikemojn (ĉu tio ja eblas? Referencu la progreson en la rondo de artefarita intelekto), kaj plue, ke la semantikemoj, kiam ili interkunligas, devus esti kompleksece homtolereblaj - tio certe ne povas ĉiam kontentiĝi, speciale por scienca fakotermino, kiu estas kutime tiel enhavo-riĉa kaj signifo-ekzakta, ke ĝia difino bone fariĝus iu plena disertacio. Tial, tia koncepto nur povas fiksiĝi en homan cerbon per iu fonetika formo, kies surfaca respondaĵo estas ne alia ol maltravidebla vorto! Aliflanke, plejmulte da scienca terminaro ĝuas internaciecon, do ŝajnas ne saĝe ĝin Esperantecigi eĉ eble, ekz., nombroscienco / matematiko, sed ĉu matematiko estas simple nombroscienco? (Vd. 4.4.)

4.2. Ĝuste kiel la kunekzistado de analizaj formoj kaj sintezaj, en Esperanto multokaze (sed alitavole, kompreneble), ankaŭ troviĝas la kunekzistado de la travideblaj kaj ne travideblaj formoj.

Pekino: Beijing
;ingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

Oni eĉ toleras tiajn tiel-nomatajn "ne-Esperantajn" vortojn kile "komputoro" kaj "komputero" en Esperanton!

4.3. Iuj plefote uzataj ĉiutagaj vortoj jam sinstabliĝas kiel travideblaj formoj, kio manifestas la fortan emon de Esperanto por Esperantecigi aliajn!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

Tamen, bonstila Esperanto neniam ekstremigasiun ajn rimedon, eĉ plej efikan kaj facilan:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4. Dilemo de Esperanto

4.4.1. Esperanto kiel internacia lingvo, celas la facilan komunikadon por la tuta homaro. Tamen, en la lingvopraktikado aperas la kontraŭo inter travidebleco (la lingva naturo de Esperanto) kaj internacieco (laa celo de Esperanto), kiu plej evidente sinmontras je la konstruado de terminoj. Rezulte, la vortaro de Esperanto estas multe pli vasta ol on atendis.

4.4.2. Esperanto kiel efika ilo por komunikado devas esiti, kaj efektive ja estas, sufiĉe kompakta, do venas la kontraŭo inter travidebleco kaj kompakteco. Fakte ju pli travideblas, des pli malkompaktas.

4.4.3. Kaj fine ankaŭ estas la kontraŭo inter travidebleco (sekve lernofacileco kun malmulte da elspezo de memoro kaj energio) kaj inkluziveco. Esperanto kiel scienca kaj portuthomara lngvo inkluzivus morfologie kaj sintakse ĉiujn efikajn lingvajn rimedojn, kio bezonas la kunekzistadon de variaj formoj, inkluzive de la maltravideblaj.

5. SUMO

5.1. La supre diritaj montras, ke ĝueste male al tio, kion oni subjektive dedukts, Esperanto estas treege fleksebla lingvo kun variaj esprimmanieroj, kiuj povas sin reciproke kompletiĝi kaj intertransformi, kaj la granda fleksebleco de la lingvo ĝuste konformas al la nebuleco de la homa pensado. Ĝi donas al homoj grandan liberecon je esprimado kaj la plej bonajn kondiĉojn por plene montri ilian lingvan kompetentecon. Aliflanke, ĝi ankaŭ enhavas tiel grandan tolerecon, ke eĉ komencantoj aŭ lingvo-nesaĝuloj povas facile kaj simple sinesprimi kompreneblige. Ĉi tio estas kampo konvena por ĉiuj, ĉu genioj ĉu malsaĝuloj. Tamen tia fleksebleco ne influas la rigoran neŝanĝeblecon de la fundamenta gramatiko de Esperanto. Ĉi tie la libereco kaj rigoreco ekzistas harmonie. En Esperanto, ĉiuj estas kreantoj kaj ĉiuj povas ĝui la plezuron de tia kreado. Oni ne plu estas sklavoj de lingvaj kutimoj. La granda harmonio de la fleksebleco kaj reguleco de Esperanto estas vere mirakla kreaĵo lingvistika.

5.2. Ecaro de Esperanto - Ŝlosilovortoj:

porhomeco / natureco / scienceco / reguleco / inkluziveco / toler(ebl)eco (elasteco) / aglutineco / matematikeco (kvazaŭrekursiveco) / logikeco / travidebleco (analizebleco) / fleksebleco

5.2.1. Proksimume ni havus: Fleeksebleco <-- aglutineco (sekve travidebleco) kaj inkluziveco de variaj formoj (ĉu analiza ĉu sinteza; ĉu travidebla ĉu netravidebla); Reguleco kan scienceco <-- matematikeco kaj logikeco.

5.2.2. El la punkto de toler(ebl)eco kaj la praktika informokomunikado, almenaŭ ĉiuj supraj ekzemploj kun ?? je la antaŭo estas tolereblaj, minimume kompreneblaj. Kompare kun naciaj lingvoj, tia tolereco estas multe pli elstara.

5.3. [KONKLUDO] La eksterordinara sukceso de Esperanto grandega miraklo en la historio de homaj lingvoj. Ĝi estas la venko de homa racio, la venko de lingvistiko! Estas nepovtroe laŭdite kaj fiere hurainde, ke en la inta lingva kampo, kie "ekutimo estas Dio", fositas sulko por INTERNACIA LINGVO kiel contrasto al nacia lingvaro!

APENDICO 1

Ni citu kiel ekzemplon la radikon STUD- en formo de verboj kaj adjec=ktivoj, kan komparu ĝin kun la angla vorty STUDY.

Gramatikformoj por Radiko STUD- [angle: STUDY]

1. 42 verboj:

stud-I [to study]
stud-U [(let...) study]
stud-US [would (should) study / stud-IED / would have stud-IED / ...]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let...) be study-ING]
stud-ANT-US [would be study-ING / ...]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let...) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let...P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let...) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let...) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / ...]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let...) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

(2)  28 adjektivoj

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

APENDICO 2

Algoritmo por Fortranĉi Finaĵojn de Esperanto

(1) Se la finaĵ estas -O, do konkludu "Substantivon / Nominativon / Singularon", iru al (2); alie, iru al (11).

(2) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se sukcesas en konsulto al la vortaro, konkludu "Nulmodon/Aktivon", finiĝu la prilaborado; alie, iru al (3).

(3) Se la finaĵo estas -ANT, do konkludu "Participon / Aktivon / Kontinuon", iru al (9); alie, iru al (4).

(4) Se la finaĵo estas -INT, do konkludu "Participon / Aktivon / Perfekton", iru al (9); alie, iru al (5).

(5) Se la finaĵo estas -ONT, do konkludu "Participon / Aktivon / Malperfekton", iru al (9); alie, iru al (6).

(6) Se la finaĵo estas -AT, do konkludu "Participon / Pasivon / Kontinuon", iru al (9); alie, iru al (7).

(7) Se la finaĵo estas -IT, do konkludu "Participon / Pasivon / Perfekton", iru al (9); alie, iru al (8).

(8) Se la finaĵo estas -OT, do konkludu "Participon / Pasivon / Malperfekton", iru al (9); alie, iru al (10).

(9) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se suksecas en konsulto al la vortaro, finiĝu la prilaborado; alie iru al (10)

(10) konkludu "Novavorton", finiĝu la prilaborado.

(11) Se la finaĵo estas -A, do konkludu "Adjektivon / Nominativon / Singularon", iru al (2); alie, iru al (12).

(12) Se la finaĵo estas -E, do konkludu "Adverbon / Nominativon", iru al (2); alie, iru al (13).

(13) Se la finaĵo estas -OJ, do konkludu "Substantivon / Nominativon / Pluralon", iru al (2); alie, iru al (14).

(14) Se la finaĵo estas -AJ, do konkludu "Adjektivon / Nominativon / Pluralon", iru al (2); alie, iru al (15).

(15) Se la finaĵo estas -ON, do konkludu "Substantivon / Akuzativon / Singularon", iru al (2); alie, iru al (16).

(16) Se la finaĵo estas -AN, do konkludu "Adjektivon / Akuzativon / Singularon", iru al (2); alie, iru al (17).

(17) Se la finaĵo estas -EN, do konkludu "Adverbon / Akuzativon", iru al (2); alie, iru al (18).

(18) Se la finaĵo estas -OJN, do konkludu "Substantivon / Akuzativon / Pluralon", iru al (2); alie, iru al (19).

(19) Se la finaĵo estas -AJN, do konkludu "Adjektivon / Akuzativon / Pluralon", iru al (2); alie, iru al (20).

(20) Se la finaĵo estas -AS, do konkludu "Verbon / Predikaton / Prezencon", iru al (2); alie, iru al (21).

(21) Se la finaĵo estas -IS, do konkludu "Verbon / Predikaton / Preteriton", iru al (2); alie, iru al (22).

(22) Se la finaĵo estas -OS, do konkludu "Verbon / Predikaton / Futuron", iru al (2); alie, iru al (23).

(23) Se la finaĵo estas -US, do konkludu "Verbon / Predikaton / Kondicionalon", iru al (2); alie, iru al (24).

(24) Se la finaĵo estas -U, do konkludu "Verbon / Predikaton / Volitivon", iru al (2); alie, iru al (25).

(25) Se la finaĵo estas -I, do konkludu "Verbon / Infinitivon", iru al (2); alie, iru al (26).

(26) La vorto ne havas finaĵon. Konsultu la vortaron pri funkciaj vortoj. Se sukcesas, konkludu "Funkcivorton"; alie, konkludu "Novavorton / Substantivon / Propranomon". Finiĝu la prilaborado.

[KLARIGO] La supra algoritmo jam proviĝas tre efika ĉe maŝino.


APENDICO 3

La Kontrasta Tabelo por Kaza Sistemo






 

 

 

 

【相关】

灵感有如神授,巧夺岂止天工

世界语论文钩沉:世界语的语言学特点(3/3)

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

《学外语的紧箍咒,兼谈世界语的前途》

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《朝华午拾:我的世界语国》

【立委按】最近发现,很多以前在国内科学网公开发布的博客,都被屏蔽了,不仅仅是涉及政治、历史(文革、大跃进)的。科学网自我审查越来越严格,应该是国内的大形势使然,科学网编辑不得不如此吧。好吧,那就把屏蔽掉的一些当年花了心力的部分博客慢慢搬运过来吧。《朝华午拾:我的世界语国》就是其中之一。

 

我的世界语国(Mia Esperantio)

作者:立委

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。

的确,世界语对我,有着宗教般的吸引力。当年初入北京世界语圈子,感受到的新鲜和温暖,使我一个外地人兴奋莫名,遂以全部热情投入。二十多年了,我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会,是我的世界语之旅的第一次远行。我们北京一伙人,一路谈笑,亲如一家。同行有邱大姐(歌唱演员,文革时唱过家喻户晓的“我为革命下厨房”)和老大哥王彦京(一个很英俊的小伙子,是“老”世界语者了,常跟我们吹嘘他是黄埔一期,当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历)。途中遇到一位山西姑娘,独自远行开会,起先不爱理人的样子。后来熟了,才知道她天性活泼开朗,完全不象北京女孩那样一本正经,是那种性情温和、相处让人舒服的人。都是年轻人,自然比较聊的来,一直相处得很自然愉快。接触一多,不时招来老大哥的善意讥讽:你那位 Shanxi-anino 呢?我当时已经悄悄地有北京女友了,岂敢有“不良”居心。后来,她嫁给了我的北京世界语哥们,算是昆明大会做的媒吧。一方面为朋友高兴,心里面还真有点嫉妒:这小子天上掉下来的福气。

给黄华副委员长做翻译

71届世界语大会前夕,中国科学院世协举办了一个国际世界语科技研讨会,有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译,可临场前一刻钟,沙教授忽然跟我说:“你年轻,脑子快,还是你上场吧”。天哪,我才刚学世界语不到一年,虽然仗着语言学出身和词典的帮助,阅读写作并无障碍,可是并没有多少机会练习口语翻译啊。沙教授看我犹豫,鼓励说:“你肯定行”。也是初生牛犊,糊涂胆大,这一激就呼啦上场了。往黄华身边一站,差点傻眼了,只见无数闪光灯袭来,眼前明晃晃一片白光。毕竟是外交部长出身,黄副委员长出口成章,抑扬顿挫,表情丰富。每说一段,就停下来等我翻译。我强作镇定,努力想复述,也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院,我一时不敢确定圣马力诺在世界语怎么说,黄先生看我卡在那里,提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段,我都应付了几句,但自己都翻译了些啥,根本没数。下场后,心里懊悔极了。我后来想,世协的主办人肯定更加懊悔,没想到半路杀出来个愣头青,早知沙教授临场换人,他们一定会安排其他世界语高手出场,北京世界语界可是高手如林。黄华啊,岂是等闲人物,绝不该有半点差错。不过,这次赶鸭子上架对我个人的命运却非同小可,它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译,才同意跟我见面,最终结成良缘的。当然,这是后话了(见《朝华午拾:爱情自白》)。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮,成为全国世界语者的狂欢节日。我作为世界语“新秀”,有幸参加了从大会预备到终场的全过程(后来了解到,由于当时的政治现状,很多外地资深世界语者没有得到参加盛会的代表资格,严重打击了同志们的热情)。

立委在大会门前与老世界语者语言学家周流溪老师留影

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕,意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者,很神秘地告诉我,他们的世界语代表团安插有政工,专事监督他们,必须倍加小心。在亚洲,两伊战争正酣,国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者(忘了姓名了,很是个人物),她很活跃,聪明过人,反应极快,积极牵头组织世界青年世界语者的活动,曾表示希望我作为中国青年世界语者召集人,跟她配合。我问她,你要是遇到敌国伊拉克的世界语者,怎么办啊?她毫不犹豫地说,我会上前招呼握手,跟他/她交朋友,我们世界语运动的宗旨,不就是加深理解,消除仇恨,实行世界和平么。她也告诉我,在她国内必须小心,随时可能被送进监狱。象她这样抛头露面的比较西化的人,恐怕早已上了黑名单,是政府盯梢的重点。“不过,我不怕,我有对策”,她很有信心地说。大会以后,我跟这位优秀的世界语者还保持通讯了一些时日。

漂亮的伊朗世界语者

说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。

人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj”(We are Esperantists by birth)。

当时我们北京世界语者有一个据点,就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸,好像也是黄埔一期的。她姐妹俩典型北方人性格,为人热情爽朗,会张罗,结交广,富有幽默感。到她家,就跟到自己家一样感觉亲切自在。世界语文艺片播放那天,我们一拨人于是相约到她家看。遇到国外世界语朋友来访,我们也常常带到王艾家聚会。

大会期间,还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京,于是我兄弟俩和王艾一起陪同日本朋友逛圆明园,然后召集一批世界语朋友在王艾家晚餐聚会,热闹非凡。

拉宾小姐演出之余

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作,画面干净利索,色彩鲜艳,人物神态,栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是,我在这次大会上,结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士,并与他保持了多年的交往(特别是他在BSO从事机器翻译研究期间,后来我去英国留学,他不但给我写了推荐信,还解答了我选择学校的困惑:他告诉我,论名声和学术,应该去剑桥大学;要是想继续从事机器翻译研究,应该去曼彻斯特的UMIST计算语言学中心;如果想学人工智能,爱丁堡大学最佳)。他是剑桥大学的语言学博士(后来跟我一样成为计算语言学家,从事机器翻译的研究,他首创了利用自动句法分析过的双语语料库施行机器翻译的算法,比后来盛行的同类研究早了5-10年),长期以来是国际世界语协会的头面人物之一,当时是国际世界语协会的财务总监。他平易近人,有长者风范,约我到他饭店面谈,对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲,我委屈地说,提交了,但是没有被采纳。他微笑,有点可惜的样子,没有做进一步的解释。后来我得知,国际世界语大会的科技演讲,不仅仅要所选课题对路,水平好(这两点,我已基本做到),还要看研究者的资历,起码是博士,最好是国际知名教授(记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生,不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理,属于我的计算语言学专业)。我一个第三世界的硕士生刚毕业,根本谈不上。

2006年四月十六日
于美国M城

《朝华午拾》总目录(置顶)

 

原载科学网(链接无效,现已屏蔽):http://blog.sciencenet.cn/blog-362400-278883.html 

 

liwei12月 17th, 2008 at 12:47 pm   edit

后记:无心插柳:我撰写的《我的世界语国》系列 (14265)
Posted by: liwei999
Date: June 22, 2006 01:52AM

使我居然进入了中国世界语名人榜。

好,再接再厉,再努把力,把八节的最后一篇写出来,我走过的路,跟世界语有关的,前后线索基本清楚了。其余的细节,以后只是补充花絮而已了。

中国世界语运动史料库

Arkivujo de la ?ina EM
世 运 人 物 志

立委《我的世界语国》入世运人物志

——————————————————————–

前两周写《我的世界语国》,送到国内世界语网站,炸了窝一样,一下子和好多当年的世界语老朋友联系上了。其中还有当年擦肩而过的山西女孩(Shanxi-anino)从德国发来感慨。这个世界说大也大,说小也小。

EsPeRo12月 17th, 2008 at 3:01 pm   edit

Saluton kaj dankon, liwei. Mi devas diri, ke mi lernas multon de via blogo. Mi chiam pensas, ke vi estas tre talenta kaj sukcesa homo. Mi antau longa tempo vidis la foton de vi kun Huang Hua. Kaj ege interesite legis vian rakonton pri via Esperantaj tagoj en Kanado kaj Usono. Unuvorte, mi shatas legi viajn artikolojn. Vi certe daure havos legantojn. Plie skribu pri kaj por Esperanto! Dankon pro tiuj belaj rakontoj de la viaj denove!
via nova,
Espero DING
el la urbo Zhongshan.

liwei12月 18th, 2008 at 1:13 am   edit

Kara Espero: Mi dankas vin pro viaj vortoj.

faif12月 18th, 2008 at 2:10 am   edit

看来这个网站要安装世界语翻译插件了,呵呵

liwei12月 18th, 2008 at 2:46 am   edit

转自《中国世界语论坛》:http://www.reto.cn/forumo/cina/

[ 武汉大一女生 ] - 2006.04.17, Posttagmeze 5:24

tre juna kaj interesa,CU vi ankorau havas? 请你上传吧!ni kune vidos,
gis la.
2006+4+17 en universitato 湖北

[ kunlernantino ] - 2006.04.18, Anta?tagmeze 09:35

★ Re: 立委,快点写,我等不及了!!! Lest av [ 57 ]
18年了,没听到你的消息了。

★ 立委的文章好 Lest av [ 78 ]
他的文章我是每篇必读,每篇必细读。好,爽!高材生!!

Name [ 武汉女生 ] - 2006.04.18, A.M. 08:53

★ 立委:能否介绍一下71届大会后,你的工作生活经历? Read [ 65 ]
1986年硕士毕业以后。

5007 绿网:各路英雄尽来朝贺,草根英雄总舵主! 又来一英雄 04/18
5004 立委:能否介绍一下71届大会后,你的工作生活经历? 武汉女生
5003 正在写。请等待。 liwei999 04/18 45
5002 立委,我想死你了!!! Danshen 04/18 48
5001 Re: 立委,快点写,我等不及了!!! kunlernantino
5000 Solis:1982年开始学习世界语,71届UK你参加了吗? 你认识立委吗 04/18 49
4999 Re: Solis:1982年开始学习世界语,71届UK你参加了吗?告立委: 无缘无聚 04/18 34
4998 没有 Solis 04/18 28
4997 18年了? 您是哪位? liwei999 04/18 44
4996 山西的女孩,请介绍以下RAVA的情况!dankon! 大同E者
4991 立委:我是你当年的女友,现在中央电视台当主持人! 寻梦人
4990 立委:我是昆明大会上的山西女孩,现在德国! 其实不漂亮
4983 一个美丽的话题-世界语与我的爱情 东北妹 04/18 84
4981 朝华午拾: 我的世界语国(四)- 北京71届世界语大会(格式整理… liwei999 04/17 100
4980 立委,我们崇拜你 崇拜者 04/17 43
4979 很长久的时间没有读到过象liwei1999这样精彩 高质量 洋洋洒洒… 逐篇浏览过-恩 04/18 40

[ 寻梦人 ] - 2006.04.18, Anta?tagmeze 08:07

★ 立委:我是你当年的女友,现在中央电视台当主持人! Lest av [ 95 ]
请自己寻找频道?

[ 其实不漂亮 ] - 2006.04.18, Anta?tagmeze 08:09

★ 立委:我是昆明大会上的山西女孩,现在德国! Lest av [ 82 ]
您的文章唤醒了我往事回忆。

[ 崇拜者 ] - 2006.04.17, Posttagmeze 10:40

★ 立委,我们崇拜你 Lest av [ 60 ]
请你留在我们当中,给我们的世界语国度争光添彩。。

[ 逐篇浏览过-恩 ] - 2006.04.18, Anta?tagmeze 00:43

★ 很长久的时间没有读到过象liwei1999这样精彩 高质量 洋洋洒洒的文章了 Lest av [ 61 ]
啧~...

[ 曾经的靓女 ] - 2006.04.17, Posttagmeze 2:50

★ 风流倜傥一少年:世界语与婚姻家庭

4972 Foto de LIWEI En infano 武汉大一女生 04/17 78

★ 标题 作者 日期 浏览
4938 世界语大腕有出山了。 好啊 04/17 130
4937 Re: 世界语大腕有出山了。 鼓与呼 04/17 78
4934 Mia Esperantio 我的世界语国(二) liwei999
4933 Re: Mia Esperantio 我的世界语国(二) 一靓女 04/17 80
4932 Re: Re: Mia Esperantio 我的世界语国(二) liwei999
4931 世界语照片及其他链接 liwei999 04/17 68
4930 Re: Mia Esperantio 我的世界语国(二) 同志 04/17
4929 同志哥/姐啊,受宠若惊呢。有空到我家看看: liwei999.com
4923 立委:24年前我们是同班同学。今天北京会员春游去了。 太朴寺同学
4960 立委爱情自白:一个纯洁少年跃然网上! 好小子! 04/17
4959 tio embarasos la iaman knabinon… ve 04/17 43
4958 会让当年的靓女也会有美丽的回忆。 童子军 04/17
4957 如有难堪之事,真抱歉。 liwei999 04/17 46

[ 童子军 ] - 2006.04.17, Posttagmeze 11:04

★ 会让当年的靓女也会有美丽的回忆。 Legis [ 38 ]
婚姻成不成时尚地安排的。世界语毕竟给大家带来那么多美好的回忆。。。难忘啊!!!

[ liwei999 ] - 2006.04.17, Posttagmeze 11:58

★ 如有难堪之事,真抱歉。 Legis [ 48 ]
事情已经20多年了。留下的只是美好和人生的回味。

我们的恋爱纯洁如玉,所谓约会连拉拉手都脸红。

不过是恋爱没有谈成罢了。她也是随缘而已,总不能勉强自己的感情。

很多事,必须相信缘分,相信上帝。

有缘的,没缘的,擦肩而过的,大家都是世界语国的兄弟姐妹。

一直在默默地祝福她。

[ samideano ] - 2006.04.18, Anta?tagmeze 07:08

★ Re: 如有难堪之事,真抱歉。 Legis [ 35 ]
我完全赞成立委的说法.那段日子确实难忘.婚姻成不成完全是上帝的安排,并不等于相互之间没有爱过.

作者 [ 好啊 ] - 2006年04月17日 上午 07时17分

★ 世界语大腕有出山了。 浏览次数 [ 134 ]
liwei 就是另一代表。

作者 [ 鼓与呼 ] - 2006年04月17日 上午 08时59分

★ Re: 世界语大腕有出山了。 浏览次数 [ 81 ]
钱宏诚、林力源、立委······

作者 [ 一靓女 ] - 2006年04月17日 上午 07时13分

★ Re: Mia Esperantio 我的世界语国(二) 浏览次数 [ 86 ]
我对你的文章和生活很感兴趣,很高兴你仍在世界语国度,这是同时们的财富。小小遗憾:能否提供近照?另网站因未注册大不开。 希望你永远留在我们的队伍中。

作者 [ 同志 ] - 2006年04月17日 上午 07时15分

★ Re: Mia Esperantio 我的世界语国(二) 浏览次数 [ 72 ]
吻你!!!!!!!!!!!!

★ 立委:24年前我们是同班同学。今天北京会员春游去了。 浏览次数 [ 90 ]
我们是1982年世界语中级班同学(西单太朴寺中学)。

1983年世界语阅读班同学(西单新文化街158中学)。

立委,一个熟悉和又陌生的名字。

★ Re: 立委:24年前我们是同班同学。今天北京会员春游去了。

您是哪位?给我来个 email 吧。

那是一段美好的时光。

羡慕你们春游。不象我,流浪天涯,没有心思外出。

《文本大数据的信息抽取与情报挖掘》

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级的大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂里面的人物大多是科学殿堂让人高山仰止的大科学家,而在下不过是一介匠人)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会也征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也早邀请立委在其创新频道做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

“大数据与认识论”研讨会的书面发言

01  大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社交媒体、云计算、移动互联网和大数据情报挖掘。针对社交媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社交媒体的持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社交媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社交媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

回顾一下历史。2011年初,美国做市场情报的巨头之一 Salesforce 以三亿多美元 (326 million) 的价钱并购了社交媒体客户情报检测系统 Radian6,说明社交媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社交媒体追踪的公司 RightNow 的并购更是高达15亿(1.5 billion)。HP在逐渐放弃低利润的 PC 和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司 Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头 SAP以 34 亿收购了云计算公司 SuccessFactors(3.4 billion),并决定与专事社交媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社交媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头都曾不约而同看好社交媒体的情报价值。

当时在这个领域的投资和竞争非常激烈。不少华尔街主流投资公司加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利:Apple、Google、Cisco、Oracle。

这股社交媒体和大数据挖掘热潮以后,各种初创公司如雨后春笋。记得当年在 Netbase 主持社交媒体客户情报挖掘产品的那些年,在我们的竞争对手的注视名单上一开始有四五十家。十多年下来,大浪淘沙,后来只剩下五六家公司真正在市场站住了,包括 Netbase 的老对手 BrandWatch。

对于中文社交媒体大规模处理的应用型软件,有不少企业做了不同程度的应用落地尝试,但比起西方语言的企业市场应用,还有很大的距离,to B 的市场成熟度也不够。中文网络信息的增长速度一直扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,有潜在的巨大价值。

然而,迄今未见规模化落地应用,分析起来应该有好几个因素:(1)社交媒体大数据涉及隐私,不宜放任挖掘。事实上,微信数据是不对挖掘开放的。只有微博和一些论坛作为公开平台,其数据挖掘较少涉及隐私。(2)大数据挖掘应用的门槛很高,不仅仅是语言处理的能力需要有让人信服的数据质量(特别是精度),而且工程投入,包括存储、更新、检索都需要巨大的投入和积累;(3)就算大数据挖掘一切到位,挖掘出来的情报或知识图谱,到底如何应用还有很大的探索空间,目前还缺乏现场切入角度合适的规模化杀手级应用。尽管如此,从趋势上看,来自于文本大数据的源源不断的情报挖掘,终将成为信息社会不可或缺的软实力。

有人问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

26年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体如新浪微博、腾讯微信等,下一个里程碑是什么?

Big data intelligence (大数据情报挖掘)

很多人这样预测,Google 首席科学家也列此为未来高新技术的大势所趋。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

02  什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社交媒体火热以后的专指,是已经与时事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社交媒体及其用户社交网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社交媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社交媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

除了与社交媒体以及时事背景密切相关以外,大数据的当红也得力于技术手段的成熟。大数据的存储架构以及云计算的海量处理能力,为大数据时代的提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫之所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

03  大数据挖掘技术及其挑战

社交媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社交媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析;2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社交媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth)则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到像目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。

从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。现在的问题是在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling/filtering)与整合(fusion)环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。

由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了,可以让噪音沉底。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

 

(5)自动民调: 社媒大数据挖掘的重要应用

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的监测,等等。
 
自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言处理(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。
 

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 10 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价。样本数可以高出手工调查回收数量的几个量级,是传统民调无法企及的。至于花费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求计件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调特朗普的总统竞选效益,离不开对比其对手希拉利。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示,关于美国零售商的市场调查)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

以总统大选为例。上次特朗普对决希拉里,我还在 Netbase 主持大数据产品的研发,手中有海量的推特数据以及我们研发的大数据挖掘的核武器,有独特的优势,可以见人所不能见。虽然说推特是公开的社会媒体,人人可读,但没有语言抽取和挖掘,任何人或团体都难以看清全局走势。从大选前两周我就开始利用自家的产品追踪动态选情,及时在我的NLP博客发布。当年的选战瞬息万变,但大数据是不会骗人的,里面的跌宕起伏每日呈现在我的追踪系列里。当时主流媒体和民调一致认为希拉里要赢,特朗普自己也没料到自己会赢,连胜选演说都没预备好。希拉里这边更是有些得意忘形了,在选前的生日那天,希拉里发推特给自己庆生,标题是:祝未来的总统生日快乐!就在这一片看好希拉里的预测中,我在大选日前两天发出长篇警告:【社煤挖掘:大数据告诉我们,希拉里选情告急】,里面详细展示了一系列大数据挖掘结果,预测了特朗普的胜选。这可不是事后诸葛亮,都是有案可查的记录(有兴趣的读者可以回看一下我当年报道的大选系列:https://liweinlp.com/?p=1667)。

《告急》展示了大选前一周的对比图:

brand-passion-index-15
这是过去24小时的图:

brand-passion-index-17
这是一个月的涨跌对比:

timeline-comparison-25

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,不久前还是喜妈领先或胶着,如今川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

为什么会得出与主流民调相左的趋势预测呢?道理很简单,主流的手工民调落后于时代,数据采集点太稀疏,误差大,也没法及时反映变化的选情。这次大选后,不少朋友告诉我,从来没有如此真切地感受到大数据和语言技术的威力。

其实在前一轮的奥巴马总统竞选的时候,我们的工具就已经相当成熟,每次总统辩论,我们的舆情监测系统就在线实时展示辩论现场的舆情曲线变化,可即刻宣告辩论双方的得失和结果。奥巴马赢了第二次总统候选人辩论吗?舆情自动民调表明,奥巴马显然赢了这场辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。仔细分析可以看出,对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm时);二是批判他对中国不够强硬 (7:30pm时)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。
 

 

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

先说它的不宜和禁忌。

1 这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2  这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3  大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的吹鼓手。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

 

灵感有如神授,巧夺岂止天工

立委世界语论文:Lingvistikaj trajtoj de la lingvo internacia Esperanto(世运资料存档)

立委按:

这篇世界语论文是我一辈子的骄傲,当年文思泉涌一发不可收的情景仍然历历在目。作为一位世界语与语言学的新手,对这门语言的语言学特点的感悟和表达,能够受到誉满世界的语言学老前辈和世界语老编辑 Juan Regulo 的青睐和指点,既是我的幸运,也肯定了我的才能。20年后重读这篇洋洋洒洒一气呵成的论文,我仍能感受那文字的自由挥洒。原文影印如下,等有闲再电脑输入,既作为世界语运动的资料,同时也纪念早已逝去的风华岁月。

唉,人岁数大了,做好汉就难,总爱吹嘘当年之勇。找到一个吹嘘的题材,就可劲地自我陶醉吧。”灵感有如神授,巧夺岂止天工”,把大话说到天上去了,反正这篇冗长的世界语论文各位也看不懂,我爱怎么吹怎么吹。我的世界语朋友一般都很顾面子,我不担心穿帮,:=)。

不过,说实在的,那确是我一辈子创造力最旺盛精力最充沛的时期。伯乐识天马,天马欲行空,下笔似有神,灵感如泉涌。连续好几个周末,我都去社科院大楼加班到夜深,在电脑上奋笔疾书。论文总结了世界语有别于自然语言的极度灵活性的语言学根据,我就在成文的叙述中把这些特点发挥到极致。细心的读者也许可由此体会到青年立委的匠心和才情。

我在《朝华午拾: 一夜成为万元户》中记述过当时的情景:

研发世界语系统的第二个结果是,我发表在El Popola Chinio(中国报道)上的世界语语言学特点的粗浅论文引起了一个著名的西班牙教授 Juan Regulo 的注意。这位老先生是世界语界老前辈,在他的大学和城市威望极高,以他名字命名街道、广场等。正值他退休,学校决定给他出四大卷印制精美的专辑,表彰他的贡献。其中一卷是关于世界语学(Esperantologio)的论文专集,于是老先生邀请我在《中国报道》的论文(参见硕士论文的有关章节)基础上,扩展加工,单成一章。我文思泉涌,洋洋洒洒写了17页,有老先生来来回回多次校改修正,发表了我平生第一次的Book Chapter ” Lingvistikaj trajtoj de la lingvo internacia Esperanto”(发表时老先生已经过世,他的去世在国际世界语界引起很多纪念,老先生千古!)。

生造词
Posted by: 立委
Date: July 10, 2008 12:10PM

有很多生造词最终没有被语言共同体所接受,但是并不影响这些生造词在交流中的作用。生造词现象在自然语言中出现得少很多,而且一旦出现就常常受到老师或者同人的纠正。但是,世界语的灵活性使得人人都在生造,因此生造词对交际的正面功能加强了。这是个很有意思的现象。

在我发表在西班牙的世界语论文中,我不仅详细描述了这个现象,而且也现身说法,生造了很多词,差不多到了长袖善舞,随心所欲的程度。这篇论文经过世界语顶极元老,西班牙老教授的认真审阅,我的生造词多数得以保留。当年的那种创造快感,大概只有世界语者可以体会了:

世界语丰富的词缀和构词的黏合特性,从形式上给了语言使用者最大的弹性,只要在语境中 make sense, 使用世界语,几乎可以随心所欲,很能满足人 的创造欲:世界语的本性是鼓励“生造词”的。当然,在实际使用中,这种弹性更多表现在给人以造词的便利,而不是满足创造欲。如果我忘记了一个专门词汇,比如 komputero(电脑),临时生造一个 elektrona kalkulilo (电子运算工具:可以指计算器或电脑),也不妨碍我的交流。每一个使用过世界语的,都体会过这种便利和创造的乐趣。

摘自《朝华午拾:世界语之恋》

 

立委世界语论文:Li, Uej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

【置顶:立委科学网博客NLP博文一览(定期更新版)】 

《朝华午拾》总目录

《立委兄:我的弟弟叫立委》

【立委按】老哥的记忆力比我强多了,很多小时候的事儿,我本来已经很模糊了。但那次比赛吃五香鸡蛋,因为后果严重,实在太难受了,印象蛮深,现在想来还后怕。其后一个多月见到食品就想吐,不知道当年怎么会那样逞能不要命。大批判上台演讲慷慨激昂(批林批孔,后来是批邓反击右倾翻案风),突然来了鼻涕的丑事,也是因为太露面也太难堪,记忆深刻。当年不懂五讲四美,也没有卫生纸的条件,几千人的台上众目睽睽难以遮蔽,也是无奈。看老哥写自己,虽然不乏谬赞,但也有暴露开裆裤年代的“小”来。更多的往事是好玩,好像在看电影蒙太奇,那些“阳光灿烂的日子”。一晃半个世纪了,我们天各一方,但牵挂的总是手足亲情。

 

我的弟弟叫立委,从小性格内向少语,天性宽仁敦厚,身体瘦弱多病。独往独来,与世无争。他性格柔中带刚,肤白个小,很有意志力,十分倔强执着,有不达目的誓不罢休的毅力和恒心。

他穿戴邋遢,不修边幅,小时常常流着鼻涕,跟在我的身后。下河捉鱼摸虾,田野捕捉蛐蛐,上树套取知了,农家偷瓜摘莲,他一样不拉下。像一个泡泡糖一样粘着我,甩都甩不掉。

一旦兴奋起来,他个性十分张扬,眉飞色舞,开怀大笑,毫无顾忌。

弟弟小我两岁,但跟我同班。

一九六六年九月,文革风起,我八岁,刚念小学二年级。父母是双职工,很忙。外婆因出身问题被赶回农村,家里没人带孩子。于是要我带着六岁弟弟和四岁妹妹一起上学。弟弟和我在一班,妹妹去了一年级,算是上学了。

没想到,他们俩虽是各自班级最小的学生,但很快就跟上了班级课程进度,并都成为学习尖子。到小学三年级,我当班长时,弟弟已成为班级学习委员了。

弟弟有股不服输的劲头。记得有一年,我俩去乡下舅舅家。正逢过年时节,大家都很放松,舅舅们款待我们远道回老家来过年,食品丰盛,有我们的最爱,五香茶叶蛋。弟弟突发奇想,硬要与我比赛,看谁吃得多。他用极夸张的方式挑战,说一定会赢我。我当然不服气,欣然应允。先是我俩各吃四个油炸饺子,然后我剥一个五香鸡蛋塞到嘴里,他也立即拿一个狼吞虎咽。当我拿第十个鸡蛋时,肚子撑得快受不了,他却毫无畏惧把第十个鸡蛋迅速塞进嘴里,满脸涨红,身体挺直。最后,在拿第十五个鸡蛋时,我实在无法吞咽了。看他那无比坚强、有点扭曲的脸,真受不了他那为达目的不要命的劲头。我缴械投降,称臣认输。结果是,我们两人那几天都胃胀呕吐,疼痛难捱。

小时候下河游泳也是如此,他总是独行侠一样顺河而下,不游三四里不上岸。这哪是我们下河玩水嬉闹的游法?他却不以为然。下河就是为了锻炼身体,增强体质,在水中嬉闹有什么意义?泡在水里失去了游泳的初衷。他就是那么自我,那么固执,那么有主见。

他干什么都很专注,尽可能做到圆满。

小学时,他自学绘画。每天临摹,忙得不亦乐乎。忘我、执着、有定力,一头扎进去就不分昼夜。无师自通,画得有模有样。于是我家墙上,就有了他绘制的各种姿态的领袖像。

初中时,他跟着广播电台,自学英语。每天摇头晃脑,念念有词,那劲头比古代赶考的秀才还迂腐呆萌。后来拿出几篇他自译的英文小说,展示他的成果。弟弟一直是班级第一名。在比拼学业的“修正主义教育路线回潮”那一年半时期(周荣鑫做教育部长时1970年代早期),风光一时。

高中时,大家都不学习,他却把老爸年轻时自学的微积分教材拿出来啃读。躲进的小楼成一统,不闻不问窗外事。到高中毕业时,他已学完了那本教材。

弟弟虽不喜夸夸其谈,但却是演讲高手,这点让我既惊诧佩服又有点不服气。当年学校各种批判会,都有我的身影。但我在主席台上唾沫星四贱,卖力演讲时,下面却是交头接耳,吵杂声不断,无人听讲。每当那不多的几次,我弟弟上台演讲,不论什么枯燥话题,下面都鸦雀无声。他那抑扬顿挫的演讲,丰富夸张的手势,极富有激情和韵味,超有气场。没想到吧,我们这些平时乱成一锅粥,整天批判师道尊严的中学生,竟被他的发言深深吸引。甚至在台上,鼻炎严重的他,有时突然停顿,旁若无人地当众擤鼻涕,也成一大特色。演讲一结束,总会得到雷鸣般的掌声。弱小的他一上主席台,立即生龙活虎,完全变了个人。

弟弟文笔比我好得多,从小如此。作文常常被老师选做范文供同学们学习。记得初中时候他写了一篇学农作文,叫《采茶》,被老师选寄到省报登载,轰动学校。写诗,写散文,写批判文章,他甚至开始创作小说。尤其是大批判文章,也被他写得妙趣横生。给我印象较深的是一篇《狼狗、刘邓》的大批判杂文。他的文字机巧,情感细腻,佳句频出,有冲击力。弟弟有当作家的天赋。

中学时,我也爱舞文弄墨,特点就两字,空洞。文章看上去慷慨激昂,但显得苍白。按现在话说,充满正能量,但缺乏人性情怀,没有什么文字的优美。能吹嘘的也就是在《新安微画报》上,刊出我一张大幅照片。那是记者为表彰我校批林批孔运动的成绩,按排我摆拍的,和我本人实际上没半毛钱关系。

弟弟弱小,却斗志昂扬,总有使不完的劲儿。我们这届作为安徽最后一批下放知青,很多人已失去激情,在生产队干活,大多是三天打鱼两天晒网。七七年三月我们同时下乡,他下放在山村,我下放在水乡,分隔两处,他还是暗地和我较劲着。我从三月到九月一直在田地里干活。没回家,不串门,哪怕酷暑劳累的双抢时节,我也没一天休息。他知道后,也不回家,咬着牙,病弱的身体硬挺着,一天都没息工。直到双抢结束,瘫倒在地,才回家休息了几天。他身体从小病弱,这么拚命干啥?后来知道,除了要强比拼,他在村里还“艳遇”三个小芳姐妹,至始至终陪同。男女搭配,干活不累哈。

估计全年级二百多下放知青,只有我们两个傻帽,还在搞社会主义劳动竞赛呢。

不过他给我留下最难忘的事,倒不是这些,而是一件小事。那是我俩小时睡在一张床上的情景。

每到冬天,寒风四漏的小屋里,我的脚都被冻得难以入睡。弟弟提出把我脚放到他胸前,贴着皮肤取暖。我不同意,怕他孱弱的身体,经不起冰冷的刺激。但他坚持,很勇敢很坚定。我只得退一步,说把脚放在隔着衣服的胸口。但他不干,非让我把脚直接贴在胸前。那寒冻的脚和温暖胸一接触,弟弟打了一颤抖,我赶紧缩腿,但弟弟用双手压住我的脚,不让我离开。很快我的脚暖和了,而他胸前一片冰凉。

自此,我们经常互为对方用胸捂脚,互持互助,度过那严寒的冬夜。

七七年十二月份,我俩一起参加文革后第一次高考。他选择考理工科,我选择考文科。他的志愿是中科大理论物理专业,我的目标是北大、复旦国际政治专业。当年他数、理、化、语都比我好,而我呢?历、地两门课比他好。全国各省地理特点,全世界各国首都和元首我基本倒背如流。那本以农民起义为主线的伪中国历史,更是刻在脑海里。安徽七七年高考,文科、理工科,数学、政治、语文三张卷子是完全一样的,区别仅在于最后一张卷子。理工科考物理化学卷,文科考地理历史卷。

因长辈的历史经验和亲身经历,我的选择遭父母强力反对,最后我只得弃文改考理工了。我们信心都很足,弟弟更是志在必得,还特地加试了英语(那年文理都不要求考英语,只有报英语专业人才必考)。

考语文时,只有一篇作文。进考场三十几分钟,弟弟就兴高采烈交卷了。监考老师还认为他考不下去,退考了。而实际上是,他认为考题太容易,不需花那么久时间,作文一挥而就。

狂妄吧,只考了半个钟点就出来了。结果他语文作文跑题,考了个超低分,这让他悔恨五年多。

他数理化考分都比我高,加试的英语笔试也九十多分,口试优。进清华的实力,毁在自大粗心上。文革后第一次高考,各省试卷不同,录取程序也欠规范。他考的是理工科,因为报考志愿过高,被压档。最后被一所初办师范找到档案,英语系招不到人,于是把理工加试英语压档的他纳入囊中。当年文科那份史地卷,考后我找来一看,不复习也可考八十五分以上。而为理化我天昏地暗复习几个月,仍然不及格。

阴错阳差,他学了文科,我学了理工科。

七八年二月,录取通知发放。当年我们一个年级四个班,七七年十二月份那次考试,只有三个考上大学本科,我家独占两个名额,轰动小县城。

不过,我们家却是低气压,没有丝毫兴奋欢庆的氛围。我从文科改考理科,能考上南京的重点大学,全家那是相当的满意。而我弟弟呢,父母、老师、同学、邻居都寄予厚望,指望山城出个状元。他的失败,让全家都高兴不起来。弟弟更是把自己关在房间,饭也不吃。父母担心弟弟接受不了这现实,那几天老守着他。估计丢面子是他悲愤的主要原因,虚荣心、好胜心极强的他,感到无脸见人。他内心实在不愿去地方师范念书,栽在他擅长的语文上,他心也不甘呀。语文,他平时比我好很多,现在分却比我低不少。于是决定八月再考,只差半年时间。

这一决定遭我父母竭力反对。插队在农村,生活异常艰苦,有这么个机会能跳出农村,父母不愿放弃。他们怕政策有变。学校虽不昨的,也是个本科,他们连哄带压,逼着他去学校报了到。

那年早春,一九七八年三月,我二十,他十八。

至此,我俩各奔东西,天各一方。

 

【相关】

朝华午拾:永做毛主席的红小兵

朝华午拾: 与女民兵一道成长的日子

朝华午拾:我的考研经历

人生记忆:老爸-可怜天下父母心

朝华午拾 - 立委小传

朝华午拾集锦:立委流浪图

 

 

 

《【第一书】是世界语的“圣经”》

【立委按】人类文明史上简单即美的又一例证,虽然其前景不容乐观。但这毫不影响博士的天才光辉。“那美好的仗”,他已经打过了。简单即美的其他例证还有爱因斯坦的质能方程式,门捷列夫的元素周期表,以及乔姆斯基的“绿色思想”。

朋友分享了世界语(Esperanto)【第一书】的中译版,值得推荐:unua libro (中文版)。

这部称为“第一书”的文字,是世界语的“圣经”,神一般的创作。哪怕作为闲暇阅读,满足好奇心,你也不会失望,特别是于对语言的奥妙感兴趣的人士。

学过外语的人都会体会到掌握一门自然语言的繁难,这往往需要很多年的持续努力。由此来看世界语,其文法的简单易学以及其表达手段的丰富达到了难以想象的极致,原来语言可以如此简单而丰富!治大国如烹小鲜,柴门霍夫博士是治语言如玩魔术的大师。

我很清楚,大多数 人都有这样一个习惯,对于任何问题,越是难以捉摸和难以理 解,就考虑得越仔细。这样的人,见到如此简明的语法,规则 如此简单,如此明白易懂,总是喜欢给予轻蔑的眼光,却从来 不去想想这样一个事实——他们再略微思考一下就会明白—— 这种简化,从原本复杂的形式中提取每一项具体内容,形成所 能想象的最简单最容易的东西,实际上是我们要克服的最为难 以逾越的障碍。

主业为眼科大夫,柴门霍夫并不是(理论)语言学家,他是个精通语言灵魂的践行者,语言学爱好者。因此,他对语言手段的诠释,不像语言学家那样专业、严谨和高深。【第一书】以一种中小学老师的方式,简单直白,佐以各种例证。

如果剥离具体例证,人类的惯有偏见会把此书及其作者简单归于语言理想主义或乌托邦教主的类别,而往往无视一个独特天才几十年一步一个脚印的探索之路。柴门霍夫发明世界语,是烂熟于心几十年后才决定以【第一书】为标志,公诸于众,开启了100多年来遍及五大洲的世界语运动。世界语方案在核心词汇表的每个细节上的反复推敲,在文法形式极简化与表达丰富性上的拿捏,在逻辑性与可接受性上的平衡,使得它成为150多种国际语方案中唯一规模化推广幸存下来的人造语言,成为鲜活的“准自然语言”。

世界语的命运其实尚在不定之中。这是因为人工智能神经网络的革命性发展使得多语言之间机器翻译质量大幅度提高。作为随时可及的工具,机器翻译已经帮助人类部分实现国际交流。可以说,技术进步本身实现了世界语作为第二辅助语设计和推广的功能性初衷。从趋势上看,可以肯定的是,机器翻译的发展显然远远超越世界语的推广普及能力。

至于世界语的人文价值与柴门霍夫的社会大同理想,那是世界语运动背后的精神财富。逐渐失去功能性优势的世界语,是否可以借此生生不息,进而吸引更多的追随者,很难乐观。更大的可能是,世界语将作为各国小圈子爱好者的兴趣纽带而存续。

【第一书】在回顾批评前人的国际语方案时的评论,似乎自身也不幸被言中:

但是,热心者的人数增加到一定数量之后,就会不再增加; 同时,由于这个无情而冷漠的世界绝不会赞同费事辛辛苦苦地 同少数人交谈,这一努力就会像之前人们所作的那些努力一样 逐渐消失,不会取得任何实际成效。

为此,我不禁为以“希望者”(Esperanto,后成为世界语的代称)为笔名发布【第一书】的柴门霍夫感到些许伤感。无论人格还是才华,在我的心目中,柴门霍夫一直都是人类文明史上的圣人。

 

 

【相关】

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 - 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 - 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《李白詹120:乔老爷老矣》

李:从最近的访谈看,原来,乔姆斯基认为结构歧义是语言中最有意思的现象,他也提到,现在这个现象已经不再神秘了。我们对它有清楚的认识。

问:你在语言学或认知科学中看到的语言或思想中最迷人的方面是什么?

答:我认为语言最深层的属性或者最令人费解的属性是一种结构性依赖的东西。现在我们对它很了解,但之前却令人费解了很长一段时间。

举例来说,这家伙修车小心翼翼地打包工具(the guy who fixed the car carefully packed his tools),这句话其实是模棱两可的,它所表达的意思可以是小心翼翼地修理汽车,也可以是小心地打包他的工具。副词与哪个动词相关的(是离最近的还是最远的)是一个非常令人费解的事情。

from《乔姆斯基专访:深度学习并没有探寻世界本质

原文更清晰,这一段是:

[Lex] He has something in common with infants in that way. So, back to linguistics, if you could humor me, what are the most beautiful or fascinating aspects of language, or ideas, in linguistics, or cognitive science, that you've seen in a lifetime of studying language and studying the human mind?

[Noam] Well, I think the deepest property of language and puzzling property that's been discovered is what is sometimes called structure dependence. We now understand it pretty well, but it was puzzling for a long time. I'll give you a concrete example. So, suppose you say "the guy who fixed the car carefully packed his tools." That's ambiguous. He could fix the car carefully or carefully pack his tools. Now suppose you put carefully in front: "Carefully the guy who fixed the car packed his tools." Then it's carefully packed, not carefully fixed. And in fact you do that even if it makes no sense. So, suppose you say, "carefully the guy who fixed the car is tall". You have to interpret it as carefully he's tall even though that doesn't make any sense. And notice that that's a very puzzling fact because you're relating carefully not to the linearly closest verb but to the linearly more remote verb. Linear closeness is a easy computation, but here you're doing a much more, what looks like a more complex computation. You're doing something that's taking you essentially to the more remote thing. Now, if you look at the actual structure of the sentence, where the phrases are and so on, turns out you're picking out the structurally closest thing, but the linearly more remote thing. But notice that what's linear is 100% of what you hear; you never hear structure, you can't. So, what you're doing is, and instantly, this is universal -all constructions, all languages-, and what we're compelled to do is carry out what looks like the more complex computation on material that we never hear, and we ignore 100% of what we hear and the simplest computation. And by now, there's even a neural basis for this, that's somewhat understood, and there's good theories but none that explain why it's true. That's a deep insight into the surprising nature of language with many consequences.

from《Interview of Noam Chomsky by Lex Fridman

总之是回到了句法结构这个核心,认为这是语言学中最令人兴奋的发现:看上去是流线型的语言,原来具有可以独立于语义的句法结构在背后起作用。结构上的近距离可以是物理上的远距离。结构上的约束条件似乎是硬约束,它甚至可以打败常识,让人理解不符合常识的逻辑语义。这些乔老爷的语言学遗产我们都耳熟能详了。

白:那个句首的carefully让人不自觉地联想到hopefully,后者放到那个句子就一点儿没有违和感了。所以可以简单地认为是纠错的优先级高过了语义相谐性的优先级。不是拘泥于结构打败了常识,而是在相同结构内只要替换词语就更符合常识,这个的“编辑距离”更短。是常识打败了“拘泥于词”。是不是一定用hopefully改错并不重要,句首最优先的替换词千人千面又何妨,重要的是其中总有一款跟后面是搭调的。结构does not make sense并不是值得夸耀的,在同样结构内用常识把sense找补回来才更amazing。

李:是啊,不过他老人家无法认识到这一点的重要性了。

“那美好的仗”,他已经打过了。接下来的仗,是后人的事儿。他的黄金时代已然过去。

不同角度吧。他强调句法硬约束,打败常识有其道理,也有其依据。他的“绿色思想”(从 colorless green ideas sleep furiously 说开去)虽然是一万年也见不到的生造句子,但听起来确实合乎文法而且有解。因此,常识打败“拘泥于词”,也不是总可以成功。推向极端,格丰富的语言的确可以几乎“随意地”打败常识。只是到了“裸奔”的语言,那一套就不好使了。批评乔老爷的人有指出他老人家对其他语言不够了解,吃了局限于欧洲语言的亏。

白:不是还有一切皆专名么,不是还有修辞么,不是还有meta level么,总有一款适合你。这都是常识。能把sense找回来是硬道理。

李:修辞的解读本身不应该归于常识的胜利。修辞解读往往是句法引导,从而由常识的违和而引申的联想。用到了常识,但起点、驱动是句法。

白:常识的边界在哪可以慢慢探讨。

所谓句法引导有两层含义:一是拘泥于词+句法引导,对此我表示反对;二是合理修正词+句法引导,对此我表示拥护。纠错、专名、修辞、meta level,都是“合理修正词”的范畴。

合理,就是合常识的理,乔家大院的毛毛虫,外包絡总会罩住一款“合理”。

李:可以肯定,我们现在探讨的自然语言现象及其解析深度,已经远远超出乔姆斯基时代。

抠字眼的话,合“理”就没有修辞,也没有诗歌和艺术了。

白:合理不是合逻辑,是合情理。

李:那天与我久违的老师和师兄周流溪(语言学家)微信里谈格律诗,他谈他当年如何苦学作诗的经历。我就用@刘群 老师的那个乐府,做了几首诗给他看。他大加赞赏,虽然也挑了几个毛病。称赞我格律诗有功底,有诗意。我就告诉他所有的妙句和诗意,都是瞎猫撞出来的。是读者的联想,不是“作诗者”的本心,因为作者是电器,根本没有“心”。因为没有心,也没有常识,只是记住了“典故”、习惯搭配以及过往诗句中的常用词汇,因此难免出现奇怪的词语组合。但是,“越是违和和古怪的组合,越违背常识,越容易引起人的联想,因此也越容易成就绝妙好辞。”

白:修辞是semantic deviation,用相谐性的尺子来卡肯定不对,但所谓情理之中又是有依托的,顺杆儿爬不太远。违和和古怪是必要条件,否则就白开水了;但不是充分条件,否则谁都是诗人了。

李:抬头看天上云彩,看出里面的山水画或动物人物画不在少数,我们都有过切身体会。但云彩虽然也许有自然的结构,但断断没有人世的常识和美学。“顺杆儿爬不太远”是修辞和诗意解读的原理,但问题在它是发散的。谁也不知道如何收敛。收敛的条件也因人而异。100个读者有90种解读,是常见的。

白:没有标准答案,发散又何妨。让人一时不理解的艺术多的是。

李:发散就不能铁口说,找回了“sense”。

白:自以为理解就收敛了,后来又被喷的也有的是。

sense不唯一啊,主要是这个心路历程有意义就够了。没拘泥,有sense,有依托,这就OK。跟“原意”如何根本不相关。

李:这是美学体验的历程了,李泽厚的地儿了(cf:旷世奇作《李泽厚:美的历程》)。

白:铁口为啥不行,我的体验我做主。

李:LOL 那是强盗逻辑,没商量。

白:只要把顺杆儿爬的“杆儿”给亮出来,自有公论。

编辑距离总是可以算出来的,几步联想,在知识图谱上都能追踪出来,绝不是胡扯。比如小冰那句,“阳光失了玻璃窗”。玻璃可以透射和反射光,阳光是光,透射意味着透明,反射意味着传播,阳光失了玻璃窗,自然联想到透明的缺失,传播的阻断。阳光意味着所谓正能量,于是正能量的传播被阻断。这些联想都找得到本体的依托。

有本事小冰跳出来说,我不是那个意思。这个根本不取决于作者,不管是小冰还是ta背后的人

李:符号逻辑的命门就是绕。下意识的事儿,到了符号逻辑学家手中就在那里绕啊绕 ......,终于绕到了外婆桥。

白:说时迟 那时快。怎么知道下意识就不在绕。这个绕和摇,语音上也是近亲。

李:神经网络倒是不绕,结果乔老爷一句话就怼回去:

你那里面一点 science 都没有,全是工程。(记得先帝毛主席批判政敌的时候常爱说:你那里一点马列主义都没有!)做 AI 还可以混个博士,到任何其他学科,早给你赶出大门。

这就是乔老爷对红得发紫的主流AI的态度。

一代智者,老矣。

白:奇怪的是,当下AI不这么玩还混不到博士。

李:不怪 因为还有的做。等到没啥地儿下脚的时候,黑天鹅就该出现了。博士嘛,也不好纯粹拿应用凑数。(再想了一下,博士其实好像凑数的还是多数,至少在下是,当年也没有任何理论创新,就是跟着导师的喜好,把当时热门的HPSG往中文里套。)

詹:Future generations are gonna watch that video with their jaws open in disbelief," Carlson said in response to Barbot. "How could someone charged with protecting public health so recklessly endanger it?

未来的几代人看到这段视频时,一定会目瞪口呆,不敢相信。”“一个被指控如此不顾后果地保护公共健康的人,怎么可能危及公共健康?”

recklessly -> ?

白:这跟汉语里形容词向左作补语向右作定语的歧义句/伪歧义句有得一拼。

詹:有charge,protect,endanger 三个大汉等着,比乔爷举的例子复杂。

白:charge中性,protect是正面情感,endanger是负面情感,reckless是负面情感,怎么最不拧巴,一目了然啊。

詹:但“拧巴”跟“怎么”和疑问又天然的“不拧巴”,单看这个小句自己的逻辑,很和谐。

怎么+拧巴 = 和谐

白:charged with,还有“委以……重任”的意思。

詹:是,像charge的词,应该特别注意,它译成汉语的两个词“负责”“指控”,语义相差极大,弄不好就把意思给弄反了。

白:“一个被委以保护公共健康重任的人,怎么可能如此不顾后果地危及公共健康?” 这样翻译就一点都不拧巴了。

sentiment在后,但却通过是否拧巴,纠正之前的义项选择和更后的结构选择,立了大功啊……

关键是这个例子不支持老乔的观点呀。

詹:英语的状语后置,跟汉语的定语前置,在引起歧义方面,似乎功劳相当。

白:是。

詹:我没看出乔爷有啥观点。如果有的话,就是结构决定语义关系。这个基本原则应该没法证伪吧,怎么说都是对的。因为如果不能决定语义关系,把结构改一下就可以了。你总有办法改结构的。我肤浅的理解:把结构分成深层和表层,提供了巨大的玩游戏的空间。不行就“调”结构,语言学家的debug。

白:乔的例子证明不了结构优先于常识,只能说结构和常识联合起来可以欺负不搭调的词。

詹:他好像默认的就是“树结构”?万一不是树结构呢?总用树结构去欺负线性结构,不是个好主意。

白:结构长啥样可以另讨论。

万一是图呢?说不定也好欺负一把树结构。

老乔想说的无非是,不管你谁和谁相谐,我结构就在这里,无法绕开,无法颠覆。

詹:白老师,纠错跟容错是操作,操作需要静态知识作为条件,句法和语义都可以划入静态知识。所以,纠错优先不能否定句法优先。反而很可能成为句法优先的证据。纠错是底线(相当于“法”),容错是高要求(相当于“德”)。不知我这样看,能否为乔老辩护?

白:编辑距离最短是硬道理。替换一个词而已,又不需要以接受任何对词的标注体系为前提。所以,仅仅就操作而言,纠错优先比任何静态知识都更加“硬核”。但纯操作是盲目的,没有导向性的。要建立导向性,比如结构ok,相谐性ok,sentiment不拧巴,就必须使用静态知识。

这个例子就是句法和语义联手给出了一个异议最少、意义最谐的导向性纠错选择。而不能成为句法压制语义的例证。

白:《白硕:老乔新论述评

李:一觉醒来,大作已就,白老师威武!

@白硕 @詹卫东 结构决定逻辑语义不能证伪 所以乔老爷总是可以维护的。

白老师说,“Unfortunately,老乔说这个例句的场景正中了我的下策。”

其实,乔老爷不 care 解读是作为 nonsense 或层次纠缠,也不必是走下策的路,走前面的两条路也不违背/证伪他的主张。他的绿色思想是句法统领大纲,解读自由他去。好比是说:句法结构是如来佛的手心掌,语义解读这个孙猴子跳不出他的手心掌。

我们知道这个主张有粗暴甚至误导的一面,但的确很难证伪。反驳可以,结果就是辩论,跟民主党共和党似的,谁也说服不了谁。语义学派大小不同人物在历史上没少挑战乔老爷,他的句法大旗一直飘摇,语言学地位稳如喜马拉雅山。

再者,句法独立于语义不仅理论上自成体系自圆其说,实践中的指导作用也是诸多方案中的一条广为采纳比较好走的道路,而且自有其先简后繁的优势(缺点和软肋先放下):句法模块置前,先画个框,然后再上各种语义的手段去排除歧义或做其他解读。

这条视句法为硬约束需要先行的道路,客观上对于繁杂的自然语言现象以及更加繁难的背后知识支持系统(如本体常识、领域知识、交互现场知识等等),不失为一条“捷径”,让人不至于被语义泥淖所吓倒而裹足不前。硬约束的意思不是说句法结构唯一地决定了句子解读(逻辑语义),而是说,句法可以给解读先画个框框。句法不必总是唯一地指定解读路径(逻辑语义),但可以作为硬约束首先“剪枝”,否定一些路径。

就辨识(identification)而言,结构歧义原则上不需要语义,句法可以包揽。至于消歧,你用常识也好,或其他手段也好,大门是敞开的。即便在“绿色思想在狂躁地睡眠”里面,句法也只是“唯一地”确立解读的大纲,也就是粗线条的逻辑语义框架。句法并不管解读的细节,在这个“逻辑主谓宾定状补”的大框架下,受者的解读是走白老师的上策中策下策,都不影响句法作为老佛爷的崇高地位。

并不是每个人都能玩得转语义和常识的,其实是绝大多数人玩不转。但是玩句法,或者以句法作为导航进入语言的解析大门,则是一条看上去比较光明的道路,对于很多符号学者,其实是唯一的可行之路。

PP-attachment 在带入语义、习惯搭配、知识等等之前,就是可以由句法判断其二叉的路径的。更加复杂的结构歧义,包括歧义叠加,都是句法可以识别的。句法不必然说是什么,但可以说不是什么,这一点原则上是站得住的。既然句法原则上可以说不是什么,那么句法独立的主张就自圆其说了,就有依据了。独立的意思是说它不必借助其他支持,就可以独立为语言解析作出贡献:把自然语言文句的随机组合爆炸,压缩到一个小得多的路径图里,就是它的贡献。这种贡献因语言不同而效益不同,但原则上是普适的。遇到“裸奔”的中文,它效益较差,但遇到形态丰富的语言,它的效益蛮高。

句法是在十位数的符号(名动形副加小词是输入,主谓宾定状补是输出)里面玩游戏,容易掌控。到了本体常识、领域知识,那是在千甚至上万的符号集里面玩,不晕菜才怪。光一个ISA上下位就是成千上万的节点,另外还有层层叠叠的 partOf 关联,谓词格框架还可能有好几个坑对各自萝卜的类型要求,等等。想想就头大。还是乔老爷仁慈,治大国如烹小鲜,根本不扯这些鸡零狗碎的语义和谐、常识推理。

白:我今天谈到的例子,站在反对他的阵营角度解释,更简单。所以够不上一个新证据。仅此而已。没想过要证伪谁。

李:明白。很多事儿,包括学问,都不是简单的真伪问题。而是论洞见的深浅。乔姆斯基在他的时代,是最具有洞见的。但远远不如白老师的洞察。这不是恭维,也不是盲目吹捧,而是时代变了。我们都站在了巨人肩膀之上。

白:不敢当。

 

 

【相关】

白硕:老乔新论述评

乔姆斯基专访:深度学习并没有探寻世界本质

Interview of Noam Chomsky by Lex Fridman

【语义计算:李白对话录系列】

乔姆斯基批判 

白硕 – 穿越乔家大院寻找“毛毛虫”

巧遇语言学上帝乔姆斯基

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 

[转载]特大新闻:乔姆斯基新婚一周年接受采访,谈上帝礼物

从 colorless green ideas sleep furiously 说开去

【Church - 钟摆摆得太远(2):乔姆斯基论】

乔氏 X 杠杠理论 以及各式树形图表达法

《立委随笔:乔姆斯基的“世界语”》

《立委随笔:自然语言是递归的么?》

【科普小品:文法里的父子原则】

立委随笔:Chomsky meets Gates

《立委推荐:乔姆斯基》

Dad, can you explain Chomsky's X-bar Theory to me?

【立委科普:语言学的基本概念】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

Manlibro de Antaŭzorgo kaj Kuracado de COVID-19 (en Esperanto)

【Antaŭparolo】

Ĉi tio estas senprecedenca monda milito, kaj la homaro alfrontas la saman malamikon, la novan koron-viruson (COVID-19).  La unua batalkampo estas la hospitalo, kie niaj soldatoj estas la medicinaj laborantoj. Por certigi, ke ĉi tiu milito povas esti gajnita, ni devas unue certigi, ke al nia medicina personaro oni garantias sufiĉajn rimedojn, inkluzive de spertoj kaj teknologioj.  Ankaŭ ni devas certigi, ke la hospitalo estas la batalkampo, kie ni forigas la viruson, ne kie la viruso venkas nin. Tial la Jack Ma Foundation kaj Alibaba Foundation kunvenigis grupon da medicinaj spertuloj, kiuj ĵus revenis de la limregiono kontraŭbatalinta la pandemion. Kun la subteno de La Unua Asociita Hospitalo, Universitato de Medicina Lernejo de Zhejiang (FAHZU), ili rapide eldonis gvidlibron pri la klinika sperto pri kiel trakti ĉi tiun novan koronaviruson.

La kuracista gvidilo ofertas konsilojn kaj referencon kontraŭ la pandemio por medicinaj dungitoj en la tuta mondo, kiuj tuj aliĝos al la milito. Mia speciala danko eliras al la medicina personaro de FAHZU. Dum ili riskis kuraci kuracilojn per COVID-19, ili registris sian ĉiutagan sperton, kiu estas spegulita en ĉi tiu Manlibro. Dum la pasintaj 50 tagoj, 104 konfirmitaj pacientoj estis akceptitaj en FAHZU, inkluzive de 78 severaj kaj maltrankviligaj malsanaj. Dank 'al la pioniraj klopodoj de medicina personaro kaj apliko de novaj teknologioj, ĝis nun, ni atestis miraklon. Neniu personaro estis infektita kaj ne mankis ajnaj diagnozoj aŭ mortaj pacientoj en la libro. Hodiaŭ, kun la disvastiĝo de la pandemio, ĉi tiuj spertoj estas la plej valoraj fontoj de informo kaj la plej grava armilo por medicinaj laborantoj en la unua linio.

Ĉi tio estas tute nova malsano, kaj Ĉinio estis la unua kiu suferis la pandemion. Izolado, diagnozo, kuracado, protektaj mezuroj kaj resaniĝo ĉiuj komenciĝis de nulo. Ni esperas, ke ĉi tiu Manlibro povas doni al kuracistoj kaj flegistinoj en aliaj trafitaj lokoj valorajn informojn, por ke ili ne devu eniri la batalkampon sole. Ĉi tiu pandemio estas tiu, kiun alfrontas la homaro en la epoko de tutmondiĝo. En ĉi tiu momento, dividi informon, rimedojn, spertojn kaj lecionojn, sendepende de kiu vi estas, estas nia sola ŝanco por gajni. La vera kuracilo por ĉi tiu pandemio ne estas izolado, sed kunlaboro. Ĉi tiu milito ĵus komenciĝis.

Parto Unu :Antaŭzorgo kaj Kontrolado

I. Izola Areo-Administrado

1 Febro-Kliniko

1.1. Aranĝo

(1) Kuracaj instalaĵoj starigu relative sendependan febran klinikon, inkluzive de ekskluziva unudirekta pasejo ĉe la enirejo de la hospitalo kun videbla signo;

(2) La movado de homoj sekvu la principon de "tri zonoj kaj du pasaj": poluita zono, eble poluita zono kaj pura zono, provizitaj kaj klare demarkitaj, kaj du bufraj zonoj inter la poluita zono kaj eble poluita zono;

(3) Sendependa paŝo devas esti ekipita por poluitaj aĵoj; starigu vidan regionon por unudirecta liverado de eroj de oficeja areo (en eble poluita zono) al izolita sekcio (poluita zono);

(4) Normaj taŭgaj proceduroj estu normigitaj por ke medicina personaro surmetu kaj deprenu sian protektan ekipaĵon. Faru fluotabulojn de diversaj zonoj, havigu spegulojn kaj observu la marŝajn vojojn strikte;

(5) Specialaj personoj pri prevento kaj kontrolo de infektoj devas helpi  la medicinan personojn surmeti kaj forigi protektajn ekipaĵojn tiel, por preventi poluadon;

(6) Ĉiuj aĵoj en la poluita zono ne malinfektitaj ne estu forigitaj.

1.2 Ordigo pri Zono

(1) Starigu sendependan ekzamenan ĉambron, laboratorion, observan ĉambron, kaj revivigan ĉambron;

(2) Starigu antaŭekzamenon kaj sortan areon por plenumi antaŭlastan kribradon de pacientoj;

(3) Apartigu diagnozan zonon kaj kuracan zonon: tiuj pacientoj kun epidemiologia historio kaj febro kaj/aŭ spiraj simptomoj devas esti gvidataj en suspektatan COVID-19-pacientan zonon; tiuj pacientoj kun regula febro sed nenia klara epidemiologia historio gvidiĝos al regula febra pacienca zono.

1.3 Pacienca Administrado

(1) Pacientoj kun febroj devas porti medicinajn kirurgiajn maskojn;

(2) Nur pacientoj rajtas eniri la atendovicon por eviti supertuton;

(3) La daŭro de la vizito de la paciento estu minimumigita por eviti krucajn infektojn;

(4) Eduku pacientojn kaj iliajn familiojn pri frua identigo de simptomoj kaj esencaj preventaj agoj.

 

............

 

Tradukado de la Angla Versio  , kun helpo je Google Translate

 

 

《女儿在新冠防疫的第一线》

立委按:

庚子真是多事之年啊。新冠疫情爆发至今三个月,从武汉开始蔓延,搅得周天寒彻。对这场突如其来的世纪灾难,我们从一开始就特别揪心,因为侄女就处在漩涡的最中心。她是武汉中心医院的医生,吹哨人李文亮的同事。面对呼啸而来的病毒,眼见同事一排排倒下,我们很难想象这几个月她是怎么度过的。那天我跟甜甜说,你知道你姐面对的是什么吗?她就在最惨烈的战场第一线,她的医院有大灾难的最早发哨人和吹哨人,为此牺牲了四位医生,200多员工感染。甜甜很认真地说:这与越战老兵类似,一定会有精神创伤,应赶紧寻求心理疏导的疗法(therapy)。告诉她,I am proud of her, and pray for her.  

侄女是个文静内向的孩子。平时忙于本职工作,医院和家两点一线,生活低调单纯。去年她妈妈的摄影老师给她拍了一组艺术照片,童话般画面,青春洋溢。我用苹果软件模版制成幻灯,她很开心。去年回武汉,送她一副苹果无线耳机,她也很喜欢。

没想到平静的生活突遇惊涛骇浪。这次在她身边发生的事情,已经震惊了全世界。三个月来,全世界华人和媒体密切关注疫情,聚焦在武汉。我们看得心惊肉跳,时时替她捏一把汗,但也不知道如何安慰和支持她。元月底我在微信中叮嘱她:

找时间休息 休息不足抵抗力会下降。只有靠自己照顾自己了。 总是让家人时时牵挂。希望外地增援医护人员早日开进去 让你们第一线本地人员有个喘息机会。也希望疫情高峰时期快快过去 武汉早日复苏。据说武汉高峰期快过去了 但外地包括北京的爆发高峰期很近了。

她说:谢谢 我觉得高峰期还有一段时间。

Tanya said she is very proud of you and also worried about you.  She prays for you.

她回了个笑脸,让我谢谢妹妹。

下面特别推荐老哥记下的这段煎熬日子的心路历程。哥嫂对这个宝贝女儿的牵肠挂肚,做父母的都可以想见。每一个上了一线的医护人员背后,都有整家人的担心和牵挂。

《立委兄:女儿在新冠防疫的第一线》

二月六日,李文亮医生不幸殉职,我的心一揪。
三月一日,江学庆医生与世长辞,我暗自流泪。
三月三日,梅仲明医生离开人间,我失声痛哭。
三月九日,朱和平医生默默去世,我欲哭无泪。

这不仅仅因为他们是这场全球灾难的最早吹哨人,也不仅因为他们是抗击病毒的英雄,而是因为他们都是我女儿的同事。他们的倒下,使我们益发难以抑制对远在千里之外的女儿的担心和牵挂。悲伤和恐慌开始在心中蔓延。

女儿是武汉中心医院后湖院区一线临床医生,一直在一线从事抗疫医务工作。好长一段时间,她对我们什么都不多说。 我们天天打电话问询,也未从她口中得知当时医院所面临的险境,更不知晓医院领导对医护人员防护工作的漠视。 她的回话总是:没问题,还好,一切均好,请放心,全是让我们宽心的话。                        

然而,女儿医院噩耗不断,四位医师相继去世,不能不引起我们极大的不安。我们对她所处的环境越来越怀疑和担忧。终于,网络上陆陆续续爆出一篇又一篇中心医院防疫之战的惨烈报道,我们这才意识到女儿曾经炼狱。内幕的揭示让我们看到中心医院管理层的渎职。官僚主义的长官,又要战士冲锋陷阵,又不给战士配足武器弹药。伤心滴血的中心医院一线医护人员,眼看身边同事一排排倒下,近三百人感染,仍顽强坚守阵地,有怨无悔,负重前行 。他们是一群最可敬的人。

上海名医张文宏说得好:“医务工作者,现在最缺乏的不是宣传,而是关心。我明确和大家讲。第一关心是防护,第二是疲劳,第三是工作环境,我觉得一定要跟上。如果跟不上,就说明没有把医务人员当人,只是当机器。让医护人员免于受伤害。没有防护,你可以拒绝上岗。最重要从来不是歌颂牺牲,而是避免战士无谓地牺牲。最好的歌颂,不是赞扬损己的利人,而是提倡不损己的利人。” 女儿要是有这样的的好领导,我们做父母的就会宽心很多。  

中心医院的后湖院区离华南市场最近,首当其冲。这所武汉三甲综合医院最早收治新冠肺炎病例,也是最早发现上报这次类似非典的病毒案例的。女儿也自然成为最早投入武汉抗疫一线工作的临床医师。

女儿新年前就知道医院接受了几例类式非典的病人,但她当时并不知道有无人传人的情况,只是凭直觉摧我们提前出发自驾海南度冬之行,并希望外公外婆也随同过去。 她告诉我们时,是小心翼翼的,反复叮嘱不得外传。医院已下令严厉禁止医护人员公开谈论不明肺炎情况。她也不知道这病况未来如何发展,她毕竟不是呼吸科,急症科,传染科的医生。在女儿的反复摧促下,我们元月一日提前开车离开武汉奔向海南。外公外婆在家待贯了,不愿长途跋涉。劝说不动,只好作罢。当时我们也没想到会发展到封城封省封国的境况,留下外公外婆在武汉让二老隔离煎熬这么久。 

到海南后,刚开始我们还是比较放松的。女儿值班后休假时都还去外公外婆处蹭饭蹭菜。到元月中旬,女儿突然决定不再去外公外婆家。她对我们说,工作比较忙,安全第一,暂不去外公外婆家,并反复强调,现在还好,只是预防,我们也就信了。现在想来,她医院的情况已经十分严重,当时已有医护人员感染。她在一线,开始大面积接触感染病人。安全防护装备也不足,她决定自我隔离,怕给外公外婆带去病毒。她妈听说她上了一线,着急得不行。

外公外婆并不比我们少担心。在孙女不上夜班的日子,每晚都必须给她打电话,否则两老就无法入睡。在进入隔离区之前,女儿最后一次去外婆家,外婆不知为何不舒服,走不了几步路就累得不行。女儿不敢让外婆去医院检查,怕交叉感染。在外婆午睡后给外婆做了全身触诊,得出结论外婆没大问题。外婆听了很安心。封城在家的时间,休养一段身体果然慢慢康复了。

本来春节前她已购机票要来海南和我们一起过年的。在封城前五天,她突然告诉我们,因工作需要她不能来过年团聚了,并立即退掉飞海南的往返机票,决定留守武汉。刚开始她内心想来是恐惧的。病人像潮水一样涌来,医护同事大面积感染,她能不害怕吗?但她从未对我们流露出一丝畏惧情绪。后来她说她太忙了,一忙就忘了。跟所有一线医护人员一样,职责所在,大家只想着如何拼力救人,能救一个是一个。封城前后,她一直避免对我们谈及她的工作境况,包括她在医院没日没夜连轴转的四十多天。她从未透露她们医院医护人员感染人数和隔离人数。李文亮去世后,我给她打电话追问,她才告诉我,她们主任也染上了,不少同事也中枪了,但她不让我告诉她妈妈,怕妈妈着急。我只有反复叮嘱她注意安全,小心再小心,除此之外,我真不知道还能做什么。无助、无奈,在女儿最危险的时刻,我们提供不了什么实质帮助。只有苦熬日子,默默祈祷女儿平安健康。

移动互联网的发展,封锁消息是很难的。很快她妈也从网上得知武汉中心医院的悲惨境况。担心女儿,挂念父母,追踪争辩疫情的各路报道,预测疫情的全球态势,成为我们家每天的节目。随着大量外地医护人员陆续到来,女儿这才接到指示,有机会隔离轮休了一次。恢复了一下疲惫不堪的身体,现在她又继续投入到第一线防治工作去了。

女儿低调,从不吐苦水。 只是疫情中期,她希望我们能向我的朋友们发出请求,呼吁给她们医院捐点医用防护物资。她们一线医护人员已经不得不用普通塑料袋包脚了。口罩缺,护目镜缺,防护服更缺。如果不是缺到特别严重,她是不会向我们求援的。我真的没想到一线医护人员防护物资会这么紧缺。后来看到网上出现大量医院的求援信息,我们才知道武汉市政府防护物资保障工作做得很差。从网上流出来的照片可以看到,许多医护人员几乎等于赤手空拳,在用血肉之躯筑起一道医治急性传染病的防火墙。 这到底是医护人员勇敢,还是领导干部的失职? 可气的是,都快弹尽粮绝了,中心医院某些领导仍拒绝个人捐助,只接受从红十字会发过来的物资。理由是个人捐助标准不统一,他们不要承担这样的风险。女儿与同事已顾不了这些清规戒律了,有总比没有好。于是她们工作之余开始上网四处求援,绕过领导,呼吁社会和个人捐献。 

我对她们医院一向无好感。女儿博士毕业四年,中级职称资格考试也通过两年了,医院就是不聘任,理由是需要论文。临床工作那么忙,值班接着值班,医生少病人多,忙得喘不过气来,累得女儿回家基本上是倒头就睡,哪有时间坐下来搞科研?临床医师重在大量病例的训练和临床经验的积累,把科研任务和临床工作混为一谈,让许多临床经验丰富和技术精湛的医生被论文卡住而评不上职称,这是很不公平的。一个以临床技能为核心的实践性职业,中级职称还设那么多坎,有点荒唐。在我们工程技术研究机构里,像她这样的资历的人早已经评上副高了。对于我的牢骚,她只是无奈的笑笑。她从不争辩,也从未对自己单位埋怨半句。就是这样一个与世无争的女孩,在疫情面前,表现得比我们都坚强。尽心尽责,从无怨言。 一个衣来伸手饭来张口的家庭公主,为怕感染家中年迈的外公外婆,现在一人独居在另一处。在劳累一天下班后,开车回宿舍自己洗衣打扫卫生,自己烧饭做菜。轮休期间常打电话,向我们请教中华料理的烹饪技术。电话里总是不忘叮嘱我们注意安全,关心外公外婆的身体,让我们大家放心。  

她爷爷从哪里看到的消息,从外地给她发微信说,中央很关心你们,伙食标准很高,每人每天两百元呢。我提及此事,女儿笑了笑,传来一张她正要吃的中歺盒饭照片。那个标准,我看了一下,往高说也不超过三十元吧。

 

(早歺热干面是旁边一家店给医院全体员工提供的)

前段时间,我让女儿拍些工作照片,讲讲她工作中的困难和发生在她身边的故事。她说现在没时间用护肤品,形象不好,不适宜拍照。实际上她是怕我们看到她被防护面罩压迫留下的满脸勒痕,不想让我们着急。在我们再三要求下,女儿最近勉强发了几张工作照。看着那满脸皱褶,满是勒痕的双手,我们心痛。厚重的防护服下弱弱的身影,想想都知道,工作下来整个身体一定都是湿漉漉的。几个月的苦战,如何承受这高强度工作压力?夜深人静,望着满病房里在死亡线上挣扎的病人,又得承受多大的精神压力?这些非人的日子,女儿是怎么熬过来的。

万幸的是,到目前为止她还没有中枪感染,这是我们最大的安慰! 我跟她说万幸,她却冷静地说,什么万幸?可能我早已被感染,只不过是轻症,自愈了还有了抗体。早期什么防护都缺,不传染都很难,就看谁扛得住了。她说得很轻松,我听得很惊悚。

是啊,她的老师,她的同事,她的领导,纷纷有人倒下,四位兄长无力回天。她没倒下,是上帝的眷顾,还是病毒体谅我们的父母之心,我们不知道。虽然现在是疫情后期,虽然防护措施也加强了,但做父母的我们依旧提心吊胆,晚上睡不着觉。 

但愿噩梦早日过去,但愿一切恢复到平常。 疫情会结束,磨难会过去,但我们一定不要去赞美苦难,美化伤痕。多难兴邦,苦难练人,那是大话。老百姓就希望一家团团圆圆,一生过得平安。

 

 

【相关】

武汉市中心医院这么多医护人员被感染,到底发生了什么?

武汉中心医院辟谣怎么回事, 武汉中心医院辟谣说了什么事件始末详情曝光

武汉中心医院医护人员感染始末:接触病人推测可能人传人 上报被批造谣

武汉市中心医院:封口比医生的生死更重要

一家 “遍体鳞伤”的武汉三甲医院

方方:引咎辞职,从中心医院的书记和院长开始

四人殉职,四人濒危——武汉中心医院“至暗时刻”

发哨子的武汉中心医院女医生

院长的媚骨与风骨

武汉市中心医院医生:传染病留给大家反应的时间太短了

时间线|武汉市中心医院经历了什么?

比尔盖茨论新冠: 如何应对COVID-19

比尔盖茨论新冠

如何应对COVID-19

在任何危机中,领导者都有两个同等重要的责任: 解决眼前的问题,并防止它再次发生。COVID-19大流行就是一个很好的例子。世界现在需要拯救生命,同时也需要改善我们应对疫情的方式。第一点更为紧迫,但第二点有着至关重要的长期影响。

长期的挑战——提高我们应对突发事件的能力——并不是什么新鲜事。全球卫生专家多年来一直说,与1918年流感疫情的速度和严重程度相匹敌的另一场大流行不是“如果”而是“何时”的问题。近年来,比尔和梅琳达•盖茨基金会(Bill & Melinda Gates Foundation)投入了大量资源,帮助世界为这种情况做准备。

现在,除了长期存在的挑战之外,我们还面临着一场迫在眉睫的危机。在过去的一周里,COVID-19开始表现得很像我们一直担心的那种百年一遇的病原体。我希望情况没有那么糟糕,但我们应该假设情况会如此,直到我们知道情况并非如此。

COVID-19之所以是一种威胁,有两个原因。首先,它可以杀死健康的成年人和存在健康问题的老年人。迄今为止的数据表明,该病毒的病死率在1%左右;这一比率将使其比典型的季节性流感严重数倍,并将其置于1957年流感大流行(0.6%)和1918年流感大流行(2%)之间。

第二,COVID-19传输非常有效。一般受感染的人会传染给另外两三个人。这是一个指数增长率。也有强有力的证据表明,它可以由那些只是轻度患病或甚至尚未出现症状的人传播。这意味着COVID-19将比中东呼吸综合征或严重急性呼吸综合征(SARS)更难控制,后者仅由表现出症状的人传播,传播效率也低得多。事实上,COVID-19在短短四分之一的时间内就已经造成了十倍于SARS的病例。

好消息是,国家、州、地方政府和公共卫生机构可以在未来几周内采取措施减缓COVID-19的传播。

例如,除了帮助本国公民作出反应外,捐助国政府还应帮助低收入和中等收入国家为这一流行病做好准备。这些国家中的许多国家的卫生系统已经不堪重负,而冠状病毒等病原体可以迅速将它们吞噬。鉴于富裕国家把本国人民放在首位的自然愿望,较贫穷国家几乎没有政治或经济影响力。

“通过帮助非洲和南亚国家现在就做好准备,我们可以拯救生命,也可以减缓病毒的全球传播。”

通过帮助非洲和南亚国家现在就做好准备,我们可以拯救生命并减缓病毒的全球传播。(我和梅琳达最近承诺帮助启动全球应对covid -19的行动,总额可能高达1亿美元,其中很大一部分资金专门用于发展中国家。)

世界还需要加速推进针对COVID-19的治疗和疫苗的工作。科学家们能够在几天内对病毒基因组进行排序,并开发出几种有希望的候选疫苗,而流行病防备创新联盟(Coalition for Epidemic备灾创新联盟)已经准备了多达8种有希望的候选疫苗进行临床试验。如果这些疫苗中的一种或多种在动物模型中被证明是安全有效的,它们可能最早在6月就可以进行大规模试验。药物发现也可以通过利用已经进行了安全性测试的化合物库和应用新的筛选技术(包括机器学习)来识别可在几周内准备进行大规模临床试验的抗病毒药物来加速。

所有这些措施都将有助于解决当前的危机。但我们也需要做出更大的系统性改变,以便我们能够在下一次疫情到来时更有效地做出反应。

帮助低收入和中等收入国家加强初级卫生保健系统至关重要。当你建立一个健康诊所时,你也在为抗击流行病建立基础设施。训练有素的卫生保健工作者不仅提供疫苗; 它们还可以监测疾病模式,作为预警系统的一部分,向全世界发出潜在疫情的警报。

世界还需要在疾病监测方面进行投资,包括建立一个病例数据库,相关组织和规则可立即访问该数据库,这些组织和规则要求各国共享其信息。各国政府应能获得训练有素的人员名单,从地方领导人到全球专家,他们已准备好立即对付一种流行病,以及在紧急情况下需要储存或重新调拨的用品清单。

此外,我们需要建立一个系统,能够开发安全有效的疫苗和抗病毒药物,获得批准,并在发现快速传播的病原体后的几个月内提供数十亿剂。这是一项艰巨的挑战,存在技术、外交和预算方面的障碍,也需要公共部门和私营部门之间的合作。但所有这些障碍都是可以克服的。

疫苗的主要技术挑战之一是改进制造蛋白质的老方法,这种方法对流行病的反应太慢了。我们需要开发可预见的安全平台,以便能够迅速进行监管审查,并使制造商能够轻松地以低成本大规模生产剂量。对于抗病毒药物,需要有一个有组织的系统以快速和标准化的方式筛选现有的治疗方法和候选分子。

另一个技术挑战涉及到基于核酸的构造。这些构造可以在病毒基因组测序后数小时内产生; 现在我们需要找到大规模生产的方法。

除了这些技术解决方案,我们还需要外交努力来推动国际合作和数据共享。开发抗病毒药物和疫苗涉及大规模的临床试验和跨越国界的许可协议。我们应该充分利用能够帮助就研究重点和试验方案达成共识的全球论坛,以便有希望的疫苗和抗病毒候选药物能够迅速通过这一进程。这些平台包括世界卫生组织研发蓝图、国际严重急性呼吸系统和新发感染联盟试验网络和全球传染病防备研究协作。这项工作的目标应该是在不危及患者安全的情况下,在三个月或更短的时间内获得结论性临床试验结果和监管批准。

“这些努力的预算需要扩大好几倍。”

然后是资金问题。这些努力的预算需要扩大好几倍。还需要数十亿美元来完成III期试验并确保冠状病毒疫苗获得监管批准,还需要更多资金来改善疾病监测和应对。

为什么这需要政府的资助——私营部门不能自己解决这个问题吗?大流行产品是非常高风险的投资,制药公司将需要公共资金来降低他们工作的风险,并让他们全身心投入。此外,各国政府和其他捐助者将需要提供资金,作为一个全球公共良好生产设施,可以在几周内产生疫苗供应。这些设施可在正常时期为常规免疫规划生产疫苗,并可在大流行期间迅速改装投入生产。最后,各国政府将需要为采购和向需要的人群分发疫苗提供资金。

显然,数十亿美元用于抗击流行病的努力是一大笔钱。但这是解决问题所需的投资规模。考虑到流行病可能带来的经济痛苦——只要看看covid19扰乱供应链和股票市场的方式就知道了,更别提人们的生活了——这将是一笔好买卖。

最后,政府和产业界需要达成一项协议: 在大流行期间,疫苗和抗病毒药物不会简单地卖给出价最高的竞标者。它们将为处于疫情中心和最需要帮助的人提供并负担得起。这不仅是正确的做法,也是短路传播和预防未来大流行的正确策略。

这些是领导人现在应该采取的行动。没有时间可以浪费了。

这篇文章最初发表在《新英格兰医学杂志》的网站上。我在那里写了2015年建立全球大流行应对系统的必要性,以及2018年一种新型呼吸道病毒造成的威胁。

有道机器翻译 from

https://www.inc.com/justin-bariso/bill-gates-elon-musk-just-issued-very-different-responses-to-coronavirus-its-a-lesson-in-emotional-intelligence.html

 

老爸谈日益恶化的医患关系

老爸对现今医疗怀境和医患关系,很是忧心。老爸说:

如今,医患纠纷频发。自“医师条例”出台后,问责倒举证,并发症也要赔偿,媒体舆论一边倒,支持“弱势群体”病人一方。殊不知,医生天职就是为病人解除疾苦,对病人的善意是本质的。

近日,媒体报导,2014年6月21-22日,福建医科大协和医院脑外科三位陈大夫为一脑肿瘤病人,连续手术32小时,两人累瘫在地。而主任陈建屏,复又赴会诊。而就是他,两天前也曾连续手术26小时。网友们感叹:这是用生命在拯救生命!透支生命,挑战极限,这种玩命精神,见证医生对病人的真诚。

但现今社会,舆论导向,逆向盛行,“医闹”猖獗,这里拈两则荒谬“例证”:

1,媒体批露一妇产科医生,嫌病人“红包”给少了,就缝闭肛门以报复。谁能相信天下竟有如此低智之人--作茧自缚,果然不出几天,再发稿道歉、赔偿。

2,另一则更奇,卫生界大报“健康报”爆料:一外科主治医师患门脉高压症并脾亢,自己的外科主任,为其手术摘脾,居然误切其左肝而代之。犯下“弥天大罪”。试想,就算这术者糊涂至极,那手术组的助手和护士们,也一概如此无知!?肝脾不能区分,还是主任医师!荒诞!谁能相信这出怪剧呢?这是在欺世蒙人、毒化医患关系,给现代社会抹黑!

诚然,在“一切向钱看”的大潮中,医界也确有见利忘义者,败损了医德,失信于社会,是医患关系混沌失序的重要导因。如今,“医闹”和“保安”(准警察,也配备有电棒和手铐)对峙,司空见惯。医生被打致死、致伤、致残,屡见报道。行医者胆战心惊(甚至戴头盔上班,奇景怪象!),如履薄冰,双方防范,视若劲敌。古训:“医生有割股之心”,白衣天使圣洁、高尚,未曾料当今中国医道不尊,一至于此。难怪近来有人呼吁:还医院以清静,还医生以尊严!

这远不是早年那个从医时代了,我的隐退,或为智举。

但,老爸终究丢不开他从事一辈子的临床医学,他仍然没有最终选择下课。医学是老爸无法割舍的情结。

《白求恩式的流动手术台》

老爸在基层县医院的从医生涯自上个世纪五十年代末至今已逾50载。对于众多地处穷山僻壤的穷苦农民,基层县医院的急诊出诊服务是他们解除危急重症的希望之光,老爸常常就是那处于绝望境地的病人的救星。虽然处在和平年代(文革武斗期间除外), 乡村的简陋条件使得老爸不得不因地制宜搭建临时手术台救命,颇似战争年代的白求恩大夫的火线手术台。

文革一九六七年,在交通闭塞的皖南偏远的东河公社,有一病人脾脏破裂。老爸与另一位同仁去出诊,就在公社的办公桌上为其就地成功作了脾切除手术。手头无抗凝药,依然腹血回输800毫升,克服了无血源难题。(注:腹腔积血,纤维蛋白析出,可不抗凝。)

另一例发生在六八年,在皖南繁昌乡镇新林,一个剖腹产病患,横位,子宫先兆破裂,不敢再转运,只得就地行剖宫产。也是在办公桌上局麻手术,成功救了两条人命。

当年医疗条件原始、简陋,遇上急出诊,单枪匹马,就地手术,只能“因陋就简”:地上洒上水,台顶拉上布,点上汽油灯,加上手电筒,就把“戏”唱起来,完成多次白求恩式的抢救手术。

文革武斗期间,各派武装割据,交通中断,医院停诊,条件更为艰困。子弹是不长眼的,穿肝、伤肺、伤血管以及肾、肠胃等武斗受害者常有,也只得就地手术救命。肝、肺修补术,脑外伤手术也就是那时被逼上路的,倒也救了不少人的命。

也是由于武斗,医院瘫痪,老爸能挤出空闲,系统地钻研医学专著、学习英语和医学基础理论,使他在医学理论上有了一次飞跃。理论指导实践,实践出真知,老爸这期间从理论到临床,都达到一个全新的高度。战争促进医学发展,有两次世界大战医学跨跃发展的先例。而中国和平时期从天而降的文革武斗,却也造就了外科人才。“旁门左道”的成才之旅,可算另类的黑色幽默。

巡回医疗,送医山村

1965年,老爸当队长带领七人(含内科一人,护士助产士五人),响应中央“把卫生工作重点放到农村去”的号召,组织巡回医疗队,到缺医少药的皖南边远的烟墩公社,总共待了三个月多。除了查房、应诊、出诊,培训大队卫生员六批、创建卫生村,为烟墩街道挖水井两口,终结了此地世代饮用沟塘泥水的历史,全面提高了农村的医药卫生水平。

三个月期间,做了大小手术612例次,有胃、肠、胆、子宫、疝、痔、甲状腺、肾、输尿管、膀胱、骨科、眼科、牙科等,其中开腹121例次。这些手术是在一个偏远的无电、无正规助手、无专职麻醉师、设施极其简陋的乡镇公社卫生院的临时“手术室”完成的。这在当时是一项开创性记录。

一天下午,在一位临时赶来的县医院唯一的麻醉医生的协助下,老爸一人一下午,连台做了三例阴式全子宫切除加盆底修补重建术。这些病是中国著名的大饥荒后留下的营养不良后遗症---三度子宫脱垂(实为盆底疝)的高发病例。就在同一天,老爸还主刀做了十多例其他手术,一直手术到凌晨三点。短时间的手术之密集,工作效率之高可创吉斯尼记录。

在那段时间里,有很多事难以忘怀,老爸举了三例。

第一例,不全流产大出血,血流如注,生命悬系分秒。老爸与一位助产士在三星大队患者家中,紧急清宫止血,并快速补液,回天有术,救回一命。

第二例,膀胱阴道瘘,手术修补,12天康复出院,填补空白,开创这一手术本地区的先河。

第三例,是一中年妇人,患伤寒肠穿孔并发腹膜炎(那时此类传染病盛行,近年渐罕见),做了肠切除手术。她身无分文,给予免费。出院后,老爸单人骑着自行车,携带由他们医生自掏腰包购得的礼品,再去青阳木镇她农村家中,随访和慰问,彰显“阶级”情。这是毛时代医疗界为贫下中农服务的一个“标杆”。

【相关】

《骨科三奇例》 

《王一千起死回生记》

《医学小改进,病人大福音》

《风雨春秋: 时代造就的全科医生》

我的外科生涯

《医学小改进,病人大福音》

老爸从医五十余年,手术无数,在实践中他常有些小改进、小创新、小突破,取得十分好的效果,例举如下。

  1. 除特殊需要外,老爸所作的上千例以上胃切除基本废除预置胃管(有悖医规),无失败病例。这就要求精良吻合,完善止血,术中排空残胃以及术后严密观察,给病人少了一项不适和痛苦。

  2. 泛发性腹膜炎,在除去病灶及感染物之后,废弃腹腔引流,减少术后粘连。关键是术中彻底冲洗拭净。因引流物在腹腔内很快被纤维蛋白粘堵失效,徒增病人痛苦。诚然如胰腺炎、腹腔脓肿等,预计有持续溢漏者,则需双套管负压引流。

  3. 包皮环切术,常规术式,内外板对合不良,血肿、水肿和拆线困难等,都困扰医患双方。老爸予以改良,局部静脉麻醉,橡皮筋止血带下整齐切割,完善止血,人发或可吸收缝线缜密缝合,可获术中无痛、对合良好、愈合快、免除拆线等优点。

  4. 肛瘘挂线疗法或切除敞开,均令病人蒙受术后痛苦,且恢复期长。老爸用长效麻醉(局部注入稀释的亚甲蓝),一期切除缝合,大都一期愈合,缩短了疗程。

  5. 控制外伤感染,关键是首诊的彻底清创,而不是依赖引流和抗生素。大量清水冲洗,消除异物及失活组织,认真消毒,无张缝合,若术后炎症反应,局部辅以酒精湿敷,用或不用抗生素,按此,6小时内的外伤,几可消除感染。

  6. 腹股沟疝修补,重点在腹横筋膜,以改良的Madden术式代替经典的Bassini法,大大减轻病人术后张力缝合的痛苦,也有利于愈合,且复发率大降。近年来改用“补片”修补,更为合理,是科技的进步。

【附  老爸的部分医学论文题目】

  1. 肝外伤救治中有关问题(综述)

  2. 胃十二指肠急性穿孔的手术治疗 

  3. 闭合性腹膜后十二指肠损伤诊治体会

  4. 闭合穿钉治疗股骨颈骨折45例 

  5. 足内翻扭伤第5跖骨基底部骨折30例

  6. 点灸治疗急性软组织损伤187例临床观察

  7. 肝胆管盆式胆肠内引流1例

  8. 成人腹膜后畸胎瘤感染并发慢性脓瘘1例

  9. 针剌肩隅透极泉配合温灸治疗肩周炎分析

  10. 针剌肩隅透极泉配合温灸治疗肩周炎体会

  11. 短肠综合征的外科治疗

  12. 老年胆石症中西医结合非手术治疗

  13. 包皮环切术的几点改进

  14. 胆肠内引流

  15. 胆总管缝线结石6例报告

  16. Peutz-Jeghers皮.杰氏综合征

  17. 外科截瘫14例分析

  18. 肝左外叶切除治疗肝内结石

  19. 椎弓结核并发截瘫 

  20. 脊椎结核一次手术疗法

  21. 个案报告

  22. 软脊膜下脂肪瘤并高位截瘫

  23. 先天性脐膨出一期修补成功

  24. 胃恶性淋巴瘤亚急性穿孔

  25. 腹壁皮下异位胰腺

  26. 译文(全国译文竞赛获奖  英译汉)

          新生儿阑尾炎:早期诊断线索

          单纯手外伤,需要预防使用抗生素吗?

          全胰切除的临床经验

     

  27. 全胃切除空肠代胃术

  28. 甲状腺癌根治术

  29. 闭合性十二指肠腹膜后损伤Berne手术

  30. 重症胰腺炎病灶清除+胰床引流

  31. 肝内外胆管切开取石、病灶肝切除+“盆式”胆肠内引流

  32. 直肠癌Dixon手术  

【相关】

《骨科三奇例》 

《王一千起死回生记》

我的外科生涯

悲惨世界:大跃进纪实

立委按:上篇清明扫墓提到大跃进饿死千千万万农民的后果,引起热议。现重发老爸的大跃进纪实,其中还记述了姑姑的惨死,生不见人,死不见尸,每读至此,悲从中来。回顾历史,比较共识的是毛发动大跃进搞极左,虽然初衷有发展经济、赶英超美的良好愿望,其饿死千千万万人的后果是极其严重的,他对大跃进负有主要责任。据报道,河南和安徽饿死人最多,是极左的重灾区,这也与当时的省领导有直接关系。在执行层面,曾希圣的极左和辣手,严令不许逃荒,围追堵截,是安徽饿死人特别多的主因之一。逃荒,是千百年来,中原人民躲避自然饥荒的法宝,可当年安徽的人祸饥民连这条活路也被堵死了。从小就听过很多安徽人民对曾的畏惧和憎恨,今天查阅曾希圣百科词条,却发现这位心狠手辣的老革命,后来也做了好事,为自己的错误/罪恶做过一些补偿。责任田制度据说就有他的一份功劳。可见,人非魔鬼,变成魔鬼往往有更深的原因在。让历史学家和社会学家去探讨这些吧,我们小民所祈望的,就是从制度上保证大跃进这样的极左运动永远不再发生。愿死者安息。

人生记忆:风雨几春秋  

作者:立委父

六、悲惨世界

60年前后,中国出现了所谓“三年困难时期”(1959-1961),风调雨顺,广种不收,饿蜉遍野,此情此景,空前绝后。我们家竟有三人就此殉荒(两边父及小妹)。那是“三面红旗”在作祟,浮夸、吹牛、蛮干。“人有多大胆,地有多大产”;“跑步进入共产主义”......农业上“深耕密植”,工业上全民办钢铁,漫山遍野小高炉,砸锅炼铁,劳民伤财,国贫民荒。目睹一幕:地耕深两米(一人深),撒种无隙甚至迭加,出苗像头毛,所收不及所种,“揠苗助长”,无出其右。

一切吃的都极为匮乏,难求饱腹,为了度命和生存,只得将每月国家配给成人的22斤半“粮”,以数学的方式,分到每人每餐,无论大人小孩,都按自己的定量,用碗从食堂打来,尽锅不尽肚,吃完了事。只有一岁多的儿子例外,他每月配粮8斤,但他要一日三顿稀饭,一顿一碗(油炒盐拌进去就有味了),也要半斤,这样每月要15斤,只得从大人那里“平调”补齐,才得以保命。

荒唐的“大跃进”,要求“一天等于20年”,“大干快上”,没日没夜,天天加班到夜12点后。耀桂也是下了医生班,丢下老小在家,也要去砸矿石(全民办钢铁),精疲力竭!再有,那空空的肚子如何抵挡得住?她常常在屋后菜地里摘几片菜叶来家熬点汤(有盐无油),给我骗骗肚子,她自己却不舍得吃。我们有时利用职务之便,找找当官的使点权,批张条子,才买些“米糠”,炒熟,拌进“一吹三尺浪”的稀饭里,也真管用,好了不少。

60年春,我在县血防办公室工作,一次与管农业的县长、区长几个人,去池州开省血防会议10天。那时外面一片荒,吃的、穿的、用的“全荒”,“省会”内部却米饭、富强面、猪肉包供应,外加每天配购半斤饼干、半斤酒、一包烟,十天下来,我增了5斤体重。烟酒我没要,拿回五斤饼干,一片也不少,儿子独享。

60年,我被选中去学X光,开创这一新科目,来到芜湖地区医院放射科进修半年。那还是全社会饥荒延续期,满目凄凉,“吃”成了人们不厌其烦的话题,所有的人都是“祥林嫂”。“基本生存”这第一需求不能满足,哪顾第二、第三......社会停滞了,人们呆板了,成天处在“无奈”的求生状态下。光天化日的大街上就有从你咀上抢吃的,是当时特有的风景线。大环境下的我,当然不能幸免,我也曾为找一块大麦饼而拿着碗跑满街。政府号召“瓜菜代”,草根树皮也成了人们青睐的对象。一次耀桂抱着喂奶的老二来看我,从家里带来一斤多米,从地上找点树叉,拈几块砖头支个小灶烧一锅饭,算是一家人难得的聚餐。

人苦极了也想办法,61年我以医生这一特有身份,找县园艺场头批张条,买了一猪崽,又找粮局头批条买些糠,和徐师傅合伙饲养,五个月下来,长到100斤。一天晚上在他家宰了,二一添作五,一家一半,全部回家腌上,自产自消。从喂到宰到吃,全部在“绝密”下进行。我们俩家人的这点“优待”,就是七品官也望尘莫及。当时国家配给产妇的“标准营养”,是二斤“肉”。老二60年出生,我去食品公司买那配给的两斤肉,是浸盐透水的半边猪。半条猪呀,放在如今,绝对是不合格“食品”,焉能上餐?可见,我的这一智举,给俩家带来的何止口福,饥肠辘辘,救命清泉,民以食为天,至理名言!

59年春荒时节,父妹在家断粮断炊。无奈之下,父自己烧开水,昏倒在地,就再也没有起来,终年59岁。人的生命就这样脆弱,无病也能告终。那个时段类此事件,比比皆是,有资料说全国殉荒者达几千万。安徽是这场大跃进“人祸”的重灾区。家乡既无水、旱又无虫害,种粮的农村硬是饿死人。我们那个村子,那一春就死了好几十口。同住家里的有大伯、二姐一家,自身不保。哥在泥埠小学任教,家口带在身边,我在南陵医院工作,当时父妹主要由我赡养,几斤粮就能救老爷子命,却终成千古恨!(当时信息、交通也十分不灵。)

说到妹妹,更是往事辛酸。妹妹名楠出生在45年,难产,先天不足,后天失养(奶水不够)。五岁时痛失恩妈,一个生存弱者,是我第一个牵挂的人,我也是她唯一依恋的人。她也命大,竟然捱到60年大荒!父亲走了,她跟谁?只有我,还好,耀桂识大局,顾大情,在食不果腹的艰难时期接纳了她,把她户口移入我家,并上了南师附小。但她的生活自立和学习跟班都差一层,我对她不胜呵护、照料,她对我倚赖有加。后因我来芜湖进修,不在她身边,又处在那个特殊荒年,困难尽显,她竟盲目出走,只身来芜寻我(她心目中的唯一救星)。身无分文,一个瘦弱女孩,在那个“人抢人食”的年景,乞讨无门。140里路程,多半会饿死途中。她居然一周后来到芜湖,昏倒在车站。我得知后接回,注射葡萄糖抢救,低血糖休克(饥饿、濒死)。休养几天后,我进修客居也困难,只得乘车送回南陵家中,继续原先的生活。然家已有一老二小靠耀桂一人支撑,何况那时,工作上“少活20年干革命”,生活上糊口度命也难,如何摆平?过不久,小妹故伎重演(当然她也是无奈之举),这次再没回来了!我骑着自行车,沿着南、繁、芜公路往返搜寻,音讯杳无,就这样,兄妹间无别而终,永恒遗憾!小妹苦难的15年短暂人生,留给我心灵的伤痕,无法抚平。

摘自:《老爸 - 人生记忆:风雨几春秋》 第六节

【相关篇什】

磕山老家行

悲惨世界:大跃进纪实

清明后回老家给大跃进饿死的爷爷和姥爷扫墓

大跃进亲历见证人说(视频录像)

《老爸:救死扶伤,实行革命人道主义》

【立委按】  我一直觉得,老爸就是时代造就的现代华佗,就技术之精湛、经验之丰富、医疗面之广、救助病人之多、服务时间之长,可以说是前无古人(maybe 除了华佗),后无来者。 老爸从基层行医至今50年了(如今年过七旬依然半日在岗),遇到过各种状况。凭着他过人的才智、精力和手巧,因地制宜,胆大心细,不知道救回多少人命,练就全科绝技。老爸自几年前大手术后,元气大伤,加上年岁已高,精力不济。可他一边上班,一边总想把自己一生的经验和见闻总结给后人,可老有力不从心的感觉。我说,篇不在长,点滴记载,也是宝贵的资料,可以给后人以启迪,鼓励他把自己的亲历写出来。下面的片段算是一个笔记提纲,希望日后补全。

我的人生记忆续篇

我的外科生涯------院外集锦(客坐执业). 

                                            老爸 2011-10-31

我的外科生涯,从60年代初至今,从不言止,已逾50年。除我前后供职的三所医院外,涉及到”坐执业”的外院有几十家,包括县、市各级医院, 市四院、六院、新芜、马塘、江东、冶炼厂等,加上出诊、急救以及下乡巡回医疗就地手术和远程会诊等。所以,我的外科生命,堪称最长,手术数量亦多,手术科目也广 (普外、骨科、泌尿、妇产、神经、五官、胸外等)。而且院外手术例次可能超过供职医院的总和。

直到2007年6月,我的健康进入了拐点,亮起了红灯:胃cancer 大出血,去协和医院做了全胃切除外加因胆囊结石附带同时切除了胆囊。术后恢复尚算顺利,术后病理:胃Ca,低分化,累及深肌层,所检胃周18枚淋巴结全阴性,可谓”早期”。术者放话:无需放疗、化疗。凭这,对癌魔来说,是化险为夷,雨过天晴;但并不是完全的柳暗花明:体重一下子下来15公斤 (从70Kg降至55Kg)。虽然没有出现狭窄、返流、倾倒、消化不良等常见并发症, 但少了胆、胃两个器官,人也一下子衰老了许多。实际上,生命进入了倒计时,精力体力也差多了,生理机能上也总有这样那样的不是。好在可以维系最低水平的”健康”运转,也还一直在上半天班,并且还可以上台做3-4小时手术。此间还于去年6月至8月去了美国,经历连续14小时旅途劳顿考验。至今,术后已过4年多了,可能有幸躲过癌症这道坎,但留下的也算是风烛残年,更需备加珍惜。

这以后,除也还”救台”几次外,基本停歇了院外会诊手术。但供职院手术一直没有停。

 

院外手术占我外科生涯过半。在此,回顾那院外客坐执业或救台,很有可圈可点片段,速记如下。

【急救出诊】下面拈几个案例, 与各位分享。

一例是东河脾脏破裂,我与另一位同仁去出诊,就在公社的办公桌上为其就地成功作了脾切除手术,称奇的是腹血回输800毫升,克服无血源难题。这血,无须抗凝亦无法抗凝(解决手头无抗凝药的又一难题)。虽然这是去纤维蛋白血,不凝, 但当时这是首创, 路是被逼出来的,”时势造英雄”。理论支持和认可,是后来才逐渐见诸文献。

繁昌新林剖腹产,横位,子宫先兆破裂,不敢再转运,只得就地行剖宫产,办公桌上当手术台,顶上拉布挡灰,地面洒消毒水,吊上水,局麻下手术,救了两条人命。

文革武斗期间,各派武装割据,交通中断,医院停诊。子弹是不长眼的,枪伤是乱来的,穿肝、伤肺以及肾、肠胃等,也只得就地手术。肝、肺修补术,也是那时逼上路的,倒也救命,好歹有功无过 (真的救不过来,也少有问责的, 然多数还是成功的),让我大长技艺,医学理论也是跃升阶段,实践出真知。

这是为人民服务的毛时代,所有这一切,都不发生经济效益.那时也不追求收益。

1985年8月来长航医院后, 职工医院,工作不是满负荷,有闲,有客座任职可能。新芜区院外科顾问三年,直到该院改制,变为民营。每周六上午专家门诊,再就是包管病房, 那期间所有外科手术,都是我主持的。日常手术几乎全都到场。该院的院长患胆囊结石症,手术就是在本院进行的。

市结核病院,地处郊区,要担负一方百姓的综合医疗。这是专科医院,外科是零,院方找我,请求包揽这个院外科工作。我也正处于”精力有余”之时,于是,我组织全市各区、厂医院的外科主任们,请我院放射科主任为其排班总管(相当于住院总)。日夜值班者来自4、5所医院,有手术,我本人与我的麻醉医生就被该院院车接去出诊。就这样,在一年多时间里,做上百台手术,涉及到外、妇、骨、泌尿各科,有胃、胆囊、阑尾、腰椎间盘、子宫、骨折等,也还培养了一批外科人才。

四院,市精神病院,外科骨科妇产科,不是他们主旨,人力不济。他们综合医疗也是不可或缺的,所以,他们遇到此类课题请我应聘出诊,为该院作过剖宫产、胆总管结石等手术。

马塘区医院,在城南,较偏,是城乡结合部,虽也是二级医院, 但技术力量不足,也常有需求高诊指导。我与我的麻醉医生,去救台或手术,一急性化脓性梗阻性胆管炎,为其急诊手术,成功救治。

.赭山分院,江东厂医院,是在城内的一级医院,是我近邻,早晚叫我方便,基本上外科方面的事,全由我包揽了, 历时多年, 是我的“后院”或“自留地”。虽然他们也都有副主任医师掌门,还少了独立撑家能力,我扶持他们是“双赢”互惠,家乡熟人老病人慕名来找我, 为了方便和节约,大多就在此解决,做了大量手术。

孩子五舅直肠癌,从合肥过来投我,在江东作的根治术,恰遇骶前大出血,花了7小时,让他过了这一关。

老县一胸椎骨折并高位截瘫,在赭山医院做的椎管探查和减压。还为该院一医生做了剖腹产,也为他们做阴式全子宫切除示范。

大量周末出诊,三里、弋江、计生站、何湾、许镇、城关等医院,我成了他们的常年顾问,几乎每周双休日,轮回去帮助手术。

【随时救台】

 牯牛山民营医院,一台双侧输尿管结石,术中无法找出结石,他们院长就在公路外等盼,我打的,一小时不到,就上台了,取出双侧结石,通畅尿流。

弋江院一横结肠癌亚急性穿孔腹膜炎,夜间三点,电话求救,我只得出门打的,也是一小时上台,天亮下台,一期切除病灶根治,还获得长期疗效,救了病人,也救了医生,他们都是我的门徒啊。

【唐山抗震医疗】

1976年“7.28” 唐山大地震,官方公布死亡人数是24万。

我8月3日受命赴唐山抗震医疗,在芜湖上车前, 中央来电:伤员南下。我作为队长,组织繁、泾、南三县25人医疗队外加25人后勤保安,任务是接收100位伤员。当然,一切费用,全由国家包下来。在铁路旁的峨桥设点,去南京车站上卫生专列护接,那是一场严肃的政治任务,也是骨科专业技术考量。三个月下来,我们完成这一光荣任务,全部安送回乡。

转来的大多是骨折,周围神经损伤和脊髓损伤并截瘫,手术不是很多,大部是康复治疗。

这次大型医疗活动, 芜湖地区就有几十个点, 骨科权威就有解放军127医院的许竟斌主任和原弋矶山医院的仇乃贻主任 (两次赴南也门医疗队长)。各医疗队长定期碰头会,多次研讨所有临床问题。我既是队长,也是骨科中坚力量,参与指挥全程活动。也是一次历史功碑。

【远程会诊】

在美的儿子一次网上聊天,说偶发”心口”绞痛,医生让他做胃镜,查心脏,绝然没有想到他是胆绞痛。一个健康中年人,突痛又突消,我在这万里之外大洋这边,想起他早一年体检曾发现有胆囊结石, 当时无症状,不以为然, 自己也确信与此无关。我凭职业敏感和经验,一口说出: 这是胆石绞痛, 可手术。他再去看医生,提醒他, 再做超声波检查, 明确了诊断, 行腹腔镜手术, 大事告成, 尔后多年,一直无事, 根除病患。

也有多次类似事件,我们护士长来电说,她老公突然剧烈腹痛,我知道他有胃溃疡出血史,自然想到是穿孔腹膜炎,明确告知这一诊断,令其立马去医院,腹部透视拍片、查血等,作术前准备,我也同时奔去急诊。虽然膈下没有查出“气层”,还是果断施行手术,切胃根治,这过来的十多年,一直健康劳动、生活。

我的院外执业、客座手术,涉及那么多科,是我处的那个时代的产物。按如今,既不够规范,也不足严谨,是不可取的。不过,还是救了不少人,治好了不少病,是我行医史上不可磨灭的业绩,对社会是一种贡献。得救的那些病人,也终身难忘。我这一生,有过无数不眠之夜,寝食无序。但救人成功之自我满足,弥足自慰;我无怨无悔。

晚近,随着科技高速发展,医学也有跨越式进展,日新月异,方兴未艾。

药械也有革命式发展、翻新。新药和尤其是骨科器材,令人耳聪目明。

像吻合器、闭合器以及疝补片 (repair mesh) 等,我因一直在岗,所以,也赶上了这趟”末班车”,而我们这一代人的多数,被堵在新技术门外。不过,现已通行的腔镜(Laparoscopy)外科,微创技术 (Minimally Invasive),限于设备,对我还是个盲区。

医学上近年来,出现大量新概念、新词汇,如转化医学(Translational Medicine TM),靶向治疗 (Targeted Therapy TT),循正医学(Evidence Based Medicine EBM)等。我与时俱进,更新知识,力争跟进。理论和临床,都在发生变革。

按着现代临床医学精细分工的要求,大手术后的这5年来,我基本上放弃了普外以外的其他相关专业工作,如骨科、妇产科甚至泌尿外科等。这是让贤于后来高手!也彰显了社会的进步。

我现在的头衔是“普外” (General Surgery) 主任医师。坚守这个阵地,在有生之年,永不落伍,永葆“青春”!

我的长孙女在同济医科大读本硕博8年制的大4,可望成为我家下一个博士。她高起点来接我的班,去年春节假期来跟随我见习、实习,白大衣一穿,俨然是21世纪新式大夫。这接力棒由她传承,我夫复何求。诚然,这个职业,是奉献,亦是风险和劳累;但它最能展示人生的价值!

【后记】自一年多以前去美国探亲, 我就想写出“美国行”和这篇“客座执业”。但一直不行,一是我的左臂膊痛,不让坐电脑。二是常头晕、心悸,精神不支。一年多了,一直搁下来了,让我老是放不下来。近来也怪,健康上这两事,自己好了。才潦草记述如上,感到很粗陋, 日后若有精力,再给以细述补全。

2012-02-12

【相关篇什】

老爸【风雨春秋:人生记忆】系列

老爸 - 人生记忆:风雨几春秋

老爸-我的外科生涯

【立委:朝华午拾:父亲的行医生涯】  

 

删除 |赞[7]jiahui2008   2012-2-21 09:51
医者,仁术也。祈求社会给予医者应有的尊严;也祈求医者给予患者人的尊严。

删除 |赞[6]水迎波   2012-2-21 06:35
见过身边有像你老爸这样的好医生,不过随着他们那一代人的退休,现在这样的医生越来越少了。祝你老爸健康长寿。

删除 |赞[5]刘全慧   2012-2-20 20:39
不是黄金时代,而是英雄时代。

删除 |赞[4]王婷   2012-2-20 18:04
祝福,好人一生平安

删除 |赞[3]王婷   2012-2-20 18:03
文革武斗期间,各派武装割据,交通中断,医院停诊。子弹是不长眼的,枪伤是乱来的,穿肝、伤肺以及肾、肠胃等,也只得就地手术。肝、肺修补术,也是那时逼上路的,倒也救命,好歹有功无过 (真的救不过来,也少有问责的, 然多数还是成功的),让我大长技艺,医学理论也是跃升阶段,实践出真知。

删除 |赞[2]ddsers   2012-2-20 17:53
人有大爱,天有大成。

删除 |赞[1]zhangcz07   2012-2-20 17:16
祝福!

【老爸:毛时代的送医下乡制度】

科技界有说,鼓励科技人员多岗、多职,以充分挖掘可贵的人力资源为社 会服务。可现行的”执业”,是墨守定岗、定科、定点,不可逾越雷池半步。但市场经济的今天,专家”走穴”也顺势萌生,使”客座”变味,让白衣天使的圣洁蒙诟。我本人经历的毛时代的送医下乡, 则别具风格.

供职县医院的29年(1956-1985)中,社会的人力资源匮乏,医生少,外科医生更少,能解决一些难题的手术医生,30多万人口一个县,也只两三个人。也就是说,这个人群所有的手术病人,基本上就是要这二、三个人来完成。加上那时的经济和交通的限制,极少有外流的。那么除了来院的以外,还有急诊来不了的,出诊、会诊,就地手术,也就成为必然。尤其是1968年以后,我作为外科负责人,出诊、会诊就更为频繁.

这里有一个花絮, ,那时也刚有一辆救护车,农村乡下沙石公路,能有40码速度【疑笔误,当时的路况也就20mile时速吧】就了不起了,而且多是我与司机俩人.久而久之,我没有进驾训班,也能”无照”开车(那时交通规则不严,路上车辆也少), 以后几十年来,我驾车出诊足有一万公里,驾龄长达30多年,可比一专职司机。也是在我手术后,健康和年龄的因素,才让我错过了开车时代。

不过,那是”为人民服务”时代,院外手术,从来就没有出诊、会诊费用这一项目,我们请上级医院来会诊,也是如此,就是以出公差回院报销差旅费,连吃饭也要丢下2毛钱饭费,所以,那个年代,再有名的医生,也难有一丁点工薪外收入.更何谈”走穴”!

下乡巡回医疗就地集中手术是当时送医下乡的一个制度性的有效措施。

1965年最后三个多月100天里,我这个队长带领5-7人的医疗队,在烟墩公社,光做大小手术612例次,其中开腹手术121人次,有胃、肠、胆、子宫、疝、痔、甲状腺、肾、输尿管、膀胱、骨科、眼科、牙科等。有一天下午, 趁有一位麻醉医生在帮忙,连台做了三例阴式全子宫切除术加盆底修补重建术(那个中国著名的大饥荒后,留下营养不良后遗症---三度子宫脱垂(实为盆底疝)的高发病率),直到如今,也是难能可贵的高工作效率,更何况是在一个偏远的公社医院临时性“手术室”完成的. 也就是这天,一直手术到凌晨三点,另外还做了十多例其他手术。印象深刻的有下面几个实例。

一例不全流产大出血,血流如注,分秒面临危局,我与一位助产士在三星大队她家中给紧急清宫并快速补液,回天有术.救回一命.

一例膀胱阴道瘘.手术修补,12天康复出院,填补空白,开创这一手术先河.

有一例中年妇人,患伤寒病肠穿孔并发腹膜炎, 做了肠切除手术,她身无分文,给予免费、募捐,出院后我本人骑着自行车,携带由我们医生掏腰包的礼品,再去青阳木镇她农村家中随访和慰问.彰显“阶级”情,这是毛时代医疗界为贫下中农服务的一个”标榜”.也是真现了”白衣天使”原味。

【老爸:毛时代的王一千美谈】

【立委按:毛泽东时代问题多多,但 也不是一无是处,那是个相对单纯的社会,为人民服务不仅是最高圣旨,也是很多人的身体力行。毛时代最大的亮点之一是基层的医疗:旧中国缺医少药的偏远落后的农村,通过送医下乡(巡回医疗)、合作医疗、赤脚医生等制度的建设,以及政府民政局的资助,局面逐渐改善。记得小时候老爸老妈到农家出诊常常带上我们孩子,我们也因此走遍全县的几乎每个角落。毛的医疗为无产阶级服务,为贫下中农服务的指示,惠及了社会最底层的农民。老爸的回忆对此有生动描述,辑录一则如下。】

那是1968年,何湾肝破裂,一个13岁丫山男孩,从牛背上摔下,右肝破裂,腹内大出血,要开胸才能完成手术,还要输血,只得让救护车开回县城(那时就这么一辆车可用)拉麻醉机和输血员,这简陋山路70多里,山区雾多,一来一去要4个多小时,不得已,从腹腔大胆地首次抽取积血回输达1700毫升(这里也有一个理论问题:就是混有胆汁的血能否安全回输,这也在后来的文献上陆续论述肯定的)才维持这段”等待”时间的血液动力学运转,也终于就地全麻开胸开腹,作了肝修补手术。

术后恢复倒也算“顺利”,术后9天,本拟翌日出院,可是肝内胆道大出血并发症来了,很典型:一阵胆绞痛,血压下来,面色苍白、贫血、休克,反复发作,经一天观察,保守治疗无效,乃果断转来县医院,再做肝固有动脉结扎加胆总管外引流,手术成功.

这手术很经典:术中扪得肝动脉震颤,显示在出血,扎后震颤立马消失,胆总管出血表现延缓、仃止. 终于救回了一命.这是当时的县医院外科水平的”奇迹”,绝对前沿。

当时,我们月薪才不到50元,这例前后花了一千多元,我们戏称他叫”王一千”,但农家哪能出得起这天文数目,好在毛”救死扶伤”时代,贫下中农,一笔勾销,这,在社会上传为美谈.