立委硕士论文:世界语: 语言学特点及其研究价值 (2)

世界语到汉语和英语的自动翻译试验
— EChA机器翻译系统概述

世界语: 语言学特点及其研究价值

在进入EChA系统的细节和探讨机器翻译的一般理论和方法之前, 我们专列这一节讨论世界语本身, 这对说明本系统的设计思想和具体方法是很必要的. 毫无疑问, 我们的讨论主要是从语言学角度着眼.

世界语(Esperanto)是波兰的语言大师柴门霍夫博士( L.L.Zamenhof 1859.12.15 – 1917.4.14 )于1887年在印欧语系的基础上经过艰苦研究提出的一个人造语方案. 由于其科学, 简明, 逻辑性强, 由于日益增长的克服语言障碍的国际需要, 也由于其维护世界和平, 增进各民族相互了解, 实现世界大同的崇高理想的感召, 它逐渐为人们所接受. 目前, 世界上有2000多万人在学习和使用世界语. 世界语早已脱尽了人造的斧痕, 走上了自然发展的道路. 它不但能写也能说, 不但适于表达精密的科学思想, 而且在文学上也取得了令人赞叹的成就. 从莱勃尼茨的万国通用文字的设想开始, 先后提出的人造语方案达150多种, 唯有世界语经受住各种考验生存下来了. 现在, 越来越多的人认识到世界语作为国际辅助语的独特价值. 有些国际性学术会议(如控制论大会)已经采用世界语作为工作语言.

世界语中除数量有限的虚词外, 其他词都有非常规则的形态变化, 借以表现该词的词性, 格, 数, 时态, 语态, 语式, 分词形式等语法信息. 另外还有一整套前缀后缀, 用以表现词汇意义上的细微差别和修辞色彩. 世界语是典型的黏着语, 词尾和语缀的意义单一, 可以叠加. 这套词尾和语缀设计得非常巧妙, 规则, 特别容易掌握, 而且也非常适合机器的递归加工.

(EChA的削尾算法就体现了这种递归加工的优点, 见本文第5节.) 世界语没有语法同形词, 句法关系一目了然, 这不论对人还是对机器的识辨, 都是一个极为有利的条件(民族语机器翻译中同形判别的问题在这儿根本不存在了). 同时, 世界语的词类转换也特别灵活, 只要逻辑上说得过去, 不致引起误解, 同一个词干可以根据句法需要, 通过词尾变化随意改变词性. (我国古汉语词类活用也比较自由, 在一定程度上具有类似的灵活性, 可惜这种活用没有明确的形态标志, 常常要靠逻辑语义的分析才能确定.)

世界语的词尾形式并不很多, 但却很完备, 可以和形态发达的语言相媲美, 这一点我们不能不为之惊叹. 拿格来说, 世界语只有普通格(零形态)和目的格(加词尾-N)两种, 但由于它把词性和格的用法巧妙地统一起来, 再加上有介词这种分析形式的后备, 表达起来跟形态丰富的语言一样灵活自由. 俄语是现代形态最丰富的语言之一, 它有六个格. 粗略地说, 它的一格(主格)跟世界语普通格对应, 二格(属格)跟世界语形容词–姑且叫做形容格吧(加词尾-A)对应, 三格(与格)在世界语中没有相应的屈折形式, 一般用介词AL来代替. 四格(宾格)对应于世界语的目的格. 五格(工具格)跟世界语副词–也姑且叫做状格吧相对应. 六格是前置格, 跟前置词O,Ha,B等搭配, 它本身并不表示特定的语义关系. 有意思的是, 世界语介词后可以跟崐普通格和目的格两种, 前者表示静态, 后者表示动态(方向). 比较俄语的类似用法, 世界语的简洁和完备的特点是很明显的.

世界语基本语法规则共16条, 原则上没有例外.[0] 由此人们也许会推断这门语言很简陋, 刻板, 缺乏表现力. 这是一个极大的误解. 这里涉及世界语的另一个非常突出的语言学特点, 就是它兼有分析性语言和综合性语言的要素(虚词和形态都比较丰富), 同一种语义既可以用分析形式(借助于虚词), 又可以用综合形式(借助于屈折变化)来表示—-当然, 这两种形式并不等同, 它们体现了不同的风格. 由于这一特点, 世界语兼容性强, 文体多样, 特别灵活, 富于弹性和表现力. 如果作为目标语, 它最能维妙维肖地模仿原文的语言特色. 它既可以反映语序自由, 文体柔美的斯拉夫风格, 又可以表现形态缺乏的语言(如汉语和英语)的单纯, 严谨, 密集的特点. 下面我们举几个例子来看一下分析形式和综合形式在世界语中的兼容并存情况:

分析形式                              综合形式

  1. 时态: Mi ESTAS skrib-ANTA. Mi skrib-AS. / Mi skrib-ANTAS.

I AM writ-ING. 我 “在” 写字.

  1. 语态: Ghi ESTAS limig-ITA. Ghi limig-ITAS. / Ghi lim-IGHAS.

It IS limit-ED. 它 “被” 限定了.

  1. 词义: Tio estas MALGRANDA (ETA) Tio estas sekret-ETO.

sekreto.

That is a LITTLE secret.

那是 “小” 秘密.

  1. 介词与副词(状格):

Li parolas EN (PER) Esperanto.
Li parolas esperant-E. Li parolas Esperant-ON.

He speaks IN Esperanto.
He speaks Esperanto.

他说世界语.
他 “用” 世界语说话.

  1. 介词与格(目的格):

Shi parolis POR 30 minutoj.           Shi parolis 30 minut-OJN.

She spoke FOR 30 minutes.             她说了30分钟.

  1. 分析形式向综合形式的转换:

LAU kutimo ……………LAU-kutim-E…kutim-E

这种分析形式和综合形式并存的情形在世界语中极其普遍, 这一点跟民族语不一样. 虽然没有绝对不用分析形式的综合性语言, 也没有绝对不用综合形式的分析性语言, 但是, 每一个具体的民族语言总是以一种形式为主, 而且在多数场合总是一种形式排斥另一种形式, 一般不允许并存.

总之, 跟人们通常想象的正相反, 世界语是高度灵活的, 表达方式极其多样, 且能互相转换. 这种高度灵活性正好适应了人类思维模糊性的特点. 灵活性与规则性的高度统一, 这就是世界语的真正奇迹.

人造语言的规则性容易为人理解. 关于灵活性, 再补充几点. 由于篇幅关系, 我们不打算展开, 必要时辅以一两句例证.

  1. 在世界语中动词的及物与不及物的界限模糊了.

Mi IRAS. / IRU vian propran VOJON!

I GO. / GO your own WAY!                 我行走. / 走你自己的路!

La tuta homaro PAROLOS nur unu LINGVON.
/ Mi PAROLAS esperante (en Esperanto, per Espernato).

The whole mankind will SPEAK only one LANGUAGE.
/ I SPEAK in Esperanto.

全人类将说仅仅一种语言. / 我用世界语说话.

  1. 直接宾语(所谓宾格)与间接宾语(所谓与格)的界限模糊了.

informi ION al IU / informi IUN pri IO

tell sth. to sb. / tell sb. about sth.   向某人告诉某事 / 告诉某人关于某事

  1. 宾语与状语的界限模糊了. 世界语语法规定: 目的格(即通常所谓宾格)也可以表达某种状语意义(参见基本法规第14和第13条).

Mi invitas vin VOJAGHI kun mi PEKINON.

I invite you to TRAVEL with me TO PEKING. 我邀请你和我一起 “旅游北京”.

  1. 词缀与词根的界限模糊了, 从而派生词与合成词的界限模糊了. 同时虚词与实词的界限也模糊了.

sekret-ET-o / ET-a sekreto       JES, / mi JES-as vian opinion.

little secret  小秘密            Yes, I agree with you. 是的, 我同意你的意见.

ANTAU-vidi / Sinjorinoj ANTAU-as.  Kred-IND-a
/ ne-IND-a , IND-igi , sen-IND-ulo

foresee / Ladies first.            believ-able
/ not worthy, make worthy, good-for-nothing

  1. 万能介词JE的设置. 人们在表达思想时, 常常只意识到从属成分与中心成分有某种朦胧的修饰关系, 但却说不出, 往崐往也不必要说究竟是何种语义联系. 为了适应人类思维的这种模糊特点, 柴门霍夫引入介词JE. 这是一个很有见识的创造. (表达这种模糊关系还可用屈折形式的目的格或副词(状格), 见基本法规第14条.)
  2. 词性与格在用法上的统一. 词性和格都是根据词尾 “入句而后定” 的动态句法特征, 都能表现比较抽象的语义关系, 可以相互补充. (这跟分析形式的介词短语不同. 介词除了上述JE外, 一般用来表示较为具体和确定的语义关系.)

Mi skribas plum-E.
CF: (俄)                       (五格)

  1. 极其灵活的词类转换.

La FLOR-OJ FLOR-AS.     Li KANT-AS italan popolan KANT-ON.
Mi estas GHOJ-A. Mi GHOJ-AS.

The flowers blossom. .  He sang an Italian folk song.
I am glad.

  1. 词序的自由.

Mi amas vin. (106) / Mi vin amas. / Vin amas mi. (108)
/ Vin mi amas. (111) / Amas mi vin.  / Amas vin mi.

I love you. 我爱你.

  1. 构词的灵活. 派生词: 词缀的丰富及其黏合特点; 合成词: 词根与词根的自由复合.

Shi rid-AS. Shi rid-ETAS. Shi estas rid-EMA.
Shi estas rid-EMULO. Shi estas rid-EMULINO ( rid-EMINO ).
Shi estas rid-EMULINETO ( rid-EMINETO )…….

她笑.      她微笑.        她爱笑.
她是爱笑的人.        她是爱笑的女人.
她是爱笑的小女孩儿 …….

INTER-lingvo   中间语言

fonto-lingvo         celo-lingvo       ponto-lingvo
naci-lingvo       internaci-lingvo

源语                 目标语            媒介语(桥梁语言)
民族语             国际语

  1. 完善的时态语态系统和精巧的相关词表. 世界语的时态语态系统和相关词表是两项绝妙的创造. 它们是如此地精巧完善, 富有逻辑的力量和美, 每一个世界语者都象化学家欣赏元素周期表一样体验到这种美, 并为此感到自豪. 借助于唯一的一个助动词ESTI, 世界语能表达各种复合时态语态. 相关词表所能表达的语义的简洁和丰富更是无与伦比的.

世界语的这些特点给人们的自由创造留下了很大的余地, 为人们充分发挥自己的语言才能提供了最好的条件. 这种灵活性并不影响作为世界语基础的16条基本法则的不可动摇的严格性. 在这儿, 自由和约束达到了完美的统一. 在世界语国里, 每个人都在不同程度上是创造者, 每一个世界语者都体验到这种创造的乐趣. 人们再也不是习惯的奴隶了.

然而, 不能不承认, 世界语的灵活和自由给机器的自动处理带来了一定的困难. 我们在研制EChA系统的过程中, 深深感到, 与民族语相比, 以世界语为源语的机器翻译虽然有其容易的一面, 也有其特有的难处, 总之要比我们预料的要复杂得多. 容易来自其高度规则性, 困难则源于其高度灵活性.

世界语作为人们唯一实际使用的人造语言自然有它独特的研究价值. 拿它与民族语作对比研究, 我们会得到很多有益的启示. 由于其独特的地位, 人们在研究思维与语言, 民族与语言, 社会与语言, 个体与语言, 信仰与语言等等的关系, 以及探讨语言的共性, 语言的本质, 语言的前途(未来社会的语言), 语言的形式和内容, 语言的类型, 语言的教学等问题时都可?
能在研究世界语的过程中获益. 另外, 世界语本身的发展也需要语言学者对它作科学的研究和总结, 这不但有益于这门语言健康的发展, 有助于世界语语言学理论体系的建立, 同时也会丰富一般语言学的理论. 语言学者对世界语的理论研究虽然早已开始, 但还远远不够.

对于机器翻译工作者, 世界语还有一层特殊的意义, 就是世界语作为民族语间机器翻译的媒介语的价值.[1] 这可以从两方面看: 1) 按照机器特点对世界语作必要改造, 定义一个作为媒介语的世界语子集, 再辅以一套高度形式化的成分体系. 这个设想我们在第一届中国世界语大会上提过. 我们也确实设计过一个以世界语作为媒介语的英汉机器翻译规则系统. 虽然由于时间等原因没有能上机试验, 但我们相信该方案是可行的, 也是值得尝试的. 拿世界语或其子集作媒介语, 尽管还远远不是最理想, 但如果研制的是印欧语系间多语言自动翻译, 或者是以这些语言为源语的多对一系统(如英/法/德/俄–汉系统), 相信会带来很多方便. 2) 虽然不直接采用世界语作媒介语, 但在设计机译媒介语时, 认真吸取世界语的优点, 可以少走弯路.

_______________________________________________________________________

附注: [0] 为便于查对, 这里把世界语16条基本法规转抄如下:

(1) 不存在不定冠词, 只存在定冠词 (LA), 其性数格不变.

(2) 名词词尾为 “-O”, 复数形式加词尾 “-J”. 只存在两个格: 普通格和目的格; 后者由普通格加词尾 “-N” 构成.

(3) 形容词以 “-A” 收尾, 其格数与名词同. 比较级用PLI和连词OL, 最高级用PLEJ.

(4) 基数词(没有词尾变化)是: UNU 1, DU 2, TRI 3, KVAR 4, KVIN 5, SES 6, SEP 7, OK 8, NAU 9, DEK 10, CENT 100, MIL 1000. 几十和几百由数词简单合并而成. 序数词加形容词词尾; 倍数加后缀 “-OBL-“, 分数加 “-ON-“, 集合数词加 “-OP-“, 分配意义用介词 PO. 此外, 数词也可以有名词和副词形式.

(5) 人称代词: MI, VI, LI, SHI, LI, GHI (代物件或动物), NI, VI, ILI. 其所有格形式加形容词词尾构成. 数格的变化与名词同.

(6) 动词没有人称和数的变化. 动词的各种形式: 现在时用词尾 “-AS”; 过去时 “-IS”; 将来时 “-OS”; 假定式 “-US”; 命令式 “-U”; 不定式 “-I”. 分词(有形容词和副词的意义): 主动现在式 “-ANT-“; 主动过去式 “-INT-“; 主动将来式 “-ONT-“; 被动现在式 “-AT-“; 被动过去式 “-IT-“; 被动将来式 “-OT-“. 被动语态的各种形式, 都借助于ESTI的相应形式和所需要的动词的被动分词构成; 被动式所用的介词是DE.

(7) 副词以 “-E” 收尾; 各比较等级与形容词同.

(8) 所有介词都要求普通格.

(9) 每个词读写一致.

(10) 单词重音永远在倒数第二个音节上.

(11) 合成词由词与词简单合并而成(主要的词放在后面); 语法词尾也被看作独立的词.

(12) 有其他否定词的时候, 就不再用 NE.

(13) 为了表示方向, 单词加目的格词尾.

(14) 每个介词都有确定不变的意义. 但是如果我们需要用一个介词, 而从意义上看不出应该用哪一个, 这时我们就用没有独立意义的介词JE. 介词JE也可以用没有介词的目的格来代替.

(15) 所谓外来词, 即大多数语言取自同一来源的词, 在世界语里不加变化地应用, 只需照世界语拼写法书写; 但如果一个词根派生几个不同的词时, 最好只不加变化地采用那个基本词, 并由此按照世界语的规则构造出其他的词来.

(16) 名词和冠词末尾的元音字母可以省略, 用省略号 ‘ 来代替.

 

[1] 请参看 <<巴贝尔通天塔必将建成>> (刘涌泉 李维, 中国第一届世界语大会论文. 其中第四节专门讨论了世界语作为机译媒介语的优点, 缺点, 可能和前景.)

 

 

【相关】

硕士论文: 世界语到汉语和英语的自动翻译试验
立委硕士论文:1. EChA概况
立委硕士论文:2. 世界语: 语言学特点及其研究价值
立委硕士论文:3. 层次递归成分体系
立委硕士论文:4. EChA机器词典及词表
立委硕士论文:5. 世界语形态分析
立委硕士论文:6/7 世界语句法分析
立委硕士论文:8. 英语形态生成
立委硕士论文:9. 目标语调序
立委硕士论文:10. EChA 试验结果的分析
立委硕士论文【致谢】【参考书目】
立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

《立委随笔:一小时学会世界语语法》

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

立委硕士论文全文(世界语版)

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

【关于机器翻译】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据