立委硕士论文:英语形态生成 (8)

世界语到汉语和英语的自动翻译试验
— EChA机器翻译系统概述

英语形态生成

加尾算法跟削尾算法正好是逆过程. 建立一个完全的, 符合实用系统要求的英语加尾算法并不困难, 因为英语的形态比较简单. EChA把汉语形态修辞与英语形态生成放在一处进行.

原语和译语的对比差异是建立语言转换规则的依据. 这种对比差异可以归纳为下面五种情况: 1) 一一对应; 2) 此一彼多; 3) 此多彼一; 4) 此有彼无; 5) 此无彼有. 我们以世界语到英语的形态转换分别举例如下:

1) 一一对应

世界语派生副词(由逻辑类为形容词的词干加 “-E” 尾构成)
———>英语相应形容词加 “-LY” 尾.

例: diligent-E —-> diligent-LY ; serioz-E —-> serious-LY ;
sincer-E —-> sincere-LY. (063)

例外: bon-E —-> well (045)
( 不是 good-LY, 这种情况在词典一线入词类词义区分表处理. )

显然, 一一对应的情形最好办.

2) 此一彼多

世界语不定式 ——–> 英语动词原形 或 TO + 动词原形
世界语条件句(谓语动词以 “-US” 收尾) ——–> 英语三种形式(过去, 现在, 将来).
例: 1. Se mi sci-US hierau, mi certe ven-US. –
—> If I HAD KNOWN yesterday, I certainly                                                                                SHOULD HAVE COME. (与过去事实相反的假设)

  1. Se vi est-US mi, kion vi far-US? —-> If you WERE me, what WOULD you do?                                 (与现在事实相反)
  1. Se vi ven-US morgau, vi shin vid-US.
    —-> If you SHOULD come tomorrow, you WOULD see her.                                                                 (与将来事实相反)

这种情况最麻烦. 机器翻译中的多义现象盖源于此. 如果上例没有明确的时间状语, 那只能靠跨句上下文去推测, 这对机器实在太难了. EChA遇到这种情况, 就干脆一律用 “WOULD” 代替 “-US” (050), 这虽然不大符合英语语语法规范, 暂时也只能这样了. 好在这样转换并不造成误解.

此一彼多另一个常见的例子是, 世界语现在时简单式(-AS尾)对应于英语一般现在时和现在进行时两种. 虽然世界语复合时态有与英语现在进行时对应的形式( ESTAS x-ANTA ), 但是世界语的节约原则要求人们尽可能少用复杂形式. 我们一时还找不出足够可靠的形式规则, 来决定 “-AS” 究竟何时译作一般时态, 何时译作进行时态. EChA目前一律以一般现在时译之, 这使得部分译文不是很确切, 但并不造成误解或费解. 如:

Kien vi ir-RA? (158) —-> To where DO you go? ( CF: Where ARE you GOING? )
Chu kredas, ke mia koro flam-AS? (110) —-> Do believe, that my heart burn-S?
( CF: Do you believe that my heart IS BURNING? )

3) 此多彼一

世界语形动词或副动词的各种形式 ——–> 英语分词的相应形式.

-ANTA 和 -ANTE —-> -ING ; -INTA 和 -INTE —-> HAVING+过去分词 ;
-OTA 和 -OTE —-> TO BE+过去分词; 等等.

[例] KURANTE sur la strato, li falis. (091) —-> RUNNING on the street, he fell.

Laboristoj estas KONSTRUANTAJ fabrikon. (015)
—-> Workers are BUILDING factory.

这种情况好办. 世界语形态比较丰富, 而现代英语形态不发达, 所以世英形态转换中最经常出现的, 就是此多彼一或此有彼无的情形, 这对建立比较完全的EChA英语形态生成(加尾)算法是很有利的条件.

4) 此有彼无

世界语将来将来时 ( ESTOS x-ONTA(J) ) ——–> 英语 ?

[例] Mi ESTOS LEGONTA la libron kiam shi venos. (023)
—-> I WILL ( 或: WILL BE GOING TO ) read the book when she comes.

这种情况看上去似乎很不利, 实际上并不难处理. 因为现今存在的各种语言, 作为人们千百年来交流思想的工具, 一般都能够表达各种细微的语义差别. 虽然乙语言也许缺乏甲语言的某个特定的表达手段, 但如果必要, 它总可以找到代替的表达方式. 如上例 ESTOS LEGONTA 通常译作 WILL READ 已经足够, 如果一定要强调将来的将来, 也不妨译作 WILL BE GOING TO READ 这样繁冗的形式. 再如汉语缺乏形态, 但如果需要, 总可以用适当的助词或副词等来代替, 这就是所谓的形态修辞.

5) 此无彼有

世界语 ? ——–> 英语完成进行时

[例] Mi atend-AS vin chi tie du horojn.
—-> I HAVE BEEN WAITING here for you for two hours.
CF: I WAIT here for you for two hours.
I AM WAITING here for you for two hours.

此所无彼所有的, 如果在彼也是可有可无的, 或并不太影响语义, 那还好办, 如上例. 再如, 英语的不定冠词, 世界语就没有, EChA对此干脆不管, 也没造成严重的后果, 只是译文显得有些不顺: Is your friend (*) doctor?       (039) This is (*) green star, and that is (*) red star. (152) ( * 处本应有不定冠词 A ) 最头痛的是此所无彼必有. 从完全没有冠词的语言(如汉语和俄语)译入有冠词的语言在很多情况下就是这样.

上述归纳在机器翻译的转换生成中具有普遍意义. 最困难的是此一彼多和此所无彼必有两种情况, 一般要通过精密的句法和语义的对比和分析来解决. 比如通过分析不定式所直接联系的英语轴心词的句型特征, 就可以决定该不定式采用带 TO 还是不带 TO 的形式. 实在不得已, 只好把几种可能的选择同时打印出来, 由用户自己决定—-这当然是权宜之计, 但常常比编制一套不可靠的区分规则, 客观上更有利一些. 机器模拟人的智能, 在一定的阶段总还有某些局限. 上面的做法, 实际上就是把机器暂时还不具有的智能, 交还给人发挥, 特别是那些很难形式化, 但人凭经验和直感却很容易判断的部分. 然而, 人工智能的使命决定了, 人们应该尽最大努力提高机器智能化程度. 条件允许却不去努力是设计者的懒惰和失职.

在EChA形态生成一线, 还有词典化了的多义区分程序段(它在形态生成前执行), 用BASIC写起来很容易. 现举例介绍如下:

1) LUDI 玩 / 打(各类球) / 拉(提琴, 胡琴) / 弹(钢琴) / 吹(口琴)

2120 IF VT$(GC)<>”1″ THEN 2160
( 若该词不及物则保留词典基本义项 “玩”, 该词多义区分毕, 转2160. )

2130 IF HY$(ZC)=”胡琴” OR RIGHT$(HY$(ZC),4)=”提琴” THEN HY$(GC)=”拉”: GOTO 2160
( 若找到词为 “胡琴”, 或找到词的后两字为 “提琴” (包括大提琴,小提琴,中音提琴等), 则该词取汉义 “拉”, 该词毕, 转2160. )

2140 IF HY$(ZC)=”钢琴” THEN HY$(GC)=”弹”: GOTO 2160
2145 IF HY$(ZC)=”口琴” THEN HY$(GC)=”吹”: GOTO 2160
2150 IF RIGHT$(HY$(ZC),2)=”球” THEN HY$(GC)=”打”
2160 GC=GC+1: GOTO 1830 ( 放过该词, 取后一词, 转1830. )

2) BATI 打 / (心)跳动

1990 IF VT$(GC)=”1″ AND (RIGHT$(HY$(ZC),2)=心” OR HY$(ZC)=”心脏”) THEN HY$(GC)=”跳动”
2000 GOTO 2160

3) OKAZI 进行 / 发生 / 召开

2450 IF RIGHT$(HY$(ZC),2)=”事” THEN HY$(GC)=”发生”:GOTO 2160
2460 IF RIGHT$(HY$(ZC),2)=”会” THEN HY$(GC)=”召开”:YY$(GC)=”BE HELD”: YTZ$(GC)=”8″: XX$(GC)=”1″
2470 GOTO 2160

3) RIGARDI: LOOK AT / LOOK / WATCH (TV) / SEE (FILM)

2830 IF VT$(GC)<>”1″ THEN YY$(GC)=”LOOK”: GOTO 2160
2840 IF YY$(ZC)=”TELEVISION” OR YY$(ZC)=”TV” THEN YY$(GC)=”WATCH”: GOTO 2160
2850 IF YY$(ZC)=”FILM” THEN YY$(GC)=”SEE”: YTZ$(GC)=”1″
2860 GOTO 2160

4) NENIAM 从不 / 从未

3070 IF ST$(ZC)=”2″ THEN HY$(GC)=”从未”: HY$(ZC)=HY$(ZC)+”过”: JG$(ZC)=”9″
3080 GOTO 2160

 

 

 

【相关】

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

《立委随笔:一小时学会世界语语法》

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

立委硕士论文全文(世界语版)

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

【关于机器翻译】

【置顶:立委NLP博文一览】

《朝华午拾》总目录立委硕士论文:9. 目标语调序

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据