【世界语《第二书》的自动解析笔记】

作为周末爱好,最近把 Esperanto parser (世界语自动句法解析器) 复活了。为“自然”语言做的平台,对于“人造”语言扫描,那的确是”降维打击“,就跟美国轰炸伊拉克似的。先找一个简单的句子热身:

世界语《第一书》略显简单,咱们从《第二书》开始认真试试庖丁牛刀,LOL。

la unua frazo en 《La Dua Libro》:

Elirante ankorau unu fojon antau la estimata publiko, mi sentas la devon antau chio danki la legantan publikon por la viva kunsento, kiun ghi montris por mia afero.

这基本上是外语文法老师都会讲解的句法分析吧?只不过这是机器自动解析而已。具体说来就是:

1. 柴门霍夫《第二书》的这第一句话是一个复合句。
2. 复合句主句的主干是“mi sentas la devon”,其中“mi”是主语,“sentas”是谓语动词,“la devon”是宾语。
3. 主句的状语从句是一个副词性分词短语,“Elirante ankorau unu fojon antau la estimata publiko”, 其中,“ankorau unu fojon” 是分词的状语,介词短语 “antau la estimata publiko” 也是其状语。
4. 主句宾语“la devon” 后面带有一个定语从句,”kiun ghi montris por mia afero”, 其中,montris 是从句谓语动词,kiun 是其宾语,ghi 是其主语,介词短语 “por mia afero” 是其状语。
5 再细一点,可以解析NP和PP里面的限定词(如 la)和定语(如 estimate),等等。

看样子,柴门霍夫喜欢用复杂的句式。也许因为是第二书了,他有意为之,为了表现语言表达复杂概念和关系的能力。

La multaj promesoj, kiujn mi ricevas, kaj el kiuj tre granda parto estas subskribita “senkondicˆe”, la leteroj kun kuragˆigoj au ̆ kon- siloj—cˆio tio cˆi montras al mi, ke mia profunda kredo je l’ homaro min ne trompis.

tiu estas la dua frazo, kiu ankau estas longa kaj malsimpla.  “chio tio chi”,kial ne “chio chi”?

La bona genio de la homaro vekighis: de chiuj flankoj al la laboro chiuhoma venas amasoj, kiuj ordinare estas tiel maldiligentaj por chia nova afero;

The good genius of mankind has awakened: from all sides to the work of every man come masses who are ordinarily so lazy for every new cause;

《第二书》这话是在欢呼人类理性的觉醒,接纳并拥抱了世界语的诞生。

kiam pasus la jaro, mi intencis eldoni libreton, en kiu estus analizitaj chiuj pensoj esprimitaj de la publiko, kaj uzinte tiujn, kiuj efektive estus bonaj, mi donus al la lingvo la finan formon, kaj post tio chi oni jam povus komenci la eldonon de plenaj vortaroj, libroj, gazetoj kaj cetere, char tiam la lingvo jam estus trairinta la jughon de la tuta mondo, kaj chiuj plej gravaj malbonajhoj, kiuj povus esti trovitaj en ghi, char en verko de unu homo, — estus jam pli au malpli forigitaj.

柴门霍夫的下一个句子超长,非常复杂,一个长句里面居然有10个从句:不知道老先生是炫酷,还是忘记断句了。另一个很可能是潜意识的动机就是他想表达复杂思想的组合来展示世界语的语言手段的丰富。这么复杂的句子给解析,无论机器还是人,都带来一定的困难。不必为圣人避讳,“chiuj plej gravaj malbonajhoj, kiuj povus esti trovitaj en ghi, 【char en verko de unu homo, — 】estus jam pli au malpli forigitaj”中我用【…】标示了里面的白璧微瑕,这种原因状语从句严重缩略以后的别扭写法以及标点的使用,行文不像柴门霍夫其他作品那样通晓明白。

谷歌机器翻译居然翻译得还很到位;这当然得益于欧洲语言句型句式的某种同质性。

when the year was over, I intended to publish a booklet in which all the thoughts expressed by the public would be analyzed, and using those that would actually be good, I would give the language its final form, after which the publication of full dictionaries, books, newspapers, and so on, for by that time the language would have passed the judgment of the whole world, and all the most important evils that could be found in it, because in the work of one man, would have been more or less removed. .

英文的机器翻译一字未动,因为没什么好修正的了;机器翻译的中文译文有点缺陷,原来的机器翻译是:

当这一年结束时,我打算出版一本小册子,对公众表达的所有思想进行分析,并使用那些实际上会很好的思想,给该语言提供最终形式,然后出版该语言。 完整的词典,书籍,报纸等,因为那时该语言已经通过了整个世界的判断,并且其中可能发现的所有最重要的弊端,因为在一个人的工作中,或多或少都会被消除。

我的编辑版是:

当这一年结束时,我打算出版一本小册子,其中对公众表达的所有思想做了分析,并采纳那些实际上会有很好效果的建议,我会给该语言确定最终形式;此后人们就已经可以开始编纂该语言的完整词典、书籍、报纸杂志等,因为届时该语言应该已经通过了全世界的审阅,并且其中所能够发现的由于本来只是一人之力而难免存在的最重要的弊端,或多或少地已被消除了 。

良心说,这么复杂甚至有些啰嗦和瑕疵的句子,机器翻译成中文那样,意思基本到了,已经相当不错了。谷歌译文的主要错误在 “…然后出版该语言。 ” 那个句号不该用,出版的也不是语言,而是该语言的词典等。

10个子句大多是状语从句和定语从句,大体标示下来就是(其中有一个 char / because 本来是带原因状语从句的,但是老先生在那里面省略了太多东西,只剩下一个介词短语,感觉有些不顺):

(1)[kiam pasus la jaro], (2) [mi intencis eldoni libreton], (3) [en kiu estus analizitaj chiuj pensoj esprimitaj de la publiko], (4) kaj uzinte tiujn, [kiuj efektive estus bonaj], (5) [mi donus al la lingvo la finan formon], (6) [kaj post tio chi oni jam povus komenci la eldonon de plenaj vortaroj, libroj, gazetoj kaj cetere], (7) char tiam la lingvo jam estus trairinta la jughon de la tuta mondo, (8) [kaj chiuj plej gravaj malbonajhoj, (9) [kiuj povus esti trovitaj en ghi], (10) [char en verko de unu homo], — estus jam pli au malpli forigitaj].

终于调通了柴老爷100多年前写的这个包含10个分句的巨复杂的世界语句子:

 

说这话的历史背景是:1887年7月26日,柴门霍夫第一次以 D-ro Esperanto(希望者博士)署名发布了他酝酿创造和自己使用了几十年的世界语方案,称作《第一书》,是俄语与世界语对照的读物。由于此前类似的人造语言方案几乎都没有流行起来,柴门霍夫心里是很忐忑的。也许是历史机缘好,也许是上帝垂顾他的艰辛努力和崇高信念,世界语很快开始流行,同时也引来了许多疑问和质询。太多的语言爱好者,包括一批语言学家以及一些也曾闭门造车自创过人造语方案的人士,开始提出五花八门的修改建议,觉得必须动大手术这个语言才能完美。每个人都有自己的一大摞理由,每个人都很坚持,有希望增加词尾形式的,有坚决反对词尾的,不一而足。柴门霍夫不断答问,为了推广世界语,也准备好了做重大让步和修改。1889 年,他把这些答问配备上述前言汇编成册,出版了这本《第二书》,然后声称从此以后,他完全放弃世界语的著作权,不再掌管世界语。世界语的修改和解释权由世界语刊物编辑部以及后来成立的世界语协会接管。组织接管以后开会讨论过各种修改方案,最终除了少数修改以外,基本维持原方案的形式。

 

【相关】

【第一书】是世界语的“圣经”

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据