《李白121:关系的语义解密》

李:白老师新作【白硕:闲话语义(7):事件】最后一段 “5、元关系·关系类型·裸关系” 蛮深奥,但很重要。看我理解对不对。想请教@白硕 的是,ontology 里面的概念节点,相当于词典里面的词。这些节点之间的关系都是“裸关系”吗?我一直把本体知识库 ontology 里面的一切关系看成“元关系”,对照于实体之间的“关系”,前者是后者的抽象,是人类世代积累的常识积淀。

ISA 与 “关系-判断”类型(譬如 partOf)不同样是“语义知识体系内部的关系”吗?当然感觉上 ISA 是 ontology 的核心骨架,单列出来也是合理的。 作为落地实现工具的知识图谱里的“关系”,是实体知识库,感觉不能与 ontology 混杂。前者是动态的“世界知识”(对于形势、趋势、身边事、国家大事的感知),后者是静态的常识(元知识)。

白:我们的目标,最后是要把与HowNet在表达能力上至少相当、在计算能力上更胜一筹的ontology写在知识图谱里。

李:是的,HowNet 很丰富细腻,但不好用,因为没有图谱的“技术栈”。

首先,实体和本体是分开的吧?怎么建立二者的联系是另一回事儿。作为知识库管理,应该是分开的。本体是封闭的、可以穷尽的知识体系。实体是完全开放的世界知识,而且每时每刻都在演变。

白:这个语义知识库只是应用的一部分。或者说,借助知识图谱的技术栈让语义知识库落地。怎么用,后面还有很多种可能性。

李:partOf 这类“关系-判断”类型的输出是“布尔”即逻辑真值。ISA 不也是吗?

“抽屉”是“橱柜” 的 part:TRUE
“动物” ISA “生物”: TRUE
“橱柜” ISA “生物”:FALSE

白:如果解析句子“他过去是单身汉,现在不是了。”

李:那是实体知识,不是本体知识。

白:本体要提供表示手段。

李:相关的本体知识是:“单身汉”是关于 “男人” 的属性,或一个子集。

白:这是经过一层解析了。单身汉首先是一个节点,他是另一个节点(男人节点的实例)。先要说这两个节点是怎么连的,再说根据单身汉的定义怎么“重写”他的属性。

李:解析是落地到实体,真还是假。本体是说类型合适不合适(相谐否):“类型”不合适的连真假都谈不上(记得以前的一个名句:his argument is not true,it is not even false,说的就是“不着调”的论辩)。

白:在“怎么连的”这个问题上,我的意思是,不是在“他”和“单身汉”之间连一个标签为ISA的飞线(裸关系),而是把二者都作为输入(一个实例、一个类型),连到一个“属于判断”节点的实例。语义解析不只是判断相谐性,还要构造一系列实例。

有两个“属于判断”事件。二者都是实例,一个指向“单身汉”,另一个排除指向“单身汉”。二者的时间标签不同。第二个事件“刷新”逻辑主语在实体知识库中的婚姻状况属性,但事件本身是log,当我们需要replay或者进行时序有关的查询时,就必须借助之。

李:对,“构造实例”本来就是“信息抽取”的核心目标。语言解析是支持信息抽取的。

张三:前-单身汉;现-已婚。
假设 已婚 == !单身汉(在西方不成立:在美国填有些表可复杂呢:在个人关系栏目里面有一长列关系:同居、异性婚、同性婚、变性婚、单身、丧偶 ........)

实体知识图谱“通常”不收入“非”:排除单身汉的常规不收,除非换个特征名/维度(譬如:从“单身汉”换成“已婚”)。因为定义一个实体,定义是什么,比定义不是什么,边界清晰多了。

白:这个观点,和人机对话系统不支持回答否定句的那件事,互相锁定了现状。

李:回到前面的问题:“属性类型” 说的就是 ISA 元关系吗?

白:属性类型之间可以存在ISA元关系,但那不是给“构建实例节点及其相关的边”用的。

李:的确如此。当然不是“构建实例节点”。本体里面,by definition,根本就没有“实例”。实例是实体知识的范畴。本体里面说的关系,大多是“潜在”的关系。悬在空中没有落地的那种,才叫本体。这是人类把握世界,人脑给世界分类的概念化结果。

关于本体和实体,最有意思的例子可以追溯到“白马非马”论。这个悖论(?)中,“白马” 在理解中是落地到实体的(就是那个说话者和听话者你知我知的那匹白马);第二个 “马” 则是没落地的本体(概念/类型)。对于朴素唯物主义者来说,任何表达或判断,都必须“唯物”,不落地就无从辨真伪,辨别不了真伪的东西,一律不承认,因此 “(此)白马非(类型)马”。这是把元关系 ISA 也从 ontology 拉出来,非要让它落地。也不能怪他,本来这种关系就是内在的(存在人类共同体的脑瓜中,或集体记忆中),可以认为是一种给定的无需证明的公理,是你知我知的“真理”。把没有信息量的“公理”表述出来,哲学家可以借此反思本体论的形而上特性,表现朴素唯物论的反智。如果我们把“知识”默认为实体的种种(知识就是了解世界发生了什么),“元知识”的本来意义就是悬在空中,没有落地(到实体)的意思。

白:我们在本体里就区分元知识和潜在知识。潜在的关系也不是元关系,比如比较大小:

<quantity>大于<quantity>

语义解析不构造元关系的实例,但会构造潜在关系(我们叫关系类型)的实例。

李:不太明白。数量可以比较大小,这不就是元知识、元关系吗?到了实例,就是:

pi > 3 : TRUE
pi > 4: FALSE

这就落地了,成为实体知识(实际上是数学常识)。

白:大于,是关系类型,不是元关系。元关系是我们推理用的,不是理解用的。元关系永远留在本体里,关系类型可以实例化。

李:有点晕了,主要是术语概念先要有个统一的定义。“潜在关系(我们叫关系类型)”,举个例子。

白:刚才说的“大于”就是啊。大于是关系类型。

李:“构造潜在关系(我们叫关系类型)的实例”,上面的 pi > 3 就是。ISA 不也是关系类型?

白:ISA不是。关系类型用节点实现,不用边实现。节点带论元,也就是态射。节点还带属性。关系类型节点可以带时态属性。

李:“节点” 就是 “词/概念”。节点带论元的典型例子是谓词。

白:纯粹的边不带属性。大于,就是谓词。大于,不处理成纯粹的边;ISA,处理成纯粹的边。ISA没必要带时态属性。

李:这是本体的 ISA,确实谈不上时态,是超时间的,恒真。因为概念世界就是这么定义和抽象的。

实体的 ISA 是有时间变化的:人曾经是猴子,很多年以后,人成为政治动物。

白:属于判断,是另外的事情。我们不用跟ISA混淆的表示,而且必须用带论元的节点表示。

李:对,实体判断的 ISA 与本体内部的 ISA 不是一回事。

白:这也不算是实体,只是可落地为实体而已。“人曾经是猴子”。这个“人”,用的既不是全称量词,也不是存在量词。是那个时候活着的人全体。

李:上面的“人”(人类)感觉是“半实体”。显然早已不是纯粹的本体了。

白:不是本体。是“实例化+泛化”。

李:嗯。

<quantity>大于<quantity> 如何在 ontology 里面体现?有什么用处?<quantity> 是一个节点(类型/概念)。

白:两个quantity是输入节点。“大于”是输出节点。它的类型继承路径可以一路走到event/static/boolean……。event再往上,就是thing(root)了。

要说用处,自然是为实例化提供了模板,同时也为相谐性检验提供了门神。一个向左一个向右。

李:就是说,看到 “5 大于 3” 甚至 “3 大于 5” 这样的说法,本体知识“门神”说,对,类型靠谱。看到 “品性大于知识” 的说法,本体知识说:类型不符合,可能是引申或比喻。如果这就是“用处”的话,不能说没用。但也说不出对语言理解有啥真用。

<quantity>大于<quantity> 在以前的谓词句型词典里面是这样的:

大于:Subject:CD;Object:CD

这是所谓 SUBCAT 句型对潜在填坑的萝卜做了限定:是期望一个数词。它与其他及物动词的 SUBCAT 标注是一致的,如:

EAT:Subject:Animate;Object:Edible

白:“5大于这三个数的平均数”

对parsing的作用是逆向选择,对语义解析的作用是顺向构建。

李:我好奇 "<quantity>大于<quantity>" 与 "大于:Subject:CD;Object:CD" 有什么区别?提供了哪些额外的价值?

“平均数” 虽然不是 CD, 但它是可以兼容的类型 (CD 的本体类型)。这就好像要求【human】,不仅仅实体 “张三” 合格(合乎预期类型), “演员” 也合格。

白:“平均数”也是一个态射,输入类型是quantity的集合,输出类型是quantity。这就实现了符合相谐性的“组装”。

李:对,“平均数” 也是某种 谓词:

平均数:【Arg1:CD】【Arg2:CD】 (......[Argn:CD])

如果用传统 SUBCAT 标注的话,大体如上:它期望至少两个数作为输入。还是不大清楚这种知识在实际语言解析和落地中的价值。有了 SUBCAT,解析感觉就够了。除了要做逻辑推理,譬如,验证某三个数的平均数是不是像语言表述中的那样,是真的还是错的?(这在文档核对、质检的场景似乎有用。)

白:针对类型的检查和针对值的推理/计算不是一回事。关键是,延展到领域知识,只需要做加法,不需要改动顶层设计。通用语义知识和领域知识可以无缝衔接。解析的输出物是自带螺钉螺母并经过装配的义素。领域知识中的实体和事件,也是如此这般地装配,没有其他。

李:“元关系永远留在本体里,关系类型可以实例化。” 这句话好,把 ontology 中两种关系区分开了。

“解析的输出物是自带螺钉螺母并经过装配的义素。” 这就是语言学中的 semantic compositionality。就是把珍珠串成项链。

白:朝着“构成”这个方向看去,应用潜力巨大无比。

李:潜在知识就是为落地的。元知识不需要落地,因为它本来就是从无数历史实例中抽象出来的“真理”。潜在知识虽然也是从历史实例中抽象出来的(“趋势”),但不是恒定的“永真”。“构成”/“组装” 就是 "compositionality",这是语义学中的最核心的概念了。

白:但是它可以一定程度上超脱于“语”。

李:“类型(type)” 就是超越 “语(词)”,是“概”念之间的东西。所谓本体是“元”知识,也就是说的这种超越,不仅仅超越“语”(这种表达体系),而且超越“实体”(客观世界),构成的是概念世界,是人这种物种所特有的范畴。当然,概念世界是从客观世界抽象来的,不是凭空来的。这些应该算哲学了。

白:不仅如此。语言表述可能比较细粒度,有情报价值或其他应用价值的事件粒度更粗,由細到粗,事件长的样子没变,但是已经脱离了字面意义的解释,进入事件驱动的推理、模拟、重演甚至数字孪生了。一个公司的几项人事变动后面隐藏着的粗粒度事件,可能是清洗。财务指标变动的后面是啥,也都有主儿。

李:有意思。这是从碎片化信息 event instances 推导其背后的情报。不过这种推导、预测或形势判断,开始进入“雷区”。就好比前几天我的公司让我重发当年对特朗普的大数据分析预测(《弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里》),我说,不要提“预测”,那是雷区:

把:“预测了特朗普的胜选” 改为 “大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增”。留点余地。当时的确是胶着,任何预测都冒风险。但选情变化之快,没有大数据,很难及时提出预警。主流民调就没有来得及预警,因为他们被信息压倒了。

白:我们的核心思想是,语言解析得到细粒度的事件,细粒度的事件imply粗粒度的事件,粗粒度的事件驱动其他粗粒度的事件或与之互动。对错另说,但事件长什么样不用另起炉灶了。如果粗粒度的事件完全是另一套,两张皮,就是NLP的失败。

李:两张皮怎么讲?以前的NLP怎么到了应用就两张皮了?

白:比如游戏,对命令的解析结果是一种数据结构,执行命令的战争进程是另一种数据结构,这就是两张皮。

李:不懂游戏。不过如果是两种数据结构,应该是一种映射到另一种。这也是常见的做法。譬如我们的 parsing 就是先造树结构,然后映射到图结构。以前也做过直接的图结构,不建树。这么多年实践下来,还是觉得建个树作为桥梁,感觉系统更加模块化,也更加方便。树虽然表达力不够,但作为桥梁是有便利之处的。过河拆桥,树在深度解析中最后基本是废弃了。

白:在金融领域也是这样。如果领域专家理解的事件、事件驱动,跟语言解析得到的事件、事件驱动,有很大的鸿沟,就没法玩了。一定有一个东西是统一的,而且是直接跨过去的。装配可不局限于树。在语义层面,树是没道理的。

李:顺便一提,图有种种好处,但是图规则不直观,难以理解,维护和调试都有挑战。这是因为图增加了维度,丧失或忽略了线性特点,结果就是面对一个图模式(graph pattern),在头脑里需要首先形成一种多维度的“图形”(picture),才感觉直观,才理解在节点之间穿行的模式,到底是干什么的。

本来我曾想尽量把更多的工作从句法树层次转移到语义图层次来做,感觉更加合理,但几年下来发现,句法是精简了,漂亮了,但语义这块越来越看不懂了。可是句法的东西即便是N年前做的,却一看就懂。接地气,容易维护。

再提一点:句法树 --》语义图 --〉实体知识图,这个 pipeline 的确有一个理由在:有情报价值的实体知识图谱与语义图是“同质”的,与句法“树”是不同质的。因此经过语义模块以后再做抽取,显得更加合理,很多时候所谓落地实用不过就是把图里面的“边”改个名称而已(甚至可以让用户配置)。譬如。针对 HIRE 这样的谓词,把 “S”(逻辑主语)这个边改为 【雇佣者】,“O” 改为【受雇者】,这就完成了“雇佣/HIRE” 这个 event 的抽取(逻辑语义图到事件图的映射)。这个事件的其他特征,譬如时间、地点、条件 等情报,常常可以照搬过来,连改都不用改(改就是映射),直接从图上继承下来即可。这里描述的语言技术的实践,感觉是呼应了白老师说的“无缝连接”。而共同体使用的宾州树(Penn Tree)结构,就很难做到“无缝连接”,由于表示体系的“鸿沟”。

还是回到 ontology 来。

白:前面说的“张三的小说没有散文写得好”,其实有两个“写”事件的实例,逻辑主语都是张三,逻辑宾语一个是小说,一个是散文,两个事件都通过“副作用”把自身的输出类型藏起来,而让各自的逻辑宾语带着其输入类型进入“好”获得quantity类型,再把两个quantity送进“大于”事件。

李:这个非常有意思。哦,“大于”事件不仅局限于数量,也可以是其他度量比较(包括质量)。

白:


这个图大概就是装配的结果。“没有”还有一层否定,在Boolean的右面。“没有”还有一层否定,在Boolean的右面。或者其实应该使用“小于”关系。主要以此说明义素装配出来长啥样。没有装配就没有语义理解。

李:虽然大作最后一段文字也不长,开始感觉是,每个字都认得,每句话都不大认得,LOL:

5、元关系·关系类型·裸关系

在事件的表示中,我们使用了态射。事件有多种类型,其中有一种就是静态事件,它又細分为属性类型和关系-判断类型。这里的“关系-判断”类型的输出是“布尔”即逻辑真值。因此,它构成集合论和数理逻辑含义下的“关系”。这种语义知识体系内部的“关系”和IS-A这样的“元关系”是什么“关系”呢?它们和作为落地实现工具的知识图谱里的“关系”又是什么“关系”呢?我们看到一些语义知识表示框架的相关文献在这个问题上有些含糊。在这里,我们要做一些基本的约定。

把语义表示单元(类型)作为研究对象,探讨它们之间的“关系”,这是元关系。

作为语义表示单元(事件)之一个细分类别的“关系”,这是关系类型。跟元关系不是一回事。“部件(PartOf)”关系就是一种关系类型,而不是元关系。

在知识图谱体系内,无论是元关系,还是关系类型,都可以用知识图谱显性定义的“二元关系”来实现。我们把知识图谱里显性定义的二元关系称为“裸关系”,并约定,元关系在知识图谱里一律直接实现为裸关系,关系类型在知识图谱里一律间接实现为事件节点,哪怕关系类型就是二元关系,也必须通过事件节点来实现。具体来说就是:设事件A有n个输入类型一个输出类型,那么事件A就必须拆分成n个裸关系,其中每一个裸关系的开始节点都是这个事件节点本身,目标节点则是对应的输入类型节点,而边上的标记就是角色名,包含角色名由粗到細、由抽象到具体的整个继承路径。

这样做的好处,就是对元关系和关系类型做出严格区分,既避免了因开发团队个人理解的差异而将本体定义引向歧途,又给类型作为统一的语义知识表示对象留出统一的数据结构模型,便于定义方式的整体把握。举一个明显的例子,无论实体类型还是事件类型,其特征K-V对都是定义在自身节点上的,不会因为事件类型恰巧是二元关系就把它实现为裸关系,因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上,不仅架构上是很不协调的,而且也给实现带来不必要的难度。

白:这一段憋了我不少天呢。

李:就像吕叔湘先生批评乔姆斯基一样,说他什么都好,就是说话艰涩,不懂得科普。白老师也可能有同样的问题。不知道,这段话有多少人能看明白。当然,肯定比爱因斯坦的相对论要强,据说很长时间,全世界只有三个半人看得懂相对论。

白:这个系列,不是严肃的学术论文,更像是整理阶段性思路的随笔。至于科普写作,还早着呢。

李:不拘一格。没必要用学术论文的那种格式。探寻语义结构和理解认知的奥秘,也是AI的前沿了。无论主流的热潮怎么走来走去。

关于这一小节的最后,你说:

"举一个明显的例子,无论实体类型还是事件类型,其特征K-V对都是定义在自身节点上的,不会因为事件类型恰巧是二元关系就把它实现为裸关系,因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上,不仅架构上是很不协调的,而且也给实现带来不必要的难度。"

我的问题是:“事件类型恰巧是二元关系就把它实现为裸关系” 这种做法不大可能在 ontology 里面的呀,譬如 HowNet,所有的潜在关系的预示全部是以节点为单位的。我的理解是,只有到了实体知识图谱,才会有实现为裸关系的“边”来表示的(当然也可以不用裸关系来表示)。

白:不限制,就有可能。所以作为一条铁的纪律。

李:顺便提一句:白老师所谓 “特征 K-V 对”,在HPSG这类 constraint based formalisms 中叫做 AVM(Attribute-Value Mattrix)。而且这些 formalisms 中的 AVM 是严格的 typed AVM(typed data structure),每一个AVM图示为一个框,type作为框的下标。AVM 中的 V 可以是原子,也可以是另一个 typed AVM。从表示形式的统一性、操作的单一性(合一)以及逻辑严谨性和丰富性来看,这种formalism 是非常令人印象深刻的。

白:借助数据结构的type和本体的type是一回事?我表示谨慎怀疑。

李:这类系统的根本缺陷不仅仅是繁复,还有就是unification(合一)无法应对“顺杆儿爬”。另一个就是这种formalism提供了使用者相当程度的任意性,你可以把任何一个子结构(sub AVM)用 合一(实现的时候叫 structure sharing,实际上就是子图匹配和融合)的手段,放到任何一个 Attribute 里面去。

白:顺杆儿爬是句法适应语义。到了语义哪有顺杆儿爬,都是严格的类型检查。该脑补的都得在前面做掉。

李:“该脑补的都得在前面做掉。” 这个可以商榷。更多也更便利的做法是,脑补留到最后。

白:比如,“张三的小说没有(张三的)散文写得好。” 那个括号里面的东东就是顺杆儿爬出来的。到了语义层面,另一条边就得乖乖地画出来。句法的最后,相对于语义仍然是“前”。最多是内部名字有了,挂什么外部名字留到最后。但是内部名字跟事件的连线,必须有。而且必须符合类型约束。

李:严格的类型检查是一面,检查的另一面是,根据犯规的程度,来决定如何松绑或输出另外的解读或者输出 nonsense 的判断。

关于连线(linking),觉得也可以反过来想。在一个局部环境里(local context,say 5-gram),把默认的不连线,因此必须“做功”(句法解析)才能连线,改为默认就连线,因此找一些条件去不断剪枝。当然这蕴含着组合爆炸。但爆炸不爆炸是随着计算条件的不同,而有不同的抗压力的。如果反过来思维,上面的办法就是把句法、语义和语用等等的约束,全部统一看成是“剪枝”的过程。这个思路我感觉有突破性的潜力。因为实际上所谓的 compoasitionality 其实根本不需要真地去组装每一个原子(义原)部件,而是可以组装“预制件”。local context 都连然后通过词典或其他模块去剪枝,就与预制件的思想比较一致了。

白:这就是我说的统一优先级啊。语义、情感、事理、大数据,都可以给优先级加分或者减分。最后还是调整后的优先级说了算。不调整就相当于按句法default装配。

李:统一优先级的最大问题在怎么统一?

白:回到机器学习啊。加分减分不就是一个待定的参数么。神经做这个最擅长了。

李:这是机器学习里面说的 heterogeneous evidence 如何对付的老问题,这个挑战,学习里面一直困扰了好多年,到深度学习以后也不能说就解决了。譬如特斯拉内部人员透漏的最大难点也是在这上面,说上百个模型弄出那么多东西出来。最后的输出就是 x(速度)和y(方向)两个赋值。面对那么庞大的输入参数,和这么小的输出,老是在 “杂乱的(heterogeneous)” 输入因素之间摆不平。自动驾驶的质量控制因此成为一个非常大的挑战。一不小心就有了 regressions:明明上一个版本在一个急转弯控制得很好,版本更新后,突然就失控了。这种事情,很多用户有反馈。

他们现在还是学 Lidar(激光雷达),把各种 cameras 的感知数据,先整合成统一的三维模型,然后去 feed 给系统。这样来减少“杂乱度”,说这种模拟激光雷达的软件模型解决办法,比以前的系统,好多了。

白:对于NLP错误结果不会那么致命,就是正确的解析早几个回合出来还是晚几个回合出来的事儿

李:谢谢 @白硕 老师,大作的最后一段总算看得有些明白了,一开始觉得是天书。期待语义系列的下一篇。


【相关】

白硕:闲话语义(7):事件

【弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

是特斯拉的自驾AI牛还是马斯克牛?

【语义计算:李白对话录系列】

白硕 – 穿越乔家大院寻找“毛毛虫”

【置顶:立委NLP博文一览】

《朝华午拾》总目录



是特斯拉的自驾AI牛还是马斯克牛?

说到马斯克,全世界做AI的谁有他这个门外汉牛?

他可以让自己的上帝,特斯拉车主们,争先恐后地付巨款,不惜生命危险做小白鼠,给他免费地源源不断地标注数据。他拿着数据训练他的AI 所谓的“全自动驾驶”(FSD,Full Self Driving)。FSD 能力提高以后,他就不断加价,剥削新的上帝。

FSD 根本还没影子的事儿,他就从 5000 美金一套开始预售,一路加价到现在的 7000,据说不久还要加 1000 美金。最近开始发布他的过了n次自设死期的红绿灯自动停车功能,这是走向 city driving 的前提。注意,不管红绿,一律停车。除了电脑视觉(CV)外其实没有任何路口智能,说得赤裸裸:就是要顾客教会它如何过十字路口。万一出车祸了,对不起,责任自负。

红灯停,绿灯也停,见灯就停。甚至有车友说路过一个穿绿毛衣的女孩,它误以为是信号灯,也停了。他丫是完全没有智能,放出来就是让小白鼠们免费教会AI何时不停。见灯就停是默认,何时学会不停,完全等小白鼠义勇军(fleet)的反馈:你踩油们就表示你发现(1)这是绿灯;(2)路面上也安全(无阻碍),你觉得应该穿行。这就给特斯拉做了标注。带标数据反馈给神经网络去训练,机器就慢慢学会了。识别红灯绿灯路口 STOP 招牌,据我自己的多次测试,这个能力已经很成熟了。现在就等过路口的数据了。

从用户角度,即便没有智能,也愿意尝试啊。除了新鲜感以外,有时候也的确省了力气。第一,是绝不会冒大意闯红灯受罚的危险了。第二,遇到绿灯且无阻碍,点一下油门也不过就是举脚之劳,总比自己开车省力。也就是说,你上街开车,除了路口,你完全不用操心了。即便到了路口,遇到红灯、黄灯,你也不必操心,它很保守,总是乖乖给你停下来。只是遇到绿灯,你才需要举手之劳地点一下脚。这样算下来,90% 的 city driving 你是可以交给机器了,10% 的时候动动脚(点一下油门)或动动手(点一下操纵杆也可以)。这样的小白鼠,哪个热爱新科技的人不愿意做呢?何况咱还是AI背景的技术爱好者。10% 之内还有路口转弯,这个是更高级的功能,还没进入特斯拉的机器学习的视野。

这阵子读了一些他们的材料。从各种CV子任务,到建立“鸟瞰”view,到测算3D depth,到综合这些信息决定操作,总共上百个模型一起协作。也是一团乱麻,谈不上端到端。非端到端的好处是透明性和模块化。AI的透明性表现在对这100个模型的细分定义中,可是这些模型之间的协调落地,其实基本是个黑箱子。常出现的问题就是,有的模型 overfitting,与其他模型难以 sync好。不同模块对最终的驾驶控制(输出 x,y:x 是速度,y是方向)有不同的影响,协调不好的后果就是争抢“控制权”,表现在自动驾驶能力的不稳定或退步(regressions)上。

几乎所有其他家的自动驾驶都用激光雷达(LIDAR)主导。马斯克说,这是死路,我就不用,我只用摄像头,靠CV。有啥道理?其实没啥道理,马斯克不是AI专家,他就是个有技术背景的商人而已。他算过一笔账,激光雷达的成本高昂(好像是最基本的LIDAR至少6000美金以上,一辆车通常至少要部署两台,这就是一万多),它没有办法用到量产的特斯拉车上,而不失去顾客和市场。就是为了这么个非科学的理由,他就硬说人家用LIDAR是死路。

LIDAR最大的好处是精确测量障碍物与车的距离,而这是自动驾驶安全性的最重要的信息。特斯拉不用LIDAR,但绕不过这个三维(3D)景深(depth)的计算呀,否则如何避免碰撞呢。特斯拉只好通过多个摄像头从不同角度得来的视觉信息,做所谓信息融合(info fusion)在线建立3D模型,来逼近距离的测算,这需要海量的数据训练以及巨大的即时计算能力。最近的报告说,他们与LIDAR的鸿沟已经越来越小了。事实上,他们是用软件的办法实现了一个LIDAR的模拟结果。据称,模拟LIDAR的好处是,很多利用LIDAR发展起来的驾驶算法和技术就可以拿来主义地用了,补足单一依赖视觉的不足。

这叫什么?明修栈道,暗度陈仓。一面宣告竞争对手依赖LIDAR硬件是死路,一面台下模拟LIDAR的软件效果(等价于复制了一个粗糙的LIDAR)。这样也好,等到未来某一天硬件价格下降,特斯拉量产也装配得起LIDAR了,整个算法路线无需大的改变即可实现平滑升级。马斯克的“死路说”,只有一种解释可以站得住,就是:你丫选择用LIDAR,因此成本大到无法量产,因此也就无法交付给成千上万的客户(特斯拉迄今已经交付了100多万辆,形成了一个可以自动海量汇集驾驶数据的车队,叫 fleet,这个 fleet 每天在路上跑着,源源不断给特斯拉输送数据)。这样一来,你的实际训练数据的收集,无法与特斯拉比,相差太多了。在数据为王的AI年代,自动驾驶的最终规模化和适应性,很大程度上取决于数据的采集量和训练量。从这一点看,特斯拉显然把对手远远抛在后面。

关于踢开LIDAR闹AI革命,可以打个比方。弹钢琴是个手艺活儿,各种大赛,各路选手可以把钢琴弹得让人眼花缭乱。这时候你说,我出一个选手,把双手剁了,也来参加钢琴赛,可以不可以?当然可以,没有手,可以用脚呀。不知道各位见没见过用双脚把钢琴弹得让人掉眼泪那种。

这就是补偿作用。当你把一条路堵死,虽然那是一条公认的光明大道,甚至是很多人确认为“唯一”的路径,你其实还可以把另一条暗道无限发挥到极致,最后也常常可以达到目的。这就是马斯克的算盘,虽然费老鼻子的力气了,现在看来他是在成功的道路上,开始逼近对手的自驾能力。我看过竞争对手Zoox的自动驾驶展示,利用LIDAR和高精地图,在旧金山市区繁忙地带穿行自如,性能上比特斯拉要强得远。(顺便插一句,AI 中很多任务,其实主流的深度学习和更传统的符号逻辑,其实都可以做。当你把某个路线堵死,把所有资源排山倒海般注入其中一条路线,奇迹是可以发生的。但这并不说明,那个被堵死的路线,如果有了类似的资源投入,就不可行。很多时候,另一路根本就不在雷达上,完全被忽略了而已,没有施展的舞台和需要的资源而已。)

回到特斯拉的自动驾驶(auto pilot)的设计思想。马斯克说,现代的交通系统(各种路标、红绿灯,以及驾驶规则等)就是设计给人用的。人与蝙蝠不同,没有雷达,主要就是靠双眼来采集信息,靠大脑消化信息来指挥驾驶。既然人可以驾驶,那么机器凭着眼睛(摄像头)也就一样可以。说得倒也有道理,但那是最低标准的道理。没有任何理由要求自动驾驶仅仅跟着人后面去学。人每天都在出事故,难道机器也应如此?人的双眼其实很差劲,为此不知道坑进去多少条人命,伤胳臂丢腿的更是无数。好在特斯拉不止双眼,它配备了10多个摄像头,也配了普通雷达,只是没有激光雷达而已。(特斯拉其实走了一条难得多的道路,他自愿砍掉了自己的两条腿,除了LIDAR这条腿外,他还坚持不用高清地图。砍掉第二条腿的动机是增强系统的鲁棒性和动态适应性,因为高清地图不仅制作和维护成本很大,而且也难于对地面情况的变动做及时的更新反映。但在人口密集地区,譬如交通复杂的都市中心,没有预制的高清地图的结构化知识支持,单靠现场的视觉计算是很难把控交通形势做出合理决策的。相信,最终特斯拉还是会在特别的地区,譬如旧金山市中心,添加高清地图,来优化它的一般驾驶算法的场景性能。)

“跟人学”,这是特斯拉自动驾驶的设计哲学。这也是它的 AI 具有一定程度的透明性、可解释性以及模块化 practice 的指路灯。从工程上看这是最好实施的方案之一。但理性来想,其实很难证明这是最佳的自动驾驶途径。红绿灯识别这类子任务,定义起来很有道理,也很清晰,它直接与驾驶操作有关。其他的一些子任务就难说了,譬如识别垃圾桶。垃圾桶与其他障碍物,在驾驶操作的决策中到底有没有特别的意义,不大能说清楚。本着“跟人学”的指导思想,他们自底而上去定义任务,哪个任务似乎常引起驾驶者的注意,就先定义了,先假设它对驾驶决策有区别性影响。对每个定义的任务,首先收集和标注训练集,做一个模型出来。这样每个模型/模块,就可以独立训练独立测试,开发起来很有章法。至于一下子整了这么多同时在开发、因素杂乱(heterogeneous)、训练集大小不一、拟合程度不一的模型,如何把它们整合到大系统去协调总体驾驶决策,这其实依然是个很大的挑战。他们自己也承认这是一个很大的问题。目前还有相当程度的瞎撞的成分。这就是为什么不少特斯拉车主发现有些功能,新版突然不如旧版了。有时候,过了几个版本又回来了。但也有一些能力曾经在某个版本表现很好,后来再训练新版本后就一直回不到以前的最佳状态。

总之是,模块化、透明化、跟人学智能而不是跟最高理性加最好配置学智能决策,这一套设计哲学对于工程化落地部署有好处,也接地气,但是在 regressions 的掌控上,仍然有很大欠缺。

说了这么多,最后还是沦为马斯克的小白鼠。你都想象不出特斯拉车主的宽容博爱精神多么宏大:对于特斯拉任何一点不起眼的进步,他们从来不吝赞誉;对于马斯克如超人般尊崇;对于失误(包括车祸死人这种人命关天的大事),他们总是冲上去卫护特斯拉,常常指责同是车主的 victims 的不专心或违规操作;对于免费标注、免费做广告、每个季度末忙碌的时候免费义务去 Fremont 帮助交付特斯拉新车,等等,热心无比。这种现象超过了当年的乔布斯粉丝。以至于网上传言,特斯拉车主都是一帮爱好技术的单纯的人。以前孩子迷路了,家长教育孩子,除了找警察叔叔,就去找带着孩子的阿姨。现在的教育据说是,迷路了就去找特斯拉车主,他们都是好人。

盼星星盼月亮,可惜前阵子 beta,只给 early access 的小团伙试用,咱想当小白鼠,无门可入。终于昨天夜里得到了空中更新(OTA:over-the-air),今天有点迫不及待了。

有道是:"... just tell me what you want" (歌词)

 

【相关】

购买特斯拉,请用我的推荐,你我均可得到免费超级充电的奖励:https://www.tesla.com/referral/wei29218 

精彩绝伦的旧金山市区自动驾驶演示:

 

世界语论文钩沉:世界语的语言学特点(1/3)

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。20多页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

毕竟过去20多年了,回头看当年的文章,觉得的确有一些新意,但欠平实,也失之细琐,。感觉上是一个语言学学生“学习/探索/发现”一门新语言的过程实录。也的确是这么个背景。当年最震撼的一个“发现”是,世界语不过就 17 个词尾,居然会变出 112 个不同词形来。这大大出乎我的预料。当时手边的世界语文法书,只是讲解这些形态词尾的用法,我从来没看到有人指出到底能变出多少花样来。记得我跟我的语言学同学说,你猜猜一个词在世界语会有多少种变化?同学说,据她所知,世界语也不是形态特别丰富的语言,最多不过20-30种变化吧。后来就琢磨怎么回事?黏着(就是叠加)这种特点能有这么神奇的产生性吗?还真是如此。

17个形态不难记忆,112种形式怎么不把人整晕呢?靠的就是黏着的规则性。这些规则,文法书也没有写清楚,一切都是在例子中。但其实是可以总结出来的,到底有几种基本词尾形态,形态之间的粘着有什么限制?次序上,类型上,为什么?这些原来都是可以小葱拌豆腐讲清楚的。对形态词尾组合规律的穷尽式探索也是我所学的计算语言学的需要:所谓“削尾”算法就是要应对一个词的所有变形,这是自动形态分析的前提。没有它就查不到词典,没有词典信息加形态分析的信息,就无法做句子分析,也没办法往下走机器翻译规则系统。最后就把对于国际语的语言学研究,变成了一个机器翻译的应用课题。

有些东西是天生在这个语言中的,属于其语言学特点所决定的东西,但语言教科书上,包括柴门霍夫自己的实践都很少系统论述。譬如,复杂时态语态,通常的教学只教利用助动词 est- 的用法:estas studanta / estis studota / ... 等等,其实系统学习背后的语言学特性,会发现,这个助动词完全可以不用:  studantas / studotis / ... (其实,即便保留助动词加中心动词的复杂分析形式,当年助动词词根 EST- 完全可以不用,让 EST- 只做系动词而不必兼做助动词,让三个时态词尾直接独立做助动词用即可:as studanta / is studota / ...)。。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

1.  世界语的黏着性

1.0  众所周知,世界语在很大程度上是一种典型的黏着语,它的语素(词尾、词缀和词根)具有相对固定而独立的含义,可以“黏着”(叠加)构词。下面我着重探究世界语词尾黏着的构词能力,尽管词缀黏着(所谓派生词构词法)与词根黏着(所谓复合词构词法)同样有趣,值得研究。

[说明] 本文中的术语“词尾”专指语法词尾,亦叫“形态”。

1.1  词尾黏着

一般而言,词尾用于表示语法信息:词类、格、数、时态、语态、语气等。

1.1.1  世界语中有多少个独立的形态语素?

其绝对数非常有限,只有17个,即:-o,-a,-e,-n,-j,-i,-u,-as,-is,-os,-us,-ant-,-int-, -ont-,-at-,-it-,-ot-。由于它们的黏着组合的特性,17个形态语素就足够完整,其表现力几乎可以与形态丰富的语言媲美。

1.1.2  根据17个基本形态,可以从一个词干按规则生成多少个单词形式呢?

理论上的答案是112:42个动词,28个名词,28个形容词和14个副词(请参阅附录I)。

1.1.3.  形态语素黏合成词尾的规则

1.1.3.1.  每个单词只有一个词类。实词总是以其形态标示其词类:名词、形容词、动词还是副词。但是,功能词(例如介词,原副词等)是由词典人为规定的词类,它们是可枚举的。因此,表达词类的形态语素之间不允许黏合,就是说,-o,-a,-e,-i /-u/-as/-is/-is/-os/-us 这些词尾相互独立,不可叠加,例如下列形式是非法的:

** -as-o / ** -e-i

【说明】 ** 表示不合法的语言形式(单词或短语),而 ?表示成问题的语言形式。

1.1.3.1.1.  词类不交叉是国际语很大的优势:世界语不存在词类同形现象,这无疑为无论是人还是机器的对词的功能解析提供了的极其有利的条件。而词是最小的句法单位和基础。世界语的高度规则性在此得到了最好的体现。

1.1.3.1.2.  另一方面,上述特点也带来了世界语利用词尾任意转换词类的自由,只要词类转换不违背逻辑(参见1.1.5.1)。这不正是世界语兼具高度规则性与高度灵活性的体现吗?例如:

La flor-OJ glor-AS. (那花儿绽放了:“花儿” 与 “绽放/开花” 是同一个词根 flor- 只是词类词尾不同)
Li kan-AS italan popolan kant-ON. (他唱意大利民歌:“唱” 与 “歌” 是同一个词根 kant-,只是词类词尾不同)
Mi estas ĝoj-A.  Mi ĝoj-AS. (他开心:“开心/高兴” 无论是动词谓语,还是做系动词后面的形容词标语,词根都是一样的 ĝoj- )
la propon-ITA propon-O (所提建议:“提议” 与 “建议” 同一个词根,只是词类词尾不同)

词类转变在古代汉语也有类似的自由度,叫做“词类活用”。但是,不幸的是,古汉语的词类转换没有以可见的形态表现出来,只能通过上下文句法、逻辑的分析来识别(“句读”)。请比较:

1)三“人”行,必有我师。(Tri hom-OJ iras, inter kiuj nepre estus mia instruisto.)
(因为没有词尾形态,逐词直译就是:tri hom? ir?, nepr? est? mi? instruist?).

其狼“人”立而嗥。(La lupo hom-E staras kaj hurlas.) 

(逐词直译:tiu? lup? hom? star? kaj hurl?).

2)其物“净”且清。(La aĵo pur-AS kaj klaras.) 
(逐词直译:tiu? aĵ? pur? kaj klar?).

“净”其身,食其肉,乃去。(Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. )
(逐词直译:pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?).

1.1.3.2  表示词类的形态都可以黏合到 7 个“中缀”型形态上(中缀形态永远不会出现在单词的结尾),其中6个是所谓“分词”形态,用来表示“时体”(进行体、完成体与未完成体)和语态(主动语态和被动语态)。这6种分词形态各自独立,不能相互黏着。第7个是“零形式”(即分词形态阙如,表示默认的“一般体”加主动语态的含义)。

1.1.3.3  动词的黏着规则

1.3.3.1  一个动词必须用以下词尾之一:-i / -u / -as / -is / -os / -us,它们之间不再存在黏着的可能性。这意味着,以 -i(不定式),-u(命令式) 或 -us (虚拟式)结尾的不再有时态的变化/含义,而 -as(现在时) / -is(过去时) / -os(未来时)不再有“时体” 的变化/含义。

1.1.3.3.2  世界语动词没有“数”与“格”的变化。因此,动词词尾不能与复数词尾 -j 和 宾格词尾 -n 黏着。因此,在世界语中,不存在以下两种形式的区别:

Mi skrib-as. / ** Ni skrib-j-as.  (au: ** Ni skrib-as-j.) 
(即不存在其他语言那种主谓在数上的“一致关系”要求。)

1.1.3.3.3  表示时态(现在,过去和将来)和语气(不定式、命令式和虚拟式)的 6 种动词词尾,加上表示时体和语态的7格分词形式,黏着在一起的结果为:6*7 = 42 个动词形式。

【问题探讨】不定式到底是语气(modo)还是独立的词类(speco)?

1.1.3.4  名词和形容词的黏着规则

1.1.3.4.1  名词和形容词有“数”(单数为零形式,-j 为复数形式)和“格”(主格为零形式,宾格形式为 -n)的形态变化。7个名词词尾 -o / -ant-o / -int-o / -ont-o / -at-o / it-o / ot-o,两个数变 (加 -j 或不加) 和两个格变(加 -n 或不加),最终形成 2*2*7 = 28 个名词形式(同理,有28个形容词形式)。

1.1.3.4.2  它们之间的顺序是:(词干)+ 分词 + 词类 + 数 + 格,其中词干 = 前缀+词根+后缀(前后缀可省)。例如:stud-ant-o-j-n。仅词根语素和词类语素必须有,其他语素可能根本不出现。上述语素之间的次序是很自然建立的,有语音方面的原因(尽管从形态上说,词尾语素之间的次序是纯粹任意的,因为次序本身不会改变其语法意义,这方面与词缀黏着的情形有所不同!参见1.2)。如前所述,即使词干以元音收尾,词类词尾的元音 o 或 a,后面跟半元音 j (复数)和鼻辅音 n(宾格)串起来发音和听音也还是很顺:

sci-aj-n / ** sci-j-an

1.1.3.5  副词的黏着规则

与名词和形容词的规则非常相似,只是副词不包括“数”这个语法范畴(在这种情况下,应注意,副词宾格与名词宾格用法不同)。因此,这些副词形态变体的总数为 2*7 = 14。

1.1.3.6  关于黏着的词尾规则为建立用于“削尾”和加尾的算法提供了很好的依据,这是机器解析和翻译世界语的第一个必要阶段。由于黏着语内部的高度规则性(包括一定程度的递归),研究此类令人满意的算法并不困难(请参阅附录2)。

1.1.4  世界语17个基本形态语素是否做到了在语义上的单纯,没有交叉?

1.1.4.1  可惜不是。这在【附录2】削尾算法中看得很明显(比较各个形态对应怎样的词法意义)。

1.1.4.2  语义不交叉的词尾只有5个:-o / -a / -e / -i / -n。应该说明的是,所谓的语义不交叉的词尾并不一定意味着只对应一个语义。语义不交叉词尾 -n 实际上有三个语义(即包括了三个单独的句法或逻辑功能,当然,三者并不共存):(i)宾语;(ii)方向(通常用于副词或介词后名词);(iii)状语(通常用于时间、距离等名词,功能等价于介词 je)。再如,在某些语言中,存在三个数,单数(1)、双数(2)和复数(大于2),但是世界语复数词尾 -j 的含义更大,包括2或大于2。

1.1.4.3  在世界语中,没有单纯的基本形态语素来表示"动词"、"谓语"的特征以及词法范畴"时态"、"语态"、"语气"和"时体“的具体所指。在分词的6个形式中,时体和语态是混杂在一起的。时态、语气与动词/谓语的特征也混合在一起。但是,这些不透明的的混合性词尾不会给人的理解带来困难。相反,它们显得足够自然和方便,特别是,那些混合在一起的词法特征都是紧密相关的。

【延伸讨论】 分词并不是独立的词类,它可以属于4个主要词类的任何一类。分词的真正含义是给一个词以逻辑动词的意味,类似于表示动作性意味的后缀(或“类词尾”)-ad- 。

1.1.4.4  有意思的是,即使在世界语不透明的混合形态中,也存在一定程度的“透明性”。在 -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot- 中,“a” 似乎表示“现在”或“进行”,“i” 表示“过去”或“完成”,“o” 是 “未来”或“未完成”,“s” 似乎指 “谓语”(但命令式谓词 -u 则是例外,”n“ 表示 “主动”。尽管从形态学上,这些“类词尾”不能被视为基本形态,但是,所反映的这种“透明性”客观上加强了使用者对形态的把握,而且,人们总是体验到这些混合式形态构成的平行之美。

【延伸讨论】作为句法范畴,时态与时体显然彼此不同,但在实际使用中,其边界其实是灰色的:

Verk-ONT-oj estas tiuj, kiuj verk-OS au verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ghojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ghojas.

Li jam vid-IS/vid-INT-AS la filmon.

实际上,这两个词法范畴均与客观世界的时间维度相关,是针对事件时间的不同角度的反映。这大概就是柴门霍夫作为语言践行者,对两个客观相似的概念(例如“过去”与“完成”)采用相同的元音(“i”)作为形态构成因素的考量吧。

1.1.4.5  然而,正因为世界语没有单纯的形态语素表示语态,语态信息是融合在6个分词形态里面,这就造成如下情形:一个被动形式对应了两个主动形式,如下所示:

-as / -antas  -->  -atas;    -as / estas -anta(j) --> estas -ata(j)
-is / -antis  -->  -atis;        -is / estis -anta(j) --> estis -ata(j)
-os / -antos  -->  -atos;    -os / estos -anta(j) --> estos -ata(j)

这个问题的本质是世界语实际上有四个时体:一般体(零形式),进行体,完成体和未完成体,同时存在两个语态:主动(零形式)和被动。而六个平行的分词形式只能蕴含三个时体和两个语态。这种状况使得以零形式表示的一般体没有其对应的被动形式,从而使它无奈之下不得不去共享或抢夺进行体被动态的分词形式 -at-。不能不承认,这是世界语形态系统的一个理论缺陷。其结果是,尽管 -at- 理论上是 -ant- 的被动对等物(进行体:-antas  -->  -atas),但实际上 -at- 通常是作为一般体的被动形式(一般体:-as  -->  -atas),越俎代庖了,因为一般体比进行体更为常用。因此,有人建议允许黏合形式 -ant-at- 或 -at-ant-,用作进行体和被动式的结合,或者将混合式分词形态独立开来,即:-ant-at- 代替 -at -,-int-at- 代替 -it -,-ont-at- 代替 -ot- ,以这种透明的黏合形式弥补形态体系的理论缺陷。这种符合黏合特性和组合逻辑的书斋提案,对于机器可能更加合理有效,但是对于我们人类来说,它们失之繁琐,反而成为不必要的学习负担。

1.1.4.6   【小结】理想的纯黏合语言是每个语素,至少每个词尾形态,应该具有单纯唯一的独立含义,正如柴门霍夫在《第一书》中声称的那样。任何复杂的意义组合都应该以语素的黏合手段加以表达。这也正是黏合语与其他的形态语言之间的根本区别。由此单词词形内的词法结构将变得彻底透明,完全可解析。最方便彻底贯彻这一黏合设计思想的语素正是词尾形态,而不是数量大得多的词缀语素和词根语素。然而,就这一点而言,世界语也没有表现出100%的黏合性。在我看来,这可以用语音手段的局限来解释:将所有词尾形态原子化肯定会导致每个单词的音节数大增,这样对于使用者的接受度来说太过复杂。 此外,世界语只有5个元音 a / i / e / o / u,这些元音也已经严重超载。世界语过去、现在和将来都是为人实际使用而设计的足够“自然的”人类语言(尽管其起点是人造),而不是机器语言。 (请参阅第4节。)

1.1.5  这 112 个单词形式都会用到吗?

1.1.5.1  在词法上,是的,所有这些形式都可能用到。实际中有一个限制:词干与这112种词尾的黏合,必须在逻辑上是可理解的,即语义上可以兼容。譬如,在我看来,那些表示具体物体的词根(例如“tabl-”)是应该没有分词形式的:

? tabl-ant-i / tabl-ot-a / tabl-ant-a / tabl-int-o

这种限制是使用者自然遵守的,毕竟人不大可能表达自己也无法理解的信息。

1.1.5.2  尽管从实用角度来看,这112种形式的使用频度彼此之间有很大差异,但是不能说哪种形式不可使用。这112种形式的有效性和可理解性是同样的。哪些形式更受青睐,更多出现是由多种因素决定的,包括:说话者的语言习惯和母语背景、风格、教育程度、语言能力、听众是谁以及希望产生何种效果,等等。

尽管如此,世界语的简约原则要求尽可能多地使用简单形式而不是复杂形式。例如:

"Mi NUN stud-AS (au: Mi ESTAS stud-ANTA)" 代替 "Mi stud-ANT-AS".
"Ili JAM ir_IS (au: Ili ESTAS ir-INTAJ)" 代替 "Ili ir-INT-AS".
"veredir-E" 代替 "veredir-ANT-E"

因此,人们宁愿使用 “la parol-O far_E de Zamenhof(柴门霍夫做的演说)”,而不是“ la parol-ADO far-ITA de Zamenhof”,或将短语 FARE DE 简化为新的介词 FAR(la parolo FAR Zamenhof)。

因为人类思想本身就存在必要的模糊性,此外,上下文和功能词(包括唯一有形态变化的助动词 EST-)通常也对解析有所助益(如上面示例所示,另请参阅 3.2.1),所以,世界语的节约原则并不难遵守。

1.1.5.3  【小结】仅仅17个基本形态最终形成112个有效的词尾形式!每个词都可以有112种变化,这真可算是黏合造词的奇迹。更重要的是,无论是表达还是理解,如此众多的词形却不会给人带来负担。这不是世界语黏合规律的最好证明吗?实际上,黏合的本质不外乎是选择性排列(由造词结果角度观之)和拟递归(由过程角度观之,请参阅【附录2】)。更抽象地讲,是一定的数学特性引入世界语了。世界语词汇是规则性和灵活性高度统一的典型案例,在世界语中这是同一现象的相互依存的两面。

1.2  词缀的黏合

词缀主要用于表达单词的细微差别。其黏合通常遵守自然逻辑或语义的兼容性,都是全人类共同的准则。因此,没有(也没有必要)特别规定词缀黏合的规则,使用者自然会让黏合易于理解。有一个世界语结构关系的就近原则在这里起作用,该原则要求两个相互关联的元素尽可能地接近,以便于清晰理解。比较 PLIMALBONIGI 与 MALPLIBONIGI 之间的细微差别:

bon-a --> mal-bona --> malbon-ig-i --> pli-malbonigi
bon-a --> bon-ig-i --> pli-bonigi --> mal-plibonigi (aŭ: bon-a --> malpli-bon-a --> malplibon-ig-i)


1.2.1  词缀的抽象度有所不同。 最抽象也是最常用的词缀有 -et- (“小”,程度轻微)、-eg-(“大”,程度严重)、mal-(反义词)、ne-(否定词),可以用于任何词根/词干和任何词类(原则上,每个词根具有一个逻辑词类,就像每个单词都有一个语法词类一样),而其他词缀,如 -ul-(“者”)、-ing-(“值得”)、 el- (“出”)、 kun-(“一起”)则非常具体。

1.2.2  与多后缀黏着相比,前缀黏合或多或少受限,并且语音上不允许在前缀之间或前缀与词根之间连音(例如,MALAPERI 和 MALANTAUPORDO:

mal-a-pe-ri / ** ma-la-pe-ri;
mal-an-tau-por-do / ** ma-lan-tau-por-do


1.2.3  后缀的黏合非常灵活自由:

rid-i --> rid-et-i --> ridet-em-a --> ridetem-et-a--> ridetemet-ul-o -->  ridetemetul-in-o --> ridetemetulin-et-o --> ridetemetulinet-aĉ-o --> ridetemetulinetaĉ-et-o ...
= la ete aĉa eta knabino, kiu ete emas rideti

上面这个由一个词根一个词尾中间黏着了8个后缀的派生词词义组合透明、易于理解,意思是:有点儿爱微笑的有点恶作剧的小女孩。后缀有:-et-(程度轻微)、-em-(倾向于)、-ul-(“者”)、-in-(女性)、aĉ(恶作剧)。

有意思的是,语缀(如 -et-)可以在一个单词中多次出现,这与形态语素完全不同。从理论上讲,后缀的数量在黏合过程中是不受限制的。当然,一个单词太多音节,发音器官可能有困难,人们通常不会使用过于繁复的多后缀黏合的词法综合形式。一般取而代之的是,使用句法词组的分析形式来表达复杂的概念组合。

另外,世界语中有两个特别的后缀 -ĉj-/-nj-,它们会更改与之黏合的前面的发音:patro(父亲) / patrino(母亲) --> pa-ĉj-o(爸爸)/ pa-nj-o(妈咪)。

1.3  词根的黏合

词根黏合用来表达复杂概念,其黏合规则非常简单也很自然:中心词始终居后。词根复合的黏合,与中文(以及德语)合成词的构成,具有类似的自由性。示例:

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。近20页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

Li,Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

1. Aglutineco de Esperanto

1.0.  Kiel sciate al ĉiuj, Esperanto estas grandparte tipa aglutina lingvo, kies morfemoj (finaĵoj, afiksoj kaj radikoj) havas siajn apartajn signifojn kaj povas aglutini unu sur alia por vortofarado.  Ni intencas portempe esplori sube ĉefe pri la aglutineco pri la finaĵoj, kvankam estas same studindaj la trajtoj por la aglutineco pri afiksoj (lige kun derivaĵfarado) kaj pri radikoj (lige kun kunmetaĵofarado).

[Klarigo] La termino finaĵo en tiu ĉi arktikolo specifikas je gramatika finaĵo.

1.1. Aglutineco pri Finaĵoj

Principe vortofinaĵoj estas nur uzataj por montri gramatikajn informojn: vortospecon, kazon, nombron, tenson, voĉon, modon kaj aliajn.

1.1.1.  Kiom da sendependaj finaĵmorfemoj estas en Esperanto?

La absoluta nombro multe limigitas, nur 17: -o, -a, -e, -n, -j, -i, -u, -as, -is, -os, -us, -ant-, -int-, -ont-, -at-, -it-, -ot-.  Tamen, estas admirinde, ke ili sufiĉe kompletas kaj proksimume esprimriĉas kiel en fleksiegaj lingvoj, dank' al sia aglutineco. 

1.1.2.  Baze de la 17 fundamentaj finaĵoj, po kiom da vortoj oni povas produkti el unu vortokorpo laŭregule?

La teoria respondo estas 112: 42 verboj, 28 substantivoj, 28 adjektivoj kaj 14 adverboj (Vd. APENDICON I).

1.1.3.  Kiuj estas la reguloj, laŭ kiuj la finaĵoj sinaglutinas?

1.1.3.1.   Ĉiu vorto havas nur unu vortospecon, nociaj vortoj ĉiam per siaj finaĵoj sinaspektas je siaj specoj ĉu kiel substantivo, aŭ adjectivo aŭ verbo aŭ adverbo; funkciaj vortoj, kiel prepozicio, originala adverbo, kaj aliaj, tamen, gajnas siajn specojn artefarite, kaj ili estas nombreblaj.  Tial, ne estas permesite, ke interaglutiniĝu la finaĵoj indikantaj specojn, -o, -a, -e, -i/-u/-as/-is/-os/-us, t. e. ne ekzistas la formoj kielsube:

** -as-o / ** -e-i

[KLARIGO] ** estas indiko por negramtikaĵo (ne-vorto aŭ ne-frazo) dum ?? por gramtikeproblemaĵo.

1.1.3.1.1.  Tio estas granda avantaĝo por la internacia lingvo, ke en Esperanto ne povas esti gramatikaj samformoj, kio sendube estas eksterordinare favora kondiĉo por rekoni (far ĉu homoj ĉu maŝinoj) la funkcion en frazo de la minimuma sintaksa unuo vorto.  La alta reguleco tipe enkorpiĝas ĉi tie, ĉu ne?

1.1.3.1.2.  Sekve kaj aliflanke, Esperanto sin karakterizas per laŭplaĉa transformado de vortospecoj, se nur la transformaĵo ne kontraŭas al logiko (kp. 1.1.5.1).  Ĉu tio ne estas okulfrapa sinmanifesto de alta fleksebleco de Esperanto? Ekzemble:

La flor-OJ flor-AS.
Li kan-AS italan popolan kant-ON.
Mi estas ĝoj-A.  Mi ĝoj-AS.
la propon-ITA propon-O

La sama laŭplaĉeco je specotransformo sintrovas ankaŭ en la antikva ĉina lingvo.  Tamen, treege bedaŭrinde, la transformo sin montras per neniaj videblaj morfologiaj formoj, kaj tio povrekoniĝas nur laŭ kunteksta sintaksa aŭ/kaj logika analizo.  Komparu:

1) 三人行,必有我师。(ĉine) Tri hom-OJ iras, (inter kiuj) nepre estus mia instruisto.
(vorto-al-vorte: tri hom? ir?, nepr? est? mi? instruist?).

其狼人立而嗥。(ĉine) La lupo hom-E staras kaj hurlas (t.e. kvazaŭ homo starus). 
(vorto-al-vorte: tiu? lup? hom? star? kaj hurl?).

2) 其物净且清。(ĉine) la aĵo pur-AS kaj klaras. 
(vorto-al-vorte: tiu? aĵ? pur? kaj klar?)

净其身,食其肉,乃去。(ĉine) Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. 
(vorto-alvorte: pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?)

1.1.3.2.  Ĉiuj specofinaĵoj bone sinaglutinas sur la 7 "interfinaĵoj" (kiuj neniam aperas je la fino de vortoj), t.e. la 6 participaj formoj indikantaj aspektojn (kontinuan, perfektan kaj malperfektan) kaj voĉojn (aktivan kaj pasivan), kaj 1 nulformo, kiu fakte indikas ĝeneralan aspekton (aŭ nulaspekton) kaj aktivan voĉon. Tamen, la participaj por si mem ne povas interaglutini unu sur la alia. 

1.1.3.3.  Aglutinaj Reguloj por Verbo

1.1.3.3.1.  Verbo finas nepre je unu el la subaj finaĵoj: -i/-u/-as/-is/-os/-us, kiuj tial certe aperas je vortofinoj kaj inter kiuj ne plu estas la eblo por aglutinado, t.e. la formoj kun -i, -u aŭ -us kiel finaĵo ne plu sinvarias je tenso-signifo, kaj -as/-is/-os nur povas enhavi la signifon de ĝenerala modo (aŭ nulmodo). 

1.1.3.3.2.  Esperantaj verboj ne sinvarias pro nombro aŭ kazo, verbofinaĵoj do ne aglutineblas al la finaĵoj -j kaj -n.  Tial en Esperanto ne ekzistas la kontrasto inter la subaj 2 formoj:

Mi skrib-as. / ** Ni skrib-j-as.  (aŭ: ** Ni skrib-as-j.) 

1.1.3.3.3.  La 6 verboformoj indikantaj tensojn (prezencan, preteritan kaj futuran) kaj modojn (infinitivan, kondicionalan kaj volitivan) kaj la 7 interfinaĵoj por aspektoj kaj voĉoj interaglutinas kun la rezulto de 6*7=42 verboformoj.

[PROBLEMO] Ĉu infinitivo vere estas ia modo aŭ ia sendependa vortospeco?

1.1.3.4.  Aglutinaj Reguloj por Substantivo kaj Adjektivo

1.1.3.4.1.  Substantivoj kaj adjektivoj fleksias je nombro (singularo per nulformo kaj pluralo per -j) kaj kazo (nominativo per nulformo kaj akuzativo per -n).  La 2 nombroj kaj 2 kazoj aglutinantaj sur la 7 interfinaĵoj fariĝas fine 2*2*7=28 formoj.  

1.1.3.4.2.  Jen la ordo inter ili:  (korpo)-interfinaĵo + speco + nombro + kazo, interkie korpo = prefikso(j) + radiko(j) + sufikso(j).  Ekzemple: stud-ant-o-j-n.  Nur radiko kaj speco nepre kunaperas, la aliaj morfemoj povas tute ne aperi.  La supra interordo establiĝas tre nature, kun fonetika kialo (kvankam morfologie la finaĵ-ordo estas pure arbitra, ĉar la ordo mem ne variigas iliajn grametikajn signifojn, kio tiurilate diferencas de la stato pri afiksoaglutinado!  Kp. 1.2.  Ordite kiel supre, la vokalo oa, la duonvokalo j kaj la nazala konsonanto n prononciĝus kaj aŭskultiĝus plej facile, eĉ en la okazo, ke la korpo hazardus kun vokalo je fino: 

sci-aj-n / ** sci-j-an

1.1.3.5.  Aglutinaj Reguloj por Adverbo

Ili multe similas al tiuj por substantivo kaj adjektivo, nur adverbo ne inkluzivas en si la gramatikan kategorion de nombro (por kazo, menciindas, ke la adverba akuzativo signife ne malgrande foras de la substantiva).  La formoj do rezultiĝas entute je 2*7=14.

1.1.3.6.  La aglutinaj reguloj pri finaĵoj bone fundamencas al la establado de la algoritmoj por fortranĉi finaĵojn kaj por ilin adicii, kiu estas la unua necesa etapo por maŝine kompreni kaj traduki Esperanton.  Dank' al la alta reguleco, inkluzive de iugrada rekursiveco, interna en la aglutinareguloj, estas ne malfacile elesplori tiajn algoritmojn kontentigajn (Vd. APENDICON 2).

1.1.4.  Ĉu la 17 fundamentaj finaĵoj ĉiuj semantike senmiksas?

1.1.4.1.  Bedaŭrinde, ne.  Tio klare evidentas en la algoritmo de APENDICO 2.

1.1.4.2.  Jen la senmiksaj finaĵoj: -o/-a/-e/-i/-n.  Estas klarigende, ke la tiel nomata semantike senmiksa finaĵo tute ne necese signifas, ke ĝi devu signife specifiki nure.  La Esperanta senmiksa finaĵo -n signife inkluzivas fakte de tri apartaj funkcioj sintaksaj aŭ logikaj (neniam kunekzistaj, kompreneble): objekto, direkto (kutime lige kun adverbo aŭ postprepozicia substantivo) kaj adjekto (ofte kun la substantivoj de tempo, distanco aŭ similaj).  Plurekzemple, en iuj lingvoj estas tri nombroj, singularo (1), duumo (2) kaj pluralo (pli ol 2), tamen la Esperanta pluralofinaĵo -j plivaste signifas, inkluzive de kaj 2 kaj pli ol 2.  

1.1.4.3.  En Esperanto ne estas elementaj finaĵoj por respekte indiki verbon, predikaton kaj la signifojn de tenso, voĉo, modo kaj aspekto.  La signifoj de aspekto kaj voĉo miksiĝas en la koncepto de participo.  Kaj tenso, modo ankaŭ sinmiksas kun verbo aŭ/kaj predikato.  Tiuj netravideblaj miksaĵoj, tamen, ne kaŭzas malfacilon por homa rekonado; anstataŭe, ili aspektas sufiĉe nature kaj favore, ĉefe ĉar la signifoj miksitaj kune estas tiuj, kiuj proksime interrilatas.  

[PLUVORTOJ]  Participo ne estas sendependa vortospeco, kiu povas aparteni al ajna el la 4 ĉefaj specoj kaj kies vera senco nur efikas je tio, ke ĝi, kiel la sufikso aŭ kvazaŭ interfinaĵo -ad-, donus al vorto la logike verban signifon.  

1.1.4.4.  Estas sufiĉe interese ke ankaŭ estas iugrada "travidebleco" eĉ en Esperantaj netravideblendaj miksaj finaĵoj.  El la formoj -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot-, verŝajnas al ni, ke -a- signifus "presencon" aŭ "kontinuon", -i- "preteriton" aŭ "perfekton", -o- "futuron" aŭ "malperfekton", -s "predikaton" (escepte nur de la volitiva predikato -u), kaj -n- "aktivon", ktp.  Kvankam morfologie tiuj kvazaŭfinaĵoj ne povas sinsendependi kiel elementaj finaĵoj, tamen, tia "travidebleco" objetive multe helpas nin por memorado, kaj plue, oni ĉiam sentas la belecon je la paraleleco en la miksformoj  konsistantaj el ili.  

[PLUVORTOJ]  Kiel sintaksaj kategorioj, tenso kaj aspekto ja evidente diferencas unu de la alia, sed je praktika uzado ege malklariĝas la interlimo:

Verk-ONT-oj estas tiuj, kiuj verk-OS aŭ verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ĝojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ĝojas.
Li jam vid-IS/vid-INT-AS la filmon.

Fakte, la 2 konceptoj ambaŭ rilatas al TEMPO en la objektiva mondo.  Tio eble ĝuste estas la kialo, pro kio Zamenhof, kiel lingva majstro, maldogmiste elektis la samvokalojn por la 2 objektive similaj konceptoj.  

1.1.4.5.  Tamen, guste ĉar en Esperanto ne estas elementaj finaĵoj por voĉoj, kies informoj sin montras nur en la 6 participoj, do formas la situacio, ke 1 pasivformo kontrastas al 2 aktivformoj kielsube:

-as / -antas  -->  -atas;    -as / estas -anta(j) --> estas -ata(j)
-is / -antis  -->  -atis;        -is / estis -anta(j) --> estis -ata(j)
-os / -antos  -->  -atos;    -os / estos -anta(j) --> estos -ata(j)

La esenco de ĝi estas, ke en Esperanto estas efektive 4 aspektoj: ĝeneralo (per nulformo), kontinuo, perfekto kaj malperfekto, kaj ekzistas 2 voĉoj: aktivo (per nulformo) kaj pasivo.  La 6 paralelaj participoj konsistas el nur 3 aspektoj kaj 2 voĉoj, dum la nulforma ĝenerala aspekto ne havas sian respondan pasivformon, rezultante, ke ĝi senrimede kunĝuas la kontinuan pasivaĵon!  Ni ne povas ne konfesi, ke kvankam -at- estas teorie formala kontrastaĵo al -ant-, tamen oni efektive emas rigardi -at- kiel la pasivan formon por ĝenerala aspektom, kiu pli often uziĝas ol la kontinua.  Tial, iuj proponas, ke oni uzu la aglutinan formon -ant-at--at-ant- kiel la kunaĵon de kontinuo kaj pasivo, aŭ plue, tute sendependigu la 2 katekoriojn, sekve estus: -int-at- anstataŭ -it-, -ont-at- anstataŭ -ot-, ktp.  Tiaj travideblaj formoj eble ja efikas por maŝinoj, sed por ni homoj ili estas troaj kaj nenecesaj ŝarĝoj.  

1.1.4.6.  [Sumeto]  Ideala pure aglutina lingvo estas tia, ke ĉiu morfemo, almenaŭ ĉiu finaĵo, devas havi elementan aŭ simplan signifon, tiel, kompleksa signifo estas esprimata en la formo de morfemaglutinaĵo.  Tio ja estas la fundamenta diferenco inter aglutina lingvo kaj alia fleksitipa lingvo, kaj nur pro tio la vortoj fariĝus travideblaj, tute analizeblaj.  Kompreneble, finaĵoj estas tiuj morfemoj, kiujn oni plej facile aglutinigas tutpure.  Tamen, eĉ tiurilate, Esperanto ne sinmontras je 100% senmiksa aglutineco, kio povas, laŭ mi, klarigata fonetike: signife simpligi ĉiujn finaĵojn en elementojn certe kaŭzas la plimultigon de silaboj por vorto, kaj la aglutinaĵo sekve tro kompleksas por homa akcepteblo.  Plue, en Esperanto estas nur 5 vokaloj a/i/e/o/u, kiuj ĉiuj estas sufiĉe ŝarĝitaj jam!  Esperanto estis, estas kaj estos HOMA PRAKTIKUZA kaj sufiĉe NATURA lingvo (kvankam origine artefarita) anstataŭ maŝinlingvo.  (Vd. Sekcion 4.)    

1.1.5.  Ĉu la 112 formoj ĉiuj estas uzataj?

1.1.5.1.  Gramatike, jes. Praktike, estas nur unu limigo:  la ligaĵo de korpo kaj finaĵo devas esti logike komprenebla, t.e. semantike ligebla.  Ŝajnas al mi, ke tiuj konkretaj aĵo-radikoj kiel "tabl-" ne povas fariĝi en participformojn:  

?? tabl-ant-i  / tabl-ot-a / tabl-ant-a / tabl-int-o

Tiun limigon laŭas nature la uzantoj, kiuj verŝajne ne eblas esprimi iun informon eĉ ne kompreneblan al si mem!  

1.1.5.2.  Kvankam pragmatike la uzofteco por la 112 formoj multe varias unu de alia, tamen oni neniel povas diri, ke kiuj formoj estas neuzeblaj.  La efikeco kaj la komprenebleco de la ĉiuj 112 formoj estas same certaj.  La problemo, kiuj el ili estas prefere elektitaj por esprimado, decidiĝas de variaj faktoroj:  la lingva kutimo kaj origino de la parolanto, la stilo, la situacio, kiaj aŭskultantoj ĉeestas kaj kia efiko estas intencita, la poveco de la uzanto, ktp.  

Tamen, Esperanta Ŝpara Principo bezonas, ke oni plej ofte eble uzu malmultajn simplajn formojn.  Ekzemple: 

"Mi NUN stud-AS (aŭ: Mi ESTAS stud-ANTA)" anstataŭ "Mi stud-ANT-AS".
"Ili JAM ir_IS (aŭ: Ili ESTAS ir-INTAJ)" anstataŭ "Ili ir-INT-AS".
"veredir-E" anstataŭ "veredir-ANT-E" (kp. angle: truly speak-ING).

 Do, oni prefere uzas "la parol-O far_E de Zamenhof" anstataŭ "la parol-ADO far-ITA de Zamenhof", aŭ plue plisimpligus la vortogrupan prepozicion FARE DE en la novan prepozicion FAR: la parolo FAR Zamenhof (kp. "la parolo de Zamenhof", formon pli abstraktan).  

Ĉar en la homa pensado mem iugrade ekzistas necesinda nebuleco, kaj samtempe, ofte helpas ankaŭ la kunteksto kaj funkciaj vortoj inkluzive de la nura fleksia efektive funkcieca vorto EST- (helpe de ĝi, oni bone sinesprimas per analizaj formoj ĝenerale pli klaraj ol la sintezaj kompleksaj formoj, kiel jam montrite en la supraj ekzemploj.  Vd. ankaŭ 3.2.1), Ŝpara Principo de Esperanto ne malfacile laŭiĝas.  

1.1.5.3.  [SUMETO]  Nur 17 fundamentaj finaĵoj povas interaglutiniĝi fine en 112 efikaj finaĵoformojn!  Ĝi estas miraklo por vortofarado dank' al aglutineco.  Kaj, plue, tiel multaj formoj neniel fariĝas ŝarĝo sur homoj ĉu por esprimo aŭ por kompreno.  ĉu tio ne estas la plej bona pruvo por la Esperanta aglutina reguleco?  La esenco de aglutineco estas faket ne plu ol elekta permutado (el la anglo de rezulto) kaj kvazaŭrekursiveco (el la angulo de procezo, Vd. APENDICON 2), aŭ pli abstrakte, ia matematikeco, kiu plej multe eble enkondukiĝis en nian lingvon.  Ĝuste pro tio, Esperanta vortofarado estas tipa ekzemplo de la alta unuiĝo de reguleco kaj fleksebleco, kiuj estas en Esperanto interdependaj flankoj de la sama fenomeno.  

1.2.  Aglutineco pri Afisoj

Afiksoj ĉefe poras esprimi vortonuancojn.  La aglutino ofte limigatas de natura logiko aŭ semantika kunligebleco, kiu estas grandparte komuna al la tuta homaro, tial ne ekzistas, kaj ankaŭ necesas, perfortaj reguloj por la afiksordo, la uzantoj en komunikado nature interkompreniĝas tiurilate.  Funkcias ĉi tie la Esperanta Interproksima Principo, kiu bezonas la interrilatajn 2 elementojn kiel eble plej proksimaj por facila kaj klara komprenado.  Komparu la nuancon inter PLIMALBONIGI kaj MALPLIBONIGI:

bon-a --> mal-bona --> malbon-ig-i --> pli-malbonigi
bon-a --> bon-ig-i --> pli-bonigi --> mal-plibonigi (aŭ: bon-a --> malpli-bon-a --> malplibon-ig-i)

1.2.1.  Estas diferenco je abstrakteco de afiksoj.  La plej abstraktaj kaj ankaŭ plej ofte uzataj afiksoj kiel -et-/ -eg-/-aĉ-/mal-/ne- ĉie uzeblas kun kiu ajn radiko, kies logika speco (principe, ĉiu radiko kutime havas unu logikan specon, ĝuste kiel ĉiu vorto havas unu gramatikaspecon) estas ne antaŭkondiĉita, dum aliaj kiel -ul-/-ing-/el-/kun- multe konkretas.

1.2.2.  La povecon je prefiksa aglutino estas pli-malpli limigita, kompare kun tiu je la sufiksa, kaj fonetike ne kiele permesitas la kunprononco de la silaboj inter prefisoj aŭ inter prefiso kaj radiko (kielekzemple MALAPERI kaj MALANTAŬPORDO: mal-a-pe-ri / ** ma-la-pe-ri;  mal-an-taŭ-por-do / ** ma-lan-taŭ-por-do).  

1.2.3.  Multe pli flekseblas la aglutinado pri sufiksoj:

rid-i 
rid-et-i
ridet-em-a
ridetem-et-a
ridetemet-ul-o
ridetemetul-in-o
ridetemetulin-et-o
ridetemetulinet-aĉ-o
ridetemetulinetaĉ-et-o ...
(= la ete aĉa eta knabino, kiu ete emas rideti)

Ni trovu, ke la samafikso povas aperi plurfojoin en unu vorto nur laŭ la sence celita, tio estas tute malsama de finaĵo.  Teorie, la nombro de sufiksoj dum aglutinado semlimas, kvankam oni prefere uzas analizan formon anstataŭ tro kompleksan plursufiksan aglutinaĵon, limigite de la povo de homaj organoj.  

[PLUVORTOJ]  Estas en Esperanto 2 malaglutinecaj sufiksoj -ĉj-/-nj-, kiuj ŝanĝas la antaŭajn silabojn:  patro / patrino --> pa-ĉj-o / pa-nj-o.

1.3.  Aglutineco pri Radikoj

Radikaglutineco uziĝas por manifesti malsimplan koncepton, kaj la aglutina regulo tre simplas kaj naturas: aksa elemento ĉiam sekvu.  La laŭplaĉeco por kunmetaĵfarado kaj la aglutina regulo tre similas al la vortofarado en la ĉina lingvo (kaj ankaŭ la germana).  Ekzemplojn:

(Esperante : ĉine)

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

2. Fleksebleco De Esperanto

2.1  En Esperanto malklariĝas la limoj ...

2.1.1  Inter transitivo kaj netransitivo

Mi IRAS.
/ IRU vian propran voj-ON.

La tuta homaro PAROLOS nur unu lingv-ON.
/ Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  Inter objektoj rekta kaj nerekta :

informi ION al IU / informi IUN pri IO

2.1.3  Inter objekto kaj adjekto

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  Inter radiko kaj afikso (eĉ finaĵo), sekve inter derivaĵo kaj kunmetaĵo, kiel ekzemple:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. Inter sufikso kaj finaĵo

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Ĉiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  Inter nocia vorto-radiko kaj funkcia vorto, t.e. funkciaj vortoj ankaŭ povas sekvati de finaĵoj eĉ afiksoj ĝuste kiel radikoj, se necese:

JES, mi JES-as vian opinion.
Li TRO ĝojas.  --> Li ĝojas TRO-e.
tie --> tie-aj homoj
nur --> la nur-a studento / nur-ul-o / nur-ul-in-o
per --> per-anto
tre --> tre-ege

2.1.7  Inter vortogrupo kaj grupovorto (kunmetaĵo), speciale prepozitivo kaj ĝiaj respondaj adverbo, adjektivo, verbo kaj eĉ substantivo:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtabl-en

la lingvo por homoj / porhom-a lingvo (porhomalingvo)
(sed ĉu "porhomlingva" = "porhom-lingva" aŭ "por-homlingva"?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-U, subpopol-U, interpopol-U kaj porpopol-U.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   Inter predikato kaj predikata komplemento (predikativo):

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9.  Fine inter la konceptoj de aglutinado, kunmetado kaj derivado (Rf. Sekcion 1); inter la konceptoj de substantivo nombrebla kaj nenombrebla (ekz. konklud-o / konklud-oj), difinita kan nedifinita (sinmotrante je iugrada laŭplaĉo en la uzado de la artikolo LA), ktp. 

2.2.  En Esperanto kreiĝis la ĉiopova prepozicio JE.  Kiam oni esprimas sian penson, oni ofte sentas, ke ekzistas iagrada nubula determina rilato inter konceptoj, sed ne povas diri klare kaj ne bezonas klare montri ilian semantikan rilaton.  Por adapti la lingvon al tia nebuleco de homa pensado, Zamenhof, same kiel li elpensis la sufikson -UM-, genie kreis la prepozicion JE (kiu eble estas la dua plej grava analizaĵo en Esperanto.  La unua estas la vorto EST-, Vd. 3.2.)  Oni povas esprimi tian nebulan rilaton ankaŭ per fleksiaj formoj (sintezaĵoj), kiel akuzativo aŭ adverbo.  

2.3.  En Esperanto estas mirinda unueco en la uzado de kazo kaj vortospeco, kio estas ĝia treege elstara lingvistika trajto.  La vortospeco kaj kazo estas ambaŭ dinamikaj sintaksaj karakteroj, kiuj sinmontras nur dum la konstruado de frazo.  Tial, ili same povas esprimi abstraktajn semantikaj rilatojn, kvankam diferencajn, kaj efektive kompletigas unu la alian.  (Diferencante de la analizforma prepozitivo, kiu en Esperanto estas uzata ĝenerale por esprimi kompare koncretan kaj determinan semantikan rilaton, escepte de la prepozicio JE.  Porplue, vd. 3.2.2.)  Ni komparu jenajn frazojn:

Mi skribas plum-E.  /                                                       (ruse)

Kiel supre jam menciite (vd. 1.1), bazaj finaĵformoj en Esperanto, kvankam nemultaj, estas sufiĉe kompletaj kaj esprimriĉaj.  Ni nun citu kazon kiel pluan ekzemplon.  Esperanto havas nur du kazojn, t.e. nominativon, aŭ alivorte neakuzativon (per nulformo), kaj akuzativon (kun la finaĵo "-N").  Kun la kazoj kaj vortospecoj, kaj analiza formo prepozitivo (se necese), Esperanto estas tiel esprimriĉa kiel aliaj fleksiegaj lingvoj.  La rusa estas unu el la lingvoj kurante plej fleksiriĉaj, kun 6 kazoj.  Estas ne malinspirante kaj ne malinterese kompari la rusan lingvon kun Esperanto tiurilate.  Proksimumedire, la unua kazo de la rusa respondas al nominativo de Esperanto, la dua kazo al adjektivo (kun la finaĵo "-A"), la kvara al akuzativo (kun la finaĵo "-[OJ]N"), kaj la kvina al adverbo (kun la finaĵo "-E").  Nur la tria kazo ne havas sian respondan fleksian formon en la internacia lingvo kaj estas ansataŭata ĝenerale de la prepozicio "AL".  La sesa kazo per si mem ne esprimas difinitan semantikan rilaton kaj funkcias nur kune kun la prepozicioj kiel "O", "HA", "B".  Estas interese, ke en Esperanto prepozicioj povas esti sekvataj kaj de nominativo kaj de akuzativo, montrante nedirekton kaj directon respektive.  Kompare kun la simila uzo en la rusa lingvo, Esperanto estas multe pli simpla kaj perfekta. (Vd. APENDICON 3.)   

2.4.  En Esperanto estas sufiĉe libera vortordo

2.4.1  

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(ĉiuj permutaĵoj de tri elementojn)

2.4.2  

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi ŝatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
(plibone: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3 

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

Ĉi tie ni vidas, ke la malibereco sinmontras nur je la ordo inter artikolo aŭ prepozicio kaj ĝia ĉiam sekvanta rilata subsvantivo, tial, en la ĵuscititaj frazoj estas fakte 3 ordo-varieblaj elementoj: la (...) propono; de mi; proponita, kies permutado nombriĝas je 6.

2.4.4  Esperanto eĉ permesas tian uzadon:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

Certe, en la supraj du ekzemploj, multe helpas la poetika licenco, kiu povas, tamen, tiel libere kaj efike funkcii je vortordo nur kondiĉe, ke ĝi estu en iu treege milda lingvo kiel Esperanto kaj samtempe ke ĝi tute ne kontraŭu al la fundamenta gramatiko de la lingvo.

2.5.  La konjugacia sistemo de Esperanto (kvankam kun, tamen, la difekto supremenciita en 1.1.4.5.) kaj la tabelo de korelativaj vortoj de Esperanto estas mirindaj kreaĵoj.  Per la nura help-verbo EST- (kiu estas la plej grava analizaĵo en Esperanto!  Vd. 3.2.), oni povas bone esprimi analizforme diversajn kompleksajn tensojn kaj voĉojn.  (Sen la help-verbo, dank' al la aglutineco de gramatikaj finaĵoj, oni ankaŭ egale pove ilin esprimas sintezforme.)  La tabelo de korelativaj vortoj estas eksterordinare riĉa kaj konciza por esprimi semantikajn rilatojn.  Ĝi estas tiel perfekta, logika kaj bela, ke ĉiuj esperantistoj spertas ĝian belecon, same kiel kemiistoj la belecon de la Mendeleeva tabelo de kemiaj elementoj.

2.6.  En Esperanto almenaŭ ĉiuj prepozicioj estas samtempe prefiksoj.  Do sekvas nature la granda fleksebleco je esprimado (vd. 2.1.7.). 

 

3.  ANALIZAJ KAJ SINTEZAJ FORMOJ

3.1. Alia elstara lingvistika trajto de Esperanto estas, ke ĝi havas la esencojn de kaj analiza lingvo kaj de sinteza lingvo, sufiĉe riĉante je kaj funkciaj vortoj kaj fleksiaĵoj.  Oni povas sin esprimi semantike aŭ per analiza formo (helpe de funkciaj fortoj) aŭ per sinteza formo (helpe de fleksioj). La du formoj, kompreneble, ne tute identiĝas. Ili sin montras diversastile. Pro tio, Esperanto estas elastega kaj esprimriĉa. Kiel celolingvo, ĝi povas plej bone imiti la lingvajn karakterizaĵojn de originala verko, ĉu la mildan slavan stilon kun libera vortordo, ĉu la stilon de fleksimankaj lingvoj, kiel la ĉina kaj angla. Sube estas kelkaj ekzemploj de ĉiea kaj ĉiutavola kunekzistado de analizaj kan sintezaj formoj en Esperanto:

Analizaj Formoj / Sintezaj Formoj

1. Tenso:

Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

2. Voĉo:

Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS.  Ĝi lim-IĜAS.  Ĝi SIN-limig-AS

3. Senco:

Tio estas MALGRANDA (ETA) sekreto. / Tio estas sekret-ETO.

4. Preposicioj kaj la kazo akuzativo aŭ vortospecoj -E aŭ -A:

Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).

la libroj DE mi / mi-AJ libroj

Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.

LAŬ mia opinio / miaopini-E

ridi JE iu / ridi iu-N

EN (JE) fakto / fakt-E

inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (adverbo sekvata de akuzativo!)

vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

5. Prepozicio kaj vorto:

finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(Por aliaj ekzemploj vd. APENDICON 3 kaj 2.1.7.)

3.2. Plej Gravaj Analizaj Formoj: Vorto EST- kaj Prepozicio

3.2.1. Nura Helpa aŭ Liga Vorto EST-

3.2.1.1. Verŝajnas, ke ne estas nocia senco en la vorto EST-, kiu, el la punkto de sinteza lingvo, tute ne necesas:

Ili ESTOS skrib-ITAJ ĉe la jarfino. --> Ili skribi-ITOS ĉe la jarfino.

Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. --> Ni ĝoj-AS ricev-INTI iliajn leterojn.

Vi ESTAS vere bonkor-AJ (vi en pluralo). --> Vi vere bonkor-AS (nombro nur certita en kunteksto).

Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato. --> Li profesor-IS (profesor-ADIS) en tiu universitato.

Tamen, ankoraŭ estas problemoj:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.

ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.

3.2.1.2. Kun la vorto EST-, kvankam nur unu, Esperanto treege riĉiĝas je esprimado per analiza rimedo! Alie, la lingvo havus tute alian aspekton, kiu tro konpaktus kaj malmildus, kaj kiu plejeble malakceptitus de homoj el la analizalingva tipo.

3.2.2. Prepozicio

3.2.2.1. Estas kutime akceptite en la lingvistika rondo, ke prepozitivo (aŭ prepozicia sintagmo = prepozicio + substantiva komplemento) estas esence ankaŭ ia kazo, kun la nura malsamo, ke prepozicio ĝenerale pli knokretas ol kazo. Fakte, prepozicioj mem enhavas variajn gradojn de konkreteco inter si, kiel ekzemple, komparu:

instituto JE lingvistiko --> instituto DE lingvistiko --> instituto PRI lingvistiko (plikonkretiĝas unu ol alia)

Estas kelkaj sufiĉe abstraktaj prepozicioj, kiuj efektive funkcias ĝuste kiel kazoj en iuj aliaj lingvoj, kiel JE/DE/AL/PRI/PER (vd. APENDICON 3). (Notu, ke la semantikoj de kazoj ankaŭ varias je abstrakteco.)

3.2.2.2. Kiel jam iom menciite en 2.3., adverbo (kun finaĵo -E) estas ankaŭ iu semantike abstrakta kazo. Sed, adverbo en Esperanto anaŭ povas indiki tiel konkretajn rilatojn kiel ajna prepozicio! Nur kondiĉas, ke la vortocorpo deriviĝas de radiko kaj prepozicioprefikso. Kp:

LAŬ (la) regulo(j) --> LAŬ-regul-E (kp. la pli abstraktan vorton: regul-E)

Estas multaj tiaj ekzemploj (vd. 2.1.7.). Fakte, oni povas libere intertransformi prepozitivon kaj ĝian respondan adverbon (kun la ofteapera artikolo LA ellasita).

3.2.2.3. Ĉar almenaŭ ĉiuj prepozicioj samtempe ankaŭ povas funkcii kiel prefiksoj (la ĉefa parto en la Esperanta prefiksaro!), la tiel nomata "grava ANALIZA formo" prepozicio vere estas egale unu el la plej gravaj SINTEZAJ formoj!

3.3. [SUMEO] En Esperanto ĉie kaj ĉiutavole videblas la kunekzitado de analiza kaj sinteza formoj, per kiu Esperanto sin diferencas de naciaj lingvoj. Kvankam ne ekzistas pura sinteza lingvo sen ajna analiza formo, nek pura analiza lingvo sen ajna sinteza formo, tamen ĉia nacia lingvo havas nur unu formon kiel la ĉefan: aŭ la analizan aŭ la sintezan, kaj almenaŭ ĉiu estas tia, ke la du formoj ne ekzistas samokaze.

4. TRAVIDEVLECO DE ESPERANTO

4.0.  Estas naturo de Esperanto, ke sufiĉe travideblas Esperantaj formoj (ĉu analizaj aŭ sintezaj, tamen, la analizaj formoj ŝajne ĝuas pli da travidebleco ol la sintezaj), kio estas certe unu el la plej elstaraj avantaĝoj kaj la ĉefa kialo por la facileco en la lernado de Esperanto, ĉar ono povas uzi malmultajn formojn (elementojn) por esprimi senlimajn informojn, aŭ analizi la akceptitajn formojn en elementojn por komprenado.

4.1. Ĉu Esperanto estas perfekte travidebla?

Ne. Kaj neniam povos. Kaj ankaŭ neniam necesos - almenaŭ por homa lingvo.

La antaŭkondiĉo por tutetravidebleco estas, ke ĉiu koncepto povus esti analizata en nombreblajn semantikajn atomojn aŭ semantikemojn (ĉu tio ja eblas? Referencu la progreson en la rondo de artefarita intelekto), kaj plue, ke la semantikemoj, kiam ili interkunligas, devus esti kompleksece homtolereblaj - tio certe ne povas ĉiam kontentiĝi, speciale por scienca fakotermino, kiu estas kutime tiel enhavo-riĉa kaj signifo-ekzakta, ke ĝia difino bone fariĝus iu plena disertacio. Tial, tia koncepto nur povas fiksiĝi en homan cerbon per iu fonetika formo, kies surfaca respondaĵo estas ne alia ol maltravidebla vorto! Aliflanke, plejmulte da scienca terminaro ĝuas internaciecon, do ŝajnas ne saĝe ĝin Esperantecigi eĉ eble, ekz., nombroscienco / matematiko, sed ĉu matematiko estas simple nombroscienco? (Vd. 4.4.)

4.2. Ĝuste kiel la kunekzistado de analizaj formoj kaj sintezaj, en Esperanto multokaze (sed alitavole, kompreneble), ankaŭ troviĝas la kunekzistado de la travideblaj kaj ne travideblaj formoj.

Pekino: Beijing
;ingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

Oni eĉ toleras tiajn tiel-nomatajn "ne-Esperantajn" vortojn kile "komputoro" kaj "komputero" en Esperanton!

4.3. Iuj plefote uzataj ĉiutagaj vortoj jam sinstabliĝas kiel travideblaj formoj, kio manifestas la fortan emon de Esperanto por Esperantecigi aliajn!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

Tamen, bonstila Esperanto neniam ekstremigasiun ajn rimedon, eĉ plej efikan kaj facilan:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4. Dilemo de Esperanto

4.4.1. Esperanto kiel internacia lingvo, celas la facilan komunikadon por la tuta homaro. Tamen, en la lingvopraktikado aperas la kontraŭo inter travidebleco (la lingva naturo de Esperanto) kaj internacieco (laa celo de Esperanto), kiu plej evidente sinmontras je la konstruado de terminoj. Rezulte, la vortaro de Esperanto estas multe pli vasta ol on atendis.

4.4.2. Esperanto kiel efika ilo por komunikado devas esiti, kaj efektive ja estas, sufiĉe kompakta, do venas la kontraŭo inter travidebleco kaj kompakteco. Fakte ju pli travideblas, des pli malkompaktas.

4.4.3. Kaj fine ankaŭ estas la kontraŭo inter travidebleco (sekve lernofacileco kun malmulte da elspezo de memoro kaj energio) kaj inkluziveco. Esperanto kiel scienca kaj portuthomara lngvo inkluzivus morfologie kaj sintakse ĉiujn efikajn lingvajn rimedojn, kio bezonas la kunekzistadon de variaj formoj, inkluzive de la maltravideblaj.

5. SUMO

5.1. La supre diritaj montras, ke ĝueste male al tio, kion oni subjektive dedukts, Esperanto estas treege fleksebla lingvo kun variaj esprimmanieroj, kiuj povas sin reciproke kompletiĝi kaj intertransformi, kaj la granda fleksebleco de la lingvo ĝuste konformas al la nebuleco de la homa pensado. Ĝi donas al homoj grandan liberecon je esprimado kaj la plej bonajn kondiĉojn por plene montri ilian lingvan kompetentecon. Aliflanke, ĝi ankaŭ enhavas tiel grandan tolerecon, ke eĉ komencantoj aŭ lingvo-nesaĝuloj povas facile kaj simple sinesprimi kompreneblige. Ĉi tio estas kampo konvena por ĉiuj, ĉu genioj ĉu malsaĝuloj. Tamen tia fleksebleco ne influas la rigoran neŝanĝeblecon de la fundamenta gramatiko de Esperanto. Ĉi tie la libereco kaj rigoreco ekzistas harmonie. En Esperanto, ĉiuj estas kreantoj kaj ĉiuj povas ĝui la plezuron de tia kreado. Oni ne plu estas sklavoj de lingvaj kutimoj. La granda harmonio de la fleksebleco kaj reguleco de Esperanto estas vere mirakla kreaĵo lingvistika.

5.2. Ecaro de Esperanto - Ŝlosilovortoj:

porhomeco / natureco / scienceco / reguleco / inkluziveco / toler(ebl)eco (elasteco) / aglutineco / matematikeco (kvazaŭrekursiveco) / logikeco / travidebleco (analizebleco) / fleksebleco

5.2.1. Proksimume ni havus: Fleeksebleco <-- aglutineco (sekve travidebleco) kaj inkluziveco de variaj formoj (ĉu analiza ĉu sinteza; ĉu travidebla ĉu netravidebla); Reguleco kan scienceco <-- matematikeco kaj logikeco.

5.2.2. El la punkto de toler(ebl)eco kaj la praktika informokomunikado, almenaŭ ĉiuj supraj ekzemploj kun ?? je la antaŭo estas tolereblaj, minimume kompreneblaj. Kompare kun naciaj lingvoj, tia tolereco estas multe pli elstara.

5.3. [KONKLUDO] La eksterordinara sukceso de Esperanto grandega miraklo en la historio de homaj lingvoj. Ĝi estas la venko de homa racio, la venko de lingvistiko! Estas nepovtroe laŭdite kaj fiere hurainde, ke en la inta lingva kampo, kie "ekutimo estas Dio", fositas sulko por INTERNACIA LINGVO kiel contrasto al nacia lingvaro!

APENDICO 1

Ni citu kiel ekzemplon la radikon STUD- en formo de verboj kaj adjec=ktivoj, kan komparu ĝin kun la angla vorty STUDY.

Gramatikformoj por Radiko STUD- [angle: STUDY]

1. 42 verboj:

stud-I [to study]
stud-U [(let...) study]
stud-US [would (should) study / stud-IED / would have stud-IED / ...]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let...) be study-ING]
stud-ANT-US [would be study-ING / ...]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let...) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let...P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let...) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let...) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / ...]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let...) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

(2)  28 adjektivoj

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

APENDICO 2

Algoritmo por Fortranĉi Finaĵojn de Esperanto

(1) Se la finaĵ estas -O, do konkludu "Substantivon / Nominativon / Singularon", iru al (2); alie, iru al (11).

(2) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se sukcesas en konsulto al la vortaro, konkludu "Nulmodon/Aktivon", finiĝu la prilaborado; alie, iru al (3).

(3) Se la finaĵo estas -ANT, do konkludu "Participon / Aktivon / Kontinuon", iru al (9); alie, iru al (4).

(4) Se la finaĵo estas -INT, do konkludu "Participon / Aktivon / Perfekton", iru al (9); alie, iru al (5).

(5) Se la finaĵo estas -ONT, do konkludu "Participon / Aktivon / Malperfekton", iru al (9); alie, iru al (6).

(6) Se la finaĵo estas -AT, do konkludu "Participon / Pasivon / Kontinuon", iru al (9); alie, iru al (7).

(7) Se la finaĵo estas -IT, do konkludu "Participon / Pasivon / Perfekton", iru al (9); alie, iru al (8).

(8) Se la finaĵo estas -OT, do konkludu "Participon / Pasivon / Malperfekton", iru al (9); alie, iru al (10).

(9) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se suksecas en konsulto al la vortaro, finiĝu la prilaborado; alie iru al (10)

(10) konkludu "Novavorton", finiĝu la prilaborado.

(11) Se la finaĵo estas -A, do konkludu "Adjektivon / Nominativon / Singularon", iru al (2); alie, iru al (12).

(12) Se la finaĵo estas -E, do konkludu "Adverbon / Nominativon", iru al (2); alie, iru al (13).

(13) Se la finaĵo estas -OJ, do konkludu "Substantivon / Nominativon / Pluralon", iru al (2); alie, iru al (14).

(14) Se la finaĵo estas -AJ, do konkludu "Adjektivon / Nominativon / Pluralon", iru al (2); alie, iru al (15).

(15) Se la finaĵo estas -ON, do konkludu "Substantivon / Akuzativon / Singularon", iru al (2); alie, iru al (16).

(16) Se la finaĵo estas -AN, do konkludu "Adjektivon / Akuzativon / Singularon", iru al (2); alie, iru al (17).

(17) Se la finaĵo estas -EN, do konkludu "Adverbon / Akuzativon", iru al (2); alie, iru al (18).

(18) Se la finaĵo estas -OJN, do konkludu "Substantivon / Akuzativon / Pluralon", iru al (2); alie, iru al (19).

(19) Se la finaĵo estas -AJN, do konkludu "Adjektivon / Akuzativon / Pluralon", iru al (2); alie, iru al (20).

(20) Se la finaĵo estas -AS, do konkludu "Verbon / Predikaton / Prezencon", iru al (2); alie, iru al (21).

(21) Se la finaĵo estas -IS, do konkludu "Verbon / Predikaton / Preteriton", iru al (2); alie, iru al (22).

(22) Se la finaĵo estas -OS, do konkludu "Verbon / Predikaton / Futuron", iru al (2); alie, iru al (23).

(23) Se la finaĵo estas -US, do konkludu "Verbon / Predikaton / Kondicionalon", iru al (2); alie, iru al (24).

(24) Se la finaĵo estas -U, do konkludu "Verbon / Predikaton / Volitivon", iru al (2); alie, iru al (25).

(25) Se la finaĵo estas -I, do konkludu "Verbon / Infinitivon", iru al (2); alie, iru al (26).

(26) La vorto ne havas finaĵon. Konsultu la vortaron pri funkciaj vortoj. Se sukcesas, konkludu "Funkcivorton"; alie, konkludu "Novavorton / Substantivon / Propranomon". Finiĝu la prilaborado.

[KLARIGO] La supra algoritmo jam proviĝas tre efika ĉe maŝino.


APENDICO 3

La Kontrasta Tabelo por Kaza Sistemo






 

 

 

 

【相关】

灵感有如神授,巧夺岂止天工

世界语论文钩沉:世界语的语言学特点(3/3)

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

《学外语的紧箍咒,兼谈世界语的前途》

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《朝华午拾:我的世界语国》

【立委按】最近发现,很多以前在国内科学网公开发布的博客,都被屏蔽了,不仅仅是涉及政治、历史(文革、大跃进)的。科学网自我审查越来越严格,应该是国内的大形势使然,科学网编辑不得不如此吧。好吧,那就把屏蔽掉的一些当年花了心力的部分博客慢慢搬运过来吧。《朝华午拾:我的世界语国》就是其中之一。

 

我的世界语国(Mia Esperantio)

作者:立委

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。

的确,世界语对我,有着宗教般的吸引力。当年初入北京世界语圈子,感受到的新鲜和温暖,使我一个外地人兴奋莫名,遂以全部热情投入。二十多年了,我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会,是我的世界语之旅的第一次远行。我们北京一伙人,一路谈笑,亲如一家。同行有邱大姐(歌唱演员,文革时唱过家喻户晓的“我为革命下厨房”)和老大哥王彦京(一个很英俊的小伙子,是“老”世界语者了,常跟我们吹嘘他是黄埔一期,当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历)。途中遇到一位山西姑娘,独自远行开会,起先不爱理人的样子。后来熟了,才知道她天性活泼开朗,完全不象北京女孩那样一本正经,是那种性情温和、相处让人舒服的人。都是年轻人,自然比较聊的来,一直相处得很自然愉快。接触一多,不时招来老大哥的善意讥讽:你那位 Shanxi-anino 呢?我当时已经悄悄地有北京女友了,岂敢有“不良”居心。后来,她嫁给了我的北京世界语哥们,算是昆明大会做的媒吧。一方面为朋友高兴,心里面还真有点嫉妒:这小子天上掉下来的福气。

给黄华副委员长做翻译

71届世界语大会前夕,中国科学院世协举办了一个国际世界语科技研讨会,有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译,可临场前一刻钟,沙教授忽然跟我说:“你年轻,脑子快,还是你上场吧”。天哪,我才刚学世界语不到一年,虽然仗着语言学出身和词典的帮助,阅读写作并无障碍,可是并没有多少机会练习口语翻译啊。沙教授看我犹豫,鼓励说:“你肯定行”。也是初生牛犊,糊涂胆大,这一激就呼啦上场了。往黄华身边一站,差点傻眼了,只见无数闪光灯袭来,眼前明晃晃一片白光。毕竟是外交部长出身,黄副委员长出口成章,抑扬顿挫,表情丰富。每说一段,就停下来等我翻译。我强作镇定,努力想复述,也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院,我一时不敢确定圣马力诺在世界语怎么说,黄先生看我卡在那里,提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段,我都应付了几句,但自己都翻译了些啥,根本没数。下场后,心里懊悔极了。我后来想,世协的主办人肯定更加懊悔,没想到半路杀出来个愣头青,早知沙教授临场换人,他们一定会安排其他世界语高手出场,北京世界语界可是高手如林。黄华啊,岂是等闲人物,绝不该有半点差错。不过,这次赶鸭子上架对我个人的命运却非同小可,它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译,才同意跟我见面,最终结成良缘的。当然,这是后话了(见《朝华午拾:爱情自白》)。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮,成为全国世界语者的狂欢节日。我作为世界语“新秀”,有幸参加了从大会预备到终场的全过程(后来了解到,由于当时的政治现状,很多外地资深世界语者没有得到参加盛会的代表资格,严重打击了同志们的热情)。

立委在大会门前与老世界语者语言学家周流溪老师留影

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕,意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者,很神秘地告诉我,他们的世界语代表团安插有政工,专事监督他们,必须倍加小心。在亚洲,两伊战争正酣,国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者(忘了姓名了,很是个人物),她很活跃,聪明过人,反应极快,积极牵头组织世界青年世界语者的活动,曾表示希望我作为中国青年世界语者召集人,跟她配合。我问她,你要是遇到敌国伊拉克的世界语者,怎么办啊?她毫不犹豫地说,我会上前招呼握手,跟他/她交朋友,我们世界语运动的宗旨,不就是加深理解,消除仇恨,实行世界和平么。她也告诉我,在她国内必须小心,随时可能被送进监狱。象她这样抛头露面的比较西化的人,恐怕早已上了黑名单,是政府盯梢的重点。“不过,我不怕,我有对策”,她很有信心地说。大会以后,我跟这位优秀的世界语者还保持通讯了一些时日。

漂亮的伊朗世界语者

说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。

人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj”(We are Esperantists by birth)。

当时我们北京世界语者有一个据点,就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸,好像也是黄埔一期的。她姐妹俩典型北方人性格,为人热情爽朗,会张罗,结交广,富有幽默感。到她家,就跟到自己家一样感觉亲切自在。世界语文艺片播放那天,我们一拨人于是相约到她家看。遇到国外世界语朋友来访,我们也常常带到王艾家聚会。

大会期间,还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京,于是我兄弟俩和王艾一起陪同日本朋友逛圆明园,然后召集一批世界语朋友在王艾家晚餐聚会,热闹非凡。

拉宾小姐演出之余

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作,画面干净利索,色彩鲜艳,人物神态,栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是,我在这次大会上,结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士,并与他保持了多年的交往(特别是他在BSO从事机器翻译研究期间,后来我去英国留学,他不但给我写了推荐信,还解答了我选择学校的困惑:他告诉我,论名声和学术,应该去剑桥大学;要是想继续从事机器翻译研究,应该去曼彻斯特的UMIST计算语言学中心;如果想学人工智能,爱丁堡大学最佳)。他是剑桥大学的语言学博士(后来跟我一样成为计算语言学家,从事机器翻译的研究,他首创了利用自动句法分析过的双语语料库施行机器翻译的算法,比后来盛行的同类研究早了5-10年),长期以来是国际世界语协会的头面人物之一,当时是国际世界语协会的财务总监。他平易近人,有长者风范,约我到他饭店面谈,对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲,我委屈地说,提交了,但是没有被采纳。他微笑,有点可惜的样子,没有做进一步的解释。后来我得知,国际世界语大会的科技演讲,不仅仅要所选课题对路,水平好(这两点,我已基本做到),还要看研究者的资历,起码是博士,最好是国际知名教授(记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生,不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理,属于我的计算语言学专业)。我一个第三世界的硕士生刚毕业,根本谈不上。

2006年四月十六日
于美国M城

《朝华午拾》总目录(置顶)

 

原载科学网(链接无效,现已屏蔽):http://blog.sciencenet.cn/blog-362400-278883.html 

 

liwei12月 17th, 2008 at 12:47 pm   edit

后记:无心插柳:我撰写的《我的世界语国》系列 (14265)
Posted by: liwei999
Date: June 22, 2006 01:52AM

使我居然进入了中国世界语名人榜。

好,再接再厉,再努把力,把八节的最后一篇写出来,我走过的路,跟世界语有关的,前后线索基本清楚了。其余的细节,以后只是补充花絮而已了。

中国世界语运动史料库

Arkivujo de la ?ina EM
世 运 人 物 志

立委《我的世界语国》入世运人物志

——————————————————————–

前两周写《我的世界语国》,送到国内世界语网站,炸了窝一样,一下子和好多当年的世界语老朋友联系上了。其中还有当年擦肩而过的山西女孩(Shanxi-anino)从德国发来感慨。这个世界说大也大,说小也小。

EsPeRo12月 17th, 2008 at 3:01 pm   edit

Saluton kaj dankon, liwei. Mi devas diri, ke mi lernas multon de via blogo. Mi chiam pensas, ke vi estas tre talenta kaj sukcesa homo. Mi antau longa tempo vidis la foton de vi kun Huang Hua. Kaj ege interesite legis vian rakonton pri via Esperantaj tagoj en Kanado kaj Usono. Unuvorte, mi shatas legi viajn artikolojn. Vi certe daure havos legantojn. Plie skribu pri kaj por Esperanto! Dankon pro tiuj belaj rakontoj de la viaj denove!
via nova,
Espero DING
el la urbo Zhongshan.

liwei12月 18th, 2008 at 1:13 am   edit

Kara Espero: Mi dankas vin pro viaj vortoj.

faif12月 18th, 2008 at 2:10 am   edit

看来这个网站要安装世界语翻译插件了,呵呵

liwei12月 18th, 2008 at 2:46 am   edit

转自《中国世界语论坛》:http://www.reto.cn/forumo/cina/

[ 武汉大一女生 ] - 2006.04.17, Posttagmeze 5:24

tre juna kaj interesa,CU vi ankorau havas? 请你上传吧!ni kune vidos,
gis la.
2006+4+17 en universitato 湖北

[ kunlernantino ] - 2006.04.18, Anta?tagmeze 09:35

★ Re: 立委,快点写,我等不及了!!! Lest av [ 57 ]
18年了,没听到你的消息了。

★ 立委的文章好 Lest av [ 78 ]
他的文章我是每篇必读,每篇必细读。好,爽!高材生!!

Name [ 武汉女生 ] - 2006.04.18, A.M. 08:53

★ 立委:能否介绍一下71届大会后,你的工作生活经历? Read [ 65 ]
1986年硕士毕业以后。

5007 绿网:各路英雄尽来朝贺,草根英雄总舵主! 又来一英雄 04/18
5004 立委:能否介绍一下71届大会后,你的工作生活经历? 武汉女生
5003 正在写。请等待。 liwei999 04/18 45
5002 立委,我想死你了!!! Danshen 04/18 48
5001 Re: 立委,快点写,我等不及了!!! kunlernantino
5000 Solis:1982年开始学习世界语,71届UK你参加了吗? 你认识立委吗 04/18 49
4999 Re: Solis:1982年开始学习世界语,71届UK你参加了吗?告立委: 无缘无聚 04/18 34
4998 没有 Solis 04/18 28
4997 18年了? 您是哪位? liwei999 04/18 44
4996 山西的女孩,请介绍以下RAVA的情况!dankon! 大同E者
4991 立委:我是你当年的女友,现在中央电视台当主持人! 寻梦人
4990 立委:我是昆明大会上的山西女孩,现在德国! 其实不漂亮
4983 一个美丽的话题-世界语与我的爱情 东北妹 04/18 84
4981 朝华午拾: 我的世界语国(四)- 北京71届世界语大会(格式整理… liwei999 04/17 100
4980 立委,我们崇拜你 崇拜者 04/17 43
4979 很长久的时间没有读到过象liwei1999这样精彩 高质量 洋洋洒洒… 逐篇浏览过-恩 04/18 40

[ 寻梦人 ] - 2006.04.18, Anta?tagmeze 08:07

★ 立委:我是你当年的女友,现在中央电视台当主持人! Lest av [ 95 ]
请自己寻找频道?

[ 其实不漂亮 ] - 2006.04.18, Anta?tagmeze 08:09

★ 立委:我是昆明大会上的山西女孩,现在德国! Lest av [ 82 ]
您的文章唤醒了我往事回忆。

[ 崇拜者 ] - 2006.04.17, Posttagmeze 10:40

★ 立委,我们崇拜你 Lest av [ 60 ]
请你留在我们当中,给我们的世界语国度争光添彩。。

[ 逐篇浏览过-恩 ] - 2006.04.18, Anta?tagmeze 00:43

★ 很长久的时间没有读到过象liwei1999这样精彩 高质量 洋洋洒洒的文章了 Lest av [ 61 ]
啧~...

[ 曾经的靓女 ] - 2006.04.17, Posttagmeze 2:50

★ 风流倜傥一少年:世界语与婚姻家庭

4972 Foto de LIWEI En infano 武汉大一女生 04/17 78

★ 标题 作者 日期 浏览
4938 世界语大腕有出山了。 好啊 04/17 130
4937 Re: 世界语大腕有出山了。 鼓与呼 04/17 78
4934 Mia Esperantio 我的世界语国(二) liwei999
4933 Re: Mia Esperantio 我的世界语国(二) 一靓女 04/17 80
4932 Re: Re: Mia Esperantio 我的世界语国(二) liwei999
4931 世界语照片及其他链接 liwei999 04/17 68
4930 Re: Mia Esperantio 我的世界语国(二) 同志 04/17
4929 同志哥/姐啊,受宠若惊呢。有空到我家看看: liwei999.com
4923 立委:24年前我们是同班同学。今天北京会员春游去了。 太朴寺同学
4960 立委爱情自白:一个纯洁少年跃然网上! 好小子! 04/17
4959 tio embarasos la iaman knabinon… ve 04/17 43
4958 会让当年的靓女也会有美丽的回忆。 童子军 04/17
4957 如有难堪之事,真抱歉。 liwei999 04/17 46

[ 童子军 ] - 2006.04.17, Posttagmeze 11:04

★ 会让当年的靓女也会有美丽的回忆。 Legis [ 38 ]
婚姻成不成时尚地安排的。世界语毕竟给大家带来那么多美好的回忆。。。难忘啊!!!

[ liwei999 ] - 2006.04.17, Posttagmeze 11:58

★ 如有难堪之事,真抱歉。 Legis [ 48 ]
事情已经20多年了。留下的只是美好和人生的回味。

我们的恋爱纯洁如玉,所谓约会连拉拉手都脸红。

不过是恋爱没有谈成罢了。她也是随缘而已,总不能勉强自己的感情。

很多事,必须相信缘分,相信上帝。

有缘的,没缘的,擦肩而过的,大家都是世界语国的兄弟姐妹。

一直在默默地祝福她。

[ samideano ] - 2006.04.18, Anta?tagmeze 07:08

★ Re: 如有难堪之事,真抱歉。 Legis [ 35 ]
我完全赞成立委的说法.那段日子确实难忘.婚姻成不成完全是上帝的安排,并不等于相互之间没有爱过.

作者 [ 好啊 ] - 2006年04月17日 上午 07时17分

★ 世界语大腕有出山了。 浏览次数 [ 134 ]
liwei 就是另一代表。

作者 [ 鼓与呼 ] - 2006年04月17日 上午 08时59分

★ Re: 世界语大腕有出山了。 浏览次数 [ 81 ]
钱宏诚、林力源、立委······

作者 [ 一靓女 ] - 2006年04月17日 上午 07时13分

★ Re: Mia Esperantio 我的世界语国(二) 浏览次数 [ 86 ]
我对你的文章和生活很感兴趣,很高兴你仍在世界语国度,这是同时们的财富。小小遗憾:能否提供近照?另网站因未注册大不开。 希望你永远留在我们的队伍中。

作者 [ 同志 ] - 2006年04月17日 上午 07时15分

★ Re: Mia Esperantio 我的世界语国(二) 浏览次数 [ 72 ]
吻你!!!!!!!!!!!!

★ 立委:24年前我们是同班同学。今天北京会员春游去了。 浏览次数 [ 90 ]
我们是1982年世界语中级班同学(西单太朴寺中学)。

1983年世界语阅读班同学(西单新文化街158中学)。

立委,一个熟悉和又陌生的名字。

★ Re: 立委:24年前我们是同班同学。今天北京会员春游去了。

您是哪位?给我来个 email 吧。

那是一段美好的时光。

羡慕你们春游。不象我,流浪天涯,没有心思外出。

《文本大数据的信息抽取与情报挖掘》

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级的大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂里面的人物大多是科学殿堂让人高山仰止的大科学家,而在下不过是一介匠人)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会也征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也早邀请立委在其创新频道做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

“大数据与认识论”研讨会的书面发言

01  大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社交媒体、云计算、移动互联网和大数据情报挖掘。针对社交媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社交媒体的持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社交媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社交媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

回顾一下历史。2011年初,美国做市场情报的巨头之一 Salesforce 以三亿多美元 (326 million) 的价钱并购了社交媒体客户情报检测系统 Radian6,说明社交媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社交媒体追踪的公司 RightNow 的并购更是高达15亿(1.5 billion)。HP在逐渐放弃低利润的 PC 和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司 Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头 SAP以 34 亿收购了云计算公司 SuccessFactors(3.4 billion),并决定与专事社交媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社交媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头都曾不约而同看好社交媒体的情报价值。

当时在这个领域的投资和竞争非常激烈。不少华尔街主流投资公司加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利:Apple、Google、Cisco、Oracle。

这股社交媒体和大数据挖掘热潮以后,各种初创公司如雨后春笋。记得当年在 Netbase 主持社交媒体客户情报挖掘产品的那些年,在我们的竞争对手的注视名单上一开始有四五十家。十多年下来,大浪淘沙,后来只剩下五六家公司真正在市场站住了,包括 Netbase 的老对手 BrandWatch。

对于中文社交媒体大规模处理的应用型软件,有不少企业做了不同程度的应用落地尝试,但比起西方语言的企业市场应用,还有很大的距离,to B 的市场成熟度也不够。中文网络信息的增长速度一直扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,有潜在的巨大价值。

然而,迄今未见规模化落地应用,分析起来应该有好几个因素:(1)社交媒体大数据涉及隐私,不宜放任挖掘。事实上,微信数据是不对挖掘开放的。只有微博和一些论坛作为公开平台,其数据挖掘较少涉及隐私。(2)大数据挖掘应用的门槛很高,不仅仅是语言处理的能力需要有让人信服的数据质量(特别是精度),而且工程投入,包括存储、更新、检索都需要巨大的投入和积累;(3)就算大数据挖掘一切到位,挖掘出来的情报或知识图谱,到底如何应用还有很大的探索空间,目前还缺乏现场切入角度合适的规模化杀手级应用。尽管如此,从趋势上看,来自于文本大数据的源源不断的情报挖掘,终将成为信息社会不可或缺的软实力。

有人问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

26年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体如新浪微博、腾讯微信等,下一个里程碑是什么?

Big data intelligence (大数据情报挖掘)

很多人这样预测,Google 首席科学家也列此为未来高新技术的大势所趋。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

02  什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社交媒体火热以后的专指,是已经与时事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社交媒体及其用户社交网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社交媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社交媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

除了与社交媒体以及时事背景密切相关以外,大数据的当红也得力于技术手段的成熟。大数据的存储架构以及云计算的海量处理能力,为大数据时代的提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫之所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

03  大数据挖掘技术及其挑战

社交媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社交媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析;2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社交媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth)则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到像目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。

从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。现在的问题是在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling/filtering)与整合(fusion)环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。

由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了,可以让噪音沉底。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

 

(5)自动民调: 社媒大数据挖掘的重要应用

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的监测,等等。
 
自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言处理(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。
 

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 10 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价。样本数可以高出手工调查回收数量的几个量级,是传统民调无法企及的。至于花费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求计件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调特朗普的总统竞选效益,离不开对比其对手希拉利。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示,关于美国零售商的市场调查)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

以总统大选为例。上次特朗普对决希拉里,我还在 Netbase 主持大数据产品的研发,手中有海量的推特数据以及我们研发的大数据挖掘的核武器,有独特的优势,可以见人所不能见。虽然说推特是公开的社会媒体,人人可读,但没有语言抽取和挖掘,任何人或团体都难以看清全局走势。从大选前两周我就开始利用自家的产品追踪动态选情,及时在我的NLP博客发布。当年的选战瞬息万变,但大数据是不会骗人的,里面的跌宕起伏每日呈现在我的追踪系列里。当时主流媒体和民调一致认为希拉里要赢,特朗普自己也没料到自己会赢,连胜选演说都没预备好。希拉里这边更是有些得意忘形了,在选前的生日那天,希拉里发推特给自己庆生,标题是:祝未来的总统生日快乐!就在这一片看好希拉里的预测中,我在大选日前两天发出长篇警告:【社煤挖掘:大数据告诉我们,希拉里选情告急】,里面详细展示了一系列大数据挖掘结果,预测了特朗普的胜选。这可不是事后诸葛亮,都是有案可查的记录(有兴趣的读者可以回看一下我当年报道的大选系列:https://liweinlp.com/?p=1667)。

《告急》展示了大选前一周的对比图:

brand-passion-index-15
这是过去24小时的图:

brand-passion-index-17
这是一个月的涨跌对比:

timeline-comparison-25

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,不久前还是喜妈领先或胶着,如今川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

为什么会得出与主流民调相左的趋势预测呢?道理很简单,主流的手工民调落后于时代,数据采集点太稀疏,误差大,也没法及时反映变化的选情。这次大选后,不少朋友告诉我,从来没有如此真切地感受到大数据和语言技术的威力。

其实在前一轮的奥巴马总统竞选的时候,我们的工具就已经相当成熟,每次总统辩论,我们的舆情监测系统就在线实时展示辩论现场的舆情曲线变化,可即刻宣告辩论双方的得失和结果。奥巴马赢了第二次总统候选人辩论吗?舆情自动民调表明,奥巴马显然赢了这场辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。仔细分析可以看出,对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm时);二是批判他对中国不够强硬 (7:30pm时)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。
 

 

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

先说它的不宜和禁忌。

1 这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2  这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3  大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的吹鼓手。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

 

灵感有如神授,巧夺岂止天工

立委世界语论文:Lingvistikaj trajtoj de la lingvo internacia Esperanto(世运资料存档)

立委按:

这篇世界语论文是我一辈子的骄傲,当年文思泉涌一发不可收的情景仍然历历在目。作为一位世界语与语言学的新手,对这门语言的语言学特点的感悟和表达,能够受到誉满世界的语言学老前辈和世界语老编辑 Juan Regulo 的青睐和指点,既是我的幸运,也肯定了我的才能。20年后重读这篇洋洋洒洒一气呵成的论文,我仍能感受那文字的自由挥洒。原文影印如下,等有闲再电脑输入,既作为世界语运动的资料,同时也纪念早已逝去的风华岁月。

唉,人岁数大了,做好汉就难,总爱吹嘘当年之勇。找到一个吹嘘的题材,就可劲地自我陶醉吧。”灵感有如神授,巧夺岂止天工”,把大话说到天上去了,反正这篇冗长的世界语论文各位也看不懂,我爱怎么吹怎么吹。我的世界语朋友一般都很顾面子,我不担心穿帮,:=)。

不过,说实在的,那确是我一辈子创造力最旺盛精力最充沛的时期。伯乐识天马,天马欲行空,下笔似有神,灵感如泉涌。连续好几个周末,我都去社科院大楼加班到夜深,在电脑上奋笔疾书。论文总结了世界语有别于自然语言的极度灵活性的语言学根据,我就在成文的叙述中把这些特点发挥到极致。细心的读者也许可由此体会到青年立委的匠心和才情。

我在《朝华午拾: 一夜成为万元户》中记述过当时的情景:

研发世界语系统的第二个结果是,我发表在El Popola Chinio(中国报道)上的世界语语言学特点的粗浅论文引起了一个著名的西班牙教授 Juan Regulo 的注意。这位老先生是世界语界老前辈,在他的大学和城市威望极高,以他名字命名街道、广场等。正值他退休,学校决定给他出四大卷印制精美的专辑,表彰他的贡献。其中一卷是关于世界语学(Esperantologio)的论文专集,于是老先生邀请我在《中国报道》的论文(参见硕士论文的有关章节)基础上,扩展加工,单成一章。我文思泉涌,洋洋洒洒写了17页,有老先生来来回回多次校改修正,发表了我平生第一次的Book Chapter ” Lingvistikaj trajtoj de la lingvo internacia Esperanto”(发表时老先生已经过世,他的去世在国际世界语界引起很多纪念,老先生千古!)。

生造词
Posted by: 立委
Date: July 10, 2008 12:10PM

有很多生造词最终没有被语言共同体所接受,但是并不影响这些生造词在交流中的作用。生造词现象在自然语言中出现得少很多,而且一旦出现就常常受到老师或者同人的纠正。但是,世界语的灵活性使得人人都在生造,因此生造词对交际的正面功能加强了。这是个很有意思的现象。

在我发表在西班牙的世界语论文中,我不仅详细描述了这个现象,而且也现身说法,生造了很多词,差不多到了长袖善舞,随心所欲的程度。这篇论文经过世界语顶极元老,西班牙老教授的认真审阅,我的生造词多数得以保留。当年的那种创造快感,大概只有世界语者可以体会了:

世界语丰富的词缀和构词的黏合特性,从形式上给了语言使用者最大的弹性,只要在语境中 make sense, 使用世界语,几乎可以随心所欲,很能满足人 的创造欲:世界语的本性是鼓励“生造词”的。当然,在实际使用中,这种弹性更多表现在给人以造词的便利,而不是满足创造欲。如果我忘记了一个专门词汇,比如 komputero(电脑),临时生造一个 elektrona kalkulilo (电子运算工具:可以指计算器或电脑),也不妨碍我的交流。每一个使用过世界语的,都体会过这种便利和创造的乐趣。

摘自《朝华午拾:世界语之恋》

 

立委世界语论文:Li, Uej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

【置顶:立委科学网博客NLP博文一览(定期更新版)】 

《朝华午拾》总目录

《立委兄:我的弟弟叫立委》

【立委按】老哥的记忆力比我强多了,很多小时候的事儿,我本来已经很模糊了。但那次比赛吃五香鸡蛋,因为后果严重,实在太难受了,印象蛮深,现在想来还后怕。其后一个多月见到食品就想吐,不知道当年怎么会那样逞能不要命。大批判上台演讲慷慨激昂(批林批孔,后来是批邓反击右倾翻案风),突然来了鼻涕的丑事,也是因为太露面也太难堪,记忆深刻。当年不懂五讲四美,也没有卫生纸的条件,几千人的台上众目睽睽难以遮蔽,也是无奈。看老哥写自己,虽然不乏谬赞,但也有暴露开裆裤年代的“小”来。更多的往事是好玩,好像在看电影蒙太奇,那些“阳光灿烂的日子”。一晃半个世纪了,我们天各一方,但牵挂的总是手足亲情。

 

我的弟弟叫立委,从小性格内向少语,天性宽仁敦厚,身体瘦弱多病。独往独来,与世无争。他性格柔中带刚,肤白个小,很有意志力,十分倔强执着,有不达目的誓不罢休的毅力和恒心。

他穿戴邋遢,不修边幅,小时常常流着鼻涕,跟在我的身后。下河捉鱼摸虾,田野捕捉蛐蛐,上树套取知了,农家偷瓜摘莲,他一样不拉下。像一个泡泡糖一样粘着我,甩都甩不掉。

一旦兴奋起来,他个性十分张扬,眉飞色舞,开怀大笑,毫无顾忌。

弟弟小我两岁,但跟我同班。

一九六六年九月,文革风起,我八岁,刚念小学二年级。父母是双职工,很忙。外婆因出身问题被赶回农村,家里没人带孩子。于是要我带着六岁弟弟和四岁妹妹一起上学。弟弟和我在一班,妹妹去了一年级,算是上学了。

没想到,他们俩虽是各自班级最小的学生,但很快就跟上了班级课程进度,并都成为学习尖子。到小学三年级,我当班长时,弟弟已成为班级学习委员了。

弟弟有股不服输的劲头。记得有一年,我俩去乡下舅舅家。正逢过年时节,大家都很放松,舅舅们款待我们远道回老家来过年,食品丰盛,有我们的最爱,五香茶叶蛋。弟弟突发奇想,硬要与我比赛,看谁吃得多。他用极夸张的方式挑战,说一定会赢我。我当然不服气,欣然应允。先是我俩各吃四个油炸饺子,然后我剥一个五香鸡蛋塞到嘴里,他也立即拿一个狼吞虎咽。当我拿第十个鸡蛋时,肚子撑得快受不了,他却毫无畏惧把第十个鸡蛋迅速塞进嘴里,满脸涨红,身体挺直。最后,在拿第十五个鸡蛋时,我实在无法吞咽了。看他那无比坚强、有点扭曲的脸,真受不了他那为达目的不要命的劲头。我缴械投降,称臣认输。结果是,我们两人那几天都胃胀呕吐,疼痛难捱。

小时候下河游泳也是如此,他总是独行侠一样顺河而下,不游三四里不上岸。这哪是我们下河玩水嬉闹的游法?他却不以为然。下河就是为了锻炼身体,增强体质,在水中嬉闹有什么意义?泡在水里失去了游泳的初衷。他就是那么自我,那么固执,那么有主见。

他干什么都很专注,尽可能做到圆满。

小学时,他自学绘画。每天临摹,忙得不亦乐乎。忘我、执着、有定力,一头扎进去就不分昼夜。无师自通,画得有模有样。于是我家墙上,就有了他绘制的各种姿态的领袖像。

初中时,他跟着广播电台,自学英语。每天摇头晃脑,念念有词,那劲头比古代赶考的秀才还迂腐呆萌。后来拿出几篇他自译的英文小说,展示他的成果。弟弟一直是班级第一名。在比拼学业的“修正主义教育路线回潮”那一年半时期(周荣鑫做教育部长时1970年代早期),风光一时。

高中时,大家都不学习,他却把老爸年轻时自学的微积分教材拿出来啃读。躲进的小楼成一统,不闻不问窗外事。到高中毕业时,他已学完了那本教材。

弟弟虽不喜夸夸其谈,但却是演讲高手,这点让我既惊诧佩服又有点不服气。当年学校各种批判会,都有我的身影。但我在主席台上唾沫星四贱,卖力演讲时,下面却是交头接耳,吵杂声不断,无人听讲。每当那不多的几次,我弟弟上台演讲,不论什么枯燥话题,下面都鸦雀无声。他那抑扬顿挫的演讲,丰富夸张的手势,极富有激情和韵味,超有气场。没想到吧,我们这些平时乱成一锅粥,整天批判师道尊严的中学生,竟被他的发言深深吸引。甚至在台上,鼻炎严重的他,有时突然停顿,旁若无人地当众擤鼻涕,也成一大特色。演讲一结束,总会得到雷鸣般的掌声。弱小的他一上主席台,立即生龙活虎,完全变了个人。

弟弟文笔比我好得多,从小如此。作文常常被老师选做范文供同学们学习。记得初中时候他写了一篇学农作文,叫《采茶》,被老师选寄到省报登载,轰动学校。写诗,写散文,写批判文章,他甚至开始创作小说。尤其是大批判文章,也被他写得妙趣横生。给我印象较深的是一篇《狼狗、刘邓》的大批判杂文。他的文字机巧,情感细腻,佳句频出,有冲击力。弟弟有当作家的天赋。

中学时,我也爱舞文弄墨,特点就两字,空洞。文章看上去慷慨激昂,但显得苍白。按现在话说,充满正能量,但缺乏人性情怀,没有什么文字的优美。能吹嘘的也就是在《新安微画报》上,刊出我一张大幅照片。那是记者为表彰我校批林批孔运动的成绩,按排我摆拍的,和我本人实际上没半毛钱关系。

弟弟弱小,却斗志昂扬,总有使不完的劲儿。我们这届作为安徽最后一批下放知青,很多人已失去激情,在生产队干活,大多是三天打鱼两天晒网。七七年三月我们同时下乡,他下放在山村,我下放在水乡,分隔两处,他还是暗地和我较劲着。我从三月到九月一直在田地里干活。没回家,不串门,哪怕酷暑劳累的双抢时节,我也没一天休息。他知道后,也不回家,咬着牙,病弱的身体硬挺着,一天都没息工。直到双抢结束,瘫倒在地,才回家休息了几天。他身体从小病弱,这么拚命干啥?后来知道,除了要强比拼,他在村里还“艳遇”三个小芳姐妹,至始至终陪同。男女搭配,干活不累哈。

估计全年级二百多下放知青,只有我们两个傻帽,还在搞社会主义劳动竞赛呢。

不过他给我留下最难忘的事,倒不是这些,而是一件小事。那是我俩小时睡在一张床上的情景。

每到冬天,寒风四漏的小屋里,我的脚都被冻得难以入睡。弟弟提出把我脚放到他胸前,贴着皮肤取暖。我不同意,怕他孱弱的身体,经不起冰冷的刺激。但他坚持,很勇敢很坚定。我只得退一步,说把脚放在隔着衣服的胸口。但他不干,非让我把脚直接贴在胸前。那寒冻的脚和温暖胸一接触,弟弟打了一颤抖,我赶紧缩腿,但弟弟用双手压住我的脚,不让我离开。很快我的脚暖和了,而他胸前一片冰凉。

自此,我们经常互为对方用胸捂脚,互持互助,度过那严寒的冬夜。

七七年十二月份,我俩一起参加文革后第一次高考。他选择考理工科,我选择考文科。他的志愿是中科大理论物理专业,我的目标是北大、复旦国际政治专业。当年他数、理、化、语都比我好,而我呢?历、地两门课比他好。全国各省地理特点,全世界各国首都和元首我基本倒背如流。那本以农民起义为主线的伪中国历史,更是刻在脑海里。安徽七七年高考,文科、理工科,数学、政治、语文三张卷子是完全一样的,区别仅在于最后一张卷子。理工科考物理化学卷,文科考地理历史卷。

因长辈的历史经验和亲身经历,我的选择遭父母强力反对,最后我只得弃文改考理工了。我们信心都很足,弟弟更是志在必得,还特地加试了英语(那年文理都不要求考英语,只有报英语专业人才必考)。

考语文时,只有一篇作文。进考场三十几分钟,弟弟就兴高采烈交卷了。监考老师还认为他考不下去,退考了。而实际上是,他认为考题太容易,不需花那么久时间,作文一挥而就。

狂妄吧,只考了半个钟点就出来了。结果他语文作文跑题,考了个超低分,这让他悔恨五年多。

他数理化考分都比我高,加试的英语笔试也九十多分,口试优。进清华的实力,毁在自大粗心上。文革后第一次高考,各省试卷不同,录取程序也欠规范。他考的是理工科,因为报考志愿过高,被压档。最后被一所初办师范找到档案,英语系招不到人,于是把理工加试英语压档的他纳入囊中。当年文科那份史地卷,考后我找来一看,不复习也可考八十五分以上。而为理化我天昏地暗复习几个月,仍然不及格。

阴错阳差,他学了文科,我学了理工科。

七八年二月,录取通知发放。当年我们一个年级四个班,七七年十二月份那次考试,只有三个考上大学本科,我家独占两个名额,轰动小县城。

不过,我们家却是低气压,没有丝毫兴奋欢庆的氛围。我从文科改考理科,能考上南京的重点大学,全家那是相当的满意。而我弟弟呢,父母、老师、同学、邻居都寄予厚望,指望山城出个状元。他的失败,让全家都高兴不起来。弟弟更是把自己关在房间,饭也不吃。父母担心弟弟接受不了这现实,那几天老守着他。估计丢面子是他悲愤的主要原因,虚荣心、好胜心极强的他,感到无脸见人。他内心实在不愿去地方师范念书,栽在他擅长的语文上,他心也不甘呀。语文,他平时比我好很多,现在分却比我低不少。于是决定八月再考,只差半年时间。

这一决定遭我父母竭力反对。插队在农村,生活异常艰苦,有这么个机会能跳出农村,父母不愿放弃。他们怕政策有变。学校虽不昨的,也是个本科,他们连哄带压,逼着他去学校报了到。

那年早春,一九七八年三月,我二十,他十八。

至此,我俩各奔东西,天各一方。

 

【相关】

朝华午拾:永做毛主席的红小兵

朝华午拾: 与女民兵一道成长的日子

朝华午拾:我的考研经历

人生记忆:老爸-可怜天下父母心

朝华午拾 - 立委小传

朝华午拾集锦:立委流浪图

 

 

 

《【第一书】是世界语的“圣经”》

【立委按】人类文明史上简单即美的又一例证,虽然其前景不容乐观。但这毫不影响博士的天才光辉。“那美好的仗”,他已经打过了。简单即美的其他例证还有爱因斯坦的质能方程式,门捷列夫的元素周期表,以及乔姆斯基的“绿色思想”。

朋友分享了世界语(Esperanto)【第一书】的中译版,值得推荐:unua libro (中文版)。

这部称为“第一书”的文字,是世界语的“圣经”,神一般的创作。哪怕作为闲暇阅读,满足好奇心,你也不会失望,特别是于对语言的奥妙感兴趣的人士。

学过外语的人都会体会到掌握一门自然语言的繁难,这往往需要很多年的持续努力。由此来看世界语,其文法的简单易学以及其表达手段的丰富达到了难以想象的极致,原来语言可以如此简单而丰富!治大国如烹小鲜,柴门霍夫博士是治语言如玩魔术的大师。

我很清楚,大多数 人都有这样一个习惯,对于任何问题,越是难以捉摸和难以理 解,就考虑得越仔细。这样的人,见到如此简明的语法,规则 如此简单,如此明白易懂,总是喜欢给予轻蔑的眼光,却从来 不去想想这样一个事实——他们再略微思考一下就会明白—— 这种简化,从原本复杂的形式中提取每一项具体内容,形成所 能想象的最简单最容易的东西,实际上是我们要克服的最为难 以逾越的障碍。

主业为眼科大夫,柴门霍夫并不是(理论)语言学家,他是个精通语言灵魂的践行者,语言学爱好者。因此,他对语言手段的诠释,不像语言学家那样专业、严谨和高深。【第一书】以一种中小学老师的方式,简单直白,佐以各种例证。

如果剥离具体例证,人类的惯有偏见会把此书及其作者简单归于语言理想主义或乌托邦教主的类别,而往往无视一个独特天才几十年一步一个脚印的探索之路。柴门霍夫发明世界语,是烂熟于心几十年后才决定以【第一书】为标志,公诸于众,开启了100多年来遍及五大洲的世界语运动。世界语方案在核心词汇表的每个细节上的反复推敲,在文法形式极简化与表达丰富性上的拿捏,在逻辑性与可接受性上的平衡,使得它成为150多种国际语方案中唯一规模化推广幸存下来的人造语言,成为鲜活的“准自然语言”。

世界语的命运其实尚在不定之中。这是因为人工智能神经网络的革命性发展使得多语言之间机器翻译质量大幅度提高。作为随时可及的工具,机器翻译已经帮助人类部分实现国际交流。可以说,技术进步本身实现了世界语作为第二辅助语设计和推广的功能性初衷。从趋势上看,可以肯定的是,机器翻译的发展显然远远超越世界语的推广普及能力。

至于世界语的人文价值与柴门霍夫的社会大同理想,那是世界语运动背后的精神财富。逐渐失去功能性优势的世界语,是否可以借此生生不息,进而吸引更多的追随者,很难乐观。更大的可能是,世界语将作为各国小圈子爱好者的兴趣纽带而存续。

【第一书】在回顾批评前人的国际语方案时的评论,似乎自身也不幸被言中:

但是,热心者的人数增加到一定数量之后,就会不再增加; 同时,由于这个无情而冷漠的世界绝不会赞同费事辛辛苦苦地 同少数人交谈,这一努力就会像之前人们所作的那些努力一样 逐渐消失,不会取得任何实际成效。

为此,我不禁为以“希望者”(Esperanto,后成为世界语的代称)为笔名发布【第一书】的柴门霍夫感到些许伤感。无论人格还是才华,在我的心目中,柴门霍夫一直都是人类文明史上的圣人。

 

 

【相关】

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 - 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 - 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录