NLP自选系列:深度解析器是揭示语言奥秘的探测仪

自然语言的深度结构解析器(deep parser), 为语言奥秘的揭示与语言理解的应用开辟了道路,这方面的技术不再是科学幻想,而是已存的现实。我们身在其中,有责任为大数据时代的 parsing 技术的来临和潜力多做科普宣传。

01

开场词

“如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。”

——摘自《弘·扬 | 首席科学家李维科普:语法结构树之美》

02

语言的奥秘:解构

话说这语言学里面有一门学问叫文法,学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗,奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一代一代文法学家,试图见人所不能见,用树形图来解剖语言的内部结构。

本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。

天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位是依存文法大师,叫Tesnière(特氏),另一位就是大名鼎鼎的乔姆斯基(乔氏)。本文的结构图表示法(graph representations)取长补短,乃是以特氏依存关系为框架,适当辅以乔氏的短语结构而成。本文所有图示均是我们研发的多语分析器对语句全自动解析而成。

乔神仙(Noam Chomsky)特神仙(Lucien Tesnière)

语言的奥秘在于,语句的呈现是线性的,而语句背后的结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果。树形图分析法(sentence diagramming)也一直是语言教学的一个手段。

计算语言学家的任务就是模拟这个语言解构的过程,创制解析器(parser),使解构自动化。这个任务一直处于自然语言处理(natual language processing, NLP)领域的核心,但长期以来大多是科学家的玩具系统(toy systems),或局限于实验室的原型系统(prototypes),其速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)都不足以在真实语料的大数据场景应用。

而这一切已经不再是梦想,符合处理线速要求的高精准度和高覆盖面的鲁棒parsers已经是现实。这是大数据时代的技术福音。笔者在Netbase时期设计并带领团队研发的多语parsers就已经大规模投入(scale up)社会媒体大数据的应用,帮助自动挖掘针对任何话题或品牌的舆情与客户情报。

03

Deep Parsing 是语言技术的核武器

自然语言理解(natural language understanding,NLU)的关键就是模拟人的理解机制,这套机制的核心是 deep parser,其输入是语句,输出是语法逻辑结构。在结构图的基础上,很多语言应用的奇迹可以出现,如舆情挖掘,情报抽取,自动文摘,智能搜索,智能秘书,聊天机器人,心理疏导机等等。

对于看了树形图觉得眼晕的读者,不必明白细节,只要知道线性转成了平面就可以了,非结构转成结构乃是语言理解应用之根本。以下图为例,我们具体分析一下语言结构分析的结果表达。 

 上图叫作依从关系树形图。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语 S(Actor) 【I】,此子是其逻辑宾语 O(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾 SVO),构成语句意义的核心。 

两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

语言为什么要结构化?盖因语言是无限的,但结构是有限的。本文所示的的全自动解构树形图,用于语言大数据,就为各种数据挖掘(包括舆情挖掘)提供了结构化的情报宝库。对于信息使用者,这就是不尽的宝藏。

对于信息产品,语用语义当然是重要的,但是语义可以临时抱佛脚,结构则不同。用工程的话说就是,语言处理面对的是海量文本大数据,需要做 offline indexing, 不适宜纠缠过细的语义语用,而是应该先结构化了再说,存到数据库去。在应用的层面,通常需要的是领域场景的语用角度的语义(通过领域化信息抽取和文本挖掘)。这时候,做语义的条件已经成熟了。应用层面的语义一般是在一个特定的领域,或者为了一个特定的用场(产品),抽象层的语义纠缠因聚焦而简化,甚至自然化解了。面对大数据,对于难以预测的情报需求,可以直接对大数据所对应的结构图索引做在线即时检索,检索的时候加入适量的语义限制即可。这其实是下一代智能语义搜索引擎的并不遥远的革命性愿景。这样的句法和语义分工,在工程上是合理的。结构化是语言理解应用之本,结构化数据基础是满足语用需求做情报挖掘的质量保证。

 

04

婀娜多姿,风情万种

上得厅堂,下得厨房

本文所演示的各种树形图就是我们研发出来的文法机器人(parsers)自动生成的,虽然并非完美无缺,倒也风姿绰约。多语结构树没什么奥妙,大家的表达大同小异,都是秉承特神仙或乔神仙的体系。可是怎样达到这个结构,才是硬功夫。

下面以乔姆斯基上世纪五十年代末引发语言学革命的名句 “Colorless green ideas sleep furiously” 为例,请读者与我们一同欣赏多语 parsers是如何透过千差万别的具体语言的词汇词法的排列,解构出类似的句法结构:

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。最关键的是,风情万种的结构丛林,已经不再是象牙塔里供人观赏的艺术模型,她上得厅堂,下得厨房,甚至对于随处可见错别字、不规范用法的社交媒体大数据,也一样适用。这是怎样一个语言奥秘的探测仪,她的作用和巨大潜力才刚刚开始!

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:文本大数据的信息抽取与情报挖掘(上)

李维博士:我之所长不过是大数据的一部分,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社交媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

01

大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社交媒体、云计算、移动互联网和大数据情报挖掘。针对社交媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社交媒体的持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社交媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社交媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

回顾一下历史。2011年初,美国做市场情报的巨头之一 Salesforce 以三亿多美元 (326 million) 的价钱并购了社交媒体客户情报检测系统 Radian6,说明社交媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社交媒体追踪的公司 RightNow 的并购更是高达15亿(1.5 billion)。HP在逐渐放弃低利润的 PC 和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司 Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头 SAP以 34 亿收购了云计算公司 SuccessFactors(3.4 billion),并决定与专事社交媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社交媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头都曾不约而同看好社交媒体的情报价值。

当时在这个领域的投资和竞争非常激烈。不少华尔街主流投资公司加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利:Apple、Google、Cisco、Oracle。

这股社交媒体和大数据挖掘热潮以后,各种初创公司如雨后春笋。记得当年在 Netbase 主持社交媒体客户情报挖掘产品的那些年,在我们的竞争对手的注视名单上一开始有四五十家。十多年下来,大浪淘沙,后来只剩下五六家公司真正在市场站住了,包括 Netbase 的老对手 BrandWatch。

对于中文社交媒体大规模处理的应用型软件,有不少企业做了不同程度的应用落地尝试,但比起西方语言的企业市场应用,还有很大的距离,to B 的市场成熟度也不够。中文网络信息的增长速度一直扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,有潜在的巨大价值。

然而,迄今未见规模化落地应用,分析起来应该有好几个因素:(1)社交媒体大数据涉及隐私,不宜放任挖掘。事实上,微信数据是不对挖掘开放的。只有微博和一些论坛作为公开平台,其数据挖掘较少涉及隐私。(2)大数据挖掘应用的门槛很高,不仅仅是语言处理的能力需要有让人信服的数据质量(特别是精度),而且工程投入,包括存储、更新、检索都需要巨大的投入和积累;(3)就算大数据挖掘一切到位,挖掘出来的情报或知识图谱,到底如何应用还有很大的探索空间,目前还缺乏现场切入角度合适的规模化杀手级应用。尽管如此,从趋势上看,来自于文本大数据的源源不断的情报挖掘,终将成为信息社会不可或缺的软实力。

有人问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

26年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体如新浪微博、腾讯微信等,下一个里程碑是什么?

Big data intelligence (大数据情报挖掘)

很多人这样预测,Google 首席科学家也列此为未来高新技术的大势所趋。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

02

什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社交媒体火热以后的专指,是已经与时事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社交媒体及其用户社交网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社交媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社交媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社交媒体以及时事背景密切相关以外,大数据的当红也得力于技术手段的成熟。大数据的存储架构以及云计算的海量处理能力,为大数据时代的提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫之所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

03

大数据挖掘技术及其挑战

社交媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社交媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析;2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社交媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth)则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到像目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。

从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。现在的问题是在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling/filtering)与整合(fusion)环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。

由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了,可以让噪音沉底。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

 

下回篇将进一步讨论社媒大数据挖掘的重要应用等内容。敬请期待!

「弘•扬」:弘智益人,扬道解惑。每周大咖分享栏目,敬请关注。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:自然语言系统架构简说

对于自然语言处理(NLP)及其应用,系统架构是核心问题,这里给出了四个NLP系统的体系结构的框架图,现在就一个一个做个简要的解说。

我把 NLP 系统从核心引擎直到应用,分为四个阶段,对应四张框架图。最底层最核心的是 deep parsing,就是对自然语言的自底而上层层推进的自动分析器,这个工作最繁难,但是它是绝大多数NLP系统基础技术。

parsing 的目的是把非结构的语言结构化。面对千变万化的语言表达,只有结构化了,patterns 才容易抓住,信息才好抽取,语义才好求解。这个道理早在乔姆斯基1957年语言学革命后提出表层结构到深层结构转换的时候,就开始成为(计算)语言学的共识了。结构树不仅是表达句法关系的枝干(arcs),还包括负载了各种信息的单词或短语的叶子(nodes)。结构树虽然重要,但一般不能直接支持产品,它只是系统的内部表达,作为语言分析理解的载体和语义落地为应用的核心支持。

接下来的一层是抽取层 (extraction),如上图所示。它的输入是结构树,输出是填写了内容的 templates,类似于填表:就是对于应用所需要的情报,预先定义一个表格出来,让抽取系统去填空,把语句中相关的词或短语抓出来送进表中事先定义好的栏目(fields)去。这一层已经从原先的领域独立的 parser 进入面对领域、针对应用和产品需求的任务了。

值得强调的是,抽取层是面向领域的语义聚焦的,而前面的分析层则是领域独立的。因此,一个好的架构是把分析做得很深入很逻辑,以便减轻抽取的负担。在深度分析的逻辑语义结构上做抽取,一条抽取规则等价于语言表层的千百条规则。这就为领域转移创造了条件。

有两大类抽取,一类是传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、涉及不同实体的事件等,可以回答 who did what when and where (谁在何时何地做了什么)之类的问题。这个客观情报的抽取就是如今火得不能再火的知识图谱(knowledge graph)的核心技术和基础,IE 完了以后再加上下一层挖掘里面的整合(IF:information fusion),就可以构建知识图谱。另一类抽取是关于主观情报,舆情挖掘就是基于这一种抽取。我过去五年着重做的也是这块,细线条的舆情抽取(不仅仅是褒贬分类,还要挖掘舆情背后的理由来为决策提供依据)。这是 NLP 中最难的任务之一,比客观情报的 IE 要难得多。抽取出来的信息通常是存到某种数据库去。这就为下面的挖掘层提供了碎片情报。

很多人混淆了抽取(information extraction) 和下一步的挖掘(text mining),但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus,或数据源的整体,是从语言森林里面挖掘有统计价值的情报。在信息时代,我们面对的最大挑战就是信息过载,我们没有办法穷尽信息海洋,因此,必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用。因此挖掘天然地依赖统计,没有统计,抽取出来的信息仍然是杂乱无章的碎片,有很大的冗余,挖掘可以整合它们。

很多系统没有深入做挖掘,只是简单地把表达信息需求的 query 作为入口,实时(real time)去从抽取出来的相关的碎片化信息的数据库里,把 top n 结果简单合并,然后提供给产品和用户。这实际上也是挖掘,不过是用检索的方式实现了简单的挖掘就直接支持应用了。

实际上,要想做好挖掘,这里有很多的工作可做,不仅可以整合提高已有情报的质量。而且,做得深入的话,还可以挖掘出隐藏的情报,即不是原数据里显式表达出来的情报,譬如发现情报之间的因果关系,或其他的统计性趋势。这种挖掘最早在传统的数据挖掘(data mining)里做,因为传统的挖掘针对的是交易记录这样的结构数据,容易挖掘出那些隐含的关联(如,买尿片的人常常也买啤酒,原来是新为人父的人的惯常行为,这类情报挖掘出来可以帮助优化商品摆放和销售)。如今,自然语言也结构化为抽取的碎片情报在数据库了,当然也就可以做隐含关联的情报挖掘来提升情报的价值。

第四张架构图是NLP应用(apps)层。在这一层,分析、抽取、挖掘出来的种种情报可以支持不同NLP产品和服务。从问答系统到知识图谱的动态浏览(谷歌搜索中搜索明星已经可以看到这个应用),从自动民调到客户情报,从智能助理到自动文摘等等。

这算是我对NLP基本架构的一个总体解说。根据的是近20年在工业界做NLP产品的经验。18年前,我就是用一张NLP架构图忽悠来的第一笔风投,投资人自己跟我们说,这是 million-dollar slide。如今的解说就是从那张图延伸拓展而来。

天不变道亦不变。

以前在哪里提过这个 million-dollar slide 的故事。说的是克林顿当政时期的 2000 年前,美国来了一场互联网科技大跃进,史称  .com bubble,一时间热钱滚滚,各种互联网创业公司如雨后春笋。就在这样的形势下,老板决定趁热去找风险投资,嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图,最底层是parser,由浅入深,中层是建立在parsing基础上的信息抽取,最顶层是几类主要的应用,包括问答系统。连接应用与下面两层语言处理的是数据库,用来存放信息抽取的结果,这些结果可以随时为应用提供情报。这个体系架构自从我15年前提出以后,就一直没有大的变动,虽然细节和图示都已经改写了不下100遍了,本文的架构图示大约是前20版中的一版,此版只关乎核心引擎(后台),没有包括应用(前台)。话说架构图一大早由我老板寄送给华尔街的天使投资人,到了中午就得到他的回复,表示很感兴趣。不到两周,我们就得到了第一笔100万美金的天使投资支票。投资人说,这张图太妙了,this is a million-dollar slide,它既展示了技术的门槛,又显示了该技术的巨大潜力。

前知识图谱钩沉: 信息抽取引擎的架构

「弘•扬」弘智益人,扬道解惑。每周大咖分享栏目,敬请关注。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:文本大数据的信息抽取与情报挖掘(下)

弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)

李维博士:我之所长不过是大数据的一部分,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社交媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

感兴趣的小伙伴可以点击上期内容:

弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(上)

04

客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?是人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社交媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有2万love,8万like,负面中有20万hate,80万dislike 而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌数据量就往往不够,另外很多分析要求会对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切割往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,这都拜科学技术所赐。

 

05

自动民调: 社媒大数据挖掘的重要应用

 

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,以及总统选情的检测等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社交媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社交媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 11发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点: 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为其背后在不分昼夜地自动分析和索引有关的语言资料(通常来自社交媒体)。 

高性价比。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于花费,通常的商业模式有两种,客户可以订阅(license)这样的系统使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调特朗普的总统竞选效益,离不开对比其对手希拉利。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动民调就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社交媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社交媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社交媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

以总统大选为例。在特朗普对决希拉里时,我还在 Netbase 主持大数据产品的研发,手中有海量的推特数据以及我们研发的大数据挖掘的核武器,有独特的优势,可以见人所不能见。

虽然说推特是公开的社交媒体,人人可读,但没有语言抽取和挖掘,任何人或团体都难以看清全局走势。当年的选战瞬息万变,但大数据是不会骗人的,里面的跌宕起伏每日呈现在我的追踪系列里。当时主流媒体和民调一致认为希拉里要赢,特朗普自己也没料到自己会赢,连胜选演说都没预备好。希拉里这边更是有些得意忘形了,在选前的生日那天,希拉里发推特给自己庆生,标题是:祝未来的总统生日快乐!

就在这一片看好希拉里的预测中,我根据大数据挖掘结果,预测了特朗普的胜选。这可不是事后诸葛亮,都是有案可查的记录(有兴趣的读者可以关注后续报道)。

大选前一周的对比图:

这是当时24小时内的对比图:

这是一个月的涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

为什么会得出与主流民调相左的趋势预测呢?道理很简单,主流的手工民调落后于时代,数据采集点太稀疏,误差大,也没法及时反映变化的选情。这次大选后,不少朋友告诉我,从来没有如此真切地感受到大数据和语言技术的威力。

其实在前一轮的奥巴马总统竞选的时候,我们的工具就已经相当成熟,每次总统辩论,我们的舆情监测系统就在线实时展示辩论现场的舆情曲线变化,可即刻宣告辩论双方的得失和结果。奥巴马赢了第二次总统候选人辩论吗?舆情自动民调表明,奥巴马显然赢了这场辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。仔细分析可以看出,对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm时);二是批判他对中国不够强硬 (7:30pm时)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

06

实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据,想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

07

大数据及其挖掘的局限性

先说它的不宜和禁忌。

1、这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2、这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3、大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛主席早就说过:有比较才有鉴别。

08

大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的拥趸。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

在上一期弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)中,李维博士以特朗普对决希拉里为例,大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增。本期内容将深入讨论大数据是如何预测这一过程的。

这是特朗普对决希拉里终极对决前一周的对比图:

从图中来看,希拉里的选情的确不妙,川大叔领先了。是不是因为FBI重启希拉里“邮件门”调查造成的结果?这是当时24小时内的对比图:

这是大选前9月-10月的选情涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

这是大选前最后一周的选情对比:

最后一周对喜婆很不利。过去24小时一直在零下20上下,而老川在零上10左右,有30点的差距:

看看更大的背景,8-10月的选情对比:

喜大妈好不容易领先了,此前一直落后,直到9月底,9月底到10月中是喜妈的极盛期,是川普的麻烦期。

至于热议度,从来都没有变过,总是川普压倒:

眼球数也是一样:

一年来的狂热度(passion intensity)基本上也是川普领先,但喜婆也有不有不少强烈粉她或恨她的,所以曲线有交叉:

这个 passion intensity 与所谓 engagement 应该有强烈的正相关,因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来,这么多年,难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet(把秘密藏进衣柜),可是这家伙太狡猾,可能一辈子做商人太过精明。但大选当时只剩下一周、先期投票已经开始。

电邮门是摧毁性的。FBI 选在大选前一周重启,这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了,虽然对于数据的分析能力和角度,远不如我们的当时的平台丰富灵活。他们基本只有一个 engagement 的度量,连最起码的 sentiment classification 都没有,更不用说 social media deep sentiments 了。无论怎么说,希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票,还需要研究。

朋友提醒所谓社交媒体,其实是 pull 和 push 两种信息的交融,其来源也包含了不少news等,这些自上而下的贴子反映的是两党宣传部门的调子,高音量,影响也大,但并非真正的普罗网虫自下而上的好恶和呼声,最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图,我们只留下 twitter,FB,blog 和 microblog 四种社交媒体,剔除了 news 和其他社交媒体:

下面是only推特,大同小异:

对比一下所有的社交媒体,包括 news 网站,似乎对于这次大选,pull 和 push的确是混杂的,而且并没有大的冲突和鸿沟:

希拉里为什么选情告急?看看当时近一个月的希拉里云图,开始红多绿少了:

对比一下川普的云图,是红绿相当,趋向是绿有变多的趋势,尤其是第二张情绪(emotion)性云图:

再看看当时近一周的云图对比,舆论和选情的确在发生微妙的变化。这是川普的sentiment 云图:

下面是网民的针对希拉里来的正负行为表述的云图:

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普当时10月最后一周的呼声:

vote 的呼声超过 not vote for him。如果这次希拉里输了,the FBI director Comey 居功至伟。因为自从录音丑闻以后,选情对希拉里极为有利,选情的大幅度下滑与 FBI 重启调查紧密相关。媒体的特点是打摆子,再热的话题随着时间也会冷却,被其他话题代替。这次的问题在,FBI 重启电邮门调查的话题还没等到冷却,大选就结束了,媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期,已经冷却,被 FBI 话题代替了。从爆料的角度,录音丑闻略微早了一些,可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看当时10月最后一周的#Hashtags,也可以了解一点社交媒体话题的热度:

这是当时10月最后一周有关希拉里话题的emoji图:

虽然说笑比哭还多,希拉里及其阵营和粉丝却笑不起来,一周内用到这个话题的emoji总数高达 12,894,243。这也是社交媒体的特点吧,用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

FBI director 说这次重启调查,需要很长时间才能厘清。现在只是有了新线索需要重启,不能说明希拉里有罪无罪。没有结论前,先弄得满城风雨,客观上就是给选情带来变数。虽然在 prove 有罪前,都应该假定无罪,但是只要有风声,人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱,就更惊心动魄了。如果不是有背后的黑箱和势力,这个时间点的电邮门爆炸纯属与新线索的发现巧合,那就是希拉里的运气不佳,命无天子之福。一辈子强性格,卧薪尝胆,忍辱负重,功亏一篑,无功而返,保不准还有牢狱之灾。

可以预测,大选失败就是她急剧衰老的开始。

此前有个记者interview川普,川普一再说,希拉里这个犯罪的人,根本就不该被允许参加竞选。记者问,哪里犯罪了?川普说电邮门泄密,还有删除邮件隐瞒罪恶。当时还没有重启希拉里“邮件门”调查。记者问,这个案子不是有结论了吗,难到你不相信 FBI 的结论?川普说,他们弄错了,把罪犯轻易放了。

中间选民的数量在这种拉锯战中至关重要,当时的数量不少。中间选民如果决定投票,其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的,如今满世界说一方不好,合理的推断就是去投另一方了。现在看来,这场竞赛的确是拉锯战,很胶着,不是一方远远超过另一方。当录音丑闻爆料的时候,那个时间点,希拉里远远超过川普,毫无悬念。“邮件门”爆发一个月不到,选情大变,就不好说了,迹象仍然胶着。

不过,反过来看,川普的 popularity 的确是民意的反映,他所批判的问题的确长久存在。而希拉里显然是体系内的老旧派,让人看不到变革的希望。人心思变的时候,一个体系外的人物也可以被寄托希望,至少他敢于做不同事情。

当时我想:上台就上台吧,看看他造出一个什么世界

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:漫谈语言形式

弘·扬 | 首席科学家李维科普:漫谈语言形式

语言形式是语言学的基础,对语言掌握得多的人,或受过语言学训练的人,看到的更多是语言共性,反映在作为表达手段的语言形式及其分类上。作为符号系统,语言说到底就是以形式来反映内容。语言的不同是形式的不同,内容一定是相同的,否则人不可能交流思想,语言的翻译也就失去了基础,这个道理老少咸知。
那么什么是语言形式呢?回答这个问题就进入语言学了。
如果我们要把内容和形式分开来研究(当然是分不开的,但是理论上可以,否则就没有乔姆斯基语言学革命了),什么是语言形式呢?乍一看语言,不就是 string 么?语音流也好,文字串也好。这个回答不算错,但那是太直观的答案。这个string是有单位的,所以至少可以说语言形式是一个 list of items,items 就是词(more precisely 词素)。list 就是词序。
所以,作为第一个抽象,我们至少得出了词序(word order,有时也叫 linear sequence)是一个重要的语言形式(语言的表达手段)。另一个重要的形式就是词,不过这个还不太够意思,太直感,不够理论,没有抽象。
作为语言符号,词和词素非常重要,它们是语言学的起点。收录词和词素的词典因此成为语言解析的基础资源。如果自然语言表达是一个封闭的集合,譬如,一共就只有一万句话,语言就简单了,可以死记硬背。电脑上实现就是建个库把这些语句词串,全部收进去。每个词串等价于一条“词加词序”的规则,全部词串的规则集合就是一个完备的文法模型。但是,自然语言是一个开放集。无法枚举无穷变化的文句。符号形式文法是如何依据语言形式形成规则,并以有限规则完成对无限文句的自动解析(parsing)呢?
以查词典为基础的分词 (tokenization),是文句解析的第一步。查词典的结果是“词典词” (lexicon word),包括词素(汉字也是词素,因此中文词典也蕴含着字典)。无限文句主要靠查词典分解为有限的单位,词典词加上少量超出词典范围的“生词”,一起构成词节点序列 (tokenlist)。词节点序列很重要,它是文句的形式化表示 (formalized representation),是自动解析的对象和初始数据结构。
我们说的每句话很难穷举,而且即便列举了,也无法抽象。没有抽象,就没有掌握,人就不可能学会语言表达不同的思想。人脑不比电脑,容量很可怜的。所以,探究语言形式要研究词是个什么玩意儿。这就进入了语言学最基本分支了,叫 morphology(词法),可以称 small syntax,就是一个词范围内的结构。对于有些语言,morphology 很繁复,譬如俄语,拉丁语。对于有些语言,morphology 很贫乏,或者可以说没有 morphology,譬如汉语,英语。
撇开这些语言的元件中的构造性差别,我们在研究“词“的时候,第一眼看到的差别是它的两大类别。一类叫实词(notional words,or open-ended vocabulary),原则上是一个开放的集合;一类是虚词或小词,即功能词(function words or closed vocabulary),是可枚举项。
这个分类很重要,因为作为语言形式,能够掌握的必须是 finite 的集合。对于功能词,因为数量有限,没有问题。功能词就是介词,连词,疑问词,感叹词之类,其实延伸一下也可以包括前缀、后缀等材料(叫词缀),在所有的语言中都是有限量的,出现频率高,可以死记的。它本身就是语言形式,原则上无需抽象(虽然也给他们简单分类),因为可以枚举。
到此,我们至少得到了三个具体的语言形式了:1 词序;2. 小词;3 词缀。语言的不同不是形式的不同,而是形式的倚重和比例的不同,下面还要讲,这才是有趣的语言学。
那么实词呢?实词当然也是语言形式,但是因为是开放集,必须给他们分类才好形式化。除了成语和习惯表达法,一般来说,你总不能用枚举的办法为每一个实词写规则吧(真有这么做的,在很窄的领域),人脑也是在实词词类的基础上总结抽象的。实词于是有大类(Part of Speech), 名(noun)、形(adjective)、动(verb)三大类。副词(adverb)一般不算单独的大类,往往是形容词派生而来,或者与形容词同形。只有少部分原副词(original adverbs)属于小词的范畴,可以枚举。
实词三大类还是太粗,对于语言的抽象和掌握不够用,于是可以进一步再分类。特别是动词,有一种很重要的句型再分类叫 subcat(subcategorization),是重要的语言手段,就是区别所谓单宾语子类,双宾语子类,宾语+补足语的不同子类,等等,所有的大辞典后面的附录都有的。再进一步,词汇的语义分类(lexical semantic classification,人啦,动物啦,家具,地点,机构等的分类)也可以加入进来,作为语义的形式化手段,可以用 WordNet 或者董振东老师的《知网》,这就把语义甚至常识偷偷引进句法了。
总结一下语言形式,1 词序, 2 小词, 3 词缀, 4 词类(包括子类)
 
这些子类都是有限的吗?子类当然是有限的,分类的目的就是让理论上无穷的词汇,转变成有限的分类(包括子类),以便掌握和运用。朗曼词典列出的英语 subcat 类有30多个,牛津大辞典好像列出了20个左右。大同小异,颗粒度略有不同。其实常用的动词句型子类也就是不到10个。汉语的传统词典不列句型小类,但是语言所后来出的《动词用法词典》,还有《汉语800词》等,开始分子类,并标注了。
语言形式这么一分,自然语言一下子就豁然开朗了,管它什么语言,不外乎是这四种形式的交错使用,比例搭配和倚重不同而已。所谓语法,也不外是用这四种形式对语言的现象及其背后的结构做描述而已。
英语的规则是否比汉语清晰?对,英语确实比汉语清晰,德语法语又比英语清晰(虽然英语历史上是从德语法语杂交而来的,“不幸”的是后来走了汉语的道路)。这里的所谓”清晰“,是指这些语言有显性的形式来表达结构关系,而汉语缺乏这种显性形式,因此做汉语自动分析就显得难。什么是显性的形式?譬如词法中名词的性(gender)、数(number)、格(case),动词的时(tense)、体(aspect)、态(voice)。这些词法范畴是以显性的后缀(词尾)形式来表达的,但是汉语没有。
而文言文更加缺乏显性形式。文言虚词就那么几个,不如现代汉语的小词丰富,因此比现代汉语更难(将来退休以后,准备接受极限挑战,就做文言 parsing 玩儿)。现代汉语的形式化相对容易一些。
凡是 morphology(各种词缀)复杂的语言,通常不需要运用词序的手段,也较少依赖小词。譬如俄语,还有世界语(Esperanto),“我爱你”,就三个词,可以用六种词序表达,排列组合。世界语算是准自然语言。诞生不自然,发展自然了。为什么语序自由呢,因为有宾格这样的后缀形式,跑到哪里都是动宾的关系。当然就不需要依赖语序的形式了。
回来谈为什么汉语不如西方语言严谨?因为汉语发展过程中,没有走语词综合(利用词缀)的道路,而是坚持在分析(利用小词)的道路上走到黑。从语言学的高度,词缀也好,小词也好,其实也都是差不多的材料(形式),但是,词缀的范畴化,比起小词,要发达得多,因此严谨得多,也冗余得多。可以举例说明。
动词变位、名词变格等形态词缀手段,使得有结构联系的语词之间产生一种显性的一致关系 (agreement)。譬如,主谓 (subject-predicate) 在人称和数上的一致关系,定语与中心词在性数格上的一致关系等。关系有形式标记,形态语言的结构自然严谨得多,减少了结构歧义的可能。丰富的词缀减低了语言解析对于隐性形式和知识的依赖。
什么是隐性形式?隐性形式就是词类和各种子类。为什么说是隐性,因为需要标注才能显性化、形式化。那些词本身并没有这些标记。如果用后缀“标注”了,那就成显性形式了。譬如,“兄弟”在汉语是名词(noun),这个是查词典得到的,或者是POS程序查上下文标注的(如果有歧义的话),不是这词本身的印记。但是 frato(兄弟)在世界语就不需要词典标注,因为有名词后缀 -o。再看汉语的复数“兄弟们”,这里用了小词“们”,世界语呢,用后缀 -j,fratoj。乍看,这不一样么,都是用有限的语言材料,都是显性的表达。但是,汉语的复数概念表达是有时候显性有时候隐性,这个“们”不是必需的,而有数这个范畴的西方语言(包括世界语)却是永远的显性,那个后缀是不能省略的。
“三个兄弟没水喝”——这里的兄弟就没有小词“们”,而且汉语文法规定了不允许在数量结构后面加复数的小词,硬把显性的表达转变成了隐性的表达。这样的语言是不严谨的,因为信息冗余度不够。换句话说,严谨的语言较少倚赖上下文来确定其结构语义,不严谨的语言离不开上下文,兄弟的复数意义需要上文的数量结构。
有同学说汉语据说是“意合”语言,没有文法。这就言过其实了。没有没有文法的语言。汉语不是没有规则,只不过规则比较细琐繁多,规则所利用的条件更多用到隐性形式而已。汉语文法的确比较宽松,宽松表现在较少依赖显性形式。语句的顺畅靠的是上下文语义相谐(常识上合不合理),而不是依靠严格的显性符号规则。譬如词缀、小词、词序,显性形式的三个手段,对于汉语来说,形态基本上没有,小词常常省略,语序也很灵活。
先看小词,譬如介词、连词,虽然英语有的汉语基本都有,但是汉语省略小词的时候远远多于英语。这是有统计根据的,也符合我们日常使用的感觉:汉语,尤其是口语,能省则省,显得非常自由。对比下列例句,可见汉语中省略小词是普遍性的:
① 对于这件事,依我的看法,我们应该听其自然。
    As for this mater, in my opinion, we should leave it to nature. 
② 这件事我的看法应该听其自然。
    This mater my opinion should leave to nature. 
类似句子②在汉语口语里极为常见,感觉很自然。如果尝试词对词译成英语,则完全不合文法。汉语和英语都用介词短语 (prepositional phrase, PP) 做状语,可是汉语介词常可省略。这种缺少显性形式标记的所谓“意合”式表达,确实使得中文的自动化处理比英文处理难了很多。
好,总结一下,什么是语言形式,形式有四种,词序,小词,词缀,分类。只要从这四点出发,很多现象都好捕捉。语言大不了就是围绕实词的概念,用这些手段连接起来,表达概念之间的关系意义
其实“语言形式”这个话题,还没引申来谈,谈起来还有很多有趣的东西,譬如词缀与小词之间的关系,相互补充和替代的作用,语言发展中倚赖词缀的综合道路,以及倚赖小词的分析道路,以及两条路线的斗争,等等,以后有闲再谈。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:语义三巨人

弘·扬 | 首席科学家李维科普:语义三巨人

坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。语义是个大泥坑,能够驾驭它的人均非等闲人物。在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这三位学者前辈是,坚持常识推理的 cyc 的 Lenat 教授,格语法(Case Grammar)和框网(FrameNet)的开创者 Fillmore 教授和《知网(HowNet)》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。

这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。

Dr. Douglas Lenat  三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。

Charles J.Fillmore  Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。

董振东教授  中国机器翻译和中文信息处理前辈、知网发明人。曾任中科院计算机语言信息中心语言知识研究室主任。

在很长一段时期,董振东教授是中国NLP、MT与世界的接口。知网(HowNet)是董老师的丰碑,它像一所常识百科,深藏着人类认知形式化的金子。

事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。

可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。

我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层的主谓宾结构( SVO argument structure) 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。

这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。退一步回到句法为基础的 argument structure 如何呢?

Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。

HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类角色。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。

从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。

例如,对于宾语的细化  “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。

对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:语法结构树之美

弘·扬 | 首席科学家李维科普:语法结构树之美

我们知道,语句呈现的是线性的字符串,而语句 结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用类似下列的上下颠倒的树形图来表达解构的结果(所谓 parsing)。 


上面这个树形图叫作依从关系树形图(dependency tree,常常用来表达词或词组之间的逻辑语义关系,与此对应的还有一种句法树,叫短语结构树 phrase structure tree,更适合表达语句单位之间的边界与层次关系)。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。

譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语(Actor) 【I】,此子是其逻辑宾语(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾,叫做 argument structure),构成语句意义的核心。两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

从句法关系角度来看,依从关系遵从一个原则:老子可以有n(n>=0)个儿子(图上用下箭头表示),而儿子只能有一个老子:如果有一个以上的老子,证明有结构歧义,说明语义没有最终确定,语言解构(decoding)没有最终完成。虽然一个老子可以有任意多的下辈传人,其亲生儿子是有数量限制的,一般最多不超过三个,大儿子是主语,次子是宾语,小儿子是补足语。比如在句子 “I gave a book to her” 中,动词 gave 就有三个亲儿子:主语 【I】, 宾语【a book】,补足语 【to her】. 很多动词爷爷只有两个儿子(主语和宾语,譬如 John loves Mary),有的只有一个儿子(主语,譬如 John ran)。至于远房侄子,从结构上是可有可无的,在数量上也是没有限量的。他们的存在随机性很强,表达的是伴随一个行为的边缘意义,譬如时间、地点、原因、结果、条件等等。

自然语言理解(Natural Language Understanding)的关键就是要模拟人的理解机制,研制一套解构系统(parser),输入的是语句,输出的是语法结构树。在这样的结构树的基础上,很多语言应用的奇迹可以出现,譬如信息抽取、自动文摘、智能搜索等。

在结束本文前,再提供几个比较复杂一些的语句实例。我把今天上网看到的一段英文输入给我们研制的parser,其输出的语法结构树如下(未经任何人工编辑,分析难免有小错)。




说明:细心的读者会发现上图的结构树中,有的儿子有两个老子,有的短语之间互为父子,这些都违反了依存关系的原则。其实不然。依存关系的原则针对的是句法关系,而句法后面的逻辑关系有时候与句法关系一致,有时候不一致。不一致的时候就会出现两个老子,一个是与句法关系一致的老子,一个是没有相应的显性句法关系的老子。最典型的情形是所谓的隐性(逻辑)主语或宾语。

譬如第一个图示中的右边那棵结构树(严格地说,这不是树结构了,应该叫做结构图)中,代词「I」就有两个老子:其句法老子是谓语动词「have learned」,它还有一个非谓语动词(ING形式)的隐性的逻辑老子「(From) reading」,也做它的逻辑主语 (who was reading? “I”)。再如第二个图示中的语法结构图中,定语从句的代表动词「were demonstrating」的句法老子是其所修饰的名词短语「students」,但逻辑上该名词短语却是定语从句动词「were demonstrating」的主语(actor)。有些纯粹的句法分析器(parser)只输出句法关系树,而我们研制的parser更进一步,深入到真正的逻辑语义层次。这样的深层分析为自然语言理解提供了更为坚实的基础,因为显性和隐性的关系全部解构,语义更为完整。下面再“秀”两句中文的自动解析的句法树,看着也许更亲切些。

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列2020专栏连载

【立委按】公司希望我开个每周NLP专栏,正好也是个自选整理和修正的机会。汇集于此。

NLP自选系列2020专栏连载目录

 

NLP自选系列:自然语言系统架构简说

NLP自选系列:文本大数据的信息抽取与情报挖掘(上)

NLP自选系列:文本大数据的信息抽取与情报挖掘(下)

NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

NLP自选系列:漫谈语言形式

6   NLP自选系列:语义三巨人

7   NLP自选系列:语法结构树之美

NLP自选系列:深度解析器是揭示语言奥秘的探测仪

9  

10 

11 

12 

13 

14 

15 

【小随感】

请用两个英文词说明白你是做什么的。回答是:Structurize unstructured. 听上去有点像 make sense of nonsense. 如果只能用一个词呢?显然是 parsing。 总之是在无序中创造有序 属于非熵化的豪迈之举。问有啥用? 回答是:Text in. Database out.  再问 最终目的?回答是 消灭白领 包括丽人。想想也够缺德的 …… 白领看着文档,往数据库输入表格的事儿 是最常见的办公室风景吧。镜头也很美,尤其是白领丽人 一头秀发。坐在电脑前录入,跟弹钢琴似的。可惜,此景熬不过办公室自动化的浪潮,逃不过被机器化的宿命。时间表上看,在人类还没有琢磨明白如何应对这一次工业革命的人员下岗替代方案前,机器上岗肯定先行完成。都说人类因此可以解放做创造性工作。其实谁也不清楚,群体创造,还是群体堕落,哪个先来。因此,为自动化忧虑,也不算是杞人忧天,因为与AI泡沫不同,这是可以看见的。过程已经开始,只会加速进行。

 

世界语论文钩沉:世界语的语言学特点(3/3)

【立委按】语言类型学把自然语言分为注重词法的综合语言和注重句法的分析语言。区别在所依赖的主体语言形式和表达手段不同。世界语的最大特点是兼收并蓄,分析综合两种表达手段在武器库并存。这是设计时候的有意为之(不得罪任何民族),进而产生了表达手段丰富、风格多变灵活的效果,让人惊艳。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

3. 分析形式和综合形式

3.1 世界语的另一个突出的语言学特点是,它既具有分析语言的手段,又具有综合语言的精髓。世界语在功能词和词尾变化方面都很丰富,可以通过分析形式(借助功能词)或通过综合形式(借助词尾变化)表达语义关系。 当然,这两种形式并不完全等同,它们展示了不同的风格。 世界语非常灵活且富有表现力。 作为目标语言,它可以很好地模仿原文作品的语言特征,无论是词序自由富有弹性的斯拉夫风格,还是诸如中文和英文这类语言的平实风格。

以下是世界语中分析形式和综合形式普遍并存的一些示例:

分析形式 / 综合形式

(1) 时态:
Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

(2) 语态:
Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS. Ĝi lim-IĜAS. Ĝi SIN-limig-AS

(3) 词义:
Tio estas MALGRANTA (ETA) sekreto. / Tio estas sekret-ETO.

(4) 介词短语与格变以及副词形容词(-E/-A)的类变:
Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).
la libroj DE mi / mi-AJ libroj
Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.
LAŬ mia opinio / miaopini-E
ridi JE iu / ridi iu-N
EN (JE) fakto / fakt-E
inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (副词带名词宾格!)
vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

(5) 介词手段与合成词手段:
finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(更多例示参见【附录3】及 2.1.7.)

3.2. 最重要的分析形式:助/系动词 EST- 与介词

3.2.1. 仅有的助/系动词 EST-

3.2.1.1. EST- (BE)没有实义, 从综合语角度看,它是不需要的:


Ili ESTOS skrib-ITAJ ĉe la jarfino. –> Ili skribi-ITOS ĉe la jarfino.
Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. –> Ni ĝoj-AS ricev-INTI iliajn leterojn.
Vi ESTAS vere bonkor-AJ (vi en pluralo). –> Vi vere bonkor-AS (没有数的变化).
Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato.
–> Li profesor-IS (profesor-ADIS) en tiu universitato.

注意,EST- 作为助动词可以被取代,但作为系动词则不能简单取消:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.
ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.


3.2.1.2 EST-一词虽然只有一个,但作为分析形式却极大地丰富了表达方式。否则,语言将具有完全不同的风格,趋向紧凑和刻板,很难为母语为分析语言的人所接受。

3.2.2 介词短语

3.2.2.1 在语言学界普遍认为介词短语(介词加名词补足语)本质上也是一种”格”,唯一的区别是介词表达语义关系通常比”格”更为具体。实际上,不同介词也包含不同程度的具体性,例如,比较:

intituto JE lingvistiko –> instituto DE lingvistiko –> intituto PRI lingvistiko
(从抽象到具体)

有一些相当抽象的介词实际上可以像其他语言中的”格”一样工作,例如 JE / DE / AL / PRI / PER(请参阅【附录3】)。 (请注意,格的语义在抽象上也有所不同。)

3.2.2.2 正如2.3 中已经提到的,副词(以-E结尾)也是一种语义抽象的格(状语格)。但是,世界语中的副词其实也可以表示与任何介词一样具体的关系! 条件是词干是词根和介词前缀派生而来。例如:

LAŬ (la) regulo(j) –> LAŬ-regul-E (更抽象地: regul-E)

有许多这样的示例(请参阅2.1.7)。 实际上,完全可以在介词短语”P+la+N”与其相应的副词”P-N-e”之间自由转换(省略冠词LA)。

3.2.2.3 因为每个介词也可以同时充当前缀(世界语前缀集的主要部分!),所以所谓的“重要的分析形式”介词恰恰也是最重要的综合形式(词缀)之一!

3.3 【小结】 世界语随处可见分析形式和合成形式的共存,这是世界语不同于民族语言的重要特点之一。尽管没有排除任何分析形式手段的纯粹的综合语言,也没有完全独立于综合形式的纯粹的分析语言,但是每种民族语言总是以一种形式为主导,难以见到两种形式的普遍并存和自由转换。

4. 世界语的透明性

4.0 世界语的本性是形式足够透明(无论是词与词组合的分析形式还是词内部组合的综合形式,但分析形式似乎比综合形式具有更高的透明度),这无疑是其突出的优点之一,也是世界语易于学习的主因。世界语之所以如此,是为了让人们可以使用很少的形式(元素)来表达无限的信息,也为了让接受方易于将语句解析成理解的元素。

4.1  世界语是完全透明的吗?

并非如此,而且永远也做不到,而且也不必要 – 至少对于人类语言而言。

透明性的前提是,每个概念都可以被分析成可数的语义因子或”义素”(这可能吗?参考人工智能圈中的相关进展)。另外,语义相互联系的复杂度应该是可以容忍的。这一点并不总能满足,特别是对于科学术语而言。术语通常内容丰富且含义精确,以至于其阐释往往需要完整的论文。因此,这种概念只能通过某种语音形式固定在人脑中,其书面对应物往往是个不透明的单词!另一方面,大多数科学术语都享有国际性,因此,硬性把术语按照世界语构词法透明化往往并非智举,例如,把 matematiko 叫做 nombro-scienco,但是“数学”仅仅是数字科学吗?(参见4.4)

4.2 就像分析形式和综合形式的共存一样,在世界语中,许多情况下(当然是在不同的层面),透明形式和非透明形式也普遍并存。

Pekino: Beijing
lingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

值得注意的是,为了术语的精确性和世界性,世界语甚至可以容忍这种完全“非世界语化的”外来词黑箱子(komputoro/komputero)!

4.3 然而,一些最常用的日常用语已经将自己确立为透明形式,这又表明了世界语有强烈的透明化倾向!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

但是,良好风格的世界语不走极端,即使是手握最有效和最容易的手段:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4 世界语的两难

4.4.1 世界语作为国际语言,旨在为全人类提供便利的交流。但是,在语言实践中,透明度(世界语的语言内涵)与国际性(世界语的目标外延)之间往往存在两难,这在术语的构造中表现最为明显。结果,世界语词汇比预期的要大得多,增加了学习的难度。

4.4.2 世界语作为一种有效的沟通工具应该而且往往也是偏向紧凑的形式,但透明性是紧凑性的反面。实际上,越透明,就变得越松散。

4.4.3 最后,在透明性(从而易于学习而很少消耗记忆和精力)和包容性之间也存在两难。世界语作为一种科学的和面对人类的语言,需要在形态和句法上包容所有有效的语言资源,这就需要多种形式的共存,自然也包括不透明的形式。

5. 总结

5.1 从上面论述可以看出,与主观推论相反,世界语是一种极其灵活的语言,具有多种可以相互补充和转换的表达方式。语言的灵活性也更易适应人类思维的模糊性。它为人们提供了极大的表达自由,为充分发挥使用者的语言潜能提供了最佳条件。另一方面,它也具有很大的包容性,即使是初学者或语言能力欠缺者也可以比较轻松简单地以易于理解的方式表达自己。这是一个适合所有人的表达天地。但是,这种灵活性不会影响世界语基本语法的严谨性。自由与严谨在这里和谐相处。在世界语中,每个人都是创造者,每个世界语者都能体验到这种创造的乐趣。人们不再是语言习惯的奴隶。世界语的灵活性和规律性的和谐统一是一种真正的语言奇迹。

5.2 世界语语言学特点关键字集合:
(以)人(为)本性/自然性/科学性/规律性/包容性/容忍性/弹性/粘合性/数学性/拟递归性/逻辑性/透明性/可分析性/灵活性

5.2.1 这些特点大体呈现如下关联:灵活性 <– 粘合性(从而透明性)和各种形式的包容性(无论分析形式还是综合形式,透明或不透明);规律性与科学性 <– 数学性和逻辑性

5.2.2 从容忍性和实际信息交流的角度来看,前文所有标有??的示例都是可以容忍的,至少是可以理解的。与民族语言相比,这种宽容显得尤为突出。

5.3 【结论】 世界语的超凡成功是人类语言历史上的一个伟大奇迹。这是人类理性的胜利,语言学的胜利!在“习惯就是上帝”的语言领域,世界语作为国际语言独树一帜,其与民族语言形成的语言学对比,怎样赞誉也不过分。

【附录1】

我们以词根STUD-的全部动词和形容词形式为例,将其与英语study 的相应形式进行比较。

(1) 42 个动词形式:

stud-I [to study]
stud-U [(let...) study]
stud-US [would (should) study / stud-IED / would have stud-IED / ...]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let...) be study-ING]
stud-ANT-US [would be study-ING / ...]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let...) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let...P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let...) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let...) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / ...]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let...) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

2. 28个形容词形式

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

【附录2】


世界语词尾削尾算法(自动词法分析):

(1) 若词尾为 -O, 则得结论 "Substantivon / Nominativon / Singularon", 转(2); 否则, 转(11).

(2) 削尾后查词干词典. 查词典成功则得结论 "Nulmodon/Aktivon", 加工毕; 否则, 转(3).

(3) 若词尾为 -ANT, 则得结论 "Participon / Aktivon / Kontinuon", 转(9); 否则, 转(4).

(4) 若词尾为 -INT, 则得结论 "Participon / Aktivon / Perfekton", 转(9); 否则, 转(5).

(5) 若词尾为 -ONT, 则得结论 "Participon / Aktivon / Malperfekton", 转(9); 否则, 转(6).

(6) 若词尾为 -AT, 则得结论 "Participon / Pasivon / Kontinuon", 转(9); 否则, 转(7).

(7) 若词尾为 -IT, 则得结论 "Participon / Pasivon / Perfekton", 转(9); 否则, 转(8).

(8) 若词尾为 -OT, 则得结论 "Participon / Pasivon / Malperfekton", 转(9); 否则, 转(10).

(9) 削尾后查词干词典. 查词典成功则加工毕; 否则,转(10)

(10) 得结论 "Novavorton", 加工毕。

(11) 若词尾为 -A, 则得结论 "Adjektivon / Nominativon / Singularon", 转(2); 否则, 转(12).

(12) 若词尾为 -E, 则得结论 "Adverbon / Nominativon", 转(2); 否则, 转(13).

(13) 若词尾为 -OJ, 则得结论 "Substantivon / Nominativon / Pluralon", 转(2); 否则, 转(14).

(14) 若词尾为 -AJ, 则得结论 "Adjektivon / Nominativon / Pluralon", 转(2); 否则, 转(15).

(15) 若词尾为 -ON, 则得结论 "Substantivon / Akuzativon / Singularon", 转(2); 否则, 转(16).

(16) 若词尾为 -AN, 则得结论 "Adjektivon / Akuzativon / Singularon", 转(2); 否则, 转(17).

(17) 若词尾为 -EN, 则得结论 "Adverbon / Akuzativon", 转(2); 否则, 转(18).

(18) 若词尾为 -OJN, 则得结论 "Substantivon / Akuzativon / Pluralon", 转(2); 否则, 转(19).

(19) 若词尾为 -AJN, 则得结论 "Adjektivon / Akuzativon / Pluralon", 转(2); 否则, 转(20).

(20) 若词尾为 -AS, 则得结论 "Verbon / Predikaton / Prezencon", 转(2); 否则, 转(21).

(21) 若词尾为 -IS, 则得结论 "Verbon / Predikaton / Preteriton", 转(2); 否则, 转(22).

(22) 若词尾为 -OS, 则得结论 "Verbon / Predikaton / Futuron", 转(2); 否则, 转(23).

(23) 若词尾为 -US, 则得结论 "Verbon / Predikaton / Kondicionalon", 转(2); 否则, 转(24).

(24) 若词尾为 -U, 则得结论 "Verbon / Predikaton / Volitivon", 转(2); 否则, 转(25).

(25) 若词尾为 -I, 则得结论 "Verbon / Infinitivon", 转(2); 否则, 转(26).

(26) 该词没有词尾。查功能词词典。 查词典成功则得结论 "Funkcivorton"; 否则, 得结论 "Novavorton / Substantivon / Propranomon"。 加工毕。

【说明】 上述算法已经上机实现,验证其有效性。

【附录 3】

世界语与其他语言格系统的比较

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

世界语论文钩沉:世界语的语言学特点(2/3)

【立委按】上一节论的是世界语的高度规则性。这节想说的是,模糊性为灵活性提供了空间。学习世界语的人,没有那么多禁忌和清规戒律。语言表达是思想的反映。一来思想本身具有某种模糊性,二来细节的精细与否不必影响主旨的表达,三来不同母语背景的人在语言手段的倾向性上有不同的偏好,因此,语言设计中允许界限模糊是一种利用手段的包容,来容纳更多使用者的良好策略。

都说世界语是黏合语,但我们同时也看到,所谓黏合(典型的代表是土耳其语和日语),其实与合成(中文造词的主要手段)也差不多,就是把语素添加在一起,只要添加以后的复合概念可以传达出去(只要 make sense),就达到了造词的目的。不设置句法和词法过多的人为规范,允许语言形式的灵活自由组合,让人类共同的常识来决定语言组合(无论组词还是造句、造短语)是否可以达到交流的实现。文法不过10来条原则性大纲,其余基本可以实现无为而治。

纯粹从设计来看,世界语其实没有必要用助动词 EST-(相当于英语的时态助动词 be/have),这个唯一的必须有形态变化的功能小词。刚好这个助动词又是系动词(“是”),这就导致了自然语言同样的歧义问题。(当然,与自然语言如英语类似,把系动词当成助动词用来构造复杂谓语,其好处是使得母语为这些语言的人容易适应世界语的形式。)把 EST- 的助动词用法去掉以后怎样呢?

Mi estas studanta la lingvon –>
(1)Mi as studanta la lingvon
(2)Mi studantas la lingvon

La lingvo estas studata far multaj nun –>
(1)La lingvo as studata far multaj nun
(2)La lingvo studatas far multaj nun

助动词与形态统一,比助动词借用系动词词根外加形态,更加经济、规整,转换起来也更合理,包括转换成综合形式的 studantas / studatas。根本上说 EST- 在构造谓语形式中,没有贡献任何信息量,完全是多余的。它存在的理由就是跟自然语言的类似用法更接近。这当然是一个重要的考量,但它同时带进来歧义的可能性,就不是优点了。但从另一个角度看,所谓歧义也可以看成是形式手段的模糊及由此带来的灵活性。

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

2.  世界语的灵活性

2.1  世界语模糊了很多语言学概念的界限,包括:

2.1.1  及物动词与不及物动词的界限模糊了:

Mi IRAS. / IRU vian propran voj-ON.
La tuta homaro PAROLOS nur unu lingv-ON. / Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  直接宾语与间接宾语的界限模糊了:

informi ION al IU / informi IUN pri IO

2.1.3  宾语与状语的界限模糊了:

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  词根与词缀(甚至词尾)的界限模糊了,从而派生词与合成词的界限也模糊了,例如:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. 后缀与词尾(形态)的界限模糊了:

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Chiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  实词词根与功能小词的界限模糊了(如果需要,小词也可以与实词词根一样,添加后缀和形态词尾):

JES, mi JES-as vian opinion.
Li TRO ĝojas.  –> Li ĝojas TRO-e.
tie –> tie-aj homoj
nur –> la nur-a studento / nur-ul-o / nur-ul-in-o
per –> per-anto
tre –> tre-ege

2.1.7 词组与合成词界限模糊了,尤其表现在介词词组与其相应的副词、形容词、动词和名词的合成词形式上:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtbl-en

la lingvo por homj / porhom-a lingvo (porhomalingvo)
(sed ĉu “porhomlingva” = “porhom-lingva” aŭ “por-homlingva”?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-OS, subpopol-OS, interpopol-OS kaj porpopol-OS.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   谓语与表语的界限模糊了:

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9. 最后,黏合、合成、派生这些构词手段的界限模糊了(参见本文第一节);可数名词与不可数名词的界限模糊了(例如 konklud-o / konklud-oj), 限定与不定的界限也模糊了(表现在行文中对于使用定冠词 LA 的一定程度的随意性上), 等等等等。 

2.2.  世界语设计了一个万能介词 JE。人们表达思想的时候,常常感到两个概念之间存在某种确定性关系,但这种逻辑语义关系不易也不必归纳到现有的类别去(现有逻辑语义关系如时间、地点、条件、原因、结果、工具、程度等,往往借助介词表达),因为概念之间的相谐本身不会引起听说双方的误解。为了适应人类思维的这种模糊性,柴门霍夫天才性地创造了万能介词 JE(我认为介词 JE 可能是世界语第二重要的分析形式了,第一重要的分析形式是小词 EST-,参见3.2节)。思维模糊性的语言表示还有另一个天才创造,即后缀 -UM-,但那是词义概念的不清晰,JE 表示的则是两个概念之间的逻辑语义关系的模糊。有意思的是,作为分析形式 JE 的对等物,形态词尾(综合形式)-n(宾格)或 -e(副词: 可表示工具,但也可表示其他状语)也可以用来表达这种模糊和抽象的逻辑语义关系。

Mi interesiĝis JE tio. / Mi interesiĝis tio-N.

Ni ne scias JE tiu rilato.  / Ni ne scias tiurilat-E.

2.3.  世界语一个非常突出的语言学特点是格与词类的功能趋同。词类与格变在组词造句过程中,都带有动态句法的特征。二者相互补充,都可以表示虽然不同但同样具有抽象度的逻辑语义关系。这与介词这种分析形式有所不同,世界语介词除了特别设置的万能介词 JE 以外,通常是用来表大比较具体的逻辑语义关系(参见3.2.2.)。比较世界语的副词用法与俄语的工具格:

Mi skribas plum-E.  /                                                     (ruse)

如前所述(见1.1.),世界语的基本形态词尾的数量虽然很有限,但涵盖词法范畴足够完整,表达力丰富。以格变为例。世界语只有两个格,主格(零形式)和宾格(词尾“-N”)。但世界语的格变,加上词类形态,再加上分析形式介词(如果需要),使得世界语的表达力可以与其他形态丰富的语言媲美。俄语是形态最丰富的语言之一,它有六个格。在这方面,将俄语与世界语进行比较可能具有一定的启发性和意义。 大体上,俄语的一格对应于世界语的主格,二格相当于形容词(表示所有,以“ -A”结尾),四格与宾格(以“-[OJ] N”结尾)对应,五格相当于副词(以“ -E”结尾,见上例)。 只有三格在国际语中没有其相应的词尾形式,而是通常由介词“AL”来表示。俄语六格本身并不表示明确的语义关系,而是与诸如“ O”,“ HA”,“ B”之类的介词搭配使用。 有趣的是,在世界语介词短语中的名词既可以是主格,也可以是宾格,后者表示方向性。对照俄语中的类似用法,世界语显得更为简单和完善。 (请参阅附录3。)

2.4.  世界语的词序足够自由

2.4.1. “我(mi)爱(amas)你(vin)”的表达:

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(主谓 宾三个句素的全排列共6种,全部合法。). 

2.4.2.  再如:“学习(studantaj)数学(matematikon)的 人(homoj)

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi shatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
加上连字符显得更规范: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3.  ”我(mi)提出(proponita)的 提案(propono)”:

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

上组句子除了小词定冠词与介词必须居于短语之首外,其他元素的词序完全自由,即:la (…) propono; de mi; proponita 三个句素可以任意排列。

2.4.4.  世界语甚至允许远距离搭配,见著名诗句:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

当然,上例中的远距离现象也有诗歌不受拘束的特许因素在。但诗人的特许证通常在像世界语这样特别具有柔性的语言中最易得到保障,且不违反语言的基本文法。

2.5.  世界语的形态系统虽然具有缺陷(见1.1.4.5.),总体而言仍然不失为一大创造。另一个奇迹般的创造是世界语的相关词表。世界语形态系统在唯一的助动词 EST- 的帮助下,可以表达动词各种复杂的时态、时体以及语态和语气。其实,即便没有助动词,形态词尾的黏合特性也一样可以表达这些复杂的词法范畴。相关词表的丰富性及其表达具体语义关系的能力更是出类拔萃。它是如此经济、逻辑而且美丽,每一个世界语的践行者都体会在心。这种审美体验,很像化学家欣赏门捷列夫的元素周期表一样。

2.6.  另一个值得提出的是,几乎所有的世界语介词,也同时可以充当前缀去帮助造词。这自然极大地增强了语言表达的灵活性(见2.1.7)。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(1/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《学外语的紧箍咒,兼谈世界语的前途》

【立委按】最近受邀加入了一个世界语者的群,有老朋友,也有新同志。谈到一些有关世界语的前途问题。很多老世界语者奋斗一辈子,做梦都想替代英语的实际“世界”语地位,抱怨联合国、欧盟都有眼不识“吾语”之优越性。但英语的地位却似乎越来越稳固。胳膊拧不过大腿,哪怕学习世界语的效率数倍于学习英语。但很少人会想到,英语的霸主地位不会长久。不是别的语言以任何优势取胜取代它,而是机器翻译进步的大势所趋。在这样的形势展望下,世界语作为二外选修的首选,前途却是光明的。

在科技领域,当年我们津津乐道的是,世界语可以作为比较理想的多语机器翻译的媒介语。可现在基本上没人用世界语做媒介语来做机器翻译探索了。因为没这个需要了,最新的机器翻译都是神经网络系统,是从平行语料中自动学习/模仿出来的,质量接近人译水平。以前多语言要媒介语是因为以前的系统是专家一行行代码编制调试出来,每一次增加一个语言,要做很多辛苦的词典工作,语法规则,还有转换和生成,很辛苦的调试,有了媒介语可以大大减少工作量。如今,即便 A 语言与 B 语言没有足够大的翻译样本(平行语料)可供机器模仿,现在的技术也不必借助世界语做媒介语。可以借助其他的热门语言做媒介,譬如英语。A 与 B 语料不够,但 A 与 英语, B 与 英语,语料应该是足够大的,那么机器就可以借助这两种语料来学习,等于是拿英语做媒介语了。为什么不用世界语?因为世界语与 A 语言,B 语言 之间的翻译数据,远远没有英语大。现在的机器胃口大,数据越多,学出来质量越好。古人云,取法乎上仅得其中。好像是说,机器永远赶不上人的水平。其实不尽然。在大数据的学习过程中,最终可以做到,取法乎中,可得中上。取法乎上仅得其中,说的是徒弟跟师傅学,是个体学个体,你自然超不过这个上限。如果你的学习对象是超大的数据,尽管数据的平均水平不高,参差不齐,里面还藏着不少错误。这都没关系,大数据有一种自然筛选的过程,会把噪音沉底。最终机器比一般人翻译得好,是自然的结果,特别是在时间限制条件下。机器很难比顶级翻译人员比,也难以比一个一名之立旬月踯躅的慢工磨细活的死磕的人,但是超过一般人的水平是没有问题的。所谓一般人就是那些学了好多年外语,通过了5级还是6级的人。这样一来,机器翻译的技术进步基本上解决了国际交流的问题,而且只会越来越好。

因此,世界语如果是以充当国际交流工具作为生存基础,是难以维系长久的。柴门霍夫当年创造、发布和宣传世界语,充当国际交流工具可是作为一个主要依据提出的。但时代不同了,作为人必须去学习才能使用的工具,如何与自动翻译比呢?翻译中死记和模仿的成分很大,很多说法以前都见过,双语平行(翻译)语料里面有存,机器有几乎无限的记忆能力,当然是机器强。我现在从来不自己翻译任何东西,都是让机器翻译了再稍作调整。如果是新闻和日常的文字,基本不需要加工就很顺畅了。国际旅游者利用翻译机周游世界的,也越来越多了。到世界旅游,带个随身翻译机,或者手机下个程序,日常问题就解决了。问路啊、找厕所啊,都不是问题。以前是说,你学了世界语就走遍天下。柴门霍夫的意思是说,实在不行随身带一部词典,就是遇到不懂世界语的,凭借词典,人家也不难搞懂你的意思。这样的场景当年是可能有用场的,总比互相完全没办法沟通强,但是有了翻译机,这个场景就完全没有意义了。当然到世界各地世界语俱乐部找“同志”,搞联谊,那是另一回事。那不是世界语的功能性主导,而是世界语的文化性和社会性作为纽带。

看看英语的不规则动词表,再看看法语、俄语词法里面那些大小规则里面的种种例外,就可以体会到自然语言对于不规则的东西,是如何容忍的。基本上就是这样一个局面:自然语言里面的不规则恰好达到了一个想学它做外语的人的死记硬背的极限。再多就学不会语言了。可是一旦学了它,它就绑架了你,使得你必须不中断地使用它练习它,稍微一松懈,你就把学到的外语还给老师了。这就是学外语的紧箍咒。世界语还是从根基上改变了这种局面。

关于世界语到底是不是简单易学,不同的人往往感受和看法不一,也说点自己的切身体会。我觉得一切都在比较之中。毛委员说过:没有比较,就没有鉴别。记得老电影《南征北战》里面,国军长官说过:“不是我军无能,而是共军太狡猾了”。可以说,不是世界语容易,而是其他外语太难了。

对于国人,如果学会一门欧洲语言,再学世界语,的确更容易体会其简单容易。如果除了母语,只学世界语,那就很难有这种体会。如果是欧洲人,世界语做第二外语,那的确不难,毕竟世界语根本上是欧洲语言的简化规范版。但对于非印欧语系为母语的人,不会觉得容易。

我英语专业的,二外是法语,三外是俄语,到接触世界语的时候,这应该算是四外了。当时有晕眩的感觉,天哪,还有这么容易的语言,学了四五天就可以写信,学了一两个月,就可以写论文,心里一点都不怵。记得第一封世界语信是写给(河南还是枣庄?)一位世界语朋友(当地的一个世界语活跃分子),收到他的回信,以及附在信里面的绿星等纪念品,开心死了。几十年下来,二外法语现在带着词典还能勉强读一点,但绝对写不出合法的句子了。三外俄语完全还给老师了。只有世界语多年没用,感觉还可以随时捡回来。这样看来,世界语的确是其他外语没法比的。没跟英语比较,是因为一直在英语世界里。真要比较,我觉得我的世界语水平大体可以与我的英文水平,打个平手。口语不如英语,那玩意儿需要有环境和机会实际操练。但书面语可能还强过写英文。我从小学开始学英文字母,中学一直跟着广播英语,到后来本科英文受专业培训,再到后半辈子一直在这个语言世界里面,那是多少时间和精力的投入啊。相比之下,世界语连学英语的零头功夫都没有。

我在想,现在大家随时可用翻译机,国际交流场合的功能性需求基本可以满足,这一方面不再需要世界语了。在未来的世界,英语作为实际上的“世界语”的地位也必然会因为翻译机的不断改进和普及而动摇。最后的情况很可能是,学习“外”语只是人类的好奇心驱使。这时候,世界语作为好奇心和求知欲驱使的外语首选,是最合适的。

试想一下这样一个世界,我们不再需要学习任何其他语言,英语也是天书。这时候我想以最少的时间,了解唧唧呱呱讲各种外语的人到底有什么新奇的东西。世界语作为印欧语言的集大成者,应该是最合适的学习对象和窗口,会给人带来新奇。我觉得这个价值是恒久的,只要世界语可以活下去,活到英语从钦定二外以及事实上被全世界学习的地位走下来的时候。其实不知道多少人浪费了多少时间学英语,但英语的地位从科技发展的趋势看,不可能是永远稳固的。总会到一个临界点,人类社会说,除了少数人外,去它的,大中小学里面全部废弃二外作为必修课,把精力转移到学习其他知识上来。然后,二外成为选修。这时候,竞争选修课,世界语的优势是压倒性的。

老哥学了一辈子英语,一辈子没学会。年轻时候学 Follow Me, New Concept 好几年,还是记不住。现在大概只认识几个单词,听说读写啥都没会,可一辈子投入的时间总量却不少。他常跟我说:我大概是太缺少语言天赋了。也许他的确没有多少语言天赋。但更根本的还是语言太难学了,本质上是一个死记硬背的东西。对于很多像我哥哥这样的人,回头来看,他们对于外语学习所投入的时间精力与所得,完全不成比例,是极大的资源和人生的浪费。这种浪费在全世界不断重复着。英语一天不走下神坛,这种浪费一天不会停止。但是英语必然下台,这是可以确认的。这个过程也许需要50-100年,我觉得。

世界语已经活了100多年了,再活 100 年,就可以赶上自由竞争二外选修的好时光了。换句话说,世界语的前途,恐怕并不在于我们当年想象的用它取代英语作为全世界公认的国际辅助语。功能性上取代英语的不大可能是世界语,而是机器翻译的普及和推广。目前实际上已经存在随时可及的网上机器翻译(各大厂如谷歌、百度、微软,还有比他们更强的后起之秀如有道、搜狗和腾讯等),所有的手机里都随时可用机器翻译的apps。翻译质量虽然参差不齐,但总体可读可懂,新闻、日常用语已经可达人译水平。质量提升还在持续。到了一支钢笔里面也有个机器翻译芯片的年代,社会不会容忍英语学习所花费的代价。最终的发展趋势是,世界语的前途,会超过英语和其他所有自然语言,成为人们选修外语的最多选择。在一个排除了功能性考量的选择里,世界语的胜出是可以预见的。

最终的情形很可能是:相当一些人决定不学任何外语,其余的人决定选修外语。选修外语的人中,有对拉丁语、阿拉伯语、中文、英文、希腊语等感兴趣,这些死的活的自然语言虽然很难,但总会有少数人有浓厚的研究兴趣。但更多的人选择了世界语,并且延续和发展了世界范围内的世界语联络网,作为联谊和文化交融的实践。

未来的人类交流没有实质性阻碍,语言的统一就不再成为目标。世界大同也不以语言统一作为前提。倒是有可能是反过来,世界先大同了,然后某个阶段,人类决定还是把语言也统一算了。到那时候,倒是不妨选择世界语。那应该是不知道是多少年以后的事儿了,难以打算。老实说 世界大同和世界末日,哪个先来还很难说呢。看核武器、看气候变化、看瘟疫,看人类的短视和”作”,每一个灭绝人类的可能性都依然存在。

世界大同或世界末日的命数先放下,可以预见的是,在不太久远的未来,英语终将走下神坛,世界语作为外语选修有流行的优势和希望。

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

是特斯拉的自驾AI牛还是马斯克牛?

说到马斯克,全世界做AI的谁有他这个门外汉牛?

他可以让自己的上帝,特斯拉车主们,争先恐后地付巨款,不惜生命危险做小白鼠,给他免费地源源不断地标注数据。他拿着数据训练他的AI 所谓的“全自动驾驶”(FSD,Full Self Driving)。FSD 能力提高以后,他就不断加价,剥削新的上帝。

FSD 根本还没影子的事儿,他就从 5000 美金一套开始预售,一路加价到现在的 7000,据说不久还要加 1000 美金。最近开始发布他的过了n次自设死期的红绿灯自动停车功能,这是走向 city driving 的前提。注意,不管红绿,一律停车。除了电脑视觉(CV)外其实没有任何路口智能,说得赤裸裸:就是要顾客教会它如何过十字路口。万一出车祸了,对不起,责任自负。

红灯停,绿灯也停,见灯就停。甚至有车友说路过一个穿绿毛衣的女孩,它误以为是信号灯,也停了。他丫是完全没有智能,放出来就是让小白鼠们免费教会AI何时不停。见灯就停是默认,何时学会不停,完全等小白鼠义勇军(fleet)的反馈:你踩油们就表示你发现(1)这是绿灯;(2)路面上也安全(无阻碍),你觉得应该穿行。这就给特斯拉做了标注。带标数据反馈给神经网络去训练,机器就慢慢学会了。识别红灯绿灯路口 STOP 招牌,据我自己的多次测试,这个能力已经很成熟了。现在就等过路口的数据了。

从用户角度,即便没有智能,也愿意尝试啊。除了新鲜感以外,有时候也的确省了力气。第一,是绝不会冒大意闯红灯受罚的危险了。第二,遇到绿灯且无阻碍,点一下油门也不过就是举脚之劳,总比自己开车省力。也就是说,你上街开车,除了路口,你完全不用操心了。即便到了路口,遇到红灯、黄灯,你也不必操心,它很保守,总是乖乖给你停下来。只是遇到绿灯,你才需要举手之劳地点一下脚。这样算下来,90% 的 city driving 你是可以交给机器了,10% 的时候动动脚(点一下油门)或动动手(点一下操纵杆也可以)。这样的小白鼠,哪个热爱新科技的人不愿意做呢?何况咱还是AI背景的技术爱好者。10% 之内还有路口转弯,这个是更高级的功能,还没进入特斯拉的机器学习的视野。

这阵子读了一些他们的材料。从各种CV子任务,到建立“鸟瞰”view,到测算3D depth,到综合这些信息决定操作,总共上百个模型一起协作。也是一团乱麻,谈不上端到端。非端到端的好处是透明性和模块化。AI的透明性表现在对这100个模型的细分定义中,可是这些模型之间的协调落地,其实基本是个黑箱子。常出现的问题就是,有的模型 overfitting,与其他模型难以 sync好。不同模块对最终的驾驶控制(输出 x,y:x 是速度,y是方向)有不同的影响,协调不好的后果就是争抢“控制权”,表现在自动驾驶能力的不稳定或退步(regressions)上。

几乎所有其他家的自动驾驶都用激光雷达(LIDAR)主导。马斯克说,这是死路,我就不用,我只用摄像头,靠CV。有啥道理?其实没啥道理,马斯克不是AI专家,他就是个有技术背景的商人而已。他算过一笔账,激光雷达的成本高昂(好像是最基本的LIDAR至少6000美金以上,一辆车通常至少要部署两台,这就是一万多),它没有办法用到量产的特斯拉车上,而不失去顾客和市场。就是为了这么个非科学的理由,他就硬说人家用LIDAR是死路。

LIDAR最大的好处是精确测量障碍物与车的距离,而这是自动驾驶安全性的最重要的信息。特斯拉不用LIDAR,但绕不过这个三维(3D)景深(depth)的计算呀,否则如何避免碰撞呢。特斯拉只好通过多个摄像头从不同角度得来的视觉信息,做所谓信息融合(info fusion)在线建立3D模型,来逼近距离的测算,这需要海量的数据训练以及巨大的即时计算能力。最近的报告说,他们与LIDAR的鸿沟已经越来越小了。事实上,他们是用软件的办法实现了一个LIDAR的模拟结果。据称,模拟LIDAR的好处是,很多利用LIDAR发展起来的驾驶算法和技术就可以拿来主义地用了,补足单一依赖视觉的不足。

这叫什么?明修栈道,暗度陈仓。一面宣告竞争对手依赖LIDAR硬件是死路,一面台下模拟LIDAR的软件效果(等价于复制了一个粗糙的LIDAR)。这样也好,等到未来某一天硬件价格下降,特斯拉量产也装配得起LIDAR了,整个算法路线无需大的改变即可实现平滑升级。马斯克的“死路说”,只有一种解释可以站得住,就是:你丫选择用LIDAR,因此成本大到无法量产,因此也就无法交付给成千上万的客户(特斯拉迄今已经交付了100多万辆,形成了一个可以自动海量汇集驾驶数据的车队,叫 fleet,这个 fleet 每天在路上跑着,源源不断给特斯拉输送数据)。这样一来,你的实际训练数据的收集,无法与特斯拉比,相差太多了。在数据为王的AI年代,自动驾驶的最终规模化和适应性,很大程度上取决于数据的采集量和训练量。从这一点看,特斯拉显然把对手远远抛在后面。

关于踢开LIDAR闹AI革命,可以打个比方。弹钢琴是个手艺活儿,各种大赛,各路选手可以把钢琴弹得让人眼花缭乱。这时候你说,我出一个选手,把双手剁了,也来参加钢琴赛,可以不可以?当然可以,没有手,可以用脚呀。不知道各位见没见过用双脚把钢琴弹得让人掉眼泪那种。

这就是补偿作用。当你把一条路堵死,虽然那是一条公认的光明大道,甚至是很多人确认为“唯一”的路径,你其实还可以把另一条暗道无限发挥到极致,最后也常常可以达到目的。这就是马斯克的算盘,虽然费老鼻子的力气了,现在看来他是在成功的道路上,开始逼近对手的自驾能力。我看过竞争对手Zoox的自动驾驶展示,利用LIDAR和高精地图,在旧金山市区繁忙地带穿行自如,性能上比特斯拉要强得远。(顺便插一句,AI 中很多任务,其实主流的深度学习和更传统的符号逻辑,其实都可以做。当你把某个路线堵死,把所有资源排山倒海般注入其中一条路线,奇迹是可以发生的。但这并不说明,那个被堵死的路线,如果有了类似的资源投入,就不可行。很多时候,另一路根本就不在雷达上,完全被忽略了而已,没有施展的舞台和需要的资源而已。)

回到特斯拉的自动驾驶(auto pilot)的设计思想。马斯克说,现代的交通系统(各种路标、红绿灯,以及驾驶规则等)就是设计给人用的。人与蝙蝠不同,没有雷达,主要就是靠双眼来采集信息,靠大脑消化信息来指挥驾驶。既然人可以驾驶,那么机器凭着眼睛(摄像头)也就一样可以。说得倒也有道理,但那是最低标准的道理。没有任何理由要求自动驾驶仅仅跟着人后面去学。人每天都在出事故,难道机器也应如此?人的双眼其实很差劲,为此不知道坑进去多少条人命,伤胳臂丢腿的更是无数。好在特斯拉不止双眼,它配备了10多个摄像头,也配了普通雷达,只是没有激光雷达而已。(特斯拉其实走了一条难得多的道路,他自愿砍掉了自己的两条腿,除了LIDAR这条腿外,他还坚持不用高清地图。砍掉第二条腿的动机是增强系统的鲁棒性和动态适应性,因为高清地图不仅制作和维护成本很大,而且也难于对地面情况的变动做及时的更新反映。但在人口密集地区,譬如交通复杂的都市中心,没有预制的高清地图的结构化知识支持,单靠现场的视觉计算是很难把控交通形势做出合理决策的。相信,最终特斯拉还是会在特别的地区,譬如旧金山市中心,添加高清地图,来优化它的一般驾驶算法的场景性能。)

“跟人学”,这是特斯拉自动驾驶的设计哲学。这也是它的 AI 具有一定程度的透明性、可解释性以及模块化 practice 的指路灯。从工程上看这是最好实施的方案之一。但理性来想,其实很难证明这是最佳的自动驾驶途径。红绿灯识别这类子任务,定义起来很有道理,也很清晰,它直接与驾驶操作有关。其他的一些子任务就难说了,譬如识别垃圾桶。垃圾桶与其他障碍物,在驾驶操作的决策中到底有没有特别的意义,不大能说清楚。本着“跟人学”的指导思想,他们自底而上去定义任务,哪个任务似乎常引起驾驶者的注意,就先定义了,先假设它对驾驶决策有区别性影响。对每个定义的任务,首先收集和标注训练集,做一个模型出来。这样每个模型/模块,就可以独立训练独立测试,开发起来很有章法。至于一下子整了这么多同时在开发、因素杂乱(heterogeneous)、训练集大小不一、拟合程度不一的模型,如何把它们整合到大系统去协调总体驾驶决策,这其实依然是个很大的挑战。他们自己也承认这是一个很大的问题。目前还有相当程度的瞎撞的成分。这就是为什么不少特斯拉车主发现有些功能,新版突然不如旧版了。有时候,过了几个版本又回来了。但也有一些能力曾经在某个版本表现很好,后来再训练新版本后就一直回不到以前的最佳状态。

总之是,模块化、透明化、跟人学智能而不是跟最高理性加最好配置学智能决策,这一套设计哲学对于工程化落地部署有好处,也接地气,但是在 regressions 的掌控上,仍然有很大欠缺。

说了这么多,最后还是沦为马斯克的小白鼠。你都想象不出特斯拉车主的宽容博爱精神多么宏大:对于特斯拉任何一点不起眼的进步,他们从来不吝赞誉;对于马斯克如超人般尊崇;对于失误(包括车祸死人这种人命关天的大事),他们总是冲上去卫护特斯拉,常常指责同是车主的 victims 的不专心或违规操作;对于免费标注、免费做广告、每个季度末忙碌的时候免费义务去 Fremont 帮助交付特斯拉新车,等等,热心无比。这种现象超过了当年的乔布斯粉丝。以至于网上传言,特斯拉车主都是一帮爱好技术的单纯的人。以前孩子迷路了,家长教育孩子,除了找警察叔叔,就去找带着孩子的阿姨。现在的教育据说是,迷路了就去找特斯拉车主,他们都是好人。

盼星星盼月亮,可惜前阵子 beta,只给 early access 的小团伙试用,咱想当小白鼠,无门可入。终于昨天夜里得到了空中更新(OTA:over-the-air),今天有点迫不及待了。

有道是:”… just tell me what you want” (歌词)

 

【相关】

购买特斯拉,请用我的推荐,你我均可得到免费超级充电的奖励:https://www.tesla.com/referral/wei29218 

精彩绝伦的旧金山市区自动驾驶演示:

 

世界语论文钩沉:世界语的语言学特点(1/3)

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。20多页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

毕竟过去20多年了,回头看当年的文章,觉得的确有一些新意,但欠平实,也失之细琐,。感觉上是一个语言学学生“学习/探索/发现”一门新语言的过程实录。也的确是这么个背景。当年最震撼的一个“发现”是,世界语不过就 17 个词尾,居然会变出 112 个不同词形来。这大大出乎我的预料。当时手边的世界语文法书,只是讲解这些形态词尾的用法,我从来没看到有人指出到底能变出多少花样来。记得我跟我的语言学同学说,你猜猜一个词在世界语会有多少种变化?同学说,据她所知,世界语也不是形态特别丰富的语言,最多不过20-30种变化吧。后来就琢磨怎么回事?黏着(就是叠加)这种特点能有这么神奇的产生性吗?还真是如此。

17个形态不难记忆,112种形式怎么不把人整晕呢?靠的就是黏着的规则性。这些规则,文法书也没有写清楚,一切都是在例子中。但其实是可以总结出来的,到底有几种基本词尾形态,形态之间的粘着有什么限制?次序上,类型上,为什么?这些原来都是可以小葱拌豆腐讲清楚的。对形态词尾组合规律的穷尽式探索也是我所学的计算语言学的需要:所谓“削尾”算法就是要应对一个词的所有变形,这是自动形态分析的前提。没有它就查不到词典,没有词典信息加形态分析的信息,就无法做句子分析,也没办法往下走机器翻译规则系统。最后就把对于国际语的语言学研究,变成了一个机器翻译的应用课题。

有些东西是天生在这个语言中的,属于其语言学特点所决定的东西,但语言教科书上,包括柴门霍夫自己的实践都很少系统论述。譬如,复杂时态语态,通常的教学只教利用助动词 est- 的用法:estas studanta / estis studota / … 等等,其实系统学习背后的语言学特性,会发现,这个助动词完全可以不用:  studantas / studotis / … (其实,即便保留助动词加中心动词的复杂分析形式,当年助动词词根 EST- 完全可以不用,让 EST- 只做系动词而不必兼做助动词,让三个时态词尾直接独立做助动词用即可:as studanta / is studota / …)。。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

1.  世界语的黏着性

1.0  众所周知,世界语在很大程度上是一种典型的黏着语,它的语素(词尾、词缀和词根)具有相对固定而独立的含义,可以“黏着”(叠加)构词。下面我着重探究世界语词尾黏着的构词能力,尽管词缀黏着(所谓派生词构词法)与词根黏着(所谓复合词构词法)同样有趣,值得研究。

[说明] 本文中的术语“词尾”专指语法词尾,亦叫“形态”。

1.1  词尾黏着

一般而言,词尾用于表示语法信息:词类、格、数、时态、语态、语气等。

1.1.1  世界语中有多少个独立的形态语素?

其绝对数非常有限,只有17个,即:-o,-a,-e,-n,-j,-i,-u,-as,-is,-os,-us,-ant-,-int-, -ont-,-at-,-it-,-ot-。由于它们的黏着组合的特性,17个形态语素就足够完整,其表现力几乎可以与形态丰富的语言媲美。

1.1.2  根据17个基本形态,可以从一个词干按规则生成多少个单词形式呢?

理论上的答案是112:42个动词,28个名词,28个形容词和14个副词(请参阅附录I)。

1.1.3.  形态语素黏合成词尾的规则

1.1.3.1.  每个单词只有一个词类。实词总是以其形态标示其词类:名词、形容词、动词还是副词。但是,功能词(例如介词,原副词等)是由词典人为规定的词类,它们是可枚举的。因此,表达词类的形态语素之间不允许黏合,就是说,-o,-a,-e,-i /-u/-as/-is/-is/-os/-us 这些词尾相互独立,不可叠加,例如下列形式是非法的:

** -as-o / ** -e-i

【说明】 ** 表示不合法的语言形式(单词或短语),而 ?表示成问题的语言形式。

1.1.3.1.1.  词类不交叉是国际语很大的优势:世界语不存在词类同形现象,这无疑为无论是人还是机器的对词的功能解析提供了的极其有利的条件。而词是最小的句法单位和基础。世界语的高度规则性在此得到了最好的体现。

1.1.3.1.2.  另一方面,上述特点也带来了世界语利用词尾任意转换词类的自由,只要词类转换不违背逻辑(参见1.1.5.1)。这不正是世界语兼具高度规则性与高度灵活性的体现吗?例如:

La flor-OJ glor-AS. (那花儿绽放了:“花儿” 与 “绽放/开花” 是同一个词根 flor- 只是词类词尾不同)
Li kan-AS italan popolan kant-ON. (他唱意大利民歌:“唱” 与 “歌” 是同一个词根 kant-,只是词类词尾不同)
Mi estas ĝoj-A.  Mi ĝoj-AS. (他开心:“开心/高兴” 无论是动词谓语,还是做系动词后面的形容词标语,词根都是一样的 ĝoj- )
la propon-ITA propon-O (所提建议:“提议” 与 “建议” 同一个词根,只是词类词尾不同)

词类转变在古代汉语也有类似的自由度,叫做“词类活用”。但是,不幸的是,古汉语的词类转换没有以可见的形态表现出来,只能通过上下文句法、逻辑的分析来识别(“句读”)。请比较:

1)三“人”行,必有我师。(Tri hom-OJ iras, inter kiuj nepre estus mia instruisto.)
(因为没有词尾形态,逐词直译就是:tri hom? ir?, nepr? est? mi? instruist?).

其狼“人”立而嗥。(La lupo hom-E staras kaj hurlas.) 

(逐词直译:tiu? lup? hom? star? kaj hurl?).

2)其物“净”且清。(La aĵo pur-AS kaj klaras.) 
(逐词直译:tiu? aĵ? pur? kaj klar?).

“净”其身,食其肉,乃去。(Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. )
(逐词直译:pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?).

1.1.3.2  表示词类的形态都可以黏合到 7 个“中缀”型形态上(中缀形态永远不会出现在单词的结尾),其中6个是所谓“分词”形态,用来表示“时体”(进行体、完成体与未完成体)和语态(主动语态和被动语态)。这6种分词形态各自独立,不能相互黏着。第7个是“零形式”(即分词形态阙如,表示默认的“一般体”加主动语态的含义)。

1.1.3.3  动词的黏着规则

1.3.3.1  一个动词必须用以下词尾之一:-i / -u / -as / -is / -os / -us,它们之间不再存在黏着的可能性。这意味着,以 -i(不定式),-u(命令式) 或 -us (虚拟式)结尾的不再有时态的变化/含义,而 -as(现在时) / -is(过去时) / -os(未来时)不再有“时体” 的变化/含义。

1.1.3.3.2  世界语动词没有“数”与“格”的变化。因此,动词词尾不能与复数词尾 -j 和 宾格词尾 -n 黏着。因此,在世界语中,不存在以下两种形式的区别:

Mi skrib-as. / ** Ni skrib-j-as.  (au: ** Ni skrib-as-j.) 
(即不存在其他语言那种主谓在数上的“一致关系”要求。)

1.1.3.3.3  表示时态(现在,过去和将来)和语气(不定式、命令式和虚拟式)的 6 种动词词尾,加上表示时体和语态的7格分词形式,黏着在一起的结果为:6*7 = 42 个动词形式。

【问题探讨】不定式到底是语气(modo)还是独立的词类(speco)?

1.1.3.4  名词和形容词的黏着规则

1.1.3.4.1  名词和形容词有“数”(单数为零形式,-j 为复数形式)和“格”(主格为零形式,宾格形式为 -n)的形态变化。7个名词词尾 -o / -ant-o / -int-o / -ont-o / -at-o / it-o / ot-o,两个数变 (加 -j 或不加) 和两个格变(加 -n 或不加),最终形成 2*2*7 = 28 个名词形式(同理,有28个形容词形式)。

1.1.3.4.2  它们之间的顺序是:(词干)+ 分词 + 词类 + 数 + 格,其中词干 = 前缀+词根+后缀(前后缀可省)。例如:stud-ant-o-j-n。仅词根语素和词类语素必须有,其他语素可能根本不出现。上述语素之间的次序是很自然建立的,有语音方面的原因(尽管从形态上说,词尾语素之间的次序是纯粹任意的,因为次序本身不会改变其语法意义,这方面与词缀黏着的情形有所不同!参见1.2)。如前所述,即使词干以元音收尾,词类词尾的元音 o 或 a,后面跟半元音 j (复数)和鼻辅音 n(宾格)串起来发音和听音也还是很顺:

sci-aj-n / ** sci-j-an

1.1.3.5  副词的黏着规则

与名词和形容词的规则非常相似,只是副词不包括“数”这个语法范畴(在这种情况下,应注意,副词宾格与名词宾格用法不同)。因此,这些副词形态变体的总数为 2*7 = 14。

1.1.3.6  关于黏着的词尾规则为建立用于“削尾”和加尾的算法提供了很好的依据,这是机器解析和翻译世界语的第一个必要阶段。由于黏着语内部的高度规则性(包括一定程度的递归),研究此类令人满意的算法并不困难(请参阅附录2)。

1.1.4  世界语17个基本形态语素是否做到了在语义上的单纯,没有交叉?

1.1.4.1  可惜不是。这在【附录2】削尾算法中看得很明显(比较各个形态对应怎样的词法意义)。

1.1.4.2  语义不交叉的词尾只有5个:-o / -a / -e / -i / -n。应该说明的是,所谓的语义不交叉的词尾并不一定意味着只对应一个语义。语义不交叉词尾 -n 实际上有三个语义(即包括了三个单独的句法或逻辑功能,当然,三者并不共存):(i)宾语;(ii)方向(通常用于副词或介词后名词);(iii)状语(通常用于时间、距离等名词,功能等价于介词 je)。再如,在某些语言中,存在三个数,单数(1)、双数(2)和复数(大于2),但是世界语复数词尾 -j 的含义更大,包括2或大于2。

1.1.4.3  在世界语中,没有单纯的基本形态语素来表示”动词”、”谓语”的特征以及词法范畴”时态”、”语态”、”语气”和”时体“的具体所指。在分词的6个形式中,时体和语态是混杂在一起的。时态、语气与动词/谓语的特征也混合在一起。但是,这些不透明的的混合性词尾不会给人的理解带来困难。相反,它们显得足够自然和方便,特别是,那些混合在一起的词法特征都是紧密相关的。

【延伸讨论】 分词并不是独立的词类,它可以属于4个主要词类的任何一类。分词的真正含义是给一个词以逻辑动词的意味,类似于表示动作性意味的后缀(或“类词尾”)-ad- 。

1.1.4.4  有意思的是,即使在世界语不透明的混合形态中,也存在一定程度的“透明性”。在 -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot- 中,“a” 似乎表示“现在”或“进行”,“i” 表示“过去”或“完成”,“o” 是 “未来”或“未完成”,“s” 似乎指 “谓语”(但命令式谓词 -u 则是例外,”n“ 表示 “主动”。尽管从形态学上,这些“类词尾”不能被视为基本形态,但是,所反映的这种“透明性”客观上加强了使用者对形态的把握,而且,人们总是体验到这些混合式形态构成的平行之美。

【延伸讨论】作为句法范畴,时态与时体显然彼此不同,但在实际使用中,其边界其实是灰色的:

Verk-ONT-oj estas tiuj, kiuj verk-OS au verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ghojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ghojas.

Li jam vid-IS/vid-INT-AS la filmon.

实际上,这两个词法范畴均与客观世界的时间维度相关,是针对事件时间的不同角度的反映。这大概就是柴门霍夫作为语言践行者,对两个客观相似的概念(例如“过去”与“完成”)采用相同的元音(“i”)作为形态构成因素的考量吧。

1.1.4.5  然而,正因为世界语没有单纯的形态语素表示语态,语态信息是融合在6个分词形态里面,这就造成如下情形:一个被动形式对应了两个主动形式,如下所示:

-as / -antas  –>  -atas;    -as / estas -anta(j) –> estas -ata(j)
-is / -antis  –>  -atis;        -is / estis -anta(j) –> estis -ata(j)
-os / -antos  –>  -atos;    -os / estos -anta(j) –> estos -ata(j)

这个问题的本质是世界语实际上有四个时体:一般体(零形式),进行体,完成体和未完成体,同时存在两个语态:主动(零形式)和被动。而六个平行的分词形式只能蕴含三个时体和两个语态。这种状况使得以零形式表示的一般体没有其对应的被动形式,从而使它无奈之下不得不去共享或抢夺进行体被动态的分词形式 -at-。不能不承认,这是世界语形态系统的一个理论缺陷。其结果是,尽管 -at- 理论上是 -ant- 的被动对等物(进行体:-antas  –>  -atas),但实际上 -at- 通常是作为一般体的被动形式(一般体:-as  –>  -atas),越俎代庖了,因为一般体比进行体更为常用。因此,有人建议允许黏合形式 -ant-at- 或 -at-ant-,用作进行体和被动式的结合,或者将混合式分词形态独立开来,即:-ant-at- 代替 -at -,-int-at- 代替 -it -,-ont-at- 代替 -ot- ,以这种透明的黏合形式弥补形态体系的理论缺陷。这种符合黏合特性和组合逻辑的书斋提案,对于机器可能更加合理有效,但是对于我们人类来说,它们失之繁琐,反而成为不必要的学习负担。

1.1.4.6   【小结】理想的纯黏合语言是每个语素,至少每个词尾形态,应该具有单纯唯一的独立含义,正如柴门霍夫在《第一书》中声称的那样。任何复杂的意义组合都应该以语素的黏合手段加以表达。这也正是黏合语与其他的形态语言之间的根本区别。由此单词词形内的词法结构将变得彻底透明,完全可解析。最方便彻底贯彻这一黏合设计思想的语素正是词尾形态,而不是数量大得多的词缀语素和词根语素。然而,就这一点而言,世界语也没有表现出100%的黏合性。在我看来,这可以用语音手段的局限来解释:将所有词尾形态原子化肯定会导致每个单词的音节数大增,这样对于使用者的接受度来说太过复杂。 此外,世界语只有5个元音 a / i / e / o / u,这些元音也已经严重超载。世界语过去、现在和将来都是为人实际使用而设计的足够“自然的”人类语言(尽管其起点是人造),而不是机器语言。 (请参阅第4节。)

1.1.5  这 112 个单词形式都会用到吗?

1.1.5.1  在词法上,是的,所有这些形式都可能用到。实际中有一个限制:词干与这112种词尾的黏合,必须在逻辑上是可理解的,即语义上可以兼容。譬如,在我看来,那些表示具体物体的词根(例如“tabl-”)是应该没有分词形式的:

? tabl-ant-i / tabl-ot-a / tabl-ant-a / tabl-int-o

这种限制是使用者自然遵守的,毕竟人不大可能表达自己也无法理解的信息。

1.1.5.2  尽管从实用角度来看,这112种形式的使用频度彼此之间有很大差异,但是不能说哪种形式不可使用。这112种形式的有效性和可理解性是同样的。哪些形式更受青睐,更多出现是由多种因素决定的,包括:说话者的语言习惯和母语背景、风格、教育程度、语言能力、听众是谁以及希望产生何种效果,等等。

尽管如此,世界语的简约原则要求尽可能多地使用简单形式而不是复杂形式。例如:

“Mi NUN stud-AS (au: Mi ESTAS stud-ANTA)” 代替 “Mi stud-ANT-AS”.
“Ili JAM ir_IS (au: Ili ESTAS ir-INTAJ)” 代替 “Ili ir-INT-AS”.
“veredir-E” 代替 “veredir-ANT-E”

因此,人们宁愿使用 “la parol-O far_E de Zamenhof(柴门霍夫做的演说)”,而不是“ la parol-ADO far-ITA de Zamenhof”,或将短语 FARE DE 简化为新的介词 FAR(la parolo FAR Zamenhof)。

因为人类思想本身就存在必要的模糊性,此外,上下文和功能词(包括唯一有形态变化的助动词 EST-)通常也对解析有所助益(如上面示例所示,另请参阅 3.2.1),所以,世界语的节约原则并不难遵守。

1.1.5.3  【小结】仅仅17个基本形态最终形成112个有效的词尾形式!每个词都可以有112种变化,这真可算是黏合造词的奇迹。更重要的是,无论是表达还是理解,如此众多的词形却不会给人带来负担。这不是世界语黏合规律的最好证明吗?实际上,黏合的本质不外乎是选择性排列(由造词结果角度观之)和拟递归(由过程角度观之,请参阅【附录2】)。更抽象地讲,是一定的数学特性引入世界语了。世界语词汇是规则性和灵活性高度统一的典型案例,在世界语中这是同一现象的相互依存的两面。

1.2  词缀的黏合

词缀主要用于表达单词的细微差别。其黏合通常遵守自然逻辑或语义的兼容性,都是全人类共同的准则。因此,没有(也没有必要)特别规定词缀黏合的规则,使用者自然会让黏合易于理解。有一个世界语结构关系的就近原则在这里起作用,该原则要求两个相互关联的元素尽可能地接近,以便于清晰理解。比较 PLIMALBONIGI 与 MALPLIBONIGI 之间的细微差别:

bon-a –> mal-bona –> malbon-ig-i –> pli-malbonigi
bon-a –> bon-ig-i –> pli-bonigi –> mal-plibonigi (aŭ: bon-a –> malpli-bon-a –> malplibon-ig-i)


1.2.1  词缀的抽象度有所不同。 最抽象也是最常用的词缀有 -et- (“小”,程度轻微)、-eg-(“大”,程度严重)、mal-(反义词)、ne-(否定词),可以用于任何词根/词干和任何词类(原则上,每个词根具有一个逻辑词类,就像每个单词都有一个语法词类一样),而其他词缀,如 -ul-(“者”)、-ing-(“值得”)、 el- (“出”)、 kun-(“一起”)则非常具体。

1.2.2  与多后缀黏着相比,前缀黏合或多或少受限,并且语音上不允许在前缀之间或前缀与词根之间连音(例如,MALAPERI 和 MALANTAUPORDO:

mal-a-pe-ri / ** ma-la-pe-ri;
mal-an-tau-por-do / ** ma-lan-tau-por-do


1.2.3  后缀的黏合非常灵活自由:

rid-i –> rid-et-i –> ridet-em-a –> ridetem-et-a–> ridetemet-ul-o –>  ridetemetul-in-o –> ridetemetulin-et-o –> ridetemetulinet-aĉ-o –> ridetemetulinetaĉ-et-o …
= la ete aĉa eta knabino, kiu ete emas rideti

上面这个由一个词根一个词尾中间黏着了8个后缀的派生词词义组合透明、易于理解,意思是:有点儿爱微笑的有点恶作剧的小女孩。后缀有:-et-(程度轻微)、-em-(倾向于)、-ul-(“者”)、-in-(女性)、aĉ(恶作剧)。

有意思的是,语缀(如 -et-)可以在一个单词中多次出现,这与形态语素完全不同。从理论上讲,后缀的数量在黏合过程中是不受限制的。当然,一个单词太多音节,发音器官可能有困难,人们通常不会使用过于繁复的多后缀黏合的词法综合形式。一般取而代之的是,使用句法词组的分析形式来表达复杂的概念组合。

另外,世界语中有两个特别的后缀 -ĉj-/-nj-,它们会更改与之黏合的前面的发音:patro(父亲) / patrino(母亲) –> pa-ĉj-o(爸爸)/ pa-nj-o(妈咪)。

1.3  词根的黏合

词根黏合用来表达复杂概念,其黏合规则非常简单也很自然:中心词始终居后。词根复合的黏合,与中文(以及德语)合成词的构成,具有类似的自由性。示例:

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。近20页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

Li,Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

1. Aglutineco de Esperanto

1.0.  Kiel sciate al ĉiuj, Esperanto estas grandparte tipa aglutina lingvo, kies morfemoj (finaĵoj, afiksoj kaj radikoj) havas siajn apartajn signifojn kaj povas aglutini unu sur alia por vortofarado.  Ni intencas portempe esplori sube ĉefe pri la aglutineco pri la finaĵoj, kvankam estas same studindaj la trajtoj por la aglutineco pri afiksoj (lige kun derivaĵfarado) kaj pri radikoj (lige kun kunmetaĵofarado).

[Klarigo] La termino finaĵo en tiu ĉi arktikolo specifikas je gramatika finaĵo.

1.1. Aglutineco pri Finaĵoj

Principe vortofinaĵoj estas nur uzataj por montri gramatikajn informojn: vortospecon, kazon, nombron, tenson, voĉon, modon kaj aliajn.

1.1.1.  Kiom da sendependaj finaĵmorfemoj estas en Esperanto?

La absoluta nombro multe limigitas, nur 17: -o, -a, -e, -n, -j, -i, -u, -as, -is, -os, -us, -ant-, -int-, -ont-, -at-, -it-, -ot-.  Tamen, estas admirinde, ke ili sufiĉe kompletas kaj proksimume esprimriĉas kiel en fleksiegaj lingvoj, dank’ al sia aglutineco. 

1.1.2.  Baze de la 17 fundamentaj finaĵoj, po kiom da vortoj oni povas produkti el unu vortokorpo laŭregule?

La teoria respondo estas 112: 42 verboj, 28 substantivoj, 28 adjektivoj kaj 14 adverboj (Vd. APENDICON I).

1.1.3.  Kiuj estas la reguloj, laŭ kiuj la finaĵoj sinaglutinas?

1.1.3.1.   Ĉiu vorto havas nur unu vortospecon, nociaj vortoj ĉiam per siaj finaĵoj sinaspektas je siaj specoj ĉu kiel substantivo, aŭ adjectivo aŭ verbo aŭ adverbo; funkciaj vortoj, kiel prepozicio, originala adverbo, kaj aliaj, tamen, gajnas siajn specojn artefarite, kaj ili estas nombreblaj.  Tial, ne estas permesite, ke interaglutiniĝu la finaĵoj indikantaj specojn, -o, -a, -e, -i/-u/-as/-is/-os/-us, t. e. ne ekzistas la formoj kielsube:

** -as-o / ** -e-i

[KLARIGO] ** estas indiko por negramtikaĵo (ne-vorto aŭ ne-frazo) dum ?? por gramtikeproblemaĵo.

1.1.3.1.1.  Tio estas granda avantaĝo por la internacia lingvo, ke en Esperanto ne povas esti gramatikaj samformoj, kio sendube estas eksterordinare favora kondiĉo por rekoni (far ĉu homoj ĉu maŝinoj) la funkcion en frazo de la minimuma sintaksa unuo vorto.  La alta reguleco tipe enkorpiĝas ĉi tie, ĉu ne?

1.1.3.1.2.  Sekve kaj aliflanke, Esperanto sin karakterizas per laŭplaĉa transformado de vortospecoj, se nur la transformaĵo ne kontraŭas al logiko (kp. 1.1.5.1).  Ĉu tio ne estas okulfrapa sinmanifesto de alta fleksebleco de Esperanto? Ekzemble:

La flor-OJ flor-AS.
Li kan-AS italan popolan kant-ON.
Mi estas ĝoj-A.  Mi ĝoj-AS.
la propon-ITA propon-O

La sama laŭplaĉeco je specotransformo sintrovas ankaŭ en la antikva ĉina lingvo.  Tamen, treege bedaŭrinde, la transformo sin montras per neniaj videblaj morfologiaj formoj, kaj tio povrekoniĝas nur laŭ kunteksta sintaksa aŭ/kaj logika analizo.  Komparu:

1) 三人行,必有我师。(ĉine) Tri hom-OJ iras, (inter kiuj) nepre estus mia instruisto.
(vorto-al-vorte: tri hom? ir?, nepr? est? mi? instruist?).

其狼人立而嗥。(ĉine) La lupo hom-E staras kaj hurlas (t.e. kvazaŭ homo starus). 
(vorto-al-vorte: tiu? lup? hom? star? kaj hurl?).

2) 其物净且清。(ĉine) la aĵo pur-AS kaj klaras. 
(vorto-al-vorte: tiu? aĵ? pur? kaj klar?)

净其身,食其肉,乃去。(ĉine) Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. 
(vorto-alvorte: pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?)

1.1.3.2.  Ĉiuj specofinaĵoj bone sinaglutinas sur la 7 “interfinaĵoj” (kiuj neniam aperas je la fino de vortoj), t.e. la 6 participaj formoj indikantaj aspektojn (kontinuan, perfektan kaj malperfektan) kaj voĉojn (aktivan kaj pasivan), kaj 1 nulformo, kiu fakte indikas ĝeneralan aspekton (aŭ nulaspekton) kaj aktivan voĉon. Tamen, la participaj por si mem ne povas interaglutini unu sur la alia. 

1.1.3.3.  Aglutinaj Reguloj por Verbo

1.1.3.3.1.  Verbo finas nepre je unu el la subaj finaĵoj: -i/-u/-as/-is/-os/-us, kiuj tial certe aperas je vortofinoj kaj inter kiuj ne plu estas la eblo por aglutinado, t.e. la formoj kun -i, -u aŭ -us kiel finaĵo ne plu sinvarias je tenso-signifo, kaj -as/-is/-os nur povas enhavi la signifon de ĝenerala modo (aŭ nulmodo). 

1.1.3.3.2.  Esperantaj verboj ne sinvarias pro nombro aŭ kazo, verbofinaĵoj do ne aglutineblas al la finaĵoj -j kaj -n.  Tial en Esperanto ne ekzistas la kontrasto inter la subaj 2 formoj:

Mi skrib-as. / ** Ni skrib-j-as.  (aŭ: ** Ni skrib-as-j.) 

1.1.3.3.3.  La 6 verboformoj indikantaj tensojn (prezencan, preteritan kaj futuran) kaj modojn (infinitivan, kondicionalan kaj volitivan) kaj la 7 interfinaĵoj por aspektoj kaj voĉoj interaglutinas kun la rezulto de 6*7=42 verboformoj.

[PROBLEMO] Ĉu infinitivo vere estas ia modo aŭ ia sendependa vortospeco?

1.1.3.4.  Aglutinaj Reguloj por Substantivo kaj Adjektivo

1.1.3.4.1.  Substantivoj kaj adjektivoj fleksias je nombro (singularo per nulformo kaj pluralo per -j) kaj kazo (nominativo per nulformo kaj akuzativo per -n).  La 2 nombroj kaj 2 kazoj aglutinantaj sur la 7 interfinaĵoj fariĝas fine 2*2*7=28 formoj.  

1.1.3.4.2.  Jen la ordo inter ili:  (korpo)-interfinaĵo + speco + nombro + kazo, interkie korpo = prefikso(j) + radiko(j) + sufikso(j).  Ekzemple: stud-ant-o-j-n.  Nur radiko kaj speco nepre kunaperas, la aliaj morfemoj povas tute ne aperi.  La supra interordo establiĝas tre nature, kun fonetika kialo (kvankam morfologie la finaĵ-ordo estas pure arbitra, ĉar la ordo mem ne variigas iliajn grametikajn signifojn, kio tiurilate diferencas de la stato pri afiksoaglutinado!  Kp. 1.2.  Ordite kiel supre, la vokalo oa, la duonvokalo j kaj la nazala konsonanto n prononciĝus kaj aŭskultiĝus plej facile, eĉ en la okazo, ke la korpo hazardus kun vokalo je fino: 

sci-aj-n / ** sci-j-an

1.1.3.5.  Aglutinaj Reguloj por Adverbo

Ili multe similas al tiuj por substantivo kaj adjektivo, nur adverbo ne inkluzivas en si la gramatikan kategorion de nombro (por kazo, menciindas, ke la adverba akuzativo signife ne malgrande foras de la substantiva).  La formoj do rezultiĝas entute je 2*7=14.

1.1.3.6.  La aglutinaj reguloj pri finaĵoj bone fundamencas al la establado de la algoritmoj por fortranĉi finaĵojn kaj por ilin adicii, kiu estas la unua necesa etapo por maŝine kompreni kaj traduki Esperanton.  Dank’ al la alta reguleco, inkluzive de iugrada rekursiveco, interna en la aglutinareguloj, estas ne malfacile elesplori tiajn algoritmojn kontentigajn (Vd. APENDICON 2).

1.1.4.  Ĉu la 17 fundamentaj finaĵoj ĉiuj semantike senmiksas?

1.1.4.1.  Bedaŭrinde, ne.  Tio klare evidentas en la algoritmo de APENDICO 2.

1.1.4.2.  Jen la senmiksaj finaĵoj: -o/-a/-e/-i/-n.  Estas klarigende, ke la tiel nomata semantike senmiksa finaĵo tute ne necese signifas, ke ĝi devu signife specifiki nure.  La Esperanta senmiksa finaĵo -n signife inkluzivas fakte de tri apartaj funkcioj sintaksaj aŭ logikaj (neniam kunekzistaj, kompreneble): objekto, direkto (kutime lige kun adverbo aŭ postprepozicia substantivo) kaj adjekto (ofte kun la substantivoj de tempo, distanco aŭ similaj).  Plurekzemple, en iuj lingvoj estas tri nombroj, singularo (1), duumo (2) kaj pluralo (pli ol 2), tamen la Esperanta pluralofinaĵo -j plivaste signifas, inkluzive de kaj 2 kaj pli ol 2.  

1.1.4.3.  En Esperanto ne estas elementaj finaĵoj por respekte indiki verbon, predikaton kaj la signifojn de tenso, voĉo, modo kaj aspekto.  La signifoj de aspekto kaj voĉo miksiĝas en la koncepto de participo.  Kaj tenso, modo ankaŭ sinmiksas kun verbo aŭ/kaj predikato.  Tiuj netravideblaj miksaĵoj, tamen, ne kaŭzas malfacilon por homa rekonado; anstataŭe, ili aspektas sufiĉe nature kaj favore, ĉefe ĉar la signifoj miksitaj kune estas tiuj, kiuj proksime interrilatas.  

[PLUVORTOJ]  Participo ne estas sendependa vortospeco, kiu povas aparteni al ajna el la 4 ĉefaj specoj kaj kies vera senco nur efikas je tio, ke ĝi, kiel la sufikso aŭ kvazaŭ interfinaĵo -ad-, donus al vorto la logike verban signifon.  

1.1.4.4.  Estas sufiĉe interese ke ankaŭ estas iugrada “travidebleco” eĉ en Esperantaj netravideblendaj miksaj finaĵoj.  El la formoj -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot-, verŝajnas al ni, ke -a- signifus “presencon” aŭ “kontinuon”, -i- “preteriton” aŭ “perfekton”, -o- “futuron” aŭ “malperfekton”, -s “predikaton” (escepte nur de la volitiva predikato -u), kaj -n- “aktivon”, ktp.  Kvankam morfologie tiuj kvazaŭfinaĵoj ne povas sinsendependi kiel elementaj finaĵoj, tamen, tia “travidebleco” objetive multe helpas nin por memorado, kaj plue, oni ĉiam sentas la belecon je la paraleleco en la miksformoj  konsistantaj el ili.  

[PLUVORTOJ]  Kiel sintaksaj kategorioj, tenso kaj aspekto ja evidente diferencas unu de la alia, sed je praktika uzado ege malklariĝas la interlimo:

Verk-ONT-oj estas tiuj, kiuj verk-OS aŭ verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ĝojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ĝojas.
Li jam vid-IS/vid-INT-AS la filmon.

Fakte, la 2 konceptoj ambaŭ rilatas al TEMPO en la objektiva mondo.  Tio eble ĝuste estas la kialo, pro kio Zamenhof, kiel lingva majstro, maldogmiste elektis la samvokalojn por la 2 objektive similaj konceptoj.  

1.1.4.5.  Tamen, guste ĉar en Esperanto ne estas elementaj finaĵoj por voĉoj, kies informoj sin montras nur en la 6 participoj, do formas la situacio, ke 1 pasivformo kontrastas al 2 aktivformoj kielsube:

-as / -antas  –>  -atas;    -as / estas -anta(j) –> estas -ata(j)
-is / -antis  –>  -atis;        -is / estis -anta(j) –> estis -ata(j)
-os / -antos  –>  -atos;    -os / estos -anta(j) –> estos -ata(j)

La esenco de ĝi estas, ke en Esperanto estas efektive 4 aspektoj: ĝeneralo (per nulformo), kontinuo, perfekto kaj malperfekto, kaj ekzistas 2 voĉoj: aktivo (per nulformo) kaj pasivo.  La 6 paralelaj participoj konsistas el nur 3 aspektoj kaj 2 voĉoj, dum la nulforma ĝenerala aspekto ne havas sian respondan pasivformon, rezultante, ke ĝi senrimede kunĝuas la kontinuan pasivaĵon!  Ni ne povas ne konfesi, ke kvankam -at- estas teorie formala kontrastaĵo al -ant-, tamen oni efektive emas rigardi -at- kiel la pasivan formon por ĝenerala aspektom, kiu pli often uziĝas ol la kontinua.  Tial, iuj proponas, ke oni uzu la aglutinan formon -ant-at--at-ant- kiel la kunaĵon de kontinuo kaj pasivo, aŭ plue, tute sendependigu la 2 katekoriojn, sekve estus: -int-at- anstataŭ -it-, -ont-at- anstataŭ -ot-, ktp.  Tiaj travideblaj formoj eble ja efikas por maŝinoj, sed por ni homoj ili estas troaj kaj nenecesaj ŝarĝoj.  

1.1.4.6.  [Sumeto]  Ideala pure aglutina lingvo estas tia, ke ĉiu morfemo, almenaŭ ĉiu finaĵo, devas havi elementan aŭ simplan signifon, tiel, kompleksa signifo estas esprimata en la formo de morfemaglutinaĵo.  Tio ja estas la fundamenta diferenco inter aglutina lingvo kaj alia fleksitipa lingvo, kaj nur pro tio la vortoj fariĝus travideblaj, tute analizeblaj.  Kompreneble, finaĵoj estas tiuj morfemoj, kiujn oni plej facile aglutinigas tutpure.  Tamen, eĉ tiurilate, Esperanto ne sinmontras je 100% senmiksa aglutineco, kio povas, laŭ mi, klarigata fonetike: signife simpligi ĉiujn finaĵojn en elementojn certe kaŭzas la plimultigon de silaboj por vorto, kaj la aglutinaĵo sekve tro kompleksas por homa akcepteblo.  Plue, en Esperanto estas nur 5 vokaloj a/i/e/o/u, kiuj ĉiuj estas sufiĉe ŝarĝitaj jam!  Esperanto estis, estas kaj estos HOMA PRAKTIKUZA kaj sufiĉe NATURA lingvo (kvankam origine artefarita) anstataŭ maŝinlingvo.  (Vd. Sekcion 4.)    

1.1.5.  Ĉu la 112 formoj ĉiuj estas uzataj?

1.1.5.1.  Gramatike, jes. Praktike, estas nur unu limigo:  la ligaĵo de korpo kaj finaĵo devas esti logike komprenebla, t.e. semantike ligebla.  Ŝajnas al mi, ke tiuj konkretaj aĵo-radikoj kiel “tabl-” ne povas fariĝi en participformojn:  

?? tabl-ant-i  / tabl-ot-a / tabl-ant-a / tabl-int-o

Tiun limigon laŭas nature la uzantoj, kiuj verŝajne ne eblas esprimi iun informon eĉ ne kompreneblan al si mem!  

1.1.5.2.  Kvankam pragmatike la uzofteco por la 112 formoj multe varias unu de alia, tamen oni neniel povas diri, ke kiuj formoj estas neuzeblaj.  La efikeco kaj la komprenebleco de la ĉiuj 112 formoj estas same certaj.  La problemo, kiuj el ili estas prefere elektitaj por esprimado, decidiĝas de variaj faktoroj:  la lingva kutimo kaj origino de la parolanto, la stilo, la situacio, kiaj aŭskultantoj ĉeestas kaj kia efiko estas intencita, la poveco de la uzanto, ktp.  

Tamen, Esperanta Ŝpara Principo bezonas, ke oni plej ofte eble uzu malmultajn simplajn formojn.  Ekzemple: 

“Mi NUN stud-AS (aŭ: Mi ESTAS stud-ANTA)” anstataŭ “Mi stud-ANT-AS”.
“Ili JAM ir_IS (aŭ: Ili ESTAS ir-INTAJ)” anstataŭ “Ili ir-INT-AS”.
“veredir-E” anstataŭ “veredir-ANT-E” (kp. angle: truly speak-ING).

 Do, oni prefere uzas “la parol-O far_E de Zamenhof” anstataŭ “la parol-ADO far-ITA de Zamenhof”, aŭ plue plisimpligus la vortogrupan prepozicion FARE DE en la novan prepozicion FAR: la parolo FAR Zamenhof (kp. “la parolo de Zamenhof”, formon pli abstraktan).  

Ĉar en la homa pensado mem iugrade ekzistas necesinda nebuleco, kaj samtempe, ofte helpas ankaŭ la kunteksto kaj funkciaj vortoj inkluzive de la nura fleksia efektive funkcieca vorto EST- (helpe de ĝi, oni bone sinesprimas per analizaj formoj ĝenerale pli klaraj ol la sintezaj kompleksaj formoj, kiel jam montrite en la supraj ekzemploj.  Vd. ankaŭ 3.2.1), Ŝpara Principo de Esperanto ne malfacile laŭiĝas.  

1.1.5.3.  [SUMETO]  Nur 17 fundamentaj finaĵoj povas interaglutiniĝi fine en 112 efikaj finaĵoformojn!  Ĝi estas miraklo por vortofarado dank’ al aglutineco.  Kaj, plue, tiel multaj formoj neniel fariĝas ŝarĝo sur homoj ĉu por esprimo aŭ por kompreno.  ĉu tio ne estas la plej bona pruvo por la Esperanta aglutina reguleco?  La esenco de aglutineco estas faket ne plu ol elekta permutado (el la anglo de rezulto) kaj kvazaŭrekursiveco (el la angulo de procezo, Vd. APENDICON 2), aŭ pli abstrakte, ia matematikeco, kiu plej multe eble enkondukiĝis en nian lingvon.  Ĝuste pro tio, Esperanta vortofarado estas tipa ekzemplo de la alta unuiĝo de reguleco kaj fleksebleco, kiuj estas en Esperanto interdependaj flankoj de la sama fenomeno.  

1.2.  Aglutineco pri Afisoj

Afiksoj ĉefe poras esprimi vortonuancojn.  La aglutino ofte limigatas de natura logiko aŭ semantika kunligebleco, kiu estas grandparte komuna al la tuta homaro, tial ne ekzistas, kaj ankaŭ necesas, perfortaj reguloj por la afiksordo, la uzantoj en komunikado nature interkompreniĝas tiurilate.  Funkcias ĉi tie la Esperanta Interproksima Principo, kiu bezonas la interrilatajn 2 elementojn kiel eble plej proksimaj por facila kaj klara komprenado.  Komparu la nuancon inter PLIMALBONIGI kaj MALPLIBONIGI:

bon-a –> mal-bona –> malbon-ig-i –> pli-malbonigi
bon-a –> bon-ig-i –> pli-bonigi –> mal-plibonigi (aŭ: bon-a –> malpli-bon-a –> malplibon-ig-i)

1.2.1.  Estas diferenco je abstrakteco de afiksoj.  La plej abstraktaj kaj ankaŭ plej ofte uzataj afiksoj kiel -et-/ -eg-/-aĉ-/mal-/ne- ĉie uzeblas kun kiu ajn radiko, kies logika speco (principe, ĉiu radiko kutime havas unu logikan specon, ĝuste kiel ĉiu vorto havas unu gramatikaspecon) estas ne antaŭkondiĉita, dum aliaj kiel -ul-/-ing-/el-/kun- multe konkretas.

1.2.2.  La povecon je prefiksa aglutino estas pli-malpli limigita, kompare kun tiu je la sufiksa, kaj fonetike ne kiele permesitas la kunprononco de la silaboj inter prefisoj aŭ inter prefiso kaj radiko (kielekzemple MALAPERI kaj MALANTAŬPORDO: mal-a-pe-ri / ** ma-la-pe-ri;  mal-an-taŭ-por-do / ** ma-lan-taŭ-por-do).  

1.2.3.  Multe pli flekseblas la aglutinado pri sufiksoj:

rid-i 
rid-et-i
ridet-em-a
ridetem-et-a
ridetemet-ul-o
ridetemetul-in-o
ridetemetulin-et-o
ridetemetulinet-aĉ-o
ridetemetulinetaĉ-et-o …
(= la ete aĉa eta knabino, kiu ete emas rideti)

Ni trovu, ke la samafikso povas aperi plurfojoin en unu vorto nur laŭ la sence celita, tio estas tute malsama de finaĵo.  Teorie, la nombro de sufiksoj dum aglutinado semlimas, kvankam oni prefere uzas analizan formon anstataŭ tro kompleksan plursufiksan aglutinaĵon, limigite de la povo de homaj organoj.  

[PLUVORTOJ]  Estas en Esperanto 2 malaglutinecaj sufiksoj -ĉj-/-nj-, kiuj ŝanĝas la antaŭajn silabojn:  patro / patrino –> pa-ĉj-o / pa-nj-o.

1.3.  Aglutineco pri Radikoj

Radikaglutineco uziĝas por manifesti malsimplan koncepton, kaj la aglutina regulo tre simplas kaj naturas: aksa elemento ĉiam sekvu.  La laŭplaĉeco por kunmetaĵfarado kaj la aglutina regulo tre similas al la vortofarado en la ĉina lingvo (kaj ankaŭ la germana).  Ekzemplojn:

(Esperante : ĉine)

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

2. Fleksebleco De Esperanto

2.1  En Esperanto malklariĝas la limoj …

2.1.1  Inter transitivo kaj netransitivo

Mi IRAS.
/ IRU vian propran voj-ON.

La tuta homaro PAROLOS nur unu lingv-ON.
/ Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  Inter objektoj rekta kaj nerekta :

informi ION al IU / informi IUN pri IO

2.1.3  Inter objekto kaj adjekto

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  Inter radiko kaj afikso (eĉ finaĵo), sekve inter derivaĵo kaj kunmetaĵo, kiel ekzemple:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. Inter sufikso kaj finaĵo

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Ĉiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  Inter nocia vorto-radiko kaj funkcia vorto, t.e. funkciaj vortoj ankaŭ povas sekvati de finaĵoj eĉ afiksoj ĝuste kiel radikoj, se necese:

JES, mi JES-as vian opinion.
Li TRO ĝojas.  –> Li ĝojas TRO-e.
tie –> tie-aj homoj
nur –> la nur-a studento / nur-ul-o / nur-ul-in-o
per –> per-anto
tre –> tre-ege

2.1.7  Inter vortogrupo kaj grupovorto (kunmetaĵo), speciale prepozitivo kaj ĝiaj respondaj adverbo, adjektivo, verbo kaj eĉ substantivo:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtabl-en

la lingvo por homoj / porhom-a lingvo (porhomalingvo)
(sed ĉu “porhomlingva” = “porhom-lingva” aŭ “por-homlingva”?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-U, subpopol-U, interpopol-U kaj porpopol-U.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   Inter predikato kaj predikata komplemento (predikativo):

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9.  Fine inter la konceptoj de aglutinado, kunmetado kaj derivado (Rf. Sekcion 1); inter la konceptoj de substantivo nombrebla kaj nenombrebla (ekz. konklud-o / konklud-oj), difinita kan nedifinita (sinmotrante je iugrada laŭplaĉo en la uzado de la artikolo LA), ktp. 

2.2.  En Esperanto kreiĝis la ĉiopova prepozicio JE.  Kiam oni esprimas sian penson, oni ofte sentas, ke ekzistas iagrada nubula determina rilato inter konceptoj, sed ne povas diri klare kaj ne bezonas klare montri ilian semantikan rilaton.  Por adapti la lingvon al tia nebuleco de homa pensado, Zamenhof, same kiel li elpensis la sufikson -UM-, genie kreis la prepozicion JE (kiu eble estas la dua plej grava analizaĵo en Esperanto.  La unua estas la vorto EST-, Vd. 3.2.)  Oni povas esprimi tian nebulan rilaton ankaŭ per fleksiaj formoj (sintezaĵoj), kiel akuzativo aŭ adverbo.  

2.3.  En Esperanto estas mirinda unueco en la uzado de kazo kaj vortospeco, kio estas ĝia treege elstara lingvistika trajto.  La vortospeco kaj kazo estas ambaŭ dinamikaj sintaksaj karakteroj, kiuj sinmontras nur dum la konstruado de frazo.  Tial, ili same povas esprimi abstraktajn semantikaj rilatojn, kvankam diferencajn, kaj efektive kompletigas unu la alian.  (Diferencante de la analizforma prepozitivo, kiu en Esperanto estas uzata ĝenerale por esprimi kompare koncretan kaj determinan semantikan rilaton, escepte de la prepozicio JE.  Porplue, vd. 3.2.2.)  Ni komparu jenajn frazojn:

Mi skribas plum-E.  /                                                       (ruse)

Kiel supre jam menciite (vd. 1.1), bazaj finaĵformoj en Esperanto, kvankam nemultaj, estas sufiĉe kompletaj kaj esprimriĉaj.  Ni nun citu kazon kiel pluan ekzemplon.  Esperanto havas nur du kazojn, t.e. nominativon, aŭ alivorte neakuzativon (per nulformo), kaj akuzativon (kun la finaĵo “-N”).  Kun la kazoj kaj vortospecoj, kaj analiza formo prepozitivo (se necese), Esperanto estas tiel esprimriĉa kiel aliaj fleksiegaj lingvoj.  La rusa estas unu el la lingvoj kurante plej fleksiriĉaj, kun 6 kazoj.  Estas ne malinspirante kaj ne malinterese kompari la rusan lingvon kun Esperanto tiurilate.  Proksimumedire, la unua kazo de la rusa respondas al nominativo de Esperanto, la dua kazo al adjektivo (kun la finaĵo “-A”), la kvara al akuzativo (kun la finaĵo “-[OJ]N”), kaj la kvina al adverbo (kun la finaĵo “-E”).  Nur la tria kazo ne havas sian respondan fleksian formon en la internacia lingvo kaj estas ansataŭata ĝenerale de la prepozicio “AL”.  La sesa kazo per si mem ne esprimas difinitan semantikan rilaton kaj funkcias nur kune kun la prepozicioj kiel “O”, “HA”, “B”.  Estas interese, ke en Esperanto prepozicioj povas esti sekvataj kaj de nominativo kaj de akuzativo, montrante nedirekton kaj directon respektive.  Kompare kun la simila uzo en la rusa lingvo, Esperanto estas multe pli simpla kaj perfekta. (Vd. APENDICON 3.)   

2.4.  En Esperanto estas sufiĉe libera vortordo

2.4.1  

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(ĉiuj permutaĵoj de tri elementojn)

2.4.2  

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi ŝatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
(plibone: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3 

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

Ĉi tie ni vidas, ke la malibereco sinmontras nur je la ordo inter artikolo aŭ prepozicio kaj ĝia ĉiam sekvanta rilata subsvantivo, tial, en la ĵuscititaj frazoj estas fakte 3 ordo-varieblaj elementoj: la (…) propono; de mi; proponita, kies permutado nombriĝas je 6.

2.4.4  Esperanto eĉ permesas tian uzadon:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

Certe, en la supraj du ekzemploj, multe helpas la poetika licenco, kiu povas, tamen, tiel libere kaj efike funkcii je vortordo nur kondiĉe, ke ĝi estu en iu treege milda lingvo kiel Esperanto kaj samtempe ke ĝi tute ne kontraŭu al la fundamenta gramatiko de la lingvo.

2.5.  La konjugacia sistemo de Esperanto (kvankam kun, tamen, la difekto supremenciita en 1.1.4.5.) kaj la tabelo de korelativaj vortoj de Esperanto estas mirindaj kreaĵoj.  Per la nura help-verbo EST- (kiu estas la plej grava analizaĵo en Esperanto!  Vd. 3.2.), oni povas bone esprimi analizforme diversajn kompleksajn tensojn kaj voĉojn.  (Sen la help-verbo, dank’ al la aglutineco de gramatikaj finaĵoj, oni ankaŭ egale pove ilin esprimas sintezforme.)  La tabelo de korelativaj vortoj estas eksterordinare riĉa kaj konciza por esprimi semantikajn rilatojn.  Ĝi estas tiel perfekta, logika kaj bela, ke ĉiuj esperantistoj spertas ĝian belecon, same kiel kemiistoj la belecon de la Mendeleeva tabelo de kemiaj elementoj.

2.6.  En Esperanto almenaŭ ĉiuj prepozicioj estas samtempe prefiksoj.  Do sekvas nature la granda fleksebleco je esprimado (vd. 2.1.7.). 

 

3.  ANALIZAJ KAJ SINTEZAJ FORMOJ

3.1. Alia elstara lingvistika trajto de Esperanto estas, ke ĝi havas la esencojn de kaj analiza lingvo kaj de sinteza lingvo, sufiĉe riĉante je kaj funkciaj vortoj kaj fleksiaĵoj.  Oni povas sin esprimi semantike aŭ per analiza formo (helpe de funkciaj fortoj) aŭ per sinteza formo (helpe de fleksioj). La du formoj, kompreneble, ne tute identiĝas. Ili sin montras diversastile. Pro tio, Esperanto estas elastega kaj esprimriĉa. Kiel celolingvo, ĝi povas plej bone imiti la lingvajn karakterizaĵojn de originala verko, ĉu la mildan slavan stilon kun libera vortordo, ĉu la stilon de fleksimankaj lingvoj, kiel la ĉina kaj angla. Sube estas kelkaj ekzemploj de ĉiea kaj ĉiutavola kunekzistado de analizaj kan sintezaj formoj en Esperanto:

Analizaj Formoj / Sintezaj Formoj

1. Tenso:

Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

2. Voĉo:

Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS.  Ĝi lim-IĜAS.  Ĝi SIN-limig-AS

3. Senco:

Tio estas MALGRANDA (ETA) sekreto. / Tio estas sekret-ETO.

4. Preposicioj kaj la kazo akuzativo aŭ vortospecoj -E aŭ -A:

Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).

la libroj DE mi / mi-AJ libroj

Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.

LAŬ mia opinio / miaopini-E

ridi JE iu / ridi iu-N

EN (JE) fakto / fakt-E

inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (adverbo sekvata de akuzativo!)

vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

5. Prepozicio kaj vorto:

finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(Por aliaj ekzemploj vd. APENDICON 3 kaj 2.1.7.)

3.2. Plej Gravaj Analizaj Formoj: Vorto EST- kaj Prepozicio

3.2.1. Nura Helpa aŭ Liga Vorto EST-

3.2.1.1. Verŝajnas, ke ne estas nocia senco en la vorto EST-, kiu, el la punkto de sinteza lingvo, tute ne necesas:

Ili ESTOS skrib-ITAJ ĉe la jarfino. –> Ili skribi-ITOS ĉe la jarfino.

Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. –> Ni ĝoj-AS ricev-INTI iliajn leterojn.

Vi ESTAS vere bonkor-AJ (vi en pluralo). –> Vi vere bonkor-AS (nombro nur certita en kunteksto).

Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato. –> Li profesor-IS (profesor-ADIS) en tiu universitato.

Tamen, ankoraŭ estas problemoj:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.

ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.

3.2.1.2. Kun la vorto EST-, kvankam nur unu, Esperanto treege riĉiĝas je esprimado per analiza rimedo! Alie, la lingvo havus tute alian aspekton, kiu tro konpaktus kaj malmildus, kaj kiu plejeble malakceptitus de homoj el la analizalingva tipo.

3.2.2. Prepozicio

3.2.2.1. Estas kutime akceptite en la lingvistika rondo, ke prepozitivo (aŭ prepozicia sintagmo = prepozicio + substantiva komplemento) estas esence ankaŭ ia kazo, kun la nura malsamo, ke prepozicio ĝenerale pli knokretas ol kazo. Fakte, prepozicioj mem enhavas variajn gradojn de konkreteco inter si, kiel ekzemple, komparu:

instituto JE lingvistiko –> instituto DE lingvistiko –> instituto PRI lingvistiko (plikonkretiĝas unu ol alia)

Estas kelkaj sufiĉe abstraktaj prepozicioj, kiuj efektive funkcias ĝuste kiel kazoj en iuj aliaj lingvoj, kiel JE/DE/AL/PRI/PER (vd. APENDICON 3). (Notu, ke la semantikoj de kazoj ankaŭ varias je abstrakteco.)

3.2.2.2. Kiel jam iom menciite en 2.3., adverbo (kun finaĵo -E) estas ankaŭ iu semantike abstrakta kazo. Sed, adverbo en Esperanto anaŭ povas indiki tiel konkretajn rilatojn kiel ajna prepozicio! Nur kondiĉas, ke la vortocorpo deriviĝas de radiko kaj prepozicioprefikso. Kp:

LAŬ (la) regulo(j) –> LAŬ-regul-E (kp. la pli abstraktan vorton: regul-E)

Estas multaj tiaj ekzemploj (vd. 2.1.7.). Fakte, oni povas libere intertransformi prepozitivon kaj ĝian respondan adverbon (kun la ofteapera artikolo LA ellasita).

3.2.2.3. Ĉar almenaŭ ĉiuj prepozicioj samtempe ankaŭ povas funkcii kiel prefiksoj (la ĉefa parto en la Esperanta prefiksaro!), la tiel nomata “grava ANALIZA formo” prepozicio vere estas egale unu el la plej gravaj SINTEZAJ formoj!

3.3. [SUMEO] En Esperanto ĉie kaj ĉiutavole videblas la kunekzitado de analiza kaj sinteza formoj, per kiu Esperanto sin diferencas de naciaj lingvoj. Kvankam ne ekzistas pura sinteza lingvo sen ajna analiza formo, nek pura analiza lingvo sen ajna sinteza formo, tamen ĉia nacia lingvo havas nur unu formon kiel la ĉefan: aŭ la analizan aŭ la sintezan, kaj almenaŭ ĉiu estas tia, ke la du formoj ne ekzistas samokaze.

4. TRAVIDEVLECO DE ESPERANTO

4.0.  Estas naturo de Esperanto, ke sufiĉe travideblas Esperantaj formoj (ĉu analizaj aŭ sintezaj, tamen, la analizaj formoj ŝajne ĝuas pli da travidebleco ol la sintezaj), kio estas certe unu el la plej elstaraj avantaĝoj kaj la ĉefa kialo por la facileco en la lernado de Esperanto, ĉar ono povas uzi malmultajn formojn (elementojn) por esprimi senlimajn informojn, aŭ analizi la akceptitajn formojn en elementojn por komprenado.

4.1. Ĉu Esperanto estas perfekte travidebla?

Ne. Kaj neniam povos. Kaj ankaŭ neniam necesos – almenaŭ por homa lingvo.

La antaŭkondiĉo por tutetravidebleco estas, ke ĉiu koncepto povus esti analizata en nombreblajn semantikajn atomojn aŭ semantikemojn (ĉu tio ja eblas? Referencu la progreson en la rondo de artefarita intelekto), kaj plue, ke la semantikemoj, kiam ili interkunligas, devus esti kompleksece homtolereblaj – tio certe ne povas ĉiam kontentiĝi, speciale por scienca fakotermino, kiu estas kutime tiel enhavo-riĉa kaj signifo-ekzakta, ke ĝia difino bone fariĝus iu plena disertacio. Tial, tia koncepto nur povas fiksiĝi en homan cerbon per iu fonetika formo, kies surfaca respondaĵo estas ne alia ol maltravidebla vorto! Aliflanke, plejmulte da scienca terminaro ĝuas internaciecon, do ŝajnas ne saĝe ĝin Esperantecigi eĉ eble, ekz., nombroscienco / matematiko, sed ĉu matematiko estas simple nombroscienco? (Vd. 4.4.)

4.2. Ĝuste kiel la kunekzistado de analizaj formoj kaj sintezaj, en Esperanto multokaze (sed alitavole, kompreneble), ankaŭ troviĝas la kunekzistado de la travideblaj kaj ne travideblaj formoj.

Pekino: Beijing
;ingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

Oni eĉ toleras tiajn tiel-nomatajn “ne-Esperantajn” vortojn kile “komputoro” kaj “komputero” en Esperanton!

4.3. Iuj plefote uzataj ĉiutagaj vortoj jam sinstabliĝas kiel travideblaj formoj, kio manifestas la fortan emon de Esperanto por Esperantecigi aliajn!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

Tamen, bonstila Esperanto neniam ekstremigasiun ajn rimedon, eĉ plej efikan kaj facilan:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4. Dilemo de Esperanto

4.4.1. Esperanto kiel internacia lingvo, celas la facilan komunikadon por la tuta homaro. Tamen, en la lingvopraktikado aperas la kontraŭo inter travidebleco (la lingva naturo de Esperanto) kaj internacieco (laa celo de Esperanto), kiu plej evidente sinmontras je la konstruado de terminoj. Rezulte, la vortaro de Esperanto estas multe pli vasta ol on atendis.

4.4.2. Esperanto kiel efika ilo por komunikado devas esiti, kaj efektive ja estas, sufiĉe kompakta, do venas la kontraŭo inter travidebleco kaj kompakteco. Fakte ju pli travideblas, des pli malkompaktas.

4.4.3. Kaj fine ankaŭ estas la kontraŭo inter travidebleco (sekve lernofacileco kun malmulte da elspezo de memoro kaj energio) kaj inkluziveco. Esperanto kiel scienca kaj portuthomara lngvo inkluzivus morfologie kaj sintakse ĉiujn efikajn lingvajn rimedojn, kio bezonas la kunekzistadon de variaj formoj, inkluzive de la maltravideblaj.

5. SUMO

5.1. La supre diritaj montras, ke ĝueste male al tio, kion oni subjektive dedukts, Esperanto estas treege fleksebla lingvo kun variaj esprimmanieroj, kiuj povas sin reciproke kompletiĝi kaj intertransformi, kaj la granda fleksebleco de la lingvo ĝuste konformas al la nebuleco de la homa pensado. Ĝi donas al homoj grandan liberecon je esprimado kaj la plej bonajn kondiĉojn por plene montri ilian lingvan kompetentecon. Aliflanke, ĝi ankaŭ enhavas tiel grandan tolerecon, ke eĉ komencantoj aŭ lingvo-nesaĝuloj povas facile kaj simple sinesprimi kompreneblige. Ĉi tio estas kampo konvena por ĉiuj, ĉu genioj ĉu malsaĝuloj. Tamen tia fleksebleco ne influas la rigoran neŝanĝeblecon de la fundamenta gramatiko de Esperanto. Ĉi tie la libereco kaj rigoreco ekzistas harmonie. En Esperanto, ĉiuj estas kreantoj kaj ĉiuj povas ĝui la plezuron de tia kreado. Oni ne plu estas sklavoj de lingvaj kutimoj. La granda harmonio de la fleksebleco kaj reguleco de Esperanto estas vere mirakla kreaĵo lingvistika.

5.2. Ecaro de Esperanto – Ŝlosilovortoj:

porhomeco / natureco / scienceco / reguleco / inkluziveco / toler(ebl)eco (elasteco) / aglutineco / matematikeco (kvazaŭrekursiveco) / logikeco / travidebleco (analizebleco) / fleksebleco

5.2.1. Proksimume ni havus: Fleeksebleco <– aglutineco (sekve travidebleco) kaj inkluziveco de variaj formoj (ĉu analiza ĉu sinteza; ĉu travidebla ĉu netravidebla); Reguleco kan scienceco <– matematikeco kaj logikeco.

5.2.2. El la punkto de toler(ebl)eco kaj la praktika informokomunikado, almenaŭ ĉiuj supraj ekzemploj kun ?? je la antaŭo estas tolereblaj, minimume kompreneblaj. Kompare kun naciaj lingvoj, tia tolereco estas multe pli elstara.

5.3. [KONKLUDO] La eksterordinara sukceso de Esperanto grandega miraklo en la historio de homaj lingvoj. Ĝi estas la venko de homa racio, la venko de lingvistiko! Estas nepovtroe laŭdite kaj fiere hurainde, ke en la inta lingva kampo, kie “ekutimo estas Dio”, fositas sulko por INTERNACIA LINGVO kiel contrasto al nacia lingvaro!

APENDICO 1

Ni citu kiel ekzemplon la radikon STUD- en formo de verboj kaj adjec=ktivoj, kan komparu ĝin kun la angla vorty STUDY.

Gramatikformoj por Radiko STUD- [angle: STUDY]

1. 42 verboj:

stud-I [to study]
stud-U [(let…) study]
stud-US [would (should) study / stud-IED / would have stud-IED / …]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let…) be study-ING]
stud-ANT-US [would be study-ING / …]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let…) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let…P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let…) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let…) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / …]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let…) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

(2)  28 adjektivoj

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

APENDICO 2

Algoritmo por Fortranĉi Finaĵojn de Esperanto

(1) Se la finaĵ estas -O, do konkludu “Substantivon / Nominativon / Singularon”, iru al (2); alie, iru al (11).

(2) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se sukcesas en konsulto al la vortaro, konkludu “Nulmodon/Aktivon”, finiĝu la prilaborado; alie, iru al (3).

(3) Se la finaĵo estas -ANT, do konkludu “Participon / Aktivon / Kontinuon”, iru al (9); alie, iru al (4).

(4) Se la finaĵo estas -INT, do konkludu “Participon / Aktivon / Perfekton”, iru al (9); alie, iru al (5).

(5) Se la finaĵo estas -ONT, do konkludu “Participon / Aktivon / Malperfekton”, iru al (9); alie, iru al (6).

(6) Se la finaĵo estas -AT, do konkludu “Participon / Pasivon / Kontinuon”, iru al (9); alie, iru al (7).

(7) Se la finaĵo estas -IT, do konkludu “Participon / Pasivon / Perfekton”, iru al (9); alie, iru al (8).

(8) Se la finaĵo estas -OT, do konkludu “Participon / Pasivon / Malperfekton”, iru al (9); alie, iru al (10).

(9) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se suksecas en konsulto al la vortaro, finiĝu la prilaborado; alie iru al (10)

(10) konkludu “Novavorton”, finiĝu la prilaborado.

(11) Se la finaĵo estas -A, do konkludu “Adjektivon / Nominativon / Singularon”, iru al (2); alie, iru al (12).

(12) Se la finaĵo estas -E, do konkludu “Adverbon / Nominativon”, iru al (2); alie, iru al (13).

(13) Se la finaĵo estas -OJ, do konkludu “Substantivon / Nominativon / Pluralon”, iru al (2); alie, iru al (14).

(14) Se la finaĵo estas -AJ, do konkludu “Adjektivon / Nominativon / Pluralon”, iru al (2); alie, iru al (15).

(15) Se la finaĵo estas -ON, do konkludu “Substantivon / Akuzativon / Singularon”, iru al (2); alie, iru al (16).

(16) Se la finaĵo estas -AN, do konkludu “Adjektivon / Akuzativon / Singularon”, iru al (2); alie, iru al (17).

(17) Se la finaĵo estas -EN, do konkludu “Adverbon / Akuzativon”, iru al (2); alie, iru al (18).

(18) Se la finaĵo estas -OJN, do konkludu “Substantivon / Akuzativon / Pluralon”, iru al (2); alie, iru al (19).

(19) Se la finaĵo estas -AJN, do konkludu “Adjektivon / Akuzativon / Pluralon”, iru al (2); alie, iru al (20).

(20) Se la finaĵo estas -AS, do konkludu “Verbon / Predikaton / Prezencon”, iru al (2); alie, iru al (21).

(21) Se la finaĵo estas -IS, do konkludu “Verbon / Predikaton / Preteriton”, iru al (2); alie, iru al (22).

(22) Se la finaĵo estas -OS, do konkludu “Verbon / Predikaton / Futuron”, iru al (2); alie, iru al (23).

(23) Se la finaĵo estas -US, do konkludu “Verbon / Predikaton / Kondicionalon”, iru al (2); alie, iru al (24).

(24) Se la finaĵo estas -U, do konkludu “Verbon / Predikaton / Volitivon”, iru al (2); alie, iru al (25).

(25) Se la finaĵo estas -I, do konkludu “Verbon / Infinitivon”, iru al (2); alie, iru al (26).

(26) La vorto ne havas finaĵon. Konsultu la vortaron pri funkciaj vortoj. Se sukcesas, konkludu “Funkcivorton”; alie, konkludu “Novavorton / Substantivon / Propranomon”. Finiĝu la prilaborado.

[KLARIGO] La supra algoritmo jam proviĝas tre efika ĉe maŝino.


APENDICO 3

La Kontrasta Tabelo por Kaza Sistemo






 

 

 

 

【相关】

灵感有如神授,巧夺岂止天工

世界语论文钩沉:世界语的语言学特点(3/3)

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

《学外语的紧箍咒,兼谈世界语的前途》

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

灵感有如神授,巧夺岂止天工

立委世界语论文:Lingvistikaj trajtoj de la lingvo internacia Esperanto(世运资料存档)

立委按:

这篇世界语论文是我一辈子的骄傲,当年文思泉涌一发不可收的情景仍然历历在目。作为一位世界语与语言学的新手,对这门语言的语言学特点的感悟和表达,能够受到誉满世界的语言学老前辈和世界语老编辑 Juan Regulo 的青睐和指点,既是我的幸运,也肯定了我的才能。20年后重读这篇洋洋洒洒一气呵成的论文,我仍能感受那文字的自由挥洒。原文影印如下,等有闲再电脑输入,既作为世界语运动的资料,同时也纪念早已逝去的风华岁月。

唉,人岁数大了,做好汉就难,总爱吹嘘当年之勇。找到一个吹嘘的题材,就可劲地自我陶醉吧。”灵感有如神授,巧夺岂止天工”,把大话说到天上去了,反正这篇冗长的世界语论文各位也看不懂,我爱怎么吹怎么吹。我的世界语朋友一般都很顾面子,我不担心穿帮,:=)。

不过,说实在的,那确是我一辈子创造力最旺盛精力最充沛的时期。伯乐识天马,天马欲行空,下笔似有神,灵感如泉涌。连续好几个周末,我都去社科院大楼加班到夜深,在电脑上奋笔疾书。论文总结了世界语有别于自然语言的极度灵活性的语言学根据,我就在成文的叙述中把这些特点发挥到极致。细心的读者也许可由此体会到青年立委的匠心和才情。

我在《朝华午拾: 一夜成为万元户》中记述过当时的情景:

研发世界语系统的第二个结果是,我发表在El Popola Chinio(中国报道)上的世界语语言学特点的粗浅论文引起了一个著名的西班牙教授 Juan Regulo 的注意。这位老先生是世界语界老前辈,在他的大学和城市威望极高,以他名字命名街道、广场等。正值他退休,学校决定给他出四大卷印制精美的专辑,表彰他的贡献。其中一卷是关于世界语学(Esperantologio)的论文专集,于是老先生邀请我在《中国报道》的论文(参见硕士论文的有关章节)基础上,扩展加工,单成一章。我文思泉涌,洋洋洒洒写了17页,有老先生来来回回多次校改修正,发表了我平生第一次的Book Chapter ” Lingvistikaj trajtoj de la lingvo internacia Esperanto”(发表时老先生已经过世,他的去世在国际世界语界引起很多纪念,老先生千古!)。

生造词
Posted by: 立委
Date: July 10, 2008 12:10PM

有很多生造词最终没有被语言共同体所接受,但是并不影响这些生造词在交流中的作用。生造词现象在自然语言中出现得少很多,而且一旦出现就常常受到老师或者同人的纠正。但是,世界语的灵活性使得人人都在生造,因此生造词对交际的正面功能加强了。这是个很有意思的现象。

在我发表在西班牙的世界语论文中,我不仅详细描述了这个现象,而且也现身说法,生造了很多词,差不多到了长袖善舞,随心所欲的程度。这篇论文经过世界语顶极元老,西班牙老教授的认真审阅,我的生造词多数得以保留。当年的那种创造快感,大概只有世界语者可以体会了:

世界语丰富的词缀和构词的黏合特性,从形式上给了语言使用者最大的弹性,只要在语境中 make sense, 使用世界语,几乎可以随心所欲,很能满足人 的创造欲:世界语的本性是鼓励“生造词”的。当然,在实际使用中,这种弹性更多表现在给人以造词的便利,而不是满足创造欲。如果我忘记了一个专门词汇,比如 komputero(电脑),临时生造一个 elektrona kalkulilo (电子运算工具:可以指计算器或电脑),也不妨碍我的交流。每一个使用过世界语的,都体会过这种便利和创造的乐趣。

摘自《朝华午拾:世界语之恋》

 

立委世界语论文:Li, Uej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

【置顶:立委科学网博客NLP博文一览(定期更新版)】 

《朝华午拾》总目录

《立委兄:我的弟弟叫立委》

【立委按】老哥的记忆力比我强多了,很多小时候的事儿,我本来已经很模糊了。但那次比赛吃五香鸡蛋,因为后果严重,实在太难受了,印象蛮深,现在想来还后怕。其后一个多月见到食品就想吐,不知道当年怎么会那样逞能不要命。大批判上台演讲慷慨激昂(批林批孔,后来是批邓反击右倾翻案风),突然来了鼻涕的丑事,也是因为太露面也太难堪,记忆深刻。当年不懂五讲四美,也没有卫生纸的条件,几千人的台上众目睽睽难以遮蔽,也是无奈。看老哥写自己,虽然不乏谬赞,但也有暴露开裆裤年代的“小”来。更多的往事是好玩,好像在看电影蒙太奇,那些“阳光灿烂的日子”。一晃半个世纪了,我们天各一方,但牵挂的总是手足亲情。

 

我的弟弟叫立委,从小性格内向少语,天性宽仁敦厚,身体瘦弱多病。独往独来,与世无争。他性格柔中带刚,肤白个小,很有意志力,十分倔强执着,有不达目的誓不罢休的毅力和恒心。

他穿戴邋遢,不修边幅,小时常常流着鼻涕,跟在我的身后。下河捉鱼摸虾,田野捕捉蛐蛐,上树套取知了,农家偷瓜摘莲,他一样不拉下。像一个泡泡糖一样粘着我,甩都甩不掉。

一旦兴奋起来,他个性十分张扬,眉飞色舞,开怀大笑,毫无顾忌。

弟弟小我两岁,但跟我同班。

一九六六年九月,文革风起,我八岁,刚念小学二年级。父母是双职工,很忙。外婆因出身问题被赶回农村,家里没人带孩子。于是要我带着六岁弟弟和四岁妹妹一起上学。弟弟和我在一班,妹妹去了一年级,算是上学了。

没想到,他们俩虽是各自班级最小的学生,但很快就跟上了班级课程进度,并都成为学习尖子。到小学三年级,我当班长时,弟弟已成为班级学习委员了。

弟弟有股不服输的劲头。记得有一年,我俩去乡下舅舅家。正逢过年时节,大家都很放松,舅舅们款待我们远道回老家来过年,食品丰盛,有我们的最爱,五香茶叶蛋。弟弟突发奇想,硬要与我比赛,看谁吃得多。他用极夸张的方式挑战,说一定会赢我。我当然不服气,欣然应允。先是我俩各吃四个油炸饺子,然后我剥一个五香鸡蛋塞到嘴里,他也立即拿一个狼吞虎咽。当我拿第十个鸡蛋时,肚子撑得快受不了,他却毫无畏惧把第十个鸡蛋迅速塞进嘴里,满脸涨红,身体挺直。最后,在拿第十五个鸡蛋时,我实在无法吞咽了。看他那无比坚强、有点扭曲的脸,真受不了他那为达目的不要命的劲头。我缴械投降,称臣认输。结果是,我们两人那几天都胃胀呕吐,疼痛难捱。

小时候下河游泳也是如此,他总是独行侠一样顺河而下,不游三四里不上岸。这哪是我们下河玩水嬉闹的游法?他却不以为然。下河就是为了锻炼身体,增强体质,在水中嬉闹有什么意义?泡在水里失去了游泳的初衷。他就是那么自我,那么固执,那么有主见。

他干什么都很专注,尽可能做到圆满。

小学时,他自学绘画。每天临摹,忙得不亦乐乎。忘我、执着、有定力,一头扎进去就不分昼夜。无师自通,画得有模有样。于是我家墙上,就有了他绘制的各种姿态的领袖像。

初中时,他跟着广播电台,自学英语。每天摇头晃脑,念念有词,那劲头比古代赶考的秀才还迂腐呆萌。后来拿出几篇他自译的英文小说,展示他的成果。弟弟一直是班级第一名。在比拼学业的“修正主义教育路线回潮”那一年半时期(周荣鑫做教育部长时1970年代早期),风光一时。

高中时,大家都不学习,他却把老爸年轻时自学的微积分教材拿出来啃读。躲进的小楼成一统,不闻不问窗外事。到高中毕业时,他已学完了那本教材。

弟弟虽不喜夸夸其谈,但却是演讲高手,这点让我既惊诧佩服又有点不服气。当年学校各种批判会,都有我的身影。但我在主席台上唾沫星四贱,卖力演讲时,下面却是交头接耳,吵杂声不断,无人听讲。每当那不多的几次,我弟弟上台演讲,不论什么枯燥话题,下面都鸦雀无声。他那抑扬顿挫的演讲,丰富夸张的手势,极富有激情和韵味,超有气场。没想到吧,我们这些平时乱成一锅粥,整天批判师道尊严的中学生,竟被他的发言深深吸引。甚至在台上,鼻炎严重的他,有时突然停顿,旁若无人地当众擤鼻涕,也成一大特色。演讲一结束,总会得到雷鸣般的掌声。弱小的他一上主席台,立即生龙活虎,完全变了个人。

弟弟文笔比我好得多,从小如此。作文常常被老师选做范文供同学们学习。记得初中时候他写了一篇学农作文,叫《采茶》,被老师选寄到省报登载,轰动学校。写诗,写散文,写批判文章,他甚至开始创作小说。尤其是大批判文章,也被他写得妙趣横生。给我印象较深的是一篇《狼狗、刘邓》的大批判杂文。他的文字机巧,情感细腻,佳句频出,有冲击力。弟弟有当作家的天赋。

中学时,我也爱舞文弄墨,特点就两字,空洞。文章看上去慷慨激昂,但显得苍白。按现在话说,充满正能量,但缺乏人性情怀,没有什么文字的优美。能吹嘘的也就是在《新安微画报》上,刊出我一张大幅照片。那是记者为表彰我校批林批孔运动的成绩,按排我摆拍的,和我本人实际上没半毛钱关系。

弟弟弱小,却斗志昂扬,总有使不完的劲儿。我们这届作为安徽最后一批下放知青,很多人已失去激情,在生产队干活,大多是三天打鱼两天晒网。七七年三月我们同时下乡,他下放在山村,我下放在水乡,分隔两处,他还是暗地和我较劲着。我从三月到九月一直在田地里干活。没回家,不串门,哪怕酷暑劳累的双抢时节,我也没一天休息。他知道后,也不回家,咬着牙,病弱的身体硬挺着,一天都没息工。直到双抢结束,瘫倒在地,才回家休息了几天。他身体从小病弱,这么拚命干啥?后来知道,除了要强比拼,他在村里还“艳遇”三个小芳姐妹,至始至终陪同。男女搭配,干活不累哈。

估计全年级二百多下放知青,只有我们两个傻帽,还在搞社会主义劳动竞赛呢。

不过他给我留下最难忘的事,倒不是这些,而是一件小事。那是我俩小时睡在一张床上的情景。

每到冬天,寒风四漏的小屋里,我的脚都被冻得难以入睡。弟弟提出把我脚放到他胸前,贴着皮肤取暖。我不同意,怕他孱弱的身体,经不起冰冷的刺激。但他坚持,很勇敢很坚定。我只得退一步,说把脚放在隔着衣服的胸口。但他不干,非让我把脚直接贴在胸前。那寒冻的脚和温暖胸一接触,弟弟打了一颤抖,我赶紧缩腿,但弟弟用双手压住我的脚,不让我离开。很快我的脚暖和了,而他胸前一片冰凉。

自此,我们经常互为对方用胸捂脚,互持互助,度过那严寒的冬夜。

七七年十二月份,我俩一起参加文革后第一次高考。他选择考理工科,我选择考文科。他的志愿是中科大理论物理专业,我的目标是北大、复旦国际政治专业。当年他数、理、化、语都比我好,而我呢?历、地两门课比他好。全国各省地理特点,全世界各国首都和元首我基本倒背如流。那本以农民起义为主线的伪中国历史,更是刻在脑海里。安徽七七年高考,文科、理工科,数学、政治、语文三张卷子是完全一样的,区别仅在于最后一张卷子。理工科考物理化学卷,文科考地理历史卷。

因长辈的历史经验和亲身经历,我的选择遭父母强力反对,最后我只得弃文改考理工了。我们信心都很足,弟弟更是志在必得,还特地加试了英语(那年文理都不要求考英语,只有报英语专业人才必考)。

考语文时,只有一篇作文。进考场三十几分钟,弟弟就兴高采烈交卷了。监考老师还认为他考不下去,退考了。而实际上是,他认为考题太容易,不需花那么久时间,作文一挥而就。

狂妄吧,只考了半个钟点就出来了。结果他语文作文跑题,考了个超低分,这让他悔恨五年多。

他数理化考分都比我高,加试的英语笔试也九十多分,口试优。进清华的实力,毁在自大粗心上。文革后第一次高考,各省试卷不同,录取程序也欠规范。他考的是理工科,因为报考志愿过高,被压档。最后被一所初办师范找到档案,英语系招不到人,于是把理工加试英语压档的他纳入囊中。当年文科那份史地卷,考后我找来一看,不复习也可考八十五分以上。而为理化我天昏地暗复习几个月,仍然不及格。

阴错阳差,他学了文科,我学了理工科。

七八年二月,录取通知发放。当年我们一个年级四个班,七七年十二月份那次考试,只有三个考上大学本科,我家独占两个名额,轰动小县城。

不过,我们家却是低气压,没有丝毫兴奋欢庆的氛围。我从文科改考理科,能考上南京的重点大学,全家那是相当的满意。而我弟弟呢,父母、老师、同学、邻居都寄予厚望,指望山城出个状元。他的失败,让全家都高兴不起来。弟弟更是把自己关在房间,饭也不吃。父母担心弟弟接受不了这现实,那几天老守着他。估计丢面子是他悲愤的主要原因,虚荣心、好胜心极强的他,感到无脸见人。他内心实在不愿去地方师范念书,栽在他擅长的语文上,他心也不甘呀。语文,他平时比我好很多,现在分却比我低不少。于是决定八月再考,只差半年时间。

这一决定遭我父母竭力反对。插队在农村,生活异常艰苦,有这么个机会能跳出农村,父母不愿放弃。他们怕政策有变。学校虽不昨的,也是个本科,他们连哄带压,逼着他去学校报了到。

那年早春,一九七八年三月,我二十,他十八。

至此,我俩各奔东西,天各一方。

 

【相关】

朝华午拾:永做毛主席的红小兵

朝华午拾: 与女民兵一道成长的日子

朝华午拾:我的考研经历

人生记忆:老爸-可怜天下父母心

朝华午拾 - 立委小传

朝华午拾集锦:立委流浪图

 

 

 

《【第一书】是世界语的“圣经”》

【立委按】人类文明史上简单即美的又一例证,虽然其前景不容乐观。但这毫不影响博士的天才光辉。“那美好的仗”,他已经打过了。简单即美的其他例证还有爱因斯坦的质能方程式,门捷列夫的元素周期表,以及乔姆斯基的“绿色思想”。

朋友分享了世界语(Esperanto)【第一书】的中译版,值得推荐:unua libro (中文版)。

这部称为“第一书”的文字,是世界语的“圣经”,神一般的创作。哪怕作为闲暇阅读,满足好奇心,你也不会失望,特别是于对语言的奥妙感兴趣的人士。

学过外语的人都会体会到掌握一门自然语言的繁难,这往往需要很多年的持续努力。由此来看世界语,其文法的简单易学以及其表达手段的丰富达到了难以想象的极致,原来语言可以如此简单而丰富!治大国如烹小鲜,柴门霍夫博士是治语言如玩魔术的大师。

我很清楚,大多数 人都有这样一个习惯,对于任何问题,越是难以捉摸和难以理 解,就考虑得越仔细。这样的人,见到如此简明的语法,规则 如此简单,如此明白易懂,总是喜欢给予轻蔑的眼光,却从来 不去想想这样一个事实——他们再略微思考一下就会明白—— 这种简化,从原本复杂的形式中提取每一项具体内容,形成所 能想象的最简单最容易的东西,实际上是我们要克服的最为难 以逾越的障碍。

主业为眼科大夫,柴门霍夫并不是(理论)语言学家,他是个精通语言灵魂的践行者,语言学爱好者。因此,他对语言手段的诠释,不像语言学家那样专业、严谨和高深。【第一书】以一种中小学老师的方式,简单直白,佐以各种例证。

如果剥离具体例证,人类的惯有偏见会把此书及其作者简单归于语言理想主义或乌托邦教主的类别,而往往无视一个独特天才几十年一步一个脚印的探索之路。柴门霍夫发明世界语,是烂熟于心几十年后才决定以【第一书】为标志,公诸于众,开启了100多年来遍及五大洲的世界语运动。世界语方案在核心词汇表的每个细节上的反复推敲,在文法形式极简化与表达丰富性上的拿捏,在逻辑性与可接受性上的平衡,使得它成为150多种国际语方案中唯一规模化推广幸存下来的人造语言,成为鲜活的“准自然语言”。

世界语的命运其实尚在不定之中。这是因为人工智能神经网络的革命性发展使得多语言之间机器翻译质量大幅度提高。作为随时可及的工具,机器翻译已经帮助人类部分实现国际交流。可以说,技术进步本身实现了世界语作为第二辅助语设计和推广的功能性初衷。从趋势上看,可以肯定的是,机器翻译的发展显然远远超越世界语的推广普及能力。

至于世界语的人文价值与柴门霍夫的社会大同理想,那是世界语运动背后的精神财富。逐渐失去功能性优势的世界语,是否可以借此生生不息,进而吸引更多的追随者,很难乐观。更大的可能是,世界语将作为各国小圈子爱好者的兴趣纽带而存续。

【第一书】在回顾批评前人的国际语方案时的评论,似乎自身也不幸被言中:

但是,热心者的人数增加到一定数量之后,就会不再增加; 同时,由于这个无情而冷漠的世界绝不会赞同费事辛辛苦苦地 同少数人交谈,这一努力就会像之前人们所作的那些努力一样 逐渐消失,不会取得任何实际成效。

为此,我不禁为以“希望者”(Esperanto,后成为世界语的代称)为笔名发布【第一书】的柴门霍夫感到些许伤感。无论人格还是才华,在我的心目中,柴门霍夫一直都是人类文明史上的圣人。

 

 

【相关】

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

Manlibro de Antaŭzorgo kaj Kuracado de COVID-19 (en Esperanto)

【Antaŭparolo】

Ĉi tio estas senprecedenca monda milito, kaj la homaro alfrontas la saman malamikon, la novan koron-viruson (COVID-19).  La unua batalkampo estas la hospitalo, kie niaj soldatoj estas la medicinaj laborantoj. Por certigi, ke ĉi tiu milito povas esti gajnita, ni devas unue certigi, ke al nia medicina personaro oni garantias sufiĉajn rimedojn, inkluzive de spertoj kaj teknologioj.  Ankaŭ ni devas certigi, ke la hospitalo estas la batalkampo, kie ni forigas la viruson, ne kie la viruso venkas nin. Tial la Jack Ma Foundation kaj Alibaba Foundation kunvenigis grupon da medicinaj spertuloj, kiuj ĵus revenis de la limregiono kontraŭbatalinta la pandemion. Kun la subteno de La Unua Asociita Hospitalo, Universitato de Medicina Lernejo de Zhejiang (FAHZU), ili rapide eldonis gvidlibron pri la klinika sperto pri kiel trakti ĉi tiun novan koronaviruson.

La kuracista gvidilo ofertas konsilojn kaj referencon kontraŭ la pandemio por medicinaj dungitoj en la tuta mondo, kiuj tuj aliĝos al la milito. Mia speciala danko eliras al la medicina personaro de FAHZU. Dum ili riskis kuraci kuracilojn per COVID-19, ili registris sian ĉiutagan sperton, kiu estas spegulita en ĉi tiu Manlibro. Dum la pasintaj 50 tagoj, 104 konfirmitaj pacientoj estis akceptitaj en FAHZU, inkluzive de 78 severaj kaj maltrankviligaj malsanaj. Dank ‘al la pioniraj klopodoj de medicina personaro kaj apliko de novaj teknologioj, ĝis nun, ni atestis miraklon. Neniu personaro estis infektita kaj ne mankis ajnaj diagnozoj aŭ mortaj pacientoj en la libro. Hodiaŭ, kun la disvastiĝo de la pandemio, ĉi tiuj spertoj estas la plej valoraj fontoj de informo kaj la plej grava armilo por medicinaj laborantoj en la unua linio.

Ĉi tio estas tute nova malsano, kaj Ĉinio estis la unua kiu suferis la pandemion. Izolado, diagnozo, kuracado, protektaj mezuroj kaj resaniĝo ĉiuj komenciĝis de nulo. Ni esperas, ke ĉi tiu Manlibro povas doni al kuracistoj kaj flegistinoj en aliaj trafitaj lokoj valorajn informojn, por ke ili ne devu eniri la batalkampon sole. Ĉi tiu pandemio estas tiu, kiun alfrontas la homaro en la epoko de tutmondiĝo. En ĉi tiu momento, dividi informon, rimedojn, spertojn kaj lecionojn, sendepende de kiu vi estas, estas nia sola ŝanco por gajni. La vera kuracilo por ĉi tiu pandemio ne estas izolado, sed kunlaboro. Ĉi tiu milito ĵus komenciĝis.

Parto Unu :Antaŭzorgo kaj Kontrolado

I. Izola Areo-Administrado

1 Febro-Kliniko

1.1. Aranĝo

(1) Kuracaj instalaĵoj starigu relative sendependan febran klinikon, inkluzive de ekskluziva unudirekta pasejo ĉe la enirejo de la hospitalo kun videbla signo;

(2) La movado de homoj sekvu la principon de “tri zonoj kaj du pasaj”: poluita zono, eble poluita zono kaj pura zono, provizitaj kaj klare demarkitaj, kaj du bufraj zonoj inter la poluita zono kaj eble poluita zono;

(3) Sendependa paŝo devas esti ekipita por poluitaj aĵoj; starigu vidan regionon por unudirecta liverado de eroj de oficeja areo (en eble poluita zono) al izolita sekcio (poluita zono);

(4) Normaj taŭgaj proceduroj estu normigitaj por ke medicina personaro surmetu kaj deprenu sian protektan ekipaĵon. Faru fluotabulojn de diversaj zonoj, havigu spegulojn kaj observu la marŝajn vojojn strikte;

(5) Specialaj personoj pri prevento kaj kontrolo de infektoj devas helpi  la medicinan personojn surmeti kaj forigi protektajn ekipaĵojn tiel, por preventi poluadon;

(6) Ĉiuj aĵoj en la poluita zono ne malinfektitaj ne estu forigitaj.

1.2 Ordigo pri Zono

(1) Starigu sendependan ekzamenan ĉambron, laboratorion, observan ĉambron, kaj revivigan ĉambron;

(2) Starigu antaŭekzamenon kaj sortan areon por plenumi antaŭlastan kribradon de pacientoj;

(3) Apartigu diagnozan zonon kaj kuracan zonon: tiuj pacientoj kun epidemiologia historio kaj febro kaj/aŭ spiraj simptomoj devas esti gvidataj en suspektatan COVID-19-pacientan zonon; tiuj pacientoj kun regula febro sed nenia klara epidemiologia historio gvidiĝos al regula febra pacienca zono.

1.3 Pacienca Administrado

(1) Pacientoj kun febroj devas porti medicinajn kirurgiajn maskojn;

(2) Nur pacientoj rajtas eniri la atendovicon por eviti supertuton;

(3) La daŭro de la vizito de la paciento estu minimumigita por eviti krucajn infektojn;

(4) Eduku pacientojn kaj iliajn familiojn pri frua identigo de simptomoj kaj esencaj preventaj agoj.

 

…………

 

Tradukado de la Angla Versio  , kun helpo je Google Translate

 

 

《女儿在新冠防疫的第一线》

立委按:

庚子真是多事之年啊。新冠疫情爆发至今三个月,从武汉开始蔓延,搅得周天寒彻。对这场突如其来的世纪灾难,我们从一开始就特别揪心,因为侄女就处在漩涡的最中心。她是武汉中心医院的医生,吹哨人李文亮的同事。面对呼啸而来的病毒,眼见同事一排排倒下,我们很难想象这几个月她是怎么度过的。那天我跟甜甜说,你知道你姐面对的是什么吗?她就在最惨烈的战场第一线,她的医院有大灾难的最早发哨人和吹哨人,为此牺牲了四位医生,200多员工感染。甜甜很认真地说:这与越战老兵类似,一定会有精神创伤,应赶紧寻求心理疏导的疗法(therapy)。告诉她,I am proud of her, and pray for her.  

侄女是个文静内向的孩子。平时忙于本职工作,医院和家两点一线,生活低调单纯。去年她妈妈的摄影老师给她拍了一组艺术照片,童话般画面,青春洋溢。我用苹果软件模版制成幻灯,她很开心。去年回武汉,送她一副苹果无线耳机,她也很喜欢。

没想到平静的生活突遇惊涛骇浪。这次在她身边发生的事情,已经震惊了全世界。三个月来,全世界华人和媒体密切关注疫情,聚焦在武汉。我们看得心惊肉跳,时时替她捏一把汗,但也不知道如何安慰和支持她。元月底我在微信中叮嘱她:

找时间休息 休息不足抵抗力会下降。只有靠自己照顾自己了。 总是让家人时时牵挂。希望外地增援医护人员早日开进去 让你们第一线本地人员有个喘息机会。也希望疫情高峰时期快快过去 武汉早日复苏。据说武汉高峰期快过去了 但外地包括北京的爆发高峰期很近了。

她说:谢谢 我觉得高峰期还有一段时间。

Tanya said she is very proud of you and also worried about you.  She prays for you.

她回了个笑脸,让我谢谢妹妹。

下面特别推荐老哥记下的这段煎熬日子的心路历程。哥嫂对这个宝贝女儿的牵肠挂肚,做父母的都可以想见。每一个上了一线的医护人员背后,都有整家人的担心和牵挂。

《立委兄:女儿在新冠防疫的第一线》

二月六日,李文亮医生不幸殉职,我的心一揪。
三月一日,江学庆医生与世长辞,我暗自流泪。
三月三日,梅仲明医生离开人间,我失声痛哭。
三月九日,朱和平医生默默去世,我欲哭无泪。

这不仅仅因为他们是这场全球灾难的最早吹哨人,也不仅因为他们是抗击病毒的英雄,而是因为他们都是我女儿的同事。他们的倒下,使我们益发难以抑制对远在千里之外的女儿的担心和牵挂。悲伤和恐慌开始在心中蔓延。

女儿是武汉中心医院后湖院区一线临床医生,一直在一线从事抗疫医务工作。好长一段时间,她对我们什么都不多说。 我们天天打电话问询,也未从她口中得知当时医院所面临的险境,更不知晓医院领导对医护人员防护工作的漠视。 她的回话总是:没问题,还好,一切均好,请放心,全是让我们宽心的话。                        

然而,女儿医院噩耗不断,四位医师相继去世,不能不引起我们极大的不安。我们对她所处的环境越来越怀疑和担忧。终于,网络上陆陆续续爆出一篇又一篇中心医院防疫之战的惨烈报道,我们这才意识到女儿曾经炼狱。内幕的揭示让我们看到中心医院管理层的渎职。官僚主义的长官,又要战士冲锋陷阵,又不给战士配足武器弹药。伤心滴血的中心医院一线医护人员,眼看身边同事一排排倒下,近三百人感染,仍顽强坚守阵地,有怨无悔,负重前行 。他们是一群最可敬的人。

上海名医张文宏说得好:“医务工作者,现在最缺乏的不是宣传,而是关心。我明确和大家讲。第一关心是防护,第二是疲劳,第三是工作环境,我觉得一定要跟上。如果跟不上,就说明没有把医务人员当人,只是当机器。让医护人员免于受伤害。没有防护,你可以拒绝上岗。最重要从来不是歌颂牺牲,而是避免战士无谓地牺牲。最好的歌颂,不是赞扬损己的利人,而是提倡不损己的利人。” 女儿要是有这样的的好领导,我们做父母的就会宽心很多。  

中心医院的后湖院区离华南市场最近,首当其冲。这所武汉三甲综合医院最早收治新冠肺炎病例,也是最早发现上报这次类似非典的病毒案例的。女儿也自然成为最早投入武汉抗疫一线工作的临床医师。

女儿新年前就知道医院接受了几例类式非典的病人,但她当时并不知道有无人传人的情况,只是凭直觉摧我们提前出发自驾海南度冬之行,并希望外公外婆也随同过去。 她告诉我们时,是小心翼翼的,反复叮嘱不得外传。医院已下令严厉禁止医护人员公开谈论不明肺炎情况。她也不知道这病况未来如何发展,她毕竟不是呼吸科,急症科,传染科的医生。在女儿的反复摧促下,我们元月一日提前开车离开武汉奔向海南。外公外婆在家待贯了,不愿长途跋涉。劝说不动,只好作罢。当时我们也没想到会发展到封城封省封国的境况,留下外公外婆在武汉让二老隔离煎熬这么久。 

到海南后,刚开始我们还是比较放松的。女儿值班后休假时都还去外公外婆处蹭饭蹭菜。到元月中旬,女儿突然决定不再去外公外婆家。她对我们说,工作比较忙,安全第一,暂不去外公外婆家,并反复强调,现在还好,只是预防,我们也就信了。现在想来,她医院的情况已经十分严重,当时已有医护人员感染。她在一线,开始大面积接触感染病人。安全防护装备也不足,她决定自我隔离,怕给外公外婆带去病毒。她妈听说她上了一线,着急得不行。

外公外婆并不比我们少担心。在孙女不上夜班的日子,每晚都必须给她打电话,否则两老就无法入睡。在进入隔离区之前,女儿最后一次去外婆家,外婆不知为何不舒服,走不了几步路就累得不行。女儿不敢让外婆去医院检查,怕交叉感染。在外婆午睡后给外婆做了全身触诊,得出结论外婆没大问题。外婆听了很安心。封城在家的时间,休养一段身体果然慢慢康复了。

本来春节前她已购机票要来海南和我们一起过年的。在封城前五天,她突然告诉我们,因工作需要她不能来过年团聚了,并立即退掉飞海南的往返机票,决定留守武汉。刚开始她内心想来是恐惧的。病人像潮水一样涌来,医护同事大面积感染,她能不害怕吗?但她从未对我们流露出一丝畏惧情绪。后来她说她太忙了,一忙就忘了。跟所有一线医护人员一样,职责所在,大家只想着如何拼力救人,能救一个是一个。封城前后,她一直避免对我们谈及她的工作境况,包括她在医院没日没夜连轴转的四十多天。她从未透露她们医院医护人员感染人数和隔离人数。李文亮去世后,我给她打电话追问,她才告诉我,她们主任也染上了,不少同事也中枪了,但她不让我告诉她妈妈,怕妈妈着急。我只有反复叮嘱她注意安全,小心再小心,除此之外,我真不知道还能做什么。无助、无奈,在女儿最危险的时刻,我们提供不了什么实质帮助。只有苦熬日子,默默祈祷女儿平安健康。

移动互联网的发展,封锁消息是很难的。很快她妈也从网上得知武汉中心医院的悲惨境况。担心女儿,挂念父母,追踪争辩疫情的各路报道,预测疫情的全球态势,成为我们家每天的节目。随着大量外地医护人员陆续到来,女儿这才接到指示,有机会隔离轮休了一次。恢复了一下疲惫不堪的身体,现在她又继续投入到第一线防治工作去了。

女儿低调,从不吐苦水。 只是疫情中期,她希望我们能向我的朋友们发出请求,呼吁给她们医院捐点医用防护物资。她们一线医护人员已经不得不用普通塑料袋包脚了。口罩缺,护目镜缺,防护服更缺。如果不是缺到特别严重,她是不会向我们求援的。我真的没想到一线医护人员防护物资会这么紧缺。后来看到网上出现大量医院的求援信息,我们才知道武汉市政府防护物资保障工作做得很差。从网上流出来的照片可以看到,许多医护人员几乎等于赤手空拳,在用血肉之躯筑起一道医治急性传染病的防火墙。 这到底是医护人员勇敢,还是领导干部的失职? 可气的是,都快弹尽粮绝了,中心医院某些领导仍拒绝个人捐助,只接受从红十字会发过来的物资。理由是个人捐助标准不统一,他们不要承担这样的风险。女儿与同事已顾不了这些清规戒律了,有总比没有好。于是她们工作之余开始上网四处求援,绕过领导,呼吁社会和个人捐献。 

我对她们医院一向无好感。女儿博士毕业四年,中级职称资格考试也通过两年了,医院就是不聘任,理由是需要论文。临床工作那么忙,值班接着值班,医生少病人多,忙得喘不过气来,累得女儿回家基本上是倒头就睡,哪有时间坐下来搞科研?临床医师重在大量病例的训练和临床经验的积累,把科研任务和临床工作混为一谈,让许多临床经验丰富和技术精湛的医生被论文卡住而评不上职称,这是很不公平的。一个以临床技能为核心的实践性职业,中级职称还设那么多坎,有点荒唐。在我们工程技术研究机构里,像她这样的资历的人早已经评上副高了。对于我的牢骚,她只是无奈的笑笑。她从不争辩,也从未对自己单位埋怨半句。就是这样一个与世无争的女孩,在疫情面前,表现得比我们都坚强。尽心尽责,从无怨言。 一个衣来伸手饭来张口的家庭公主,为怕感染家中年迈的外公外婆,现在一人独居在另一处。在劳累一天下班后,开车回宿舍自己洗衣打扫卫生,自己烧饭做菜。轮休期间常打电话,向我们请教中华料理的烹饪技术。电话里总是不忘叮嘱我们注意安全,关心外公外婆的身体,让我们大家放心。  

她爷爷从哪里看到的消息,从外地给她发微信说,中央很关心你们,伙食标准很高,每人每天两百元呢。我提及此事,女儿笑了笑,传来一张她正要吃的中歺盒饭照片。那个标准,我看了一下,往高说也不超过三十元吧。

 

(早歺热干面是旁边一家店给医院全体员工提供的)

前段时间,我让女儿拍些工作照片,讲讲她工作中的困难和发生在她身边的故事。她说现在没时间用护肤品,形象不好,不适宜拍照。实际上她是怕我们看到她被防护面罩压迫留下的满脸勒痕,不想让我们着急。在我们再三要求下,女儿最近勉强发了几张工作照。看着那满脸皱褶,满是勒痕的双手,我们心痛。厚重的防护服下弱弱的身影,想想都知道,工作下来整个身体一定都是湿漉漉的。几个月的苦战,如何承受这高强度工作压力?夜深人静,望着满病房里在死亡线上挣扎的病人,又得承受多大的精神压力?这些非人的日子,女儿是怎么熬过来的。

万幸的是,到目前为止她还没有中枪感染,这是我们最大的安慰! 我跟她说万幸,她却冷静地说,什么万幸?可能我早已被感染,只不过是轻症,自愈了还有了抗体。早期什么防护都缺,不传染都很难,就看谁扛得住了。她说得很轻松,我听得很惊悚。

是啊,她的老师,她的同事,她的领导,纷纷有人倒下,四位兄长无力回天。她没倒下,是上帝的眷顾,还是病毒体谅我们的父母之心,我们不知道。虽然现在是疫情后期,虽然防护措施也加强了,但做父母的我们依旧提心吊胆,晚上睡不着觉。 

但愿噩梦早日过去,但愿一切恢复到平常。 疫情会结束,磨难会过去,但我们一定不要去赞美苦难,美化伤痕。多难兴邦,苦难练人,那是大话。老百姓就希望一家团团圆圆,一生过得平安。

 

 

【相关】

武汉市中心医院这么多医护人员被感染,到底发生了什么?

武汉中心医院辟谣怎么回事, 武汉中心医院辟谣说了什么事件始末详情曝光

武汉中心医院医护人员感染始末:接触病人推测可能人传人 上报被批造谣

武汉市中心医院:封口比医生的生死更重要

一家 “遍体鳞伤”的武汉三甲医院

方方:引咎辞职,从中心医院的书记和院长开始

四人殉职,四人濒危——武汉中心医院“至暗时刻”

发哨子的武汉中心医院女医生

院长的媚骨与风骨

武汉市中心医院医生:传染病留给大家反应的时间太短了

时间线|武汉市中心医院经历了什么?

比尔盖茨论新冠: 如何应对COVID-19

比尔盖茨论新冠

如何应对COVID-19

在任何危机中,领导者都有两个同等重要的责任: 解决眼前的问题,并防止它再次发生。COVID-19大流行就是一个很好的例子。世界现在需要拯救生命,同时也需要改善我们应对疫情的方式。第一点更为紧迫,但第二点有着至关重要的长期影响。

长期的挑战——提高我们应对突发事件的能力——并不是什么新鲜事。全球卫生专家多年来一直说,与1918年流感疫情的速度和严重程度相匹敌的另一场大流行不是“如果”而是“何时”的问题。近年来,比尔和梅琳达•盖茨基金会(Bill & Melinda Gates Foundation)投入了大量资源,帮助世界为这种情况做准备。

现在,除了长期存在的挑战之外,我们还面临着一场迫在眉睫的危机。在过去的一周里,COVID-19开始表现得很像我们一直担心的那种百年一遇的病原体。我希望情况没有那么糟糕,但我们应该假设情况会如此,直到我们知道情况并非如此。

COVID-19之所以是一种威胁,有两个原因。首先,它可以杀死健康的成年人和存在健康问题的老年人。迄今为止的数据表明,该病毒的病死率在1%左右;这一比率将使其比典型的季节性流感严重数倍,并将其置于1957年流感大流行(0.6%)和1918年流感大流行(2%)之间。

第二,COVID-19传输非常有效。一般受感染的人会传染给另外两三个人。这是一个指数增长率。也有强有力的证据表明,它可以由那些只是轻度患病或甚至尚未出现症状的人传播。这意味着COVID-19将比中东呼吸综合征或严重急性呼吸综合征(SARS)更难控制,后者仅由表现出症状的人传播,传播效率也低得多。事实上,COVID-19在短短四分之一的时间内就已经造成了十倍于SARS的病例。

好消息是,国家、州、地方政府和公共卫生机构可以在未来几周内采取措施减缓COVID-19的传播。

例如,除了帮助本国公民作出反应外,捐助国政府还应帮助低收入和中等收入国家为这一流行病做好准备。这些国家中的许多国家的卫生系统已经不堪重负,而冠状病毒等病原体可以迅速将它们吞噬。鉴于富裕国家把本国人民放在首位的自然愿望,较贫穷国家几乎没有政治或经济影响力。

“通过帮助非洲和南亚国家现在就做好准备,我们可以拯救生命,也可以减缓病毒的全球传播。”

通过帮助非洲和南亚国家现在就做好准备,我们可以拯救生命并减缓病毒的全球传播。(我和梅琳达最近承诺帮助启动全球应对covid -19的行动,总额可能高达1亿美元,其中很大一部分资金专门用于发展中国家。)

世界还需要加速推进针对COVID-19的治疗和疫苗的工作。科学家们能够在几天内对病毒基因组进行排序,并开发出几种有希望的候选疫苗,而流行病防备创新联盟(Coalition for Epidemic备灾创新联盟)已经准备了多达8种有希望的候选疫苗进行临床试验。如果这些疫苗中的一种或多种在动物模型中被证明是安全有效的,它们可能最早在6月就可以进行大规模试验。药物发现也可以通过利用已经进行了安全性测试的化合物库和应用新的筛选技术(包括机器学习)来识别可在几周内准备进行大规模临床试验的抗病毒药物来加速。

所有这些措施都将有助于解决当前的危机。但我们也需要做出更大的系统性改变,以便我们能够在下一次疫情到来时更有效地做出反应。

帮助低收入和中等收入国家加强初级卫生保健系统至关重要。当你建立一个健康诊所时,你也在为抗击流行病建立基础设施。训练有素的卫生保健工作者不仅提供疫苗; 它们还可以监测疾病模式,作为预警系统的一部分,向全世界发出潜在疫情的警报。

世界还需要在疾病监测方面进行投资,包括建立一个病例数据库,相关组织和规则可立即访问该数据库,这些组织和规则要求各国共享其信息。各国政府应能获得训练有素的人员名单,从地方领导人到全球专家,他们已准备好立即对付一种流行病,以及在紧急情况下需要储存或重新调拨的用品清单。

此外,我们需要建立一个系统,能够开发安全有效的疫苗和抗病毒药物,获得批准,并在发现快速传播的病原体后的几个月内提供数十亿剂。这是一项艰巨的挑战,存在技术、外交和预算方面的障碍,也需要公共部门和私营部门之间的合作。但所有这些障碍都是可以克服的。

疫苗的主要技术挑战之一是改进制造蛋白质的老方法,这种方法对流行病的反应太慢了。我们需要开发可预见的安全平台,以便能够迅速进行监管审查,并使制造商能够轻松地以低成本大规模生产剂量。对于抗病毒药物,需要有一个有组织的系统以快速和标准化的方式筛选现有的治疗方法和候选分子。

另一个技术挑战涉及到基于核酸的构造。这些构造可以在病毒基因组测序后数小时内产生; 现在我们需要找到大规模生产的方法。

除了这些技术解决方案,我们还需要外交努力来推动国际合作和数据共享。开发抗病毒药物和疫苗涉及大规模的临床试验和跨越国界的许可协议。我们应该充分利用能够帮助就研究重点和试验方案达成共识的全球论坛,以便有希望的疫苗和抗病毒候选药物能够迅速通过这一进程。这些平台包括世界卫生组织研发蓝图、国际严重急性呼吸系统和新发感染联盟试验网络和全球传染病防备研究协作。这项工作的目标应该是在不危及患者安全的情况下,在三个月或更短的时间内获得结论性临床试验结果和监管批准。

“这些努力的预算需要扩大好几倍。”

然后是资金问题。这些努力的预算需要扩大好几倍。还需要数十亿美元来完成III期试验并确保冠状病毒疫苗获得监管批准,还需要更多资金来改善疾病监测和应对。

为什么这需要政府的资助——私营部门不能自己解决这个问题吗?大流行产品是非常高风险的投资,制药公司将需要公共资金来降低他们工作的风险,并让他们全身心投入。此外,各国政府和其他捐助者将需要提供资金,作为一个全球公共良好生产设施,可以在几周内产生疫苗供应。这些设施可在正常时期为常规免疫规划生产疫苗,并可在大流行期间迅速改装投入生产。最后,各国政府将需要为采购和向需要的人群分发疫苗提供资金。

显然,数十亿美元用于抗击流行病的努力是一大笔钱。但这是解决问题所需的投资规模。考虑到流行病可能带来的经济痛苦——只要看看covid19扰乱供应链和股票市场的方式就知道了,更别提人们的生活了——这将是一笔好买卖。

最后,政府和产业界需要达成一项协议: 在大流行期间,疫苗和抗病毒药物不会简单地卖给出价最高的竞标者。它们将为处于疫情中心和最需要帮助的人提供并负担得起。这不仅是正确的做法,也是短路传播和预防未来大流行的正确策略。

这些是领导人现在应该采取的行动。没有时间可以浪费了。

这篇文章最初发表在《新英格兰医学杂志》的网站上。我在那里写了2015年建立全球大流行应对系统的必要性,以及2018年一种新型呼吸道病毒造成的威胁。

有道机器翻译 from

https://www.inc.com/justin-bariso/bill-gates-elon-musk-just-issued-very-different-responses-to-coronavirus-its-a-lesson-in-emotional-intelligence.html

 

《人生记忆:老爸-回忆文革40周年》

我的人生回忆&ldquo;风雨几春秋&ldquo;续篇之三:回忆文革40周年

立委父

1966年中共中央&ldquo;5.16&rdquo;通知下达后,让全国人民&ldquo;朦&rdquo;了,国家发生了什么?所谓&ldquo;四大&rdquo;(大鸣、大放、大字报、大辩论)铺天盖地充斥全国城乡各个角落。6月1日人民日报发表社论,&ldquo;横扫一切牛鬼神&rdquo;,连篇累牍,兴师动众,刹时暴风骤雨、如火如荼。

直到&ldquo;炮打司令部_我的一张大字报&ldquo;出笼后,事主之&ldquo;司马昭之心&rdquo;昭然若揭,打倒中国&ldquo;赫鲁晓夫&rdquo;。然高层内幕有谁知晓?一言九鼎之&ldquo;红太阳&ldquo;把全国人民带入一场政治游戏泥潭之中,随之而来的&ldquo;文斗&rdquo;、&ldquo;武斗&rdquo;硝烟弥彻中华大地,煞有介事地陷入一场没有&ldquo;敌军&rdquo;的&ldquo;人民战争&rdquo;,真的是运动群众了。

此时正值&ldquo;深挖洞,广积粮,不称霸&rdquo;、备战备荒为人民,我被派往何湾创建一所&ldquo;战备医院&rdquo;。按当时反动&ldquo;血统论&ldquo;理念,对于我这样非&ldquo;红五类&rdquo;出身的人,料定是整肃对象。然,我逃出人声鼎沸的县医院,在这难得的世外桃源,躲过一劫。

我对这场莫名的&ldquo;运动&ldquo;和后来演变成全国性武斗格杀,没有兴趣和热情,也因为出身不&rdquo;硬&ldquo;,有点&rdquo;明哲保身&ldquo;,自己又处于事业初期,所以我,不&rdquo;抓革命&ldquo;,只&rdquo;促生产&ldquo;,埋头看书、开刀,日夜兼程,既治病又治伤,练就手术本领。

说说当时&ldquo;运动&ldquo;之深度、广度,我的三个孩子是4、6、8岁,我下乡,他们没有幼儿园上,老大、老二就一把掳进一年级,不久,停学闹革命,这些娃娃们没事干,也跟着大人&ldquo;革命&rdquo;了,老大也领着他们小伙伴,成立&rdquo;匕首&ldquo;小分队&rdquo;革命组织&ldquo;,被推任为&ldquo;司令&rdquo;。全社会无政府状态,没有任何人来管他们,老师、家长也不敢干预&ldquo;革命&rdquo;,居然,他们有自己的队旗、袖章、公章和办公室(记得那时上二年级的老大为此独自去县城刻章、做旗、串连、取经,住在他同学、好友杨国民家),也上街搞&ldquo;四大&rdquo;,还造他们校长的反,真的像模像样,光荣地自称&ldquo;我们是毛主席的红小兵,要让江山万年红、代代红&ldquo;(见《朝华午拾 -永做毛主席的红小兵》)。荒诞的岁月,造就奇事、怪才,这9岁的娃娃,也能独闯江山闹革命,超过了当年我11岁那次&ldquo;鸡毛信&rdquo;(见《人生记忆-风雨几春秋》)。

67年,弟弟妹妹趁着哥哥这司令,也挤了进去,人家贴大字报,他俩拎浆糊桶;人家造反,他俩听得也起劲。仨兄妹带上红袖章,英姿飒爽的风采(相片),40年啦,依然让人难忘当年的那场政治游戏。

&ldquo;革命&rdquo;闹了一年多,时至1967年夏,全社会瘫痪了,医院里的一派&ldquo;扫黑线&rdquo;,外出&ldquo;革命大串连&rdquo;;守家的另一派&ldquo;批联部&rdquo;,不能支撑开诊,尤其是外科,该派头头们就令当局将我从的乡下调回(原本我下乡一年,后来革命乱了没人管,至此我已离院一年半了,然我正好&ldquo;蛰居&rdquo;安稳。)主持外科病房工作。

武斗,就有&ldquo;人为&rdquo;伤员,让我有用武之地,为此,受到&rdquo;敌对&ldquo;双方的重用和保护。我&rdquo;安分守己&ldquo;,钻研业务,提高技术,成为名震一方&ldquo;一把刀&rdquo;、生命的守护神,多救了不少病弱,减少不少无辜因&ldquo;革命&rdquo;的牺牲者,真的功德无量。于公于私,两利双赢。

我仍然坚守&ldquo;不革命、只生产&rdquo;的自定准则和底线。不是我胆小怕事,当时,压根就没有悟出&ldquo;斗争&rdquo;有何价值?牺牲更不值得。发疯似的全国大宣传,也没能让我心服!但也只能消极怠慢,不敢顶撞,那是一场&ldquo;史无前例&rdquo;的政治高压,螳臂当车,不啻是自取灭亡。

那时光,人像疯了一样,昏天黑地,挂牌、游街、戴高帽、搞喷气式,除了地、富、反、坏、右这些阶级敌人,还有共产党的各级大小当权派,都是打击对象。多如牛毛的&ldquo;革命&rdquo;组织,&ldquo;无法无天&rdquo;,都声称&ldquo;悍卫毛泽东思想&rdquo;,后来大致都发展成对立的两派,各立据点,抡枪抡炮,真枪真弹,就我们那个小小的县城,武斗中就死了10个人,都是青年学生和工人,恒古没有结案,不了了之。这,何止是&ldquo;触及灵魂&rdquo;,更泯灭其躯体,真的攸关黎民百姓身家性命。然而人们的&ldquo;热情&rdquo;是空前绝后,火药味极浓,夫妻反目,父子成仇,前赴后继,死而后已。而我却&ldquo;无动于衷&rdquo;,虽然我也被卷进&ldquo;批联部&rdquo;一派,但连派会我也极少参加,更何况文斗、武斗,好友们戏称我是&ldquo;逍遥派&rdquo;。

1967年夏秋之交,武斗正酣,&ldquo;工事、战壕&rdquo;遍布,俨然是一场&ldquo;人民战争&rdquo;,处处是战场,枪声、炮声,弹痕累累,造反派可随意抓人、关人甚至杀人,一抹&ldquo;红色恐怖&rdquo;。武斗跟文斗不同,语言罪,文字狱,虽可无端,但还得批呀、斗呀。而武斗那怕是一人也可向你下手,让你瞬遭不测,人身安全,全无保障,比战乱更可怕,此乃知情人之间内讧,外加冷枪流弹,我虽素来与人为善,人缘不错,但也胆战心惊,人人自危。

一天傍晚时分,&ldquo;批&rdquo;派一个&ldquo;便衣女战士&rdquo;从我家后门直冲我内室,从鞋底里抠出一张纸条,是该派浦司令的手令,让我火速赶去大本营&ldquo;救人&rdquo;。当然是&ldquo;天命&rdquo;了(一则天命不可违抗,二则救人不得迟疑,再则保己也无二选),立马出家,可我家是&ldquo;扫&rdquo;派阵地,敌对双方,哪能包容此举,(就是正式战场上,还容&ldquo;红十字&rdquo;救人。)所以我的这一出诊,也是一次冒险。好在一出门,就有&ldquo;便衣&rdquo;一队护卫,以防堵截,火速抵达目的地。

一位中学生红卫兵战士受伤,子弹穿右胸伤肺致血气胸,诊断需X线检查,循着自己一派的后方送,专车直去泾县晏工煤矿医院,就地给予胸腔闭式引流,我,全程主治和护理,总算救回一命。

又一次是在我们院的扫派伤员,右股动脉子弹伤,患肢全无血供,苍白、灰冷,要是在6小时内手术修补,完全可以保肢,为争取这一时限,我奔走呼号,找派头头和院领导,终因种种原因而误时,高位截肢致残,可惜可悲。

还有一次是批派后方一家属难产,无处就医,乡里乡亲的,一个县城几十年相处,大都是熟人甚至过从,找了我,没办法,从院里悄悄地取出消毒包和器械,就在患家堂前大桌上作了剖腹产,救了母子。

武斗激烈时,医生和病人都不敢在病房里(人人总有敌对一派),自然散伙停诊,遇上急腹症,我只得携着病人,到处找地方开刀。一例阑尾炎带到弋江手术的,一例疝气跑到何湾开的刀。寻找一切可能的条件,为病人治病手术了。

何湾区委书记唐文秀,与我可谓至交,胃溃疡出血,无法输血,药品极为短缺,治疗条件极为简陋和不足,我给作了胃切除,术后6天,他就吵着要出院,并善意邀我一道到他乡下的家避一避,躲避风险。因为他是正中的当权派,在造反派眼中他当然是揪斗对象,他,闯过疾病关,只怕躲不过政治关,朝夕自危。重现当年地下游击战争年代&ldquo;风范&rdquo;。终于刀口没拆线就溜号了。若干年后,我们笑谈这一幕,不胜感慨。

此间,为武斗中伤员作过肺修补、肝修补、肠切除、骨、血管等手术。基本无死亡,拯救了不少生命。这不,特定的环境下,出给外科医生的课题,是十分严峻而苛刻的,40年前,就这样,逼出来我们这批&ldquo;全科医生&rdquo;,造就出这些&ldquo;全能医生&rdquo;,一切求教于书本,现贩现卖,时势造&ldquo;英雄&rdquo;!

【关于舆情挖掘】

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

       Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season’s sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

《朝华午拾》总目录

【关于立委NLP的《关于系列》】

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

立委NLP相关博文汇总

NLP University

【立委NLP相关博文汇总一览】

NLP University 开张大吉

《朝华午拾》总目录

余致力自然语言处理(NLP,Natural Language Processing)凡30年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积30年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于大数据挖掘】

【关于知识图谱】

【关于舆情挖掘】

【关于问答系统】

【关于机器翻译】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

1. 关于NLP体系及方法论

【立委科普:NLP 联络图 】

【立委科普:自然语言系统架构简说】

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】

泥沙龙笔记:漫谈语言形式

Notes on Building and Using Lexical Semantic Knowledge Bases

NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈

《立委科普:语言学的基本概念》

《立委随笔:通天塔不是一日建成的》

科研围脖:再谈查全率和大海捞针

与老前辈谈 NLP 及其趋势

【立委随笔:NLP 的童子功】

说说科研立项中的大跃进

中餐大厨和技术匠人

【李白对话录:谁无知呢?】

学科有高低,事业分档次

《泥沙龙笔记:沾深度神经的光,谈parsing的深度与多层》

【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】

《OVERVIEW OF NATURAL LANGUAGE PROCESSING》

《NLP White Paper: Overview of Our NLP Core Engine》

White Paper of NLP Engine

《泥沙龙笔记:deep,情到深处仍孤独》

《泥沙龙铿锵三人行:句法语义纠缠论》

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

【立委科普:本体知识系统的发展历程】

Notes on Building and Using Lexical Semantic Knowledge Bases

NLP 是什么,不是什么?做什么,不做什么?

【新智元笔记:工程语法和深度神经】

【新智元笔记:李白对话录 – RNN 与语言学算法】

《新智元笔记:再谈语言学手工编程与机器学习的自动编程》

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记:【Google 年度顶级论文】有感》

《新智元笔记:NLP 系统的分层挑战》

《泥沙龙笔记:连续、离散,模块化和接口》

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

立委科普:NLP 中的一袋子词是什么

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

立委科普:关键词革命

立委科普:关键词外传

《立委随笔:机器学习和自然语言处理》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

《立委随笔:语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

why hybrid? on machine learning vs. hand-coded rules in NLP

Why Hybrid?

钩沉:Early arguments for a hybrid model for NLP and IE

【李白对话录:你波你的波,我粒我的粒】

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

泥沙龙笔记:铿锵三人行

《泥沙龙铿锵三人行:句法语义纠缠论》

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

再谈机器学习和手工系统:人和机器谁更聪明能干?

乔姆斯基批判

Chomsky’s Negative Impact

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【新智元笔记:语法糖霜论不值得认真对待】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【Church – 钟摆摆得太远(2):乔姆斯基论】

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(3):皮尔斯论】

【Church – 钟摆摆得太远(4):明斯基论】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

自给自足是NLP王道

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

语言创造简史

Notes on Building and Using Lexical Semantic Knowledge Bases

【NLP主流成见之二,所谓规则系统的移植性太差】

Domain portability myth in natural language processing (NLP)

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

坚持四项基本原则,开发鲁棒性NLP系统

NLP 围脖:成语从来不是问题

NLP 是一个力气活:再论成语不是问题

立委围脖:对于用户来说,抓住老鼠就是好猫

《科普随笔:keep ambiguity untouched》

【科研笔记:NLP的词海战术】

在构筑一个模型时,枚举法是常用的必要的强盗分类

没有语言学的 CL 走不远

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

手工规则系统的软肋在文章分类

老教授回函:理性主义回摆可能要再延迟10几年

每隔二十年振荡一次的钟摆要多长?

【系统不能太精巧,正如人不能太聪明】

《泥沙龙李白对话录:关于纯语义系统》

【泥沙龙笔记:语义可以绕过句法吗】

一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路

《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》

【新智元笔记:反伊莉莎效应,人工智能的新概念】

The Anti-Eliza effect, New Concept in AI

《新智元笔记:机器的秒杀人类和霍金的杞人忧天》

【新智元笔记:强弱人工智能之辩】

【泥沙龙笔记:强人工智能的伟哥测试】

重温AI历史上的思维实验:老外不会中文,正如机器没有理解

《语义三巨人》

【泥沙龙笔记:吃科学的饭,还是技术的饭?】

《立委随笔:人工“智能”》

人机接口是机器人的面子

《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》

【泥沙龙笔记:从民科谈到五代机及其AI历史与现状】

【泥沙龙笔记:吃科学的饭,还是技术的饭?】

SBIR Grants

2. 关于NLP分析(parsing)

【语言学小品:送老婆后面的语言学】

【一日一parsing:NLP应用可以对parsing有所包容】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】

语义计算沙龙:parsing 的鲁棒比精准更重要】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家,机器学习不给力】

《泥沙龙笔记:狗血的语言学》

【deep parsing 小品:天涯若比邻的远距离关系】

《有了deep parsing,信息抽取就是个玩儿》

语义计算沙龙:关于汉语介词的兼语句型,兼论POS】

泥沙龙笔记:在知识处理中,很多时候,人不如机

《立委科普:机器可以揭开双关语神秘的面纱》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

泥沙龙笔记:语言处理没有文法就不好玩了

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【立委科普:自然语言理解当然是文法为主,常识为辅】

语义计算沙龙:从《知网》抽取逻辑动宾的关系】

【立委科普:教机器识英文】

【立委科普:及物、不及物 与 动词 subcat 及句型】

泥沙龙笔记:再聊乔老爷的递归陷阱

【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

泥沙龙笔记:儿童语言没有文法的问题

《自然语言是递归的么?》

从 colorless green ideas sleep furiously 说开去

Parsing nonsense with a sense of humor

【科普小品:文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论 以及各式树形图表达法

【泥沙龙笔记:依存语言学的怪圈】

【没有语言结构可以解析语义么?浅论 LSA】

【没有语言结构可以解析语义么?(之二)】

自然语言中,约定俗成大于文法教条和逻辑

泥沙龙笔记:三论世界语

泥沙龙笔记:再聊世界语及其文化

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记:NLP component technology 的市场问题》

【泥沙龙笔记:没有结构树,万古如长夜】

Deep parsing:每日一析

Deep parsing 每日一析:内情曝光 vs 假货曝光

Deep parsing 每日一析 半垃圾进 半垃圾出

【一日一parsing: 屈居世界第零】

【研发随笔:植树为林自成景(10/n)】

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

语义计算沙龙:植树为林自成景(40/n)】

【deep parsing 吃文化:植树为林自成景(60/n)】

【deep parsing (70/n):离合词与定语从句的纠缠】

【deep parsing (80/n):植树成林自成景】

【deep parsing (90/n):“雨是好雨,但风不正经”】

【deep parsing (100/n):其实 NLP 也没那么容易气死】

3. 关于NLP抽取

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

泥沙龙笔记: parsing vs. classification and IE

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

Coarse-grained vs. fine-grained sentiment extraction

【立委科普:基于关键词的舆情分类系统面临挑战】

【“剩女”的去向和出路】

SBIR Grants

4.关于NLP大数据挖掘

“大数据与认识论”研讨会的书面发言(草稿)

【立委科普:自动民调】

Automated survey based on social media

《立委科普:机器八卦》

言多必露,文本挖掘可以揭示背景信息

社媒是个大染缸,大数据挖掘有啥价值?

大数据挖掘问答2:会哭的孩子有奶吃

大数据挖掘问答1:所谓数据完整性

为什么做大数据的吹鼓手?

大数据NLP论

On Big Data NLP

作为公开课的大数据演讲

【立委科普:舆情挖掘的背后】

【立委科普:所谓大数据(BIG DATA)】

【科研笔记:big data NLP, how big is big?】

文本挖掘需要让用户既能见林又能见木

【社媒挖掘:《品牌舆情图》的设计问题】

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

2011 信息产业的两大关键词:社交媒体和云计算

《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

5. 关于NLP应用

【河东河西,谁敢说SMT最终一定打得过规则MT?】

【立委科普:NLP应用的平台之叹】

【Bots 的愿景】

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《新智元笔记:知识图谱和问答系统:开题(1)》

【泥沙龙笔记:NLP 市场落地,主餐还是副食?】

《泥沙龙笔记:怎样满足用户的信息需求》

立委科普:问答系统的前生今世

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

立委科普:从产业角度说说NLP这个行当

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?

2011 信息产业的两大关键词:社交媒体和云计算

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 …

科研笔记:big data NLP, how big is big?

与机器人对话

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

6. 关于中文NLP

【新智元:parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩” 】

【让机器人解读洪爷的《人工智能忧思录》(4/n)】

【让机器人解读洪爷的《人工智能忧思录》(3/n)】

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【NLP笔记:人工智能神话的背后是汗水】

【立委随笔:中文之心,如在吾庐】

汉语依从文法 (维文钩沉)

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

社会媒体舆情自动分析:马英九 vs 陈水扁

舆情自动分析表明,谷歌的社会评价度高出百度一倍

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《新智元:挖掘你的诗人气质,祝你新年快乐》

7. 关于NLP社会媒体舆情挖掘的实践

【语义计算沙龙:sentiment 中的讽刺和正话反说】

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season’s sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

8. 关于NLP的掌故趣闻

【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】

【把酒话桑麻,MT 产品落地史话】

【泥沙龙笔记:从机器战胜人类围棋谈开去】

遭遇脸书的 Deep Text

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

【 IT风云掌故:金点子起家的 AskJeeves 】

今天的Ask.com

《语义三巨人》

《朝华午拾:在美国写基金申请的酸甜苦辣》

看望导师刘倬先生,中国机器翻译的开山鼻祖之一

【朝华午拾集锦:立委流浪图】

【立委随笔:流浪的概念网络】

【朝华午拾:安娜离职记】

知识图谱的先行:从 Julian Hill 说起 》

《朝华午拾:创业之路》

《朝华午拾 – 水牛风云》

《朝华午拾:用人之道》

《朝华午拾:欧洲之行》

《朝华午拾:“数小鸡”的日子》

《朝华午拾:一夜成为万元户》

《朝华午拾:世界语之恋》

《朝华午拾:我的考研经历》

80年代在国内,社科院的硕士训练使我受益最多

科研笔记:开天辟地的感觉真好

《朝华午拾:今天是个好日子》

【朝华午拾:那天是个好日子】

10 周年入职纪念日有感

《立委随笔: 语言学家是怎样炼成的》

说说科研立项中的大跃进

围脖:一个人对抗一个世界,理性主义大师 Lenat 教授

《泥沙龙笔记:再谈 cyc》

围脖:格语法创始人菲尔墨(Charles J. Fillmore)教授千古!

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔:微软收购PowerSet》

NLP 历史上最大的媒体误导:成语难倒了电脑

立委推荐:乔姆斯基

巧遇语言学上帝乔姆斯基

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

【科普小品:伟哥的关键词故事】

不是那根萝卜,不做那个葱

【随记:湾区的年度 NLP BBQ 】

女怕嫁错郎,男怕入错行,专业怕选错方向

据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率

【立委科普:美梦成真的通俗版解说】

【征文参赛:美梦成真】

【创业故事:技术的力量和技术公司的命运】

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

MT 杀手皮尔斯 (翻译节选)

ALPAC 黑皮书 1/9:前言

《眼睛一眨,来了王子,走了白马》

职业随想曲:语言学万岁

立委随笔:Chomsky meets Gates

钩沉:《中国报道》上与导师用世界语发表的第一篇论文

钩沉:《中国报道》上用世界语发表的第二篇论文

贴身小蜜的面纱和人工智能的奥秘

有感于人工智能的火热

泥沙龙笔记微博议摘要

【泥沙龙笔记:没有结构树,万古如长夜】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

老革命遇到新问题,洪爷求饶打油翁

我要是退休了,就机器 parse 《离骚》玩儿

《朝华午拾》总目录

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

《李白119:本体知识库结构体系散谈 》

【立委按】大疫当前,学问缓行,尤其是非主流的“学问”。此集可算是“闭关隔离”的副产品吧,绝对小众。然而,就题论题,本体体系结构的话题却的确是涉及AI知识系统核心的基本话题,虽然体味个中滋味者不为多数。

 

白:“颜色”与“红”的关系,和“红”与“大红、深红、砖红、朱红、玫瑰红…”的关系,是一样的吗?

颜色是属性名,红是属性值,大红、深红、砖红、朱红、玫瑰红…是细化属性值。属性值-细化属性值的关系,和属性名-属性值的关系,要区别对待。

李:那自然。本体知识库(ontology), 如 HowNet(《知网》), 就是这么区分的。属性值属于逻辑形容词,有自己的 taxonomy (上下位链条)。属性名属于逻辑名词,其直接上位是抽象名词。属性名与其相应的属性值是一一对应的关系。如,【味道】 与 “酸甜苦辣” ,【气味】与“香、臭 …”,【形状】 与 “方、圆、菱形、三角、多角 …”,等等。

白:那还有没有“属性”这个语义范畴?另外就是“宿主”挂在谁那儿?挂在属性名?属性值?还是属性?

李:【属性】可以置于 【颜色】、【形状】 … 与 【抽象名词】 之间。

白:我不是这个意思。我是说,既然分别有了属性名和属性值,那还需要有属性么?如果不需要,那宿主跟谁?

李:逻辑形容词(属性值|AttributeValue)属于逻辑谓词(Predicate),谓词挖坑。

白:这就是不要属性了。

李:【形状】类逻辑形容词挖坑,要求【物体】。所以,本体上可以说,“桌子是圆的”;不能说,“思想是圆的”。违反常识本体的,只能是比喻:“圆的思想”,真要说的话,大概是指思想的 “圆滑、中庸”。

白:这个案件的凶手是张三,杀害李四的凶手是张三,其凶手是张三。“凶手”是“角色名”,能否得到“属性名”的类似待遇?

N/X,当X匹配动词萝卜时,是具体事件在填坑;在X匹配名词萝卜时,是抽象事件在填坑。抽象事件是具体事件的指称性概括。具体事件还可以进行陈述性概括。红之于大红,就是陈述性概括;颜色之于红,就是指称性概括。is-a无法区分指称性概括和陈述性概括。

李:那就是两条线上的 ISA,两个不同角度,所以一个儿子应该允许有两个或多个老子。本体知识库中的taxonomy理应如此,可以认定其中一个是主链条,其他的是附加链条。

“凶手” 与 “张三” 的对应,与【属性名】与【属性值】的对应不同。前者是种类(角色)与专名的关系,都属于逻辑名词。后者是逻辑名词与逻辑形容词的 “跨类别” 对应关系。

白:“这张桌子的颜色是红的。” 

桌子究竟填“颜色”还是“红”还是两者都填?“这张桌子的颜色有点红。” 填谁?桌子填颜色,颜色填红?还是桌子填both?

如果颜色的坑是“物体PhysicalObject”,红的坑也是,那么颜色就无法填红的坑。大小S就有问题。

“象鼻子有点长”vs.“桌子颜色有点红”

“象鼻子长度有点长”,虽然啰嗦但并不违反语法。

“桌子腿儿颜色有点红”,部件和属性名,句法地位类似,语义上还有问题。桌子腿儿,输出直接就是另一个对象了。颜色,输入是物体,输出是属性名;红,输入是物体,输出是属性值。属性,应该是<属性名,属性值>二元组。红的输入不是属性名。这个二元组之一可以default,如果从值到名不混淆的话。但是“红”还有“人气高”的意思,跟另一个属性名“人气”还勾勾搭搭。于是,“这个歌手有点红”,虽然歌手也是物体,但更是公众人物。

李:小s “颜色” 是大 S “桌子腿儿” 的 aspect,谓词“有点红”要求大S填坑,与小s构成总分对应关系;句法上,小s类似于 PP 状语“论color”。

白:腿儿是中s,桌子是大s。

李:由于总分的对应关系属于常识,是记忆在静态的本体知识中,因此小s实际上是冗余信息。这就说明了为什么我们觉得 “桌子腿儿颜色有点红” 啰嗦,其实际语义就是“桌子腿儿有点红”。

白:是值到名映射单一,不用看是不是常识。“颜色不太对劲儿”当中的“颜色”就不能省。

李:值到名映射单一,就是常识,是最简单的分类型常识:红是一种颜色。这种常识在 ontology 中是必须表达的,没有新意,不具有情报性。

白:这是系统自身就能确定的事实,不需要借助于常识机制。

李:总之都在 ontology 里面。前者是概念分类,属于事实,毋庸置疑;后者是趋向性常识,常有例外。【动物】吃【食物】,例外是,“某个动物吃了石头”。

白:把“红”换成“深”试试:这张桌子腿儿颜色深。“深”的坑,谁来填?“这张桌子腿儿颜色过深”,“这张桌子腿儿颜色太深”。“这张桌子腿儿颜色过红”,“这张桌子腿儿颜色太红”,红的坑,谁来填?

属性名和值同时出现在一个合法的句子里,是绕不过去的。总要说明白,是怎么填坑的。“这张桌子腿儿颜色太红”语义上不等于“这张桌子腿儿太红”。不仅可以是“红的程度太甚”而且还可以是“太偏向于红”。

在ontology里,不仅要给名和值各自以相应的地位,还要给它们的坑赋予相应的本体标签。

李:“颜色”分“深浅”,“腿儿”分“高矮、粗细”。

白:高矮是“高度”这个属性名下的值,粗细是“径向大小”这个属性名下的值。说起来跟红和颜色的关系都一样,不能厚此薄彼。

李:【属性名】、【属性值】、【物体】是个三角关系。可以利用【属性名】作为桥梁,具有概括性。但是,【属性名】与【物体】的对应是静态本体知识,没有情报性,属于ontology里面对 schema 定义中的 type appropriateness 的描述。而【属性值】填的萝卜,是动态的知识,这才属于语言理解得出的情报。

白:“颜色深”就有情报了,深不是属性值。“颜色花哨”“颜色怯”“颜色俗”都不是属性值,都有情报性。

李:这是层次纠缠。“深”、“浅”、“花哨”、“俗”、“怯”,当然也是【属性值】

白:不是具体颜色,怎么说是属性值?

李:【属性值】的萝卜对象不应该只局限于【物体】呀。这儿其萝卜不再是具体【物体】,而是抽象的东西,即【物体】的一个侧面【颜色】。再如,【程度】、【垂直高度】等抽象概念也一样论“深浅”的。

白:等等,宿主都变了。是对颜色的comments。垂直高度是属性值。

李:具体的垂直高度,譬如“深、浅、高、矮”是【属性值】,但“垂直高度”本身则是【属性名】。

白:这里的逻辑不顺,满是问题。

李:没有问题。如果误读,那是层次纠缠的干扰。

逻辑名词分为具体与抽象,深浅描述的对象是抽象名词。

白:“逻辑名词”并不是本体概念吧。

李:是。是本体概念链条处于顶端(TOP)的一个节点。

白:董老师叫“万物”。

李:对,董老师命名为 【thing|事物】,下面有【抽象】,也有【具体】,【具体】下面有【PhysicalObject】。【thing】,我称之为逻辑名词,属于跨语言的本体概念。

白:在本体文献里不常见。

李:叫什么名不重要,实质就是,语言的POS各有不同,但背后的概念本体其实也有对应的东西。【thing】 就是【逻辑n】,【AttributeValue】 就是【逻辑a】

白:“行为”算不算thing?“红”算不算thing?

“红是一种象征革命的颜色”,“那是一种非常大气的红”。

李:不算,【行为】是【逻辑v】,“红”是【ColorValue】,属于【逻辑a】。上例的“红”是逻辑形容词到了具体语言以后名物化,成为名词了,但本体概念是恒定不变的,依然是【逻辑a】。

白:eat算不算“行为”的实例?

李:eat 算【行为】,是【逻辑v】。到了具体语言以后,譬如英语,“eating”借助形态 -ing,就是 thing了,属于抽象名词。

白:不应该是两个义原。处理为两个义原会遇到很多问题,一定是一个。

李:对,本体里面不应该是两个义原,因此“eat”作为概念,永远是逻辑动词,“红”永远是逻辑形容词。有个简单的办法解决这个问题,词典里面的本体分类是一个,但句法分类可以变换。这种变换在形态语言里面用的是形态,非形态语言可用零形式根据上下文来决定。eat 作为概念就是逻辑v,但在具体语言使用中成为词的时候,可能是 POS N 或者 POS V。

白:可以往指称和陈述两个方向概括,所以thing是指称性概括的总根子。下面通过抽象事件、抽象性质、抽象行为,可以平滑过渡到具体事件、具体性质、具体行为。陈述性概括的总根子,应该也有一个。

eat通过“行为”也会被thing罩住才对。正如“红”通过“颜色”也会被thing罩住。指称和陈述的分叉口是通过句法提供的。底下是一套人马,上面是两块牌子。不做成这样,会有巨大的麻烦。句法结构强制,可以分叉。范畴词(属性名)也可以分叉。

李:对呀。异曲同工,英雄所见,大原则都是相同的,具体表示(representation)层面的技术性差异而已。

白:“红这种颜色在中国股市里表示涨,在西方股市里表示跌”。

范畴词就是命名ontology非叶子节点的词。

李:范畴词,软件界叫做“保留字”。保留字是元概念,但自然语言也有实际的词汇对应它。

从表示手段看,只要允许一个儿子有两个老子,ontology 就好办了。

白:DAG

李:对。“红”的上位是【ColorValue】,属于【AttributeValue】 (我叫它逻辑a);“红”的另一个上位是【颜色|Color】。

白:万物,其中就包括事件,这是根本。

李:也许这要问爱因斯坦了 LOL

白:就好像,程序的代码也是数据,打冯诺依曼起就这么玩儿了。程序的执行是另一回事儿。事件的发生/展开/执行,也是另一回事儿。

李:纯粹从形式表示看,不过就是个命名问题。假设【万物】就是唯一的 TOP,TOP 下面还是 n a v。

白:n a v 并不是TOP的直接子节点。颜色下面才有红,行为下面才有eat。颜色、行为,我这里叫“范畴词”,往上都是【万物】,往下才分n v a,范畴词是分叉点。

李:也行,也许更自然。其实不过是原来 n下面的抽象子类中的成分,被提升了一个节点而已,让它们作为桥梁通向TOP。不觉得有本质变化,需要用到的一子多父的链条都在。

【颜色】(ColorValue)、【形状】、【外貌】、【品性】等等与TOP之间,应该有一个节点 叫 AttributeValue (逻辑a)。链条大体是这样的:

红 –》 颜色 –》attribute –〉TOP
英俊 –》外貌 –》attribute –〉TOP
eat –》action –》behaviour –〉TOP
桌子 –》家具 –》产品类 –》物体 –》具体 –》thing –〉TOP

白:对。

李:换汤不换药。在我看来,顶部概念有三,thing 就是逻辑n,behaviour 就是逻辑v,attribute(i.e. AttributeValue) 就是逻辑a。

白:问题是,下面的这些边并不都是is-a

李:至于在他们上面再加一个 TOP 统领,那是一个哲学的观点,不是一个实用的需求。

白:不是的。不是这么统领的。属性、状态、关系相互独立,但都有可能是形容词。

李:红 –》 ColorValue –》AttributeValue(逻辑a) –》Predicate(谓词);红 –》Color –》AbstractObject –》thing(逻辑n)

就是让“红”有两个老子:ColorValue 是属性名,属于逻辑a;而 Color 是属性类,属于逻辑n,

白:这盏灯很亮,说的是属性。这盏灯真亮,说的是状态。

李:为什么要这么细分?

白:作为属性的亮,说的只是某种定性或定量的亮度指标,但灯并不必然处于点亮状态。作为状态的亮,是真实点亮了的,其亮度是可感的。后者可以推出灯的点亮状态,前者不能。不是说有两个“亮”的词条或义原,而是说往上走有两个岔路。通往属性和通往状态各有不同。

李:就句子论句子,多数人没有这种区分吧。“很”、“真”都是程度副词。

白:不好说。多数人还没语法概念呢,但是该区分的都区分了。可以设计问卷。我相信多数人都推的出。

李:顺便说一句,30年前董老师刚开始酝酿 HowNet 的时候,我们正好在中关村的高立公司有半年多在一起做项目,董老师谈 HowNet 的设想。当时对董老师主张的逻辑语义以及本体知识网络这些学问觉得特别有兴趣。可是回到宿舍在纸面上想把思路理清楚,很快就觉得跌入了语义学的深渊,一头雾水。很快产生一种畏难情绪。那时刚入行,历练不够,实践也不足,只得知难而退了…. 30年后算是坐享其成了。

白:我不认为hownet可以达到让人坐享其成的程度了。

李:哈 各人要求不同吧。前面提到对颜色、属性之类 HowNet 都 encode 进去了。还有很多很细的分类和梳理的工作以及体系建设。我觉得是自成体系、自圆其说,比较 comprehensive 的了。

白:这都是应有之义,但远远不够。作为数字版的辞书,很好。作为可计算的基础设施,还有改进的空间。

李:自然可以改造使用。举个例子。

hownet 把 Attribute 与 AttributeValue 分开,命名方式一致,但是是两个岔。这在客观上造成了 features 数量 double 了的结果。在采用的过程中,觉得虽然这样一来【属性名】(逻辑名词)与【属性值】(逻辑形容词)从 category 角度是分清楚了,但是多了这么多 features 感觉不必要,累赘。于是做了如下变通:

颜色:color category
红色:color attribute

二者共用了 color 这个 feature。其区分可以用 features 之间的 AND 来表示。如果照搬 HowNet,词典标注大体是这样的:

颜色:ColorAttribute
红色:Color

至于 ColorAttribute 与 Color 的对应关系,那是在 HowNet 内部联系的(除了命名的助记效果外)。经过改造,都用 color 以后,这种关系就直接体现在词典的 features 中了。

好处是 HowNet 基本上把概念梳理出来了,这里不过是做了实用主义的技术性改造。一个语言的词汇表中,表示 atrribute value 的逻辑形容词,远远多于 表示其种类的词。有几百个表示颜色的词,但“颜色”本身只有一两个词(“颜色”、“色彩”)。为后者另外命名一套 features 感觉很不合算,也不方便。

白:本来就是某种意义上的“上位”。

李:一个是直接来一条竖线串联下来,而董老师是中间插了一条横线,等价于一个儿子两个老子,表示手段不同。一横一竖也不是没有道理。毕竟 “玫瑰红” 到 “红” 的 ISA 关系 与 “红” 到 “颜色” 的 ISA 不是同类的上下位。

白:值与名的关系不是严格意义上的上下位关系。横过来当然是可以的。这是指称性和陈述性的分叉,与一般的多爹不同。

李:实际应用中,这种区分没什么必要。何况需要区分的时候,还是有办法区分,多一个feature(而不是重复几十个平行的对应 features)就齐了。

白:看是谁家的实际应用了。

“陈述性义原的指称性概括”,或者叫“跨域上位”。

李:对,跨类、跨层次的关联。这就好比概念与“元”概念的区别一样。一不留神,可以引起层次纠缠。可以说“红太阳”、“白太阳”,甚至“黑太阳”,不能说 “颜色太阳”。(搁文革时候,提“红太阳、白太阳、黑太阳”,立马打成现行反革命呢,绝对逃不过的。时代还是进步了。)

白:动词也有同样的问题

另外就是同样在名词这边,角色名,是从属于事件的,是事件折射回来的。比如一开始提到的“凶手”。“凶手”从属于“杀人”事件,杀人事件可以跨域追溯到上位名词“案件”,于是“凶手”也可以间接从属于“案件”。也就是说,一个具体事件的坑,可以被它的上位抽象事件所继承。

李:“杀人” 有个【agent】 坑,这个坑的 type 是 【human】,如果细分的话,就是 【凶手】。

【凶手】 –》【肇事者】–》human

“杀人”(名物化)指的是一种案件,案件是事件,“杀人”的坑里面的萝卜,自然就是案件/事件中的角色。

白:我不认为HowNet在这些方面提供了ready的计算机制。

李:有空可以细看一下,我觉得 HowNet 做得很细,应该把“案件”与“杀人” 关联了,“杀人”与“凶手”关联了。至于这些关联的计算机制,有什么函数可以调用,这些方面,HowNet 的确不强,至少是不好用。

白:问题杀人是动词,案件/事件是名词,跨域了。如果不揭示这个动词到名词的概括关系,就没有理由给名词挖一个关联的坑。

我们的处理,“凶手”是N/X,分母上的X填动词萝卜时,就是具体事件的角色名;填名词萝卜时,就是抽象事件的角色名。角色名和属性名,应该用类似机制处理,这才简明好用。在实例层面能做到,和在表示层面、机制层面能做到是不一样的。“凶手”是agent的实例,或者某个下位。

李:对。类似的角色还有“受害者”、“受益人”,甚至“施事”、“受事”、“对象”这些词所对应的概念。这些都是元概念,恰好与逻辑语义系统内部的角色定义【施事】、【受事】等相交了。

查“凶手”的定义:凶手乃是杀人之施事。“刺客” 是 “凶手” 的细分,“凶手”是“施事”的细分。

白:我们叫范畴词,颜色、长度、程度……,也都是。

引入了名-值体系,对ontology意味着什么?我看到的是:打开了横向跨域关联的通道。不仅“事件”本身可以通向“万物”,就连配属于“事件”的“角色”也可以通向“万物”,在其中找到概括自己的抽象物。这才符合冯诺依曼的原则:程序也是数据。

实际上,细化属性值(如“砖红、翠绿”等)很少直接作谓语,更多的是作定语,也就是说用法类似北大体系里的“区别词”。修饰语对被修饰语的要求与约束,与“坑”属于同一个数据类型。与“坑”不同的是,它会在修饰语与被修饰语的结合中,把这些要求和约束传递给被修饰语,这个传递过程有点像“合一(unification)”。作为一个特例,当修饰语升格时,这些要求和约束会传递给作为升格结果的那个零成分。

“坑”本身也有要求和约束,在填坑时反向传递给萝卜,萝卜如果可以再复用,这些反向接受来的标签可以像自己从词典里带来的标签一样使用。比如“我吃的”,会从坑里接收Food标签。

我们把修饰语携带的对潜在被修饰语要求和约束的标签集合体称为“修饰目标”,生造了一个词Modee。一个修饰语,自身有一套语义标签,又为修饰目标准备了一套语义标签。自身的语义标签是双轨制的:一方面指向自己的上位属性值,另一方面指向自己的对应属性名。上位属性值仍在谓词领域,属性名就跨越到了体词领域。这不同于一般的多爹,是跨域多爹。

李:修饰目标与谓词目标(逻辑主语)在形式逻辑上是统一的,都是挖了一个目标坑,期望同一类型的萝卜。

乔姆斯基句法也做了类似本体语义的抽象,谓语的句法主语与名词的定语,被认为都处于所谓 specifier 的 position,具有某种结构同质性。

作为典型的修饰语,形容词就是挖了这么个需要主语或被修饰语的坑。至于形容词中的子类“区别词”(“男”、“女”等),不能做谓语,只能做修饰语,那是语言内部的某种句法约束习惯,不是逻辑语义层面的约束。区别词在中文不能做谓语,并不代表在其他语言不能做谓语。但无论做谓语还是修饰语,其本体对于目标的要求是跨语言的。世界语中,就可以说:

la vir-o est-as vir-a
(the man is male)

la vir-o vir-as
(the man male-s)

说明:世界语形态中,-o 是名词,-a 是形容词,-as 是谓语(现在时)。这些都是本体外语言层面的东西。

这样看来,应该用另一个feature或其他方式来区别谓语和修饰语,而在本体逻辑层面它们都是是同一个挖坑者(谓词)。

作为逻辑谓词的形容词,在句法结构中做了谓语还是修饰语,是本体静态知识外的情报。这种由句法结构而来的信息区分,也是语义理解的一部分,也必须在语义结构的解析图中反映出来,但并不影响谓词挖坑者对目标萝卜的本体约束方面的统一要求。

白:N+和S/N究竟使用哪一个标签,可以在词法阶段解决,也可以在句法阶段解决。这不是问题。

作补语和作定语就不一样:喝 好酒 vs 喝好 酒

李:形式逻辑比较粗暴或粗陋,前者就是:喝(酒)& 好(酒);后者则是:好(喝(酒))。当然不同。不同的原因是“好” 太广谱:挖的坑针对的目标可以是体词,也可以是谓词。

白:“红 太阳”也好,“太阳 红”也好,“红”所对应的句法标签“N+”和“S/N”可以同时存在,交给句法去选择。语义标签则是同一套。“太阳 红”中如果“红”取N+会导致dead end。而“红 太阳”中,修饰操作优先级本来就高于填坑操作。所以选择下来没难度。词典里语义标签是同一套数据。但在构建N+成分和S/N成分时,标签数据的装载方式略有不同。

李:词典信息给多个约束 features 是自然的,本来这些信息也都是针对潜在关系对象的。等到实现的时候(走了一个结构路径的时候),另一条路往往自然堵死。

白:相反的情况是走了一条死路时,活路的优先级自然处于当前最高位。只要分析过程中用过的成分允许再用。

李:词典信息中的语义本体的挖坑信息( semantic expectation features )应该是同一的,是句法的句型信息(syntactic subcat features)各有不同。expectation 与 subcat 是两套,是对于遣词造句的两个不同维度的约束条件。前者是跨语言的约束,后者才是具体语言的约束。所谓基于知识的解析(knowledge-based parsing),说到底就是从 semantic expectation 出发,看语言如何以某个 syntactic subcat pattern 来实现。因为人就是这么从思想外化为语句的,深度解析再现了这个逆过程,平衡了句法和语义两个维度 的约束。

白:形容词是二元化处理(N+和S/N),动词是一元化处理(S/*)。动词作定语通过降格实现,而且是白名单制,需要特定条件满足才激活。

李:中文经典结构歧义案例是:“学习文件”,“炒鸡蛋”。从本体约束看,“文件” 是可以被“学习”的,才可以做被修饰语(即NP的中心词),表示是“(所/要)学习(的)文件”。

白:炒鸡蛋当菜名可以,炒苏北草鸡蛋当菜名就差意思了。

李:如果是 “学习 x”,则不可能是定中结构,只能是动宾结构。因为 x 未定,没有本体信息,作为白名单不满足萝卜的约束。但它却在黑名单之外,符合要求。

同理,“炒 x”只能是动宾。如果是 “炒【food】”,在中文就歧义了。

白:扩展的food也不灵,只能是动宾。

李:这种结构歧义,源于本体语义对于arg的坑与对于 modee 的坑,约束完全相同,而恰好句法的词序约束(动在宾前,定在中前)也同时符合两种结构的要求。为了消歧,必须在本体约束外找细琐的条件或heuristics,譬如音节数pattern(2-2pattern,1-2pattern更多是定中结构,2以上的N趋向于是动宾结构),是否开放还是可以死记(定中结构作为菜名,开放性不如动宾结构),以及萝卜本身的结构特点(是裸萝卜N 还是穿衣的萝卜 Noun Group:有定语特别是长定语的N,差不多都是宾语),等等。

白:死记和开放有不同的优先级。

 

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白宋118:多层处理为 heuristics 的实现提供了广阔空间 》

白:“老师批评的是我”

问题:升格以后的空范畴,具备建立Hidden links的资格吗?看图上,填“老师”名词坑的应该是“我”才对。填空范畴总有点那个。

李:最终应该得出SVO 才对:老师/S – 批评/V – 我/O, 不管用什么中间links和手段, 因为人的理解如此。其实从 pattern 角度,通向最终目标的路径还是蛮清晰 。

以前提过,的字结构 与 英语 what-clause 类似,本质都是 NP+定从,定从中阙如的 arg 通常是主语或宾语。所缺的角色一旦有同位语或be结构(或其他的结构)相连,其算元(无论主宾)拉过去,深层逻辑语义svo也就确定了。

宋:能不能分解成两个任务。一个任务是把复杂句变成两个简单句的某种逻辑关系的组合,另一个任务是分析简单句。
老师批评的是我
{老师s 批评v Φ}and{Φs 是v 我o}
他眼睛哭肿了
{他s 哭v}and{[他m 眼睛h]s 肿v}
我帮他打圆场
{我s 帮v 他} mode{我s 打圆场v} //A mode B表示B为A的方式
我帮他打官司
{我s 帮v 他o}grw{他s 打官司v}//A grw B表示B是A的背景

有的原始问题并非词间依存所能说清楚的,还涉及到命题间的逻辑关系。而且,如此处理可以避免图结构,完全是树结构。

{老师s 批评v Φo}and{Φs 是v 我o}

他眼睛哭肿了
{他s 哭v}rst{[他m 眼睛h]s 肿v}//A rst B表示B是A的结果

李:图结构表示比较简练,但也不是没有缺点,缺点就是层次不够清晰。树结构层次清晰,缺点是表达力有限。

宋:但是不清楚,把论元关系与逻辑关系混起来了。因此应分解成两个任务。本来就是性质不同的任务。

李:利用树结构的层次性,加上 coreference 互指关联或做等价的节点复制,然后用逻辑算符把树结构联系起来, 从理论上说是一个更好的语义表示方法:逻辑语义单纯、完整,而且不失层次性。

宋:是的。

李:依存图结构表示可以看成是一个缩略版。

宋:原句就是一个紧缩句。

我帮他修车。
{我s 帮v 他o}and{我s 修v [他m 车h]o}

我帮他做家务
{我s 帮v 他o}and{我s 做v [他m 家务h]o}
我帮他做作业
(我s 帮v 他o} grw{他s 做v 作业o}

李:对。

白:图上建边的顺序是有结构意义的,“图+建边顺序”可以完美恢复层次。只做到一堆边的无序呈现是不够的。

另外,我说的例句里,有没有“是”并不关键。可以举出更多不包含“是”的例子:“老师批评的不包含他”“老师批评的只有他”“老师批评的除了他还能有谁”……。这些里面同样要弄出一个空范畴出来。

宋老师建议的,其实就是以谓词为中心的逻辑语义拆解。其实有了图,谓词为中心(面向过程)和体词为中心(面向对象)都是可以选择的。

李:与 “是” 无关,是字只是谓词结构的一种;与多层结构的模式处理有关,说的是各层次的 patterns 是清晰的。不同层面的解析,最终可以达到逻辑语义图的最终解。无需人为添加的空范畴。

白:刚才几个怎么提取?枚举吗?枚举我就“窃喜”了。

李:按章办事就成。多层模式解析,一个一个来。此类结构紧缩现象,我应该是已经处理过了。待会儿上机试试。

白:“前妻欠下的都算到他头上了”。试试没有空范畴怎么玩。

李:这么玩的:PS(短语结构) 搭架子,DG(依存文法)依据架子再做逻辑语义:老师-批评-我 的 SVO 就出来了。

白:图上的“的”不标“x”了?有进步。

“老师批评的我一条都没犯过”

“老师批评的(得)我哑口无言”

当“得”和“的”混淆时,这里会出伪歧义。

另外就是共指关系如果做“是且仅是”理解,逻辑上可能出现“白马非马”式的混乱。

宋:空范畴还是要的,关键问题是把复杂句拆成基本小句的逻辑组合,语义上相当于把复合命题拆成基本命题的逻辑组合。命题内的谓词论元关系和命题间的逻辑关系性质不一样。

白: “的”当修饰语时可以x,当升格的指称语时就不能再x,必须当个物件儿。没名字的物件儿,对应的就是空范畴。表达体系里区分了两种不同的“的”,后一种“的”其实就是变相的空范畴。

接着说共指的问题。“是”有三解,集合的包含关系、元素属于集合的关系以及等同关系。前两者都不是简单共指。

“他偷的是我的书”,“他偷的”和“我的书”不是共指(相等)关系,而是子集关系。“是”的右端只有在是个体的情况下才能是等同关系。因为此时包含和属于所确定的类型都不适用了。只剩下等同可以用。

“老师批评的是五班的学生” 就无法建立共指,因为不知道批评的是“五班的学生”的全部、部分还是个体。

宋:这两个”的”能否并成一个?”我的书”,”我的”是所有属于”我”的东西的集合, “书”是另一个集合,“我的书”是这两个集合的交集。

白:就算是个体,也还有“某一个(无定)”和“这一个(有定)”的差别。汉语此处无局部形式标记。@宋柔 “的”是未饱和坑提取和交集运算集于一身的形式标记。当运算对象缺位时,就只剩下未饱和坑提取一个职能了。

宋:有的时候不是交集,而是元素纳入集合。“说谎的匹诺曹”,“说谎的”是一个所有说谎者的集合,把“匹诺曹”加入这个集合之中。或者说,表示”匹诺曹“是这个集合的一个元素。

白:这又回到之前讨论的“聪明的一休”了。也可以理解为个体为唯一元素的集合与另一个集合的交集。

宋:忘了以前是怎么说的了。

白:@宋柔 限定性与非限定性。限定就是求交集,非限定就是给个体添加属性。

宋:不好这么说。交集可以是空,这里说的是该元素属于该集合。也可以。

白:@宋柔 个体在里面是公理。左面的集合只有“从了”的份儿。不属于也必须属于;过去不属于从现在开始也必须属于。

 

哈,“老师批评的”作了“我”的定语。

也没错。

被批评的事儿,在这里不是标配,标配又是明确在场的。

李:听到“也没错”,感觉 relieved

@白硕 同病相怜?

不过,还是想看看有什么系统的方法避免次优解,以求得最优解。

(传统)机器学习中很多算法 stuck 在 local 峰顶上,就是从算法上达不到全局最高峰,可见问题的普遍性。不知道深度学习有没有这个困扰。

人脑得到最优没有丝毫问题的。肯定有个机制直取最优,不得已而求其次。

想了想,线索之一是语言学的:代词虽然不完全拒绝定语从句,但是并非常态。

其实代词甚至带形容词定语都感觉“怪怪的”:“不得已的我”可以接受定语从句,“小小的我”也貌似别具一格,但“我”通常是独行侠的。

这种 heuristic 如何实现好呢?统计上看其痕迹是很明显的。下面这种情况下,不得已求其次就对了,但常规不是这样。

“(被)老师批评的我,无地自容。”

口语中还有个妥妥的“de字”纠缠: 老师批评得(de)我无地自容。为简化问题,不去论它。

在多层系统中实现这个heuristic的系统性方法之一就是,推后“定从+代词”的操作。把优先组合尽量让给“的”字前后的短语结构。按照这个多层思路试试。

啦啦啦 功成了 可见很多事还是太粗心,做系统怕就怕认真二字:

只是把代词定从推后,一切不变,水到渠成。当然严格说,“一条”应该挂到“的字NP”上,不过,“一条”这种很虚的量词,挂不挂没啥落地价值。只要知道 “一条都(也)”是一种强调性否定,就足够好了。

白:好歹人家是总分关系。

李:真地没啥价值。贡献不出“强调”以外的实际东西来。

白:代词不是本质,“老师批评的张三一条都没犯”,问题是绕不开的。

李:这么论语言,也可以说凡是 heuristics 都不是本质。这几乎就是 heuristics 的定义决定的。但我们都知道,对付语言这个 monster,heuristics 可能是一大法宝。统计模型能处理自然语言,也与 heuristics天然的统计性表现有关。

系统啥也没变就出来了。瞎猫撞了死耗子了?

非也,狗屎运也不是要有就有。

白:这不是代词的功劳了吧。

李:这是类似于代词 heuristic 的功劳。语言工作者都知道,专有名词的NP独立性可媲美代词,原来早就下意识 built into 系统了。普通名词就差一些:

 

 

就是说,专家做系统,heuristics 是下意识进入的,可能会有缺漏。缺漏也不怕,数据驱动,迟早会实现。关键是多层系统从机制上提供了优先级排序的广阔空间,使得不同的 heuristics 迟早体现出来。(图中有个bug,句法主语synS“问题”转成了逻辑 S,没转成 O。)

白:“老师教的学生一点儿都不会”。

李:这是真歧义。

解析歧义世界里面 90%以上是伪歧义,10%不到是真歧义。

(“学生”是“教”的 O 这个 hidden link 没连上,是个“待做事项”。)

一般而言,对于真歧义,因为其出现频率低,只要解析能在真歧义中得到其中一条,就暂时不再追求。解析关键是先堵住伪歧义泛滥。考察人对真歧义的理解,发现是因人而异的。很多人面对真歧义,脑子也是一根筋,只有一个解读,对另一个解读无感,往往是只有人提醒了才恍然。(语言学家除外。)

 

 

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《李白宋117:汉语连动兼语式句型的解析》

白:“帮”是个很怪的动词,格式像“兼语”,用起来却是“连动”。所以也是穿透。“我帮你做家务”当中,“你”做不做无所谓,反正“我”是要做的。

宋:@白硕 这个例子有意思。“我帮你做家务”按传统汉语语法来说好像算兼语句,“你”是“帮”的宾语,又是“做家务”的主语。但是,正如你所说,“你”未见得做家务,“我”肯定要做的。按照这样的语义分析,这个句子应当是连谓句,“帮你”和“做家务”是“我”的接续的谓语。
如果是“我帮你做作业”,一般来说“我”只起辅助作用,为你解释其中的难点,真正做作业的还是“你”。于是,这句话应当是兼语句。
当然,由此可见把“兼语”从“连谓”中分离出来,理论上是有问题的。不过即使不管术语,只看语义关系,还是有问题。在词形和词义没有改变的情况下,语义关系的分析要依赖于实际场景,这是很糟糕的事情。

李:如果留有空间 给实际场景的解读画个框 就可以避免这种糟糕局面。留有空间就是保持非确定性:连兼 == 连动|兼语。就是个打标的线条粗细而已。细线条看,这是结构歧义。粗线条看,没有歧义。不过是思维语言模糊性的自然反映而已。

宋:是的。只能承认这一现实,保留非确定性。“他帮老师擦黑板”就是歧义句。“帮”引起歧义,可能还有其他动词或句式引起歧义。

李:其实,“我帮你做作业” 的解读,不同人可能不同。我的解读偏向于“我”是“做作业”的主要人,“你”不过就是一个不得不面对作业责任但做不出来的人。

宋:“我”和“你”参与度的划分问题。语义分析碰到这种问题很可悲。不过好像很少遇到。要让机器知道该留有余地,不容易。“我帮他打圆场”,百分百是“我打圆场”,目的是“帮他”。

李:容易啊。

宋:依存的箭头怎么画?

李:我们的思维定势是把标注绝对化了。依存是图不是树。“连兼”画出来,没任何问题。所以我那本小书《自然语言答问》特别有一章,标题就是“深度解析是图不是🌲”。

宋:图也要有边呀。

李:待会儿我到电脑前画给您看。

宋:“我帮他写作业”,“他”和“写”之间有没有边?

李:有,兼语就是两个老爸,老爸“写”是逻辑主语S。

宋:如果“他”没写呢?

李:省略就留白呗。

宋:这条边也许应当画成虚线,表示可能有也可能没有。

“我帮他打官司”,“他”和“打官司”之间是实线;
“我帮他打圆场”,“他”和“打圆场”之间没有线。

李:每一条binary依存,道理上都不是绝对的,都是一种概率。 可能性多大 可能性要不要也标 怎样标(概率) 那是 representation 的考量。parser 不需要做那么确定。如果有应用场景的确需要确定,那就 在parse graph 后去做 ,可以做得很细琐 。但事实上 绝大多数场景根本不需要。多数时候,自然语言就是说者模糊说,听者模糊理解,没人深究。 

宋:我想大部分情形下,行为者与动词之间的关系存在与否应当是0/1问题。这里“帮”是个特例。“帮”肯定有“施惠”之意,有没有行为之义,要看行为动词。行为动词决定不了,再看场景。有些是模糊的,但还是一定有清楚的。“苏联帮朝鲜打美国。”

李:模糊还是确定是绣花的工作。要做可以做,但做了也白做为多数情形。关键是机制与表示上留下空间。

宋:我想还是要分出来模糊和清晰,不能让所有的关系都沦为模糊。

李:一切决定于落地 落地到应用如果模糊就够了,那就够了。如果不够,需要定义哪里需要更清晰更细线条,然后去做。如果落地目标不定,那就是一个资源与投入产出的拿捏问题了。

宋:供给侧应当有一个独立于应用场景的分析结果,其中大部分确定,少部分模糊,后者待场景确定后再看是否需要清晰化。

白:这不是多爹,是不明确給两个人当中的谁当爹。

李:多爹可以是表示手段,表示的是“异或(XOR)”,这样就可以在同一个数据流中表示 xor 的关系了 。英语 pp attachment 的典型结构歧义亦可如法炮制。至于挤在同一个数据流中可能引起的逻辑混乱,可以利用关系的不同标签来避免后果。譬如 mod 表示正牌修饰语,概率很大,mod2 表示候选修饰语,概率较小。pp attachment 处理中,可以根据上下文条件决定歧义不同边的强弱,譬如让mod与adv2(候选状语)配合,或者mod2与adv配合。还有其他的表示法。标签不过是一种内部约定,用的人知道怎么回事就可以了。这个设计思想 可以把宋老师想要表达的可能性在同一张图表示中涵盖住。S 是概率大的逻辑主语,S2 是概率较低的候选逻辑主语。二者通常是异或关系,只是可能性的差别。兼语不同,两个老爸是“逻辑与“ 而不是“逻辑异或”。这一套数据结构和表示的说法也是很多年实践中摸索出来的东西,很管用。拔高说,也是机制创新。

@宋柔 具体到您上面的案例,PS 树是这样的:

深度解析是图不是树,因此句法树改造为深度依存解析图如下:

“帮”与“做家务”连动(关系表示为C,Complement),“你”是兼语,既做“帮”的宾语(O),又做“做家务”的主语(S)。这不就在一张图中实现了“连兼”的语义表示了吗?

也许宋老师的理解中,“做家务”的 S(概率大的主语) 与 S2(概率小的主语) 应该对调,真要这样解析也没什么不可以,但我觉得这个很难说。这里的 S 与 S2 倒不是 XOR/OR 而是 AND。

白:坑和萝卜的关系相对刚性,一坑二萝卜是需要禁止的。谁是“事主”和谁是“施事”,大概率是重叠的,小概率有分歧。有分歧的时候,施事占逻辑主语坑,事主有一万种方法从语义上兜住。帮X,X就是“事主”。事主是否参与了施事,不是要点。要点是施事就是逻辑主语。那个S2可以妥妥地留给事主专用。我们的说法叫“再入”。再入就是非标配,但是有关联。介词也好,特殊本体标记也好都可以。

李:禁不了的。并列在逻辑上就是多个萝卜(填同一个坑)。句法上可以说并列的几个实体就是一个萝卜,但深度解析是 logical form。

白:并列可以认为是几个实体构成一个集合,集合填坑。这个不是问题。特殊动词在兼语或连动的情形下也可以提供再入的标签。这个都不是问题。问题是对S2的定性,不是施事,或者不关心是不是施事,而是事主。事主在句法上是借逻辑主语的坑存在,当施事和事主有分歧时,事主退出,借其他标记再入。

李:好像实际上也没那么大区别。就是个标签,叫什么都可以,相近的标签有细微差别。也都是系统内部的事儿。

白:事主是责任方。在问答等场景,需要区别对待。是不是亲自操刀无关紧要。缺省是亲自操刀,但是如果另有亲自操刀的出场,事主就退场好了。

李:法律上,好像对教唆犯比对事主惩罚更加严厉,LOL

白:教唆和帮,标记是不一样的。教唆的场景,被教唆的反而是施事。教唆的是事主。这需要在词典里把标签给好。

李:“教唆”与“帮”,在某个上位概念上归一。

白:嗯,都穿透到一个动作里。但是角色各有侧重。这就是某种归一吧。“张三教李四认字”,“李四”是“认字”的施事,“张三”是事主。

李:如果区别非常依赖于词汇的不同,细线条的语义工作就是词驱动了。

白:必须的。我们需要新时代的下一个“知网”。

李:这类词驱动的细琐工作,可以在粗线条句法把架子搭起来后去做,属于一种锦上添花的工作。

白:句法挖坑,词驱动填坑。句法大类相同而填不同的坑,说明词驱动会反作用于句法。好的句法在此应该预留这种可能性。把选择权留给词驱动。

李:句法后的词驱动模块可以:1 细化关系;2. 增加关系;3. 推翻关系(休眠唤醒)。细化就是把模糊的句法关系细化为逻辑语义关系。增加关系通常是挖掘隐藏的逻辑语义关系,常常是句法树无法表达的关系。休眠唤醒基本上就是推翻局部句法了。

白:我们的具体做法是,句法给出先验优先级,词驱动调整后产生后验优先级。分析器执行的时候,以后验优先级为准。

李:先验优先级就是标配,管大路货。

白:这里包含两个方面,依据后验优先级可以颠覆单纯依据先验优先级的分析结果,但是分析是句法语义同步进行的,所以单纯依据先验优先级的分析结果并没有产生的机会,当然也就无所谓颠覆。所以,并不是真有一个颠覆的动作。只是回头看,假如没有词驱动,会是那样;现在因为有了词驱动,所以结果是这样。

李:词驱动不会一下子就做全了的,是个过程。在没做全的时候,先验优先级就有机会实现了。

白:这种架构是把词驱动的约束,体现为后验优先级的Fine tuning,这就要“统一度量衡”。没做全的时候,只要有做了的部分,那部分就是使用的后验优先级。没做的部分用的就是先验优先级。大概率下,用先验优先级也死不了人。但是我们的先验优先级也是词驱动的,只不过是仅依据句法标签自带的先验优先级。所谓超越句法的词驱动,用的是其他的标签体系,比如本体标签体系、控制标签体系,甚至还有语种信息。比如,汉语和英语的介词禁止左填坑,日语的格助词禁止右填坑,英语谓词的左填坑个数不能多于1、多了就要等待后置定语从句的修饰,等等。这些都会由句法标签、语种标签、控制标签协同作用的方式决定后验优先级。控制标签不仅是词驱动的,还是解析过程驱动的,不同的解析动作,会精准地改变特定中间成分的控制标签。所以,这里面的关键技术是:1、“先验优先级”要足够强大到可以大概率兜底;2、设计合理的本体标签、控制标签和语种标签体系,体现它们之间对分析的协同作用;3、从先验优先级调整到后验优先级的幅度,要能够在“统一度量衡”的原则指导下,既能最大限度地发挥作用,又能最大限度地抑制副作用。

比如,“这所学校张三是校长”,如果不使用本体标签调整后验优先级,“张三”会去填“校长”的名词坑:

但是一旦使用了本体标签,就进行了后验优先级调整,结果长这样:

前者只是一个无所事事的大S,后者却是实实在在的宿主,有明确的领属对象。这就是词驱动的威力。实际上我们是禁掉了词驱动的本体标签,才得到前面那个结果。分析器实际运行的时候,直接就产生后面的结果,前面的根本不出现,中间过程中也不出现在前一个结果中,“张三”填“校长”的坑,在特定的阈值设置下,是可以避免的,但是这样做就会误伤很多很多本来可以做出来的Hidden Links可以看出,纯句法在这种情况下非常难做,里外不是人但是有了后验优先级,就完全不同了。有些性质是词典本身没有,在分析的过程中借助其他词负载的信息传播过来的。比如,“高兴”并不负载“带自由补语”的信息,但是“得”有。“得”(+S)携带的这个信息不是自己用的,而是传递给被它修饰的S用的。一旦完成S与+S的结合,新的S就具有了“可携带自由补语(没有字数和本体限制那种)”的控制标签。对于紧随其后的S成分,就有了通向Merge操作的可能性。平常Merge操作是实行白名单控制的。成分所处的特殊位置,也是控制标签的来源之一。比如处于句末,处于反向修饰隔离墙下,都可以获得特殊的控制标签,进而驱动后验优先级的计算。

宋:@白硕 你试试这几个例子:
我帮他做家务,我帮他做作业,我帮他打圆场,我帮他打官司

白:宋老师,都长一个样:

词驱动主要是“帮”这里不一样,两个做,和两个打,没区别。我们并不把离合词合成一个词,打圆场,打官司,都是两个词。

宋:问题在于,“打官司”的是“他”,不是我;“打圆场”的是“我”不是“他”。”打官司“我”只是后台帮忙,“打圆场”是我直接行动。

白:在后一动词没有区别那么细。

李:“打圆场”,詞驱动的话,可以把 “帮/替/为/给” 当成介词格变的条件,填个【受益者】的逻辑语义坑,就齐了。“帮”作为谓词,被覆盖了,或者说,被降格为介词了。结构的伪码模式如下:

PP(“帮|帮助|为|替|给” NP) “打圆场” –》 VP

这是动词退化为副动词(介词)的实例,与 “给他唱歌” 同理。

动词“帮”降格为介词

白:X帮,不是帮X。如果有左填坑的介词倒是像。这里要单独处理。

宋老师要的是“介词宾语做施事、主语做帮事(我瞎起的名字)”,而不是主语做施事。这和“给他唱歌”完全不同。

李:基本合理。是“我”为了“你”在“打圆场”。细究“打官司”可以另论(是“你”在“打官司”,“我”在过程中“帮”到“你”),虽然其实 “打官司” 同类处理的话,也不无合理之处:是“我”(律师吧)为了“你”在“打官司”。

宋:麻烦在于,这是词之间的二元关系,不是词的一元性质。甚至是3元关系:帮-打-官司/圆场。

白:帮X,X是惠格,这个有。X帮,是友情赞助,没有。

宋:一元性质直接进词库,二元、三元关系麻烦大了。

白:宋老师要的是,你做打官司的施事,我还要填个非标配的语义坑。我这里目前没有准备这个坑。

宋:”打官司”别人不能直接下手,“打圆场”自己不能下手。这是这两个词的本意决定的。这种词义描述也许太精细,但在落地场景(争吵以致发展到诉讼)中却是必要的。就是连谓和兼语的区分。

白:现在从“帮”这个位置上的动词定义控制标签没有问题,在“打官司”这个位置上怎么定义控制标签,需要仔细考虑一下。

contributor,献格。用来描述宋老师说的那种帮办角色,不知是否合适。首先语义上要有这个格,然后对填入这个格的语义萝卜在类型上有什么要求,再然后通常在句法上处于什么位置。这些都有了就可以加进来。

“张三找李四去坦白交代”之前曾经讨论过这个例句。坦白交代有三个角色,谁,向谁,交代什么。这里的人物暂时跟第三个坑都没有牵扯。看“找李四”,无疑李四是两个Human坑当中的一个,假设张三是另一个。但是也有可能张三是编外的非标配坑,比如上面那个contributor,张三是公安局派来给李四传话的,他既不是谁,也不是向谁。这就出现第三个歧义。为坦白交代这件事只是贡献了一个“找”的动作,仅此而已。

宋:是的,“坦白”有3个论旨,但“帮”就只有两个论旨,“打圆场”和“打官司”都只有一个论旨。
我帮他打官司:他打官司,我帮他。
我帮他打圆场:我打圆场,我帮他。

这里帮的语义涉及词的二元甚至三元关系,我觉得这种词是很有限的,因此不会带来知识需求的暴增。不过从中也看出,离合词还是作为整体处理比较好,免得增加关系的元数。文本中凡分开的离合词应当尽量在句法分析前把它们合起来,虽然不可能全部做到。

白:就“坦白交代”而言,很有意思的是,如果它的主动发起方找相对方或者相对方找主动发起方,都是可以的。但是第三方,只能找主动发起方,而不能在主动发起方不在场的情况下直接“找”相对方。

找到一个涉及三人的动词:“登记结婚”:“张三找李四去登记结婚”。

第一,张三是男方,找女方去登记处登记结婚;第二,张三是女方,找男方去登记处登记结婚;第三,张三是男方,李四是登记处的;第四,张三是女方,李四是登记处的;第五,张三是登记处的(有点勉强),李四是男方;第六,张三是登记处的,李四是女方;第七,张三是第四方,李四是男方;第八,张三是第四方,李四是女方。就算男方女方完全对称不加区分,至少也有四重歧义。同样道理,如果张三是第四方,那么李四不可能是登记处的,只可能是婚姻双方之一。

李:我觉得这些带入了场景需求的歧义,不是文法层面的消歧问题,应该属于“伪歧义”。标配无歧义,到了具体篇章或场景,推翻了标配解读也是可以的。那是解析器后续模块的事儿了。

 

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

丹尼尔·马尔科维茨:生活如何成为一场无止境的可怕竞争

立委按:一个繁荣无比的现代社会 结果是没有人真正快乐。输者输 赢者其实也输了。这种社会肯定是站不住的。问题是 看到现代社会问题的 越来越多 越来越切实。但解决方案是一个很大的问题。但如果连问题都不面对 又有什么希望解决它呢?作者说,不能坐视精英社会不平等最后走向社会崩溃,总是要做点什么。既然现代化 全球化 资本主义化 精英化 没有带给人类更美好的社会,那么其他的路线都是可以考虑的选项了:包括川普的保护主义和建造大墙;包括桑德斯的社会主义;也包括杨的ubi方案。还有其他什么出路?

精英社会把成就看得比其他一切都重要,这让每个人——甚至富人——都很痛苦。也许有出路。

The Atlantic 杂志 2019年九月刊
丹尼尔·马尔科维茨
耶鲁法学院教授,《精英陷阱》的作者

1987年夏天,我从得克萨斯州奥斯汀的一所公立高中毕业,前往东北去耶鲁。然后,我花了将近15年的时间在不同的大学学习——伦敦经济学院、牛津大学、哈佛大学,最后是耶鲁法学院——一路上获得了一系列学位。今天,我在耶鲁大学法学院教书,那里的学生与我年轻的自己惊人地相似:他们绝大多数都是职业父母和高水平大学的产物。我把自己老师给我的优势传授给他们。他们和我都把我们的繁荣和种姓归功于精英选拔制度。

20年前,当我开始写关于经济不平等的文章时,精英制度似乎更像是一种对于不平等的疗法,而不是一种原因。精英制度的早期倡导者支持社会流动性。例如,20世纪60年代,耶鲁大学校长金曼·布鲁斯特(Kingman Brewster)将精英录取引入大学,明确目标是打破世袭精英。校友们一直认为他们的儿子有与生俱来的权利跟随他们去耶鲁;现在,未来的学生将根据成绩而不是家庭背景来获得入学许可。精英选拔制度——有一段时间——用才华横溢、勤奋努力的局外人取代了自满的局内人。

今天的精英仍然声称通过才能和努力,使用对任何人开放的手段来取得进步。然而,在实践中,精英制度现在将狭隘精英之外的所有人都排除在外。哈佛大学、普林斯顿大学、斯坦福大学和耶鲁大学从收入分配最高的1%家庭招收的学生总数超过了收入分配最低的60%的家庭。校友子女优先、裙带关系和彻头彻尾的欺诈继续给富有的申请者带来腐败优势。但是,偏向财富的主要原因还是要追溯到精英选拔制度本身。平均来说,父母年收入超过20万美元的孩子在SAT考试中比父母年收入4万到6万美元的孩子高出250分。来自最贫困的三分之一家庭的每200个孩子中只有一个达到耶鲁的平均SAT分数。与此同时,顶级银行和律师事务所,以及其他高薪雇主,几乎完全从少数精英大学招聘。

勤劳的局外人不再享受真正的机会。根据一项研究,每100个出生在最贫困的五分之一家庭的孩子中只有一个会侪入前五分之一的富裕阶层,每50个出生在中产阶层的五分之一家庭的孩子中只有不到一个会加入前五分之一。绝对经济流动性也在下降——自本世纪中叶以来,中产阶级孩子收入超过其父母的可能性已经下降了一半以上——中产阶级的下降幅度大于穷人。精英选拔制度将这种排斥定义为达不到标准,给经济伤害增加了道德侮辱。

公众对经济不平等的愤怒经常针对精英机构。皮尤研究中心称,近五分之三的共和党人认为大学对美国不利。今年早些时候大学入学丑闻引发的强烈而广泛的愤怒引发了一场深刻的怨恨。这种愤怒是合理的,但也是扭曲的。对裙带关系和其他不光彩的精英优势形式的愤怒——这种行为含蓄地宣扬精英理想。然而精英制度本身是一个更大的问题,它正在摧毁美国梦。精英制度创造了一种竞争,即使每个人都按规则行事,也只有富人才能赢。

但是,富人到底赢了什么?即使精英制度的受益者现在也因为它的要求而受苦。它诱捕富人就像它排斥穷人一样肯定,正如那些设法爬上顶峰的人必须拼命工作,无情地利用他们昂贵的教育来获取回报一样。

没有人应该为富人哭泣。但是精英制度给他们带来的伤害既真实又重要。诊断精英制度对精英的伤害会带来治愈的希望。我们习惯于认为减少不平等需要给富人增加负担。但是因为精英制度下的不平等事实上对任何人都没有好处,所以逃离精英制度的陷阱实际上会让每个人受益。

精英们在幼儿时期首先面临精英压力。父母——有时不情愿,但觉得别无选择——让他们的孩子报名接受精英教育,这种教育不是以实验和游戏为主,而是以培训和技能或人力资本的积累为主,其宗旨是被精英大学录取,并最终获得一份精英工作。纽约、波士顿和旧金山等城市的富裕家长现在通常要向10所幼儿园提出申请,进行一系列评估和面试——所有这些都是为了精英幼儿园评估4岁儿童的申请。申请精英中学和高中重复了这一磨难。贵族儿童曾经陶醉于他们的特权,精英儿童现在是“计算”他们的未来——他们通过各种自我展示的仪式,踩着雄心、希望和担忧的节奏为精英之路无休止地计划自己。

学校鼓励孩子们这样操作。例如,在东北的一所精英小学,一名教师贴出了一个“每日问题”,学生们在回家之前必须解决这个问题,尽管没有给他们留出时间来解决这个问题。这项练习的目的是训练五年级学生通过多任务处理或牺牲休息时间来榨取他们附加的学习时间。

这种要求是需要付出代价的。精英初中和高中现在通常布置每晚需要三到五个小时的作业。疾病控制和预防中心的流行病学家警告说,学校作业会导致睡眠不足。富裕学生比贫困学生表现出更高的吸毒和酗酒率。他们也遭受抑郁和焦虑的折磨,其比率是全国同龄人的三倍。最近对硅谷一所高中的研究发现,54%的学生表现出中度至重度抑郁症状,80%的学生表现出中度至重度焦虑症状。

尽管如此,这些学生还是有充足的理由像这样鞭策自己。几十年前接受30%申请者的精英大学现在只接受不到10%。某些院校的变化甚至更加引人注目:芝加哥大学直到1995年还录取了71%的申请者。2019年,它承认其录取率不到6%。

当精英进入职场时,竞争会加剧。在职场中,精英机会只被抓住机会所需的竞争努力所超越。一个财富和地位依赖于人力资本的人在选择工作时根本不能考虑自己的兴趣或爱好。相反,她必须把工作当作一个从人力资本中获取价值的机会,尤其是如果她想要足够的收入来为孩子购买保证自己优秀品质的精英教育。她必须致力于一个狭窄的高薪职位,集中在金融、管理、法律和医学领域。贵族一度认为自己是一个休闲阶层,而精英阶层则以前所未有的强度工作。

1962年,当许多精英律师的收入大约是他们现在收入的三分之一时,美国律师协会可以自信地宣布,“普通律师每年大约有1300个收费小时”。相比之下,2000年,一家大型律师事务所同样自信地宣称,“如果管理得当”,2400个计费小时的配额“并非不合理”,这是“希望成为合伙人所必需的”的委婉说法。因为不是律师工作的所有时间都是收费的,所以2400小时的收费很容易要求一年中每周从早上8点到晚上8点工作6天,没有假期或病假。在金融领域,“银行家的工作时间”——最初是以19世纪到20世纪中期银行规定的10到3(上午10点到下午3点)的工作制命名的,后来更普遍地被用来指代任何轻松的工作——现在已经被讽刺性地命名为“银行家9到5”,是从这一天早上9点开始,一直持续工作到第二天早上5点。精英管理者曾经是“组织人”,被终身雇佣束缚在公司等级制度中,奖励资历高于业绩。今天,一个人在组织结构图上爬得越高,她被期望工作得越努力。亚马逊的“领导原则”要求管理者“坚持不懈地保持高标准”,并“交付成果”。公司告诉经理们,当他们在工作中“碰壁”时,唯一的解决办法就是“爬上墙”。”

每周工作超过60小时的美国人报告说,他们平均希望每周少工作25小时。他们这么说是因为工作使他们遭受“时间饥荒”。一项2006年的研究发现,这影响了他们与配偶和孩子建立牢固关系、维持家庭、甚至过上令人满意的性生活的能力。哈佛商学院(Harvard Business School)最近一项高管调查的一名受访者自豪地坚称,“我晚上给孩子们的10分钟比花在工作上的10分钟伟大一百万倍。”只有十分钟!

优雅地或至少冷静地承受这些时间的能力已经成为精英成功的标准。一家大公司的一名高管接受了社会学家阿丽·拉塞尔·霍奇奇德(Arlie Russell Hochschild)为其著作《时间捆绑》的采访。她观察到,展示了自己技能和奉献精神的有抱负的经理面临着的“最终淘汰赛”是这样的: “有些人会火冒三丈,变得古怪,因为他们一直在无休止地工作……而高层的人非常聪明,工作得像疯子一样,而且不会火冒三丈。他们仍然能够保持良好的心态,保持家庭生活在一起。最终是他们赢得了比赛。”

一个从自己的人力资本中获取收入和地位的人,完完全全是把自己置于老板的支配之下——为了工作他必须耗尽自己。精英学生极度害怕失败,渴望那些传统的成功标志,即使他们看穿并公开嘲笑那些仅仅是“金星”和“闪亮的东西”。就精英员工而言,他们发现越来越难通过工作来追求真正的激情或获得意义。精英制度将整代人囚困在被贬低的恐惧和不真实的野心中: 总是饥饿,但从来没有找到,甚至不知道正确的食物。

精英阶层不应该——他们也没有权利——期待那些被排除在精英特权和利益之外的人的任何同情。但是忽视精英制度对富人的压迫也是一个错误。富人现在不是无所事事地而是费尽心力地统治着社会。曾经批判贵族不平等的常见论点,并不适用于基于努力和技能回报的经济体系。这位每周工作百多个小时的银行家的不懈努力,使她免受不劳而获的指控。那么,更好的办法是说服富人,他们所有的工作并没有真正得到回报。

他们可能不需要你想象的那样去说服他们。随着精英阶层的精英陷阱越来越收紧,富人自己也开始反对现行制度。要求工作/生活平衡的悲哀呼声越来越高。大约三分之二的精英员工表示,如果新工作需要更多的精力,他们会拒绝升职。当拉里·克莱默还是斯坦福法学院院长时,他警告毕业生,顶级律所的律师们陷入了一个似乎永无止境的循环: 更高的工资需要更多的计费时间来支持他们,更长的时间需要更高的工资来证明他们的合理性。他哀叹道,这个系统服务于谁的利益?有人真的想要吗?

逃离精英陷阱并不容易。精英们自然会抵制那些有可能削弱他们优势的政策。但是现实是,如果不压榨自己,使自己的内心生活变得贫瘠,就不可能从自己的人力资本中致富,而那些希望拥有自己的蛋糕并吃掉它的精英其实是在欺骗自己。建立一个让更广泛的人群能够获得良好教育和工作的社会——这样,爬到最高层就不那么重要了——是缓解现在驱使精英们坚持自己地位的压力的唯一途径。

如何做到这一点?首先,教育——其利益目前集中在为富裕父母苦练孩子——必须变得开放和包容。除非私立学校和大学的学生中至少有一半来自收入分配最底层三分之二的家庭,否则它们应该失去免税地位。公共补贴应该鼓励学校通过扩大招生来满足这一要求。

一个平行的政策议程必须改革职场,重点扶持那些无需经过精心培训或没有高学位的工人所生产的商品和服务。例如,卫生保健系统应该强调公共卫生、预防保健和其他主要由执业护士监督的措施,而不是需要专科医生的高科技治疗。法律系统应该部署“法律技术人员”——并非所有人都需要法学博士——来管理日常事务,如房地产交易、简单遗嘱,甚至是无争议的离婚。在金融领域,限制外来金融工程并支持小型地方和地区银行的法规可以将工作转移给中等技能的工人。管理层应该接受将控制权分散到高管之外的做法,以增强公司其他人的权能。

克服精英不平等的主要障碍不是技术上的,而是政治上的。今天的情况引发了不满和普遍的悲观情绪,可以说近乎绝望。政治学家杰弗里·温特斯在他的著作《寡头政治》中调查了从古典时期到20世纪人类历史上的各个时代,并记录了将收入和财富集中在一个狭窄的精英阶层中的社会的变化轨迹。几乎在所有情况下,这种不平等的消除都伴随着社会崩溃,譬如,军事失败(如罗马帝国)或革命(如法国和俄罗斯)。

然而,还是有希望的。历史的确清晰地展示了从集中的不平等中有序复苏的一个例子: 在20世纪20年代和30年代,美国通过采用新政框架来应对大萧条,新政框架最终建立起本世纪中叶的中产阶级。至关重要的是,政府再分配不是这一进程的主要引擎。政府建立的广泛共享的繁荣主要来自于一个促进经济平等而非等级制度的经济和劳动力市场——通过大幅扩大受教育机会,如《GI 法案》,将中等技能的中产阶级工人置于生产中心。

这些安排的更新版本今天仍然可用;教育的重新扩张和对中产阶级工作的重新重视可以相互加强。精英阶层可以收回闲暇时间,以换取收入和地位的降低,而这是他们可以轻松承受的。与此同时,中产阶级可以重新获得收入和地位,重居美国生活的中心。

重建民主经济秩序将是困难的。但是经济民主给每个人带来的好处证明了这一努力的合理性。不去应对可能导致的社会暴力崩溃让我们别无选择,只能尝试。

这篇文章改编自丹尼尔·马尔科维茨即将出版的书《精英陷阱》。它出现在2019年9月的印刷版上,标题是“精英制度的悲惨赢家”

搜狗机器翻译 译自:How Life Became an Endless, Terrible Competition

摘选老友芒果的评论,说得非常到位:

精英选拔制度不仅加剧贫富分化,阻碍阶层流动,而且身处其中的精英也深受其害:为了维持从自身人力资本中得来的财富和社会地位,他们得忍受超长工作时间,对自我兴趣自我表达的压抑,与家人关系的稀薄。(文中只提过一句而没有展开的是,这种高度倾扎的环境得来的利益并未如表面看那么美好。诚然数字上精英与大众薪酬差距越来越大,精英的社会环境也与大众越来越区隔,但正因为教育回报率高,社会环境区隔厉害,薪酬大部分是花在bid up positional goods,如学区房,如各种显示身份地位的消费品。如果大家不bid up,这些positional goods也属于这些人,不过代价少得多。所以disposable income没有看起来那么多)。

但这是个囚徒困境,谁先放弃谁输的,所以这个既得利益者也受害的制度的改革势在必行,否则只会迎来社会各阶层的离心。可惜作者提出的制度改革比较天真,nurse practitioners和legal technician代替医生和律师做一部分简单工作或许可行,但社会中,像这类硬性准入制度严苛的职业其实不多。强行用区域金融机构代替大行只为中低技能人士提供工作机会更是天真得可怕,我对这种理想主义戒心比对现状的不满还要强烈些。

但有没有希望呢?我觉得现在的技术条件是有的。精英选拔制度的基石,是winner-take-all,是符合狭窄一揽子选拔标准中的佼佼者能广泛的服务一大群人。但如此的“效率”并非我们的天性,我们天性中渴求知识,渴求推进认知的极限,渴求自我表达,渴求真实的人际关系,渴求与自然,与本土的连接,渴求有缺陷的美,如果社会价值鼓励多元化(真实的多元化,不是口号),相信大部分人都能寻得安身之所。

社会制度相应的变化,就是一个强健的安全网络,能容忍各种试错,能护扶年轻人的勇往直前不怕跌倒,让what doesn’t kill you makes you stronger不仅是一句鸡汤而能理直气壮成为他们的信念。当然,在美国,一个很重要但一直被忽略的,就是社会对基础研究的投入,想想如果当初的bell labs在美国到处开花。。。聪明的年轻人不用只往花街律师医生这几行里面挤了。

立委后记:

Great great thesis.  Right to the point on problems of modern society.  Is the solution feasible ?

一个繁荣无比的现代社会 结果是没有人真正快乐。输者输 赢者其实也输了。这种社会肯定是站不住的。问题是 看到现代社会问题的 越来越多 越来越切实。但解决方案是一个很大的问题。但如果连问题都不面对 又有什么希望解决它呢?

所谓左派的抬头或流行 与其说是人们认同他们 不如说是人们不能接受/忍受现状。既然现代化 全球化 资本主义化 没有带给人更美好的社会 那么其他的路线都是可以考虑的选项了:包括川普的保护主义和建造大墙;包括桑德斯的社会主义;也包括杨的ubi方案。还有什么出路呢?作者说,不能坐视精英社会不平等最后走向社会崩溃,总是要做点什么。

但这位象牙塔教授的作者还是太过书生气。她在诊断和刻画过度竞争的现代精英社会的社会矛盾和道德不平等方面,力透纸背。但在提供方案方面,简直是天真,看不出任何可行性,还不如摇唇鼓舌的政客。譬如,她说 精英阶层既然不幸福 不堪重负,那就退一步 少拿钱,把机会分给中下层一些。她建议说 社会应该下放一些工作。感冒发烧不值得去看医生,可以改去看赤脚护士。大体就是这个思路。道理是有的 没有实现的切实路线。

相关:

原文:How Life Became an Endless, Terrible Competition

精英陷阱

搜狗机器翻译

miserable-winners/594760/