《马斯克的AI牛皮》

马斯克名句:

The FSD price will continue to rise as the software gets closer to full self-driving capability with regulatory approval. It(At) that point, the value of FSD is probably somewhere in excess of $100,000.

随着软件在监管机构的批准下越来越接近完全自动驾驶能力,FSD(全自动驾驶软件包)的价格将继续上涨。最终的FSD价值可能超过10万美元。

吹嘘说这套FSD全自动驾驶软件一旦完全建成,它的价值应该在 10 万美金左右。一辆车才 4 万美金,软件能值 10 万。只有马斯克的大嘴可以吹得出来。但是这是垄断价格,你没法子。支持他这套AI牛皮的是这样的论证,看能不能自圆其说:

他说你买了一辆特斯拉 4 万,然后你按照现在的价格 8000 美元(昨天是 7000 美元)买这个还没有实现的全自动驾驶。你就具备了参加 Robo Taxi (无人出租车)网络的资格,到时候特斯拉在你睡觉的时候,就发指令把你家的特斯拉开出来服务客户,所赚取的钱两家分成。你啥也不做,结果一年就可以挣钱10万。你如果现在不买不到一万美刀的 FSD,到了能够赚钱的时候才购买FSD去加入它的赚钱俱乐部,也是可以的。但对不起,那时候 FSD 就要售价为 10 万了。你一年左右可以赚回来,也不亏,是不是?所以说,FSD 的价值随着功能的增强和全面是递增的。

多漂亮的一套说辞。商人(企业家)做到他这份上,真是开眼了。

软件的高价只能靠垄断。一旦出现竞争,软件的价格绝对是不断下降。但是马斯克底气足是因为他现在没有竞争。没人有能耐或敢于把FSD交付给市场和终端车主。其实以前为特斯拉提供辅助自动驾驶服务的 Mobileye 就跟它不相上下,差了还不到半步,而且也不依赖昂贵的激光雷达。但是这半步还是很难追赶,因为特斯拉是硬件软件一体的,而前者只提供软件解决方案。另外,特斯拉数据源源不断,这对于离不开大数据的AI神经网络训练是关键性优势,特斯拉的自驾性能预期提升速度会呈现加速度。其他的自动驾驶比特斯拉的表现强的不是一家两家,他们依赖昂贵的激光雷达,无法把这些高大上的自动驾驶AI能力融入量产电动车,交付给客户。特斯拉的AI垄断价格,估计还可以至少维持5年。(最新的消息是,中国有的厂家已经可以造出便宜可用的激光雷达了。那时候,特斯拉的垄断可能会被打破。)

马斯克还有一句名言,大意是:世界上所有的车,都是随着时间折旧贬值的。唯有特斯拉,是不断增值的资产(appreciating assets)。都什么年代了,还去买燃油车,只有大傻瓜才不买特斯拉。

论证这一点,马斯克使用了完全相同的 Robo Taxi 帮助你睡梦中赚钱的说辞。他说,维持这个无人出租车队的是特斯拉,而特斯拉自己不可能一夜之间造出来足够多的出租车。因此必须与特斯拉车主合作,让利分成。你作为车主,先投资买了特斯拉,一旦它成为摇钱树了,你就被特斯拉收编。

美丽的神话。但貌似逻辑上也没大的漏洞。无人驾驶出租,按照马斯克,是一两年内的必然,AI 本身的能力毋庸置疑,其安全性要远远超过人类驾驶。唯一的障碍是政府监管部门是否及时批准无人出租业务。

老友说:“要做无人出租车的话,电池容量要大大增加,或者做到无人自动充电”。

可不,马斯克本质是忽悠。他说的半真半假。他在一个访谈节目已经展示了无人自动充电的原型机。电池容量的问题,说是百万英里电池已经有技术突破,今年底可以量产。但电池是整个车成本的 40%,老的车总不会去给免费更换电池吧(购买FSD的老客户,特斯拉许诺免费更新电脑硬件到 HW3,也是费了很长时间还没做好,比起电脑硬件,电池硬件成分更大得多)。

不久前在某AI峰会上,二马(马云与马斯克)对谈,感觉是一个暴发户遇到了不食人间烟火、充满“爱”(AI)心的外星超人。这一眨眼,超人也成了暴发户!据最新报道,马斯克的财富已经超越马云。

 

IMG_4154

IMG_4137

 

 

【相关】

《王婆不卖瓜,特斯拉车主说自驾》

是特斯拉的自驾AI牛还是马斯克牛?

《AI 赚钱真心难》

https://ts.la/wei29218 :用这个推荐订购特斯拉,你我都可得到1000英里免费超冲。

 

 

 

《王婆不卖瓜,特斯拉车主说自驾》

“车到山前必有路,有路就有丰田车”,这是改开以后进口汽车大举入境听到的最响亮的广告词,也是我们在特斯拉前最忠于的厂家品牌了。除了一度短期尝试过二手车马自达626和Honda CRV外,换过的四次新车都是丰田,从 Corolla 到 Camry,再到 Prius 和 Camry Hybrid。

如果没有电气化和AI革命,丰田作为贴心厂家也的确没有什么好挑剔了。人有惯性和惰性,估计就一辈子跟它了。可是半路杀出个特斯拉,一开始以为无缘,因为家里车库成了仓库,满是舍不得扔的陈年旧货,无地支持充电了。后来老友指出外面充电也很容易,这才搭上了特斯拉大篷车。

昨天新闻特斯拉一枝独秀,二季度疫情期间被迫停产两个月依然表现靓丽,大幅超过华尔街预期,交付了9万辆(分析家预期是7 万),其中有两万多 Model Y。眼看股票又一轮大涨,快天价了。丰田比特斯拉量产和交付能力大27倍之多,结果市值却被特斯拉超越。从来不乏唱衰(short)特斯拉的投机者,据说他们被坑惨了,有的几近破产。

特斯拉的魔力何在?到底有什么特别的实惠?

至少对我,特斯拉的自动驾驶(auto-pilot / full self driving)一劳永逸地解决了开车的三大隐患。这开车三大险,一辈子感觉有阴影:(1) 是换线; (2) 是上高速并线;(3) 是打瞌睡(疲劳驾驶)。

换线和并线对于我特别重要,是因为我比较笨(右脑欠发达?)。开了30年的车,迄今换线还不时会发怵。发怵的感觉就是在赌命、冒险。这种感觉很不好。现在好了,我要换线就只管打转向灯,然后半闭着眼睛由他去,不用先侦查敌情,后检查盲区。迄今为止,特斯拉自动换线已经实施了多少千万上亿次了,因为换线而引起的事故一次也没有过。这不奇怪,它有那么多眼睛(8个摄像头,12个超声波,外加1个前瞻雷达),又长于心算,换不过去它不会冒险。而通常情况下,它总能找到足够大的空档和机会。人就不同了。手脚笨的人心理素质差,错过机会的事情经常发生,不该冒险的时候,又常常糊里糊涂冒险。没法跟机器的冷静自若比。从来没见过机器发慌,只偶尔见过它换线刚要启动,突然重回原线,那是因为后面的空档被某人突然加速缩小了,它及时做出反应。

这第(2)项是从匝道上高速,心惊肉跳过不知多少次了,尤其是当年刚学驾驶的时候,那简直就是鬼门关。北美的有些路口设计得忒短,好像逼着你去撞车似的。谢天谢地,特斯拉现在接管了。当然,目前的感觉匝道并线还是不如换线让人放心。虽然也没听说过特斯拉因为并线出了事故,但是有时候还是觉得它有些鲁莽,让人心理感觉不好,有时候情不自禁自己要接管过来。希望这个功能进一步加强,不仅仅是确保并线的安全性,而且要寻找最佳并线策略,照顾驾驶者的玻璃心。

第(3)项是疲劳驾驶。这种事情身边的亲朋好友出事故、大难不死的,已经有若干起了(因此伤残、乃至一命呜呼的报道也见过不少)。我自己也有过若干次惊魂一刻的恐怖体验,一想起来就后怕:突然瞌睡受不了,多次挣扎后不知何时突然在高速上就打了几秒钟的盹,冥冥之中的恐惧之神又使得惊醒过来。高速路上的困倦感觉非常不好,惊醒后的感觉更加糟糕,总觉得是从死神身边走了一趟回来,往往心跳虚汗不止。虽然可以用逼迫自己下高速小睡片刻的办法来应对(现在也大多这样践行了),但实际上一辈子完全不冒险疲劳驾驶,估计谁都做不到。很多时候是自己在停与不停之间纠结,感觉还撑得住,总想再坚持一下,觉得掐大腿,唱革命歌曲、鬼哭狼嚎、喝浓茶或咖啡,以为总可以坚持到下一站,不必荒郊野外地下高速。现在,这个问题基本解决了。不是因为自动驾驶可以代替你的睡眠,而是因为:(1)由于 90% 以上的时候,自动驾驶功能使得你处于放松状态,同样的路程紧张感疲劳感大为降低,疲劳驾驶出现的几率大幅度降低;(2)万一打盹了几秒钟、几分钟,虽然规矩上不被允许,但有自动驾驶罩着,安全性上其实是没有问题的。

驾驶三险基本解决,而且只会越来越好,你说这个不是实惠什么是实惠。所以几乎所有的特斯拉车主自愿做自动驾驶的小白鼠、做被割的韭菜,自有其心甘情愿的道理。

 

【相关】

是特斯拉的自驾AI牛还是马斯克牛?

《AI 赚钱真心难》

https://ts.la/wei29218 :用这个推荐订购特斯拉,你我都可得到1000英里免费超冲。

 

 

 

《AI 赚钱真心难》

朋友圈看到关于风投之神孙正义的新闻《大溃败!今天,阿里最大股东断臂求生!》,令人感慨。

上帝似乎是公平的,他让上一波科技革命赚取太多的富豪,在新一波泡沫中吐回来,做了必要的死在沙滩上的前浪。他不亏,谁亏?What comes around goes around,这是最值得吐血的对象。

这一波AI泡沫,比上一波互联网泡沫,更加诡异。你说它全是泡沫吧,背后其实有很多干货。你说它是真的吧,除了马斯克特斯拉的自动驾驶和少数AI项目,绝大多数AI无法规模化落地,成为可以带来利润的生产力。这个诡异怪象让很多风投滴血,甚至把很多AI专家也搞糊涂了。

到底是巫术还是奇迹,为什么出不来产品,为什么靠AI赚钱这么难?

迄今为止,AI赚了钱或得了利的主要是三种人:第一种是赚了风投的钱,吐血的是大大小小的孙正义。第二种是搭了巨无霸的顺风车,那些IT大厂不惜巨资做AI,不是因为AI给他们做出了赚钱的产品,而是想靠炒作AI提升股价,最终是让股民买单。大厂无一例外不敢不上,不能不鼓吹AI,无论其创始人对AI是真了解还是门外汉。他输不起,泡沫起处,你不冲浪冒险,你连游戏都玩不了,入不了局。 第三种才是真正找到了市场切入点,把AI落地做成了规模化产品,占住了某个领域市场,也彰显了 AI 的威力。可惜,这第三类跟大熊猫似的,非常珍稀,而且多是九死一生侥幸生存下来的。包括特斯拉的自动驾驶,也是大难不死,现在才见到了曙光。

各大AI巨头及其团队和平台呢?就数他们的动静大,尤其是如今大数据的时代,讲的是机器算力和数据为王。有人形象地称之为“军备竞赛”,这使得过往在AI研究界领先的大学教授处于弱势,大学实验室在数据和机器两方面都无法匹敌IT大厂。其实要是细算,也不是大厂的AI平台在赚钱。看得见的最大利益还是AI的话题性和热度,对于帮助维持和提升股价极为有利。譬如谷歌搜索,这一波AI热之前的技术依然是主体。你要说新的谷歌搜索更加强大,是融入新的AI(例如知识图谱),那当然也没错;但本质上还是以前的关键词搜索以及广告模式在源源不断地赚钱。谷歌的 AI 平台说是全世界都在用,赚了多少钱?微软、亚马逊倒是靠云服务赚钱了,这云服务说是融入了 AI 也不能算错,但本质上是计算资源的优化,而不是AI,至少不是 硬核AI。Alexa 智能对话不是 AI 吗?也用到了云。但智能对话一直是赔本的买卖。可这是端口,就好像上一波互联网革命时门户网站是端口一样。不能不上,赔本也要做。希望寄托在AI的明天,而不是当下。

机器翻译本来是个可以赚钱的产业,也恰好是这一波AI神经网络突破的最好体现。可各大厂一拥而上的互联网免费服务模式,活活把这个产业做死了。总之,迄今为止,纯靠AI赚钱,而不只是烧钱,还是熊猫般珍稀。所以说AI是泡沫,大体是对的,只不过不经历这波泡沫,你没有通向明天的门票。

我帮助创业、服务了10年的 Netbase,现在看来算是在社会媒体大数据舆情自动挖掘的市场真正站住了。靠的是硬核AI语言技术,属于熊猫类 success story,连续多年被列为美国NLP市场屈指可数的几个 players 之一。但那也是侥幸,是在烧了七八千万投资以后才站住的。同期创业的几十家做舆情的AI初创,全部灰飞烟灭。算是尸骨堆里爬出来的熊猫,美国只此一家了,世界上真正的对手还有一家英国的 BrandWatch。

最后谈谈AI落地成功故事中的奇葩,特斯拉的自动驾驶。在众多自动驾驶的团队中,特斯拉自动驾驶眼看要成为软件摇钱树了。

特斯拉自动驾驶最新的版本是 2020.24.6.1,昨晚刚收到自动更新。主要改进是绿灯过十字路口不再需要用户首肯了,可以自己前行。这个功能它其实早就有了,就是压着不给用户,为了谨慎,或者为了吊人胃口。现在给了,被宣扬为向 city self-driving 进军路上的一个里程碑。为此,这套所谓的全自动驾驶(FSD,Full Self-Driving)软件从7月1号开始再加价1000美元,从现在的 7000 增加到 8000,这是想刺激还没有购买 FSD 的车主,赶快在提价前上车,为特斯拉 Q2 因疫情停工而疲软的营收添砖加瓦。这是AI赚钱的活生生的例子。

马斯克这么一来,特斯拉软件和硬件的比例进一步向软件倾斜了。约4万美元的模型三,其中自动驾驶软件就是一万,占了大约四分之一。这个比重在汽车制造企业是难以思议的高,属垄断价格,没有竞品。

一万软件是这样的:基本的辅助驾驶(叫 auto-pilot 功能,主要是自动直线行驶和自动跟车这两项)是以2000-3000美元的价格算在特斯拉的售价里面,现在是标配必选。可选项是所谓FSD,额外的7000美刀(过两天就是 8000),主要功能包括:自动进出停车位、自动换线、高速公路上全自动(包括高架桥自动选择匝道,从一条高速换到另一条高速)、识别并执行红绿灯、智能召唤,还有尚待实现的十字路口转向,最后就是马斯克所谓 feature-complete 的可以执行点到点的自动驾驶能力。虽然马斯克声称今年年底前完成 FSD feature complete,没有人认为他可以做到,FSD 本质上是在销售还没有完全实现的 AI 能力。

软件的特点是,一旦实现了功能,软件的复制成本基本是零,这就使得同样的成本投入,利润空间可以非常巨大,一切取决于用户的数量。马斯克是特别功于算计的商人(企业家),打着AI的招牌,不断压榨粉丝。其实到网上调研一下就知道,论先进性和性能表现,特斯拉的自动驾驶,比先进的系统,差距还很大。为了节省成本,坚决拒绝激光雷达精准测距的特斯拉,不得不依靠计算机视觉(CV,computer vision)实现自动驾驶,天然处于不利地位,只能在背后利用信息融合的算法来仿真激光雷达的景深测距效果,做起来非常吃力。但是,也正因为此,特斯拉是唯一真正把自动驾驶交付到普通客户手中的厂家,因此他有垄断定价权。没有第二家做到这一点。自动驾驶强的,成本下不来,无法量产和普及。自动驾驶刚起步的,还在非常有限的辅助驾驶里面出不来,无法让人体验到可以称得起自动驾驶的能力。谁说AI不能赚钱呢?运气之外,还是要看AI企业家的艺高胆大啊。

 

 

【相关】

大溃败!今天,阿里最大股东断臂求生!

【NLP自选系列2020专栏连载】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《大数据人工智能时代的无中生有》

最近玩自称经过大数据训练的智能人脸上色的软件(colorize app),把收集到的黑白照片一股脑送进去试验。看黑白时代的亲朋旧友的留影,一个个突然鲜活起来,让人惊喜。分享给老友怀旧,大家都感觉很神奇。先看看当年的女神夏梦的彩色还原,还有小花陈冲。对了,还有光彩照人的绝代风华奥黛丽·赫本。

 

 

 

 

不要看胳臂和腿,还有手,彩色背景下跟乌爪子似的。这个软件专注人脸上色,还没顾上其他。人脸上色还是很到位的,不温不火,非常自然。我当年的黑白婚照也重放光彩了哈:

记得在黑白时代,照相馆里面有为照片上色的服务。一切全手工制作,描眉画眼,粉腮白肤,总是透着一种假,根本不如电脑上色的圆润自然。

这是什么黑科技?答曰,这是大数据时代人工智能的拿手好戏。“无中生有”的极致,乃是大数据AI的特长。

前两天看【新智元】的两篇报道,均配有样例图示。第一则是《杜克大学:AI工具精细还原模糊图像,可瞬间将分辨率提高64倍》。

第二则是《中科院DeepFaceDrawing:只需提供小学生水平的简单线条,便可生成逼真肖像》。

老友说:这个太牛了,警察可以根据画师的画大大缩小搜查范围。没摄像头的地方,只有有人看到嫌疑人,都可以用到这技术。

将来的应用可能是这样,根据目击者得来的简单素描,通过参数设置,生成一系列清晰图片,唤起目击者的记忆和印象,从中选择最近的那张。所谓脑补,或曰想象,大抵如此。

以前一直有个误解,以为“想象”、“脑补”(包括通过常识、场景知识和专业知识进行脑补)这种东西是人工智能不可企及的区域。这种东西是不大容易说清楚的,是知识的积淀,经验的积累。传统的符号派人工智能也做过尝试(譬如建立巨大无比的常识库如 cyc,试图施行常识推理),但是终归是太繁复,灰色地带大,缺乏确定性,效果和效益都遭遇挑战。没想到如今大数据与人工智能的结合,特别是深度神经网络技术的突破,为这些东西打开了一扇奇迹般的大门。无中生有不再是美梦一场。

做过常规音影处理的同学都知道,高清度的对象降低维度(譬如从彩色降到黑白)到低清度,没有任何问题,因为信息是处于减少的状态。但逆过程就是挑战,因为需要“无中生有”。 这个挑战以前认为是不可克服的,巧妇也难为无米之炊呀。再大的魔术师也不能真正地无中生有吧?你看他台上从空盒子里面变出一只鸭出来,你心里明白那是假的。这只鸭子肯定是藏在哪里,魔术师用了障眼法,把观众唬住了而已。物质不灭,无中生有是绝对不可能的事情。魔术师自己也承认:魔术都是假的,各有巧妙不同。可人工智能的魔术却不是假的!

关于无中生有,AI老司机老毛说:其实也没那么神,数学上就有外推和插值,还有凭经验猜测,甚至可以随机插值。

这才叫知者不神,神者无知,hence 科普。人在无知的状态中,是很容易神化对象的,这是人的本性,否则人没法解释,也感觉不安。人工智能历史上有个现象,说的就是人对未知的神化,叫“伊莉莎效应”( 拙文《反伊莉莎效应,人工智能的新概念》有介绍)。古往今来所谓奇迹,大多是常态的神化。反过来,也不能因为AI从业者时刻在创造或大或小的奇迹,就失去了庆祝的欣喜。每天面对屏幕中自己创造的奇迹,体验无中生有的上帝般的自由,也是人生一乐。我们走在无尽的大路上,由必然王国逼近自由王国,虽不能至,心向往之。

抒发完职业豪情,回头细看无中生有的背后。物质固然不灭,可观念世界似乎有所不同,更富弹性。然而最大熵定律仍然决定了,信息世界只会越来越趋向混沌,而不是反过来变成清晰。信息补漏是需要资源和能量的,从哪里来的呢?三个字,大数据。当然,光有数据,没有AI能力也不行。这是大数据AI的时代。

孤立地看一张照片,模糊转清晰,黑白转彩色,没有可能凭空而来。但是,有了大数据就不同了。而且这种大数据是天然的“带标数据”(labeled data)。以前说过,机器翻译大数据是天然带标,因为有人类翻译的历史积累。因此特别适合做端到端(end to end)的深度学习,所能达到的翻译质量,比很多学了好多年外语的人的翻译还要通顺得多。现在遇到的这个场景是另一类“自然”带标大数据的端到端场景。无论黑白转彩还是模糊转清晰,所有这些需要“无中生有”的应用场景,都有一个共同特点,就是可以对于大数据对象做“反操作”,从而把自身变成无穷无尽的带标大数据。一切都是全自动的,不需要人工标注,这是多么理想的大数据学习应用场景,不出奇迹也难。把收集到的彩色照片,一锤子全部砸成黑白,端到端的对应就建立起来。剩下的就是拟合了。

这种学习出来的无中生有,会有问题吗?当然有。第一是方向可能偏了,“还原”出来的东西与心目中的印象产生或大或小的距离。第二是趋同,大数据的统计本性,结果是中庸化了。如果原来的对象有独特的特征,大数据脑补是很难还原出独特性的。

对于第一个问题,解决办法前面说了,可以通过某种参数,或者通过某种随机因素,生成一系列候选,而不是唯一的结果,总会有一款比较接近你的想象、记忆或原物。对于第二个问题,其实可以通过大数据的定向化来逐步解决。譬如专门对亚裔建立大数据,专项处理亚裔图像还原的工作。同理,还可以把南方人北方人分开训练。

无中生有的工作,我们20年前就开始做。当年给罗马实验室做项目,遇到的一个难题是历史文献都是全大写。我们的自然语言引擎见到大写,常常当成专有名词了,质量是断崖式下跌。当时,很多 teams (包括 BBN)组织力量标注大写的文献,然后重新训练系统。而我的团队与 IBM 是第一个差不多同时决定不为信息抽取的目标做重新训练,而是先训练一个大小写还原的前处理器。结果整体质量大幅度提升,虽然当时还没有深度学习,用的是传统的机器学习。这是因为恢复大小写的工作可以做得很好,有几乎无穷的自然带标的训练数据(同样是利用大小写规范的文档一锤子砸成全大写)。

至于符号派经典机器翻译中无中生有的故事,上次的科普《语言形式的无中生有:从隐性到显性》已经介绍过了。那根本没用机器学习,但是也还是可以通过蛛丝马迹“无中生有”地生成欧洲语言的形态(形态生成)。那个无中生有的原理不同,依靠的是源语言(中文)文字中的信息冗余,外加语言习惯里的种种  heuristics (表达的习惯性总结),有时候还要加上一些类似“常识”的概念相谐的“脑补”。但老式符号机器翻译中的无中生有终归感觉很吃力,“功耗”很大。在无中生有这个课题上,不得不说,对于任何具有源源不断天然带标大数据的场景,还是大数据深度学习的路子最为强大。深度学习一统机器翻译天下,说明了大数据AI的压倒性优势。同理,图片还原也必然是大数据AI的领地,我们会看到越来越多的应用。可以预见,黑白电影时代的佳作,最终可以自动还原为彩色。

 

 

【相关】

反伊莉莎效应,人工智能的新概念

语言形式的无中生有:从隐性到显性

【NLP自选系列2020专栏连载】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

乔姆斯基批判

已有 7986 次阅读 2015-6-15 00:01 |个人分类:立委科普|系统分类:观点评述|关键词:学者| NLP语言学乔姆斯基

【立委按:微信泥沙龙,谈笑鸿儒,高朋满座,信马由缰,言无所忌,摘之与同仁分享。】

【泥沙龙对话录】

今儿个咱要吐槽乔老爷,不吐不快。

开题:乔姆斯基,对领域的误导,或负面影响,与他对语言学的革命性贡献,一 样大。

他的hierarchy,是天才绝顶的理论,是不可泄露的天机,从而奠定了形式语言的基础,用来创造、解释,或编译计算机语言,是完美的指导。

可是,完美往上走一步,就可能成谬误。乔姆斯基拿这套理论,硬往自然语言套,导致整个领域,在所谓自然语言是free,还是sensitive,还是 mildly sensitive等不靠谱的争论中,陷入泥潭。

太多的人被引入歧途,理所当然地认定,因为自然语言复杂,因此需要 powerful的文法。这个 powerful,是世界上用的最误导的词。

工程师发现,有限状态好用,但经不起理论家的批判:你那玩意儿太低级,不够 powerful,只能拿来凑合事儿。

实际上,做过大工程的人都明白,对象的复杂,并不是使用复杂机制的理由,有本事使用简单机制对付复杂的对象,才是高手。

乔姆斯基最大的误导就是,用所谓自然语言的center递归性,一杆子打死有限状态,他所举的center递归的英语实例,牵强和罕见到了几乎可笑的地步,绝非自然语言的本性。结果一代人还是信服他了,彻底地被洗脑,理所当然以为必须超越有限状态才可以做自然语言深度分析。

为了所谓语言的递归性,人脑,或电脑,必须有个堆栈的结构才好,这离语言事实太远,也违背了人脑短期记忆的限制。世界上哪里有人说话,只管开门而不关门,只加左括号不加右括号,一直悬着吊着的?最多三重门吧,一般人就受不了了。就算你是超人,你受得了,你的受众也受不了,无法 parse 啊。说话不是为了交流,难道是故意难为人,为了人不懂你而说话?不 make sense 嘛。

既然如此,为什么要把不超过三层的center循环,硬要归结成似乎是无限层的递归?

(毛老:递归成了他的宗教。)

不错。乔老爷的递归误导语言学,坑了NLP太久。我对他的语言学不感冒,对他对NLP的误导,更感觉痛心。一个如此聪明强大的人,他一旦误导就可以耽误一代人。被耽误的这一代是我的前辈一代(上个世纪70年代80年代),他们在自然语言理解上的工作几乎一律为玩具系统,在实际应用上无所作为,从而直接导致了下一代人的反叛。老一代被打得稀里哗啦,逐渐退出主流舞台。

在过去30年中,统计NLP的所有成就,都是对乔姆斯基的实际批判,因为几乎所有这些模型,都是建立在ngram的有限状态模式的基础之上。


(洪爷:从乔姆斯基的所作所为,就能分出构造机器智能和解构人类智能难度上的差异。他五十年代略施小计就把形式语言夯成了计算机的Cornerstone,可是穷毕生精力,总是在重构其语言学理论。
毛老:如果没有乔老的那些理论,人们能做出计算机语言编译吗?)
洪爷:语法mapping到语义,总是要做的,不必须用形式语言,就像现在做nlp的人也不必须懂语言学。还是 David Marr,David Rumelhart 等立意高远,总想找到人机等不同智能实现上的共通计算机制。
刘老师:Marr 也是人神级别的
毛老:跟上面问题类似的是:如果没有图灵和冯诺依曼的理论,人们会造出计算机么?
洪爷:Babbage的分析机可行,Ada的程序/算法也早可行。其实,问题不在于出冯诺依曼还是马诺依曼,问题在于,不管他们的理论表面上如何不同,可能都受同样的约束,能力上可都能都等价。而Chomsky 研究的是这些约束能力。
毛老:那图灵不是更加么?
洪爷:Turing 从机器一侧,Chomsky从人一侧。)

洪爷说的是事实,过去三十年不懂语言学做NLP的占压倒多数。但那不是健康状态。不过,语言学里面也很混杂,进来的人很容易迷糊。但是,语言学里面确实有一些指导性的东西,了解与不了解大不一样。比如索绪尔,就值得琢磨。索绪尔说的大多是原则性的,有哲学的意味,是传统的非科学性的语言学,特别具有宏观指导意义,可以提醒自己不至于陷入细节的纠缠,而忘记了方向。他谈的是共性与个性的关系,语言和言语,规则与习惯,共时与现时,都很洞察、到位。

(白老师:我觉得线速、柔性很关键,多层次递归和远距离相关必须搞定。方法不限,八仙过海。)

那些已经搞定了,伪歧义也不是问题,都搞定了。有一种叫做cascaded FSA的方法,与软件工程的做法极其类似,就能搞定这些。前提是指挥者架构者不能失去全局,要胸怀索绪尔,而不是乔姆斯基。架构和interfaces设计好,下面就是模块的开发,匠人的干活,可以做到很深,接近逻辑表达,比chomsky的文法深。传统规则系统受乔姆斯基CFG影响太大,很不好用,而且也无线性算法,所陷入的困境与神经网络以及一切单层的统计系统类似。正如多层的深度学习被认为是AI的突破一样,有限状态一多层,一 cascade,以前天大的困难,递归啊远距离啊伪歧义啊,就消解于无形。

(白老师:数学上的函数复合。)

就这么一个简单的道理,结果至今批判规则系统的人,还在打稻草人,以为规则系统都是CFG那么愚蠢和单层。


乔姆斯基对nlp的误导,还在于它的短语结构的表达法。那个phrase structure破树,叠床架屋,为了追求所谓语言共性,太多的assumptions,既不经济也不好用,却长期成为 community standards,误导了不知多少人。起码误导了 PennTree,通过它误导了整个领域。,

(白老师:某种意义上,nlp是应用驱动的。与应用匹配,Ngram也不算误导。与应用不匹配,HPSG也算误导。抽象的误导不误导,让语言学家掐去吧。一个topic问题,扯了这么多年。)

语言学家打烂仗的事儿多了,说起来这与乔老爷也有很大关系。有个 self,相关的所谓 Binding Theory也是论文无数,大多垃圾,这与老乔的负面影响直接相关。为追求 universal grammar,和脱离语义的generalizations,走火入魔,大多是无谓的口水战争,既不能推进科学,也不能推进应用,唯一的好处是帮助了很多语言学博士的选题,培养出一茬接一茬的语言学博士。可是,毕业了还是找不到工作。老乔由于其超凡的智力和名气,帮助提升了语言学的地位,但他没有能力影响市场,结果是全世界语言学家过剩,懂得茴字五种写法的落魄腐儒,如过江之鲫,谁能给他们就业机会?


这里面的要害在,所有的语言分析,不可能为分析而分析,都是为了求解语义的某种需要,可老乔强调的语法纯粹性,要脱离语义才好研究终极的机制,这个argument有历史的革命意义,有某种学术价值,但非常容易形而上学和片面化,结果是语言学家脱离了目的,脱离了需要,在争论一种分析,或一个模型与另一种的优劣。其实这些相争的方案,只要系统内部相谐,都大同小异,根本就没什么本质区别,而且没有客观的可量度的评判标准,那还不打成一锅粥。

(刘老师:摆脱语义,直接进入语用?)

哪里,乔老爷是要直接进入共产主义,要世界大同。他对语义不感兴趣,更甭提语用。语义在他属于逻辑,不属于严格意义的语言学。句法语义是分割开来的两个范畴,句法必须自制。

(白老师:句法自制是错误的。)

对传统语言学完全不分家的那种分析,老乔有革命意义,也确实推进了结构研究,但凡事都是过犹不及。句法自制推向极端,就是本末倒置,失去方向。

我做博士的时候,在一个小组会上,举一些汉语的例子,作为证据反对一刀切的句法自制,说老乔有偏差,看到的语言事实不够,结果被我导师劈头盖脸批了一通,言下之意,不知天高地厚。我当然口服心不服。

问题是,我一辈子只思考一个问题,只要醒着,头脑里除了语言,就是文法,除了词汇,就是结构,突然有一天觉得自己通达了,看穿了语言学上帝,乔姆斯基。

原来,智商高,不见得离真理近,智者乔老爷,也不例外。

(洪爷:老乔不是上帝,他只是让咱看到来自造物主的理性之光。)

形式语言理论,非人力可为,绝对属于天机,单凭这,乔就是人神。

吐槽乔老爷,一次抱怨完,明儿依旧是偶像。

【后记】

到了我们的年代,俄语退居其后了,所以我本科的二外选的是法语,到研究生才选了俄语做三外,不过全还给老师了。虽然语言是还给老师,体悟到的语言学却长存,所以也不冤。到 30 年后的今天主持 multilingual program,带着参考书,我还一样可以指导法语和俄语的 NLP 研发,语言的不同,换汤不换药也。

不管我怎么批判乔姆斯基,我还是服他到不行:他老人家的威望可以把 Universal Grammar 这种乍听很荒唐的观念,转化成一个让人仰视的语言哲学理念。UG 的真理之光由此不被遮蔽。当然最厉害的还是他的 hierarchy 形式语言理论,那几乎不可能是人的理论,那是上帝之光,尽管乔老爷在描述的时候,不免机械主义,hence 造成了极大的误导。



【相关博客】

巧遇语言学上帝乔姆斯基

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 

Chomsky’s Negative Impact

泥沙龙笔记:再聊乔老爷的递归陷阱

【置顶:立委科学网博客NLP博文一览(定期更新版)】

[4]tuqiang   2015-6-15 22:56乔姆斯基那一套可以做计算机里面数学式子的分析,离开自然语言差了十万八千里。

 回复  : 话说回来,没有自然语言的数学化研究和启示,他老人家也提不出形式语言理论来。至少从形式上,他能把人类语言和电脑语言统一起来,达到一种人力难以企及的高度。如果没有乔姆斯基,电脑理呆们打死也不会对词法分析,句法分析,语义求解,parsing 等感兴趣,并如数家珍地谈论这些语言学的概念。这是其一。

其二,正因文乔老爷自己也知道他的形式语言理论的抽象过头了,难以回到自然语言的地面,才有他穷其一生在自然语言的语言学方面的继续革命,革自己的命,花样翻新,试图找到一个终极的普遍文法的自然语言解构。这次他就没有那么幸运了,虽然在学界依然所向披靡,无人能敌,但却与电脑科学渐行渐远,被连接语言学和电脑应用的计算语言学领域所抛弃。也许不该说抛弃,但是自然语言领域大多把他当菩萨供起来,敬神鬼而远之,没多少人愿意跟他走。
2015-6-16 03:541 楼(回复楼主)

 

《聊聊 NLP 工业研发的掌故》

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

尼克介绍的那个讯飞语音输入,简直是神器,向我们的语音同行,脱帽致敬。相信语音是统计的天下。Nuance作为源头的爱疯Siri和讯飞的语音,都快登峰造极了,叹服。

两年前 Nuance 语音以上,要往 text NLP (Natural Language Processing) 发展,找过我多次,作为他们新实验室头儿的候选人。互动了很久。这要是进去,可不是就进入了统计学家和精算师们的海洋,虎口啊(笑)。精算师们的头脑里压根儿就想不到统计外还有其他。

后来他们把老革命家Ron Kaplan 从微软 Powerset 挖去,做了他们这个部门的头儿。Ron 是 PARC实验室的老将。早期 FSA 算法研究的推手(之一)。他们当时的电脑硬件的限制,对线性和效率要求极为苛刻。他津津乐道的就是当年怎么在最苛刻的硬件条件下,做出名堂来。后来他想让我做他的副手,毕竟他老人家比我还老,希望找一个能带队伍打仗的。我们相谈甚欢,有很多共同语言,因为他也是规则派,线性派,也做过 deep parsing,有很多共同的感受。

这里面涉及NLP的一些掌故,就索性在这里说说。大家都知道的是,施乐的PARC实验室是世界上最著名的IT发明创造的发源地。他们有本事招揽天下最优秀的科学家和天才发明家,但没本事开发产品,都是为他人做嫁衣裳。于是成就了乔布斯,乔布斯又成就了微软,如此等等,才有我们今天的电脑和IT大业。

这件事儿对施乐很刺激。于是十五六年前,PARC 决定尝试肥水不外流。自己 spin-off 一些 start ups, 对 PARC 的成果做技术转移和产品孵化。其中搞NLP这块的,就spin off了一家叫做 Inxight 的公司,大家应该听说过,那是工业界的NLP leader。PARC 名声大啊,除了自己投资外,吸收其他投资也不难,前后圈了10+轮风投。他们在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。

这样唠叨下去,太慢,还是要长话短说。

总之是,一开始还不错,因为搜索引擎市场里面,做多语言的都要stemming,他们也就有了一些客户。可是世界上有多少家做搜索引擎?以前百家齐放还好,后来天下归一就难了。

如果可能,希望短话长说

总之是,NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。那些当年雄心勃勃要在工业界掀起NLP革命的Inxight的创始人们(四个创始人,我认识三位),也都跟我差不多,随着这个行业一同老去,还是看不到希望。(我个人算幸运的,先是赶上了世纪末的大跃进(互联网泡沫),如今又赶上了大数据,似乎见到了NLP真正的工业曙光)。

RW:@wei component technology 很难生存,这句话到位

他们也真能,圈了那么多钱,终于无疾而终。白菜价卖给了 SAP。

高科技的事情大多如此,一旦被巨头买下,科技创新就死,然后就是不了了之。

:不奇怪

见过很多这样的。这 Inxight 进了 SAP 就是如此。这里面的故事非常 telling,因为若干年后 SAP 与我现在的公司达成战略伙伴,要用我们的social这块。开始接触的时候,我说,你们的 Inxight 呢,不是听说后来也做了 sentiment 吗,而且是 NLP leader 出身啊。进一步接触才明白,那叫一个天壤之别。将别三日,江河日下啊,廉颇老矣不能饭,不足道也。

回头再说这 PARC,Inxight 虽然不成,这个“上世纪的技术” FSA 并没死,前仆后继者还有。Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。

Powerset 其实很值得赞佩,因为他做的parser工业最靠谱(除了在下的外,呵呵)。但是钱要烧完了. 总得有个产品啥,它没有。只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。概念上证明了,关键词做不到的搜索,NLP parsing 是有用的。

RW:那怎么活?@wei

Nick:@wei powerset我还较熟悉。powerset现在还在吗?

还在,但跟死了一样,头儿和主要技术人都走了,技术本身基本也没融入微软产品。

Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。

当时,Powerset 钱快烧完的时候,还想不出来做什么产品,Ron 的团队着急了。嚷嚷着超越Google,可是只有个高效的parser,没法说服人啊。于是想到,找一个什么不大不小的对象开刀合适呢,因为 parsing 是有成本的。他们口口声声,是要做下一代Google,取代关键词搜索。Google 最多是牛顿,Powerset 要做爱因斯坦。

这些宏观上的忽悠,完全没有问题,因为原理没错,parsing 是 keywords 的爱因斯坦,可是工程上有成本的考量啊。结果他们想了一招,拿 wiki 开刀。wiki 当时的那个量,还比较合适做demo,Ron 于是在互联网的大海找到了这么一滴水。

Nick:@wei 这是何时的事?

六七年前吧。他们于是把wiki parse 了一遍,做了一个 demo 给大家看,蛮impressive,于是,微软就买了。他们也算善终了,至少投资人没亏,小赚一笔。微软的心态,是不管三七二十一,只要宣称能取代Google 的技术,先拿下再说,管他消化得了消化不了。因此 Powerset 比 Inxight 的风投结果好,至少没有贱价出售。如果 Powerset 错过了微软这个冤大头,那就比Inxight 还惨。

RW:是不是最终又给微软毁了?

微软当然毁了它,比SAP 还不如。

Nick:貌似powerset还做search整合,把好几个搜索结果拿来从他们这过一下

前几年我做多语言deep parsing项目,招人的时候,去 Powerset 挖到一位,很能干的。本来高高兴兴做 parsing,是从 PARC 被 Ron 带出来的,后来微软吃掉后,被分配去做 query 的分析。query 在搜索是啥,不就是两三个词的组合么,一个做语言语法分析的人,现在必须抠那几个词,为了一些细琐的需要(应用上自然很重要),简直郁闷极了。这位其实懂很多欧洲语言,也有电脑素养,我挖他过来做大数据的语言分析,他自然很开心。Ron 不乐意了,曾明着跟我说过。可他也没法,他自己勉强在微软帮助支撑了两三年,最后还是去了 Nuance,祝他在 Nuance 可以开一个新局面。

Nick:parsing完再搜索vs搜索完parsing,哪个效果好?

这都扯到哪里了。这些掌故说起来一大车,包括当年的 Whizbang!那可是名校计算机主任亲自出来领头做的NLP 公司啊,特别擅长网页layout的机器学习,从中做信息抽取,最后比我的前一个公司 Cymfony 结局还惨。世纪之交高科技泡沫破灭,我们挺住了,开发了产品,他们的3000多万的投资人却中途撤资了,最后各种技术贱卖,100万即可买到所有的源码和技术说明,先找到我们,说是最适合的买主,我们当时没精力消化这些,后来是Inxight买了。

说起来话长,故事好听

再往前的掌故还有Answerlogic问答系统,也是在上一轮 bubble 时候闹腾得特欢的NLP 公司。钱烧完了,就完了。

RW:这句话经典![微笑]

所以说,这 NLP 要做成,不容易。不是技术不到位,技术参差不齐,但是优秀的引擎(精准、鲁棒、高效)是已存的现实。我敢打包票。

RW:是不是有ahead of the market 之嫌?@wei

技术不是问题(笨蛋不算,你要是找到一个只会忽悠的笨蛋,那是 due diligence 太差,怨不得人)。

Nick: 嗨,老套路,骂别人是为了夸自个。

可不,卖瓜王爷。不过,那也是客观事实,内举不避己,不能因为自己能就偏要说不能,最后还是要系统说话。

当然,这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的monster,高效达到线性实现,real time 应用),确实不是一蹴而就能成的。这里有个n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉,体会的人不多。打住。

高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。

RW: 否则不叫风投

为了减少盲目性,产品经理和制定产品策略的老总至关重要。

高技术公司的产品老总在宏观上了解NLP的潜力,同时深谙市场的卖点,了解客户的需求和痛点,可以具体制定产品和产品features的specs给 NLP developers,只有这样合作才能成事。

回尼克的问题, parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。

Nick:我就是这个意思。我印象当年powerset给我看的demo是先搜后parsing。

但是这个问题,更准确的表述应该是,一个query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。原因我不清楚,但是明显是利用不够。话说回来,如果巨头都能那么灵活,也就没有小公司的活路了。

Jing:用户量大了后用户的历史行为就间接人肉parsing了。

历史行为那是另一个侧面和角度,可以满足信息需求的一个部分。历史行为确实也等于间接利用了人工的parsing的结果,因为人在选择点击阅读某个网页的时候是扫描理解(parse)了链接上的标题的。但那不能涵盖 parsing 所能起的全部作用。

Jing:query understanding包括这个步骤。你前面提到的那个分去做query的哥们完全可以做这个呀

query understanding 是非常重要的一个环节,可是做的人痛苦啊,两三个词玩不出语言学的名堂来,没意思。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。

【相关博文】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 2015-06-20

乔姆斯基批判 2015-06-15

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

已有 7109 次阅读 2015-6-27 22:17 |个人分类:立委科普|系统分类:科研笔记|关键词:学者| NLPparsing自然语言

【NLP自选系列:NLP 联络图 】

“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”

余致力自然语言处理 (NLP) 凡30年余,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积经年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

符号逻辑派的AI与规则系统的NLP,做了一辈子,可以回首一览了吧,老马识途,责无旁贷。样板戏《智取威虎山》里面,杨子荣怀揣一张秘密联络图而成为土匪头子座山雕的座上客。这是因为在山头林立的江湖,谁掌握了联络图,谁就可以一统天下。马克思好像说过人是社会关系的总和,专业领域又何尝不是如此。在关系中定义和把握 NLP,可以说是了解一门学问及其技术的正道。

 (NLP Word Cloud, courtesy of ourselves who built the NLP engine to parse social media to generate this graph )
 

一个活跃的领域会不断产生新的概念,新的术语,没有一个合适的参照图,新人特别容易湮没其中。新术语起初常常不规范,同一个概念不同的人可能使用不同的术语,而同一个术语不同的人也可能有不同的解读。常常要经过一个混沌期,研究共同体才逐渐达成规范化的共识。无论是否已经达成共识,关键是要理解术语的背后含义 (包括广义、窄义、传统定义,以及可能的歧义)。加强对于术语的敏感性,不断探究以求准确定位新概念/新术语在现有体系的位置,是为专业人员的基本功。本文将对NLP(尤其是符号NLP)相关的术语做一次地毯式梳理和解说。提到的所有术语,中文一律加双引号,英语置于括号内,大多有中英文对照。

在我们进入NLP 内部探究其奥秘之前,有必要澄清“自然语言处理”(NLP)的一般概念及其上位概念,以及与 NLP 平起平坐或可以相互替换的一些术语。

NLP  这个术语是根据自然语言这个问题领域而命名的宽泛概念。顾名思义,自然语言处理就是以自然语言为对象的计算机处理。无论为了什么应用,无论分析深浅,只要涉及电脑处理自然语言,都在 NLP 之列。所谓“自然语言”(natural language)指的即是我们日常使用的语言,英语、俄语、日语、汉语等,它与“人类语言”(human language)是同义词,主要为区别“形式语言”(formal language),包括“计算机语言”(computer language)。

自然语言是人类交流最自然最常见的形式,不仅仅是口语,书面语也在海量增长,尤其是移动互联网及其社交网络普及的今天。比较形式语言,自然语言复杂得多,常有省略和歧义,具有相当的处理难度(hence 成就了 NLP 这个专业及其我们的饭碗)。顺便一提,在自然语言灰色地带的还有那些“人造语”(artificial language)方案,特别是广为流传的“世界语”(Esperanto),它们的形式与自然语言无异,也是为人类交流而设计,不过是起源上不太“自然”而已,其分析处理当然也属 NLP。(笔者N多年前的机器翻译专业的硕士课题就是一个把世界语全自动翻译成英语和汉语的系统,也算填补了一项空白。)

与 NLP  经常等价使用的术语是“计算语言学”(Computational Linguistics, or, CL)。顾名思义,计算语言学是“计算机科学”(Computer Science)与“语言学”(Linguistics)之间的交叉学科。事实上,NLP  和 CL 是同一个行当的两面,NLP  注重的是实践,CL 则是一门学问(理论)。可以说,CL 是 NLP 的科学基础,NLP是 CL 的落地应用。由于 CL 与数理等基础学科不同,属于面相应用的学问,所以 CL 和 NLP 二者差不多是同一回事儿。其从业人员也可以从这两个侧面描述自己,譬如,笔者在业界可称为“NLP工程师”(NLP engineer),在学界则是“计算语言学家”(computational linguist)。当然,在大学和研究所的计算语言学家,虽然也要做 NLP 系统和实验,但学问重点是以实验来支持理论和算法的研究。在工业界的 NLP 工程师们,则注重 real life 系统的实现和相关产品的开发,奉行的多是白猫黑猫论,较少理论的束缚。计算语言学作为一个独立学科已经站住脚跟半个多世纪了(其主要学刊是《Computational Linguistics》,学会是 ACL,顶级国际会议包括 ACL 年会等)。

另外一个经常与 NLP 平行使用的术语是“机器学习”(Machine Learning, or, ML)以及近年来引起人工智能界革命性突破的“深度学习”(Deep Larning, DL)及其“深度神经网络”(Deep Neural Network)的算法路线。严格说起来,深度学习与 NLP 是完全不同层次的概念,前者是方法,后者是问题领域。然而,由于深度学习的普适性质,加之 DL 成为 NLP 领域(尤其在学界)的主流方法,很多人除了深度学习,忘记或者忽视了 NLP 还有语言规则的“符号逻辑”(symbolic logic)方法。在他们眼中,NLP  就是深度学习。其实,机器学习/深度学习并不局限于 NLP 领域,那些用于语言处理的学习算法也大多可以用来做很多其他“人工智能”(台湾同胞称“人工智慧”,Artificial Intelligence, or AI)的事儿,如信用卡欺诈监测(detecting credit card fraud)、机器视觉(computer vision)、DNA测序分类(classifying DNA sequences),甚至医疗诊断(medical diagnosis)。DL 是显学,研究力量和资源雄厚,发展换代快,文献汗牛充栋,里面又有很多方法和术语,追踪其前沿进展的同学,可以去看NLP 顶级会议的最新论文,或学刊上的文献综述。本文聚焦梳理的内容,属于符号逻辑、以知识和结构作为基础的NLP符号规则派。

在 NLP 领域,与机器学习平行的传统方法有“语言学家”(linguist)或“知识工程师”(knowledge engineer)专家编制的“语言规则”(linguistic rules),这些规则的集合称作“计算文法”(computational grammar),由计算文法支持(or 编译)的系统叫做“规则系统”(rule system)。

机器学习和规则系统这两种方法各有利弊,可以取长补短。统而言之,机器学习擅长“文件分类”(document classification),从宏观上“粗线条”(coarse-grained)把握语言现象。计算文法则擅长细致深入的语言学分析,从细节上捕捉语言现象。如果把语言看成森林,语句看成林中形态各异的树木,比喻的说法是,机器学习见林不见木,计算文法则见木不见林(本来这是很自然的互补关系,但人工智能这两大学派中,双方都有少数“原教旨主义极端派”不愿承认对方的长处或存在)。从效果上看,机器学习常常以覆盖面胜出,覆盖面的业内术语叫“召回”(recall),而计算文法则长于分析的“精度”(precision)。

由于自然语言任务比较 复杂,一个实用系统(real-life system)常常需要在在粗线条和“细线条”(fine-grained)以及召回与精度之间取得某种平衡,因此结合两种方法的 NLP “混合式系统”(hybrid system)往往更加实惠好用。一个简单有效的软件工程式结合方式是把系统建立成一个“松耦合”(loose coupling)的“后备式模型”(back-off model),对每个主要任务,先让计算文法做高精度低召回的处理,再行机器学习出来的统计模型(statistical model),以便粗线条覆盖遗留问题,增强召回。至于所谓融合两条技术路线的“紧耦合”(tight coupling )前景,研究界有识之士中的老专家和新锐都有呼吁和探索,认为很可能是下一代人工智能和NLP的突破口,会形成革命性的紧耦合“范式转变”(paradigm shift)。两条路线背靠不同的设计哲学,“经验主义”(empiricism)和“理性主义”(rationalism)。

人工智能及其NLP的历史上,两大学派各领风骚,此伏彼起,二十年河西,三十年河东。肯尼斯·丘吉(Kenneth Church) 是自然语言领域的先驱,“语料库语言学”(Corpus linguistics)和机器学习的开拓者之一。丘吉的长文《钟摆摆得太远》(A Pendulum Swung Too Far) 是一篇主流反思的扛鼎之作,详细回顾了两条路线在NLP领域此消彼长的历史印迹。

值得一提的是,“古典” AI 也倚重手工编制的规则系统,或称“专家系统”(expert system)。但是它与语言学家的计算文法有一个根本的区别:AI 规则系统通常远不如计算文法现实可行。AI 的规则系统不仅包括比较容易把握(tractable)和形式化(formalized)的语言(学)规则,还试图涵盖包罗万象的常识以及其他世界知识,并通过精巧设计的逻辑推理系统把这些知识整合起来,所谓“常识推理”(common sense reasoning)。可以说,古典 AI 旨在从本质上模拟人的智能过程,因雄心太大而受挫,以致多年来进展甚微。过去的辉煌也只表现在极端狭窄的领域的玩具系统(后来也发展了一些比较实用的专家系统),当时统计模型还是没有睡醒的雄狮。以 ML 为核心以“大数据”(big data)为支撑的统计方法的兴起,以及近年神经网络的突破,让古典 AI 相形见绌。把人类智能当作联接输入输出的黑匣子的“端到端”(end-to-end)的学习方法,已经成为现代AI的代表。由于方法学上的南辕北辙,以“知识表示”(knowledge representation)和“逻辑推理”(logical reasoning)为基础的古典 AI 符号学说越来越难担当实用“智能系统”(intelligent systems)的指导,智能系统的地盘逐渐为以统计学和信息论为基础的机器学习所占领。熊猫般珍稀的坚持古典AI的逻辑学家(如 cyc 发明人 Douglas Lenat 老先生)与擅长 DL 的统计学家虽然问题领域几乎完全重合,解决方案却形如陌路,渐行渐远。

还有一个几乎与自然语言处理等价的术语,叫“自然语言理解”(Natural Language Understanding, or NLU)。从字面上,这个义为机器理解语言的术语 NLU 带有浓厚的人工智能的烂漫主义意味,不象“机器处理语言”那样直白而现实主义,但实际上,使用 NLP 还是 NLU, 正如使用 NLP 还是 CL 一样, 往往是不同圈子人的不同习惯,所指基本相同。说基本相同,是因为 NLP 也可以专指浅层的语言处理,包括“浅层解析”(shallow parsing),而“深层解析”(deep parsing)才是 NLU 的题中应有之义。

此外,“自然语言技术”或“语言技术”(Natural language Technology)也是 NLP 的通俗化表达。

千头万绪,纲举目张,《弘·扬 | 首席科学家李维科普:自然语言系统架构简说》用了四幅联络图来讲解 NLP 的四个层面,分别是:

1. 语言层(linguistic level);
2. 抽取层(extraction level);
3. 挖掘层(mining level);
4. 应用层(app level)。
 

从NLP总体架构来看,这四个层次的子系统之间的关系,基本就是自底而上的支持关系:1 ==》2 ==》 3 ==》4。显然,NLP 的核心“解析器”(Parser)处于第一层, 而“问答系统”(question answering system)和“机器翻译”(machine translation)这样的系统则是第四层应用的例子。

需要说明的是,NLP 的对象自然语言有两种形式,语音(Speech)和文本(Text),因此NLP自然涵盖语音方面的两个重要方向:教电脑听懂人话的“语音识别”(speech recognition);教电脑说人话的“语音合成”(speech synthesis),统称“语音处理”(speech processing)。语音识别和语音合常常是文本处理(text processing)的前奏和后续。譬如 NLP 在手机上的应用如苹果的 Siri 就是先行语音识别,输出文本结果,再行文本解析,然后根据分析理解的结果采取行动(根据主人指令去查天气预报、股票、播放某支音乐等等)。

 
 
 

原载: 科学网—【立委科普:NLP 联络图

 

NLP自选系列:深度解析器是揭示语言奥秘的探测仪

自然语言的深度结构解析器(deep parser), 为语言奥秘的揭示与语言理解的应用开辟了道路,这方面的技术不再是科学幻想,而是已存的现实。我们身在其中,有责任为大数据时代的 parsing 技术的来临和潜力多做科普宣传。

01

开场词

“如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。”

——摘自《弘·扬 | 首席科学家李维科普:语法结构树之美》

02

语言的奥秘:解构

话说这语言学里面有一门学问叫文法,学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗,奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一代一代文法学家,试图见人所不能见,用树形图来解剖语言的内部结构。

本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。

天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位是依存文法大师,叫Tesnière(特氏),另一位就是大名鼎鼎的乔姆斯基(乔氏)。本文的结构图表示法(graph representations)取长补短,乃是以特氏依存关系为框架,适当辅以乔氏的短语结构而成。本文所有图示均是我们研发的多语分析器对语句全自动解析而成。

乔神仙(Noam Chomsky)特神仙(Lucien Tesnière)

语言的奥秘在于,语句的呈现是线性的,而语句背后的结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果。树形图分析法(sentence diagramming)也一直是语言教学的一个手段。

计算语言学家的任务就是模拟这个语言解构的过程,创制解析器(parser),使解构自动化。这个任务一直处于自然语言处理(natual language processing, NLP)领域的核心,但长期以来大多是科学家的玩具系统(toy systems),或局限于实验室的原型系统(prototypes),其速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)都不足以在真实语料的大数据场景应用。

而这一切已经不再是梦想,符合处理线速要求的高精准度和高覆盖面的鲁棒parsers已经是现实。这是大数据时代的技术福音。笔者在Netbase时期设计并带领团队研发的多语parsers就已经大规模投入(scale up)社会媒体大数据的应用,帮助自动挖掘针对任何话题或品牌的舆情与客户情报。

03

Deep Parsing 是语言技术的核武器

自然语言理解(natural language understanding,NLU)的关键就是模拟人的理解机制,这套机制的核心是 deep parser,其输入是语句,输出是语法逻辑结构。在结构图的基础上,很多语言应用的奇迹可以出现,如舆情挖掘,情报抽取,自动文摘,智能搜索,智能秘书,聊天机器人,心理疏导机等等。

对于看了树形图觉得眼晕的读者,不必明白细节,只要知道线性转成了平面就可以了,非结构转成结构乃是语言理解应用之根本。以下图为例,我们具体分析一下语言结构分析的结果表达。 

 上图叫作依从关系树形图。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语 S(Actor) 【I】,此子是其逻辑宾语 O(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾 SVO),构成语句意义的核心。 

两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

语言为什么要结构化?盖因语言是无限的,但结构是有限的。本文所示的的全自动解构树形图,用于语言大数据,就为各种数据挖掘(包括舆情挖掘)提供了结构化的情报宝库。对于信息使用者,这就是不尽的宝藏。

对于信息产品,语用语义当然是重要的,但是语义可以临时抱佛脚,结构则不同。用工程的话说就是,语言处理面对的是海量文本大数据,需要做 offline indexing, 不适宜纠缠过细的语义语用,而是应该先结构化了再说,存到数据库去。在应用的层面,通常需要的是领域场景的语用角度的语义(通过领域化信息抽取和文本挖掘)。这时候,做语义的条件已经成熟了。应用层面的语义一般是在一个特定的领域,或者为了一个特定的用场(产品),抽象层的语义纠缠因聚焦而简化,甚至自然化解了。面对大数据,对于难以预测的情报需求,可以直接对大数据所对应的结构图索引做在线即时检索,检索的时候加入适量的语义限制即可。这其实是下一代智能语义搜索引擎的并不遥远的革命性愿景。这样的句法和语义分工,在工程上是合理的。结构化是语言理解应用之本,结构化数据基础是满足语用需求做情报挖掘的质量保证。

 

04

婀娜多姿,风情万种

上得厅堂,下得厨房

本文所演示的各种树形图就是我们研发出来的文法机器人(parsers)自动生成的,虽然并非完美无缺,倒也风姿绰约。多语结构树没什么奥妙,大家的表达大同小异,都是秉承特神仙或乔神仙的体系。可是怎样达到这个结构,才是硬功夫。

下面以乔姆斯基上世纪五十年代末引发语言学革命的名句 “Colorless green ideas sleep furiously” 为例,请读者与我们一同欣赏多语 parsers是如何透过千差万别的具体语言的词汇词法的排列,解构出类似的句法结构:

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。最关键的是,风情万种的结构丛林,已经不再是象牙塔里供人观赏的艺术模型,她上得厅堂,下得厨房,甚至对于随处可见错别字、不规范用法的社交媒体大数据,也一样适用。这是怎样一个语言奥秘的探测仪,她的作用和巨大潜力才刚刚开始!

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:文本大数据的信息抽取与情报挖掘(上)

李维博士:我之所长不过是大数据的一部分,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社交媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

01

大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社交媒体、云计算、移动互联网和大数据情报挖掘。针对社交媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社交媒体的持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社交媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社交媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

回顾一下历史。2011年初,美国做市场情报的巨头之一 Salesforce 以三亿多美元 (326 million) 的价钱并购了社交媒体客户情报检测系统 Radian6,说明社交媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社交媒体追踪的公司 RightNow 的并购更是高达15亿(1.5 billion)。HP在逐渐放弃低利润的 PC 和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司 Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头 SAP以 34 亿收购了云计算公司 SuccessFactors(3.4 billion),并决定与专事社交媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社交媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头都曾不约而同看好社交媒体的情报价值。

当时在这个领域的投资和竞争非常激烈。不少华尔街主流投资公司加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利:Apple、Google、Cisco、Oracle。

这股社交媒体和大数据挖掘热潮以后,各种初创公司如雨后春笋。记得当年在 Netbase 主持社交媒体客户情报挖掘产品的那些年,在我们的竞争对手的注视名单上一开始有四五十家。十多年下来,大浪淘沙,后来只剩下五六家公司真正在市场站住了,包括 Netbase 的老对手 BrandWatch。

对于中文社交媒体大规模处理的应用型软件,有不少企业做了不同程度的应用落地尝试,但比起西方语言的企业市场应用,还有很大的距离,to B 的市场成熟度也不够。中文网络信息的增长速度一直扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,有潜在的巨大价值。

然而,迄今未见规模化落地应用,分析起来应该有好几个因素:(1)社交媒体大数据涉及隐私,不宜放任挖掘。事实上,微信数据是不对挖掘开放的。只有微博和一些论坛作为公开平台,其数据挖掘较少涉及隐私。(2)大数据挖掘应用的门槛很高,不仅仅是语言处理的能力需要有让人信服的数据质量(特别是精度),而且工程投入,包括存储、更新、检索都需要巨大的投入和积累;(3)就算大数据挖掘一切到位,挖掘出来的情报或知识图谱,到底如何应用还有很大的探索空间,目前还缺乏现场切入角度合适的规模化杀手级应用。尽管如此,从趋势上看,来自于文本大数据的源源不断的情报挖掘,终将成为信息社会不可或缺的软实力。

有人问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

26年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体如新浪微博、腾讯微信等,下一个里程碑是什么?

Big data intelligence (大数据情报挖掘)

很多人这样预测,Google 首席科学家也列此为未来高新技术的大势所趋。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

02

什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社交媒体火热以后的专指,是已经与时事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社交媒体及其用户社交网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社交媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社交媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社交媒体以及时事背景密切相关以外,大数据的当红也得力于技术手段的成熟。大数据的存储架构以及云计算的海量处理能力,为大数据时代的提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫之所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

03

大数据挖掘技术及其挑战

社交媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社交媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析;2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社交媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth)则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到像目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。

从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。现在的问题是在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling/filtering)与整合(fusion)环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。

由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了,可以让噪音沉底。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

 

下回篇将进一步讨论社媒大数据挖掘的重要应用等内容。敬请期待!

「弘•扬」:弘智益人,扬道解惑。每周大咖分享栏目,敬请关注。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:自然语言系统架构简说

对于自然语言处理(NLP)及其应用,系统架构是核心问题,这里给出了四个NLP系统的体系结构的框架图,现在就一个一个做个简要的解说。

我把 NLP 系统从核心引擎直到应用,分为四个阶段,对应四张框架图。最底层最核心的是 deep parsing,就是对自然语言的自底而上层层推进的自动分析器,这个工作最繁难,但是它是绝大多数NLP系统基础技术。

parsing 的目的是把非结构的语言结构化。面对千变万化的语言表达,只有结构化了,patterns 才容易抓住,信息才好抽取,语义才好求解。这个道理早在乔姆斯基1957年语言学革命后提出表层结构到深层结构转换的时候,就开始成为(计算)语言学的共识了。结构树不仅是表达句法关系的枝干(arcs),还包括负载了各种信息的单词或短语的叶子(nodes)。结构树虽然重要,但一般不能直接支持产品,它只是系统的内部表达,作为语言分析理解的载体和语义落地为应用的核心支持。

接下来的一层是抽取层 (extraction),如上图所示。它的输入是结构树,输出是填写了内容的 templates,类似于填表:就是对于应用所需要的情报,预先定义一个表格出来,让抽取系统去填空,把语句中相关的词或短语抓出来送进表中事先定义好的栏目(fields)去。这一层已经从原先的领域独立的 parser 进入面对领域、针对应用和产品需求的任务了。

值得强调的是,抽取层是面向领域的语义聚焦的,而前面的分析层则是领域独立的。因此,一个好的架构是把分析做得很深入很逻辑,以便减轻抽取的负担。在深度分析的逻辑语义结构上做抽取,一条抽取规则等价于语言表层的千百条规则。这就为领域转移创造了条件。

有两大类抽取,一类是传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、涉及不同实体的事件等,可以回答 who did what when and where (谁在何时何地做了什么)之类的问题。这个客观情报的抽取就是如今火得不能再火的知识图谱(knowledge graph)的核心技术和基础,IE 完了以后再加上下一层挖掘里面的整合(IF:information fusion),就可以构建知识图谱。另一类抽取是关于主观情报,舆情挖掘就是基于这一种抽取。我过去五年着重做的也是这块,细线条的舆情抽取(不仅仅是褒贬分类,还要挖掘舆情背后的理由来为决策提供依据)。这是 NLP 中最难的任务之一,比客观情报的 IE 要难得多。抽取出来的信息通常是存到某种数据库去。这就为下面的挖掘层提供了碎片情报。

很多人混淆了抽取(information extraction) 和下一步的挖掘(text mining),但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus,或数据源的整体,是从语言森林里面挖掘有统计价值的情报。在信息时代,我们面对的最大挑战就是信息过载,我们没有办法穷尽信息海洋,因此,必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用。因此挖掘天然地依赖统计,没有统计,抽取出来的信息仍然是杂乱无章的碎片,有很大的冗余,挖掘可以整合它们。

很多系统没有深入做挖掘,只是简单地把表达信息需求的 query 作为入口,实时(real time)去从抽取出来的相关的碎片化信息的数据库里,把 top n 结果简单合并,然后提供给产品和用户。这实际上也是挖掘,不过是用检索的方式实现了简单的挖掘就直接支持应用了。

实际上,要想做好挖掘,这里有很多的工作可做,不仅可以整合提高已有情报的质量。而且,做得深入的话,还可以挖掘出隐藏的情报,即不是原数据里显式表达出来的情报,譬如发现情报之间的因果关系,或其他的统计性趋势。这种挖掘最早在传统的数据挖掘(data mining)里做,因为传统的挖掘针对的是交易记录这样的结构数据,容易挖掘出那些隐含的关联(如,买尿片的人常常也买啤酒,原来是新为人父的人的惯常行为,这类情报挖掘出来可以帮助优化商品摆放和销售)。如今,自然语言也结构化为抽取的碎片情报在数据库了,当然也就可以做隐含关联的情报挖掘来提升情报的价值。

第四张架构图是NLP应用(apps)层。在这一层,分析、抽取、挖掘出来的种种情报可以支持不同NLP产品和服务。从问答系统到知识图谱的动态浏览(谷歌搜索中搜索明星已经可以看到这个应用),从自动民调到客户情报,从智能助理到自动文摘等等。

这算是我对NLP基本架构的一个总体解说。根据的是近20年在工业界做NLP产品的经验。18年前,我就是用一张NLP架构图忽悠来的第一笔风投,投资人自己跟我们说,这是 million-dollar slide。如今的解说就是从那张图延伸拓展而来。

天不变道亦不变。

以前在哪里提过这个 million-dollar slide 的故事。说的是克林顿当政时期的 2000 年前,美国来了一场互联网科技大跃进,史称  .com bubble,一时间热钱滚滚,各种互联网创业公司如雨后春笋。就在这样的形势下,老板决定趁热去找风险投资,嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图,最底层是parser,由浅入深,中层是建立在parsing基础上的信息抽取,最顶层是几类主要的应用,包括问答系统。连接应用与下面两层语言处理的是数据库,用来存放信息抽取的结果,这些结果可以随时为应用提供情报。这个体系架构自从我15年前提出以后,就一直没有大的变动,虽然细节和图示都已经改写了不下100遍了,本文的架构图示大约是前20版中的一版,此版只关乎核心引擎(后台),没有包括应用(前台)。话说架构图一大早由我老板寄送给华尔街的天使投资人,到了中午就得到他的回复,表示很感兴趣。不到两周,我们就得到了第一笔100万美金的天使投资支票。投资人说,这张图太妙了,this is a million-dollar slide,它既展示了技术的门槛,又显示了该技术的巨大潜力。

前知识图谱钩沉: 信息抽取引擎的架构

「弘•扬」弘智益人,扬道解惑。每周大咖分享栏目,敬请关注。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:文本大数据的信息抽取与情报挖掘(下)

弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)

李维博士:我之所长不过是大数据的一部分,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社交媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

感兴趣的小伙伴可以点击上期内容:

弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(上)

04

客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?是人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社交媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有2万love,8万like,负面中有20万hate,80万dislike 而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌数据量就往往不够,另外很多分析要求会对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切割往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,这都拜科学技术所赐。

 

05

自动民调: 社媒大数据挖掘的重要应用

 

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,以及总统选情的检测等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社交媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社交媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 11发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点: 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为其背后在不分昼夜地自动分析和索引有关的语言资料(通常来自社交媒体)。 

高性价比。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于花费,通常的商业模式有两种,客户可以订阅(license)这样的系统使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调特朗普的总统竞选效益,离不开对比其对手希拉利。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动民调就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社交媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社交媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社交媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

以总统大选为例。在特朗普对决希拉里时,我还在 Netbase 主持大数据产品的研发,手中有海量的推特数据以及我们研发的大数据挖掘的核武器,有独特的优势,可以见人所不能见。

虽然说推特是公开的社交媒体,人人可读,但没有语言抽取和挖掘,任何人或团体都难以看清全局走势。当年的选战瞬息万变,但大数据是不会骗人的,里面的跌宕起伏每日呈现在我的追踪系列里。当时主流媒体和民调一致认为希拉里要赢,特朗普自己也没料到自己会赢,连胜选演说都没预备好。希拉里这边更是有些得意忘形了,在选前的生日那天,希拉里发推特给自己庆生,标题是:祝未来的总统生日快乐!

就在这一片看好希拉里的预测中,我根据大数据挖掘结果,预测了特朗普的胜选。这可不是事后诸葛亮,都是有案可查的记录(有兴趣的读者可以关注后续报道)。

大选前一周的对比图:

这是当时24小时内的对比图:

这是一个月的涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

为什么会得出与主流民调相左的趋势预测呢?道理很简单,主流的手工民调落后于时代,数据采集点太稀疏,误差大,也没法及时反映变化的选情。这次大选后,不少朋友告诉我,从来没有如此真切地感受到大数据和语言技术的威力。

其实在前一轮的奥巴马总统竞选的时候,我们的工具就已经相当成熟,每次总统辩论,我们的舆情监测系统就在线实时展示辩论现场的舆情曲线变化,可即刻宣告辩论双方的得失和结果。奥巴马赢了第二次总统候选人辩论吗?舆情自动民调表明,奥巴马显然赢了这场辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。仔细分析可以看出,对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm时);二是批判他对中国不够强硬 (7:30pm时)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

06

实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据,想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

07

大数据及其挖掘的局限性

先说它的不宜和禁忌。

1、这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2、这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3、大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛主席早就说过:有比较才有鉴别。

08

大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的拥趸。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

在上一期弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)中,李维博士以特朗普对决希拉里为例,大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增。本期内容将深入讨论大数据是如何预测这一过程的。

这是特朗普对决希拉里终极对决前一周的对比图:

从图中来看,希拉里的选情的确不妙,川大叔领先了。是不是因为FBI重启希拉里“邮件门”调查造成的结果?这是当时24小时内的对比图:

这是大选前9月-10月的选情涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

这是大选前最后一周的选情对比:

最后一周对喜婆很不利。过去24小时一直在零下20上下,而老川在零上10左右,有30点的差距:

看看更大的背景,8-10月的选情对比:

喜大妈好不容易领先了,此前一直落后,直到9月底,9月底到10月中是喜妈的极盛期,是川普的麻烦期。

至于热议度,从来都没有变过,总是川普压倒:

眼球数也是一样:

一年来的狂热度(passion intensity)基本上也是川普领先,但喜婆也有不有不少强烈粉她或恨她的,所以曲线有交叉:

这个 passion intensity 与所谓 engagement 应该有强烈的正相关,因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来,这么多年,难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet(把秘密藏进衣柜),可是这家伙太狡猾,可能一辈子做商人太过精明。但大选当时只剩下一周、先期投票已经开始。

电邮门是摧毁性的。FBI 选在大选前一周重启,这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了,虽然对于数据的分析能力和角度,远不如我们的当时的平台丰富灵活。他们基本只有一个 engagement 的度量,连最起码的 sentiment classification 都没有,更不用说 social media deep sentiments 了。无论怎么说,希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票,还需要研究。

朋友提醒所谓社交媒体,其实是 pull 和 push 两种信息的交融,其来源也包含了不少news等,这些自上而下的贴子反映的是两党宣传部门的调子,高音量,影响也大,但并非真正的普罗网虫自下而上的好恶和呼声,最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图,我们只留下 twitter,FB,blog 和 microblog 四种社交媒体,剔除了 news 和其他社交媒体:

下面是only推特,大同小异:

对比一下所有的社交媒体,包括 news 网站,似乎对于这次大选,pull 和 push的确是混杂的,而且并没有大的冲突和鸿沟:

希拉里为什么选情告急?看看当时近一个月的希拉里云图,开始红多绿少了:

对比一下川普的云图,是红绿相当,趋向是绿有变多的趋势,尤其是第二张情绪(emotion)性云图:

再看看当时近一周的云图对比,舆论和选情的确在发生微妙的变化。这是川普的sentiment 云图:

下面是网民的针对希拉里来的正负行为表述的云图:

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普当时10月最后一周的呼声:

vote 的呼声超过 not vote for him。如果这次希拉里输了,the FBI director Comey 居功至伟。因为自从录音丑闻以后,选情对希拉里极为有利,选情的大幅度下滑与 FBI 重启调查紧密相关。媒体的特点是打摆子,再热的话题随着时间也会冷却,被其他话题代替。这次的问题在,FBI 重启电邮门调查的话题还没等到冷却,大选就结束了,媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期,已经冷却,被 FBI 话题代替了。从爆料的角度,录音丑闻略微早了一些,可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看当时10月最后一周的#Hashtags,也可以了解一点社交媒体话题的热度:

这是当时10月最后一周有关希拉里话题的emoji图:

虽然说笑比哭还多,希拉里及其阵营和粉丝却笑不起来,一周内用到这个话题的emoji总数高达 12,894,243。这也是社交媒体的特点吧,用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

FBI director 说这次重启调查,需要很长时间才能厘清。现在只是有了新线索需要重启,不能说明希拉里有罪无罪。没有结论前,先弄得满城风雨,客观上就是给选情带来变数。虽然在 prove 有罪前,都应该假定无罪,但是只要有风声,人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱,就更惊心动魄了。如果不是有背后的黑箱和势力,这个时间点的电邮门爆炸纯属与新线索的发现巧合,那就是希拉里的运气不佳,命无天子之福。一辈子强性格,卧薪尝胆,忍辱负重,功亏一篑,无功而返,保不准还有牢狱之灾。

可以预测,大选失败就是她急剧衰老的开始。

此前有个记者interview川普,川普一再说,希拉里这个犯罪的人,根本就不该被允许参加竞选。记者问,哪里犯罪了?川普说电邮门泄密,还有删除邮件隐瞒罪恶。当时还没有重启希拉里“邮件门”调查。记者问,这个案子不是有结论了吗,难到你不相信 FBI 的结论?川普说,他们弄错了,把罪犯轻易放了。

中间选民的数量在这种拉锯战中至关重要,当时的数量不少。中间选民如果决定投票,其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的,如今满世界说一方不好,合理的推断就是去投另一方了。现在看来,这场竞赛的确是拉锯战,很胶着,不是一方远远超过另一方。当录音丑闻爆料的时候,那个时间点,希拉里远远超过川普,毫无悬念。“邮件门”爆发一个月不到,选情大变,就不好说了,迹象仍然胶着。

不过,反过来看,川普的 popularity 的确是民意的反映,他所批判的问题的确长久存在。而希拉里显然是体系内的老旧派,让人看不到变革的希望。人心思变的时候,一个体系外的人物也可以被寄托希望,至少他敢于做不同事情。

当时我想:上台就上台吧,看看他造出一个什么世界

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:漫谈语言形式

弘·扬 | 首席科学家李维科普:漫谈语言形式

语言形式是语言学的基础,对语言掌握得多的人,或受过语言学训练的人,看到的更多是语言共性,反映在作为表达手段的语言形式及其分类上。作为符号系统,语言说到底就是以形式来反映内容。语言的不同是形式的不同,内容一定是相同的,否则人不可能交流思想,语言的翻译也就失去了基础,这个道理老少咸知。
那么什么是语言形式呢?回答这个问题就进入语言学了。
如果我们要把内容和形式分开来研究(当然是分不开的,但是理论上可以,否则就没有乔姆斯基语言学革命了),什么是语言形式呢?乍一看语言,不就是 string 么?语音流也好,文字串也好。这个回答不算错,但那是太直观的答案。这个string是有单位的,所以至少可以说语言形式是一个 list of items,items 就是词(more precisely 词素)。list 就是词序。
所以,作为第一个抽象,我们至少得出了词序(word order,有时也叫 linear sequence)是一个重要的语言形式(语言的表达手段)。另一个重要的形式就是词,不过这个还不太够意思,太直感,不够理论,没有抽象。
作为语言符号,词和词素非常重要,它们是语言学的起点。收录词和词素的词典因此成为语言解析的基础资源。如果自然语言表达是一个封闭的集合,譬如,一共就只有一万句话,语言就简单了,可以死记硬背。电脑上实现就是建个库把这些语句词串,全部收进去。每个词串等价于一条“词加词序”的规则,全部词串的规则集合就是一个完备的文法模型。但是,自然语言是一个开放集。无法枚举无穷变化的文句。符号形式文法是如何依据语言形式形成规则,并以有限规则完成对无限文句的自动解析(parsing)呢?
以查词典为基础的分词 (tokenization),是文句解析的第一步。查词典的结果是“词典词” (lexicon word),包括词素(汉字也是词素,因此中文词典也蕴含着字典)。无限文句主要靠查词典分解为有限的单位,词典词加上少量超出词典范围的“生词”,一起构成词节点序列 (tokenlist)。词节点序列很重要,它是文句的形式化表示 (formalized representation),是自动解析的对象和初始数据结构。
我们说的每句话很难穷举,而且即便列举了,也无法抽象。没有抽象,就没有掌握,人就不可能学会语言表达不同的思想。人脑不比电脑,容量很可怜的。所以,探究语言形式要研究词是个什么玩意儿。这就进入了语言学最基本分支了,叫 morphology(词法),可以称 small syntax,就是一个词范围内的结构。对于有些语言,morphology 很繁复,譬如俄语,拉丁语。对于有些语言,morphology 很贫乏,或者可以说没有 morphology,譬如汉语,英语。
撇开这些语言的元件中的构造性差别,我们在研究“词“的时候,第一眼看到的差别是它的两大类别。一类叫实词(notional words,or open-ended vocabulary),原则上是一个开放的集合;一类是虚词或小词,即功能词(function words or closed vocabulary),是可枚举项。
这个分类很重要,因为作为语言形式,能够掌握的必须是 finite 的集合。对于功能词,因为数量有限,没有问题。功能词就是介词,连词,疑问词,感叹词之类,其实延伸一下也可以包括前缀、后缀等材料(叫词缀),在所有的语言中都是有限量的,出现频率高,可以死记的。它本身就是语言形式,原则上无需抽象(虽然也给他们简单分类),因为可以枚举。
到此,我们至少得到了三个具体的语言形式了:1 词序;2. 小词;3 词缀。语言的不同不是形式的不同,而是形式的倚重和比例的不同,下面还要讲,这才是有趣的语言学。
那么实词呢?实词当然也是语言形式,但是因为是开放集,必须给他们分类才好形式化。除了成语和习惯表达法,一般来说,你总不能用枚举的办法为每一个实词写规则吧(真有这么做的,在很窄的领域),人脑也是在实词词类的基础上总结抽象的。实词于是有大类(Part of Speech), 名(noun)、形(adjective)、动(verb)三大类。副词(adverb)一般不算单独的大类,往往是形容词派生而来,或者与形容词同形。只有少部分原副词(original adverbs)属于小词的范畴,可以枚举。
实词三大类还是太粗,对于语言的抽象和掌握不够用,于是可以进一步再分类。特别是动词,有一种很重要的句型再分类叫 subcat(subcategorization),是重要的语言手段,就是区别所谓单宾语子类,双宾语子类,宾语+补足语的不同子类,等等,所有的大辞典后面的附录都有的。再进一步,词汇的语义分类(lexical semantic classification,人啦,动物啦,家具,地点,机构等的分类)也可以加入进来,作为语义的形式化手段,可以用 WordNet 或者董振东老师的《知网》,这就把语义甚至常识偷偷引进句法了。
总结一下语言形式,1 词序, 2 小词, 3 词缀, 4 词类(包括子类)
 
这些子类都是有限的吗?子类当然是有限的,分类的目的就是让理论上无穷的词汇,转变成有限的分类(包括子类),以便掌握和运用。朗曼词典列出的英语 subcat 类有30多个,牛津大辞典好像列出了20个左右。大同小异,颗粒度略有不同。其实常用的动词句型子类也就是不到10个。汉语的传统词典不列句型小类,但是语言所后来出的《动词用法词典》,还有《汉语800词》等,开始分子类,并标注了。
语言形式这么一分,自然语言一下子就豁然开朗了,管它什么语言,不外乎是这四种形式的交错使用,比例搭配和倚重不同而已。所谓语法,也不外是用这四种形式对语言的现象及其背后的结构做描述而已。
英语的规则是否比汉语清晰?对,英语确实比汉语清晰,德语法语又比英语清晰(虽然英语历史上是从德语法语杂交而来的,“不幸”的是后来走了汉语的道路)。这里的所谓”清晰“,是指这些语言有显性的形式来表达结构关系,而汉语缺乏这种显性形式,因此做汉语自动分析就显得难。什么是显性的形式?譬如词法中名词的性(gender)、数(number)、格(case),动词的时(tense)、体(aspect)、态(voice)。这些词法范畴是以显性的后缀(词尾)形式来表达的,但是汉语没有。
而文言文更加缺乏显性形式。文言虚词就那么几个,不如现代汉语的小词丰富,因此比现代汉语更难(将来退休以后,准备接受极限挑战,就做文言 parsing 玩儿)。现代汉语的形式化相对容易一些。
凡是 morphology(各种词缀)复杂的语言,通常不需要运用词序的手段,也较少依赖小词。譬如俄语,还有世界语(Esperanto),“我爱你”,就三个词,可以用六种词序表达,排列组合。世界语算是准自然语言。诞生不自然,发展自然了。为什么语序自由呢,因为有宾格这样的后缀形式,跑到哪里都是动宾的关系。当然就不需要依赖语序的形式了。
回来谈为什么汉语不如西方语言严谨?因为汉语发展过程中,没有走语词综合(利用词缀)的道路,而是坚持在分析(利用小词)的道路上走到黑。从语言学的高度,词缀也好,小词也好,其实也都是差不多的材料(形式),但是,词缀的范畴化,比起小词,要发达得多,因此严谨得多,也冗余得多。可以举例说明。
动词变位、名词变格等形态词缀手段,使得有结构联系的语词之间产生一种显性的一致关系 (agreement)。譬如,主谓 (subject-predicate) 在人称和数上的一致关系,定语与中心词在性数格上的一致关系等。关系有形式标记,形态语言的结构自然严谨得多,减少了结构歧义的可能。丰富的词缀减低了语言解析对于隐性形式和知识的依赖。
什么是隐性形式?隐性形式就是词类和各种子类。为什么说是隐性,因为需要标注才能显性化、形式化。那些词本身并没有这些标记。如果用后缀“标注”了,那就成显性形式了。譬如,“兄弟”在汉语是名词(noun),这个是查词典得到的,或者是POS程序查上下文标注的(如果有歧义的话),不是这词本身的印记。但是 frato(兄弟)在世界语就不需要词典标注,因为有名词后缀 -o。再看汉语的复数“兄弟们”,这里用了小词“们”,世界语呢,用后缀 -j,fratoj。乍看,这不一样么,都是用有限的语言材料,都是显性的表达。但是,汉语的复数概念表达是有时候显性有时候隐性,这个“们”不是必需的,而有数这个范畴的西方语言(包括世界语)却是永远的显性,那个后缀是不能省略的。
“三个兄弟没水喝”——这里的兄弟就没有小词“们”,而且汉语文法规定了不允许在数量结构后面加复数的小词,硬把显性的表达转变成了隐性的表达。这样的语言是不严谨的,因为信息冗余度不够。换句话说,严谨的语言较少倚赖上下文来确定其结构语义,不严谨的语言离不开上下文,兄弟的复数意义需要上文的数量结构。
有同学说汉语据说是“意合”语言,没有文法。这就言过其实了。没有没有文法的语言。汉语不是没有规则,只不过规则比较细琐繁多,规则所利用的条件更多用到隐性形式而已。汉语文法的确比较宽松,宽松表现在较少依赖显性形式。语句的顺畅靠的是上下文语义相谐(常识上合不合理),而不是依靠严格的显性符号规则。譬如词缀、小词、词序,显性形式的三个手段,对于汉语来说,形态基本上没有,小词常常省略,语序也很灵活。
先看小词,譬如介词、连词,虽然英语有的汉语基本都有,但是汉语省略小词的时候远远多于英语。这是有统计根据的,也符合我们日常使用的感觉:汉语,尤其是口语,能省则省,显得非常自由。对比下列例句,可见汉语中省略小词是普遍性的:
① 对于这件事,依我的看法,我们应该听其自然。
    As for this mater, in my opinion, we should leave it to nature. 
② 这件事我的看法应该听其自然。
    This mater my opinion should leave to nature. 
类似句子②在汉语口语里极为常见,感觉很自然。如果尝试词对词译成英语,则完全不合文法。汉语和英语都用介词短语 (prepositional phrase, PP) 做状语,可是汉语介词常可省略。这种缺少显性形式标记的所谓“意合”式表达,确实使得中文的自动化处理比英文处理难了很多。
好,总结一下,什么是语言形式,形式有四种,词序,小词,词缀,分类。只要从这四点出发,很多现象都好捕捉。语言大不了就是围绕实词的概念,用这些手段连接起来,表达概念之间的关系意义
其实“语言形式”这个话题,还没引申来谈,谈起来还有很多有趣的东西,譬如词缀与小词之间的关系,相互补充和替代的作用,语言发展中倚赖词缀的综合道路,以及倚赖小词的分析道路,以及两条路线的斗争,等等,以后有闲再谈。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:语义三巨人

弘·扬 | 首席科学家李维科普:语义三巨人

坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。语义是个大泥坑,能够驾驭它的人均非等闲人物。在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这三位学者前辈是,坚持常识推理的 cyc 的 Lenat 教授,格语法(Case Grammar)和框网(FrameNet)的开创者 Fillmore 教授和《知网(HowNet)》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。

这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。

Dr. Douglas Lenat  三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。

Charles J.Fillmore  Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。

董振东教授  中国机器翻译和中文信息处理前辈、知网发明人。曾任中科院计算机语言信息中心语言知识研究室主任。

在很长一段时期,董振东教授是中国NLP、MT与世界的接口。知网(HowNet)是董老师的丰碑,它像一所常识百科,深藏着人类认知形式化的金子。

事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。

可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。

我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层的主谓宾结构( SVO argument structure) 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。

这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。退一步回到句法为基础的 argument structure 如何呢?

Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。

HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类角色。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。

从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。

例如,对于宾语的细化  “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。

对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:语法结构树之美

弘·扬 | 首席科学家李维科普:语法结构树之美

我们知道,语句呈现的是线性的字符串,而语句 结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用类似下列的上下颠倒的树形图来表达解构的结果(所谓 parsing)。 


上面这个树形图叫作依从关系树形图(dependency tree,常常用来表达词或词组之间的逻辑语义关系,与此对应的还有一种句法树,叫短语结构树 phrase structure tree,更适合表达语句单位之间的边界与层次关系)。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。

譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语(Actor) 【I】,此子是其逻辑宾语(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾,叫做 argument structure),构成语句意义的核心。两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

从句法关系角度来看,依从关系遵从一个原则:老子可以有n(n>=0)个儿子(图上用下箭头表示),而儿子只能有一个老子:如果有一个以上的老子,证明有结构歧义,说明语义没有最终确定,语言解构(decoding)没有最终完成。虽然一个老子可以有任意多的下辈传人,其亲生儿子是有数量限制的,一般最多不超过三个,大儿子是主语,次子是宾语,小儿子是补足语。比如在句子 “I gave a book to her” 中,动词 gave 就有三个亲儿子:主语 【I】, 宾语【a book】,补足语 【to her】. 很多动词爷爷只有两个儿子(主语和宾语,譬如 John loves Mary),有的只有一个儿子(主语,譬如 John ran)。至于远房侄子,从结构上是可有可无的,在数量上也是没有限量的。他们的存在随机性很强,表达的是伴随一个行为的边缘意义,譬如时间、地点、原因、结果、条件等等。

自然语言理解(Natural Language Understanding)的关键就是要模拟人的理解机制,研制一套解构系统(parser),输入的是语句,输出的是语法结构树。在这样的结构树的基础上,很多语言应用的奇迹可以出现,譬如信息抽取、自动文摘、智能搜索等。

在结束本文前,再提供几个比较复杂一些的语句实例。我把今天上网看到的一段英文输入给我们研制的parser,其输出的语法结构树如下(未经任何人工编辑,分析难免有小错)。




说明:细心的读者会发现上图的结构树中,有的儿子有两个老子,有的短语之间互为父子,这些都违反了依存关系的原则。其实不然。依存关系的原则针对的是句法关系,而句法后面的逻辑关系有时候与句法关系一致,有时候不一致。不一致的时候就会出现两个老子,一个是与句法关系一致的老子,一个是没有相应的显性句法关系的老子。最典型的情形是所谓的隐性(逻辑)主语或宾语。

譬如第一个图示中的右边那棵结构树(严格地说,这不是树结构了,应该叫做结构图)中,代词「I」就有两个老子:其句法老子是谓语动词「have learned」,它还有一个非谓语动词(ING形式)的隐性的逻辑老子「(From) reading」,也做它的逻辑主语 (who was reading? “I”)。再如第二个图示中的语法结构图中,定语从句的代表动词「were demonstrating」的句法老子是其所修饰的名词短语「students」,但逻辑上该名词短语却是定语从句动词「were demonstrating」的主语(actor)。有些纯粹的句法分析器(parser)只输出句法关系树,而我们研制的parser更进一步,深入到真正的逻辑语义层次。这样的深层分析为自然语言理解提供了更为坚实的基础,因为显性和隐性的关系全部解构,语义更为完整。下面再“秀”两句中文的自动解析的句法树,看着也许更亲切些。

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列2020专栏连载

【立委按】公司希望我开个每周NLP专栏,正好也是个自选整理和修正的机会。汇集于此。

NLP自选系列2020专栏连载目录

 

NLP自选系列:自然语言系统架构简说

NLP自选系列:文本大数据的信息抽取与情报挖掘(上)

NLP自选系列:文本大数据的信息抽取与情报挖掘(下)

NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

NLP自选系列:漫谈语言形式

6   NLP自选系列:语义三巨人

7   NLP自选系列:语法结构树之美

NLP自选系列:深度解析器是揭示语言奥秘的探测仪

NLP自选系列:NLP 联络图

10  NLP自选系列:语言形式的无中生有:从隐性到显性

11 

12 

13 

14 

15 

【小随感】

请用两个英文词说明白你是做什么的。回答是:Structurize unstructured. 听上去有点像 make sense of nonsense. 如果只能用一个词呢?显然是 parsing。 总之是在无序中创造有序 属于非熵化的豪迈之举。问有啥用? 回答是:Text in. Database out.  再问 最终目的?回答是 消灭白领 包括丽人。想想也够缺德的 …… 白领看着文档,往数据库输入表格的事儿 是最常见的办公室风景吧。镜头也很美,尤其是白领丽人 一头秀发。坐在电脑前录入,跟弹钢琴似的。可惜,此景熬不过办公室自动化的浪潮,逃不过被机器化的宿命。时间表上看,在人类还没有琢磨明白如何应对这一次工业革命的人员下岗替代方案前,机器上岗肯定先行完成。都说人类因此可以解放做创造性工作。其实谁也不清楚,群体创造,还是群体堕落,哪个先来。因此,为自动化忧虑,也不算是杞人忧天,因为与AI泡沫不同,这是可以看见的。过程已经开始,只会加速进行。

 

《语言形式的无中生有:从隐性到显性》

立委按:这篇自选,大概只有对语言或语言学真有兴趣的读者,才能读到底。不过倘若真读下来了,欧洲语言的形态(语法词尾)及其生成的奥秘,也就清楚了哈。语言学真滴好迷人。简单打个比方,中文就是个“裸奔”的语言,头脑里的概念直接变成词往外冒。欧洲语言不同。思想化为语言表达出门前,先要穿戴整齐,西装革履一番。本文讲解的就是这个穿衣服的过程。术语叫“形态生成”。

 

话说华裔语言学泰斗赵元任先生曾经有过一个游戏名作,通篇只用同一个音,讲了这么个故事,天下人无不叫绝。

《施氏食狮史》
石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

这是比较浅白的文言文,读起来拗口,看懂这篇并不难。俏皮在通篇只有一个音节 shi,但对应了文言中不同的汉字。文言文汉字基本上就是一个独立语素(有意义的最小单位),属于孤立语,没有形态,虚字也极少用。文句主要就是靠实字概念之间的相谐(所谓“意合”)以及语序来表达内容,使人看得懂。

如果我们假设每个汉字对应一个确定的概念(多义汉字可以假设通过二字组或三字组来消歧),那么通过这些概念在西方语言中的词汇对应物及其组合成句的对比,我们就可以把孤立语与形态语之间的句法区别凸显出来。想来做一下这个练习会很有意思的,因为我们可以揭示语言的奥秘之一:无中生有。

这个对比练习最令人启发和好玩的地方,是做文言文与世界语(Esperanto)的对比,因为世界语实词的形态变化有两大特点:第一是形态词尾不可省略(起码词类词尾对于实词是必须存在的,不允许零形式);第二所有的形态变化是100%规则化的。这就会凸显形态这种词尾形式和小词这种形式怎么冒出来的。

咱们先建一部双语词典,让相同概念的实词一一对应:

石:ŝton / 室:ĉambr / 诗:poem / 士:ist / 施:Shi / 氏:S-ro / ,嗜:hobi / 狮:leon / ,誓:promes / 食:manĝ / 十:dek / 狮:leon / 。氏:S-ro / 时:temp / 时:temp / 适:ven / 市:merkat / 视:vid / 狮:leon / 。十:dek / 时:hor / ,适:ĝust / 十:dek / 狮:leon / 适:ven / 市:merkat / 。是:tiu / 时:temp /,适:ĝust / 施:Shi / 氏:S-ro / 适:ven / 市:merkat / 。氏:S-ro / 视:vid / 是:tiu / 十:dek / 狮:leon /,恃:fid / 矢:sag / 势:potencial /,使:kauz / 是:tiu / 十:dek / 狮:leon / 逝:forlas / 世:mond / 。氏:S-ro / 拾:kolekt / 是:tiu / 十:dek / 狮:leon / 尸:korp / ,适:ven / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 湿:malsek /,氏:S-ro / 使:kauz / 侍:servist / 拭:viŝ / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 拭:viŝ /,氏:S-ro / 始:ek / 试:prov / 食:manĝ / 是:tiu / 十:dek / 狮:leon / 尸:korp /。食:manĝ / 时:temp /,始:ek / 识:kon / 是:tiu / 十:dek / 狮:leon / 尸:korp /,实:fakt / 十:dek / 石:ŝton / 狮:leon / 尸:korp / 。试:prov / 释:klarig / 是:tiu / 事:afer /。

我们做语言对比的目的是考察完全不同类型和语系的语言之间,语言形式的不同是如何体现在组词造句的句法上,来帮助我们表达、理解和翻译的。因此,我们把多义字(词)的问题先放在一边,假定只有一个词义。但实际上不少字是有歧义的,即便在本篇中,也还有几个相同的字,意义不同(从而词类和用法也不同)。不过,这个问题可以用二字组(bigrams)来解决。本篇中需要用到的二字组有5条就够了:

施Shi / 氏S-ro –》S-ro Shi (倒装)
时temp / 时temp –》 tempo-al-tempo;de tempo al tempo
适ven / 市merkat –》 venas merkaton;venas al merkato
十dek / 时hor –》 dek-horon;je la dek horo
逝forlas 世/mond –》 forlasas mondon;forlasas la mondon

Ŝtonoĉambre poemisto S-ro Shi, hobias leonojn, promesas manĝi dek leonojn. S-ro tempo-al-tempe venis merkaton vidi leonojn. Dek horon ĝuste dek leonoj venis merkaton. Tiu-tempe ĝuste S-ro Shi venis merkaton. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kauzis tiujn dek leonojn forlasi mondon. S-ro kolektis tiujn dek leonokorpojn, venis ŝtonoĉambron. Ŝtonoĉambro malsekis, S-ro kauzis serviston viŝi ŝtonoĉambron. Ŝtonoĉambro viŝinte, S-ro ekprovis manĝi tiujn dek leonokorpojn. Manĝtempe, ekkonis tiuj dek leonokorpoj faktis dek ŝtonoleonajn korpojn. Provu klarigi tiun aferon.

实际上等价于:

石o室e 诗-士o 氏o 施/NNP,嗜as 狮ojn,誓as 食i 十/Num 狮ojn。氏o 时时e 适as 市o 视i狮ojn。十/Num 时-on,适-e 十/Num 狮oj 适as 市on。是/DT 时-e,适-e 氏o 施/NNP 适is 市on。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is 石o室on。石o室o 湿is,氏o 使is 侍on 拭i 石o室on。石o室on 拭inte,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。食-时e,始-识is 是/DT 十/Num 狮o尸oj,实is 十/Num 石o狮ajn 尸ojn。试u 释i 是/DT 事on。

Ŝton-o-ĉambr-e poem-isto S-ro Shi, hobi-as leon-ojn, promes-as manĝ-i dek leon-ojn. S-ro temp-o-al-temp-e ven-as merkat-on vid-i leon-ojn. Dek hor-on ĝust-e dek leon-oj ven-is merkat-on. Tiu-temp-e ĝust-e S-ro Shi ven-is merkat-on. S-ro vid-is tiu-jn dek leon-ojn, fidis sag-o-potencial-ojn, kauz-is tiu-jn dek leon-ojn forlas-i mond-on. S-ro kolekt-is tiu-jn dek leon-o-korp-ojn, ven-is ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o malsek-is, S-ro kauz-is servist-on viŝ-i ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o viŝ-inte, S-ro ek-prov-is manĝ-i tiu-jn dek leon-o-korp-ojn. Manĝ-temp-e, ek-kon-is tiu-j dek leon-o-korp-oj fakt-is dek ŝton-o-leon-ajn korp-ojn. Prov-u klarig-i tiu-n afer-on.

世界语形态很简单:

o 名词词尾,e 副词词尾,as 谓语现在时,ojn 名词-复数-宾格,i 不定式,on 名词-宾格,is 谓语过去时,inte 副词-主动-完成体,oj 名词-复数-主格,u 谓语命令式

那这些形态是怎么来的呢?

形态原文根本就没有,这是在翻译过程中“无中生有”的,否则就不符合世界语文法,也无法正确表达原文的结构内容。可以问:中文没有这些形态,不也是一样表达吗?凭什么知道它表达的,正好对应上面的形态呢?答案是,中文用的是隐性形式,而世界语的形态是显性形式。在我们用具体例句讲解隐性形式在文法上是如何工作的之前,我们再看看世界语的另外一种形式,所谓分析形式,是如何表达这一篇故事的。前面译文采用的语言形式是所谓综合语言的形态形式,世界语也可以更多依赖小词,采用所谓分析语言形式来表达,结果大致是这样的:

En la ŝtonoĉambro, la poemisto S-ro Shi hobias leonojn, kaj promesas manĝi dek leonojn. S-ro de tempo al tempo venis al merkato por vidi leonojn.  Je la dek horo, ĝuste dek leonoj venis al merkato.  Je tiu tempo, ĝuste S-ro Shi venis al la merkato. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kaj kauzis tiujn dek leonojn forlasi la mondon. S-ro kolektis tiujn dek leonokorpojn, venis al la ŝtono-ĉambro.  La ŝtonoĉambro malsekis, kaj S-ro kauzis serviston viŝi la ŝtonoĉambron. Kiam la ŝtonoĉambro estis viŝinta, S-ro ekmanĝis tiujn dek leonokorpojn. Je la manĝtempo, li ekkonis ke tiuj dek leonokorpoj fakte estas dek ŝtonoleonaj korpoj. Provu klarigi tiun aferon.

En la 石o室o 诗-士o 氏-o 施/NNP,嗜as 狮ojn,kaj 誓as 食i 十/Num 狮ojn。氏o 时时/de tempo al dempo 适is al 市o por 视i 狮ojn。Je 十/Num 时o,适-e 十/Num 狮oj 适is al 市o。Je 是/DT 时o,适e 氏o 施/NNP 适is al la 市o。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i la 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is al la 石o室o。La 石o室o 湿is,kaj 氏o 使is 侍on 拭i la 石o室on。Kiam la 石o室o estis 拭inta,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。Je la 食-时o,始-识is ke 是/DT 十/Num 狮o尸oj,实e estas 十/Num 石o狮aj 尸oj。试u 释i 是/DT 事on。

(En la) ŝtono-ĉambro poemisto S-ro Shi hobias leonojn, (kaj) promesas manĝi dek leonojn. S-ro (de) tempo (al) tempo venis (al) merkato (por) vidi leonojn. (Je la) dek horo, ĝuste dek leonoj venis (al) merkato. (Je) tiu tempo, ĝuste S-ro Shi venis (al la) merkato. S-ro vidis tiujn dek leonojn, fidis sago-potencialojn, (kaj) kauzis tiujn dek leonojn forlasi (la) mondon. S-ro kolektis tiujn dek leono-korpojn, venis (al la) ŝtono-ĉambro. (La) ŝtono-ĉambro malsekis, (kaj) S-ro kauzis serviston viŝi ŝtono-ĉambron. (Kiam la) ŝtono-ĉambro (estis) viŝinta, S-ro ek-manĝis tiujn dek leono-korpojn. (Je la) manĝ-tempo, (li) ek-konis (ke) tiuj dek leono-korpoj fakte (estis) dek ŝtono-leono-korpoj. Provu klarigi tiun aferon.

其中用到的世界语小词是:en (in),la(the),kaj(and),de(from/of),al(to),por(for,in order to),je(at/in/about),dek(10),S-ro(Mr/Sir),tiuj(these), estas (is/am/are),  estis(was/were)

我们以第一句为例:“石室诗士施氏,嗜狮,誓食十狮。” 相当于:

(En la) 石-o-室-o 诗-o-士-o 施/Shi 氏/S-ro,嗜-as 狮-ojn, (kaj) 誓-as 食-i 十/Num 狮-ojn.

好玩吧,概念不变,里面多出了很多文法形式和小词。原文没有,为什么要加?怎么加?为什么加了才是对的?

前面说过,文言是孤立语,缺乏显性形式手段,它的文法关系是隐藏在词内部的“隐性形式”,通过揭示这些隐性形式,我们可以知道是什么语法关系,到了目标语,又该用什么显性语言形式。

自动句法解析例示如下,第一张是所谓短语结构句法树(PS tree),第二张是分析更加深入的依存关系结构图(DG graph):

“石/室/诗/士/施/氏” 这头6个字都是名词 N,虽然没有 -o 这样的形式。怎么知道的,这是词所对应的词义概念决定的。在我们头脑里面是有词典记忆的,如果建立词典的话,N 这样的词类特征就在词典里面了。可见所谓隐性形式,就是词典里面的藏在词背后的东西。词类是一种,更多的词的子类也是隐性形式,也是查词典可以得到的。

下一个问题是,6个名词串在一起,怎么知道它们之间的关系,又怎么知道它们在句子中的角色,从而知道世界语该如何合法组织它们呢?

第一条规则是,单字名词与单字名词在一起,经常是先组织成合成词。(这叫词法双音化倾向,当然有例外,但很多时候是这样。)于是,我们把6个字变成三个合成词::石室 / 诗士 / 施氏。

到了世界语,N 与 N 怎么联系为合成词呢,通常加 -o- 连。如果后面的N是后缀,或者前面的N是前缀,则不用加 o,而 -ist(者/士)正是后缀。最后两个字有一个小规则,就是:百家姓(这是隐性形式,查词典可得)+ “氏” 组合成人的专有名词,这种组合到了世界语正好要倒过来:

X+氏 –》 S-ro X

为什么两种语言表达人名与称呼的词序不同(词序本身也是语言显性形式)?没有道理,就是两个语言在这方面习惯不同。把它当成语言之间的转换规则记住就好了。

这样一来,这6个字的词法(组合成词)都有了表现的形式:

石-o-室-? 诗-士-? 氏/S-ro 施/Shi

前面两个合成词后面的问号表示世界语还需要确定用什么形态(或小词)来把合成词之间的关系,或合成词在句子中的角色搞清楚。通常名词组合的合成词默认就是 -o,但有例外,这个例外也是隐性形式决定的。

这样讲下去太累了,虽然也不知道如何才能既简单也能讲清楚语言的奥秘。所有在这里讲的过程,都可以在电脑上实现。也就是说,这里的讲的隐性形式最后转换成世界语的合法的形态和小词形式,都是一个完全透明可以一步步机械实现的过程。句法为基础的“经典式”机器翻译当年就是这么做的。(最新的机器翻译不是这样做的,是用所谓神经网络算法,纯粹从大量的平行翻译语料死记硬背模仿出来的,这话先放下。)

好,运用了专有名词组合的小规则以后,我们就有了:

石-o-室-? 诗-士-? 施氏/S-ro Shi

第一个合成词与第二个合成词可以有三种结合方式:一种是第一个修饰第二个(做定语),于是第一个用形容词词尾 -a,第二个用 -o,这是最常见的默认的“定中式”名词组合:

(1)石-o-室-a 诗-士-o 施氏/S-ro Shi

另一种结合方式是, 遇到 “地点名词/时间名词”(这是名词的子类,也是词典里面可以记录的隐性形式)在句首的话,我们可以认为它是状语,而不是前面说的默认的定语。状语在世界语有两个形式:一个是用副词词尾 -e表示,一个是用介词 je(或 en ),于是我们有了第二种和第三种译法:

(2)石-o-室-e 诗-士-o 施氏/S-ro Shi

(3)en 石-o-室-o 诗-士-o 施氏/S-ro Shi

把上面三种译法替换成实词对等物,于是我们有了这个片段的世界语:

(1a)ŝton-o-ĉambr-a poemist-o S-ro Shi
(2a) ŝton-o-ĉambr-e poemist-o S-ro Shi
(3a)En ŝton-o-ĉambr-o poem-ist-o S-ro Shi

如果用分析形式(3a),最好适当加上冠词:

(3b):En la ŝton-o-ĉambr-o la poem-ist-o S-ro Shi

冠词怎么加就不细说了,总之有些微妙,好在是可加可不加的。

这句后面还有几个字:“……, 嗜狮,誓食十狮”。

查了词典,我们知道它们各自的词类: 嗜V 狮N ,誓V 食V 十Num 狮N,名词外,也出现动词 V,数词 Num 了。动词后面跟名词,通常就是宾语,要用 -on 或 -ojn;数词(除了1)后面跟名词必须要用复数形式 -ojn。动词本身默认是现在时态 -as(讲故事情节的时候,最好改用过去时态-is)。两个动词连用的时候,后一个动词通常变成不定式 -i(严格地说这是由前一个动词的子类决定的)。于是我们就有了:

嗜-as 狮-ojn ,誓-as 食-i 十Num 狮-ojn

把实词换成世界语的等价概念,于是我们就“无中生有地”生成了合法的世界语翻译:

(1) ŝtonoĉambra poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.
(2)ŝtonoĉambre poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.
(3)En ŝtonoĉambro poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn.

后面的句子都可以如法炮制。就是说,词典里面记录的词概念的词类、子类特征越丰富,我们就有了隐性形式的充足依据,拿它作为条件,根据上下文实词的组合,就可以指明世界语需要添加什么形态和小词,就可以用这些貌似无中生有的语言形式,表达隐藏在文言中的句法关系和语义逻辑,从而实现形式不同,但内容一样。

最后说一下,到底是中文文言这样的隐性形式好,还是用形态和小词把关系都挑明了好?当然是后者更胜一筹。小葱拌豆腐,一清二白呀。当然你也可以说,对于中文为母语者,也没觉得利用隐性形式,通过头脑里面看不见的词典记忆,组词造句是个负担。的确如此。但是对于其他语言来学中文的人,这不就要人命吗(语言天才例外)。对于机器分析和理解,也难得多。做一套世界语的电脑解析系统,一个星期妥妥的,做一个文言的解析系统,几年也不一定能做好呢。复杂度天壤之别。

好了,这次分享比开始想象的长多了。希望对于感兴趣的同好们,能有个启发。也在讲故事的过程中了解一下传统机器翻译的背后原理。也顺便普及一下世界语的文法概貌。

 

 

【相关】

语言形式漫谈

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

 

 

 

【李白之40:逻辑语义是语义核心,但不是全部】【存档】

李:
“不晓得是啥”:不晓得[ ]是啥

不晓得【萝卜】是啥。
这个宾语从句中的主语的坑省略以后,萝卜哪里去了呢?

萝卜不晓得是啥
不晓得是啥的萝卜
一口可口可乐喝完, 吐出一块不晓得是啥的东西

白:
“拿一些自己都不晓得是啥的东西来糊弄别人。”
定语从句反而是自然的

李:
why not 不晓得 NP[是啥的东西]? “晓得”的 subcats 既可带宾语从句,也可带NP宾语的:

不晓得啥东西
不晓得这东西

then, why the parse [[不晓得是啥]的东西] is better than [不晓得[是啥的东西]]?回答清楚这个问题,貌似需要一点说法。

白:
“他是个连微积分都不晓得是啥的东西”
又回去了。“晓得”带小句宾时,不满足穿透性,就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候,就出现了两个坑,不知道反填哪一个,这是要避免的。

李:
是吗?
“我不晓得到哪里去” == 我不晓得【我】到哪里去。

白:
不一定,可自主决策类,可以穿透。一般性的动词,无法穿透。

李:
“不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。

白:
狂吠是不及物的,一个坑。没有歧义。

李:
“不晓得是啥” 也是vp 也是不及物 或 宾语已经内部 saturated。

白:
不晓得是啥,两个坑:a不晓得b是啥。但“连微积分都不晓得是啥”,微积分填掉了一个坑,就没这个问题了。b锁定,只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人,虽然逻辑上包含人。连……都不晓得是啥,显然承载了这个负面情感。

李:
对。两个坑。但是 b 坑比 a 坑更具有必填性。

在“不知道是啥的东西”里,“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语,宏观上 是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。”
这里“晓得”的主语是“大家”。

白:
有“大家”,先填掉了逻辑主语。“东西”拔不走了。

李:
“晓得”的第二个坑 是宾语子句。“东西” 显然与 “晓得” 没有直接关系,因为根本就没坑了, “晓得” 已经饱和了。如果引进短语结构ps,可以说 “不晓得是啥” 这个 vp,还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。

白:
“是”的两个坑,“啥”占了一个

晓得的逻辑宾语是X,S比N优先,顺序比逆序优先。
“这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。

李:
大主语 topic,有可能是一个 arg 的坑 也有可能不占坑 那就是 mod。小主语必然填一个坑。

白:
双主语有两种情形,一种是大小主语,往往有part of联系;另一种是宾语提前或话题化,这种没有part of联系。有part of的,可以名词自带坑。没有的,只能消费里面的坑。名词自带坑的,里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是:1、他哭;2、眼睛肿;3、眼睛是他身体的部分。眼睛,和哭,共享“他”这个萝卜。因为“肿”合并到“哭”,“肿”辖域内的残坑(谁的眼睛)获得免费额度。可以复用已填坑的萝卜。

李:
有 part of 这种特别有意思:“他身体不错”。

== 【他 身体】不错。
== 他 【身体 不错】

这两个看似水火不容的结构,都有各自的合理和优点,二者互补才反映全貌。

(1) “他的身体不错”:显性形式的小词“的”,让“他”降格为修饰语,属于填了“身体”所留的坑的修饰语。

白:
有“的”,修饰语辖域自然归并到被修饰语辖域,也获得免费额度。他,可以既填“的”本身的坑,也可以再填“身体”的坑。

李:
(2) 他身体方面不错:“身体”被降格,降格成后置词短语PP“身体方面”(Postpositional Phrase),类似状语。
(3) “他么,身体不错”,“他”降格为话题状语,用了口语小词“么”。
(4) “他身体好,又聪明” 可算是谓词“升格”(或“小句降格”)。从一元化领导升格为集体领导。本来谓词(譬如“聪明”)就是谓语,但现在“身体好”这个短语或小句整体变成了谓语,与另一个AP谓语“聪明”并列。

白:
“身体好”整体相当于一个不及物动词。两个带坑的成分级联,略去中间环节,还是吃N吐S。

李:
这些现象极端有趣,fascinating。表明 在基本相同的逻辑语义底层结构中,语言表达可以借助语言学的形式手段,给这个底层结构穿不同的衣服,打扮成不同的形象。进而对其语义做某种非核心的修饰。

白:
从填坑角度看只是初等的数学运算。免费额度算清楚了,其他都是小菜一碟。这又打破树的形态,真心不是树。

李:
但是 即便所有的坑都填妥了,那也只是逻辑语义的胜利,底层核心的被求解,表层的细微语义差别(nuances), 那些不同表达方式,那些“升格”、“降格”的不同语言形式。它们所反映的东西 严格地说 也应该被恰当的捕捉和表达。

白:
两件事情,谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。

李:
对呀。

白:
比如听说双方之前各知道什么,强调什么,诸如此类。这些不在“主结构”框架内,但是是一些“环境变量”,需要的时候可以从里面捕捉这些信息。

李:
最典型的例子是 “我读书” 与 “我读的书”,二者语义的区别,虽然逻辑语义核心以及填坑关系是相同的。

白:
焦点不同、有定性不同,已然未然不同,甚至单复数也可能不同。我当下正在读的书可能标配是单数,我读过的书标配就是复数。

李:
这些语义 与 逻辑语义,处于不同的层面。逻辑语义是本体(ontoogy)作为模版, 这些语义与本体模版无关。所谓本体模版,说到底就是规定了坑与萝卜,及其 type appropriateness(相谐性),他不反映这些有待填充的模版之间的结构关系,也不反映关系中的节点上附加的语义或细微差别,诸如 强调、委婉、正式、非正式、语气 等。

白:
这些都可以抽象为:语境的坑,只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的,都是耍流氓。

李:
不仅仅人机对话,机器翻译也要这个。
30年前,董老师强调要以语言之间的核心,即逻辑语义,作为机器翻译的基础。让我们脑洞大开 深受启蒙。然而 这只是翻译需要正确传达的一个方面,的确是最核心的一面,但不是全部。边缘意义和细微差别,在核心问题基本解决后,就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看,主动被动是表层的语言现象,在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面,但人不是这样翻译的:一个高明的译者懂得,什么时候被动可以翻译成主动,什么时候需要翻译成显式的被动,什么时候可以翻译成隐式的被动,什么时候改造成反身自动的表达方式(譬如在英语到法语的翻译中加 se)。

白:
视角选择,也是一个考量因素。有时,被动语态的采用,纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。

李:
总之 逻辑语义是个纲 纲举目不一定张 对目下功夫是区别一个好的系统和一个很好的系统重要指针。

白:
纳入语境的坑,一个好处就是所有填坑的机制可以复用过来,无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等,都可以套用本体的subcat。

李:
这个方向探索不多。但现在是可以考虑的时候了。

白:
我考虑很久了。语义是船,语境是河。船有内部结构,但行进也受到河的左右。内部结构不能完全决定行进的选择。

白:
不知道“王冕死了父亲”算是交叉还是不交叉?
王冕游离在外,另一部分的中心词是死,但王冕却不填它的坑,而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系,这个link还是在王冕和父亲之间。从形式上看,王冕(N)和父亲填坑后的残坑(/N)中间隔着中心谓词“死(S)”,但这个吃饱了的S对N和/N之间的眉来眼去是无感的。
乐见其成。

F:
如果是语义依存,是non-projective的,是有交叉的,”父亲”这个词的投射不连续。

白:
‘’倒是“父亲”填“死”坑的一刹那,让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑,则是左侧核心成分优先级高,我把它们处理成句法上存在填坑关系了。

李:
“王冕死了父亲”的交叉与否的问题,这个以前想过。不交叉原则针对的是句法关系
这是句法关系的逻辑底线,交叉了逻辑上无法说通,所以判违规。还没见过例外:句法关系可以并列,嵌套,但不能交叉。但不交叉原则不适用于逻辑语义关系。其实,严格说,相对于逻辑语义的不应该叫句法关系,也包括词法关系(可以看成是小句法)。总之是形式层面的结构关系。形式层面的结构关系不允许交叉,这个原则是对的。有意思的是,语言中的不同层面的形式结构关系,戴上逻辑语义的眼镜,或映射到逻辑语义的表达的时候,就可能发现交叉现象。原因是昨天说过的,逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图(graph)中是不包含句法结构层次之间的关系语义的。换句话说,逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜,完全有可能去填句法层面的逻辑语义的坑。反之亦然:词法层面中的坑,完全有可能让句法层面的萝卜去填。用乔老爷的Xbar句法框架或概念来说就是,语言单位X的层次,在逻辑语义看来是不重要甚至不存在的,无论是 X 是 -1 (我把词法内部的层上标为负数),0(词一级),1(组一级),2(短语一级)。萝卜与坑可以在这些不同层次中继承或跳转,但是句法上却有层次之间的区别和禁忌。

这些层次以及层次间的关系和规定(譬如不交叉原则)是客观存在的反映,是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法(PSG)及其表达中,体现得较好。在不重视层级的依存文法(DG)中就反映和表达得不好或不够。不管我多么喜欢DG,多么讨厌PSG表达的叠床架屋,我还是要指出DG的某些不足,正是PSG的长处。

回到白老师的例子,可以看得清晰具体一些:“王冕死了父亲”。PSG句法上,王冕 是NP,“死了父亲”是VP,构成S。VP里面“死了”是V-bar, “父亲”是NP宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次,句法不允许一个单位钻进另一单位的里面去建立联系,这是违反了君臣父子的天条。一个句法结构,对外就是一个元素,里面是黑箱子,不透明(但可以利用某种机制传递某种东西)。唯此,才能维护结构的清晰。但是到了逻辑语义,这些条条框框都可以打破:一个儿子可以有n个老子,交叉也不是不可以。树(tree)是无法承载逻辑语义的任意性和结构扁平化了,于是需要用图(graph)。我早就说过,DG本性上比较亲近逻辑语义(深层核心结构),而PSG则亲近的表层句法结构。很多人以为它们是互换的或等价的,只是表达(reprentation)方式不同。其实不仅如此。在我们饭还吃不饱的时候,我们首先想到的肚子问题,核心问题。当我们衣食无忧的时候,我们就要讲究全面一些,核心和边缘都不放过。并不是不放过边缘,不放过表层结构语义,就一定要回到PSG,但是至少仅仅逻辑语义是不够的,还需要添加其他,就如白老师昨天提到的那些以及他的一些表达方案。

白:
这些所谓的句法,功劳不大,脾气倒是不小。比他多识别出有价值的二元关系,反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。

站在外层N的角度,它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体,这个联合体挖了一个名词坑,“王冕”填进去,天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道,共享“他”这个萝卜。

中心词作为组块的代表,统一对外提供坑。这是对的。但是这坑未必是中心词自带的,可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑,相当于用镣铐把自己锁起来。何苦自己为难自己?

李:
今天的对话,符号逻辑,参杂点黑话与绿色幽默,有点绕,烧点脑。管他呢,还是发了吧。

白:
“把字句”与补语所带坑的深度捆绑,也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”,没有坑可以共享萝卜,“哭”与human相谐,“肿”与body part相谐,二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用,吃human,吐human body。看这个“肿了眼睛”的联合体所带的坑,与“哭”所带的坑,完全相谐,恰恰是可以共享的了。所以,在PSG那里避之唯恐不及的穿越交叉,其实隐藏着重大玄机。恰如其分地把它请回句法,可以起到四两拨千斤的作用。我对什么该放在句法层面,其实只有一个标准,能描述谁和谁有关系。如果谁和谁就是交叉着发生关系,句法不仅不应该回避,而且应该忠实描述。更何况,大的方面,中心词代表所在组块对外发生关系方面,并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑,都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍,一定是障碍错了而不是关系错了。

退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”,什么都结了。

李:
说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断,坚信不隔断 谁也做不好 做不纯粹和深入。何况 语义是全人类共同的 哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法(UG) 仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义,语言学就开始参杂逻辑的杂质了。

白:
我说的也都是句法,不是语义。只不过是能给语义省点事儿的句法。

李:
夹杂了本体,或本体的隐藏式 譬如 大数据中间件,就不能说是纯句法,因为常识揉进了形式系统。

白:
只是在控制(怎么做)层面引入了本体/大数据,在描述(是什么)层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说,如果只是为了写一本句法书而不是为了做parser,本体连一句话都不需要提。那就在这个层面比,谁揭示了更多的结构性信息。

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录



http://blog.sciencenet.cn/blog-362400-1051610.html

上一篇:辨析相对论、相对论性与相对论性(的)效应
下一篇:【李白之41:Gui冒VP的风险】

【李白之44:“明确”是老子还是儿子,需要明确】【存档】

白:
“北京大学率先明确入雄安路线图”。“明确”是副词还是动词,需要先明确。

李:
我觉得这不是问题的关键。pos 在抽象层面只规定非常宽泛的框框。关键还是语义之间的相谐。正确的问题不是pos,而是 “明确” 在这里是状语(儿子),还是谓词(老子)。在【明确+ vp】里面,pos 上它没有什么限制,所谓跨类词。跨类就是两可。 对于跨类 这是一个没啥意义的问题 或者说 这是一个 circular 的问题。

“明确”的最常见的 subcat 带的是 np,但是 在 “明确v” 出现时,这个 v 可能是 vp,因此 “明确”可能做其状语。也可能这个 v 是np内部的修饰语。

(1) 明确规定游泳违规
(2) 明确规定 严明纪律 这两条是整顿金融秩序的关键所在
(3) 我们要明确规定条例

大数据可以帮到 (1);(2) 是排比的力量 压住了大数据,把潜在的动宾可能激发出来。 但排比因素的形式化实现还需要探究(虽然形式特征在人看来是蛮明显的)。(3) 仍然歧义:“明确(地)规定(相关)条例”,还是 “明确(一下)(有关)规定(方面的)条例”?大数据似乎选择前一个解读,为什么我们仍然感觉得到后一种解读的可能性。设想 如果大数据中 “规定条例” 比例开始高到可以与 “明确规定” 相匹敌的时候,这就是大数据也搞不定的边界之争。

白:
“北京大学率先明确入雄安路线图”这个例句中,“明确”只有一种走得通的词性,就是动词S/N,X。如果是副词,“入”就会过饱和。虽然过饱和也是能处理的,但放着正常饱和的不用却去用过饱和的,终究不妥。因为“入雄安”只剩下一个坑了。副词“S+”不会改变萝卜数和坑数。

李:
“率先明确入雄安的是习大大吗?当年是毛主席率先明确入京的。虽然有人提议仍在南京建都。” 什么叫 入 的过饱和?

看样子 “明确” 的subcat 也有带 vp 的,虽然不如带np的 subcat 用得广。

另。假设 native speaker 的语感与大数据(作为语言共同体语言表现的代表)吻合(实际上当然不会总是吻合), 那么大数据搞不定的歧义就应该视为真歧义。大数据能搞定的就是伪歧义 尽管这个伪歧义以前被认为是句法真歧义。“以前”指的是没有大数据语义中间间或没有语义或常识消歧手段的句法分析器的那个时期。

【相关】

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

【语义计算:李白对话录系列】

《朝华午拾》总目录



http://blog.sciencenet.cn/blog-362400-1055262.html

上一篇:【李白之43:谈谈绑定和回指】
下一篇:【李白宋铿锵行:聪明的一休与睿智的立委】

泥沙龙笔记:真伪结构歧义的对策(2/2) 【存档】

【存档】者,恢复科学网博客被遮蔽之博文也。有些文字也不知道犯了啥规矩,譬如本篇,纯学术沙龙,也莫名其妙封杀了。总之现在是风声鹤唳,杯弓蛇影。也难为编辑了,宁可错杀一千,不能放过一个,这也是高压下自保之策,可以理解。人在弯腰树,惹不起可以躲一躲,不是?

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

 

【立委按】读者的反应是,这次笔记是《立委科普》专栏中最深奥的。看得稀里糊涂,不明觉厉。的确,没有专业背景不行,这两篇不算严格意义的科普,当然也不是科唬,而是严肃的探讨,希望对后学和同仁更有价值。

好了,咱们接着聊,第二章:为什么多层系统,尤其是 多层 FSAs ,不受伪歧义的困扰?

白: 只要证明毛毛虫以外不是人话,就只管放心玩毛毛虫好了。

头头绪绪,怎么讲好呢?

白: 伪歧义跟规则的递归形式无关,跟规则的词例化水平和压制机制有关。但是,要hold住十万百万量级的规则,CFG一开始就必须被排除在外。

对。

说到底是规则的个性与共性关系的处理,这是关键。这个不是我的发现,我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为 专家词典(expert lexicon )系统,就是因为我们把个性的词典规则与共性的句法规则分开了,并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对,单层的 CFG 基本是死路。眉毛胡子一把抓,甚至所谓词典主义的 CFG 流派,譬如 HPSG 也不能幸免,不出伪歧义才怪呢。如果规则量小,做一个玩具,问题不严重。如果面对真实自然语言,要应对不同抽象度的种种语言现象,单层的一锅炒的parsing,没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合,但是在树本身的选择数目都在爆炸时,这种整合是不能指望的。

可以说得具体一点来阐释其中道理。分两个小节来谈,第一节谈多层系统中,单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制,比如“美国和中国的经济”’。“张三和李四的媳妇”

如果这两种伪歧义都有自然的应对方式,那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦,学文科的,生存下来不容易,各位包涵了。说到现在,从白老师的眼中,都是偏离主题核心了的。

白: 抽象的并列,天然优越于抽象的长短不齐。似乎并不关乎词例,词例化的、次范畴化的规则,都好理解。抽象的结构化压制,处于什么地位呢?

但是难得大家围坐在一起,忍不住借题发挥一下,顺带进一步阐释了上次“上海会面”上的论点:我对乔老爷既爱且恨,爱他批判单层统计派的一针见血;恨他一竿子打翻一船人,敌我不分,重理论轻事实。

白: 是因爱成恨好吧

我们实际上半条身子在统计派的船上,大家都是有限状态;半条身子在语言派船上,毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word,而我们的有限状态是真正的 ngram,这个”gram“ 就是刘老师当年一再强调的 “句素”,是一个动态的句法单位,可以是词、短语或者小句,随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的,因为它反映的是真正的语言学,统计学家天然不懂。

白: 世界上只有深层派和浅层派,这是复旦美女教授教导的。我认为只要touch深层,无论什么派都会殊途同归。

先说单层内部的伪歧义。这个白老师心里应该没有疑问了,不过为了完整还是先讲它。

单层的有限状态说到底就是一个 regex (正则表达式),只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层,面对的单位就是 words (or tokens)。如果是句法关系的解析层,面对的单位就是短语(可以看作是头词,它代表了整个短语,“吃掉”了前后修饰语)。

对于单层,有两种结构歧义,一种是伪歧义,占多数;一种是真歧义,占少数,但存在。单层系统里面的每一条规则都是一个 pattern,一个缩小版的局部 parser (mini-parsing),试图模式匹配句子中的一个字符子串(sub-string)。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。

白: 然后?

这是难免的:因为描述语言现象的规则条件总是依据不同的侧面来描述,每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多,相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分,是那个部分使得 parsing 越来越强大,涵盖的现象越来越多。至于相交的部分,结论一致的规则表现为伪歧义,这是多数情形。结论不一致的规则如果相交则是真歧义。这时候,需要一种规则的优先机制,让语言学家来定,哪条规则优于其他规则:规则成为一个有不同优先度的层级体系(hierarchy)。

白: 在线?

FSA Compiler 事先编译好,是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系,不能初一十五不一样。

个性的现象优先度最高。共性的现象是默认,优先度最低。这个很自然。一般来说,语言学家大多有这个起码的悟性,什么是个性现象,什么是共性。

白: ”张三的女儿和李四的儿子的婚事“

如果优先语感不够,那么在调试规则过程中,语言数据和bugs会提请语言工作者的注意,使得他们对规则做有意义的优先区分,所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity,这是个铁律。在非单调推理中也是如此。

这个优先权机制是所有实用系统的题中应有之意。

优先级别太多太繁,人也受不了。实际情形是,根本不用太多的优先级别区分,只要三五个级别、最多八九个优先级别的区分就足够了。

白: 我还是觉得优先级初一十五不一样的时候一定会发生,而且统计会在这里派上用处。

一切是数据制导,开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义,恰好就落在了原来的伪歧义的区间里面。这时候,虽然有n条规则都产生了 local parses,他们之间没有优先,那就随机选取好了,因为他们之间没有 semantic 的区别价值。

换句话说,真歧义,归优先级别控制,是数据制导的、intuitive 的。伪歧义则随机选取。这一切是那么自然,以至于从业者根本就没有真正意识到这种事情可能成为理论上的困扰。

关于初一15的问题,以及白老师的具体实例,等到我们简单阐释第二节多层之间的伪歧义的应对以后,可以演示。

第二章第二节,多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义,不外是围追堵截,这样的应对策略在开发过程中也是自然的、intuitive 的,数据制导,顺风顺水。围追堵截从多层上讲,可以在前,也可以在后。在前的是,先扫掉例外,再用通则。在后的是先做默认,然后再做修补(改正,patching)。道理都是一样的,就是处理好个性和共性的关系。如果系统再考究一点,还可以在个性中调用共性,这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识,甚至常识(根据应用需要),共性里面就是句法模型之间的变式。

好,理论上的阐释就到此了,接下去可以看实例,接点地气。白老师,你要从哪个实例说起?我要求实例,加问题的解释。

白硕: “中国和美国的经济”。这就是我说的初一十五不一样。

这是真的结构歧义,Conjoin (联合结构)歧义 。在语言外知识没带入前,就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义,其他的还有 “的”字结构的歧义。这些歧义在句法层无解,纯粹的句法应该是允许二者的共存(输出 non-deterministic parses),理论上如此。句法的目标只是区分出这是(真)歧义(而这一点在不受伪歧义困扰的多层系统中不难),然后由语义模块来消歧。理论上,句法和语义/知识 是这么分家的。但是实践中,我们是把零散的语义和知识暗度陈仓地代入句法,以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

缺省优先由”大数据“定,原则上。统计可以提供启发(heuristics)。

白: 有次范畴就能做出缺省优先。不需要数据。

当然。次范畴就是小规则,小规则优先于大规则。语言规则中,大类的规则(POS-based rules)最粗线条,是默认规则,不涉及具体的次范畴(广义的subcat)。subcat based 的其次。sub-subcat 再其次。一路下推,可以到利用直接量(词驱动)的规则,那是最优先最具体的,包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的,就联合结构而言。但是,about 次范畴,理论上有太多的层。

那是,联合结构消歧中的次范畴不是很好用,因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet,里面的 taxonomy 可以很深,统统用来作为次范畴,不太现实。但理论上是这样使用的。

白: 再一个,“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗?

上例的问题和难点,白老师请说明。”的”字结构的 scope歧义加上联合结构的歧义的叠加现象?

白: 上例是处理深度的问题,各自理解即可。歧义叠加,只有更加歧义了。可是实际相反,叠加限制了歧义。

在分层处理中,我们是这样做的:

(1)Basic NP, 最基本NP层的结果是:NP【张三】 的 NP【女儿】 和 NP【李四】 的NP【儿子】 的 NP【婚事】

(2)Basic XandY, 最基本的联合结构层:在这个层次,如果条件宽,就可能发生联合错误,错把 【女儿 和 李四】 联合起来。这个条件可以是 HUMAN,二者都符合。而且在 95% 的现象中,这个条件是合适的。如果条件严的话,譬如用 RELATIVES 这个语义次范畴(HUMAN的下位概念),而不是 HUMAN 来限定的话,这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢,这实际上决定于设定的目标,没有一定之规。做细总是可以做到更好质量,大不了多加几层 NP 和 XandY 的模块(FSAs),但还是增加了开发和维护的负担。如果做粗一点,只要所造成的 parsing 质量上的后果能控制在应用可接受的范围,那也未尝不可,因为说到底,世界上没有完美的系统。上帝允许人类的不完美。

雷: 联合类的问题一直是nlp的难点。

白: 把这个换成“AB的中点与AC的中点的连线”?同样的结构。

另一个思路,就是多层协调中的修补。对于上述两个例子,修补的办法似乎更好。与其分多层,代入各种繁琐的语义条件来消歧,不如任他出错,然后根据pattern的平行因素加以修正。在多层系统中,这个常常是有效的策略,也符合开发的总体规划。先把系统大体弄得work了,可以对付多数现象,然后有时间和余力了,后面可以 patching。前提是,错误是 consistent 和 predictable 的。对于多层管式系统(pipeline system),错误并不可怕,只要这种错误 consistent 有迹可循,后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation(错误放大)的难题。其实,多层系统也可以做到负负得正(矫枉过正是也)。一个好的系统设计,是后者,通过 data-driven,可以做到把错误放大控制到最低限度,并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行,太细则边际效益大减。

上例中 “中点与AC” 可以联合,不过是一个暂时的内部错误而已,后面可以修正。总之,这些都不是根本的 challenge,想做就可以做,实际操作上,也可以选择不做。问题大了,就做;用户发飙了,就做;否则就无视。很少有歧义是做不出来的,功夫和细节而已。最终决定于值得不值得花这份力气,有没有这样的开发时间和资源。

白: 做与不做,有可能影响架构选择。补丁有好处也有后遗症。

NLP 可以做一辈子,在基本机制(优先机制,修正机制,范畴、次范畴机制,专家词典等)由平台实现提供以后,慢慢磨到最后就是 diminishing return,与爬山类似,这决定了我们何时罢手。如果85%的精度作为parsing的目标,那么系统会选择不做一些稀有的现象。有了这个 85%,已经可以满足很多应用的要求了。

有了 85% 做底, 还可以让机器变得智能起来,自动地自我提高,所谓 self-learning,这是研究课题了,但是是可以实现的。实际上在我指导的实习生实验中已经实现,不过就是不大实用而已。

白: 再看“馒头吃光了”?

这个例子更容易讲清楚,。在系统的某一层,可以有个规则 把某种 “V+光” parse 成为动补结构,这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

好,这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例,譬如,”黑洞吃光了“, 那么或者修正它,或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则,如果需要的话。至于这么做值得不值得,那是应用层面的决定。很多时候是不必要的。错了就错了,不过是显得系统缺乏专家的知识,so what?

即便是人,也决定于他的知识面,小学生和文盲一般不能正确 parse 理解 ”黑洞吃光“  的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要,那是语言内的句法知识(最多说是句法子范畴或小规则,但不涉及专业知识),是所有国人的默认理解。

白: 这一点非常重要。一个开放,一个封闭。一个外部,一个内部。

外部的事儿,就算没有专业知识,也可以大数据招呼。

今天似乎可以结束了,说到底,就是

一,平台需要提供一些基本机制来处理共性与个性的关系,从而应对歧义,这些在 FSA formalism 的教科书定义中可能不存在,或被忽略,但却是实用系统不可或缺的。

二,NLP 的确是个力气活,有无限的可能深入。当然,我们可以选择不深入,可以选择何时罢手。

至于大数据招呼,那个在前述的自学习上也必须用到。

雷: 人在语言理解中也会发生许多歧义。如果机器发生的理解歧义同人的歧义,这个反而正常了。

我们教授机器做到 85%,大数据基础的自学习可以让它自行提高到 90%,这个是部分证实了的,可惜还没有发表出来,以前说过,懒得成文。都骨灰级老革命了,谁在乎那个。

雷: 大数据太笼统了。言语理解有太多层了。比如,比喻或隐喻。

白: 他就是要抹平这些层 @雷

我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。

啰里啰嗦,把大家都吓跑了,只剩咱哥仨了?

雷: 这些抹平是暂时的还是永久的?

白: 实用主义的

雷: 同意,实用主义

对。实用主义,就是小平的猫路线。

这次神侃算不算基本回答了疑惑,可以得出 ”伪歧义在多层系统中不是困扰“ 这个结论?

白: @wei 是,非常感谢

不过,我们一方面实用制导,一方面没有忘记基本面和大局。与纯粹的实用主义,头痛医头,脚痛医脚,还是不同。

雷: @wei 这些可以发表在你的博客吗?@wei 许多东西在博客里更好更有指导意义

既然讲了,就博客吧。这种积一辈子挖煤的经验之谈,正式论文中罕见,也算一件功德。

难得的是白老师还有雷司令身为主流精英,居然能一开始就高于主流,不排斥异端或少数派。

所以上次上海聚会,我就说,火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。

白: 可以再关心一下NLP的商业模式,怎么能讲一个好故事。我们说fsa也好分层也好,资本都是不感冒的。

雷: 是,商业模式, 如李长官以前说的,怎么2c,而不是仅仅2b

白: 只要聚焦于深层,一定会殊途同归。

但我知道也有很多统计死硬派,甚至大牛,是不尿这壶的。

白: RNN记在统计账上,但已经是深层了。

滑稽的是发现有些死硬派做了n年NLP,却真地不懂语言学,有个别大牛连常识都不懂,让人跌破眼镜。当然这个只能内部说说,不能博客的。所以往往是互相地不尿对方那一壶,与宗教之战类似。

RNN 我还需要学习,才敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何,我不知道。

可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来,也殊途同归。

其实 多层 FSAs 本质上就是 ngram 的花样,不过 gram 不再仅仅是词了,而是等于或大于词的句素。能以动态句素作为 ngram 的对象,是因为多层的原因,跟剥笋子一样,层层扒皮,gram 当然就是动态的了。这一点很关键,是乔姆斯基都没想到的 power。

白: 对,边扫描边归约,边抛出句素。

黄: ngram是简单的统计,这几年也有许多进展,representation learning 算是深度学习在自然语言处理的热点。

这里面最 tricky 的不是机制而是细节。魔鬼在细节,就是指的这个。FSA 是”古老“简单的机制了,细节就是玩平衡,玩模块之间的协调。玩得好的就好比中餐的大厨,可以做出满汉全席来,玩不好的还不如麦当劳、keywords。到这一步,经验因素开始起作用。没碰过n次壁,甚至几万小时的炼狱,这个火候掌握不好。

白: 句素的个头大,影响范围就大,相当于抛得就远。可以进入远距离的滑动窗口,伟哥说的Ngram的缺点就不存在了。

黄: 很多新的模型都试图去capture long distance, sentence, paragraph的依赖关系,这里头可做的事情很多。

这类系统很难做得表面上漂亮光洁,总是在混沌中前行,要忍受不完美。这方面的忍受,数学家不如语言学家。他们天生追求简洁完美,不愿意将就。

白: dirty是必然的

ngram 的缺点是主流的缺点,不是语言多层派的缺点。恰好相反, ngram 多层以后,很容易比任何 CFG 做得细致深入,以至于,想怎么深入就怎么深入, 如果持续开发的话。

黄: 我感觉统计模型的优点之一是在某种程度上加上了semantic,比pure syntactic有很多好处

CFG 那套单层范式,无论统计模型还是传统文法加以实现,真地深入不下去,是框框决定的。两边都玩过,这种对比太强烈了。我对我的博导说过, HPSG 真地不好用,那边费那么大劲的事儿,在我这儿是小菜。说拿的是牛刀,可对象不是牛,而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表(相当于语言的head中心词)之间发生全局相互作用的地方。真是神了。

为世界和平和人类福祉计,统计模型和规则系统一定是要融合和弥补的,in some form。

这个忽视统计的教训我们也有过。如果没有统计的概念,没有大数据的制导,往往拍着脑袋而过度开发,最终是系统的臃肿不堪,甚至报废。我们语言学家是一种可能走火入魔的动物。必须要用数据制导和工程操作规范来制约我们,不能由着我们任性胡闹。

白:飞机要起飞了。关机。到北京再继续。

今天到此,特别谢谢白老师的互动和精彩的及时点评。

黄: 大胆假设,小心求证。复杂模型的威力如果有了海量带标数据没准能发挥。这几年好些统计模型都是老树开花。

黄老师还沉浸在主流的傲慢与光荣中,呵呵。

黄: 不好意思。

 

当然,任何奇迹都可能发生,就如在图像和语音中发生的奇迹一样。也许 deep learning 在 parsing 方面会有突破。可以想见,很多 DL 研究者正在朝着这个目标奔跑,似乎谁跑得快,谁就可以摘除NLP皇冠上的明珠。

不过这边厢有半个多世纪的传承和几十年的积累,奇迹已经发生了。

我最乐观的预测是,统计的奇迹一旦发生,从功能上也就是多层规则派奇迹的再现。从今后扩展上,也许更具优势?

拭目以待-ing。

【相关博文】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2) 2015-09-21

 乔姆斯基批判

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-922450.html

上一篇:泥沙龙笔记:真伪结构歧义的对策(1/2)
下一篇:【旧文翻新:温哥华,我的梦之乡】
 

1  陈辉

发表评论评论 (4 个评论)

删除 回复 |赞[2]李维   2015-9-24 15:35
一不小心,把我以前的关于有限状态不是确定性状态的回复覆盖了,懒得重写了。总之,有限状态是一个 formalism,用来描写输入串如何模式匹配,而确定性和非确定性(deterministic、nondeterministic)是指的输出结果的形式。
删除 回复 |赞[1]srrc   2015-9-21 23:09
这种方法总觉得离人对语言的理解有偏差,人阅读会有回溯。但很多情况下,读如花园小径句子并不需要重读,可见人脑中本身就有多种后选,这与确定性状态有悖。
 回复  : 有限状态(finite state)不是确定性状态。有限状态只是一个formalism,一个捕捉语言句型和现象的工具,并非不允许不确定的状态。更加接近这个概念的是 deterministic,有限状态的方法并不是天然地输出 deterministic results,虽然实际上还是 deterministic 的过程实用。Non-deterministic 的结果,如果真地需要和有益的话,也还有其他的方法和技巧在系统中体现。
2015-9-21 23:491 楼(回复楼主)赞|回复
 回复  : 微博的一些评论转抄如下:

王伟DL
文章透露着落地的经验(经历)的光泽,不同的人对此文吸收和反射的谱线也会不同。我贪婪地一连看完,很多地方只觉得在理,的确是是是,有些地方也想表己见,却欲辨已忘言。“…指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。”,好羡慕这个大块头!大块头有大智慧!

@算文解字:这篇顶级高手对话,充满思想,可以当武林秘籍参悟的文章,竟然没人转。。。强烈推荐啊!

算文解字
依存关系的确更好用//@立委_米拉: (1) 分层是正道。最起码要两层,基本短语层和句法关系层。(2)顺便一提,作为生成结果,短语结构的表达远不如依存关系的表达。短语结构叠床架屋,不好用,也不够逻辑和普世(不适合词序自由的语言)。当然,这后一点是另外的话题了,不仅仅是 CFG vs FSG 之争了。

算文解字
也对,镜老师批评的是用同一层次的规则处理不同层次的现象的”原教旨”CFG生成方法,提出的对策为FST分层处理。而在CFG下用coarse2fine的(分层)策略,也算是殊途同归了。//@沈李斌AI: 没必要排斥CFG。CFG树是生成结果,不是生成步骤。设计好coarse to fine的生成策略,控制每一步的perplexity和recall
2015-9-24 15:242 楼(回复楼主)赞|回复
 

《李白之零:NLP 骨灰级砖家一席谈,关于伪歧义》

题记:此地有金八百两,隔壁RNN不曾偷。

李:今天我们可以讨论伪句法歧义(pseudo-parses)的问题。我说过,多层 FSA 的 deep parser 不受伪歧义的困扰,虽然这是事实,但也还是需要一个阐释。这个问题是革命的根本问题,虽然文献中很少讲述。

第一章,事实篇。

话说某年某月某日,立委与白老师在微博狭路相逢。其时,立委正海吹深度分析(deep parsing)乃是自然语言之核武器,批评主流只在浅层做文章,摘下的不过是低枝果实(low-hanging fruit)。白老师当时插话说(大意): 你们搞深度分析的不算,你们也有自己的挑战,譬如伪歧义问题。最后留下三个字:你懂的。

各位看官网虫,大凡社会媒体,只要留下这三个字,那就是宣告对手的不上档次,不值得一辩,叫你无还手之力,无掐架之勇,先灭了你的志气。此前,与白老师未有私人交往,更无卡拉ok,江湖上下,白老师乃神人也,天下谁人不知,况青年偶像,粉丝无数。立委见势不妙,战战兢兢,唯唯诺诺:“那自然”。我懂的。心里却颇不以为然:伪歧义其实不是一切深度分析的命门,它只是单层分析的挑战,特别是 CFG (Context-Free Grammar)类 parsers 的困扰。

这是第一章第一节,是锲子。

虽然心里不以为然,但是“我懂的”,却是有丰富的事实依据。骨灰级老革命有一个好处,就是碰壁。无数的碰壁。革命,碰壁,再革命,再碰壁,直至百毒不侵,火眼金睛。老革命可能还有一个好处,就是走运,走狗屎运(譬如赶上上世纪末的网络泡沫,米国的科技大跃进,天上掉馅饼),直至反潮流也没被杀头,硕果仅存。

话说自上世纪80年代社科院出道以来, 就开始做deep parsing, 跟着两位导师,中国NLP的开山前辈,中国MT之父刘先生。他们的几十年的机器翻译积累,在分析这块的传承就是多层模式匹配(multi-level pattern matching)。用 CL术语,就是 multi-level FSA (finate state automata)或 cascaded FSA,有限状态的。我是苦力、主力,新毕业生嘛,为 deep parsing 写了无数个性的词典规则和反复调试精益求精的600条抽象句法规则。埋头拉车,无需抬头看路。从来就没有碰到过什么伪歧义的问题。这是事实一。

事实二发生在我做博士的时候,90年代中期。在风景如画的SFU山头上。当时我的两位导师,电脑系的 Fred 和 语言系的 Paul 合作开了一个自然语言实验室。这两位博导虽也绝顶聪明,但毕竟还年轻。在 NLP 场面上,需要站到一条线上,才好深入。实际上,他们是加拿大 NLP 的代表人物。他们于是选择了当时流行的 unification grammar school (合一文法学派)之一种,就是继 Prolog 以后,开始火起来的合一文法中的后起之秀,名叫 HPSG (Head-driven Phrase Structure Grammar)。这一个小流派,斯坦福是主打,欧洲有一些推崇和践行者,在北美,闹出动静的也包括我的导师的实验室。HPSG 说到底还是 CFG 框架,不过在细节上处处与乔老爷(Chomsky)过不去,但又处处离不开乔老爷。理论上有点像争宠的小妾,生怕得不到主流语言学界乔老爷的正视。

白: 还没进正题

李:白老师嫌拖沓了??现在还在事实篇内。不讲道理。

HPSG 推崇者不少,真懂的怕不多,特别是把 HPSG 用于中文 parsing 方面。看过一些国人不着边际的 HPSG 论,造成了这个印象。这玩意儿得跳进去,才知优劣深浅。当然没跳的也不必跳了,合一(unification)这一路没成气候,现在跳进去也是白跳,浪费时间。HPSG 有一个好处,就是它的词典主义,它实际上就是此前流行的 GPSG 的词典主义版本。NLP 领域各路英豪你争我斗,但有一个很大的共识,就是词典主义,lexicalist approach or lexicalist grammar。这也反映在 HPSG,LFG 等风行一时的文法派中。

我呢,有奶便是娘。本来嘛,导师做什么,学生就要做什么,这才是学位正道。于是,我在HPSG里面爬滚了几年。照猫画虎,写了一个 CPSG,就是 Chinese 版本的 HPSG。用它与实验室的英文 HPSG 对接,来做一个英汉双向机器翻译的实验,当然是玩具系统。这是我博士论文的实验部分。

为什么双向?这正是 Prolog 和所有 unification grammars (又称 constraints based grammars)所骄傲的地方:文法无需改变,文法就是对语言事实的描述,文法没有方向。无论做分析(parsing),还是做生成(generation),原则上,规则都是一样的,不过是执行层面的方向不同而已。理论听上去高大上,看上去也很美,一度让我入迷。我也确实完成了双向的实验,测试了几百个句子的双向翻译,得到了想要的结果。细节就不谈了,只谈相关的一点,就是,伪句法歧义在这些实验中是一个 huge problem。这个 HPSG parsing 中,伪歧义的事实有多严重呢?可以说是严重到令人窒息。当时用PC终端通过电话线连接到实验室的server上做实验,一个简单的句子在里面绕啊绕,可以绕出来上百条 parses。当然,可以设置成只输出一条 parse 来。有时忍不住好奇心,就耐心等待所有的 parses 出来,然后细细察看,究竟哪个 parse 对。

额的神!

乍看全长得差不多,细看也还是差不多。拿着放大镜看,才看出某个 feature value 的赋值不同,导致了 parses 之间的区别。可这种不同基本上没有语义的区别性价值,是为 pseudo parses 之谓也。要都是伪歧义也好,那就随机选一个parse 好了,问题出在,这百来条 parses 里面有时候会混杂一两条真的歧义,即语义上有区别性价值的 parses,这时候,选此废彼就具有了操作层面的价值取向。否则就是以一派压制另一派,反对党永无出头之日。

这个问题困扰了整个 HPSG community(其实是整个 CFG 框架下的 community)。记得在 HPSG 内部邮件组的讨论中,怨声鼎沸,也没人能找出一个理论上和实践上合理的解决途径来。

白: 简单说就是时间复杂性上去了,结果复杂性没下来。折了兵,真假夫人还混在一起不知道赔谁合适。

李:这就是为什么当时您那么肯定地指出我作为深度分析语言工作者所面临的挑战,他是把我归到主流语言学乔老爷 CFG 的框架里说的。

在第一章事实篇结束前,简单说一下实践中的对策。后来我的导师与本省工业界合作,利用 HPSG MT 帮助翻译电视字幕。在真实应用中,他们只好选择了第一条成功的 parse 路径,完全忽略其他的 parses。这也是没有办法的办法。质量自然受损,但因为无区别意义的 pseudo-parses 占压倒多数,随机选第一条,在多数场合也还是可以的。

第一章小结:骨灰级老革命在没有理论探索的情况下,就在 deep parsing 的 field work 中经历了两种事实:一种是不受困扰的多层 parser,一种是深陷其中的单层 parser。因此,当白老师一口咬定深度分析的这个挑战的时候,我觉得一脑门道理,但就是有理说不清。至少一句两句说不清,只好选择逃遁。

对于绝大多数主流NLP-ers,NL的文法只有一派,那就是 CFG,无论多少变种。算法也基本上大同小异,chart-parsing 的某种。这个看法是压倒性的。而多层的有限状态文法做 parsing,虽然已经有半个多世纪的历史,却一直被无视。先是被乔姆斯基主流语言学派忽视,因为有限状态(FSA)的名字就不好听(多层不多层就懒得细究了),太低端小气下位了。由于语言学内部就忽视了它,自然不能指望统计派主流对它有重视,他们甚至对这路parsing没有啥印象(搞个浅层的模式匹配可以,做个 NE tagging 啥的,难以想象其深度parsing的潜力),尽管从有限状态这一点,其实统计派与FSA语言派本是同根生,二者都是乔老爷居高临下批判的对象,理论上似乎无招架还手之力。

白: 概率自动机和马尔可夫过程的关系

李:但是,多层 FSA 的精髓不在有限状态, 而是在多层(就好比 deep learning 的精髓也在多层,突破的是传统神经网络很多年停滞不前的单层)。这就是那天我说,我一手批判统计派,包括所有的统计,单层的多层的,只要他们不利用句法关系,都在横扫之列。因为这一点上还是乔老爷看得准,没有句法就没有理解, ngram 不过是句法的拙劣模仿,你的成功永远是浅层的成功, 你摘下的不过是低枝果实。不过恰好这种果子很多,造成一种虚假繁荣罢了。

另一方面,我又站在统计派一边,批判乔姆斯基的蛮横。实践中不用说了,管用的几乎都是有限状态。乔老爷要打死单层的有限状态,我没有意见。统计派的几乎所有模型(在 deep learning 火起来之前)都是单层,他们在单层里耗太久了不思长进,死不足惜,:)。 蛮横之处在于乔老爷对有限状态和ngam多样性的忽视,一竿子打翻了一船人。

白: RNN可以完美模拟FSA, 但是现在的人都把RNN当做统计派的功劳。

李:但是他老人家忘记了, 我只要叠加 FSA 就可以比他所谓的 more powerful 的 CFG 做得深透,而且合体(特别适合白老师说的自然语言的毛毛虫体型)。他对有限状态的批判是那么的无视事实和缺乏理性。他是高高在上的神,不食人间烟火的,我们各路NLP实践派对他都敬而远之,基本没有人跟他走。在他本应发挥影响的领域,他其实缺乏起码的影响力。倒是语言学内部被他控制了,语言的形式化研究跟着他亦步亦趋走了半个多世纪,离作为其应用场景的 NLP 却渐行渐远。这是一个十分滑稽的领域怪相。 

白: RNN加层、计数器、加栈、加长时记忆,本质上都在突破单层FSA的计算能力

李:好了,咱们接着聊第二章:为什么多层系统,尤其是 多层 FSAs ,不受伪歧义的困扰?

白: 只要证明毛毛虫以外不是人话,就只管放心玩毛毛虫好了。伪歧义跟规则的递归形式无关,跟规则的词例化水平和压制机制有关。但是,要hold住十万百万量级的规则,CFG一开始就必须被排除在外。

李:对。

说到底是规则的个性与共性关系的处理,这是关键。这个不是我的发现,我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为 专家词典(expert lexicon )系统,就是因为我们把个性的词典规则与共性的句法规则分开了,并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对,单层的 CFG 基本是死路。眉毛胡子一把抓,甚至所谓词典主义的 CFG 流派,譬如 HPSG 也不能幸免,不出伪歧义才怪呢。如果规则量小,做一个玩具,问题不严重。如果面对真实自然语言,要应对不同抽象度的种种语言现象,单层的一锅炒的parsing,没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合,但是在树本身的选择数目都在爆炸时,这种整合是不能指望的。

李:可以说得具体一点来阐释其中道理。分两个小节来谈,第一节谈多层系统中,单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制,比如“美国和中国的经济”’。“张三和李四的媳妇”

李:如果这两种伪歧义都有自然的应对方式,那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦,学文科的,生存下来不容易,各位包涵了。

白: 抽象的并列,天然优越于抽象的长短不齐。似乎并不关乎词例,词例化的、次范畴化的规则,都好理解。抽象的结构化压制,处于什么地位呢?

李:但是难得大家围坐在一起,忍不住借题发挥一下,顺带进一步阐释了上次“上海会面”上的论点:我对乔老爷既爱且恨,爱他批判单层统计派的一针见血;恨他一竿子打翻一船人,敌我不分,重理论轻事实。

白: 是因爱成恨好吧

李:我们实际上半条身子在统计派的船上,大家都是有限状态;半条身子在语言派船上,毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word,而我们的有限状态是真正的 ngram,这个“gram” 就是刘老师当年一再强调的 “句素”,是一个动态的句法单位,可以是词、短语或者小句,随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的,因为它反映的是真正的语言学,多数统计学家天然不懂。

白: 世界上只有深层派和浅层派,这是复旦美女教授教导的。我认为只要touch深层,无论什么派都会殊途同归。

李:先说单层内部的伪歧义。这个白老师心里应该没有疑问了,不过为了完整还是先讲它。单层的有限状态说到底就是一个 regex (正则表达式),只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层,面对的单位就是 words (or tokens)。如果是句法关系的解析层,面对的单位就是短语(可以看作是头词,它代表了整个短语,“吃掉”了前后修饰语)。

对于单层,有两种结构歧义,一种是伪歧义,占多数;一种是真歧义,占少数,但存在。单层系统里面的每一条规则都是一个 pattern,一个缩小版的局部 parser (mini-parsing),试图模式匹配句子中的一个字符子串(sub-string)。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。这是难免的:因为描述语言现象的规则条件总是依据不同的侧面来描述,每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多,相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分,是那个部分使得 parsing 越来越强大,涵盖的现象越来越多。至于相交的部分,结论一致的规则有可能表现为伪歧义(结论完全一致是异曲同工,没有歧义,但设置一个系统的内部表达,难免涉及细节的不同),这是多数情形。结论不一致的规则如果相交则是真歧义。这时候,需要一种规则的优先机制,让语言学家来定,哪条规则优于其他规则:规则成为一个有不同优先度的层级体系(hierarchy)。

白: 在线?

李:FSA Compiler 事先编译好,是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系,不能初一十五不一样。

李:个性的现象优先度最高。共性的现象是默认,优先度最低。这个很自然。一般来说,语言学家大多有这个起码的悟性,什么是个性现象,什么是共性。

白: “张三的女儿和李四的儿子的婚事”

李:如果优先语感不够,那么在调试规则过程中,语言数据和bugs会提请语言工作者的注意,使得他们对规则做有意义的优先区分,所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity,这是个铁律。在非单调推理中也是如此。

李:这个优先权机制是所有实用系统的题中应有之意。优先级别太多太繁,人也受不了。实际情形是,根本不用太多的优先级别区分,每一层分析里只要三五个级别、最多八九个优先级别的区分就足够了(因为多层次序本身也是优先,是更蛮横的绝对优先)。

白: 我还是觉得优先级初一十五不一样的时候一定会发生,而且统计会在这里派上用处。

李:一切是数据制导,开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义,恰好就落在了原来的伪歧义的区间里面。这时候,虽然有n条规则都产生了 local parses,他们之间没有优先,那就随机选取好了,因为他们之间其实没有核心 semantic 的区别价值(尽管在表达层面可能有细微区别,hence 伪歧义)。换句话说,真歧义,归优先级别控制,是数据制导的、intuitive 的。关涉伪歧义困扰的,则变成随机选取。这一切是如此自然,以至于用FSA做parsing的从业者根本就没有真正意识到这种事情可能成为困扰。关于初一15的问题,以及白老师的具体实例,等到我们简单阐释第二节多层之间的伪歧义的应对以后,可以演示。

第二章第二节,多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义,不外是围追堵截,这样的应对策略在开发过程中也是自然的、intuitive 的,数据制导,顺风顺水。围追堵截从多层上讲,可以在前,也可以在后。在前的是,先扫掉例外,再用通则。在后的是先做默认,然后再做修补(改正、patching)。道理都是一样的,就是处理好个性和共性的关系。如果系统再考究一点,还可以在个性中调用共性,这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识,甚至常识(根据应用需要),共性里面就是句法模型之间的变式。

好,理论上的阐释就到此了,接下去可以看实例,接点地气。白老师,你要从哪个实例说起?我要求实例,加问题的解释。

白: “中国和美国的经济”。这就是我说的初一十五不一样。

李:这是真的结构歧义,Conjoin (联合结构)歧义 。在语言外知识没带入前,就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义,其他的还有 “的”字结构的歧义。这些歧义在句法层无解,纯粹的句法应该是允许二者的共存(输出 non-deterministic parses),理论上如此。句法的目标只是区分出这是(真)歧义(而这一点在不受伪歧义困扰的多层系统中不难),然后由语义模块来消歧。理论上,句法和语义/知识是这么分工的。但是实践中,我们是把零散的语义和知识暗渡陈仓地代入句法,以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

李:缺省优先由“大数据”定,原则上。统计可以提供启发(heuristics)。

白: 有次范畴就能做出缺省优先。不需要数据。

李:当然。次范畴就是小规则,小规则优先于大规则。语言规则中,大类的规则(POS-based rules)最粗线条,是默认规则,不涉及具体的次范畴(广义的subcat)。subcat based 的其次。sub-subcat 再其次。一路下推,可以到利用直接量(词驱动)的规则,那是最优先最具体的,包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的,就联合结构而言。但是,about 次范畴,理论上有太多的层。

李:那是,联合结构消歧中的次范畴不是很好用,因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet,里面的 taxonomy 可以很深,统统用来作为次范畴,不太现实。但理论上是这样使用的。

白: 再一个,“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗?

李:上例的问题和难点,白老师请说明。”的”字结构的 scope歧义加上联合结构的歧义的叠加现象?

白: 上例是处理深度的问题,各自理解即可。歧义叠加,只有更加歧义了。可是实际相反,叠加限制了歧义。

李:在分层处理中,我们是这样做的:

(1)Basic NP, 最基本NP层的结果是:NP【张三】 的 NP【女儿】 和 NP【李四】 的NP【儿子】 的 NP【婚事】

(2)Basic XandY, 最基本的联合结构层:在这个层次,如果条件宽,就可能发生联合错误,错把 【女儿 和 李四】 联合起来。这个条件可以是 HUMAN,二者都符合。而且在 95% 的现象中,这个条件是合适的。如果条件严的话,譬如用 RELATIVES 这个语义次范畴(HUMAN的下位概念),而不是 HUMAN 来限定的话,这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢,这实际上决定于设定的目标,没有一定之规。做细总是可以做到更好质量,大不了多加几层 NP 和 XandY 的模块(FSAs),但还是增加了开发和维护的负担。如果做粗一点,只要所造成的 parsing 质量上的后果能控制在应用可接受的范围,那也未尝不可,因为说到底,世界上没有完美的系统。上帝允许人类的不完美。

白: 把这个换成“AB的中点与AC的中点的连线”?同样的结构。

李:另一个思路,就是多层协调中的修补。对于上述两个例子,修补的办法似乎更好。与其分多层,代入各种繁琐的语义条件来消歧,不如任他出错,然后根据pattern的平行因素加以修正。在多层系统中,这个常常是有效的策略,也符合开发的总体规划。先把系统大体弄得work了,可以对付多数现象,然后有时间和余力了,后面可以 patching。前提是,错误是 consistent 和 predictable 的。对于多层管式系统(pipeline system),错误并不可怕,只要这种错误 consistent 有迹可循,后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation(错误放大)的难题。其实,多层系统也可以做到负负得正(矫枉过正是也)。一个好的系统设计,是后者,通过 data-driven,可以做到把错误放大控制到最低限度,并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行,太细则边际效益大减。

李:上例中 “中点与AC” 可以联合,不过是一个暂时的内部错误而已,后面可以修正。总之,这些都不是根本的 challenge,想做就可以做,实际操作上,也可以选择不做。问题大了,就做;用户发飙了,就做;否则就无视。很少有歧义是做不出来的,功夫和细节而已。最终决定于值得不值得花这份力气,有没有这样的开发时间和资源。

白: 做与不做,有可能影响架构选择。补丁有好处也有后遗症。

李:NLP 可以做一辈子,在基本机制(优先机制,修正机制,范畴、次范畴机制,专家词典等)由平台实现提供以后,慢慢磨到最后就是 diminishing return,与爬山类似,这决定了我们何时罢手。如果85%的精度作为parsing的目标,那么系统会选择不做一些稀有的现象。有了这个 85%,已经可以满足很多应用的要求了。

有了 85% 做底, 还可以让机器变得智能起来,自动地自我提高,所谓 self-learning,这是研究课题了,但是是可以实现的。实际上在我指导的实习生实验中已经实现,不过就是在线开销太大而已。

白: 再看“馒头吃光了”?

李:这个例子更容易讲清楚。在系统的某一层,可以有个规则 把某种 “V+光” parse 成为动补结构,这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

李:好,这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例,譬如,“黑洞吃光了”, 那么或者修正它,或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则,如果需要的话。至于这么做值得不值得,那是应用层面的决定。很多时候是不必要的。错了就错了,不过是显得系统缺乏专家的知识,so what?我们普罗 native speakers 也都不是每一行的专家,也并不是每句话都听懂,不也一样没觉得交流困难。就此例来说,决定于听者的知识面,小学生和文盲一般不能正确 parse 理解 “黑洞吃光” 的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要,那是语言内的句法知识(最多说是句法子范畴或小规则,但不涉及专业知识),是所有国人的默认理解。

白: 这一点非常重要。一个开放,一个封闭。一个外部,一个内部。外部的事儿,就算没有专业知识,也可以大数据招呼。

李:今天似乎可以结束了,说到底,就是:

一,平台需要提供一些基本机制来处理共性与个性的关系,从而应对歧义,这些在 FSA formalism 的教科书定义中可能不存在,或被忽略,但却是实用系统不可或缺的。

二,NLP 的确是个力气活,有无限的可能深入。当然,我们可以选择不深入,可以选择何时罢手。

至于大数据招呼,那个在前述的自学习上也必须用到。我们教授机器做到 85%,大数据基础的自学习可以让它自行提高到 90%,这个是部分证实了的,可惜还没有发表出来,以前说过,懒得成文。都骨灰级老革命了,谁在乎那个。我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。

这次神侃算不算基本回答了疑惑,可以得出“伪歧义在多层系统中不是困扰”这个结论?

白: @wei 是,非常感谢。

李:不过,我们一方面实用制导,一方面没有忘记基本面和大局。与纯粹的实用主义,头痛医头,脚痛医脚,还是不同。这种积一辈子挖煤的经验之谈,正式论文中罕见,也算一件功德。难得的是白老师还有雷司令身为主流精英,居然能一开始就高于主流,不排斥异端或少数派。所以上次上海聚会,我就说,火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。但我知道也有很多统计死硬派,甚至大牛,是不尿这壶的。

白: 只要聚焦于深层,一定会殊途同归。RNN记在统计账上,但已经是深层了。

可以再关心一下NLP的商业模式,怎么能讲一个好故事。我们说fsa也好分层也好,资本都是不感冒的。

李:滑稽的是发现有些死硬派做了n年NLP,却真地不懂语言学,有个别大牛连常识都不懂,让人跌破眼镜。当然这个只能内部说说,不能博客的。所以往往是互相地不尿对方那一壶,与宗教之战类似。

RNN 我不敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何,我不知道。可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来,也殊途同归。

李:其实 多层 FSAs 本质上就是 ngram 的花样,不过 gram 不再仅仅是词了,而是等于或大于词的句素。能以动态句素作为 ngram 的对象,是因为多层的原因,跟剥笋子一样,层层扒皮,gram 当然就是动态的了。这一点很关键,是乔姆斯基都没想到的 power。

白: 对,边扫描边归约,边抛出句素。

李:这里面最 tricky 的不是机制而是细节。魔鬼在细节,就是指的这个。FSA 是“古老”简单的机制了,细节就是玩平衡,玩模块之间的协调。玩得好的就好比中餐的大厨,可以做出满汉全席来,玩不好的还不如麦当劳、keywords。到这一步,经验因素开始起作用。没碰过n次壁,甚至几万小时的炼狱,这个火候掌握不好。这类系统很难做得表面上漂亮光洁,总是在混沌中前行,要忍受不完美。这方面的忍受,数学家不如语言学家。数学家天生追求简洁完美,不愿意将就。

白: 句素的个头大,影响范围就大,相当于抛得就远。可以进入远距离的滑动窗口,伟哥说的Ngram的缺点就不存在了。

dirty是必然的。

李:ngram 的缺点是主流的缺点,不是语言多层派的缺点。恰好相反, ngram 多层以后,很容易比任何 CFG 做得细致深入,以至于,想怎么深入就怎么深入, 如果持续开发的话。

CFG 那套单层范式,无论统计模型还是传统文法加以实现,真地深入不下去,是框框决定的。两边都玩过,这种对比太强烈了。我对我的博导说过, HPSG 真地不好用,那边费那么大劲的事儿,在我这儿是小菜。说拿的是牛刀,可对象不是牛,而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表(相当于语言的head中心词)之间发生全局相互作用的地方。真是神了。

李:今天到此,特别谢谢白老师的互动和精彩的及时点评。

原载:
科学网—泥沙龙笔记:真伪结构歧义的对策(1/2) 
骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【相关】

乔姆斯基批判

【立委科普:管式系统是错误放大还是负负得正?】

关于NLP方法论以及两条路线之争

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【白硕 – 打回原形】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

世界语论文钩沉:世界语的语言学特点(3/3)

【立委按】语言类型学把自然语言分为注重词法的综合语言和注重句法的分析语言。区别在所依赖的主体语言形式和表达手段不同。世界语的最大特点是兼收并蓄,分析综合两种表达手段在武器库并存。这是设计时候的有意为之(不得罪任何民族),进而产生了表达手段丰富、风格多变灵活的效果,让人惊艳。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

3. 分析形式和综合形式

3.1 世界语的另一个突出的语言学特点是,它既具有分析语言的手段,又具有综合语言的精髓。世界语在功能词和词尾变化方面都很丰富,可以通过分析形式(借助功能词)或通过综合形式(借助词尾变化)表达语义关系。 当然,这两种形式并不完全等同,它们展示了不同的风格。 世界语非常灵活且富有表现力。 作为目标语言,它可以很好地模仿原文作品的语言特征,无论是词序自由富有弹性的斯拉夫风格,还是诸如中文和英文这类语言的平实风格。

以下是世界语中分析形式和综合形式普遍并存的一些示例:

分析形式 / 综合形式

(1) 时态:
Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

(2) 语态:
Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS. Ĝi lim-IĜAS. Ĝi SIN-limig-AS

(3) 词义:
Tio estas MALGRANTA (ETA) sekreto. / Tio estas sekret-ETO.

(4) 介词短语与格变以及副词形容词(-E/-A)的类变:
Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).
la libroj DE mi / mi-AJ libroj
Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.
LAŬ mia opinio / miaopini-E
ridi JE iu / ridi iu-N
EN (JE) fakto / fakt-E
inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (副词带名词宾格!)
vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

(5) 介词手段与合成词手段:
finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(更多例示参见【附录3】及 2.1.7.)

3.2. 最重要的分析形式:助/系动词 EST- 与介词

3.2.1. 仅有的助/系动词 EST-

3.2.1.1. EST- (BE)没有实义, 从综合语角度看,它是不需要的:


Ili ESTOS skrib-ITAJ ĉe la jarfino. –> Ili skribi-ITOS ĉe la jarfino.
Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. –> Ni ĝoj-AS ricev-INTI iliajn leterojn.
Vi ESTAS vere bonkor-AJ (vi en pluralo). –> Vi vere bonkor-AS (没有数的变化).
Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato.
–> Li profesor-IS (profesor-ADIS) en tiu universitato.

注意,EST- 作为助动词可以被取代,但作为系动词则不能简单取消:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.
ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.


3.2.1.2 EST-一词虽然只有一个,但作为分析形式却极大地丰富了表达方式。否则,语言将具有完全不同的风格,趋向紧凑和刻板,很难为母语为分析语言的人所接受。

3.2.2 介词短语

3.2.2.1 在语言学界普遍认为介词短语(介词加名词补足语)本质上也是一种”格”,唯一的区别是介词表达语义关系通常比”格”更为具体。实际上,不同介词也包含不同程度的具体性,例如,比较:

intituto JE lingvistiko –> instituto DE lingvistiko –> intituto PRI lingvistiko
(从抽象到具体)

有一些相当抽象的介词实际上可以像其他语言中的”格”一样工作,例如 JE / DE / AL / PRI / PER(请参阅【附录3】)。 (请注意,格的语义在抽象上也有所不同。)

3.2.2.2 正如2.3 中已经提到的,副词(以-E结尾)也是一种语义抽象的格(状语格)。但是,世界语中的副词其实也可以表示与任何介词一样具体的关系! 条件是词干是词根和介词前缀派生而来。例如:

LAŬ (la) regulo(j) –> LAŬ-regul-E (更抽象地: regul-E)

有许多这样的示例(请参阅2.1.7)。 实际上,完全可以在介词短语”P+la+N”与其相应的副词”P-N-e”之间自由转换(省略冠词LA)。

3.2.2.3 因为每个介词也可以同时充当前缀(世界语前缀集的主要部分!),所以所谓的“重要的分析形式”介词恰恰也是最重要的综合形式(词缀)之一!

3.3 【小结】 世界语随处可见分析形式和合成形式的共存,这是世界语不同于民族语言的重要特点之一。尽管没有排除任何分析形式手段的纯粹的综合语言,也没有完全独立于综合形式的纯粹的分析语言,但是每种民族语言总是以一种形式为主导,难以见到两种形式的普遍并存和自由转换。

4. 世界语的透明性

4.0 世界语的本性是形式足够透明(无论是词与词组合的分析形式还是词内部组合的综合形式,但分析形式似乎比综合形式具有更高的透明度),这无疑是其突出的优点之一,也是世界语易于学习的主因。世界语之所以如此,是为了让人们可以使用很少的形式(元素)来表达无限的信息,也为了让接受方易于将语句解析成理解的元素。

4.1  世界语是完全透明的吗?

并非如此,而且永远也做不到,而且也不必要 – 至少对于人类语言而言。

透明性的前提是,每个概念都可以被分析成可数的语义因子或”义素”(这可能吗?参考人工智能圈中的相关进展)。另外,语义相互联系的复杂度应该是可以容忍的。这一点并不总能满足,特别是对于科学术语而言。术语通常内容丰富且含义精确,以至于其阐释往往需要完整的论文。因此,这种概念只能通过某种语音形式固定在人脑中,其书面对应物往往是个不透明的单词!另一方面,大多数科学术语都享有国际性,因此,硬性把术语按照世界语构词法透明化往往并非智举,例如,把 matematiko 叫做 nombro-scienco,但是“数学”仅仅是数字科学吗?(参见4.4)

4.2 就像分析形式和综合形式的共存一样,在世界语中,许多情况下(当然是在不同的层面),透明形式和非透明形式也普遍并存。

Pekino: Beijing
lingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

值得注意的是,为了术语的精确性和世界性,世界语甚至可以容忍这种完全“非世界语化的”外来词黑箱子(komputoro/komputero)!

4.3 然而,一些最常用的日常用语已经将自己确立为透明形式,这又表明了世界语有强烈的透明化倾向!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

但是,良好风格的世界语不走极端,即使是手握最有效和最容易的手段:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4 世界语的两难

4.4.1 世界语作为国际语言,旨在为全人类提供便利的交流。但是,在语言实践中,透明度(世界语的语言内涵)与国际性(世界语的目标外延)之间往往存在两难,这在术语的构造中表现最为明显。结果,世界语词汇比预期的要大得多,增加了学习的难度。

4.4.2 世界语作为一种有效的沟通工具应该而且往往也是偏向紧凑的形式,但透明性是紧凑性的反面。实际上,越透明,就变得越松散。

4.4.3 最后,在透明性(从而易于学习而很少消耗记忆和精力)和包容性之间也存在两难。世界语作为一种科学的和面对人类的语言,需要在形态和句法上包容所有有效的语言资源,这就需要多种形式的共存,自然也包括不透明的形式。

5. 总结

5.1 从上面论述可以看出,与主观推论相反,世界语是一种极其灵活的语言,具有多种可以相互补充和转换的表达方式。语言的灵活性也更易适应人类思维的模糊性。它为人们提供了极大的表达自由,为充分发挥使用者的语言潜能提供了最佳条件。另一方面,它也具有很大的包容性,即使是初学者或语言能力欠缺者也可以比较轻松简单地以易于理解的方式表达自己。这是一个适合所有人的表达天地。但是,这种灵活性不会影响世界语基本语法的严谨性。自由与严谨在这里和谐相处。在世界语中,每个人都是创造者,每个世界语者都能体验到这种创造的乐趣。人们不再是语言习惯的奴隶。世界语的灵活性和规律性的和谐统一是一种真正的语言奇迹。

5.2 世界语语言学特点关键字集合:
(以)人(为)本性/自然性/科学性/规律性/包容性/容忍性/弹性/粘合性/数学性/拟递归性/逻辑性/透明性/可分析性/灵活性

5.2.1 这些特点大体呈现如下关联:灵活性 <– 粘合性(从而透明性)和各种形式的包容性(无论分析形式还是综合形式,透明或不透明);规律性与科学性 <– 数学性和逻辑性

5.2.2 从容忍性和实际信息交流的角度来看,前文所有标有??的示例都是可以容忍的,至少是可以理解的。与民族语言相比,这种宽容显得尤为突出。

5.3 【结论】 世界语的超凡成功是人类语言历史上的一个伟大奇迹。这是人类理性的胜利,语言学的胜利!在“习惯就是上帝”的语言领域,世界语作为国际语言独树一帜,其与民族语言形成的语言学对比,怎样赞誉也不过分。

【附录1】

我们以词根STUD-的全部动词和形容词形式为例,将其与英语study 的相应形式进行比较。

(1) 42 个动词形式:

stud-I [to study]
stud-U [(let...) study]
stud-US [would (should) study / stud-IED / would have stud-IED / ...]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let...) be study-ING]
stud-ANT-US [would be study-ING / ...]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let...) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let...P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let...) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let...) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / ...]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let...) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

2. 28个形容词形式

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

【附录2】


世界语词尾削尾算法(自动词法分析):

(1) 若词尾为 -O, 则得结论 "Substantivon / Nominativon / Singularon", 转(2); 否则, 转(11).

(2) 削尾后查词干词典. 查词典成功则得结论 "Nulmodon/Aktivon", 加工毕; 否则, 转(3).

(3) 若词尾为 -ANT, 则得结论 "Participon / Aktivon / Kontinuon", 转(9); 否则, 转(4).

(4) 若词尾为 -INT, 则得结论 "Participon / Aktivon / Perfekton", 转(9); 否则, 转(5).

(5) 若词尾为 -ONT, 则得结论 "Participon / Aktivon / Malperfekton", 转(9); 否则, 转(6).

(6) 若词尾为 -AT, 则得结论 "Participon / Pasivon / Kontinuon", 转(9); 否则, 转(7).

(7) 若词尾为 -IT, 则得结论 "Participon / Pasivon / Perfekton", 转(9); 否则, 转(8).

(8) 若词尾为 -OT, 则得结论 "Participon / Pasivon / Malperfekton", 转(9); 否则, 转(10).

(9) 削尾后查词干词典. 查词典成功则加工毕; 否则,转(10)

(10) 得结论 "Novavorton", 加工毕。

(11) 若词尾为 -A, 则得结论 "Adjektivon / Nominativon / Singularon", 转(2); 否则, 转(12).

(12) 若词尾为 -E, 则得结论 "Adverbon / Nominativon", 转(2); 否则, 转(13).

(13) 若词尾为 -OJ, 则得结论 "Substantivon / Nominativon / Pluralon", 转(2); 否则, 转(14).

(14) 若词尾为 -AJ, 则得结论 "Adjektivon / Nominativon / Pluralon", 转(2); 否则, 转(15).

(15) 若词尾为 -ON, 则得结论 "Substantivon / Akuzativon / Singularon", 转(2); 否则, 转(16).

(16) 若词尾为 -AN, 则得结论 "Adjektivon / Akuzativon / Singularon", 转(2); 否则, 转(17).

(17) 若词尾为 -EN, 则得结论 "Adverbon / Akuzativon", 转(2); 否则, 转(18).

(18) 若词尾为 -OJN, 则得结论 "Substantivon / Akuzativon / Pluralon", 转(2); 否则, 转(19).

(19) 若词尾为 -AJN, 则得结论 "Adjektivon / Akuzativon / Pluralon", 转(2); 否则, 转(20).

(20) 若词尾为 -AS, 则得结论 "Verbon / Predikaton / Prezencon", 转(2); 否则, 转(21).

(21) 若词尾为 -IS, 则得结论 "Verbon / Predikaton / Preteriton", 转(2); 否则, 转(22).

(22) 若词尾为 -OS, 则得结论 "Verbon / Predikaton / Futuron", 转(2); 否则, 转(23).

(23) 若词尾为 -US, 则得结论 "Verbon / Predikaton / Kondicionalon", 转(2); 否则, 转(24).

(24) 若词尾为 -U, 则得结论 "Verbon / Predikaton / Volitivon", 转(2); 否则, 转(25).

(25) 若词尾为 -I, 则得结论 "Verbon / Infinitivon", 转(2); 否则, 转(26).

(26) 该词没有词尾。查功能词词典。 查词典成功则得结论 "Funkcivorton"; 否则, 得结论 "Novavorton / Substantivon / Propranomon"。 加工毕。

【说明】 上述算法已经上机实现,验证其有效性。

【附录 3】

世界语与其他语言格系统的比较

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

世界语论文钩沉:世界语的语言学特点(2/3)

【立委按】上一节论的是世界语的高度规则性。这节想说的是,模糊性为灵活性提供了空间。学习世界语的人,没有那么多禁忌和清规戒律。语言表达是思想的反映。一来思想本身具有某种模糊性,二来细节的精细与否不必影响主旨的表达,三来不同母语背景的人在语言手段的倾向性上有不同的偏好,因此,语言设计中允许界限模糊是一种利用手段的包容,来容纳更多使用者的良好策略。

都说世界语是黏合语,但我们同时也看到,所谓黏合(典型的代表是土耳其语和日语),其实与合成(中文造词的主要手段)也差不多,就是把语素添加在一起,只要添加以后的复合概念可以传达出去(只要 make sense),就达到了造词的目的。不设置句法和词法过多的人为规范,允许语言形式的灵活自由组合,让人类共同的常识来决定语言组合(无论组词还是造句、造短语)是否可以达到交流的实现。文法不过10来条原则性大纲,其余基本可以实现无为而治。

纯粹从设计来看,世界语其实没有必要用助动词 EST-(相当于英语的时态助动词 be/have),这个唯一的必须有形态变化的功能小词。刚好这个助动词又是系动词(“是”),这就导致了自然语言同样的歧义问题。(当然,与自然语言如英语类似,把系动词当成助动词用来构造复杂谓语,其好处是使得母语为这些语言的人容易适应世界语的形式。)把 EST- 的助动词用法去掉以后怎样呢?

Mi estas studanta la lingvon –>
(1)Mi as studanta la lingvon
(2)Mi studantas la lingvon

La lingvo estas studata far multaj nun –>
(1)La lingvo as studata far multaj nun
(2)La lingvo studatas far multaj nun

助动词与形态统一,比助动词借用系动词词根外加形态,更加经济、规整,转换起来也更合理,包括转换成综合形式的 studantas / studatas。根本上说 EST- 在构造谓语形式中,没有贡献任何信息量,完全是多余的。它存在的理由就是跟自然语言的类似用法更接近。这当然是一个重要的考量,但它同时带进来歧义的可能性,就不是优点了。但从另一个角度看,所谓歧义也可以看成是形式手段的模糊及由此带来的灵活性。

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

2.  世界语的灵活性

2.1  世界语模糊了很多语言学概念的界限,包括:

2.1.1  及物动词与不及物动词的界限模糊了:

Mi IRAS. / IRU vian propran voj-ON.
La tuta homaro PAROLOS nur unu lingv-ON. / Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  直接宾语与间接宾语的界限模糊了:

informi ION al IU / informi IUN pri IO

2.1.3  宾语与状语的界限模糊了:

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  词根与词缀(甚至词尾)的界限模糊了,从而派生词与合成词的界限也模糊了,例如:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. 后缀与词尾(形态)的界限模糊了:

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Chiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  实词词根与功能小词的界限模糊了(如果需要,小词也可以与实词词根一样,添加后缀和形态词尾):

JES, mi JES-as vian opinion.
Li TRO ĝojas.  –> Li ĝojas TRO-e.
tie –> tie-aj homoj
nur –> la nur-a studento / nur-ul-o / nur-ul-in-o
per –> per-anto
tre –> tre-ege

2.1.7 词组与合成词界限模糊了,尤其表现在介词词组与其相应的副词、形容词、动词和名词的合成词形式上:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtbl-en

la lingvo por homj / porhom-a lingvo (porhomalingvo)
(sed ĉu “porhomlingva” = “porhom-lingva” aŭ “por-homlingva”?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-OS, subpopol-OS, interpopol-OS kaj porpopol-OS.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   谓语与表语的界限模糊了:

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9. 最后,黏合、合成、派生这些构词手段的界限模糊了(参见本文第一节);可数名词与不可数名词的界限模糊了(例如 konklud-o / konklud-oj), 限定与不定的界限也模糊了(表现在行文中对于使用定冠词 LA 的一定程度的随意性上), 等等等等。 

2.2.  世界语设计了一个万能介词 JE。人们表达思想的时候,常常感到两个概念之间存在某种确定性关系,但这种逻辑语义关系不易也不必归纳到现有的类别去(现有逻辑语义关系如时间、地点、条件、原因、结果、工具、程度等,往往借助介词表达),因为概念之间的相谐本身不会引起听说双方的误解。为了适应人类思维的这种模糊性,柴门霍夫天才性地创造了万能介词 JE(我认为介词 JE 可能是世界语第二重要的分析形式了,第一重要的分析形式是小词 EST-,参见3.2节)。思维模糊性的语言表示还有另一个天才创造,即后缀 -UM-,但那是词义概念的不清晰,JE 表示的则是两个概念之间的逻辑语义关系的模糊。有意思的是,作为分析形式 JE 的对等物,形态词尾(综合形式)-n(宾格)或 -e(副词: 可表示工具,但也可表示其他状语)也可以用来表达这种模糊和抽象的逻辑语义关系。

Mi interesiĝis JE tio. / Mi interesiĝis tio-N.

Ni ne scias JE tiu rilato.  / Ni ne scias tiurilat-E.

2.3.  世界语一个非常突出的语言学特点是格与词类的功能趋同。词类与格变在组词造句过程中,都带有动态句法的特征。二者相互补充,都可以表示虽然不同但同样具有抽象度的逻辑语义关系。这与介词这种分析形式有所不同,世界语介词除了特别设置的万能介词 JE 以外,通常是用来表大比较具体的逻辑语义关系(参见3.2.2.)。比较世界语的副词用法与俄语的工具格:

Mi skribas plum-E.  /                                                     (ruse)

如前所述(见1.1.),世界语的基本形态词尾的数量虽然很有限,但涵盖词法范畴足够完整,表达力丰富。以格变为例。世界语只有两个格,主格(零形式)和宾格(词尾“-N”)。但世界语的格变,加上词类形态,再加上分析形式介词(如果需要),使得世界语的表达力可以与其他形态丰富的语言媲美。俄语是形态最丰富的语言之一,它有六个格。在这方面,将俄语与世界语进行比较可能具有一定的启发性和意义。 大体上,俄语的一格对应于世界语的主格,二格相当于形容词(表示所有,以“ -A”结尾),四格与宾格(以“-[OJ] N”结尾)对应,五格相当于副词(以“ -E”结尾,见上例)。 只有三格在国际语中没有其相应的词尾形式,而是通常由介词“AL”来表示。俄语六格本身并不表示明确的语义关系,而是与诸如“ O”,“ HA”,“ B”之类的介词搭配使用。 有趣的是,在世界语介词短语中的名词既可以是主格,也可以是宾格,后者表示方向性。对照俄语中的类似用法,世界语显得更为简单和完善。 (请参阅附录3。)

2.4.  世界语的词序足够自由

2.4.1. “我(mi)爱(amas)你(vin)”的表达:

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(主谓 宾三个句素的全排列共6种,全部合法。). 

2.4.2.  再如:“学习(studantaj)数学(matematikon)的 人(homoj)

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi shatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
加上连字符显得更规范: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3.  ”我(mi)提出(proponita)的 提案(propono)”:

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

上组句子除了小词定冠词与介词必须居于短语之首外,其他元素的词序完全自由,即:la (…) propono; de mi; proponita 三个句素可以任意排列。

2.4.4.  世界语甚至允许远距离搭配,见著名诗句:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

当然,上例中的远距离现象也有诗歌不受拘束的特许因素在。但诗人的特许证通常在像世界语这样特别具有柔性的语言中最易得到保障,且不违反语言的基本文法。

2.5.  世界语的形态系统虽然具有缺陷(见1.1.4.5.),总体而言仍然不失为一大创造。另一个奇迹般的创造是世界语的相关词表。世界语形态系统在唯一的助动词 EST- 的帮助下,可以表达动词各种复杂的时态、时体以及语态和语气。其实,即便没有助动词,形态词尾的黏合特性也一样可以表达这些复杂的词法范畴。相关词表的丰富性及其表达具体语义关系的能力更是出类拔萃。它是如此经济、逻辑而且美丽,每一个世界语的践行者都体会在心。这种审美体验,很像化学家欣赏门捷列夫的元素周期表一样。

2.6.  另一个值得提出的是,几乎所有的世界语介词,也同时可以充当前缀去帮助造词。这自然极大地增强了语言表达的灵活性(见2.1.7)。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(1/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

《学外语的紧箍咒,兼谈世界语的前途》

【立委按】最近受邀加入了一个世界语者的群,有老朋友,也有新同志。谈到一些有关世界语的前途问题。很多老世界语者奋斗一辈子,做梦都想替代英语的实际“世界”语地位,抱怨联合国、欧盟都有眼不识“吾语”之优越性。但英语的地位却似乎越来越稳固。胳膊拧不过大腿,哪怕学习世界语的效率数倍于学习英语。但很少人会想到,英语的霸主地位不会长久。不是别的语言以任何优势取胜取代它,而是机器翻译进步的大势所趋。在这样的形势展望下,世界语作为二外选修的首选,前途却是光明的。

在科技领域,当年我们津津乐道的是,世界语可以作为比较理想的多语机器翻译的媒介语。可现在基本上没人用世界语做媒介语来做机器翻译探索了。因为没这个需要了,最新的机器翻译都是神经网络系统,是从平行语料中自动学习/模仿出来的,质量接近人译水平。以前多语言要媒介语是因为以前的系统是专家一行行代码编制调试出来,每一次增加一个语言,要做很多辛苦的词典工作,语法规则,还有转换和生成,很辛苦的调试,有了媒介语可以大大减少工作量。如今,即便 A 语言与 B 语言没有足够大的翻译样本(平行语料)可供机器模仿,现在的技术也不必借助世界语做媒介语。可以借助其他的热门语言做媒介,譬如英语。A 与 B 语料不够,但 A 与 英语, B 与 英语,语料应该是足够大的,那么机器就可以借助这两种语料来学习,等于是拿英语做媒介语了。为什么不用世界语?因为世界语与 A 语言,B 语言 之间的翻译数据,远远没有英语大。现在的机器胃口大,数据越多,学出来质量越好。古人云,取法乎上仅得其中。好像是说,机器永远赶不上人的水平。其实不尽然。在大数据的学习过程中,最终可以做到,取法乎中,可得中上。取法乎上仅得其中,说的是徒弟跟师傅学,是个体学个体,你自然超不过这个上限。如果你的学习对象是超大的数据,尽管数据的平均水平不高,参差不齐,里面还藏着不少错误。这都没关系,大数据有一种自然筛选的过程,会把噪音沉底。最终机器比一般人翻译得好,是自然的结果,特别是在时间限制条件下。机器很难比顶级翻译人员比,也难以比一个一名之立旬月踯躅的慢工磨细活的死磕的人,但是超过一般人的水平是没有问题的。所谓一般人就是那些学了好多年外语,通过了5级还是6级的人。这样一来,机器翻译的技术进步基本上解决了国际交流的问题,而且只会越来越好。

因此,世界语如果是以充当国际交流工具作为生存基础,是难以维系长久的。柴门霍夫当年创造、发布和宣传世界语,充当国际交流工具可是作为一个主要依据提出的。但时代不同了,作为人必须去学习才能使用的工具,如何与自动翻译比呢?翻译中死记和模仿的成分很大,很多说法以前都见过,双语平行(翻译)语料里面有存,机器有几乎无限的记忆能力,当然是机器强。我现在从来不自己翻译任何东西,都是让机器翻译了再稍作调整。如果是新闻和日常的文字,基本不需要加工就很顺畅了。国际旅游者利用翻译机周游世界的,也越来越多了。到世界旅游,带个随身翻译机,或者手机下个程序,日常问题就解决了。问路啊、找厕所啊,都不是问题。以前是说,你学了世界语就走遍天下。柴门霍夫的意思是说,实在不行随身带一部词典,就是遇到不懂世界语的,凭借词典,人家也不难搞懂你的意思。这样的场景当年是可能有用场的,总比互相完全没办法沟通强,但是有了翻译机,这个场景就完全没有意义了。当然到世界各地世界语俱乐部找“同志”,搞联谊,那是另一回事。那不是世界语的功能性主导,而是世界语的文化性和社会性作为纽带。

看看英语的不规则动词表,再看看法语、俄语词法里面那些大小规则里面的种种例外,就可以体会到自然语言对于不规则的东西,是如何容忍的。基本上就是这样一个局面:自然语言里面的不规则恰好达到了一个想学它做外语的人的死记硬背的极限。再多就学不会语言了。可是一旦学了它,它就绑架了你,使得你必须不中断地使用它练习它,稍微一松懈,你就把学到的外语还给老师了。这就是学外语的紧箍咒。世界语还是从根基上改变了这种局面。

关于世界语到底是不是简单易学,不同的人往往感受和看法不一,也说点自己的切身体会。我觉得一切都在比较之中。毛委员说过:没有比较,就没有鉴别。记得老电影《南征北战》里面,国军长官说过:“不是我军无能,而是共军太狡猾了”。可以说,不是世界语容易,而是其他外语太难了。

对于国人,如果学会一门欧洲语言,再学世界语,的确更容易体会其简单容易。如果除了母语,只学世界语,那就很难有这种体会。如果是欧洲人,世界语做第二外语,那的确不难,毕竟世界语根本上是欧洲语言的简化规范版。但对于非印欧语系为母语的人,不会觉得容易。

我英语专业的,二外是法语,三外是俄语,到接触世界语的时候,这应该算是四外了。当时有晕眩的感觉,天哪,还有这么容易的语言,学了四五天就可以写信,学了一两个月,就可以写论文,心里一点都不怵。记得第一封世界语信是写给(河南还是枣庄?)一位世界语朋友(当地的一个世界语活跃分子),收到他的回信,以及附在信里面的绿星等纪念品,开心死了。几十年下来,二外法语现在带着词典还能勉强读一点,但绝对写不出合法的句子了。三外俄语完全还给老师了。只有世界语多年没用,感觉还可以随时捡回来。这样看来,世界语的确是其他外语没法比的。没跟英语比较,是因为一直在英语世界里。真要比较,我觉得我的世界语水平大体可以与我的英文水平,打个平手。口语不如英语,那玩意儿需要有环境和机会实际操练。但书面语可能还强过写英文。我从小学开始学英文字母,中学一直跟着广播英语,到后来本科英文受专业培训,再到后半辈子一直在这个语言世界里面,那是多少时间和精力的投入啊。相比之下,世界语连学英语的零头功夫都没有。

我在想,现在大家随时可用翻译机,国际交流场合的功能性需求基本可以满足,这一方面不再需要世界语了。在未来的世界,英语作为实际上的“世界语”的地位也必然会因为翻译机的不断改进和普及而动摇。最后的情况很可能是,学习“外”语只是人类的好奇心驱使。这时候,世界语作为好奇心和求知欲驱使的外语首选,是最合适的。

试想一下这样一个世界,我们不再需要学习任何其他语言,英语也是天书。这时候我想以最少的时间,了解唧唧呱呱讲各种外语的人到底有什么新奇的东西。世界语作为印欧语言的集大成者,应该是最合适的学习对象和窗口,会给人带来新奇。我觉得这个价值是恒久的,只要世界语可以活下去,活到英语从钦定二外以及事实上被全世界学习的地位走下来的时候。其实不知道多少人浪费了多少时间学英语,但英语的地位从科技发展的趋势看,不可能是永远稳固的。总会到一个临界点,人类社会说,除了少数人外,去它的,大中小学里面全部废弃二外作为必修课,把精力转移到学习其他知识上来。然后,二外成为选修。这时候,竞争选修课,世界语的优势是压倒性的。

老哥学了一辈子英语,一辈子没学会。年轻时候学 Follow Me, New Concept 好几年,还是记不住。现在大概只认识几个单词,听说读写啥都没会,可一辈子投入的时间总量却不少。他常跟我说:我大概是太缺少语言天赋了。也许他的确没有多少语言天赋。但更根本的还是语言太难学了,本质上是一个死记硬背的东西。对于很多像我哥哥这样的人,回头来看,他们对于外语学习所投入的时间精力与所得,完全不成比例,是极大的资源和人生的浪费。这种浪费在全世界不断重复着。英语一天不走下神坛,这种浪费一天不会停止。但是英语必然下台,这是可以确认的。这个过程也许需要50-100年,我觉得。

世界语已经活了100多年了,再活 100 年,就可以赶上自由竞争二外选修的好时光了。换句话说,世界语的前途,恐怕并不在于我们当年想象的用它取代英语作为全世界公认的国际辅助语。功能性上取代英语的不大可能是世界语,而是机器翻译的普及和推广。目前实际上已经存在随时可及的网上机器翻译(各大厂如谷歌、百度、微软,还有比他们更强的后起之秀如有道、搜狗和腾讯等),所有的手机里都随时可用机器翻译的apps。翻译质量虽然参差不齐,但总体可读可懂,新闻、日常用语已经可达人译水平。质量提升还在持续。到了一支钢笔里面也有个机器翻译芯片的年代,社会不会容忍英语学习所花费的代价。最终的发展趋势是,世界语的前途,会超过英语和其他所有自然语言,成为人们选修外语的最多选择。在一个排除了功能性考量的选择里,世界语的胜出是可以预见的。

最终的情形很可能是:相当一些人决定不学任何外语,其余的人决定选修外语。选修外语的人中,有对拉丁语、阿拉伯语、中文、英文、希腊语等感兴趣,这些死的活的自然语言虽然很难,但总会有少数人有浓厚的研究兴趣。但更多的人选择了世界语,并且延续和发展了世界范围内的世界语联络网,作为联谊和文化交融的实践。

未来的人类交流没有实质性阻碍,语言的统一就不再成为目标。世界大同也不以语言统一作为前提。倒是有可能是反过来,世界先大同了,然后某个阶段,人类决定还是把语言也统一算了。到那时候,倒是不妨选择世界语。那应该是不知道是多少年以后的事儿了,难以打算。老实说 世界大同和世界末日,哪个先来还很难说呢。看核武器、看气候变化、看瘟疫,看人类的短视和”作”,每一个灭绝人类的可能性都依然存在。

世界大同或世界末日的命数先放下,可以预见的是,在不太久远的未来,英语终将走下神坛,世界语作为外语选修有流行的优势和希望。

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

《李白121:关系的语义解密》

李:白老师新作【白硕:闲话语义(7):事件】最后一段 “5、元关系·关系类型·裸关系” 蛮深奥,但很重要。看我理解对不对。想请教@白硕 的是,ontology 里面的概念节点,相当于词典里面的词。这些节点之间的关系都是“裸关系”吗?我一直把本体知识库 ontology 里面的一切关系看成“元关系”,对照于实体之间的“关系”,前者是后者的抽象,是人类世代积累的常识积淀。

ISA 与 “关系-判断”类型(譬如 partOf)不同样是“语义知识体系内部的关系”吗?当然感觉上 ISA 是 ontology 的核心骨架,单列出来也是合理的。 作为落地实现工具的知识图谱里的“关系”,是实体知识库,感觉不能与 ontology 混杂。前者是动态的“世界知识”(对于形势、趋势、身边事、国家大事的感知),后者是静态的常识(元知识)。

白:我们的目标,最后是要把与HowNet在表达能力上至少相当、在计算能力上更胜一筹的ontology写在知识图谱里。

李:是的,HowNet 很丰富细腻,但不好用,因为没有图谱的“技术栈”。

首先,实体和本体是分开的吧?怎么建立二者的联系是另一回事儿。作为知识库管理,应该是分开的。本体是封闭的、可以穷尽的知识体系。实体是完全开放的世界知识,而且每时每刻都在演变。

白:这个语义知识库只是应用的一部分。或者说,借助知识图谱的技术栈让语义知识库落地。怎么用,后面还有很多种可能性。

李:partOf 这类“关系-判断”类型的输出是“布尔”即逻辑真值。ISA 不也是吗?

“抽屉”是“橱柜” 的 part:TRUE
“动物” ISA “生物”: TRUE
“橱柜” ISA “生物”:FALSE

白:如果解析句子“他过去是单身汉,现在不是了。”

李:那是实体知识,不是本体知识。

白:本体要提供表示手段。

李:相关的本体知识是:“单身汉”是关于 “男人” 的属性,或一个子集。

白:这是经过一层解析了。单身汉首先是一个节点,他是另一个节点(男人节点的实例)。先要说这两个节点是怎么连的,再说根据单身汉的定义怎么“重写”他的属性。

李:解析是落地到实体,真还是假。本体是说类型合适不合适(相谐否):“类型”不合适的连真假都谈不上(记得以前的一个名句:his argument is not true,it is not even false,说的就是“不着调”的论辩)。

白:在“怎么连的”这个问题上,我的意思是,不是在“他”和“单身汉”之间连一个标签为ISA的飞线(裸关系),而是把二者都作为输入(一个实例、一个类型),连到一个“属于判断”节点的实例。语义解析不只是判断相谐性,还要构造一系列实例。

有两个“属于判断”事件。二者都是实例,一个指向“单身汉”,另一个排除指向“单身汉”。二者的时间标签不同。第二个事件“刷新”逻辑主语在实体知识库中的婚姻状况属性,但事件本身是log,当我们需要replay或者进行时序有关的查询时,就必须借助之。

李:对,“构造实例”本来就是“信息抽取”的核心目标。语言解析是支持信息抽取的。

张三:前-单身汉;现-已婚。
假设 已婚 == !单身汉(在西方不成立:在美国填有些表可复杂呢:在个人关系栏目里面有一长列关系:同居、异性婚、同性婚、变性婚、单身、丧偶 ……..)

实体知识图谱“通常”不收入“非”:排除单身汉的常规不收,除非换个特征名/维度(譬如:从“单身汉”换成“已婚”)。因为定义一个实体,定义是什么,比定义不是什么,边界清晰多了。

白:这个观点,和人机对话系统不支持回答否定句的那件事,互相锁定了现状。

李:回到前面的问题:“属性类型” 说的就是 ISA 元关系吗?

白:属性类型之间可以存在ISA元关系,但那不是给“构建实例节点及其相关的边”用的。

李:的确如此。当然不是“构建实例节点”。本体里面,by definition,根本就没有“实例”。实例是实体知识的范畴。本体里面说的关系,大多是“潜在”的关系。悬在空中没有落地的那种,才叫本体。这是人类把握世界,人脑给世界分类的概念化结果。

关于本体和实体,最有意思的例子可以追溯到“白马非马”论。这个悖论(?)中,“白马” 在理解中是落地到实体的(就是那个说话者和听话者你知我知的那匹白马);第二个 “马” 则是没落地的本体(概念/类型)。对于朴素唯物主义者来说,任何表达或判断,都必须“唯物”,不落地就无从辨真伪,辨别不了真伪的东西,一律不承认,因此 “(此)白马非(类型)马”。这是把元关系 ISA 也从 ontology 拉出来,非要让它落地。也不能怪他,本来这种关系就是内在的(存在人类共同体的脑瓜中,或集体记忆中),可以认为是一种给定的无需证明的公理,是你知我知的“真理”。把没有信息量的“公理”表述出来,哲学家可以借此反思本体论的形而上特性,表现朴素唯物论的反智。如果我们把“知识”默认为实体的种种(知识就是了解世界发生了什么),“元知识”的本来意义就是悬在空中,没有落地(到实体)的意思。

白:我们在本体里就区分元知识和潜在知识。潜在的关系也不是元关系,比如比较大小:

<quantity>大于<quantity>

语义解析不构造元关系的实例,但会构造潜在关系(我们叫关系类型)的实例。

李:不太明白。数量可以比较大小,这不就是元知识、元关系吗?到了实例,就是:

pi > 3 : TRUE
pi > 4: FALSE

这就落地了,成为实体知识(实际上是数学常识)。

白:大于,是关系类型,不是元关系。元关系是我们推理用的,不是理解用的。元关系永远留在本体里,关系类型可以实例化。

李:有点晕了,主要是术语概念先要有个统一的定义。“潜在关系(我们叫关系类型)”,举个例子。

白:刚才说的“大于”就是啊。大于是关系类型。

李:“构造潜在关系(我们叫关系类型)的实例”,上面的 pi > 3 就是。ISA 不也是关系类型?

白:ISA不是。关系类型用节点实现,不用边实现。节点带论元,也就是态射。节点还带属性。关系类型节点可以带时态属性。

李:“节点” 就是 “词/概念”。节点带论元的典型例子是谓词。

白:纯粹的边不带属性。大于,就是谓词。大于,不处理成纯粹的边;ISA,处理成纯粹的边。ISA没必要带时态属性。

李:这是本体的 ISA,确实谈不上时态,是超时间的,恒真。因为概念世界就是这么定义和抽象的。

实体的 ISA 是有时间变化的:人曾经是猴子,很多年以后,人成为政治动物。

白:属于判断,是另外的事情。我们不用跟ISA混淆的表示,而且必须用带论元的节点表示。

李:对,实体判断的 ISA 与本体内部的 ISA 不是一回事。

白:这也不算是实体,只是可落地为实体而已。“人曾经是猴子”。这个“人”,用的既不是全称量词,也不是存在量词。是那个时候活着的人全体。

李:上面的“人”(人类)感觉是“半实体”。显然早已不是纯粹的本体了。

白:不是本体。是“实例化+泛化”。

李:嗯。

<quantity>大于<quantity> 如何在 ontology 里面体现?有什么用处?<quantity> 是一个节点(类型/概念)。

白:两个quantity是输入节点。“大于”是输出节点。它的类型继承路径可以一路走到event/static/boolean……。event再往上,就是thing(root)了。

要说用处,自然是为实例化提供了模板,同时也为相谐性检验提供了门神。一个向左一个向右。

李:就是说,看到 “5 大于 3” 甚至 “3 大于 5” 这样的说法,本体知识“门神”说,对,类型靠谱。看到 “品性大于知识” 的说法,本体知识说:类型不符合,可能是引申或比喻。如果这就是“用处”的话,不能说没用。但也说不出对语言理解有啥真用。

<quantity>大于<quantity> 在以前的谓词句型词典里面是这样的:

大于:Subject:CD;Object:CD

这是所谓 SUBCAT 句型对潜在填坑的萝卜做了限定:是期望一个数词。它与其他及物动词的 SUBCAT 标注是一致的,如:

EAT:Subject:Animate;Object:Edible

白:“5大于这三个数的平均数”

对parsing的作用是逆向选择,对语义解析的作用是顺向构建。

李:我好奇 “<quantity>大于<quantity>” 与 “大于:Subject:CD;Object:CD” 有什么区别?提供了哪些额外的价值?

“平均数” 虽然不是 CD, 但它是可以兼容的类型 (CD 的本体类型)。这就好像要求【human】,不仅仅实体 “张三” 合格(合乎预期类型), “演员” 也合格。

白:“平均数”也是一个态射,输入类型是quantity的集合,输出类型是quantity。这就实现了符合相谐性的“组装”。

李:对,“平均数” 也是某种 谓词:

平均数:【Arg1:CD】【Arg2:CD】 (……[Argn:CD])

如果用传统 SUBCAT 标注的话,大体如上:它期望至少两个数作为输入。还是不大清楚这种知识在实际语言解析和落地中的价值。有了 SUBCAT,解析感觉就够了。除了要做逻辑推理,譬如,验证某三个数的平均数是不是像语言表述中的那样,是真的还是错的?(这在文档核对、质检的场景似乎有用。)

白:针对类型的检查和针对值的推理/计算不是一回事。关键是,延展到领域知识,只需要做加法,不需要改动顶层设计。通用语义知识和领域知识可以无缝衔接。解析的输出物是自带螺钉螺母并经过装配的义素。领域知识中的实体和事件,也是如此这般地装配,没有其他。

李:“元关系永远留在本体里,关系类型可以实例化。” 这句话好,把 ontology 中两种关系区分开了。

“解析的输出物是自带螺钉螺母并经过装配的义素。” 这就是语言学中的 semantic compositionality。就是把珍珠串成项链。

白:朝着“构成”这个方向看去,应用潜力巨大无比。

李:潜在知识就是为落地的。元知识不需要落地,因为它本来就是从无数历史实例中抽象出来的“真理”。潜在知识虽然也是从历史实例中抽象出来的(“趋势”),但不是恒定的“永真”。“构成”/“组装” 就是 “compositionality”,这是语义学中的最核心的概念了。

白:但是它可以一定程度上超脱于“语”。

李:“类型(type)” 就是超越 “语(词)”,是“概”念之间的东西。所谓本体是“元”知识,也就是说的这种超越,不仅仅超越“语”(这种表达体系),而且超越“实体”(客观世界),构成的是概念世界,是人这种物种所特有的范畴。当然,概念世界是从客观世界抽象来的,不是凭空来的。这些应该算哲学了。

白:不仅如此。语言表述可能比较细粒度,有情报价值或其他应用价值的事件粒度更粗,由細到粗,事件长的样子没变,但是已经脱离了字面意义的解释,进入事件驱动的推理、模拟、重演甚至数字孪生了。一个公司的几项人事变动后面隐藏着的粗粒度事件,可能是清洗。财务指标变动的后面是啥,也都有主儿。

李:有意思。这是从碎片化信息 event instances 推导其背后的情报。不过这种推导、预测或形势判断,开始进入“雷区”。就好比前几天我的公司让我重发当年对特朗普的大数据分析预测(《弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里》),我说,不要提“预测”,那是雷区:

把:“预测了特朗普的胜选” 改为 “大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增”。留点余地。当时的确是胶着,任何预测都冒风险。但选情变化之快,没有大数据,很难及时提出预警。主流民调就没有来得及预警,因为他们被信息压倒了。

白:我们的核心思想是,语言解析得到细粒度的事件,细粒度的事件imply粗粒度的事件,粗粒度的事件驱动其他粗粒度的事件或与之互动。对错另说,但事件长什么样不用另起炉灶了。如果粗粒度的事件完全是另一套,两张皮,就是NLP的失败。

李:两张皮怎么讲?以前的NLP怎么到了应用就两张皮了?

白:比如游戏,对命令的解析结果是一种数据结构,执行命令的战争进程是另一种数据结构,这就是两张皮。

李:不懂游戏。不过如果是两种数据结构,应该是一种映射到另一种。这也是常见的做法。譬如我们的 parsing 就是先造树结构,然后映射到图结构。以前也做过直接的图结构,不建树。这么多年实践下来,还是觉得建个树作为桥梁,感觉系统更加模块化,也更加方便。树虽然表达力不够,但作为桥梁是有便利之处的。过河拆桥,树在深度解析中最后基本是废弃了。

白:在金融领域也是这样。如果领域专家理解的事件、事件驱动,跟语言解析得到的事件、事件驱动,有很大的鸿沟,就没法玩了。一定有一个东西是统一的,而且是直接跨过去的。装配可不局限于树。在语义层面,树是没道理的。

李:顺便一提,图有种种好处,但是图规则不直观,难以理解,维护和调试都有挑战。这是因为图增加了维度,丧失或忽略了线性特点,结果就是面对一个图模式(graph pattern),在头脑里需要首先形成一种多维度的“图形”(picture),才感觉直观,才理解在节点之间穿行的模式,到底是干什么的。

本来我曾想尽量把更多的工作从句法树层次转移到语义图层次来做,感觉更加合理,但几年下来发现,句法是精简了,漂亮了,但语义这块越来越看不懂了。可是句法的东西即便是N年前做的,却一看就懂。接地气,容易维护。

再提一点:句法树 –》语义图 –〉实体知识图,这个 pipeline 的确有一个理由在:有情报价值的实体知识图谱与语义图是“同质”的,与句法“树”是不同质的。因此经过语义模块以后再做抽取,显得更加合理,很多时候所谓落地实用不过就是把图里面的“边”改个名称而已(甚至可以让用户配置)。譬如。针对 HIRE 这样的谓词,把 “S”(逻辑主语)这个边改为 【雇佣者】,“O” 改为【受雇者】,这就完成了“雇佣/HIRE” 这个 event 的抽取(逻辑语义图到事件图的映射)。这个事件的其他特征,譬如时间、地点、条件 等情报,常常可以照搬过来,连改都不用改(改就是映射),直接从图上继承下来即可。这里描述的语言技术的实践,感觉是呼应了白老师说的“无缝连接”。而共同体使用的宾州树(Penn Tree)结构,就很难做到“无缝连接”,由于表示体系的“鸿沟”。

还是回到 ontology 来。

白:前面说的“张三的小说没有散文写得好”,其实有两个“写”事件的实例,逻辑主语都是张三,逻辑宾语一个是小说,一个是散文,两个事件都通过“副作用”把自身的输出类型藏起来,而让各自的逻辑宾语带着其输入类型进入“好”获得quantity类型,再把两个quantity送进“大于”事件。

李:这个非常有意思。哦,“大于”事件不仅局限于数量,也可以是其他度量比较(包括质量)。

白:


这个图大概就是装配的结果。“没有”还有一层否定,在Boolean的右面。“没有”还有一层否定,在Boolean的右面。或者其实应该使用“小于”关系。主要以此说明义素装配出来长啥样。没有装配就没有语义理解。

李:虽然大作最后一段文字也不长,开始感觉是,每个字都认得,每句话都不大认得,LOL:

5、元关系·关系类型·裸关系

在事件的表示中,我们使用了态射。事件有多种类型,其中有一种就是静态事件,它又細分为属性类型和关系-判断类型。这里的“关系-判断”类型的输出是“布尔”即逻辑真值。因此,它构成集合论和数理逻辑含义下的“关系”。这种语义知识体系内部的“关系”和IS-A这样的“元关系”是什么“关系”呢?它们和作为落地实现工具的知识图谱里的“关系”又是什么“关系”呢?我们看到一些语义知识表示框架的相关文献在这个问题上有些含糊。在这里,我们要做一些基本的约定。

把语义表示单元(类型)作为研究对象,探讨它们之间的“关系”,这是元关系。

作为语义表示单元(事件)之一个细分类别的“关系”,这是关系类型。跟元关系不是一回事。“部件(PartOf)”关系就是一种关系类型,而不是元关系。

在知识图谱体系内,无论是元关系,还是关系类型,都可以用知识图谱显性定义的“二元关系”来实现。我们把知识图谱里显性定义的二元关系称为“裸关系”,并约定,元关系在知识图谱里一律直接实现为裸关系,关系类型在知识图谱里一律间接实现为事件节点,哪怕关系类型就是二元关系,也必须通过事件节点来实现。具体来说就是:设事件A有n个输入类型一个输出类型,那么事件A就必须拆分成n个裸关系,其中每一个裸关系的开始节点都是这个事件节点本身,目标节点则是对应的输入类型节点,而边上的标记就是角色名,包含角色名由粗到細、由抽象到具体的整个继承路径。

这样做的好处,就是对元关系和关系类型做出严格区分,既避免了因开发团队个人理解的差异而将本体定义引向歧途,又给类型作为统一的语义知识表示对象留出统一的数据结构模型,便于定义方式的整体把握。举一个明显的例子,无论实体类型还是事件类型,其特征K-V对都是定义在自身节点上的,不会因为事件类型恰巧是二元关系就把它实现为裸关系,因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上,不仅架构上是很不协调的,而且也给实现带来不必要的难度。

白:这一段憋了我不少天呢。

李:就像吕叔湘先生批评乔姆斯基一样,说他什么都好,就是说话艰涩,不懂得科普。白老师也可能有同样的问题。不知道,这段话有多少人能看明白。当然,肯定比爱因斯坦的相对论要强,据说很长时间,全世界只有三个半人看得懂相对论。

白:这个系列,不是严肃的学术论文,更像是整理阶段性思路的随笔。至于科普写作,还早着呢。

李:不拘一格。没必要用学术论文的那种格式。探寻语义结构和理解认知的奥秘,也是AI的前沿了。无论主流的热潮怎么走来走去。

关于这一小节的最后,你说:

“举一个明显的例子,无论实体类型还是事件类型,其特征K-V对都是定义在自身节点上的,不会因为事件类型恰巧是二元关系就把它实现为裸关系,因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上,不仅架构上是很不协调的,而且也给实现带来不必要的难度。”

我的问题是:“事件类型恰巧是二元关系就把它实现为裸关系” 这种做法不大可能在 ontology 里面的呀,譬如 HowNet,所有的潜在关系的预示全部是以节点为单位的。我的理解是,只有到了实体知识图谱,才会有实现为裸关系的“边”来表示的(当然也可以不用裸关系来表示)。

白:不限制,就有可能。所以作为一条铁的纪律。

李:顺便提一句:白老师所谓 “特征 K-V 对”,在HPSG这类 constraint based formalisms 中叫做 AVM(Attribute-Value Mattrix)。而且这些 formalisms 中的 AVM 是严格的 typed AVM(typed data structure),每一个AVM图示为一个框,type作为框的下标。AVM 中的 V 可以是原子,也可以是另一个 typed AVM。从表示形式的统一性、操作的单一性(合一)以及逻辑严谨性和丰富性来看,这种formalism 是非常令人印象深刻的。

白:借助数据结构的type和本体的type是一回事?我表示谨慎怀疑。

李:这类系统的根本缺陷不仅仅是繁复,还有就是unification(合一)无法应对“顺杆儿爬”。另一个就是这种formalism提供了使用者相当程度的任意性,你可以把任何一个子结构(sub AVM)用 合一(实现的时候叫 structure sharing,实际上就是子图匹配和融合)的手段,放到任何一个 Attribute 里面去。

白:顺杆儿爬是句法适应语义。到了语义哪有顺杆儿爬,都是严格的类型检查。该脑补的都得在前面做掉。

李:“该脑补的都得在前面做掉。” 这个可以商榷。更多也更便利的做法是,脑补留到最后。

白:比如,“张三的小说没有(张三的)散文写得好。” 那个括号里面的东东就是顺杆儿爬出来的。到了语义层面,另一条边就得乖乖地画出来。句法的最后,相对于语义仍然是“前”。最多是内部名字有了,挂什么外部名字留到最后。但是内部名字跟事件的连线,必须有。而且必须符合类型约束。

李:严格的类型检查是一面,检查的另一面是,根据犯规的程度,来决定如何松绑或输出另外的解读或者输出 nonsense 的判断。

关于连线(linking),觉得也可以反过来想。在一个局部环境里(local context,say 5-gram),把默认的不连线,因此必须“做功”(句法解析)才能连线,改为默认就连线,因此找一些条件去不断剪枝。当然这蕴含着组合爆炸。但爆炸不爆炸是随着计算条件的不同,而有不同的抗压力的。如果反过来思维,上面的办法就是把句法、语义和语用等等的约束,全部统一看成是“剪枝”的过程。这个思路我感觉有突破性的潜力。因为实际上所谓的 compoasitionality 其实根本不需要真地去组装每一个原子(义原)部件,而是可以组装“预制件”。local context 都连然后通过词典或其他模块去剪枝,就与预制件的思想比较一致了。

白:这就是我说的统一优先级啊。语义、情感、事理、大数据,都可以给优先级加分或者减分。最后还是调整后的优先级说了算。不调整就相当于按句法default装配。

李:统一优先级的最大问题在怎么统一?

白:回到机器学习啊。加分减分不就是一个待定的参数么。神经做这个最擅长了。

李:这是机器学习里面说的 heterogeneous evidence 如何对付的老问题,这个挑战,学习里面一直困扰了好多年,到深度学习以后也不能说就解决了。譬如特斯拉内部人员透漏的最大难点也是在这上面,说上百个模型弄出那么多东西出来。最后的输出就是 x(速度)和y(方向)两个赋值。面对那么庞大的输入参数,和这么小的输出,老是在 “杂乱的(heterogeneous)” 输入因素之间摆不平。自动驾驶的质量控制因此成为一个非常大的挑战。一不小心就有了 regressions:明明上一个版本在一个急转弯控制得很好,版本更新后,突然就失控了。这种事情,很多用户有反馈。

他们现在还是学 Lidar(激光雷达),把各种 cameras 的感知数据,先整合成统一的三维模型,然后去 feed 给系统。这样来减少“杂乱度”,说这种模拟激光雷达的软件模型解决办法,比以前的系统,好多了。

白:对于NLP错误结果不会那么致命,就是正确的解析早几个回合出来还是晚几个回合出来的事儿

李:谢谢 @白硕 老师,大作的最后一段总算看得有些明白了,一开始觉得是天书。期待语义系列的下一篇。


【相关】

白硕:闲话语义(7):事件

【弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

是特斯拉的自驾AI牛还是马斯克牛?

【语义计算:李白对话录系列】

白硕 – 穿越乔家大院寻找“毛毛虫”

【置顶:立委NLP博文一览】

《朝华午拾》总目录



是特斯拉的自驾AI牛还是马斯克牛?

说到马斯克,全世界做AI的谁有他这个门外汉牛?

他可以让自己的上帝,特斯拉车主们,争先恐后地付巨款,不惜生命危险做小白鼠,给他免费地源源不断地标注数据。他拿着数据训练他的AI 所谓的“全自动驾驶”(FSD,Full Self Driving)。FSD 能力提高以后,他就不断加价,剥削新的上帝。

FSD 根本还没影子的事儿,他就从 5000 美金一套开始预售,一路加价到现在的 7000,据说不久还要加 1000 美金。最近开始发布他的过了n次自设死期的红绿灯自动停车功能,这是走向 city driving 的前提。注意,不管红绿,一律停车。除了电脑视觉(CV)外其实没有任何路口智能,说得赤裸裸:就是要顾客教会它如何过十字路口。万一出车祸了,对不起,责任自负。

红灯停,绿灯也停,见灯就停。甚至有车友说路过一个穿绿毛衣的女孩,它误以为是信号灯,也停了。他丫是完全没有智能,放出来就是让小白鼠们免费教会AI何时不停。见灯就停是默认,何时学会不停,完全等小白鼠义勇军(fleet)的反馈:你踩油们就表示你发现(1)这是绿灯;(2)路面上也安全(无阻碍),你觉得应该穿行。这就给特斯拉做了标注。带标数据反馈给神经网络去训练,机器就慢慢学会了。识别红灯绿灯路口 STOP 招牌,据我自己的多次测试,这个能力已经很成熟了。现在就等过路口的数据了。

从用户角度,即便没有智能,也愿意尝试啊。除了新鲜感以外,有时候也的确省了力气。第一,是绝不会冒大意闯红灯受罚的危险了。第二,遇到绿灯且无阻碍,点一下油门也不过就是举脚之劳,总比自己开车省力。也就是说,你上街开车,除了路口,你完全不用操心了。即便到了路口,遇到红灯、黄灯,你也不必操心,它很保守,总是乖乖给你停下来。只是遇到绿灯,你才需要举手之劳地点一下脚。这样算下来,90% 的 city driving 你是可以交给机器了,10% 的时候动动脚(点一下油门)或动动手(点一下操纵杆也可以)。这样的小白鼠,哪个热爱新科技的人不愿意做呢?何况咱还是AI背景的技术爱好者。10% 之内还有路口转弯,这个是更高级的功能,还没进入特斯拉的机器学习的视野。

这阵子读了一些他们的材料。从各种CV子任务,到建立“鸟瞰”view,到测算3D depth,到综合这些信息决定操作,总共上百个模型一起协作。也是一团乱麻,谈不上端到端。非端到端的好处是透明性和模块化。AI的透明性表现在对这100个模型的细分定义中,可是这些模型之间的协调落地,其实基本是个黑箱子。常出现的问题就是,有的模型 overfitting,与其他模型难以 sync好。不同模块对最终的驾驶控制(输出 x,y:x 是速度,y是方向)有不同的影响,协调不好的后果就是争抢“控制权”,表现在自动驾驶能力的不稳定或退步(regressions)上。

几乎所有其他家的自动驾驶都用激光雷达(LIDAR)主导。马斯克说,这是死路,我就不用,我只用摄像头,靠CV。有啥道理?其实没啥道理,马斯克不是AI专家,他就是个有技术背景的商人而已。他算过一笔账,激光雷达的成本高昂(好像是最基本的LIDAR至少6000美金以上,一辆车通常至少要部署两台,这就是一万多),它没有办法用到量产的特斯拉车上,而不失去顾客和市场。就是为了这么个非科学的理由,他就硬说人家用LIDAR是死路。

LIDAR最大的好处是精确测量障碍物与车的距离,而这是自动驾驶安全性的最重要的信息。特斯拉不用LIDAR,但绕不过这个三维(3D)景深(depth)的计算呀,否则如何避免碰撞呢。特斯拉只好通过多个摄像头从不同角度得来的视觉信息,做所谓信息融合(info fusion)在线建立3D模型,来逼近距离的测算,这需要海量的数据训练以及巨大的即时计算能力。最近的报告说,他们与LIDAR的鸿沟已经越来越小了。事实上,他们是用软件的办法实现了一个LIDAR的模拟结果。据称,模拟LIDAR的好处是,很多利用LIDAR发展起来的驾驶算法和技术就可以拿来主义地用了,补足单一依赖视觉的不足。

这叫什么?明修栈道,暗度陈仓。一面宣告竞争对手依赖LIDAR硬件是死路,一面台下模拟LIDAR的软件效果(等价于复制了一个粗糙的LIDAR)。这样也好,等到未来某一天硬件价格下降,特斯拉量产也装配得起LIDAR了,整个算法路线无需大的改变即可实现平滑升级。马斯克的“死路说”,只有一种解释可以站得住,就是:你丫选择用LIDAR,因此成本大到无法量产,因此也就无法交付给成千上万的客户(特斯拉迄今已经交付了100多万辆,形成了一个可以自动海量汇集驾驶数据的车队,叫 fleet,这个 fleet 每天在路上跑着,源源不断给特斯拉输送数据)。这样一来,你的实际训练数据的收集,无法与特斯拉比,相差太多了。在数据为王的AI年代,自动驾驶的最终规模化和适应性,很大程度上取决于数据的采集量和训练量。从这一点看,特斯拉显然把对手远远抛在后面。

关于踢开LIDAR闹AI革命,可以打个比方。弹钢琴是个手艺活儿,各种大赛,各路选手可以把钢琴弹得让人眼花缭乱。这时候你说,我出一个选手,把双手剁了,也来参加钢琴赛,可以不可以?当然可以,没有手,可以用脚呀。不知道各位见没见过用双脚把钢琴弹得让人掉眼泪那种。

这就是补偿作用。当你把一条路堵死,虽然那是一条公认的光明大道,甚至是很多人确认为“唯一”的路径,你其实还可以把另一条暗道无限发挥到极致,最后也常常可以达到目的。这就是马斯克的算盘,虽然费老鼻子的力气了,现在看来他是在成功的道路上,开始逼近对手的自驾能力。我看过竞争对手Zoox的自动驾驶展示,利用LIDAR和高精地图,在旧金山市区繁忙地带穿行自如,性能上比特斯拉要强得远。(顺便插一句,AI 中很多任务,其实主流的深度学习和更传统的符号逻辑,其实都可以做。当你把某个路线堵死,把所有资源排山倒海般注入其中一条路线,奇迹是可以发生的。但这并不说明,那个被堵死的路线,如果有了类似的资源投入,就不可行。很多时候,另一路根本就不在雷达上,完全被忽略了而已,没有施展的舞台和需要的资源而已。)

回到特斯拉的自动驾驶(auto pilot)的设计思想。马斯克说,现代的交通系统(各种路标、红绿灯,以及驾驶规则等)就是设计给人用的。人与蝙蝠不同,没有雷达,主要就是靠双眼来采集信息,靠大脑消化信息来指挥驾驶。既然人可以驾驶,那么机器凭着眼睛(摄像头)也就一样可以。说得倒也有道理,但那是最低标准的道理。没有任何理由要求自动驾驶仅仅跟着人后面去学。人每天都在出事故,难道机器也应如此?人的双眼其实很差劲,为此不知道坑进去多少条人命,伤胳臂丢腿的更是无数。好在特斯拉不止双眼,它配备了10多个摄像头,也配了普通雷达,只是没有激光雷达而已。(特斯拉其实走了一条难得多的道路,他自愿砍掉了自己的两条腿,除了LIDAR这条腿外,他还坚持不用高清地图。砍掉第二条腿的动机是增强系统的鲁棒性和动态适应性,因为高清地图不仅制作和维护成本很大,而且也难于对地面情况的变动做及时的更新反映。但在人口密集地区,譬如交通复杂的都市中心,没有预制的高清地图的结构化知识支持,单靠现场的视觉计算是很难把控交通形势做出合理决策的。相信,最终特斯拉还是会在特别的地区,譬如旧金山市中心,添加高清地图,来优化它的一般驾驶算法的场景性能。)

“跟人学”,这是特斯拉自动驾驶的设计哲学。这也是它的 AI 具有一定程度的透明性、可解释性以及模块化 practice 的指路灯。从工程上看这是最好实施的方案之一。但理性来想,其实很难证明这是最佳的自动驾驶途径。红绿灯识别这类子任务,定义起来很有道理,也很清晰,它直接与驾驶操作有关。其他的一些子任务就难说了,譬如识别垃圾桶。垃圾桶与其他障碍物,在驾驶操作的决策中到底有没有特别的意义,不大能说清楚。本着“跟人学”的指导思想,他们自底而上去定义任务,哪个任务似乎常引起驾驶者的注意,就先定义了,先假设它对驾驶决策有区别性影响。对每个定义的任务,首先收集和标注训练集,做一个模型出来。这样每个模型/模块,就可以独立训练独立测试,开发起来很有章法。至于一下子整了这么多同时在开发、因素杂乱(heterogeneous)、训练集大小不一、拟合程度不一的模型,如何把它们整合到大系统去协调总体驾驶决策,这其实依然是个很大的挑战。他们自己也承认这是一个很大的问题。目前还有相当程度的瞎撞的成分。这就是为什么不少特斯拉车主发现有些功能,新版突然不如旧版了。有时候,过了几个版本又回来了。但也有一些能力曾经在某个版本表现很好,后来再训练新版本后就一直回不到以前的最佳状态。

总之是,模块化、透明化、跟人学智能而不是跟最高理性加最好配置学智能决策,这一套设计哲学对于工程化落地部署有好处,也接地气,但是在 regressions 的掌控上,仍然有很大欠缺。

说了这么多,最后还是沦为马斯克的小白鼠。你都想象不出特斯拉车主的宽容博爱精神多么宏大:对于特斯拉任何一点不起眼的进步,他们从来不吝赞誉;对于马斯克如超人般尊崇;对于失误(包括车祸死人这种人命关天的大事),他们总是冲上去卫护特斯拉,常常指责同是车主的 victims 的不专心或违规操作;对于免费标注、免费做广告、每个季度末忙碌的时候免费义务去 Fremont 帮助交付特斯拉新车,等等,热心无比。这种现象超过了当年的乔布斯粉丝。以至于网上传言,特斯拉车主都是一帮爱好技术的单纯的人。以前孩子迷路了,家长教育孩子,除了找警察叔叔,就去找带着孩子的阿姨。现在的教育据说是,迷路了就去找特斯拉车主,他们都是好人。

盼星星盼月亮,可惜前阵子 beta,只给 early access 的小团伙试用,咱想当小白鼠,无门可入。终于昨天夜里得到了空中更新(OTA:over-the-air),今天有点迫不及待了。

有道是:”… just tell me what you want” (歌词)

 

【相关】

购买特斯拉,请用我的推荐,你我均可得到免费超级充电的奖励:https://www.tesla.com/referral/wei29218 

精彩绝伦的旧金山市区自动驾驶演示:

 

世界语论文钩沉:世界语的语言学特点(1/3)

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。20多页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

毕竟过去20多年了,回头看当年的文章,觉得的确有一些新意,但欠平实,也失之细琐,。感觉上是一个语言学学生“学习/探索/发现”一门新语言的过程实录。也的确是这么个背景。当年最震撼的一个“发现”是,世界语不过就 17 个词尾,居然会变出 112 个不同词形来。这大大出乎我的预料。当时手边的世界语文法书,只是讲解这些形态词尾的用法,我从来没看到有人指出到底能变出多少花样来。记得我跟我的语言学同学说,你猜猜一个词在世界语会有多少种变化?同学说,据她所知,世界语也不是形态特别丰富的语言,最多不过20-30种变化吧。后来就琢磨怎么回事?黏着(就是叠加)这种特点能有这么神奇的产生性吗?还真是如此。

17个形态不难记忆,112种形式怎么不把人整晕呢?靠的就是黏着的规则性。这些规则,文法书也没有写清楚,一切都是在例子中。但其实是可以总结出来的,到底有几种基本词尾形态,形态之间的粘着有什么限制?次序上,类型上,为什么?这些原来都是可以小葱拌豆腐讲清楚的。对形态词尾组合规律的穷尽式探索也是我所学的计算语言学的需要:所谓“削尾”算法就是要应对一个词的所有变形,这是自动形态分析的前提。没有它就查不到词典,没有词典信息加形态分析的信息,就无法做句子分析,也没办法往下走机器翻译规则系统。最后就把对于国际语的语言学研究,变成了一个机器翻译的应用课题。

有些东西是天生在这个语言中的,属于其语言学特点所决定的东西,但语言教科书上,包括柴门霍夫自己的实践都很少系统论述。譬如,复杂时态语态,通常的教学只教利用助动词 est- 的用法:estas studanta / estis studota / … 等等,其实系统学习背后的语言学特性,会发现,这个助动词完全可以不用:  studantas / studotis / … (其实,即便保留助动词加中心动词的复杂分析形式,当年助动词词根 EST- 完全可以不用,让 EST- 只做系动词而不必兼做助动词,让三个时态词尾直接独立做助动词用即可:as studanta / is studota / …)。。

 

Li, Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

李维,1991:国际语世界语的语言学特征

1.  世界语的黏着性

1.0  众所周知,世界语在很大程度上是一种典型的黏着语,它的语素(词尾、词缀和词根)具有相对固定而独立的含义,可以“黏着”(叠加)构词。下面我着重探究世界语词尾黏着的构词能力,尽管词缀黏着(所谓派生词构词法)与词根黏着(所谓复合词构词法)同样有趣,值得研究。

[说明] 本文中的术语“词尾”专指语法词尾,亦叫“形态”。

1.1  词尾黏着

一般而言,词尾用于表示语法信息:词类、格、数、时态、语态、语气等。

1.1.1  世界语中有多少个独立的形态语素?

其绝对数非常有限,只有17个,即:-o,-a,-e,-n,-j,-i,-u,-as,-is,-os,-us,-ant-,-int-, -ont-,-at-,-it-,-ot-。由于它们的黏着组合的特性,17个形态语素就足够完整,其表现力几乎可以与形态丰富的语言媲美。

1.1.2  根据17个基本形态,可以从一个词干按规则生成多少个单词形式呢?

理论上的答案是112:42个动词,28个名词,28个形容词和14个副词(请参阅附录I)。

1.1.3.  形态语素黏合成词尾的规则

1.1.3.1.  每个单词只有一个词类。实词总是以其形态标示其词类:名词、形容词、动词还是副词。但是,功能词(例如介词,原副词等)是由词典人为规定的词类,它们是可枚举的。因此,表达词类的形态语素之间不允许黏合,就是说,-o,-a,-e,-i /-u/-as/-is/-is/-os/-us 这些词尾相互独立,不可叠加,例如下列形式是非法的:

** -as-o / ** -e-i

【说明】 ** 表示不合法的语言形式(单词或短语),而 ?表示成问题的语言形式。

1.1.3.1.1.  词类不交叉是国际语很大的优势:世界语不存在词类同形现象,这无疑为无论是人还是机器的对词的功能解析提供了的极其有利的条件。而词是最小的句法单位和基础。世界语的高度规则性在此得到了最好的体现。

1.1.3.1.2.  另一方面,上述特点也带来了世界语利用词尾任意转换词类的自由,只要词类转换不违背逻辑(参见1.1.5.1)。这不正是世界语兼具高度规则性与高度灵活性的体现吗?例如:

La flor-OJ glor-AS. (那花儿绽放了:“花儿” 与 “绽放/开花” 是同一个词根 flor- 只是词类词尾不同)
Li kan-AS italan popolan kant-ON. (他唱意大利民歌:“唱” 与 “歌” 是同一个词根 kant-,只是词类词尾不同)
Mi estas ĝoj-A.  Mi ĝoj-AS. (他开心:“开心/高兴” 无论是动词谓语,还是做系动词后面的形容词标语,词根都是一样的 ĝoj- )
la propon-ITA propon-O (所提建议:“提议” 与 “建议” 同一个词根,只是词类词尾不同)

词类转变在古代汉语也有类似的自由度,叫做“词类活用”。但是,不幸的是,古汉语的词类转换没有以可见的形态表现出来,只能通过上下文句法、逻辑的分析来识别(“句读”)。请比较:

1)三“人”行,必有我师。(Tri hom-OJ iras, inter kiuj nepre estus mia instruisto.)
(因为没有词尾形态,逐词直译就是:tri hom? ir?, nepr? est? mi? instruist?).

其狼“人”立而嗥。(La lupo hom-E staras kaj hurlas.) 

(逐词直译:tiu? lup? hom? star? kaj hurl?).

2)其物“净”且清。(La aĵo pur-AS kaj klaras.) 
(逐词直译:tiu? aĵ? pur? kaj klar?).

“净”其身,食其肉,乃去。(Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. )
(逐词直译:pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?).

1.1.3.2  表示词类的形态都可以黏合到 7 个“中缀”型形态上(中缀形态永远不会出现在单词的结尾),其中6个是所谓“分词”形态,用来表示“时体”(进行体、完成体与未完成体)和语态(主动语态和被动语态)。这6种分词形态各自独立,不能相互黏着。第7个是“零形式”(即分词形态阙如,表示默认的“一般体”加主动语态的含义)。

1.1.3.3  动词的黏着规则

1.3.3.1  一个动词必须用以下词尾之一:-i / -u / -as / -is / -os / -us,它们之间不再存在黏着的可能性。这意味着,以 -i(不定式),-u(命令式) 或 -us (虚拟式)结尾的不再有时态的变化/含义,而 -as(现在时) / -is(过去时) / -os(未来时)不再有“时体” 的变化/含义。

1.1.3.3.2  世界语动词没有“数”与“格”的变化。因此,动词词尾不能与复数词尾 -j 和 宾格词尾 -n 黏着。因此,在世界语中,不存在以下两种形式的区别:

Mi skrib-as. / ** Ni skrib-j-as.  (au: ** Ni skrib-as-j.) 
(即不存在其他语言那种主谓在数上的“一致关系”要求。)

1.1.3.3.3  表示时态(现在,过去和将来)和语气(不定式、命令式和虚拟式)的 6 种动词词尾,加上表示时体和语态的7格分词形式,黏着在一起的结果为:6*7 = 42 个动词形式。

【问题探讨】不定式到底是语气(modo)还是独立的词类(speco)?

1.1.3.4  名词和形容词的黏着规则

1.1.3.4.1  名词和形容词有“数”(单数为零形式,-j 为复数形式)和“格”(主格为零形式,宾格形式为 -n)的形态变化。7个名词词尾 -o / -ant-o / -int-o / -ont-o / -at-o / it-o / ot-o,两个数变 (加 -j 或不加) 和两个格变(加 -n 或不加),最终形成 2*2*7 = 28 个名词形式(同理,有28个形容词形式)。

1.1.3.4.2  它们之间的顺序是:(词干)+ 分词 + 词类 + 数 + 格,其中词干 = 前缀+词根+后缀(前后缀可省)。例如:stud-ant-o-j-n。仅词根语素和词类语素必须有,其他语素可能根本不出现。上述语素之间的次序是很自然建立的,有语音方面的原因(尽管从形态上说,词尾语素之间的次序是纯粹任意的,因为次序本身不会改变其语法意义,这方面与词缀黏着的情形有所不同!参见1.2)。如前所述,即使词干以元音收尾,词类词尾的元音 o 或 a,后面跟半元音 j (复数)和鼻辅音 n(宾格)串起来发音和听音也还是很顺:

sci-aj-n / ** sci-j-an

1.1.3.5  副词的黏着规则

与名词和形容词的规则非常相似,只是副词不包括“数”这个语法范畴(在这种情况下,应注意,副词宾格与名词宾格用法不同)。因此,这些副词形态变体的总数为 2*7 = 14。

1.1.3.6  关于黏着的词尾规则为建立用于“削尾”和加尾的算法提供了很好的依据,这是机器解析和翻译世界语的第一个必要阶段。由于黏着语内部的高度规则性(包括一定程度的递归),研究此类令人满意的算法并不困难(请参阅附录2)。

1.1.4  世界语17个基本形态语素是否做到了在语义上的单纯,没有交叉?

1.1.4.1  可惜不是。这在【附录2】削尾算法中看得很明显(比较各个形态对应怎样的词法意义)。

1.1.4.2  语义不交叉的词尾只有5个:-o / -a / -e / -i / -n。应该说明的是,所谓的语义不交叉的词尾并不一定意味着只对应一个语义。语义不交叉词尾 -n 实际上有三个语义(即包括了三个单独的句法或逻辑功能,当然,三者并不共存):(i)宾语;(ii)方向(通常用于副词或介词后名词);(iii)状语(通常用于时间、距离等名词,功能等价于介词 je)。再如,在某些语言中,存在三个数,单数(1)、双数(2)和复数(大于2),但是世界语复数词尾 -j 的含义更大,包括2或大于2。

1.1.4.3  在世界语中,没有单纯的基本形态语素来表示”动词”、”谓语”的特征以及词法范畴”时态”、”语态”、”语气”和”时体“的具体所指。在分词的6个形式中,时体和语态是混杂在一起的。时态、语气与动词/谓语的特征也混合在一起。但是,这些不透明的的混合性词尾不会给人的理解带来困难。相反,它们显得足够自然和方便,特别是,那些混合在一起的词法特征都是紧密相关的。

【延伸讨论】 分词并不是独立的词类,它可以属于4个主要词类的任何一类。分词的真正含义是给一个词以逻辑动词的意味,类似于表示动作性意味的后缀(或“类词尾”)-ad- 。

1.1.4.4  有意思的是,即使在世界语不透明的混合形态中,也存在一定程度的“透明性”。在 -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot- 中,“a” 似乎表示“现在”或“进行”,“i” 表示“过去”或“完成”,“o” 是 “未来”或“未完成”,“s” 似乎指 “谓语”(但命令式谓词 -u 则是例外,”n“ 表示 “主动”。尽管从形态学上,这些“类词尾”不能被视为基本形态,但是,所反映的这种“透明性”客观上加强了使用者对形态的把握,而且,人们总是体验到这些混合式形态构成的平行之美。

【延伸讨论】作为句法范畴,时态与时体显然彼此不同,但在实际使用中,其边界其实是灰色的:

Verk-ONT-oj estas tiuj, kiuj verk-OS au verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ghojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ghojas.

Li jam vid-IS/vid-INT-AS la filmon.

实际上,这两个词法范畴均与客观世界的时间维度相关,是针对事件时间的不同角度的反映。这大概就是柴门霍夫作为语言践行者,对两个客观相似的概念(例如“过去”与“完成”)采用相同的元音(“i”)作为形态构成因素的考量吧。

1.1.4.5  然而,正因为世界语没有单纯的形态语素表示语态,语态信息是融合在6个分词形态里面,这就造成如下情形:一个被动形式对应了两个主动形式,如下所示:

-as / -antas  –>  -atas;    -as / estas -anta(j) –> estas -ata(j)
-is / -antis  –>  -atis;        -is / estis -anta(j) –> estis -ata(j)
-os / -antos  –>  -atos;    -os / estos -anta(j) –> estos -ata(j)

这个问题的本质是世界语实际上有四个时体:一般体(零形式),进行体,完成体和未完成体,同时存在两个语态:主动(零形式)和被动。而六个平行的分词形式只能蕴含三个时体和两个语态。这种状况使得以零形式表示的一般体没有其对应的被动形式,从而使它无奈之下不得不去共享或抢夺进行体被动态的分词形式 -at-。不能不承认,这是世界语形态系统的一个理论缺陷。其结果是,尽管 -at- 理论上是 -ant- 的被动对等物(进行体:-antas  –>  -atas),但实际上 -at- 通常是作为一般体的被动形式(一般体:-as  –>  -atas),越俎代庖了,因为一般体比进行体更为常用。因此,有人建议允许黏合形式 -ant-at- 或 -at-ant-,用作进行体和被动式的结合,或者将混合式分词形态独立开来,即:-ant-at- 代替 -at -,-int-at- 代替 -it -,-ont-at- 代替 -ot- ,以这种透明的黏合形式弥补形态体系的理论缺陷。这种符合黏合特性和组合逻辑的书斋提案,对于机器可能更加合理有效,但是对于我们人类来说,它们失之繁琐,反而成为不必要的学习负担。

1.1.4.6   【小结】理想的纯黏合语言是每个语素,至少每个词尾形态,应该具有单纯唯一的独立含义,正如柴门霍夫在《第一书》中声称的那样。任何复杂的意义组合都应该以语素的黏合手段加以表达。这也正是黏合语与其他的形态语言之间的根本区别。由此单词词形内的词法结构将变得彻底透明,完全可解析。最方便彻底贯彻这一黏合设计思想的语素正是词尾形态,而不是数量大得多的词缀语素和词根语素。然而,就这一点而言,世界语也没有表现出100%的黏合性。在我看来,这可以用语音手段的局限来解释:将所有词尾形态原子化肯定会导致每个单词的音节数大增,这样对于使用者的接受度来说太过复杂。 此外,世界语只有5个元音 a / i / e / o / u,这些元音也已经严重超载。世界语过去、现在和将来都是为人实际使用而设计的足够“自然的”人类语言(尽管其起点是人造),而不是机器语言。 (请参阅第4节。)

1.1.5  这 112 个单词形式都会用到吗?

1.1.5.1  在词法上,是的,所有这些形式都可能用到。实际中有一个限制:词干与这112种词尾的黏合,必须在逻辑上是可理解的,即语义上可以兼容。譬如,在我看来,那些表示具体物体的词根(例如“tabl-”)是应该没有分词形式的:

? tabl-ant-i / tabl-ot-a / tabl-ant-a / tabl-int-o

这种限制是使用者自然遵守的,毕竟人不大可能表达自己也无法理解的信息。

1.1.5.2  尽管从实用角度来看,这112种形式的使用频度彼此之间有很大差异,但是不能说哪种形式不可使用。这112种形式的有效性和可理解性是同样的。哪些形式更受青睐,更多出现是由多种因素决定的,包括:说话者的语言习惯和母语背景、风格、教育程度、语言能力、听众是谁以及希望产生何种效果,等等。

尽管如此,世界语的简约原则要求尽可能多地使用简单形式而不是复杂形式。例如:

“Mi NUN stud-AS (au: Mi ESTAS stud-ANTA)” 代替 “Mi stud-ANT-AS”.
“Ili JAM ir_IS (au: Ili ESTAS ir-INTAJ)” 代替 “Ili ir-INT-AS”.
“veredir-E” 代替 “veredir-ANT-E”

因此,人们宁愿使用 “la parol-O far_E de Zamenhof(柴门霍夫做的演说)”,而不是“ la parol-ADO far-ITA de Zamenhof”,或将短语 FARE DE 简化为新的介词 FAR(la parolo FAR Zamenhof)。

因为人类思想本身就存在必要的模糊性,此外,上下文和功能词(包括唯一有形态变化的助动词 EST-)通常也对解析有所助益(如上面示例所示,另请参阅 3.2.1),所以,世界语的节约原则并不难遵守。

1.1.5.3  【小结】仅仅17个基本形态最终形成112个有效的词尾形式!每个词都可以有112种变化,这真可算是黏合造词的奇迹。更重要的是,无论是表达还是理解,如此众多的词形却不会给人带来负担。这不是世界语黏合规律的最好证明吗?实际上,黏合的本质不外乎是选择性排列(由造词结果角度观之)和拟递归(由过程角度观之,请参阅【附录2】)。更抽象地讲,是一定的数学特性引入世界语了。世界语词汇是规则性和灵活性高度统一的典型案例,在世界语中这是同一现象的相互依存的两面。

1.2  词缀的黏合

词缀主要用于表达单词的细微差别。其黏合通常遵守自然逻辑或语义的兼容性,都是全人类共同的准则。因此,没有(也没有必要)特别规定词缀黏合的规则,使用者自然会让黏合易于理解。有一个世界语结构关系的就近原则在这里起作用,该原则要求两个相互关联的元素尽可能地接近,以便于清晰理解。比较 PLIMALBONIGI 与 MALPLIBONIGI 之间的细微差别:

bon-a –> mal-bona –> malbon-ig-i –> pli-malbonigi
bon-a –> bon-ig-i –> pli-bonigi –> mal-plibonigi (aŭ: bon-a –> malpli-bon-a –> malplibon-ig-i)


1.2.1  词缀的抽象度有所不同。 最抽象也是最常用的词缀有 -et- (“小”,程度轻微)、-eg-(“大”,程度严重)、mal-(反义词)、ne-(否定词),可以用于任何词根/词干和任何词类(原则上,每个词根具有一个逻辑词类,就像每个单词都有一个语法词类一样),而其他词缀,如 -ul-(“者”)、-ing-(“值得”)、 el- (“出”)、 kun-(“一起”)则非常具体。

1.2.2  与多后缀黏着相比,前缀黏合或多或少受限,并且语音上不允许在前缀之间或前缀与词根之间连音(例如,MALAPERI 和 MALANTAUPORDO:

mal-a-pe-ri / ** ma-la-pe-ri;
mal-an-tau-por-do / ** ma-lan-tau-por-do


1.2.3  后缀的黏合非常灵活自由:

rid-i –> rid-et-i –> ridet-em-a –> ridetem-et-a–> ridetemet-ul-o –>  ridetemetul-in-o –> ridetemetulin-et-o –> ridetemetulinet-aĉ-o –> ridetemetulinetaĉ-et-o …
= la ete aĉa eta knabino, kiu ete emas rideti

上面这个由一个词根一个词尾中间黏着了8个后缀的派生词词义组合透明、易于理解,意思是:有点儿爱微笑的有点恶作剧的小女孩。后缀有:-et-(程度轻微)、-em-(倾向于)、-ul-(“者”)、-in-(女性)、aĉ(恶作剧)。

有意思的是,语缀(如 -et-)可以在一个单词中多次出现,这与形态语素完全不同。从理论上讲,后缀的数量在黏合过程中是不受限制的。当然,一个单词太多音节,发音器官可能有困难,人们通常不会使用过于繁复的多后缀黏合的词法综合形式。一般取而代之的是,使用句法词组的分析形式来表达复杂的概念组合。

另外,世界语中有两个特别的后缀 -ĉj-/-nj-,它们会更改与之黏合的前面的发音:patro(父亲) / patrino(母亲) –> pa-ĉj-o(爸爸)/ pa-nj-o(妈咪)。

1.3  词根的黏合

词根黏合用来表达复杂概念,其黏合规则非常简单也很自然:中心词始终居后。词根复合的黏合,与中文(以及德语)合成词的构成,具有类似的自由性。示例:

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

 

 

 

 

【补记】还有些语言学特点文中没讲透,譬如实词的三大类别,可以在这里做个补述。词缀的创造中,词类本体化也很有意思:对应于动词概念的 -ad- (类似于英语的 -tion/-ing),对应于具体名词概念的 -ajh-(类似于中文的“东西”或类后缀“-品”),对应于形容词概念的 -ec- (类似于英语的 “-ness”)。这样一来,实际上世界语等于有了两套实词的大类:本体概念上的名词(-ajh-)、动词(-ad-)、形容词(-ec-),和句法上的名词(-o)、动词(-i/-u/-as/-is/-os/-us)、形容词(-a)。

其实三大类别不止于此。所有的实词词根,从概念上都隐含着三大类别之一:表示事物的名词性概念(譬如 hom-,kat-,tabl-),表示行为的动词性概念(如 traduk-,ir-,ven-),表示性状的形容词概念(bel-,ver-)。这样一来,世界语的实词有三套平行的大类,一个内核,一层内衣(可省),一层外衣。这三层大类交错黏合成词,使得世界语词汇的表达空间游刃有余。

为什么 tradukado 可以省略为 traduko?因为 traduk- 本来就是动词,-o 已经起到了名物化的效果了,就不必劳动 -ad- 这个后缀了。但这也不妨碍可以用它,来更加强调动作的过程性。同理,为什么可以用 belo 代替 beleco?因为 bel- 本来内核就是形容词,用 -o 的名物化自然表达了“性状”,就不必劳动后缀 -ec- 了。但这也不妨碍用它来加强对于“性状”的强调。可见,表达手段的丰富增加了词汇细微差别(nuance)的微妙,使得国际语比自然语言更加具有柔性和张力。

语言比较很有意思,特别是从语言学角度。譬如中文。前面说过,中文是“裸奔”的语言,语言学中叫“孤立语”。怎么讲?三层大类在中文,只剩下内核,既没有外衣(形态),也基本没有后缀(内衣)。一个概念既不穿内衣,也不穿外衣,就这样赤身裸体出来,与其他词组语成句。需要变类怎么办?靠上下文。古代汉语表现最突出,叫“词类活用”。所谓活用,就是不穿衣服,但是等于是穿了衣服。

“老吾老以及人之老。”

“老” 内核是形容词,到了所有格代词“吾”和助词“之”后成了名词,表示 “老人”。名词短语(“吾老”)前的“老”,则成了及物动词。所有这一切的词类转变,全部没有“穿衣服”明示。古汉语具有世界语类似的词类转变的灵活性,但因为不穿衣服,比世界语难太多了。现代汉语降低了灵活性,使用大得多的词汇量来弥补灵活性的不足,自然也比世界语难得多。

 

 

 

 

【相关】

世界语论文钩沉:世界语的语言学特点(2/3)

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

【立委按】很久很久以前,我发表过一篇世界语语言学特点的论文,后应邀扩展为一个 chapter,这段经历我在博客有记录。记得只看到样本,密密麻麻都是老先生对我论文的校对,但未等到付印我就出国了。后来流浪世界,一直没有顾上追踪这篇论文的下落,直到博士毕业来美国加入创业公司。我在公司做了主管以后,想到在世界语圈子的 Paul,他当时是加拿大世界语协会主席,也是我的兄弟学校的语言学博士候选人。Paul 苦读多年终于要毕业了,我就把他招来做了我的手下。有一天我提到这篇论文的事儿,他主动说我可以到图书馆查询,看到底发表了没有。后来他果然找到了,复印给我当年我呕心沥血写就的长篇论文。这篇论文的底稿早就不存了,只剩下这篇复印件,我一直想把这篇论文重新数字化,但还没找到合适的世界语文字识别软件,可是要是一字字地敲进去又没有这个耐心。在这喧嚣的世界里,我们越来越浮躁,很难静下心来。现在加入了这个群组,左右都是同仁和老师,感觉给了我动力。近20页密密麻麻,我就一点一点植字,也算是重温旧梦吧。

Li,Ŭej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. 

In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna

1. Aglutineco de Esperanto

1.0.  Kiel sciate al ĉiuj, Esperanto estas grandparte tipa aglutina lingvo, kies morfemoj (finaĵoj, afiksoj kaj radikoj) havas siajn apartajn signifojn kaj povas aglutini unu sur alia por vortofarado.  Ni intencas portempe esplori sube ĉefe pri la aglutineco pri la finaĵoj, kvankam estas same studindaj la trajtoj por la aglutineco pri afiksoj (lige kun derivaĵfarado) kaj pri radikoj (lige kun kunmetaĵofarado).

[Klarigo] La termino finaĵo en tiu ĉi arktikolo specifikas je gramatika finaĵo.

1.1. Aglutineco pri Finaĵoj

Principe vortofinaĵoj estas nur uzataj por montri gramatikajn informojn: vortospecon, kazon, nombron, tenson, voĉon, modon kaj aliajn.

1.1.1.  Kiom da sendependaj finaĵmorfemoj estas en Esperanto?

La absoluta nombro multe limigitas, nur 17: -o, -a, -e, -n, -j, -i, -u, -as, -is, -os, -us, -ant-, -int-, -ont-, -at-, -it-, -ot-.  Tamen, estas admirinde, ke ili sufiĉe kompletas kaj proksimume esprimriĉas kiel en fleksiegaj lingvoj, dank’ al sia aglutineco. 

1.1.2.  Baze de la 17 fundamentaj finaĵoj, po kiom da vortoj oni povas produkti el unu vortokorpo laŭregule?

La teoria respondo estas 112: 42 verboj, 28 substantivoj, 28 adjektivoj kaj 14 adverboj (Vd. APENDICON I).

1.1.3.  Kiuj estas la reguloj, laŭ kiuj la finaĵoj sinaglutinas?

1.1.3.1.   Ĉiu vorto havas nur unu vortospecon, nociaj vortoj ĉiam per siaj finaĵoj sinaspektas je siaj specoj ĉu kiel substantivo, aŭ adjectivo aŭ verbo aŭ adverbo; funkciaj vortoj, kiel prepozicio, originala adverbo, kaj aliaj, tamen, gajnas siajn specojn artefarite, kaj ili estas nombreblaj.  Tial, ne estas permesite, ke interaglutiniĝu la finaĵoj indikantaj specojn, -o, -a, -e, -i/-u/-as/-is/-os/-us, t. e. ne ekzistas la formoj kielsube:

** -as-o / ** -e-i

[KLARIGO] ** estas indiko por negramtikaĵo (ne-vorto aŭ ne-frazo) dum ?? por gramtikeproblemaĵo.

1.1.3.1.1.  Tio estas granda avantaĝo por la internacia lingvo, ke en Esperanto ne povas esti gramatikaj samformoj, kio sendube estas eksterordinare favora kondiĉo por rekoni (far ĉu homoj ĉu maŝinoj) la funkcion en frazo de la minimuma sintaksa unuo vorto.  La alta reguleco tipe enkorpiĝas ĉi tie, ĉu ne?

1.1.3.1.2.  Sekve kaj aliflanke, Esperanto sin karakterizas per laŭplaĉa transformado de vortospecoj, se nur la transformaĵo ne kontraŭas al logiko (kp. 1.1.5.1).  Ĉu tio ne estas okulfrapa sinmanifesto de alta fleksebleco de Esperanto? Ekzemble:

La flor-OJ flor-AS.
Li kan-AS italan popolan kant-ON.
Mi estas ĝoj-A.  Mi ĝoj-AS.
la propon-ITA propon-O

La sama laŭplaĉeco je specotransformo sintrovas ankaŭ en la antikva ĉina lingvo.  Tamen, treege bedaŭrinde, la transformo sin montras per neniaj videblaj morfologiaj formoj, kaj tio povrekoniĝas nur laŭ kunteksta sintaksa aŭ/kaj logika analizo.  Komparu:

1) 三人行,必有我师。(ĉine) Tri hom-OJ iras, (inter kiuj) nepre estus mia instruisto.
(vorto-al-vorte: tri hom? ir?, nepr? est? mi? instruist?).

其狼人立而嗥。(ĉine) La lupo hom-E staras kaj hurlas (t.e. kvazaŭ homo starus). 
(vorto-al-vorte: tiu? lup? hom? star? kaj hurl?).

2) 其物净且清。(ĉine) la aĵo pur-AS kaj klaras. 
(vorto-al-vorte: tiu? aĵ? pur? kaj klar?)

净其身,食其肉,乃去。(ĉine) Pur-IG-IS la korpon, manĝis la viandon, kaj eliris. 
(vorto-alvorte: pur? tiu? korp?, manĝ? tiu? viand?, kaj elir?)

1.1.3.2.  Ĉiuj specofinaĵoj bone sinaglutinas sur la 7 “interfinaĵoj” (kiuj neniam aperas je la fino de vortoj), t.e. la 6 participaj formoj indikantaj aspektojn (kontinuan, perfektan kaj malperfektan) kaj voĉojn (aktivan kaj pasivan), kaj 1 nulformo, kiu fakte indikas ĝeneralan aspekton (aŭ nulaspekton) kaj aktivan voĉon. Tamen, la participaj por si mem ne povas interaglutini unu sur la alia. 

1.1.3.3.  Aglutinaj Reguloj por Verbo

1.1.3.3.1.  Verbo finas nepre je unu el la subaj finaĵoj: -i/-u/-as/-is/-os/-us, kiuj tial certe aperas je vortofinoj kaj inter kiuj ne plu estas la eblo por aglutinado, t.e. la formoj kun -i, -u aŭ -us kiel finaĵo ne plu sinvarias je tenso-signifo, kaj -as/-is/-os nur povas enhavi la signifon de ĝenerala modo (aŭ nulmodo). 

1.1.3.3.2.  Esperantaj verboj ne sinvarias pro nombro aŭ kazo, verbofinaĵoj do ne aglutineblas al la finaĵoj -j kaj -n.  Tial en Esperanto ne ekzistas la kontrasto inter la subaj 2 formoj:

Mi skrib-as. / ** Ni skrib-j-as.  (aŭ: ** Ni skrib-as-j.) 

1.1.3.3.3.  La 6 verboformoj indikantaj tensojn (prezencan, preteritan kaj futuran) kaj modojn (infinitivan, kondicionalan kaj volitivan) kaj la 7 interfinaĵoj por aspektoj kaj voĉoj interaglutinas kun la rezulto de 6*7=42 verboformoj.

[PROBLEMO] Ĉu infinitivo vere estas ia modo aŭ ia sendependa vortospeco?

1.1.3.4.  Aglutinaj Reguloj por Substantivo kaj Adjektivo

1.1.3.4.1.  Substantivoj kaj adjektivoj fleksias je nombro (singularo per nulformo kaj pluralo per -j) kaj kazo (nominativo per nulformo kaj akuzativo per -n).  La 2 nombroj kaj 2 kazoj aglutinantaj sur la 7 interfinaĵoj fariĝas fine 2*2*7=28 formoj.  

1.1.3.4.2.  Jen la ordo inter ili:  (korpo)-interfinaĵo + speco + nombro + kazo, interkie korpo = prefikso(j) + radiko(j) + sufikso(j).  Ekzemple: stud-ant-o-j-n.  Nur radiko kaj speco nepre kunaperas, la aliaj morfemoj povas tute ne aperi.  La supra interordo establiĝas tre nature, kun fonetika kialo (kvankam morfologie la finaĵ-ordo estas pure arbitra, ĉar la ordo mem ne variigas iliajn grametikajn signifojn, kio tiurilate diferencas de la stato pri afiksoaglutinado!  Kp. 1.2.  Ordite kiel supre, la vokalo oa, la duonvokalo j kaj la nazala konsonanto n prononciĝus kaj aŭskultiĝus plej facile, eĉ en la okazo, ke la korpo hazardus kun vokalo je fino: 

sci-aj-n / ** sci-j-an

1.1.3.5.  Aglutinaj Reguloj por Adverbo

Ili multe similas al tiuj por substantivo kaj adjektivo, nur adverbo ne inkluzivas en si la gramatikan kategorion de nombro (por kazo, menciindas, ke la adverba akuzativo signife ne malgrande foras de la substantiva).  La formoj do rezultiĝas entute je 2*7=14.

1.1.3.6.  La aglutinaj reguloj pri finaĵoj bone fundamencas al la establado de la algoritmoj por fortranĉi finaĵojn kaj por ilin adicii, kiu estas la unua necesa etapo por maŝine kompreni kaj traduki Esperanton.  Dank’ al la alta reguleco, inkluzive de iugrada rekursiveco, interna en la aglutinareguloj, estas ne malfacile elesplori tiajn algoritmojn kontentigajn (Vd. APENDICON 2).

1.1.4.  Ĉu la 17 fundamentaj finaĵoj ĉiuj semantike senmiksas?

1.1.4.1.  Bedaŭrinde, ne.  Tio klare evidentas en la algoritmo de APENDICO 2.

1.1.4.2.  Jen la senmiksaj finaĵoj: -o/-a/-e/-i/-n.  Estas klarigende, ke la tiel nomata semantike senmiksa finaĵo tute ne necese signifas, ke ĝi devu signife specifiki nure.  La Esperanta senmiksa finaĵo -n signife inkluzivas fakte de tri apartaj funkcioj sintaksaj aŭ logikaj (neniam kunekzistaj, kompreneble): objekto, direkto (kutime lige kun adverbo aŭ postprepozicia substantivo) kaj adjekto (ofte kun la substantivoj de tempo, distanco aŭ similaj).  Plurekzemple, en iuj lingvoj estas tri nombroj, singularo (1), duumo (2) kaj pluralo (pli ol 2), tamen la Esperanta pluralofinaĵo -j plivaste signifas, inkluzive de kaj 2 kaj pli ol 2.  

1.1.4.3.  En Esperanto ne estas elementaj finaĵoj por respekte indiki verbon, predikaton kaj la signifojn de tenso, voĉo, modo kaj aspekto.  La signifoj de aspekto kaj voĉo miksiĝas en la koncepto de participo.  Kaj tenso, modo ankaŭ sinmiksas kun verbo aŭ/kaj predikato.  Tiuj netravideblaj miksaĵoj, tamen, ne kaŭzas malfacilon por homa rekonado; anstataŭe, ili aspektas sufiĉe nature kaj favore, ĉefe ĉar la signifoj miksitaj kune estas tiuj, kiuj proksime interrilatas.  

[PLUVORTOJ]  Participo ne estas sendependa vortospeco, kiu povas aparteni al ajna el la 4 ĉefaj specoj kaj kies vera senco nur efikas je tio, ke ĝi, kiel la sufikso aŭ kvazaŭ interfinaĵo -ad-, donus al vorto la logike verban signifon.  

1.1.4.4.  Estas sufiĉe interese ke ankaŭ estas iugrada “travidebleco” eĉ en Esperantaj netravideblendaj miksaj finaĵoj.  El la formoj -as/-is/-os/-ant-/-int-/-ont-/-at-/-it-/-ot-, verŝajnas al ni, ke -a- signifus “presencon” aŭ “kontinuon”, -i- “preteriton” aŭ “perfekton”, -o- “futuron” aŭ “malperfekton”, -s “predikaton” (escepte nur de la volitiva predikato -u), kaj -n- “aktivon”, ktp.  Kvankam morfologie tiuj kvazaŭfinaĵoj ne povas sinsendependi kiel elementaj finaĵoj, tamen, tia “travidebleco” objetive multe helpas nin por memorado, kaj plue, oni ĉiam sentas la belecon je la paraleleco en la miksformoj  konsistantaj el ili.  

[PLUVORTOJ]  Kiel sintaksaj kategorioj, tenso kaj aspekto ja evidente diferencas unu de la alia, sed je praktika uzado ege malklariĝas la interlimo:

Verk-ONT-oj estas tiuj, kiuj verk-OS aŭ verk-ONT-AS.
Stud-ANT-oj estas tiuj, kiuj stud-AS (ne nepre stud-ANT-AS!).
Hav-ANT-e multon da mono, mi ĝojas.
= Ĉar mi hav-AS (neniel necese hav-ANT-AS) multon da mon, mi ĝojas.
Li jam vid-IS/vid-INT-AS la filmon.

Fakte, la 2 konceptoj ambaŭ rilatas al TEMPO en la objektiva mondo.  Tio eble ĝuste estas la kialo, pro kio Zamenhof, kiel lingva majstro, maldogmiste elektis la samvokalojn por la 2 objektive similaj konceptoj.  

1.1.4.5.  Tamen, guste ĉar en Esperanto ne estas elementaj finaĵoj por voĉoj, kies informoj sin montras nur en la 6 participoj, do formas la situacio, ke 1 pasivformo kontrastas al 2 aktivformoj kielsube:

-as / -antas  –>  -atas;    -as / estas -anta(j) –> estas -ata(j)
-is / -antis  –>  -atis;        -is / estis -anta(j) –> estis -ata(j)
-os / -antos  –>  -atos;    -os / estos -anta(j) –> estos -ata(j)

La esenco de ĝi estas, ke en Esperanto estas efektive 4 aspektoj: ĝeneralo (per nulformo), kontinuo, perfekto kaj malperfekto, kaj ekzistas 2 voĉoj: aktivo (per nulformo) kaj pasivo.  La 6 paralelaj participoj konsistas el nur 3 aspektoj kaj 2 voĉoj, dum la nulforma ĝenerala aspekto ne havas sian respondan pasivformon, rezultante, ke ĝi senrimede kunĝuas la kontinuan pasivaĵon!  Ni ne povas ne konfesi, ke kvankam -at- estas teorie formala kontrastaĵo al -ant-, tamen oni efektive emas rigardi -at- kiel la pasivan formon por ĝenerala aspektom, kiu pli often uziĝas ol la kontinua.  Tial, iuj proponas, ke oni uzu la aglutinan formon -ant-at--at-ant- kiel la kunaĵon de kontinuo kaj pasivo, aŭ plue, tute sendependigu la 2 katekoriojn, sekve estus: -int-at- anstataŭ -it-, -ont-at- anstataŭ -ot-, ktp.  Tiaj travideblaj formoj eble ja efikas por maŝinoj, sed por ni homoj ili estas troaj kaj nenecesaj ŝarĝoj.  

1.1.4.6.  [Sumeto]  Ideala pure aglutina lingvo estas tia, ke ĉiu morfemo, almenaŭ ĉiu finaĵo, devas havi elementan aŭ simplan signifon, tiel, kompleksa signifo estas esprimata en la formo de morfemaglutinaĵo.  Tio ja estas la fundamenta diferenco inter aglutina lingvo kaj alia fleksitipa lingvo, kaj nur pro tio la vortoj fariĝus travideblaj, tute analizeblaj.  Kompreneble, finaĵoj estas tiuj morfemoj, kiujn oni plej facile aglutinigas tutpure.  Tamen, eĉ tiurilate, Esperanto ne sinmontras je 100% senmiksa aglutineco, kio povas, laŭ mi, klarigata fonetike: signife simpligi ĉiujn finaĵojn en elementojn certe kaŭzas la plimultigon de silaboj por vorto, kaj la aglutinaĵo sekve tro kompleksas por homa akcepteblo.  Plue, en Esperanto estas nur 5 vokaloj a/i/e/o/u, kiuj ĉiuj estas sufiĉe ŝarĝitaj jam!  Esperanto estis, estas kaj estos HOMA PRAKTIKUZA kaj sufiĉe NATURA lingvo (kvankam origine artefarita) anstataŭ maŝinlingvo.  (Vd. Sekcion 4.)    

1.1.5.  Ĉu la 112 formoj ĉiuj estas uzataj?

1.1.5.1.  Gramatike, jes. Praktike, estas nur unu limigo:  la ligaĵo de korpo kaj finaĵo devas esti logike komprenebla, t.e. semantike ligebla.  Ŝajnas al mi, ke tiuj konkretaj aĵo-radikoj kiel “tabl-” ne povas fariĝi en participformojn:  

?? tabl-ant-i  / tabl-ot-a / tabl-ant-a / tabl-int-o

Tiun limigon laŭas nature la uzantoj, kiuj verŝajne ne eblas esprimi iun informon eĉ ne kompreneblan al si mem!  

1.1.5.2.  Kvankam pragmatike la uzofteco por la 112 formoj multe varias unu de alia, tamen oni neniel povas diri, ke kiuj formoj estas neuzeblaj.  La efikeco kaj la komprenebleco de la ĉiuj 112 formoj estas same certaj.  La problemo, kiuj el ili estas prefere elektitaj por esprimado, decidiĝas de variaj faktoroj:  la lingva kutimo kaj origino de la parolanto, la stilo, la situacio, kiaj aŭskultantoj ĉeestas kaj kia efiko estas intencita, la poveco de la uzanto, ktp.  

Tamen, Esperanta Ŝpara Principo bezonas, ke oni plej ofte eble uzu malmultajn simplajn formojn.  Ekzemple: 

“Mi NUN stud-AS (aŭ: Mi ESTAS stud-ANTA)” anstataŭ “Mi stud-ANT-AS”.
“Ili JAM ir_IS (aŭ: Ili ESTAS ir-INTAJ)” anstataŭ “Ili ir-INT-AS”.
“veredir-E” anstataŭ “veredir-ANT-E” (kp. angle: truly speak-ING).

 Do, oni prefere uzas “la parol-O far_E de Zamenhof” anstataŭ “la parol-ADO far-ITA de Zamenhof”, aŭ plue plisimpligus la vortogrupan prepozicion FARE DE en la novan prepozicion FAR: la parolo FAR Zamenhof (kp. “la parolo de Zamenhof”, formon pli abstraktan).  

Ĉar en la homa pensado mem iugrade ekzistas necesinda nebuleco, kaj samtempe, ofte helpas ankaŭ la kunteksto kaj funkciaj vortoj inkluzive de la nura fleksia efektive funkcieca vorto EST- (helpe de ĝi, oni bone sinesprimas per analizaj formoj ĝenerale pli klaraj ol la sintezaj kompleksaj formoj, kiel jam montrite en la supraj ekzemploj.  Vd. ankaŭ 3.2.1), Ŝpara Principo de Esperanto ne malfacile laŭiĝas.  

1.1.5.3.  [SUMETO]  Nur 17 fundamentaj finaĵoj povas interaglutiniĝi fine en 112 efikaj finaĵoformojn!  Ĝi estas miraklo por vortofarado dank’ al aglutineco.  Kaj, plue, tiel multaj formoj neniel fariĝas ŝarĝo sur homoj ĉu por esprimo aŭ por kompreno.  ĉu tio ne estas la plej bona pruvo por la Esperanta aglutina reguleco?  La esenco de aglutineco estas faket ne plu ol elekta permutado (el la anglo de rezulto) kaj kvazaŭrekursiveco (el la angulo de procezo, Vd. APENDICON 2), aŭ pli abstrakte, ia matematikeco, kiu plej multe eble enkondukiĝis en nian lingvon.  Ĝuste pro tio, Esperanta vortofarado estas tipa ekzemplo de la alta unuiĝo de reguleco kaj fleksebleco, kiuj estas en Esperanto interdependaj flankoj de la sama fenomeno.  

1.2.  Aglutineco pri Afisoj

Afiksoj ĉefe poras esprimi vortonuancojn.  La aglutino ofte limigatas de natura logiko aŭ semantika kunligebleco, kiu estas grandparte komuna al la tuta homaro, tial ne ekzistas, kaj ankaŭ necesas, perfortaj reguloj por la afiksordo, la uzantoj en komunikado nature interkompreniĝas tiurilate.  Funkcias ĉi tie la Esperanta Interproksima Principo, kiu bezonas la interrilatajn 2 elementojn kiel eble plej proksimaj por facila kaj klara komprenado.  Komparu la nuancon inter PLIMALBONIGI kaj MALPLIBONIGI:

bon-a –> mal-bona –> malbon-ig-i –> pli-malbonigi
bon-a –> bon-ig-i –> pli-bonigi –> mal-plibonigi (aŭ: bon-a –> malpli-bon-a –> malplibon-ig-i)

1.2.1.  Estas diferenco je abstrakteco de afiksoj.  La plej abstraktaj kaj ankaŭ plej ofte uzataj afiksoj kiel -et-/ -eg-/-aĉ-/mal-/ne- ĉie uzeblas kun kiu ajn radiko, kies logika speco (principe, ĉiu radiko kutime havas unu logikan specon, ĝuste kiel ĉiu vorto havas unu gramatikaspecon) estas ne antaŭkondiĉita, dum aliaj kiel -ul-/-ing-/el-/kun- multe konkretas.

1.2.2.  La povecon je prefiksa aglutino estas pli-malpli limigita, kompare kun tiu je la sufiksa, kaj fonetike ne kiele permesitas la kunprononco de la silaboj inter prefisoj aŭ inter prefiso kaj radiko (kielekzemple MALAPERI kaj MALANTAŬPORDO: mal-a-pe-ri / ** ma-la-pe-ri;  mal-an-taŭ-por-do / ** ma-lan-taŭ-por-do).  

1.2.3.  Multe pli flekseblas la aglutinado pri sufiksoj:

rid-i 
rid-et-i
ridet-em-a
ridetem-et-a
ridetemet-ul-o
ridetemetul-in-o
ridetemetulin-et-o
ridetemetulinet-aĉ-o
ridetemetulinetaĉ-et-o …
(= la ete aĉa eta knabino, kiu ete emas rideti)

Ni trovu, ke la samafikso povas aperi plurfojoin en unu vorto nur laŭ la sence celita, tio estas tute malsama de finaĵo.  Teorie, la nombro de sufiksoj dum aglutinado semlimas, kvankam oni prefere uzas analizan formon anstataŭ tro kompleksan plursufiksan aglutinaĵon, limigite de la povo de homaj organoj.  

[PLUVORTOJ]  Estas en Esperanto 2 malaglutinecaj sufiksoj -ĉj-/-nj-, kiuj ŝanĝas la antaŭajn silabojn:  patro / patrino –> pa-ĉj-o / pa-nj-o.

1.3.  Aglutineco pri Radikoj

Radikaglutineco uziĝas por manifesti malsimplan koncepton, kaj la aglutina regulo tre simplas kaj naturas: aksa elemento ĉiam sekvu.  La laŭplaĉeco por kunmetaĵfarado kaj la aglutina regulo tre similas al la vortofarado en la ĉina lingvo (kaj ankaŭ la germana).  Ekzemplojn:

(Esperante : ĉine)

(1)  akvo-fonto:  水/源
(2)  varm-energio:  热/能
(3)  arbo-branĉo:  树/枝
(4)  surd-mut-ulo:  聋/哑/人
(5)  blank-hara:  白/发
(6)  nur-pieda:  光/脚
(7)  bon-kora:  好/心
(8)  fonto-lingvo:  源/语
(9)  celo-lingvo:  目标/语
(10)  naci-lingvo:  民族/语
(11)  internaci-lingvo:  国际/语

2. Fleksebleco De Esperanto

2.1  En Esperanto malklariĝas la limoj …

2.1.1  Inter transitivo kaj netransitivo

Mi IRAS.
/ IRU vian propran voj-ON.

La tuta homaro PAROLOS nur unu lingv-ON.
/ Mi PAROLAS Esperant-E (en Esperanto / per Esperanto).

2.1.2  Inter objektoj rekta kaj nerekta :

informi ION al IU / informi IUN pri IO

2.1.3  Inter objekto kaj adjekto

Mi invitas vin vojaĝi kun mi PEKINON.

2.1.4  Inter radiko kaj afikso (eĉ finaĵo), sekve inter derivaĵo kaj kunmetaĵo, kiel ekzemple:

Kion vi UM-as nun? (angle: What the devil are you doing?)
sekret-ET-o / ET-a sekreto 
ANTAŬ-vidi / Sinjorinoj ANTAŬ-u
kred-IND-a / ne-IND-a / IND-igi / sen-IND-ulo
AĈ-ulo / FI-ulo
Mi neniam ŝatas lin, nek IS nek OS.

2.1.5. Inter sufikso kaj finaĵo

am-AT-o / am-AT-IN-o
kaj parol-e kaj skrib-e / kaj je parol-AD-o kaj je skrib-AD-o
(kp. angle:  both in speak-ING and in writ-ING)
instru-ANTO / instru-ISTO / instru-EMULO // ?? instru-ANO
(Ĉiu el tiuj vortoj estas tiu, kiu rilatas kun la ago instruado.)

2.1.6  Inter nocia vorto-radiko kaj funkcia vorto, t.e. funkciaj vortoj ankaŭ povas sekvati de finaĵoj eĉ afiksoj ĝuste kiel radikoj, se necese:

JES, mi JES-as vian opinion.
Li TRO ĝojas.  –> Li ĝojas TRO-e.
tie –> tie-aj homoj
nur –> la nur-a studento / nur-ul-o / nur-ul-in-o
per –> per-anto
tre –> tre-ege

2.1.7  Inter vortogrupo kaj grupovorto (kunmetaĵo), speciale prepozitivo kaj ĝiaj respondaj adverbo, adjektivo, verbo kaj eĉ substantivo:

laŭ mia opini-o / miaopini-e

sur la tabl-o / surtabl-e
sur la tabl-on / surtabl-en

la lingvo por homoj / porhom-a lingvo (porhomalingvo)
(sed ĉu “porhomlingva” = “porhom-lingva” aŭ “por-homlingva”?)

la reĝimo el la popolo, sub la popolo, inter la popolo, kaj por la popolo 
La reĝimo elpopol-U, subpopol-U, interpopol-U kaj porpopol-U.

Ĉio estu la popolo.  /  Ĉio porpopolu!

transformi specon laŭ via plaĉo / la laŭplaĉo en speca transformado

zorgi PRI (io) / PRI-zorgi (ion / PRI io)

maŝina tradukado / maŝintraduko

ponta lingvo kaj intera lingvo / pontolingvo kaj interlingvo

2.1.8   Inter predikato kaj predikata komplemento (predikativo):

Mi ESTAS studant-A. / Mi ESTAS ĝoj-A.

2.1.9.  Fine inter la konceptoj de aglutinado, kunmetado kaj derivado (Rf. Sekcion 1); inter la konceptoj de substantivo nombrebla kaj nenombrebla (ekz. konklud-o / konklud-oj), difinita kan nedifinita (sinmotrante je iugrada laŭplaĉo en la uzado de la artikolo LA), ktp. 

2.2.  En Esperanto kreiĝis la ĉiopova prepozicio JE.  Kiam oni esprimas sian penson, oni ofte sentas, ke ekzistas iagrada nubula determina rilato inter konceptoj, sed ne povas diri klare kaj ne bezonas klare montri ilian semantikan rilaton.  Por adapti la lingvon al tia nebuleco de homa pensado, Zamenhof, same kiel li elpensis la sufikson -UM-, genie kreis la prepozicion JE (kiu eble estas la dua plej grava analizaĵo en Esperanto.  La unua estas la vorto EST-, Vd. 3.2.)  Oni povas esprimi tian nebulan rilaton ankaŭ per fleksiaj formoj (sintezaĵoj), kiel akuzativo aŭ adverbo.  

2.3.  En Esperanto estas mirinda unueco en la uzado de kazo kaj vortospeco, kio estas ĝia treege elstara lingvistika trajto.  La vortospeco kaj kazo estas ambaŭ dinamikaj sintaksaj karakteroj, kiuj sinmontras nur dum la konstruado de frazo.  Tial, ili same povas esprimi abstraktajn semantikaj rilatojn, kvankam diferencajn, kaj efektive kompletigas unu la alian.  (Diferencante de la analizforma prepozitivo, kiu en Esperanto estas uzata ĝenerale por esprimi kompare koncretan kaj determinan semantikan rilaton, escepte de la prepozicio JE.  Porplue, vd. 3.2.2.)  Ni komparu jenajn frazojn:

Mi skribas plum-E.  /                                                       (ruse)

Kiel supre jam menciite (vd. 1.1), bazaj finaĵformoj en Esperanto, kvankam nemultaj, estas sufiĉe kompletaj kaj esprimriĉaj.  Ni nun citu kazon kiel pluan ekzemplon.  Esperanto havas nur du kazojn, t.e. nominativon, aŭ alivorte neakuzativon (per nulformo), kaj akuzativon (kun la finaĵo “-N”).  Kun la kazoj kaj vortospecoj, kaj analiza formo prepozitivo (se necese), Esperanto estas tiel esprimriĉa kiel aliaj fleksiegaj lingvoj.  La rusa estas unu el la lingvoj kurante plej fleksiriĉaj, kun 6 kazoj.  Estas ne malinspirante kaj ne malinterese kompari la rusan lingvon kun Esperanto tiurilate.  Proksimumedire, la unua kazo de la rusa respondas al nominativo de Esperanto, la dua kazo al adjektivo (kun la finaĵo “-A”), la kvara al akuzativo (kun la finaĵo “-[OJ]N”), kaj la kvina al adverbo (kun la finaĵo “-E”).  Nur la tria kazo ne havas sian respondan fleksian formon en la internacia lingvo kaj estas ansataŭata ĝenerale de la prepozicio “AL”.  La sesa kazo per si mem ne esprimas difinitan semantikan rilaton kaj funkcias nur kune kun la prepozicioj kiel “O”, “HA”, “B”.  Estas interese, ke en Esperanto prepozicioj povas esti sekvataj kaj de nominativo kaj de akuzativo, montrante nedirekton kaj directon respektive.  Kompare kun la simila uzo en la rusa lingvo, Esperanto estas multe pli simpla kaj perfekta. (Vd. APENDICON 3.)   

2.4.  En Esperanto estas sufiĉe libera vortordo

2.4.1  

(1) Mi amas vin; 
(2) Mi vin amas; 
(3) Vin mi amas; 
(4) Vin amas mi; 
(5) Amas mi vin; 
(6) Amas vin mi.
(ĉiuj permutaĵoj de tri elementojn)

2.4.2  

(1) la homoj studantaj matematikon

(2) la homoj matematikon studantaj

(3) la studantaj matematikon homoj
(Sed: ?? Mi ŝatas la studant-AN matematik-ON hom-ON.)

(4) ?? la matematikon studantaj homoj
(plibone: la matematikon-studantaj (matematik-studantaj) homoj

2.4.3 

(1) la propono proponita de mi

(2) la propono de me proponita

(3) la de mi proponita propono 

(4) la proponita de me propono

(5) la proponita propono de mi

(6) ?? la de mi propono proponita

Ĉi tie ni vidas, ke la malibereco sinmontras nur je la ordo inter artikolo aŭ prepozicio kaj ĝia ĉiam sekvanta rilata subsvantivo, tial, en la ĵuscititaj frazoj estas fakte 3 ordo-varieblaj elementoj: la (…) propono; de mi; proponita, kies permutado nombriĝas je 6.

2.4.4  Esperanto eĉ permesas tian uzadon:

Nun de loko flugu ĝi al loko.  (Kp. Nun ĝi flugu de loko al loko.)

Ne al glavo sangonsoifanta, Ĝi la hom-AN tiras famili-ON.  (Ĝi tiras la homan familion ne al glavo sangonsoianta.)

Certe, en la supraj du ekzemploj, multe helpas la poetika licenco, kiu povas, tamen, tiel libere kaj efike funkcii je vortordo nur kondiĉe, ke ĝi estu en iu treege milda lingvo kiel Esperanto kaj samtempe ke ĝi tute ne kontraŭu al la fundamenta gramatiko de la lingvo.

2.5.  La konjugacia sistemo de Esperanto (kvankam kun, tamen, la difekto supremenciita en 1.1.4.5.) kaj la tabelo de korelativaj vortoj de Esperanto estas mirindaj kreaĵoj.  Per la nura help-verbo EST- (kiu estas la plej grava analizaĵo en Esperanto!  Vd. 3.2.), oni povas bone esprimi analizforme diversajn kompleksajn tensojn kaj voĉojn.  (Sen la help-verbo, dank’ al la aglutineco de gramatikaj finaĵoj, oni ankaŭ egale pove ilin esprimas sintezforme.)  La tabelo de korelativaj vortoj estas eksterordinare riĉa kaj konciza por esprimi semantikajn rilatojn.  Ĝi estas tiel perfekta, logika kaj bela, ke ĉiuj esperantistoj spertas ĝian belecon, same kiel kemiistoj la belecon de la Mendeleeva tabelo de kemiaj elementoj.

2.6.  En Esperanto almenaŭ ĉiuj prepozicioj estas samtempe prefiksoj.  Do sekvas nature la granda fleksebleco je esprimado (vd. 2.1.7.). 

 

3.  ANALIZAJ KAJ SINTEZAJ FORMOJ

3.1. Alia elstara lingvistika trajto de Esperanto estas, ke ĝi havas la esencojn de kaj analiza lingvo kaj de sinteza lingvo, sufiĉe riĉante je kaj funkciaj vortoj kaj fleksiaĵoj.  Oni povas sin esprimi semantike aŭ per analiza formo (helpe de funkciaj fortoj) aŭ per sinteza formo (helpe de fleksioj). La du formoj, kompreneble, ne tute identiĝas. Ili sin montras diversastile. Pro tio, Esperanto estas elastega kaj esprimriĉa. Kiel celolingvo, ĝi povas plej bone imiti la lingvajn karakterizaĵojn de originala verko, ĉu la mildan slavan stilon kun libera vortordo, ĉu la stilon de fleksimankaj lingvoj, kiel la ĉina kaj angla. Sube estas kelkaj ekzemploj de ĉiea kaj ĉiutavola kunekzistado de analizaj kan sintezaj formoj en Esperanto:

Analizaj Formoj / Sintezaj Formoj

1. Tenso:

Mi ESTAS srib-ANTA. / Mi skrib-AS. Mi skrib-ANTAS.

2. Voĉo:

Ĝi ESTAS limig-ITA. / Ĝi limig-ITAS.  Ĝi lim-IĜAS.  Ĝi SIN-limig-AS

3. Senco:

Tio estas MALGRANDA (ETA) sekreto. / Tio estas sekret-ETO.

4. Preposicioj kaj la kazo akuzativo aŭ vortospecoj -E aŭ -A:

Li parolas EN (PER) Esperanto. / Li parolas Esperant-E (EsperantON).

la libroj DE mi / mi-AJ libroj

Ŝi parolis POR (JE) 30 minutoj. / Ŝi parolis 30 minut-OJN.

LAŬ mia opinio / miaopini-E

ridi JE iu / ridi iu-N

EN (JE) fakto / fakt-E

inkluzive DE 2 poemoj / inkluzive 2 poemoj-N (adverbo sekvata de akuzativo!)

vidi mult-E DA homoj (mult-ON DA homoj) / vidi mult-AJN hom-OJN

5. Prepozicio kaj vorto:

finiĝi tie, KIE VI TROVAS BONA / finiĝi laŭ via BONTROVO; finiĝi LAŬBONTROVE

(Por aliaj ekzemploj vd. APENDICON 3 kaj 2.1.7.)

3.2. Plej Gravaj Analizaj Formoj: Vorto EST- kaj Prepozicio

3.2.1. Nura Helpa aŭ Liga Vorto EST-

3.2.1.1. Verŝajnas, ke ne estas nocia senco en la vorto EST-, kiu, el la punkto de sinteza lingvo, tute ne necesas:

Ili ESTOS skrib-ITAJ ĉe la jarfino. –> Ili skribi-ITOS ĉe la jarfino.

Ni ESTAS ĝoj-AJ ESTI ricev-INTAJ iliajn leterojn. –> Ni ĝoj-AS ricev-INTI iliajn leterojn.

Vi ESTAS vere bonkor-AJ (vi en pluralo). –> Vi vere bonkor-AS (nombro nur certita en kunteksto).

Li ESTAS profesor-O (laboradis kiel profesoro) en tiu universitato. –> Li profesor-IS (profesor-ADIS) en tiu universitato.

Tamen, ankoraŭ estas problemoj:

Ĝi ESTAS tablo. / ?? Ĝi tabl-AS.
Ĝi ESTAS biciklo. / ** Ĝi bickl-AS.
Kp. Li bicikl-AS. = Li ESTAS bicikl-ANTA. = Li bicikl-ANTAS.

ESTAS 3 homoj en la ĉambro. / ?? 3 homas en la ĉambro.

3.2.1.2. Kun la vorto EST-, kvankam nur unu, Esperanto treege riĉiĝas je esprimado per analiza rimedo! Alie, la lingvo havus tute alian aspekton, kiu tro konpaktus kaj malmildus, kaj kiu plejeble malakceptitus de homoj el la analizalingva tipo.

3.2.2. Prepozicio

3.2.2.1. Estas kutime akceptite en la lingvistika rondo, ke prepozitivo (aŭ prepozicia sintagmo = prepozicio + substantiva komplemento) estas esence ankaŭ ia kazo, kun la nura malsamo, ke prepozicio ĝenerale pli knokretas ol kazo. Fakte, prepozicioj mem enhavas variajn gradojn de konkreteco inter si, kiel ekzemple, komparu:

instituto JE lingvistiko –> instituto DE lingvistiko –> instituto PRI lingvistiko (plikonkretiĝas unu ol alia)

Estas kelkaj sufiĉe abstraktaj prepozicioj, kiuj efektive funkcias ĝuste kiel kazoj en iuj aliaj lingvoj, kiel JE/DE/AL/PRI/PER (vd. APENDICON 3). (Notu, ke la semantikoj de kazoj ankaŭ varias je abstrakteco.)

3.2.2.2. Kiel jam iom menciite en 2.3., adverbo (kun finaĵo -E) estas ankaŭ iu semantike abstrakta kazo. Sed, adverbo en Esperanto anaŭ povas indiki tiel konkretajn rilatojn kiel ajna prepozicio! Nur kondiĉas, ke la vortocorpo deriviĝas de radiko kaj prepozicioprefikso. Kp:

LAŬ (la) regulo(j) –> LAŬ-regul-E (kp. la pli abstraktan vorton: regul-E)

Estas multaj tiaj ekzemploj (vd. 2.1.7.). Fakte, oni povas libere intertransformi prepozitivon kaj ĝian respondan adverbon (kun la ofteapera artikolo LA ellasita).

3.2.2.3. Ĉar almenaŭ ĉiuj prepozicioj samtempe ankaŭ povas funkcii kiel prefiksoj (la ĉefa parto en la Esperanta prefiksaro!), la tiel nomata “grava ANALIZA formo” prepozicio vere estas egale unu el la plej gravaj SINTEZAJ formoj!

3.3. [SUMEO] En Esperanto ĉie kaj ĉiutavole videblas la kunekzitado de analiza kaj sinteza formoj, per kiu Esperanto sin diferencas de naciaj lingvoj. Kvankam ne ekzistas pura sinteza lingvo sen ajna analiza formo, nek pura analiza lingvo sen ajna sinteza formo, tamen ĉia nacia lingvo havas nur unu formon kiel la ĉefan: aŭ la analizan aŭ la sintezan, kaj almenaŭ ĉiu estas tia, ke la du formoj ne ekzistas samokaze.

4. TRAVIDEVLECO DE ESPERANTO

4.0.  Estas naturo de Esperanto, ke sufiĉe travideblas Esperantaj formoj (ĉu analizaj aŭ sintezaj, tamen, la analizaj formoj ŝajne ĝuas pli da travidebleco ol la sintezaj), kio estas certe unu el la plej elstaraj avantaĝoj kaj la ĉefa kialo por la facileco en la lernado de Esperanto, ĉar ono povas uzi malmultajn formojn (elementojn) por esprimi senlimajn informojn, aŭ analizi la akceptitajn formojn en elementojn por komprenado.

4.1. Ĉu Esperanto estas perfekte travidebla?

Ne. Kaj neniam povos. Kaj ankaŭ neniam necesos – almenaŭ por homa lingvo.

La antaŭkondiĉo por tutetravidebleco estas, ke ĉiu koncepto povus esti analizata en nombreblajn semantikajn atomojn aŭ semantikemojn (ĉu tio ja eblas? Referencu la progreson en la rondo de artefarita intelekto), kaj plue, ke la semantikemoj, kiam ili interkunligas, devus esti kompleksece homtolereblaj – tio certe ne povas ĉiam kontentiĝi, speciale por scienca fakotermino, kiu estas kutime tiel enhavo-riĉa kaj signifo-ekzakta, ke ĝia difino bone fariĝus iu plena disertacio. Tial, tia koncepto nur povas fiksiĝi en homan cerbon per iu fonetika formo, kies surfaca respondaĵo estas ne alia ol maltravidebla vorto! Aliflanke, plejmulte da scienca terminaro ĝuas internaciecon, do ŝajnas ne saĝe ĝin Esperantecigi eĉ eble, ekz., nombroscienco / matematiko, sed ĉu matematiko estas simple nombroscienco? (Vd. 4.4.)

4.2. Ĝuste kiel la kunekzistado de analizaj formoj kaj sintezaj, en Esperanto multokaze (sed alitavole, kompreneble), ankaŭ troviĝas la kunekzistado de la travideblaj kaj ne travideblaj formoj.

Pekino: Beijing
;ingvoscienco : lingvistiko
preskaŭ ne: apenaŭ
elektre kalkula maŝino: komputilo (aŭ: komputomaŝino): komputoro (aŭ: komputero).

Oni eĉ toleras tiajn tiel-nomatajn “ne-Esperantajn” vortojn kile “komputoro” kaj “komputero” en Esperanton!

4.3. Iuj plefote uzataj ĉiutagaj vortoj jam sinstabliĝas kiel travideblaj formoj, kio manifestas la fortan emon de Esperanto por Esperantecigi aliajn!

patrino: ?? matro
malbona: ?? bada
maldekstra: ?? lefta

Tamen, bonstila Esperanto neniam ekstremigasiun ajn rimedon, eĉ plej efikan kaj facilan:

?? malkun: sen
?? malmorgaŭ: hieraŭ (aŭ ?? malhieraŭ: morgaŭ)

4.4. Dilemo de Esperanto

4.4.1. Esperanto kiel internacia lingvo, celas la facilan komunikadon por la tuta homaro. Tamen, en la lingvopraktikado aperas la kontraŭo inter travidebleco (la lingva naturo de Esperanto) kaj internacieco (laa celo de Esperanto), kiu plej evidente sinmontras je la konstruado de terminoj. Rezulte, la vortaro de Esperanto estas multe pli vasta ol on atendis.

4.4.2. Esperanto kiel efika ilo por komunikado devas esiti, kaj efektive ja estas, sufiĉe kompakta, do venas la kontraŭo inter travidebleco kaj kompakteco. Fakte ju pli travideblas, des pli malkompaktas.

4.4.3. Kaj fine ankaŭ estas la kontraŭo inter travidebleco (sekve lernofacileco kun malmulte da elspezo de memoro kaj energio) kaj inkluziveco. Esperanto kiel scienca kaj portuthomara lngvo inkluzivus morfologie kaj sintakse ĉiujn efikajn lingvajn rimedojn, kio bezonas la kunekzistadon de variaj formoj, inkluzive de la maltravideblaj.

5. SUMO

5.1. La supre diritaj montras, ke ĝueste male al tio, kion oni subjektive dedukts, Esperanto estas treege fleksebla lingvo kun variaj esprimmanieroj, kiuj povas sin reciproke kompletiĝi kaj intertransformi, kaj la granda fleksebleco de la lingvo ĝuste konformas al la nebuleco de la homa pensado. Ĝi donas al homoj grandan liberecon je esprimado kaj la plej bonajn kondiĉojn por plene montri ilian lingvan kompetentecon. Aliflanke, ĝi ankaŭ enhavas tiel grandan tolerecon, ke eĉ komencantoj aŭ lingvo-nesaĝuloj povas facile kaj simple sinesprimi kompreneblige. Ĉi tio estas kampo konvena por ĉiuj, ĉu genioj ĉu malsaĝuloj. Tamen tia fleksebleco ne influas la rigoran neŝanĝeblecon de la fundamenta gramatiko de Esperanto. Ĉi tie la libereco kaj rigoreco ekzistas harmonie. En Esperanto, ĉiuj estas kreantoj kaj ĉiuj povas ĝui la plezuron de tia kreado. Oni ne plu estas sklavoj de lingvaj kutimoj. La granda harmonio de la fleksebleco kaj reguleco de Esperanto estas vere mirakla kreaĵo lingvistika.

5.2. Ecaro de Esperanto – Ŝlosilovortoj:

porhomeco / natureco / scienceco / reguleco / inkluziveco / toler(ebl)eco (elasteco) / aglutineco / matematikeco (kvazaŭrekursiveco) / logikeco / travidebleco (analizebleco) / fleksebleco

5.2.1. Proksimume ni havus: Fleeksebleco <– aglutineco (sekve travidebleco) kaj inkluziveco de variaj formoj (ĉu analiza ĉu sinteza; ĉu travidebla ĉu netravidebla); Reguleco kan scienceco <– matematikeco kaj logikeco.

5.2.2. El la punkto de toler(ebl)eco kaj la praktika informokomunikado, almenaŭ ĉiuj supraj ekzemploj kun ?? je la antaŭo estas tolereblaj, minimume kompreneblaj. Kompare kun naciaj lingvoj, tia tolereco estas multe pli elstara.

5.3. [KONKLUDO] La eksterordinara sukceso de Esperanto grandega miraklo en la historio de homaj lingvoj. Ĝi estas la venko de homa racio, la venko de lingvistiko! Estas nepovtroe laŭdite kaj fiere hurainde, ke en la inta lingva kampo, kie “ekutimo estas Dio”, fositas sulko por INTERNACIA LINGVO kiel contrasto al nacia lingvaro!

APENDICO 1

Ni citu kiel ekzemplon la radikon STUD- en formo de verboj kaj adjec=ktivoj, kan komparu ĝin kun la angla vorty STUDY.

Gramatikformoj por Radiko STUD- [angle: STUDY]

1. 42 verboj:

stud-I [to study]
stud-U [(let…) study]
stud-US [would (should) study / stud-IED / would have stud-IED / …]
stud-AS [study 9stud-IES)]
stud-IS [stud-IED]
stud_OS [will (shall) study]
stud-ANT-I [to be study-ING]
stud-ANT-U [?? (let…) be study-ING]
stud-ANT-US [would be study-ING / …]
stud-ANT-AS [is (am, are) study-ING]
stud-ANT-IS [was (were) study-ING]
stud-ANT-OS [will (shall) be study-ING]
stud-INT-I [to have stud-IED]
stud-INT-U [?? (let…) have stud-IED]
stud-INT-US [had (would have) stud_IED]
stud_INT-AS [have (has) stud-IED]
stud-INT-IS [had stud-IED]
stud-INT-OS [will (shall) have stud-IED]
stud-ONT-I [?? to be to study]
stud-ONT-U [?? (let…P be to study]
stud-ONT-US [?? should (would) (be to) study]
stud-ONT-AS [am (is, are) to study]
stud-ONT-IS [was (were) to study]
stud-ONT-OS [will (shall) be to study]
stud-AT-I [to be (being) stud-IED]
stud-AT-U [?? (let…) be (being) stud-IED]
stud-AT-US [would (should) be stud-IED]
stud-AT-AS [am (is, are) (being) stud-IED]
stud-AT-IS [was (were) (being) stud-IED]
stud-AT-OS [will (shall) be (being) stud-IED]
stud-IT-I [to have been stud-IED]
stud-IT-U [?? (let…) have been stud-IED]
stud-IT-US [?? would (should) have been stud-IED / …]
stud-IT-AS [have (has) been stud-IED]
stud-IT-IS [had been stud-IED]
stud-IT-OS [will (shall) have been stud-IED]
stud-OT-I [to be stud-IED]
stud-OT-U [?? (let…) be stud-IED]
stud-OT-US [would (should be stud-IED]
stud-OT-AS [is (am, are) to be stud-IED]
stud-OT-IS [was (were) to be stud-IED]
stud-OT-OS [will (shall) (be to) be stud-IED]

(2)  28 adjektivoj

stud-A/stud-A-J/stud-A-N/stud-A-J-N [study]
stud-ANT-A/stud-ANT-A-J/stud-ANT-A-N/stud-ANT-A-J-N [study-ING]
stud-INT-A/stud-INT-A-J/stud-INT-A-N/stud-INT-A-J-N [having stud-IED]
stud-ONT-A/stud-ONT-A-J/stud-ONT-A-N/stud-ONT-A-J-N [to study]
stud-AT-A/stud-AT-A-J/stud-AT-A-N/stud-AT-A-J-N [(being) stud-IED]
stud-IT-A/stud-IT-A-J/stud-IT-A-N/stud-IT-A-J-N [(having been) stud-IED]
stud-OT-A/stud-OT-A-J/stud-OT-A-N/stud-OT-A-J-N [to be stud-IED]

APENDICO 2

Algoritmo por Fortranĉi Finaĵojn de Esperanto

(1) Se la finaĵ estas -O, do konkludu “Substantivon / Nominativon / Singularon”, iru al (2); alie, iru al (11).

(2) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se sukcesas en konsulto al la vortaro, konkludu “Nulmodon/Aktivon”, finiĝu la prilaborado; alie, iru al (3).

(3) Se la finaĵo estas -ANT, do konkludu “Participon / Aktivon / Kontinuon”, iru al (9); alie, iru al (4).

(4) Se la finaĵo estas -INT, do konkludu “Participon / Aktivon / Perfekton”, iru al (9); alie, iru al (5).

(5) Se la finaĵo estas -ONT, do konkludu “Participon / Aktivon / Malperfekton”, iru al (9); alie, iru al (6).

(6) Se la finaĵo estas -AT, do konkludu “Participon / Pasivon / Kontinuon”, iru al (9); alie, iru al (7).

(7) Se la finaĵo estas -IT, do konkludu “Participon / Pasivon / Perfekton”, iru al (9); alie, iru al (8).

(8) Se la finaĵo estas -OT, do konkludu “Participon / Pasivon / Malperfekton”, iru al (9); alie, iru al (10).

(9) Konsultu la korpo-vortaron post fortranĉo de la finaĵo. Se suksecas en konsulto al la vortaro, finiĝu la prilaborado; alie iru al (10)

(10) konkludu “Novavorton”, finiĝu la prilaborado.

(11) Se la finaĵo estas -A, do konkludu “Adjektivon / Nominativon / Singularon”, iru al (2); alie, iru al (12).

(12) Se la finaĵo estas -E, do konkludu “Adverbon / Nominativon”, iru al (2); alie, iru al (13).

(13) Se la finaĵo estas -OJ, do konkludu “Substantivon / Nominativon / Pluralon”, iru al (2); alie, iru al (14).

(14) Se la finaĵo estas -AJ, do konkludu “Adjektivon / Nominativon / Pluralon”, iru al (2); alie, iru al (15).

(15) Se la finaĵo estas -ON, do konkludu “Substantivon / Akuzativon / Singularon”, iru al (2); alie, iru al (16).

(16) Se la finaĵo estas -AN, do konkludu “Adjektivon / Akuzativon / Singularon”, iru al (2); alie, iru al (17).

(17) Se la finaĵo estas -EN, do konkludu “Adverbon / Akuzativon”, iru al (2); alie, iru al (18).

(18) Se la finaĵo estas -OJN, do konkludu “Substantivon / Akuzativon / Pluralon”, iru al (2); alie, iru al (19).

(19) Se la finaĵo estas -AJN, do konkludu “Adjektivon / Akuzativon / Pluralon”, iru al (2); alie, iru al (20).

(20) Se la finaĵo estas -AS, do konkludu “Verbon / Predikaton / Prezencon”, iru al (2); alie, iru al (21).

(21) Se la finaĵo estas -IS, do konkludu “Verbon / Predikaton / Preteriton”, iru al (2); alie, iru al (22).

(22) Se la finaĵo estas -OS, do konkludu “Verbon / Predikaton / Futuron”, iru al (2); alie, iru al (23).

(23) Se la finaĵo estas -US, do konkludu “Verbon / Predikaton / Kondicionalon”, iru al (2); alie, iru al (24).

(24) Se la finaĵo estas -U, do konkludu “Verbon / Predikaton / Volitivon”, iru al (2); alie, iru al (25).

(25) Se la finaĵo estas -I, do konkludu “Verbon / Infinitivon”, iru al (2); alie, iru al (26).

(26) La vorto ne havas finaĵon. Konsultu la vortaron pri funkciaj vortoj. Se sukcesas, konkludu “Funkcivorton”; alie, konkludu “Novavorton / Substantivon / Propranomon”. Finiĝu la prilaborado.

[KLARIGO] La supra algoritmo jam proviĝas tre efika ĉe maŝino.


APENDICO 3

La Kontrasta Tabelo por Kaza Sistemo






 

 

 

 

【相关】

灵感有如神授,巧夺岂止天工

世界语论文钩沉:世界语的语言学特点(3/3)

世界语论文钩沉:世界语的语言学特点(2/3)

世界语论文钩沉:世界语的语言学特点(1/3)

《学外语的紧箍咒,兼谈世界语的前途》

立委:一小时学会世界语语法

《朝华午拾:我的世界语国》

《朝华午拾 – 世界语之恋》

《朝华午拾:朋友遍天下》

《朝华午拾 – 欧洲之行》

《朝华午拾:与白衣天使擦肩而过》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文(世界语版)

《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》

灵感有如神授,巧夺岂止天工

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》

DLT项目背景介绍

《李白詹120:乔老爷老矣》

【关于机器翻译】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录