【语言学随笔:汉字优越吗(1)?】

想到一个事儿,关涉词素这个议题,语言学基础课里面已经说得清清白白。但在大众认知中,甚至在专业人士的讨论中,还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起,天然政治正确,因此无论怎样拔高、夸赞,无论符合不符合语言学基本原理,都容易大行其道 深入人心。其中最流行的说法是,几千个汉字可以表达的概念,比几万个英文词汇表达的概念,还要丰富。

这种说法不能说完全没有道理,但本质上似是而非,经不起语言学基本面的推敲。

要害在,这是苹果与梨子在比较。

汉字是语言材料的最小单位,是词素(又叫语素,morphome)。英文词汇表中的词不一定是最小单位,里面也有复合词(compound:black-board),也有派生词(work-er)。如果是词素与词素比较(这才是 apple to apple comparison),语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard(黑板)和 worker (工人)就不是两个单独的单位,而是跟汉字一样,一一对应,应该分解为四个语素。

正确的符合语言学常识的说法是,几千个常用的汉字对应西方语言几千个词素(词根或词缀),它们可以合成几万个常用词汇,代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性,还是心有不甘。

其实,真要深究,还是可以更加合理地为汉字优越找到一些语言学的根据,而不是人云亦云地拿自家的“字典”(词素表)与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言,无论东方西方,无论汉藏还是印欧,在这个信息飞速流转的地球村,都有足够的语言材料来表达所需要的概念了,但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上,只是要表达清楚这个优越性,需要一些语言学。

比较英语的词素(词根 词缀),汉字为词素的中文,其造词法更具有产生性。

换句话说,国人可以更轻易地“造词”。这也可能是缺点,反正语文老师对小学生“生造词”一直是很不以为然的,过犹不及。他们的责任就是约束学生的造词能力,怕学生没必要地造出太多的词出来,行文不规范。但是,原理上说,这是语言的灵活性和适应性的体现,应该算是优越的语言学特点。

今天听中文网络广播,听到一个超出我的词汇范围的词(术语叫OOV,Out of Vocabulary,其边界因人而异,我的OOV词对于我来说就是“生造”词)“区隔”(后来查了万能的互联网,发现是一个被共同体已经接受的词),因为这词于我是第一次听到,我愣了一下,但很快就从汉字及其关联词汇(“区分”、“分隔”)意会到其语义。这说明什么,说明汉字组词有很强的随意性(明明有常用词“区分”,也不妨再造一个几乎完全等价 的词来),对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性,以及从灵活性而来的新鲜感(谁愿意老“墨守陈词”)和从多样性逐渐带来的细微差别(nuance)。

为什么同为语素,汉字组合成词,比起英语语素组合成词,更加能产呢?

要起床了。先停下,以后再聊(老话说,且听下回分解……)。

 

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论