NLP自选系列:漫谈语言形式

弘·扬 | 首席科学家李维科普:漫谈语言形式

语言形式是语言学的基础,对语言掌握得多的人,或受过语言学训练的人,看到的更多是语言共性,反映在作为表达手段的语言形式及其分类上。作为符号系统,语言说到底就是以形式来反映内容。语言的不同是形式的不同,内容一定是相同的,否则人不可能交流思想,语言的翻译也就失去了基础,这个道理老少咸知。
那么什么是语言形式呢?回答这个问题就进入语言学了。
如果我们要把内容和形式分开来研究(当然是分不开的,但是理论上可以,否则就没有乔姆斯基语言学革命了),什么是语言形式呢?乍一看语言,不就是 string 么?语音流也好,文字串也好。这个回答不算错,但那是太直观的答案。这个string是有单位的,所以至少可以说语言形式是一个 list of items,items 就是词(more precisely 词素)。list 就是词序。
所以,作为第一个抽象,我们至少得出了词序(word order,有时也叫 linear sequence)是一个重要的语言形式(语言的表达手段)。另一个重要的形式就是词,不过这个还不太够意思,太直感,不够理论,没有抽象。
作为语言符号,词和词素非常重要,它们是语言学的起点。收录词和词素的词典因此成为语言解析的基础资源。如果自然语言表达是一个封闭的集合,譬如,一共就只有一万句话,语言就简单了,可以死记硬背。电脑上实现就是建个库把这些语句词串,全部收进去。每个词串等价于一条“词加词序”的规则,全部词串的规则集合就是一个完备的文法模型。但是,自然语言是一个开放集。无法枚举无穷变化的文句。符号形式文法是如何依据语言形式形成规则,并以有限规则完成对无限文句的自动解析(parsing)呢?
以查词典为基础的分词 (tokenization),是文句解析的第一步。查词典的结果是“词典词” (lexicon word),包括词素(汉字也是词素,因此中文词典也蕴含着字典)。无限文句主要靠查词典分解为有限的单位,词典词加上少量超出词典范围的“生词”,一起构成词节点序列 (tokenlist)。词节点序列很重要,它是文句的形式化表示 (formalized representation),是自动解析的对象和初始数据结构。
我们说的每句话很难穷举,而且即便列举了,也无法抽象。没有抽象,就没有掌握,人就不可能学会语言表达不同的思想。人脑不比电脑,容量很可怜的。所以,探究语言形式要研究词是个什么玩意儿。这就进入了语言学最基本分支了,叫 morphology(词法),可以称 small syntax,就是一个词范围内的结构。对于有些语言,morphology 很繁复,譬如俄语,拉丁语。对于有些语言,morphology 很贫乏,或者可以说没有 morphology,譬如汉语,英语。
撇开这些语言的元件中的构造性差别,我们在研究“词“的时候,第一眼看到的差别是它的两大类别。一类叫实词(notional words,or open-ended vocabulary),原则上是一个开放的集合;一类是虚词或小词,即功能词(function words or closed vocabulary),是可枚举项。
这个分类很重要,因为作为语言形式,能够掌握的必须是 finite 的集合。对于功能词,因为数量有限,没有问题。功能词就是介词,连词,疑问词,感叹词之类,其实延伸一下也可以包括前缀、后缀等材料(叫词缀),在所有的语言中都是有限量的,出现频率高,可以死记的。它本身就是语言形式,原则上无需抽象(虽然也给他们简单分类),因为可以枚举。
到此,我们至少得到了三个具体的语言形式了:1 词序;2. 小词;3 词缀。语言的不同不是形式的不同,而是形式的倚重和比例的不同,下面还要讲,这才是有趣的语言学。
那么实词呢?实词当然也是语言形式,但是因为是开放集,必须给他们分类才好形式化。除了成语和习惯表达法,一般来说,你总不能用枚举的办法为每一个实词写规则吧(真有这么做的,在很窄的领域),人脑也是在实词词类的基础上总结抽象的。实词于是有大类(Part of Speech), 名(noun)、形(adjective)、动(verb)三大类。副词(adverb)一般不算单独的大类,往往是形容词派生而来,或者与形容词同形。只有少部分原副词(original adverbs)属于小词的范畴,可以枚举。
实词三大类还是太粗,对于语言的抽象和掌握不够用,于是可以进一步再分类。特别是动词,有一种很重要的句型再分类叫 subcat(subcategorization),是重要的语言手段,就是区别所谓单宾语子类,双宾语子类,宾语+补足语的不同子类,等等,所有的大辞典后面的附录都有的。再进一步,词汇的语义分类(lexical semantic classification,人啦,动物啦,家具,地点,机构等的分类)也可以加入进来,作为语义的形式化手段,可以用 WordNet 或者董振东老师的《知网》,这就把语义甚至常识偷偷引进句法了。
总结一下语言形式,1 词序, 2 小词, 3 词缀, 4 词类(包括子类)
 
这些子类都是有限的吗?子类当然是有限的,分类的目的就是让理论上无穷的词汇,转变成有限的分类(包括子类),以便掌握和运用。朗曼词典列出的英语 subcat 类有30多个,牛津大辞典好像列出了20个左右。大同小异,颗粒度略有不同。其实常用的动词句型子类也就是不到10个。汉语的传统词典不列句型小类,但是语言所后来出的《动词用法词典》,还有《汉语800词》等,开始分子类,并标注了。
语言形式这么一分,自然语言一下子就豁然开朗了,管它什么语言,不外乎是这四种形式的交错使用,比例搭配和倚重不同而已。所谓语法,也不外是用这四种形式对语言的现象及其背后的结构做描述而已。
英语的规则是否比汉语清晰?对,英语确实比汉语清晰,德语法语又比英语清晰(虽然英语历史上是从德语法语杂交而来的,“不幸”的是后来走了汉语的道路)。这里的所谓”清晰“,是指这些语言有显性的形式来表达结构关系,而汉语缺乏这种显性形式,因此做汉语自动分析就显得难。什么是显性的形式?譬如词法中名词的性(gender)、数(number)、格(case),动词的时(tense)、体(aspect)、态(voice)。这些词法范畴是以显性的后缀(词尾)形式来表达的,但是汉语没有。
而文言文更加缺乏显性形式。文言虚词就那么几个,不如现代汉语的小词丰富,因此比现代汉语更难(将来退休以后,准备接受极限挑战,就做文言 parsing 玩儿)。现代汉语的形式化相对容易一些。
凡是 morphology(各种词缀)复杂的语言,通常不需要运用词序的手段,也较少依赖小词。譬如俄语,还有世界语(Esperanto),“我爱你”,就三个词,可以用六种词序表达,排列组合。世界语算是准自然语言。诞生不自然,发展自然了。为什么语序自由呢,因为有宾格这样的后缀形式,跑到哪里都是动宾的关系。当然就不需要依赖语序的形式了。
回来谈为什么汉语不如西方语言严谨?因为汉语发展过程中,没有走语词综合(利用词缀)的道路,而是坚持在分析(利用小词)的道路上走到黑。从语言学的高度,词缀也好,小词也好,其实也都是差不多的材料(形式),但是,词缀的范畴化,比起小词,要发达得多,因此严谨得多,也冗余得多。可以举例说明。
动词变位、名词变格等形态词缀手段,使得有结构联系的语词之间产生一种显性的一致关系 (agreement)。譬如,主谓 (subject-predicate) 在人称和数上的一致关系,定语与中心词在性数格上的一致关系等。关系有形式标记,形态语言的结构自然严谨得多,减少了结构歧义的可能。丰富的词缀减低了语言解析对于隐性形式和知识的依赖。
什么是隐性形式?隐性形式就是词类和各种子类。为什么说是隐性,因为需要标注才能显性化、形式化。那些词本身并没有这些标记。如果用后缀“标注”了,那就成显性形式了。譬如,“兄弟”在汉语是名词(noun),这个是查词典得到的,或者是POS程序查上下文标注的(如果有歧义的话),不是这词本身的印记。但是 frato(兄弟)在世界语就不需要词典标注,因为有名词后缀 -o。再看汉语的复数“兄弟们”,这里用了小词“们”,世界语呢,用后缀 -j,fratoj。乍看,这不一样么,都是用有限的语言材料,都是显性的表达。但是,汉语的复数概念表达是有时候显性有时候隐性,这个“们”不是必需的,而有数这个范畴的西方语言(包括世界语)却是永远的显性,那个后缀是不能省略的。
“三个兄弟没水喝”——这里的兄弟就没有小词“们”,而且汉语文法规定了不允许在数量结构后面加复数的小词,硬把显性的表达转变成了隐性的表达。这样的语言是不严谨的,因为信息冗余度不够。换句话说,严谨的语言较少倚赖上下文来确定其结构语义,不严谨的语言离不开上下文,兄弟的复数意义需要上文的数量结构。
有同学说汉语据说是“意合”语言,没有文法。这就言过其实了。没有没有文法的语言。汉语不是没有规则,只不过规则比较细琐繁多,规则所利用的条件更多用到隐性形式而已。汉语文法的确比较宽松,宽松表现在较少依赖显性形式。语句的顺畅靠的是上下文语义相谐(常识上合不合理),而不是依靠严格的显性符号规则。譬如词缀、小词、词序,显性形式的三个手段,对于汉语来说,形态基本上没有,小词常常省略,语序也很灵活。
先看小词,譬如介词、连词,虽然英语有的汉语基本都有,但是汉语省略小词的时候远远多于英语。这是有统计根据的,也符合我们日常使用的感觉:汉语,尤其是口语,能省则省,显得非常自由。对比下列例句,可见汉语中省略小词是普遍性的:
① 对于这件事,依我的看法,我们应该听其自然。
    As for this mater, in my opinion, we should leave it to nature. 
② 这件事我的看法应该听其自然。
    This mater my opinion should leave to nature. 
类似句子②在汉语口语里极为常见,感觉很自然。如果尝试词对词译成英语,则完全不合文法。汉语和英语都用介词短语 (prepositional phrase, PP) 做状语,可是汉语介词常可省略。这种缺少显性形式标记的所谓“意合”式表达,确实使得中文的自动化处理比英文处理难了很多。
好,总结一下,什么是语言形式,形式有四种,词序,小词,词缀,分类。只要从这四点出发,很多现象都好捕捉。语言大不了就是围绕实词的概念,用这些手段连接起来,表达概念之间的关系意义
其实“语言形式”这个话题,还没引申来谈,谈起来还有很多有趣的东西,譬如词缀与小词之间的关系,相互补充和替代的作用,语言发展中倚赖词缀的综合道路,以及倚赖小词的分析道路,以及两条路线的斗争,等等,以后有闲再谈。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据