【NLP随笔:词法内部结构休眠,句法可以唤醒】

下班路上有一个关涉词法句法的灵感,有点意思,随笔记下,省得忘了。

开问:对于词典列举了的词条,还要不要记录内部词法呢?

当然,既然列举了,词法应该不重要了,一切都是绑架。(如果要记录词法,所记录的词法也是绑架。)词条就是一团泥巴,爱怎么捏都行,一切看方便和需要。尽管绑架不需要讲道理,自然也就不必讲词法,但是反观人对词条的语言学认知,其实还是在无法有法之间的灰色,并不真地就是一团漆黑,进了词典就都是黑箱子了,其实也有灰箱子,甚至相当白的箱子在内。

举个例子来说明这种灰色的法与非法状态。

“细心” 是一个2词素的词条 在所有的现代汉语词典里面 通常贴个形容词A的标签。因为它非常典型地起一个形容词的句法作用,与其他形容词同义词“认真”、“仔细”、“刻苦”类似:

(1)做定语:细心人。(认真人。仔细人。刻苦人。)
(2)做状语:细心做事儿。(认真做事儿。仔细做事儿。刻苦做事儿。)
(3)做谓语:她很细心。(她很认真。她很仔细。她很刻苦。)

语义上,“细心”挖了一个【human】的坑,“她”正好跳进去。无论句法上做定语状语还是谓语,逻辑语义上,“细心”都应该挂上这个【human】。

句法语义之下是词法,如果从词法内部看,这几个词条是不同的,而这一点对于人其实并不是黑箱子,而是有相当透明度的,可以轻易认定:

“细心”在词法内部是一个名词性结构N(而不是对外的形容词A),词法关系是“细”修饰“心”:细的心。

“认真”稍微模糊一些,但一般人感觉还是词法内部的动宾结构V(而不是对外的形容词A),词法关系是:“认”【这个、一个】“真”。

“仔细”的词法关系应该是并列,而被并列的两词素都是形容词A,倒是与句法A赶巧一致了,说的是“又仔又细”、“且仔且细”。

“刻苦”不太敢肯定,词源上看,“刻”是动词,“苦”是形容词,也可以做名词。内部词法结构是动宾,还是并列,存疑,先挂起来。

总之,同是句法形容词的几个同义词,内部词法结构可以完全不同。回到开题的问题,这种对于人(起码是语言学家)可以看见的词法结构,需要不需要在词典里面标记呢?

乍一看,似乎不需要,因为一般来说词法的目的是支持句法,句法的目的是支持(逻辑)语义,总之是通过形式的表象,解码语义的内涵,这就是 deep parsing 和 NLU 的真义。既然句法词类(A)、句法角色(定、状、谓)、逻辑语义(修饰【human】)都可以清晰地解析出来,回头再去深究词法内部的小九九,貌似无益。就让它深眠在语言结构的层级体系(hierarchy)的最底层,永远不见天日。

但是,既然不是黑箱子,人就不会永远放过,偶见天日还是有的,特别是在段子或俏皮话里面:

A:你怎么形容她?
B:两只巧手,一颗细心。

see,在人脑的语言认知过程中休眠在词法内部的N,居然冲破了句法A的标配属性浮现出来,成为堂堂正正的句法N,与量词结构搭配构成名词短语,听上去一点也不拗口。为什么那么自然,因为休眠唤醒了,因为他原本就是名词。

看来,休眠唤醒的确是人类认知语言的一个机制。如果我们想要模型休眠唤醒这个机制,那么词法内部的结构作为休眠的种子,就应该先在词典里面埋下来,它才可能被唤醒,发芽成语。

结论:词法内部结构,还是记录下来为好,如果真要做深度自然语言理解的话。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论