【Parsing 的命根子是 subcat，逻辑的和语言的】

细说起来有两类句型分类：一类是逻辑上的，一类是语言上的。二者相互呼应，前者是内容（output 目标，也隐含了语义条件），后者是形式（input 的句法条件）。

逻辑上说，一个谓词需要几个 arguments，是由这个谓词的意义决定的，譬如 “哭/笑” 这样的谓词概念，需要一个施事 argument 来表达谁哭了笑了，所谓不及物谓词。

“爱/恨” 这样的谓词需要两个 arguments （所谓及物谓词），表达谁爱/恨谁了。
“给/赠与” 这样的谓词，需要三个 arguments，表达谁把什么给谁了。
“认为/声明” 这样的谓词，需要两个 arguments，其中一个是实体，表达谁的认为/声明，第二个 argument 要求一个 statement （嵌套的谓词结构），表达认为/声明的内容。

这种逻辑上的谓词子类的区分是语言通用的，因为它的根基是概念及其意义的完整性（谓词加上arguments就是所谓的argument structure，表达的是一个 statement）。

逻辑工作方面的集大成者就是董老师的 HowNet。

以上的逻辑谓词子类表现在不同语言，就是语言学上的 verb subcategories 及其 patterns。到了语言这个层次，辞典中一个动词的动词句型子类可以标示以下的subcategorization 的信息（及物不及物只是其简化标识，vt/vi, 牛津词典曾经用20多个子类标注每个词条的subcat，v1,v2, ..v21,...):

1. 能带几个 arguments
2. 这些 arguments 要求处于什么形态（主格，宾格，要什么介词，处于什么位置）

词典中这种子类信息的标注直接决定了一个parser的质量，是非常关键的预示信息。对于学习英语，熟悉这些句型信息也非常有用。我以前教英语的时候，经常要求学生看牛津词典或者朗曼词典后面的句型附录（朗曼的分类略有不同，印象是分了30多子类），务必熟悉这些句型的概念，然后在翻阅词典时候注意其标注。一个词经常分成n个义项，每个义项下的subcat分类标注往往不同，回去翻翻词典就看到了。

这后一步的工作，英语和中文我一直在做，n年了。董老师的中文系统目前也在做。只做不说的白老师或其团队也一定在做。subcat 是 quality parsing 的命根子。大家具体做法可能不同，但大而言之，还是差不多的。就是我们以前说的句法词典化。

【相关】

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复