【一日一析:“新买”、“新建”与“新修”】

白:“张三在北京新建的高科技园区里工作。”

“张三在北京新买的别墅里有两个菲佣。”

“张三在北京新建的高科技园区开工了。”

不能指望一本道了。必须走不齐。

李:谁买的?一定是张三吗?其实,也未必是张三新买的。非常有可能是他老爸老妈给他新买的,尤其在这个物价高企、啃老盛行的年代。

定语从句中的 args 毕竟非主线上,不是信息交流的要点。定从属于附带信息,除了较真的人,面对这类句子,没人去问谁新买的,或谁新建的,这样的问题。因此,没有答案,或答案模糊也没什么不可以。

“张三在新修的长城上拍照。”

为什么后者的主语施事不是张三?也许随他去。定语从句的 args 没那么要紧。

白:别墅那个,谁做了买的那个动作(谁付的钱,付的是谁的钱)其实不重要,张三取得了什么性质的产权也有得扯,但是张三达到了买别墅的效果,by default就是张三买的,如果有其他角色出来认领买的动作,可以override。没有就是他了,句法只能帮到这了。但即使有override发生,句法的贡献也不是负面的,只是说大家遵守的就是那样一种逻辑。

就好像,没说是什么鸟,我推断该鸟会飞,总是合情理的。你说出是鸵鸟,刚才的推断虽然被override了,但在信息不足的情况下做出那样的推断并不是一个bug。

李:"句法的贡献也不是负面的",不错。不过,对于确定性不大的贡献,要看其求解难度来定是不是值得去做。往往可能费很大力气做出一个不重要或没啥实际价值的结果。更要紧的是,这样钻牛角尖,很可能弄巧成拙。细粒度是个好东西,但过细可能使系统精巧而脆弱。

ha 不该来的来了:“张三”新修(“长城”),“张三”没“拍照”?

“新买” 与 “新建” 的细微差别,使得一个单个的实体(“张三”)做不做逻辑主语 成为问题。这种粒度的知识推理实在太细了。到了“新修”,单个实体与群体似乎都可以做逻辑主语,这时候还要进一步看“新修”的对象是个啥东西。如果对象是“长城”,单个实体不可能做逻辑主语,如果对象是“厨房”,单个实体又可以了。细细琢磨人的认知心理,上面这些逻辑链条都有道理。值得去模拟求解吗?退一步看,虽然人的认知的确有这些细微差别,但是另一方面,人其实也不 care 这些细微差别。

白:“在北京”去掉了性质就变了。在……里,是一个形态显著的框式结构。“北京”融化在“……”之中,而且不排斥填“新建”的坑。另一个,“北京”填“新买”的坑不那么靠谱,所以让出来给外面的“张三”以机会。并不是光杆儿在比优先级。是里面发生了吸引/排斥,连锁反应传导到了外面。

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据