【李白66:“青春期父母指南”的语义计算】

李:
朋友圈看到一本书书名是:【青春期父母指南】(副标题:如何和谜一般的青春期孩子相处呢?)定语青春期不是指向父母的,而是指向父母的儿女。

有意思的是,定语“青春期”不是指向“父母”的,而是指向父母的孩子。书名的结构是 NP:N1+N2+N3:N1 is neither semantic Mod of N2 nor of N3, but of something only implied yet not mentioned in text.  Grammatically we might still label N1 as Mod of N2, not of N3, N2 is grammatical Mod of N3, and semantic Obj of N3.

当然也不能完全排除这个指南是给处于青春期的父母(teenager moms or dads)

白:
青春期有坑,父母有坑,指南有坑。没有“的”的填坑关系和修饰关系互斥。父母填青春期的坑,是一解。青春期自己升格(处于青春期的某某human子类型),再填父母的坑,是另一解。

李:
后一条路不好掌控。凭什么升格,什么时候不升格?

白:
后面没有相谐的被修饰语,又有人需要这个被修饰语。升格也是有准入条件和优先顺序的。“是什么”是语言学,“选什么”是NLP。讨论语言学和讨论NLP,不是一股劲儿。当父母填青春期的坑的时候,父母自身的坑也只能借助升格来处理。不在这里升格,就在那里升格。要么父母处于青春期,谁的父母没交代;要么父母的孩子处于青春期,孩子是谁没交代。那个没交代的对象就是升格升出来的。

李:
没交代是常态。记得当年学句法课,教授花了很长时间讲解 complement 与 adjunct 的区别,说前者是需要交代结构(及其语义)才算完整,后者是可有可无(可多可少)的附加语。但其实在语言中,需要交代的常常不交代 不出现;可有可无的 往往具有语义的重要性。这道线很难划。语言不是按照逻辑设计的。

白:
语言也不是按照树设计的。多爹、非树是常态。

李:
几乎所有的及物动词都能省略宾语。省了以后,那个没出现的宾语,或者需要根据常识去理解,或者是根据上下文去理解,或者你知我知地通过心灵感应去理解,或者误解。也或者根本就不去(充分)理解:糊涂说 糊涂听 也一样交流。人类交流中 unspecified 的信息太普遍了 大家熟视无睹了。貌似交流也没受到阻碍。

白:
允许名词有坑,这都不是事儿。像上面例子,好像就逼着听话人选择哪个是没交代的。而不能是两个都没交代。

李:
青春期的坑是【human】,父母是【human】,这就算对上了。交代了。至于【父母】的坑,标题上下文里没见着,只好拉倒,stay unspecified。没有升格的理由。

白:
你这是从左到右思想作怪。那我问:“多动症父母指南”呢?

李:
从右到左试试?

“父母”的坑是【human】,左边的“青春期”不是【human】,但是青春期的坑里有一个尚未出现的【human】。如果要让正解出现,不仅需要从右向左,而且还要从别人的坑里面挖出一个根本没见影子的萝卜来。就算挖出来了,填进去的是谁还是一笔糊涂账,最多只能以常识默认推测之。

白:
把“青春期”处理成N+,不存在挖别人坑里萝卜的问题,但前面一些不严谨的表述需要修改。

对前面一些表述的修改:1、“青春期”是修饰语,无坑。2、“父母”取N输出,不在乎/N坑是否饱和,不是“升格”,而是正常的萝卜输出。图上两个方案,(2)的饱和度更高

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据