【立委科普:实体关系到知识图谱,从“同学”谈起】

同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是:

1. NE1 BE NE2 的 R
张三是李四的同学
== 李四是张三的同学

2 NE1 NE2 R
张三李四同学过
== 李四张三同学过

3 NE1 AND NE2 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

4. NE1 NE2 BE R
张三李四是同学
== 李四张三是同学

5 NE1 AND NE2 是 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

6 NP(Plural)R
她们从小同学

“她们” 不仅仅是 Plural 而且必然是指的 2 entities

7 NP(Plural) BE R
她们是同学

BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP:

“我的同学” 逻辑上等价于
==【我】是【我的同学】的同学
==【我的同学】是【我】的同学

假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是:

【我的同学(张三)】是【我(李四)】的同学。
== 张三是李四的同学。

逻辑表达式是: 同学{张三,李四}
Note 谓词后是集合 { ...... } 不是 list < ...... > 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。

最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《知识图谱的先行:从Julian Hill 说起》),我们当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。

好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。

 

【相关】

【Bots 的愿景】

知识图谱的先行:从Julian Hill 说起

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

《有了deep parsing,信息抽取就是个玩儿》

泥沙龙笔记:搜索和知识图谱的话题

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据