【语义网笔记:本体与知识图谱之辨】

【立委按】语义网&知识图谱微信群是一个大群,里面不乏知识大佬和语义新秀。最近有人问本体(ontology)与知识图谱(knowledge graph)的异同,引起一番讨论,笔记如下,以飨同好。尽管有很多混淆和混用,这两个术语背后所对应的概念之辨识,在我看来是基础性的本质性的,值得详细解说和进一步讨论,hopefully, 此篇可以抛砖引玉。

梁:
今天读到赵丹老师的一篇讲知识本体的源流的文章,请教二位老师两个问题:1. 知识本体=知识图谱,是否也等于“元数据”?10几年前在北大读书的时候,还没有形成“大数据”新话语体系。那时开的课就是数据仓库、数据挖掘。里面对于数据库表头标签体系称为“元数据 meta data”。所以这里问一下,是不是可以等价

刘:
不是,本体,图谱,元数据是三个概念。可以理解为,图谱是一个简单缺少强逻辑关系的本体

鲍:
元数据,本体,图谱,链接数据,这几个词都是结构化数据在不同历史时期的营销名词。他们本身的ontological difference与其说是基于内涵定义出来的,不如说是结构化数据在不同历史时期外延不同表现出来的。十多年前,当本体和现在的知识图谱一样火的时候,人人皆称本体,各种研究数据库、逻辑、词汇表等等,都自称本体。现在则是所有和结构化数据有关的应用,都自称知识图谱。所以我以为,无需细究两者之间的内涵区别。过三五年,自然会有新词出来再取代它们。

赵:
本体论本身是有问题的,并不存在一个独立于人的思维之外的客观知识体系,知识都是具体的,被特定的人认知的,带有一定主观性的体系

Me:
虽然很多人混用 虽然术语的流行具有历史性和时髦性 其背后的基本概念的区别还是值得强调。本体论 所代表的结构化数据 的确带有 元知识 的意味 处于一般的所谓知识图谱的 另一个层面。我们在谷歌搜索中见到的知识图谱所支持的实体的关系以及相关信息 不是本体 而是情报。

本体作为元知识反映的是常识或相对恒定的知识 它不具有情报价值,而通常所谓知识图谱则是情报挖掘的结果。这个区分极端重要 因为这两种知识在如何形成 何处使用 等方面 非常不同。

wordnet hownet 还有 cyc 这类知识都属于 本体, 它们是专家多年手工编制的 其知识内涵有稳定性 无情报性。也有自动形成本体或领域本体的工作 这个工作叫知识习得(knowledge acquisition), 而不是一般意义的知识图谱所使用术语 信息抽取 (information extraction) 因为 抽取的要点在于情报性 在于提供具体实体及其关系和事件的流动性。文本挖掘 text mining 也被混用得不行。但最基本的理解还是指的信息抽取基础上的情报挖掘 而不是本体的 acquisition

撇开术语被混用 这种区别的关键在于 对于自然语言理解而言 本体知识是一个支持性的知识 而图谱所反映的情报则是结果。换句话说 前者是帮助理解的 后者是理解后的输出。当句法知识(也可以看成是语言学层面的元知识 形式语言理论里面叫元语言)不够用 或者单单的句法不能排歧的时候 语言理解往往需要借力本体。譬如 “鸡我吃了” 与 “我鸡吃了”,谁吃了谁 句法上无法区分,本体里面的常识开始发力。“鸡”常常作为“人”的食品。“人”作为鸡的食品 除了童话或狡辩外 是站不住的。语言理解以后的信息抽取 实体 who what 等发生何种关系 relationships 以及 事件关涉到那些实体 Who did what to whom where when how and why ,回答这类问题的情报知识可以从知识图谱来。
班门弄斧一下。请知识大佬和后学批评。

鲍:
李老师说的很对。只是在实践中,大多数公司和研究paper里提到的本体和知识图谱,都没有这么精确,大家基本是把任何结构化数据都套上这个词。细分并不容易,因为概念建模对大多数研究生和程序员就和天书一样。

Me:
对 混用很严重。概念区分很重要。特别是后学进入这个领域 这个区分是基本的。深究起来 还有灰色。但总体的分野是分明的。叫什么术语另说。

鲍:
gene ontology到底是本体还是数据?到底如何支持语义推理?计算机科学家研究了很多,可是生物学家也听不懂,依然按他们理解的方式用,他们就这这个当词汇表用,也一样好用。jim hendler曾做过统计,rdf和owl的实际使用,大部分都是“错”的。所以这里有一个工程师视角和科学家视角。其实还有一个商人视角。倒是图谱 更加混杂 有表示情报的 有表示本体的。我们在媒体上读到的,大部分是商人视角。

Me:
不过 很少有人拿 本体 表示情报。常识和情报的分野是根。
做本体不需要太多人上 即便存在本体的领域化。做情报的图谱则不同 ,无时无刻没有情报产生 因此需要不断抽取 挖掘和整合 以满足情报需求。难度也不一样 做本体的 是对人类常识和经验的概括,非大师不能。即便从大数据去习得本体( ontology acquisition),定义本体,也是需要高度。情报性知识图谱则不同,任何产品经理,在了解客户需求后都可以定义。然后就是抽取挖掘。注意,学界对这两个动作用的是不同的术语 前者叫习得(acquisition), 后者叫抽取(extraction)。

鲍:
比如现在,大家把schema.org称为知识图谱,把dbpedia称为知识图谱,把图数据库称为知识图谱,把工商注册信息也称为知识图谱。把名词列表称为知识图谱,把分类树称为知识图谱。到底什么是知识图谱呢?我觉得,就从众好了。 在学术界,我们还是沿用tbox和abox 那个肯定不会被滥用。

Me:

Cf:语义三巨人》 – 李维的博文

三巨人中 菲尔默的 Framenet 最尴尬,它反映的知识性质耐人寻味。里面所定义的 frames 很像是信息抽取领域的 templates 但是它是跨领域的 自上而下成体系的,Frames 之间也具有 hierarchy,这与 ie 领域或产品经理定义的信息模版有所不同 后者是领域的情报 零散的。说它尴尬 是因为 这个 framenet 是从本体的角度概括情报结构, 本来是想充当最终的领域情报的元知识组织者。但实际上 几乎所有的领域情报信息抽取 都绕过了它 只是学界有人以这个标准组织竞赛和研究。业界不买账也有其道理 因为情报知识图谱的元结构里面的 hierarchy,只有在信息抽取框架数量繁多需要规整成系统 实现资源继承和共享的时候,才可能体现价值。而知识图谱的研发还没有到那个规模,需要这种支持。

另一方面 企图在文本挖掘中利用 framenet 里面的 frames 的抽取作为通向领域或产品情报的模版的思路 理论上可以缩短到达应用层面的距离 实践中不如直接从nlp的支持 包括 parsing 的支持抽取 来得简洁有效。

与此话题相关的术语混用也表现在【信息抽取】和【文本挖掘】上。很多人混用 但严谨一些的学者其实有一个共识 至少是概念层面的明确区分。术语不过是形式 但讨论问题的双方对背后的概念分野如果不能事先相互理解 很可能形成鸡同鸭讲的局面 或争论得一地鸡毛。

quote 很多人混淆了抽取(information extraction) 和下一步的挖掘(text mining),但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus,或数据源的整体,是从语言森林里面挖掘有统计价值的情报。在信息时代,我们面对的最大挑战就是信息过载,我们没有办法穷尽信息海洋,因此,必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用。因此挖掘天然地依赖统计,没有统计,抽取出来的信息仍然是杂乱无章的碎片,有很大的冗余,挖掘可以整合它们。
from:【立委科普:自然语言系统架构简说】

与nlp有关的术语体系 我做过一些梳理 主要为的是科普给新人。里面也涉及知识和语义层面的一些术语。也以一并留个链接 请各位批评指正:【立委科普:NLP 联络图 】

 

【相关】

【立委科普:NLP 联络图 】

语义三巨人

《知识图谱的先行:从Julian Hill 说起》

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

泥沙龙笔记:搜索和知识图谱的话题

a million dollar slide

【立委科普:信息抽取】

【关于知识图谱】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论