【语义网笔记：本体与知识图谱之辨】

【立委按】语义网＆知识图谱微信群是一个大群，里面不乏知识大佬和语义新秀。最近有人问本体（ontology）与知识图谱（knowledge graph）的异同，引起一番讨论，笔记如下，以飨同好。尽管有很多混淆和混用，这两个术语背后所对应的概念之辨识，在我看来是基础性的本质性的，值得详细解说和进一步讨论，hopefully,　此篇可以抛砖引玉。

梁：
今天读到赵丹老师的一篇讲知识本体的源流的文章，请教二位老师两个问题：1. 知识本体=知识图谱，是否也等于“元数据”？10几年前在北大读书的时候，还没有形成“大数据”新话语体系。那时开的课就是数据仓库、数据挖掘。里面对于数据库表头标签体系称为“元数据 meta data”。所以这里问一下，是不是可以等价

刘：
不是，本体，图谱，元数据是三个概念。可以理解为，图谱是一个简单缺少强逻辑关系的本体

鲍:
元数据，本体，图谱，链接数据，这几个词都是结构化数据在不同历史时期的营销名词。他们本身的ontological difference与其说是基于内涵定义出来的，不如说是结构化数据在不同历史时期外延不同表现出来的。十多年前，当本体和现在的知识图谱一样火的时候，人人皆称本体，各种研究数据库、逻辑、词汇表等等，都自称本体。现在则是所有和结构化数据有关的应用，都自称知识图谱。所以我以为，无需细究两者之间的内涵区别。过三五年，自然会有新词出来再取代它们。

赵：
本体论本身是有问题的，并不存在一个独立于人的思维之外的客观知识体系，知识都是具体的，被特定的人认知的，带有一定主观性的体系

Me:
虽然很多人混用虽然术语的流行具有历史性和时髦性其背后的基本概念的区别还是值得强调。本体论所代表的结构化数据的确带有元知识的意味处于一般的所谓知识图谱的另一个层面。我们在谷歌搜索中见到的知识图谱所支持的实体的关系以及相关信息不是本体而是情报。

本体作为元知识反映的是常识或相对恒定的知识它不具有情报价值，而通常所谓知识图谱则是情报挖掘的结果。这个区分极端重要因为这两种知识在如何形成何处使用等方面非常不同。

wordnet hownet 还有 cyc 这类知识都属于本体，它们是专家多年手工编制的其知识内涵有稳定性无情报性。也有自动形成本体或领域本体的工作这个工作叫知识习得（knowledge acquisition），而不是一般意义的知识图谱所使用术语信息抽取（information extraction）因为抽取的要点在于情报性在于提供具体实体及其关系和事件的流动性。文本挖掘 text mining 也被混用得不行。但最基本的理解还是指的信息抽取基础上的情报挖掘而不是本体的 acquisition

撇开术语被混用这种区别的关键在于对于自然语言理解而言本体知识是一个支持性的知识而图谱所反映的情报则是结果。换句话说前者是帮助理解的后者是理解后的输出。当句法知识（也可以看成是语言学层面的元知识形式语言理论里面叫元语言）不够用或者单单的句法不能排歧的时候语言理解往往需要借力本体。譬如 “鸡我吃了” 与 “我鸡吃了”，谁吃了谁句法上无法区分，本体里面的常识开始发力。“鸡”常常作为“人”的食品。“人”作为鸡的食品除了童话或狡辩外是站不住的。语言理解以后的信息抽取实体 who what 等发生何种关系 relationships 以及事件关涉到那些实体 Who did what to whom where when how and why ，回答这类问题的情报知识可以从知识图谱来。
班门弄斧一下。请知识大佬和后学批评。

鲍:
李老师说的很对。只是在实践中，大多数公司和研究paper里提到的本体和知识图谱，都没有这么精确，大家基本是把任何结构化数据都套上这个词。细分并不容易，因为概念建模对大多数研究生和程序员就和天书一样。

Me:
对混用很严重。概念区分很重要。特别是后学进入这个领域这个区分是基本的。深究起来还有灰色。但总体的分野是分明的。叫什么术语另说。

鲍:
gene ontology到底是本体还是数据？到底如何支持语义推理？计算机科学家研究了很多，可是生物学家也听不懂，依然按他们理解的方式用，他们就这这个当词汇表用，也一样好用。jim hendler曾做过统计，rdf和owl的实际使用，大部分都是“错”的。所以这里有一个工程师视角和科学家视角。其实还有一个商人视角。倒是图谱更加混杂有表示情报的有表示本体的。我们在媒体上读到的，大部分是商人视角。

Me:
不过很少有人拿本体表示情报。常识和情报的分野是根。
做本体不需要太多人上即便存在本体的领域化。做情报的图谱则不同，无时无刻没有情报产生因此需要不断抽取挖掘和整合以满足情报需求。难度也不一样做本体的是对人类常识和经验的概括，非大师不能。即便从大数据去习得本体（ ontology acquisition），定义本体，也是需要高度。情报性知识图谱则不同，任何产品经理，在了解客户需求后都可以定义。然后就是抽取挖掘。注意，学界对这两个动作用的是不同的术语前者叫习得（acquisition），后者叫抽取（extraction）。

鲍:
比如现在，大家把schema.org称为知识图谱，把dbpedia称为知识图谱，把图数据库称为知识图谱，把工商注册信息也称为知识图谱。把名词列表称为知识图谱，把分类树称为知识图谱。到底什么是知识图谱呢？我觉得，就从众好了。在学术界，我们还是沿用tbox和abox 那个肯定不会被滥用。

Me:

Cf:《语义三巨人》 - 李维的博文

三巨人中菲尔默的 Framenet 最尴尬，它反映的知识性质耐人寻味。里面所定义的 frames 很像是信息抽取领域的 templates 但是它是跨领域的自上而下成体系的，Frames 之间也具有 hierarchy，这与 ie 领域或产品经理定义的信息模版有所不同后者是领域的情报零散的。说它尴尬是因为这个 framenet 是从本体的角度概括情报结构，本来是想充当最终的领域情报的元知识组织者。但实际上几乎所有的领域情报信息抽取都绕过了它只是学界有人以这个标准组织竞赛和研究。业界不买账也有其道理因为情报知识图谱的元结构里面的 hierarchy，只有在信息抽取框架数量繁多需要规整成系统　实现资源继承和共享的时候，才可能体现价值。而知识图谱的研发还没有到那个规模，需要这种支持。

另一方面企图在文本挖掘中利用 framenet 里面的 frames 的抽取作为通向领域或产品情报的模版的思路理论上可以缩短到达应用层面的距离实践中不如直接从nlp的支持包括 parsing 的支持抽取来得简洁有效。

与此话题相关的术语混用也表现在【信息抽取】和【文本挖掘】上。很多人混用但严谨一些的学者其实有一个共识至少是概念层面的明确区分。术语不过是形式但讨论问题的双方对背后的概念分野如果不能事先相互理解很可能形成鸡同鸭讲的局面或争论得一地鸡毛。

quote 很多人混淆了抽取（information extraction）和下一步的挖掘（text mining），但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树，从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus，或数据源的整体，是从语言森林里面挖掘有统计价值的情报。在信息时代，我们面对的最大挑战就是信息过载，我们没有办法穷尽信息海洋，因此，必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用。因此挖掘天然地依赖统计，没有统计，抽取出来的信息仍然是杂乱无章的碎片，有很大的冗余，挖掘可以整合它们。
from：【立委科普：自然语言系统架构简说】

与nlp有关的术语体系我做过一些梳理主要为的是科普给新人。里面也涉及知识和语义层面的一些术语。也以一并留个链接请各位批评指正：【立委科普：NLP 联络图】。

【相关】

【立委科普：NLP 联络图】

《语义三巨人》

《知识图谱的先行：从Julian Hill 说起》

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》

【泥沙龙笔记：再谈知识图谱和知识习得】

《新智元笔记：知识图谱和问答系统：开题（1）》

《新智元笔记：知识图谱和问答系统：how-question QA（2）》

泥沙龙笔记：搜索和知识图谱的话题

a million dollar slide

【立委科普：信息抽取】