【与董老师对话:什么是知识图谱?】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题,并分享给各位。面对层出不穷的新生术语和流派,董老师谦逊为怀,不耻下问,让我受宠若惊。我的来自实践的一些粗浅见解,岂及知识大师董老师学问之万一,不胜惶惶。董老师是我一辈子最仰慕的前辈导师,他的逻辑语义学说(逻辑语义及其在机译中的应用)是我入行的导航,他的《知网》(HowNet)是探索人类知识体系结构和常识表达的一个丰碑,其价值必将超越时间和流派( 参见我写的《语义三巨人》)。在很长的时期,董老师是中国计算语言学界的旗帜和对外交流的大使,是中国第一个把机器翻译系统推向大规模实用的先驱(“译星”)。30年前在中关村高立公司兼职搞MT研发的时候,我就有幸与董老师在一起半年左右,当面聆听教诲,受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系,开始酝酿《知网(HowNet)》,酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍,终成正果。我出国前不久,那是1989年风波前夕,中国自然语言界在香山开了个研讨会(年会?),我的导师刘倬先生与董老师在会上就NLP所做的对话,人称“刘董对话”,成为大会热议的主题,此段掌故仍记忆犹新,【立委小传】中有记叙。如今董老师80高龄,离而不休,依然在自己家里亲自上线做系统,深入探索自然语言句法和语义解析,其精神令晚辈高山仰止。


91年出国前在高立合影留念(右下1是董老师,2是我,3是刘倬老师,4是高立CEO)

董:
请给我点启蒙:为何叫”gragh“了?不叫”KB“或”ontology“了。why Google called it "graph"? What does it mean by "graph"?

李:
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google.  Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题--知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例,来说明:在什么情况下必须用到知识图谱了,然后该系统就调用了只是图谱,于是就解决了那个难题了。这样我也许能理解了,也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子 他是怎么炒热这个概念的。

搜索每个人都用,你给一个关键词,它回给你一系列文章的链接,这些文章与之相关,用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾,实际上,越是长尾罕见的关键词query,效果往往越好,这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多,搜索的是实体名,譬如明星,VIP,好莱坞大片或世界500强。对于这类搜索,返回相关文章序列让人看,实在太粗糙了。

于是,他们事先把相关信息结构化、组织好,相互链接,存在某个地方,起了个名字 叫知识图谱。然后一旦查中,就把这整合浓缩了的,比较全面完整,并且充满相关链接的实体信息,和盘托出。结果大家都知道了,无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念,早谷歌十几年我们就提出,而且也实现了,实现在国防部的反恐情报分析挖掘系统中,也实现到我们的b2b品牌情报的商业产品中(参见《知识图谱的先行:从Julian Hill 说起》)。不过当时起名 Entity Profile(EP),而不是 KG (Knowledge Graph)而已。

@董振东 这应该是回答了 非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了,然后想象当年的没有图谱的搜索结果来做比照,说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索,然后可视化展示。其他的图谱应用可以是回答问题,再进一步可以是通过图谱关联做一些推理。理论上,信息组织成图谱了,结构化了,就可以做很多事。

董:
谢谢,李维。再多问一句:这种种图谱,是机器自己做呢,还是人手工做呢?

李:
谷歌是购买 freebase 做为基础,基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了,怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile(刚开始叫 Correlated Entity,CE,也是反映了实体互相关联的本质),简称 EP,我自己不知道怎么翻译好,就译成“实体概览”。后来这个术语也还是流行了,不过到了中文,一般翻译成了“画像”,而不是“概览”。譬如,电商领域大家都谈“商品画像”、“用户画像”,约定俗成。

画像比图解还俗一点,可大家都用,也习惯了。Note 这是图谱的实体名词为中心的一个信息角度,还有另一个以事件动词为中心的图谱角度,目前还没有约定俗成的统一术语命名。MUC (Message Understanding Conference)的信息抽取共同体里面,一般称事件图谱为为 Scenario Template(ST),我归类为 Predefined Event (PE),为的是与 SVO (Subject Verb Object)为核心的 open ended General Event (GE) 比照。把 events 序列串成一个story的结果,叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想,我叫它信息体理论(Theory of information Objects, 参见 《科学网—前知识图谱钩沉: 信息体理论》),成型在我给国防部项目的最后报告里,此不赘述。当然人微言轻,这些思想在今后的知识图谱的发展中,肯定会被别的等价或类似的术语替代,有话语权又能让共同体接受的 往往是巨头。可以拭目以待。

董:
说得好!

李:
近年哈尔滨刘挺老师那里,开始宣扬一个“事理图谱”,似乎闹出一些动静,这就是沿着 event 这条线,概念上非常接近 scenario。事件图谱(or 事理图谱)与实体图谱,虽然二者交叉,你中有我,但事件图谱比实体图谱更难构建,应用起来也更具挑战性。一切还在 evolve。

然而,万变不离其宗。其实这一套所谓知识图谱背后的概念体系,并没有超越《知网》(HowNet)的设计哲学。董老师应该感觉欣慰,语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同,术语名词不过是皮囊。HowNet 是打语义结构体系基础的,是元知识(meta knowledge)体系,面对万事万物的本体(ontology)。 而当我们一旦进入问题领域,我们面对的不再是本体概念,而是一个个实体(individual entity)。 于是实体名(Named Entity,NE)成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology,来作为其 schema 的定义和软约束:这在定义图谱的时候需要用到。

董:
很多年前,刘挺他们曾让我去他们团队,他们跟我讨论过如何建立,例如夫妻关系,在网上搜索相关的事件。这跟实体类相关一样,不从底层来,怕是不好做的。如果是就事论事,那还好,不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释,我知道更多了。

李:
确实更加贴近应用,是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是,把我们在NLU (NaturalN Language Understanding)做无边无沿自动句法解析(parsing)的 SVO(主谓宾)类的语义表达放在一边,重新定义了领域应用驱动的实体抽取和事件抽取(领域事件的例子有“高管变动”事件,CXO上台下台的情报)。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用,创立了信息抽取(Information Extraction,IE)这个领域,也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘,但我们其实可以继续SVO的解析而做得更精准,更具有领域普适性,增强快速领域化的能力。这一点(以parsing支持IE)已经经历十几年的反复实践,其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情,是在我们的分析基础上的再开发。例如:“从轻”的根据之一是“共同犯罪”,而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同...”等等提取的。

李:
实体图谱个人画像(很像履历表)中的一类重要关系就是人与人之间的关系,包括夫妻关系,上下级关系,其他家庭关系等。这就是一个事实的挖掘(公司里面叫 org chart),应该是数据驱动的。

董强做的也是领域数据抽取和挖掘,结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘,绕过了 parsing 和本体知识库。一般来说也是可行的,前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了(有利白领就业,应予鼓励)。尽管如此,人工标注总是一个极大的知识瓶颈(knowledge bottleneck),除非要标注的任务是单一不变,或像机器翻译(MT)那样是自然形成的(人译从来就有,因此永远有积累的海量标注在)。

董:
是的,在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门,受益匪浅。

李:
不敢。祝董老师和全家,平安夜平安喜乐,圣诞节幸福吉祥!

1989年在荷兰,与董老师及BSO多语机器翻译项目组长合影

 

【相关】

【语义网笔记:本体与知识图谱之辨】 – 立委NLP频道

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行:从Julian Hill 说起》

《语义三巨人》

【董振东:逻辑语义及其在机译中的应用】

【立委小传】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据