【语义网笔记：本体是名门闺秀，门当户对不容易】

AAAI 2018经典论文获奖者演讲：本体论的昨天和今天

李：
本体（ontologies）作为知识来源和知识基础道理上对于 AI 以及需要知识及其推理的智能系统应该广泛应用。但实际上使用却不多。作者指出了这个我们都意识到的问题并没给出清晰的解释。其实是有说法的。anyway AAAI 表彰这类工作是大好事。

漆:
Natasha这个工作在语义网还是有一定影响力的。她这几篇论文我读过，确实是跟一般做本体的人不一样，不是一个算法或者工具，而是一个工具群，而且还有医疗这块应用支撑。在本体匹配和融合方面的贡献还是很大的。当然，实用性应该也就那样了，毕竟还是大学的产物。

最近几年知识图谱兴起，本体也开始受到更多关注了，特别是palantir把本体用得很好，使得本体工程的实用性得到了更好的验证。但是本体构建的复杂度比较高，需要对业务和本体都有深入理解才能做好，这是本体工程的一个门槛。如何降低这个门槛，就是基于本体的知识工程实用化必须解决的问题。首先需要有一个很好用的工具，其次需要有好的知识工程师，工具演化，工程师的门槛就越来越低，否则工程师门槛比较高。

李:
其实无数系统都在用本体，不过大多是 system internal，临时自己凑的。因为外面来的太厚重往往不接地气不好用或者 learning curve 大。

漆:
以接近需求为驱动做的，丑点无所谓

张:
就像每个人都有自己的世界观和概念体系一样

李:
自己做虽然不系统但不妨根据需要慢慢丰富。用到 features 并对 features 做某种组织的系统基本都在不自觉地用本体，这类系统多如过江之鲫。

张:
就像科班出身和自学成才的区别

李:
外来的为什么不好用，不仅厚重，而且常常歧义太多太细用到的概念关键的节点和链条不多却带过来一屁股屎擦不干净。

张:
总是需要消化吸收

李:
我有切身体会。当年用 WordNet做NLP，先是想改造用了一年发现这屁股永远擦不完。索性横下心删除连洗澡水把那孩子也倒掉拉倒。然后自己从头开始往里面零星凑等于自己做个试管婴儿。清爽多了。

从 NLP 用途看，董老师的 hownet 比 wordnet 强多了。就是这样要以为拿来就能得心应手也会失望。善用和改造一个外来本体需要很多功夫和经验。本体还在积累和探索阶段，还没到知识大爆发其效用的时候。

秦:
对。知识工程学科贡献度太低了，这是不应该的。

李:
人工的本体语义大师们的几十年、一辈子的作品，往往为了逻辑完备性做得太精巧太细线条 hence 太歧义。高大上就不容易接地气不那么好用而且厚重（本体的本性）。机器自动挖来的本体，譬如当年微软NLP根据词典定义挖出来的 MindNet，太粗糙太庞杂或太多 noise，二者对于一个需要做实际系统的人来说都不那么好用。问题是，做实际系统的人面临的是领域问题本身有很多事儿要照顾本体只是其中一环很难兼做本体专家的工作。而本体是厚重的 by nature，也是自己的一滩对于专门家的素养要求很高。两路专家理论上应该精诚合作方成大事实际上却很难。你做的我感觉大炮打蚊子使不上力。我需要的跟你解释不清楚。提供方与需求方不接轨。造成了重复劳动各自为政。这种矛盾太普遍常见了各种对齐标准化都是试图解决它的某种努力但总体而言还没到本体大显神威的时机。

本体就好比一个名门闺秀高不成低不就，应用就好比一个暴发户，看着闺秀流口水，可是没有好招儿娶进门自己土包子吸引力也不够。只好自家养个童养媳，虽然土气点儿不性感也不大拿得出手上不了厅堂不好示人。但下得了厨房好使唤脾性也对路凑合过日子呗。

据说宋庆龄宋美龄这些大家闺秀都遇到过本体同样的困惑和苦恼。幸运的是两个人最后各自找到了一个可以做自己爸爸或者叔叔的盖世英雄。否则难以想象其高不成低不就的困境如何破局。

HowNet，Cyc，还有 FrameNet 都有类似的苦恼。一律是大师所为，曲高和寡，一律没有得到预想中应该得到的广泛应用（参见：《语义三巨人》）。反倒是领域的实体知识图谱，开始显示了巨大的应用价值。背后的本体却不见天日。可不少人还是隐隐觉得本体是蓄势待发。

【相关】

《语义三巨人》