【语义网笔记:本体是名门闺秀,门当户对不容易】

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

李:
本体(ontologies)作为知识来源和知识基础 道理上对于 AI 以及需要知识及其推理的智能系统 应该广泛应用。但实际上使用却不多。作者指出了这个我们都意识到的问题 并没给出清晰的解释。其实 是有说法的。anyway AAAI 表彰这类工作是大好事。

漆:
Natasha这个工作在语义网还是有一定影响力的。她这几篇论文我读过,确实是跟一般做本体的人不一样,不是一个算法或者工具,而是一个工具群,而且还有医疗这块应用支撑。在本体匹配和融合方面的贡献还是很大的。当然,实用性应该也就那样了,毕竟还是大学的产物。

最近几年知识图谱兴起,本体也开始受到更多关注了,特别是palantir把本体用得很好,使得本体工程的实用性得到了更好的验证。但是本体构建的复杂度比较高,需要对业务和本体都有深入理解才能做好,这是本体工程的一个门槛。如何降低这个门槛,就是基于本体的知识工程实用化必须解决的问题。首先需要有一个很好用的工具,其次需要有好的知识工程师,工具演化,工程师的门槛就越来越低,否则工程师门槛比较高。

李:
其实无数系统都在用本体,不过大多是 system internal,临时自己凑的。因为 外面来的 太厚重 往往不接地气 不好用 或者 learning curve 大。

漆:
以接近需求为驱动做的,丑点无所谓

张:
就像每个人都有自己的世界观和概念体系一样

李:
自己做虽然不系统 但不妨根据需要慢慢丰富。用到 features 并对 features 做某种组织的系统 基本都在不自觉地用本体,这类系统多如过江之鲫。

张:
就像科班出身和自学成才的区别

李:
外来的为什么不好用,不仅厚重,而且常常歧义太多 太细 用到的概念 关键的节点和链条不多 却带过来一屁股屎 擦不干净。

张:
总是需要消化吸收

李:
我有切身体会。当年用 WordNet做NLP,先是想改造 用了一年 发现这屁股永远擦不完。索性横下心删除 连洗澡水把那孩子也倒掉 拉倒。然后 自己从头开始 往里面零星凑 等于自己做个试管婴儿。清爽多了。

从 NLP 用途看,董老师的 hownet 比 wordnet 强多了。就是这样 要以为拿来就能得心应手 也会失望。善用和改造一个外来本体 需要很多功夫和经验。本体还在积累和探索阶段,还没到知识大爆发其效用的时候。

秦:
对。知识工程学科贡献度太低了,这是不应该的。

李:
人工的本体语义大师们的几十年、一辈子的作品,往往为了逻辑完备性 做得太精巧 太细线条 hence 太歧义。高大上 就不容易接地气 不那么好用 而且厚重(本体的本性)。机器自动挖来的本体,譬如当年微软NLP根据词典定义挖出来的 MindNet,太粗糙 太庞杂 或太多 noise,二者对于一个需要做实际系统的人来说 都不那么好用。问题是,做实际系统的人 面临的是领域问题 本身有很多事儿要照顾 本体只是其中一环 很难兼做本体专家的工作。而本体是厚重的 by nature,也是自己的一滩 对于专门家的素养要求很高。两路专家 理论上应该精诚合作 方成大事 实际上却很难。你做的 我感觉大炮打蚊子 使不上力。我需要的 跟你解释不清楚。提供方与需求方 不接轨。造成了重复劳动 各自为政。 这种矛盾 太普遍常见了 各种对齐 标准化 都是试图解决它的某种努力 但总体而言 还没到本体大显神威的时机。

本体就好比一个名门闺秀 高不成低不就,应用就好比一个暴发户,看着闺秀流口水,可是没有好招儿娶进门 自己土包子 吸引力也不够。只好自家养个童养媳,虽然土气点儿 不性感 也不大拿得出手 上不了厅堂 不好示人。但下得了厨房 好使唤 脾性也对路 凑合过日子呗。

据说宋庆龄宋美龄这些大家闺秀 都遇到过本体同样的困惑和苦恼。幸运的是 两个人 最后各自找到了一个可以做自己爸爸或者叔叔的盖世英雄。否则 难以想象其高不成低不就的困境 如何破局。

HowNet,Cyc,还有 FrameNet 都有类似的苦恼。一律是大师所为,曲高和寡,一律没有得到预想中应该得到的广泛应用(参见:《语义三巨人》 )。反倒是领域的实体知识图谱,开始显示了巨大的应用价值。背后的本体却不见天日。可不少人还是隐隐觉得 本体是蓄势待发。

 

 

【相关】

语义三巨人

掌故:“白头宫女说微软”

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据