【Bots 的愿景】

其实 所谓 bots 只是一个用户端的入口,不久未来的世界中的人机接口。

从长远来看,它不仅仅是连接音响或其他apps的启动装置,也不满足于做一个聊天的玩具。加入知识图谱以后,它就变成了知识问答。IBM沃森的问答超越人类,作为AI的里程碑,其背后的原理也不过如此。沃森系统更多是工程的成就,而不是研究的突破,是大数据 大架构 大运算的成果。从系统本身看,并没有超出我们当年做问答系统的基本原理和算法。在第一届 TREC-8 问答系统大赛中,我在Cymofny做的QA系统赢得第一名,66 分,比 IBM 系统(沃森系统的前身)超出了 20 多分。他们后来的成就是因为 IBM 有实力把这个工作进行到底,而整个业界在 NASDAQ 2001 年坍台以后,全部抛弃了 QA 的应用开发,投资人撤资或冻结这方面的任何尝试。我们当年是转向去专做企业情报挖掘了。

广义的图谱包括 parse trees 可以对付无法预见的语义搜索的长尾问题。本义的图谱专指针对领域和应用的 predefined 的知识挖掘,可以精准回答可以预见的问题。由于大数据的信息冗余,使得 imperfect NLP 技术也一样在问答应用上闪闪发光,打败人类。IBM 系统底层的 NLP 和 IE 内核,据了解并非一流的水平,但这不妨碍它在大数据大运算大存贮大架构的工程运作下,一鸣惊人。

图谱是动态的,这一点有几个应用方面的视角:

首先,图谱的知识来源是动态的,因此图谱需要定时和不断地更新
我们做社会媒体挖掘,挖出来的 sentiment 图谱大约是一个季度更新一次,有特别需要的时候更新更快。在并行云计算的架构里,每次更新前后需要约三周时间 近200台servers。

其次,图谱里面的关系和事件是动态连接的
它有无数种进一步组合的可能性,也有进一步挖掘其隐含关系或 trends 的潜力。这些潜力需要一个触发机制去调动它 根据应用的需要和接口。

浅谈一下使用动态图谱的几个场景:

1 semantic search:包括 SVO search

这是对关键词搜索的直接延伸,保留了关键词搜索的应对长尾的能力,可以应对无法事先预见的问题和信息索求,同时大幅度提高搜索的精准度 借助(广义)图谱或 parse tree 的结构 leverage。

2 问答系统

这是对可以事先预见的问题,或一个领域的 FAQ 等设计的 是知识图谱的拿手好戏。根据需要回答的问题,制定图谱抽取挖掘的目标,针对性强,有备而来,焉得不成?

3. 智能浏览

这也是图谱的拿手好戏,因为图谱本身就是互相连接的实体的关系与事件的巨大的网络。只要有一个起点,顺藤摸瓜似的动态智能浏览可以设计得随心所欲,让信息随着人的关注点动态 real time 转移,满足人类没有特定目标或只有模糊目标时的信息需求 对于研究者是特别有力的工具。

 

【相关】

【立委科普:实体关系到知识图谱,从“同学”谈起】

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据