【李白60：事理图谱之辨】

宋:
“普京称，特朗普问了一些尖锐的问题，显然他对某些事情的细节很感兴趣，所以他也尽可能地详细地回答了他。”（来源：看看新闻）三个“他”各是谁，机器能识别码？

白:
这也是“事理图谱”的覆盖范畴，甲问乙，乙答甲。

李:
他回答他，句法绑定理论（Binding Theory）决定了不是一个人。
x 问y ==> y回答 x, 这个知识 hownet 恐怕有。第三个 “他” 于是绑定 “特朗普”，第二个“他” 于是不可能是“特朗普”，上下文只剩一个“普京”，那就是“他”了。至于第一个 “他”，语言的就近原则就对了，绑定“特朗普”。如果用知识推理，那就蛮复杂：需要在【提问】与【感兴趣】的概念之间，建立某种互为因果的联系：

x 问关于y 的问题《==》 x 对 y 感兴趣

这是符号逻辑。至于大数据如何反映，“事理图谱”如何表达和支持，这里面水不浅。

不太明白的是，这所谓事理图谱，到底是本体类的图谱（ontology graph），还是情报类的图谱（intelligence graph）。从命名看，应该偏重本体。那就跳进一个大泥坑。本体不是不可以自动图谱化（严格一点的术语叫知识习得，knowledge acquisition，而不是情报类的信息抽取 information extraction，【语义网笔记：本体与知识图谱之辨】），但是很难很快奏效，也很难打过 hownet 和 cyc，除非是先从 domain 本体着手，各个击破。情报类图谱就是靠 domain 取胜的，本体图谱也应该是这个方向。

白:
本体/情报这个区分完全是工程化的，原理机制方面看不出来不同。所谓原理机制，无非就是核心动词怎么传播，坑怎么跳接。打和伤，打传播到伤，打两个坑，其中受事那个坑跳接到伤的当事。明白传播和跳接，这个游戏就可以玩下去了。面向领域见效快些，产品好包装些。面向本体见效慢些，可能不走产品的路子而走公共服务的路子。但这是商业模式问题而不是技术问题。

李:
情报的立足点是个体（NE），本体的立足点是群体类型（categiry concept），目标相差远去。后者人工具有显著优势，所以说想打败 hownet 并非易事。这是从知识本身、知识的获取和表达来看。至于知识的应用、知识的推理、推理中的模糊与逻辑的平衡等等，又是另一个挑战。而情报图谱的应用相对简单，无论是支持搜索还是挖掘。支持预测比较难些。本体知识因为并非情报，而是常识或专业知识，属于教育的范畴，谈不上搜索、挖掘和预测。

白:
说来说去还是商业模式。定性预测和定量预测又是两回事。涨不涨，和涨多少点，不一样。

李:
我想说的是所谓事理图谱，是个吃力不讨好的活计。高校里面立项做个研究可以，应用上基本可以无视。学了半天也不过就是学会了诸如【x 从 y 那儿买了 z】 == 【y 卖了 z 给 x】，【x 吃饱了 ==》 x 不饿】等等。这种事理哪里用得着去学，拍着脑袋可以想出来更多、更周全、更体系、更逻辑。

白:
法律文书处理需要。证词这么表述，起诉那么表述。这还只是paraphrase。如果涉及到行为与后果，还是要在动作之间传播，比如打与伤。如果要打造alphago级别的律师，这点事儿是必须搞定的。最起码的。说这事儿没有效益，可能过于托大。

李:
两码事儿：本体知识图谱是一码事儿，利用这个图谱做有效的推理应用是另一码事儿。前者基本没有效益，有那个力气不如把 hownet 进一步完善。后者才是痛点。

白:
我是说从建设的内容看，你分不清是给研究用的还是给应用用的。

李:
谁先把 hownet 或 cyc 里面的知识体系（时髦词叫 “图谱”）用起来，用到 50% 就很了不起了。

白:
绝对不是那个路数。应用的人没那么傻，有现成的好东西不用。问题不是不用，是路数不对。不可用。

李:
傻不傻，要先看到应用实例才好。事理图谱成功应用的突破，咱等着看吧。

cyc 的失败不是知识获取的失败，这方面愚公移山，知识增量获取，知识只会越来越丰富。知识丰富了，没法用才是问题。

白:
就说跳接这事儿，用重武器和用轻武器有本质不同。用轻武器同样可以做的事儿，为啥要用重武器。重武器的副作用太大。

李:
如果事理图谱，也像情报图谱一样，追求的是图谱的建立，那就没有情报图谱的成功可能。

白:
你要等他，要养他。还要顺着他。其实应该他顺着你。

梁:
小声问一句，事理图谱是因果关系图谱吗？

白:
不完全是

李:
我理解就是本体图谱。搞不清对象是常识还是专业知识，还是兼而有之。

白:
有些因果上没道理的事情，事理上有道理。比如，该来的没来--》我是不该来的；
不该走的走了--》我才是该走的。

李:
这样的事理，已经不再独立于语言和文化了。那就比普世（universal）的常识和专业知识更加广泛了。

白:
作案是专业知识，作案里动作之间的关联是常识，没有常识托底的专业知识是有断层的。法律条文是专业知识，案情的描述靠很多常识勾连在一起。在分析案情与法律条文适配性的时候，必须二者兼而有之而且在结合部无缝切换。

李:
对，是个 hierarchy 。

白:
paraphrase可以有更简单的处理方法，就是相对行为在转换为内部表示时是标准化的：
买和卖，娶和嫁，借和贷，都可以。这个不算推理，甚至也不算传播，内部表示都是个trans就得了，只不过参数摆的地方不一样。

李:
真正在应用中的痛点是：

1. 不是没有知识，而是有了知识也不知道如何用
2. 很多时候没有知识也达到了目的，所以见知识就用，往往弄巧成拙
3 就事论事容易，总可以谈出背后一大堆“事理”出来：本群的很多有趣的讨论和钻牛角尖，就显示了这些事理。但是要想找到一个高效的通用算法，来用这些事理知识，那是真地很难。

白:
在不知道知识长什么样时，谈算法是很空的一件事，算法和表示几乎是同时确定的，而不是表示在先，算法在后。

李:
情报图谱的表示与算法可以分开。可以把情报挖掘，建立一个图谱表达。至于别人用什么算法去用它，可以是另一回事儿。其实，我各行各业的分析员一直都在手工做情报图谱，他们并不懂什么算法不算法。自动生成的情报图谱，只要提供一个类似 sql 的搜索图谱的接口就完事。但是，本体图谱不同。它本身不是情报，都是吃饱了不饿这类“废话”，没有应用价值。所以，一定要想清楚如何用它，才能显示价值。

白:
paraphrase和传播是必须的。无方向感的推理可以免了。

李：
想清楚如何用它是比获取和表达，难度大得多的事儿，这里面包括想清楚何时和如何不用它。

白:
用它从来不是问题，问题的关键是“它”是谁。如果是hownet或者cyc，基本可以打住了。一定是把知识的使用圈到一个很务实的圈子里，足够轻，然后才谈得上获取和表达。本体重实体和实体的构成类型，事理重事件和事件之间的传播和激活。这俩早晚要区别对待。混在一起打乱仗是要死人的。现在技术层面的问题是解决坑的跳接。

李:
打乱仗的常见案例是，不知道何时不该用不能用“事理”。对于不合事理的事儿，自然不能用事理理之。

【相关】

【语义网笔记：本体与知识图谱之辨】

【泥沙龙笔记：再谈知识图谱和知识习得】

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》

【立委科普：本体知识系统的一些历史掌故和背景】

《对于 tractable tasks, 机器学习很难胜过专家》