【尼沙龙笔记:从AI那点事儿聊到知识图谱】

洪:
老尼八卦真是勤快:
红利扑克:王劲其人-好色、背信、拍马屁

陈:
到了百度,他带去了得意手下Alex(新加坡人),某丽(美籍华人),还有旧部某栋,还接管了金牌得主大牛戴某渊。他咋啥都知道。还好没说洪爷。

洪:
的确道听途说,许多因果都颠倒了。某栋是我拉进去做凤巢,老王来了就跑路了

陈:
你也是坏淫啊

洪:
老尼八卦忒勤奋,
道听途说扒某劲。
天地或真显冥冥,
有绳有网施报应。

行:
老尼看来就主要对x劲来劲

李:
老尼不是尼克吗?
AI那点事儿,非尼老莫属,有道是:

尼老老尼拧不清,
AI 八卦两争雄。
一神一鬼一冰冰,
老道洪爷说分明。

洪:
我以前跟人总结说,某栋来助一臂之力做凤巢(其实他原来是edward chang下面做social network机器学习推荐算法的,也不是做广告的),某度尝到了招谷里人的技术甜头。过了一年凤巢都上线了。隔壁老王带俩管理的人他们才来,本来老王允诺要来的技术专家某Paul被腾讯截胡抢走了。就这样,技术甜头成了管理毒药。

“尼”真是好字,谁粘谁

李:
洪爷不出山写本英雄传,正本清源,可惜了。看尼克形单影只孤身奋战,谣言比八卦远行 —- 唯冰冰永存。

洪:
都是江湖破事,不值得写书。悠悠万事,唯此为大,还是AI为重。

李:
认真说,我对历史八卦兴趣不大,倒是非常好奇这一波AI热如何收场,我们都是不同程度的吹鼓手。泼冷水偶尔为之,但总体大多推波助澜,可三年、五年、八年之后究竟如何呢?有点害怕。“谨慎乐观”感觉上甚至都太乐观了一点。万一历史循环,AI 打入冷宫,不受人待见,我们这拨人要想等下一波的AI热,是没戏了。到时候,我们人人都可以学个星座,做八卦家,把酒话桑麻,对着资深女神冰老太,哼着AI小曲儿:商女不知亡国恨,隔江犹唱后庭花. …..

唐:
以中国干大跃进的精神,这次AI肯定吹过了。

李:
问题是:这次大跃进可以不可以软着陆?省得鸡飞蛋打,大家伙儿都成了殉葬品。

张:
现在政府把AI作为政绩,如果谁谁引进国际知名专家(比如太湖洗澡蟹从阳澄湖捞出来)然后成立一个联合研究中心,各大园区可以给几千万到一个亿。各位大咖赶脚的,过这村没这店了。

洪:
AI落到实处就跟数据库似的,休要担惊少要害怕@wei

唐:
AI都经历过两次寒冬了,第三次来了也不怕。尤其是打算做AI芯片的,寒冬时做才能踏在前人的血迹上前进。

洪:
年轻人挣房钱奶粉钱,院士们挣名利,政客挣中国梦,……,各得其所

尼:
@唐 寒冬时也没见你做啊。

唐:
我上次做的也是NPU。

洪:
NP了您啊。

李:
@洪 AI落到实处就是知识图谱,可不就跟数据库似的。我心戚戚呀。洪爷火眼。

董:
@洪 真正的明白人,深刻、看得透。

唐:
知识图谱不是很难表达有条件的知识吗?要想快速落地,我觉得还是规则库靠谱。

李:
那就结合呗,横竖都是库。 库啊、谱啊就是个筐,啥 AI 都可以往里装。

唐:
关键还是几个数据库之间的join比较难做?在工程实践当中还是有点难度处理的。

李:
现如今图谱好听,就叫图谱,里面可以有 unigram 知识,bigram 的关系,if then productions (所谓产生式),甚至 prolog backtracking,……

董:
如今流行的“知识图谱”是怎么告诉计算机:“什么是‘有/‘have’’?

唐:
Prolog缺的是现在大数据最擅长的统计学知识。很多知识是动态的。例如:过去五天工作日的平均值,这个知识图谱无法表示,需要动态地计算。

李:
唐老师的视角还是太技术细节,太工程,技术上的实现与打通终归是可行的,只要哲学不错,实现上有的是能人。认真说,从万米高空俯瞰知识表达,没结构的知识就是传统词典,里面除了入口词,output就是各种features,那是通向ontology的门票。有结构的知识统统可以叫图谱(graph,广义),包括 svo(open domain 的碎片事件),包括 ontology,里面分常识 (HowNet,cyc)与领域知识(譬如“产品目录手册”),再里面可以区分简单知识,与经验型推理知识,后者也可以涵盖从大数据挖掘出来的 if then scenario,以及 hidden links,它们不再是碎片化情报,也不是大数据显性表达的事实(已知信息),而是蕴含在千千万万事实里面的 correlations,是 derived 出来的新知识,积淀为领域场景经验的形式化,这是对领域本体知识的一个动态补充,可算是图谱事业最前沿的研究了。大数据挖掘出来的过往trends,可以是对未来预测的很好的输入。

最后,也是最核心最基础的,就是情报类知识(知识图谱的本义,或窄义),也是静态语汇为基础,不过入口词大多为实体名(named entities),里面就是实体间关系(relationships),然后就是事件(events),事件串起来就成了story ……

唐:
大体上就是这些知识。 综合起来是一项复杂的工程实践。

李:
有了story 就好说事儿了。有句名言(到处都是这大标语),云:抬头讲故事,低头思故乡 ……
oops 低头干实事儿。

唐:
我们现在就在做。领域知识+安全情报的结合。 发现这主要是数据清理的活。

李:
清理极端重要。不过听上去不够高大上,给人感觉就是个扫大街的。唐老师是实干家。

唐:
被逼无奈,以解决问题为主。

李:
知识(图谱)的事儿 的确是一个巨大的系统工程。这方面 还真应该赞佩一下 IBM,他们懂得怎么把混杂的知识捏在一起,成就一个计算机博物馆里的里程碑事件(博物馆有几个AI里程碑展厅,其中一个就是IBM花生系统在知识问答TV竞赛中击败人类)。当然 人家也有那个财力和底气。

洪:
@wei 这两天我献给你一个打油偈子。

李:
打油在哪儿?我不怕打油 ….. or 被打油。

洪:
@wei 我还在酝酿啊,从你翻译的ken church的钟摆开始说起。

李:
从来没有耐性做翻译,但那篇太经典,是@董振东老师给我特别推荐的,最后下定决心翻译出来。以对经典的虔敬心理,字斟句酌,旬月踯躅,有些细节反复与 Church 电邮请教商榷。董老师也做了审阅 ,终于成篇。【计算机通讯】发了后,貌似没有动静,毕竟与主流的调子不合拍。后来被一个叫《机器之心》的转载,才似乎传播开一点。人智八卦大师尼克也点了赞,NLP 的钟摆,就是 AI 起落的实例。

NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》(全)

郭:
@wei 这篇现在看,写的早了些,缺乏对深度神经的洞察,因而现如今不容易触动人心,还不如一句“炼丹术”激起千层浪。

李:
天不变道不变,天变了道亦不变,是为经典。

其实 Church 写完后颇落寞,根本没啥动静呀。新锐不理他(机器学习老一辈不吃香了,新一代深度学习小牛成长起来,此一时彼一时,长江后浪推前浪啊)。他是统计派老革命家,我写信问他深度神经与AI钟摆的关系,他回说:看样子钟摆的理性主义回摆还要延宕10年,这波深度神经热潮够他们忙一阵子了。

是啊,人类本性,不触礁,不回船。现在呼吁两派革命大团结的,大多是老司机了。他们辉煌过,也触过礁,知道AI和NLP的深浅,而且忧国忧民,不像初生牛犊那样高歌猛进无暇他看。

写这句结语的时候,在我心中,老司机就是李航这样的,而初生牛犊 我也见过几个 那真是满满正能量,AI 乐观主义,很感染人:新锐AI技术领军,单气势就招人喜爱。在他们面前,老朽不知道说啥好了,先道天凉好个冬,再道冬至饺子香(南湾有个同同手工水饺,昨晚去那叫一个门庭若市)。

在最近的中文信息学会年会上,李航和我都被特邀做了报告,我谈中文NLP的迷思及其化解之道,顺带批判乔姆斯基搞砸了符号逻辑和规则系统,李航强调的是知识记忆,觉得这是AI的未来,因为目前AI主流大多是端到端,老熊掰棒子,没有知识积累,知识都是从带标大数据现学的,换一个项目,一切重来。李航 argue 说,这不是人类的知识学习方式。我问他,难道知识图谱不是知识积累和记忆吗?他说,也许我说没有记忆和积累是 overstatement,知识图谱的确是积累并且可以跨项目重复使用的。但他又 added 说,但大多数系统是不用知识图谱的。他说得对,知识图谱作为话题虽然很热,但真正用知识图谱做系统应用的人目前很少。但我个人认为,未来应该是个大方向。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论