【泥沙龙铿锵行:再论NLP与搜索】

李:上次提过,先搜后parse,是可行的。

早在十几年前,AskJeeves 被华尔街追捧。这里面也有很多IT掌故我专门写过博文( 【问答系统的前生今世】【 金点子起家的 AskJeeves 】)。 当时NLP (Natural Language Processing) 红透半边天,下一代 Google 呼之欲出的架势,尽管AskJeeves其实NLP含量很低。他们不过利用了一点NLP浅层对付问题的分析。这才有我们后来做真正基于NLP的问答系统的空间。

就在AskJeeves上市的当天,我与另一位NLP老革命 Dr. Guo,一边注视着股市,一边在网上谈先search后parse的可行性。此后不久我的团队就证实了其可行,并做出了问答系统的prototype,可以通过无线连接,做掌式demo给投资人现场测试。当年还没有 smart phone 呢,这个demo有wow的效果,可以想见投资人的想象被激发,因此我们顺顺当当拿到了第一轮一千万的华尔街风投(这个故事写在《朝华午拾:创业之路》)。

问答系统有两类。一类是针对可以预料的问题,事先做信息抽取,然后index到库里去支持问答。这类 recall 好,精度也高,但是没有 real time search 的灵活性和以不变应万变。

洪:文本信息抽取和理解,全靠nlp

李:另一类问答系统就是对通用搜索的直接延伸。利用关键词索引先过滤,把搜罗来的相关网页,在线parse,on the fly, 深度分析后找到答案。这个路子技术上是可行的。应对所谓factoid 问题:何时、何地、谁这样的问题是有效的。(但是复杂问题如 how、why,还是要走第一类的路线。)为什么可行?因为我们的深度 parsing 是 linear 的效率,在线 parsing 在现代的硬件条件下根本不是问题,瓶颈不在 parsing,无论多 deep,比起相关接口之间的延误,parsing 其实是小头。 总之,技术上可以做到立等可取。

对于常见的问题,互联网在线问答系统的 recall 较差根本就不是问题,这是因为网上的冗余信息太多。无论多不堪的 recall,也不是问题。比如,问2014年诺贝尔物理奖得主是谁。这类问题,网上有上百万个答案在。如果关键词过滤了一个子集,里面有几十万答案,少了一个量级,也没问题。假设在线 nlp 只捞到了其中的十分之一,又少了一个量级,那还有几万个instances,这足以满足统计的要求,来坐实NLP得来的答案,可以弥补精度上可能的偏差(假设精度有十个百分点的误差)。

IBM 花生机器在智力竞赛上 beat 人, 听上去很神奇, 里面会有很多细节的因应之道,但从宏观上看,一点也不神奇。因为那些个竞赛问题,大多属于 factoid 问题,人受到记忆力有限的挑战,肯定玩不过机器。

雷:@wei 为什么说事先对材料进行deep parsing的搜索不灵活?

李:事先(pre-parsing)更好。我是主张建立一个超级句法树库的,资源耗费大。但急于成事的工程师觉得也没必要。在线做的好处是,内容源可以动态决定。

雷:假设一下,我们把谷歌拥有的材料通通进行了deep parsing,那么这个搜索会是什么样的? 再辅佐以人工的高级加工

李:nlp parsing 比关键词索引还是 costs 太大。

雷:是,但是现在硬件的条件下,还是可行的吧?那就是把信息转化为了fact的知识

李:是的,哪怕只是把 Google 网页里面的百分之一parse 一遍那也有不得了的威力。那是核武器。就是 Powerset Ron 他们当年绘制的图景。可是这种大规模运用NLP不是我们可定的,成本是一个大因素,还有就是观念和眼光,那是 norvig 这样的人,或其上司才能拍板的。

雷: 暂时局限在一个领域呢?

Nick可以先小规模吗,如wiki等?

破坏google的力量是semantic web. 如果每个网站使用的是semantic web,who needs google, 但是现在的问题是把一个web2.0的site转化为web3.0的成本

李:Wiki已经可行,Powerset 当年就是拿它展示的。但市场切入点呢? Wiki其实是小菜,比起我们目前应对的 social media, 无论是量,还是语言的难度。

Nick:但wiki有结构

李:做wiki技术上没有任何问题。问题在产品和businesd model.

Nick:做一个wiki的语法树,再叠加wiki的结构,已经很有用了。

wiki 到 dbpedia 还是只有很低的percentage吧?

李:Ron 当年游说你们和微软,不就是wiki么,其实他们的demo,纯粹从技术的角度完全可以通过 due diligence。

大家都知道知识挖掘,在大数据时代有巨大潜力,这是宏观上的认识,永远正确。微观层面,还是要有人在知识基础上做出可挣钱的产品来。微软买Powerset的时候,肯定也是基于这种宏观认识。但没有后续的产品化,买来的技术就是个负担。

RW:Google 是靠se抓流量,然后ads赚钱,Se技术本身不变现

Nick:@wei powerset我看过,not impressive at all

李:那是因为,你的角度不同。他们没有把那种结构的威力,用通俗的方式,做成投资人容易看懂的形式。我也玩过 Powerset,它的核心能力,其实是有展现的。不过要绕几道弯,才能发现和体会。方向上他们没错。

当然我不是为 Ron 唱赞歌,他再牛,再有名气,他的parser比我的还是差远了。这个世界上 yours truly 是第三 -- 如果上帝是第一,在下的下一个系统是第二的话。

当然吹这种牛是得罪人的,不妨当笑话看。

呵呵,不用上税,无妨的

Nick: 你的不好意思不得罪人

李:Jobs不是说过,只有疯狂到以为自己可以改变世界的,才能在雪地里撒尿,并留下一些味道或痕迹。我们是毛时代生人,自小有一种精英意识。天将降大任于斯人也,自己吃不饱,也要胸怀世界,解放全人类。老子天下第一的心态就是那种legacy。

Chris Manning前两年就跟database/information retrieval的辩论说,别啥啥fact db和information extraction,直接deep parsing齐活。

:@洪 我农民,东西放哪里啊

李:Parsing real time 的应用场景,东西放内存就可以了,用完就扔,用时再来,现炒现卖。当然那个做不了真正意义上的text mining,只见树木,难见森林。但可以应对搜索引擎对付不了的简单问题。

哇哈,不得了。改不改变世界且不说,我的作息时间先被改变了。

我以为做机器学习的人在在豪气冲天,原来@wei也是!

@雷 一个爱在雪地……

@雷 Chris Manning的意思是,all information is in deep parsed text

facts不就是来源于deep parsed text吗

facts are usually triples extracted from text with consensus。

: under a set of ontologies, these facts form a network, that is, linguistic factors are removed。

db & ir people dont really believe nlp is a must path for retrieval tasks

you are right. This is why wei made such big efforts here to point out the problems of those guys.

linguistic info is transparent to native human speaker , but I don't think it's transparent to computer. So, I believe in communicating with machine, or communicating with people through computer, simpler language in query or logic form should be better. Why do we want to make computer understand human language? It doesn'tmake sense at all.

李:洪爷说的是哪国话? 本来就不存在机器理解语言, 那个 NLU 只是一个比喻。其实也不存在人工智能,那也是个比喻。

现在大多数人可不把ai/nlu当比喻

李:所谓机器理解语言不过是我们模拟分解了分析理解的过程达到某种表达 representations,这种表达是达到最终任务的一个方便的桥梁,如此而已。

按你的说法,机器人过不了turing test 这一关

李:我是回应你为什么要让机器理解语言。回答是,从来就不需要它去理解。而是因为在人类从形式到内容的映射过程中,我们找到一些路径,沿着这个路径我们对人类的理解,似乎有一个说得过去的解释。

当然,那位IR仁兄说的其实是一个具体环节, 指的是搜索框,他说好好的搜索框,给几个关键词就可以查询,既快又好又简单,为什么要把搜索框变成一个自然语言接口,像以前的AskJeeves那样,让人用自然语言提问,然后逼迫机器去理解?从他的角度,这完全不make sense,这种感觉不无道理。明明不用自然语言,多数搜索任务都可以完成得很好,没有道理硬要与机器说“人话”,增加overhead, 还有机器理解过程中的误差。关键词蛮好。互联网搜索这么多年,我们用户其实也被培养出来了,也都习惯了用尽可能少的关键词,以及怎样用关键词的不同组合,容易找到较理想的结果。自然语言接口似乎没有出场的必要。

可是,这只是问题的一个方面。问题是关键词搜索也许可以解决80% 乃至 90% 的基本信息需求(只是基本,因为心中问题的答案还是需要人在搜索结果中去用人脑parse来确定,这个过程不总是容易轻松的)。但还有相当一部分问题,我们或者难以用关键词找到线索,或者找出来的所谓相关网页需要太多的人肉阅读还不能搞定。这时候,我们可能就会想,要是有个懂人话的机器,自动解答我们的信息问题多好啊。自然语言接口终究会以某种形式重回台面,增强而不是取代关键词的接口。

:理解就是 1.能在人与人之间当二传手;2.能根据自己存储的知识和具备的行动能力做出人所认可的反应

李:说白了,就是从线性的言语形式到语法树的映射。这是人类迄今最伟大的发现,或发明,或理论属于最高天机。人类还没有更好的理论来解释这个理解过程。这个建树的过程,赶巧可以程序化来模拟,于是诞生了 NLU

:在图灵测试中,我们是把机器看成黑盒子。但是要让机器通过图灵测试,它就得理解人的语言才能作出反应。 两位大侠,能否推荐几本书看看?最好是科普类的,看着不吃力。

李:洪爷,不能因为在某些语言任务上,没有语言分析,也做到了,就来否定语言分析的核武器性质。LSA根本就没有语言分析,但它用到给中学生自动评判作文方面,效果也不错。

最近重读了几本认知方面的旧书,我倾向于认为人的内部表征是一种imaginary的多维图式表征,linguistic system只是个人际交流的接口。把多维信息压到线性。让计算机理解小说诗歌,估计永远做不到,因为计算机没有人那么强大的imaginary内部表征。@毛 wei和我一起来推荐几本nlp方面的书,就像PDP一样经典

:@wei 句子的语意理解后的表征方式是什么?还是tree吗?

李:逻辑语义,这是董老师的表述。外面叫 logical form,这是从乔老爷那里借来的术语。具体表现细节没必要相同。

那么我们把句子给理解后,tree与logical form并存在记忆中?

李:二者等价。细分可以有:句法树;语义树;语用树。所谓信息抽取,就是建语用树。句法树到语义树,就是乔老爷的表层结构到深层结构的逆向转换。

Chomsky之所以不谈语义啥的,因为实在没啥科学证据。现在我们所讲的语义都不是native的,都是人类的数学逻辑发明,在计算机上热起来的。出口转内销

: 是不是与那时的行为主义为主流有关,因为语意很难有操作定义?

李:这个讨论越来越高大上,也越来越形而上。

:是啊,再往上一点,就到哲学、认识论的层面了。另,跟PDP一样经典的是什么书?

李:乔老爷57年小册子。

: 什么书名?我以前只是从编译的角度了解他在形式语言方面的理论(现在也忘了),却不知道他在自然语言方面的贡献。以前我对自然语言毫不关心,也就是这一阵听你们高论才觉得这东西挺有意思。

: 有关语言学和认知科学的科普书,Steven Pinker写的系列都不错

The Language Instinct (1994) ISBN 978-0-06-097651-4
How the Mind Works (1997) ISBN 978-0-393-31848-7
Words and Rules: The Ingredients of Language (1999) ISBN978-0-465-07269-9
The Blank Slate: The Modern Denial of Human Nature (2002) ISBN978-0-670-03151-1
The Stuff of Thought: Language as a Window into Human Nature(2007) ISBN978-0-670-06327-7

有关NLP:
Dan Jurafsky and James Martin's Speech and Language Processing.

有关基于统计方法的NLP:
Chris Manning and Hinrich Schütze's Foundations of Statistical NaturalLanguage Processing

好像这两本书国内都有影印本

白:总结一下:wei的中心意思,nlp技术在他手里已经很过关了,只是苦于木有好的商业模式,再加上微软谷歌等传统势力的封杀,商业上还不能成大气候。有人建议说回国发展。deep nlp,性能不是问题,可以保证线性online parse,最坏情形回退到搜索。瓶颈在别处。

:元芳你怎么看

李:元芳呢?

谢谢白老师的总结,实际上就是这么回事。决定成败的不是技术,而是产品方向。技术差,可以砸了产品;技术好,不能保证产品在市场的成功。技术增加的是产品的门槛。

: 好的商业模式有两个特点,一个是技术壁垒,一个是侵略性。nlp前者不是问题,问题在后者。需要一张极富侵略性的皮。讯飞也有马失前蹄啊。

: 多讨论,应该能够找到好的方向。讯飞很多年都做得苦逼死了,熬到这两年才爽。现在做一个新的搜索引擎公司不现实。问答类概念已经被用滥了。出门问问也是因为问答不好做,改作智能手表,反而卖的不错。智能家居的语音交互界面,本质上是一个问答系统。

李:对于关键词,语法树就是颠覆。

: 信息服务三个阶段:门户网站,域名成为商品;搜索引擎,关键词成为商品;社交网络,粉丝成为商品。下一个成为商品的是啥?问答只是表象,关键是要回答什么成为商品。分析树也不直接是商品。

李:白老师说的极是。关键是什么是商品,可以来钱,这个确定了,作为后台的技术产品才有门槛,核武器才能发挥威力。

我们还是想想,高精准度的deep nlp服务,把什么作为标的商品,才能具有侵略性。

Philip: 给@wei 的高大上技术找个商业模式

我个人算是比较擅长于设计商业模式的,但是对于NLP的直接应用,还是觉得太偏后端,很难找出一个前端产品,对于用户是可感知的刚需。

不在多而在狠,uber就够狠。

 

原载:《泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索》

 

【相关】

从 sparse data 再论parsing乃是NLP应用的核武器

《parsing 可以颠覆关键词吗?》

《立委科普:关键词革命》 

《李白毛铿锵行: 漫谈中文NLP和数据流》

【自然语言parsers是揭示语言奥秘的LIGO式探测仪】 

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败 

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《parsing 可以颠覆关键词吗?》

我: 汉语的裸体准成语:你不理财,财不理你。穿上小词的衣服就是:你(如果)不理财,财(就)不理你:如果 ... 就...。也可以穿戴更多一点:(如果)你不理财(的话),(那么)财(就)不(会)理你:如果 ... 的话 / 如果 ... 那么 ... 等。)穿得越多,越没有歧义,越容易理解,当然也越容易电脑处理。可是国人觉得那样不简约,不能显示我语之性感。

现代汉语的框式结构是非常漂亮的小词结构,漂亮在它不仅给了左括号,也没忘记右括号,这样一来,边界歧义的问题就消弭了。这个框式手段,是比西方语言更高明的显性形式,应予大力推广,以彰显我语严谨的一面。框式结构更多的例子有:因为 ... 所以;虽然 ... 但是;在 ... 中/上/下/间。

顾: 英语也有省略小词: no pain, no gain.

我: 语言是线性表达,因此常常有边界不清晰的问题存在。数学语言(譬如公式)也是线性的,想到的办法就是括号。汉语不知道哪个年代发明的这个框式手段,基本就是括号的意思。这个很高明。

顾: 而且似乎某些高能人群倾向于省略小词。例如华尔街投行和硅谷人士的某些交流中,如果小词太多反而被鄙视,被认为不简洁不性感,这大概是人性,不是中国独有。举一例,出自Liar's Poker, 某trader跳槽,老板以忠诚挽留,他回答,
“You want loyalty, hire a cocker spaniel”

我: 有了框式结构,语言不仅清晰了,而且灵活了。灵活是因为左右括号如此明晰,以致于可以放宽括号内成分的句法条件。

Nick: 可以处理括号的都是什么自动机?我理论忘光了。

我:多层括号需要的是中心递归,就是乔姆斯基的 CFG,有限状态不能对付n层括号。上面的汉语案例大多只使用单层括号,没有用到括号的嵌套("如果...的话" 与 “如果......那么”可以算有了一层嵌套,左括号共用一个小词“如果”,右括号不同,可以放在两个模块层去做),不需要栈结构,不需要递归和回溯。

白: 有限状态加计数器,是毛毛虫,可以对付括号,保证线速。

顾: 注意这里主从句之间是逗号,不是问号。我刚才特定去书里查对了没错。

RW: long time no see 是华尔街英语的典范!

我: 成语不怕,成语都是可枚举的、有限的,就是个存贮记忆问题。成语的极致就是编码,包括密电码,acronyms 如 IBM,ABC 就是密码式成语。成语是NLP中不用讨论的话题。可以讨论的是,产生式“类成语”,譬如“一X就Y”(如 一抓就灵,一放就乱), "不X不Y"(如,不见不散,不服不行)。这个有点讨厌,因为词典对付不了,可是又不符合一般的句法,通常用词驱动小的规则来对付。(小规则是大规则的例外。)

顾: 但某些高能人群,尤其是科学家和教授,尤其是在思辨场合下,小词就少有省略。而汉语在写数学教材时,也多用小词。因此是否用小词跟语言用途也有关,愚以为不能否认汉语追求简洁优美是弱点,也不能认为汉语不善加小词或准确表达概念和逻辑。

我: 还是有个程度吧,汉语小词常可省略,总体上就是一个爱裸奔的东方美女。

顾: 偶爱裸体美女。

我: 偶也爱裸女,东方的尤甚,因为亲切,可是 ...... 欧化句式侵入后,白话文运动以来,可以看到一种加小词的趋向,小词在汉语发展道路上开始产生影响了。是吃了伊甸园的智慧树的果子知羞了?

顾: long time no see 据认为是汉语入侵英语之后产生的,只是大家觉得自然,英美人也用了。这个语句困扰我很久,在网上查了据说是如此,但未必是严肃考证。

我: long time no see 是最直接的展示我东方裸体美女的一个案例。西人突然悟过来,原来语言可以如此简洁,这样地不遮不掩啊。他们觉得可以接受,是因为赶巧这对应了一个常用的语用(pragmatic)场景,朋友见面时候的套话之一,不分中外。在有语用的帮助下,句法可以马虎一些,这也是这类新成语(熟语)形成的背后理由。

RW: 我只在老外和中国人打招呼时听他们说过,没见过他们互相之间用过。因此,我觉得他们没有接受这是一个常规用法。

顾: 另外,我觉得如果要分析理解语言,也不能拘泥于句子结构。句子之间的含义同样重要,如果过于依赖小词,可能难以将句中和句间的关联统一理解。而如果看句子之间的联系理解,英文在句间小词也很少用。

我: 用语义(隐性形式)当然好,但是不容易写一个形式化的系统去 parse 啊。用小词(显性形式)的话,那就好办多了。

白: 伟哥还是说说“我是县长”是怎么hold住的吧。问题的实质是,有限状态自动机没有lookahead 能力,如果语义跟着同步走,有很多构造(合一)会是明显浪费的。

Nick: @wei 白老师问:"我是县长派来的"

我: “的字结构”很讨厌。大体上就是英语的 what-clause 对应的句法形式。但比 what-clause 还难缠,因为该死 “的” 字太 overloaded 了。

雷: 中心嵌套也可以是线性的?

白: 某些可以是,全集不是。比如,a^nb^n,可以线性parse。

我: 当然可以线性,除非嵌套是无限层。如果是无限层,栈也要溢出的,无论memory多大。中心嵌套本质上不是 “人话”,这个我和白老师有共识。乔姆斯基之谬,以此为最。

雷: 问题是有些text有冷不丁的多层。有些国内的新闻稿有。

我: 举例,看是人话还是数学?

雷: 当然我们可以排除这些极少数。有些翻译有。

我: 用递归回溯对付嵌套,不过是理论上的漂亮,没有多少实践的意义。

白: 记得everybody likes somebody转换成否定式很难搞。基本归到不是人话一类。

我: 不是人话,就不理睬它!语言中要抓的现象那么多,什么时候能轮到中心嵌套?

白: “我是县长派来的”,是人话,还没揭锅呢

我: I am the one who was sent by the county mayor,这大体是对应的英语吧。英语的 what-clause 只能用于物,不能用于人。“苹果是县长送来的”,the apple is what the county mayor sent

白: 我的问题不是翻译,是有限状态木有lookahead能力,局部生成“我是县长”的问题咋避免。

我: 避免不难。不过就是加大规则的长度而已。有限状态的规则可以任意加长后条件(post-condition)。至于前条件(precondition)比较麻烦,因为前条件改变了 matching 的起点,容易乱套。

白: 短的规则还在啊。根据哪一条,长的压制短的?

我: 对,叫 longest principle,这是所有matching的基本原则,无论是词典查询还是模式匹配。有两个方法来用后条件:(1)加长后条件,以确保 pattern 本身是要抓取的对象,譬如第一近似就是 check 县长后面不是动词。(2)加长后条件来排除例外:这样的规则是没有结论的规则,就是为了排除例外的。这样一来,下一条短规则就可以成功,而且没有误抓的困恼了。

白: 除非你那已经不是纯FSA了。纯FSA只看当前吃进字符做决策。往后check就相当于LR(k)了。

我: 我的 FSA 从来不是纯的,是 FSA++。这个昨天就说过的,我随时要求我的工程师去对这个 formalism 做各种扩展,直到他们抱怨影响了线性速度为止。

白: 那就不奇怪了。

我: 在做 NLP 平台过程中,会有很多的扩展才好应对自然语言parsing的需要。很多人以为一个标准的 formalism 拿来用就好了,那哪行?也因此,编译器只能是内部自己实现(built in house),而不能使用 off-shelf 的,因为后者你根本无法扩充,也难以优化速度。

雷: LR或RR都是线性的。

白: 对。我还以为发生奇迹了呢。

我: 不是奇迹么?抓到老鼠就是奇迹。

白:套用一句潮话:这不科学呀。

我: 如果标准的 formalism 不能碰的话,那么有经验的设计师与一个新毕业生比,就没有任何优势了。我们说生姜老的辣,就是因为老生姜可以很容易把经验的需要转化成软件的 specs,而新手搞不清如何去定义。白老师,“这不科学啊” 的批评声音我常听到。一个是来自我太太,在日常生活中,她一个本科生经常对我这个首席(科学家)呵斥,你一点不讲科学!另一个是来自我一个短暂时期的老板,这个老板是学界主流,她看我写的 proposal,说这里面缺乏 science。我心里说,邓小平也没有 science,他不是把一个大国也治理了,烹小鲜而已。

白: 白猫黑猫拿到耗子都是科学的,狗拿到耗子就略微那个了点,所以澄清不是狗拿的还是很有必要的。

雷: @wei 白老师追求的是形式美。你的是工程美。两者一直你拖我拉的往前走。

我: 狗啊猫啊,是主观定位,无所谓呀,FSA,还是 FSA++,标签而已。我看自然语言是俯视的,成了习惯。太阳底下没有新鲜事儿,因为见到的语言现象太多了。

白: 总是要交流的呀。

我: 当然,也不能乱来,前提是任何"不科学"的扩展,不能最后引致灾难:一个是速度的灾难。一个是不可维护、不可持续发展的灾难。如果这两点可以掌控,就问题不大了。对速度我很敏感,愿意为此自我束缚手脚,只要证明某个扩展影响了线性速度的本性,我就投降,然后选择折衷方案。

雷: 抛弃中心嵌套,cfg就是线性的。

我: cfg 的痛点还不是中心嵌套导致的速度问题,根本缺陷在单层,眉毛鼻子一把抓,不分共性与个性,这才是致命的。

白: 我天天玩工程,不过我们的工程师如果突然说他使用了某个形式化机制但其实不纯粹,我还是会跟他较真的。狗肉好吃,不能成为挂羊头的理由。

Nick: 赞同白老师。spagetti对大工程不行。

我: 你们是主流,站着说话不腰疼。不挂羊头, 语言学家早死绝了。我17个政府项目全部是挂羊头得到的。

Nick: 伟哥可能有绝活,不愿说。

我: 绝活有,细节不谈,谈原则。原则就是,你要做精算师或工程师的老板,而不是相反。绝大多数语言学家没这个底气,只能打下手,做资料员。

雷: nlp的难点或苦活不在parsing,而是知识工程方面的整合。

白: 上下通气。

雷: 呵呵,形象。

白: 米国股市里有知识工程概念股么?

顾: 这是大数据啊!Data Thinker可以。。。(此处省略一千字)

Nick: 中国有?

白: 木有。讯飞在往这方面发展,但眼下不是。

我: 挂羊头卖狗肉的故事在这里:《在美国写基金申请的酸甜苦辣》。Quote:

说到含金量,其实很多课题,特别是面向应用的课题,并不是什么高精尖的火箭技术(not rocket science),不可能要求一个申请预示某种突破。撰写申请的人是游说方,有责任 highlight 自己的提议里面的亮点,谈方案远景的时候少不了这个突破那个革命的说辞,多少迎合了政府主管部门好大喜功的心态,但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。(纯科学的研究,突破也不多吧,更何况应用型研究。)应用领域“奇迹”的发生往往植根于细节的积累(所谓 the Devil is in the details),而不是原理上的突破。而对于问题领域的细节,我是有把握的。这是我的长处,也是我提出科研方案比较让人信服的原因。有的时候,不得不有迎合“时尚”的考量,譬如领域里正流行 bootstrapping 等机器自学习的算法,虽然很不成熟,难以解决实际问题,但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作,由于科研的探索性质,最终的解决方案完全可以是另一种路子。说直白了就是,挂羊头卖狗肉不是诚实的科研态度,但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

我: 不挂羊头,必死无疑,生存之道决定的。同意雷司令 parsing 问题解决后,真正的关键在挖掘(知识工程)以及最终建立预测模型。

白:NLP应用场景是很考验想象力的。

我: 非结构数据突然结构化了。面对结构的海洋,传统的数据挖掘需要拓展才好应对。挖掘目前做得很浅,就是 retrieval 里面的一个小东西,凑合事儿。parsing 是见树,mining 才见林。以前没有条件见林子 mining 没有实验基地,限制了它的发展和深入。如今不同了。

昨天与xiaoyun还谈到这个,我们都觉得,哪怕只利用 parsing 的一个部分,譬如只做SVO(主谓宾),理论上也是对所有现存关键词技术所驱动的应用的一个颠覆,因为突然多了一个维度。以前所做的不过是 baseline 而已,如今只要有大数据、大计算、大存储,再加上mining,那么凡是关键词技术生存的地方都可以革命,包括搜索、分类、聚合为基础的等等的应用。这个总体趋向是明晰的,条件也基本成熟,现在是考验想象力的时候,然后就是脚踏实地一个应用一个应用的去做

白: 还是要想新的商业模式,革关键词的命,从商业角度未必成立。关键词是拿来卖的,你把人命革了,卖什么?总要有个替代品吧,总不会卖FSA吧。

我: 革命不是杀头,parsing 对关键词,就是爱因斯坦对牛顿。到了语义语用层,关键词,或者叫驱动词(driving words),也是不可或缺的。

Nick: 卖regex到也不见得不可能。

我: 抽取挖掘搜索,往往需要两条腿,一条是关键词,另一条就是结构。如果 regex 可以卖了,离开直接卖 parse 就不远了。

其实我们的 power users 已经开始要求直接用简化的 parse 去满足他的信息需求了。用户是可以训练出来的。我们整整一代人都被关键词训练过、洗脑过了。以致于当自然语言接口技术刚刚尝试的时候,不少用户抱怨说:关键词多简单,跟机器说话,要自然语言干嘛?Power users 在简单的关键词之上用 boolean query 的很多,有些 query 看上去又臭又长又难看,不也忍受了。也见到过创业者,就是用 domain ontology 加上 keyword boolean 作为技术基础,也满足了一个 niche market 的需求而生存的。

Nick: 这是说的哪家公司?

我: 两年前在北京调研时候遇到的,名字忘记了。他们一点也不保守,把 query 直接给我们看,我心想这是一目了然啊,很容易复制的。可贵的是,他们先一步找到了那个市场需求,定义了那个 niche market,也找到了客户,后去就是那些 queries 的库不断更新维护而已。

我: @Nick 说,spagetti对大工程不行。Google 搜索是大工程吧,看一下里面的 spagetti: http://blog.sciencenet.cn/blog-362400-804469.html

原载:《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?

《泥沙龙笔记:铿锵三人行》

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《立委科普:关键词外传》

Keywords as Technology and as Business Model. The entire search industry has relied on keywords as money-making machines. What are the limitations of keywords as technology? What are the limitations of keywords as business model? What are prospects beyond keywords? These are issues discussed in this blog and the next (in progress).

信息爆炸的时代,IT 领域风云多变,群雄争霸,此伏彼起。其中最精彩的故事之一就是搜索巨头的崛起。他们的谋生本领从技术和商业模式两方面看,都是所谓关键词(keywords)。于是关键词有了两个含义,一个是关键词的技术,另一个是作为广告基点的可以卖钱的关键词。

作为技术的关键词,从原理上看是再简单不过的了,就是给海量文本做个索引,以便检索。建索引是个相当古老的传统,严肃一点的教科书、手册和科技书籍,差不多都会在书前的目录之外,再建一个术语索引附于书后,以备读者查询。从满足信息需求的角度看,目录与索引的区别在方便随意浏览还是临时查询。一般人两种需求都有,譬如,每天查看新闻是很多人的习惯,那么进入新闻目录去分类浏览就是自然而然的了(这个需求的延伸就是如今手机上各类新闻推送,个性化服务,送货上门了)。一般而言,这个需求的特点是事先没有一个明确的问题需要解答,浏览看上去有点漫无目的,至少没有一个焦点,就是了解个动态。因此预制的目录和分类可以比较好的适应这种需求。第二个需求不同,信息需求者有个具体的焦点,或者疑问,他需要寻求答案。譬如家里抽水马桶坏了,查一查怎么修理抽水马桶。这类具体的需求千差万别,每个人每个不同的时间点,都可能产生一个特定的问题需要答案。因此,要想事先给这无限的开放的信息需求及其答案做目录式分类,是不可能的,因为有限的分类无法应付无限的问题。为了以不变应万变,关键词索引和检索应运而生,满足了这种需要。因为所有的具体问题或信息焦点,说到底都是由关键词组成的。前述抽水马桶的问题,心里的问题大概是“我的抽水马桶坏了,怎么修理呢”,电脑不懂人话,只好抽出表达主要概念的词(不抽的是所谓 stop words,就是”我“、“的”、“了、”呢“、”怎么“ 之类, 多是高频小词),其关键词就是:抽水马桶,坏,修理。关键词是语言表达的基本单位,因此从信息海洋中检索出来的网页只要按照这些关键词出现的密度(keyword density)排序,要寻找的答案应该就在里面了。(关键词密度排序是最基础的搜索技术,后来改进版的排序算法 Page Rank 更加注重网页本身的信誉度。)
互联网发展伊始,很快迎来了网页的爆发性增长,网人在信息的海洋中找不着北了。于是给网页做目录分类的雅虎兴盛了,门户网站门庭若市。人多了就好做生意,于是门户网站开始了网络时代的广告生意,各种闪烁的广告条让人眼花缭乱。后来人们发现,信息需求靠有限的目录和分类是无法满足的,需要一个工具来帮助搜索。谷歌百度等搜索引擎为支撑的公司遇到了历史的机遇。不过,刚开始的时候,他们也不知道怎样才能挣钱,他们不过是研制了这么一个搜索工具供网人自由使用,他们没有门户网站分门别类的丰富内容,对用户没有粘性,用户拿来就用,用完就走,很可能是回到了内容丰富规整的雅虎去浏览新闻去了。于是,他们就到各大网站去推销这套引擎,凡是大一点的门户或网站,都有一个支持网站内搜索的需求,也就需要搜索引擎,他们于是收取 license fee,这是典型的 B2B(企业对企业) 商业模式,卖的是技术(工具)本身。可这么做难以做大,不过是网站门户的补充而已。
直到有一天,新的 B2C (企业对消费者) 模式出来了,这才开启了搜索引擎大佬财源滚滚的时代。这个模式的基础就是发现了,关键词不仅仅是技术,是索引和查询的元件,而且关键词本身也可以卖大钱。卖给谁?当然是广告商,谁出钱多,就卖给谁,而且关键词数量巨大,加上关键词之间的组合( 可以对关键词做与、或、非等操作),这个盘子可以做得很大,定期竞标,实现利润最大化(百度的所谓竞价排名:顺便说一下,比起谷歌的广告不得影响搜索排序结果的做法,百度有时太没品了,让人无语)。这一切的一切都基于关键词是最简单而且最容易掌控的语言表达的形式,广告商需要借助它与信息搜取者(潜在的用户)匹配上,这样就大大提高了广告的效益,因为广告从传统的被动轰炸客户(如传统媒体譬如电视)一下子提升到主动迎合客户的信息需求,因为在搜索过程中遇到的广告都是与所搜索的关键词密切相关的内容。这个关键词卖钱的商业模式是迄今互联网最成功的模式,经久不衰。
说到这里,我们可以问一下:用关键词来表达信息需求(譬如问题)、满足信息需求(譬如根据密度信誉度返回相关网页)以及代表广告内容,靠谱么?答案是 yes and no。从用户体验来看也是如此。很多时候似乎用关键词,再花点时间阅读反馈回来的前几个网页,就找到了问题的答案。也有的时候发现找不到答案,于是把自己的问题变换一下,抽取不同的关键词,譬如变成 “抽水马桶”,“不工作” 再去查询,答案就出来了,就在新返回的网页里。反正电脑检索是立等可取的,变换几次虽然要多费点儿劲儿尝试(trial and error),满足了需求也还是可以接受的。也确实有些时候,关键词怎么也玩不转,费了九牛二虎之力,尝试不同关键词的组合,可就是找不到答案。有的是心中的问题难以用关键词抽取来表达,譬如你想寻找产品发布的信息,就很难用关键词表达,第一,产品这个概念是一个开放集,没法用关键词去枚举。第二,“发布” 这个关键词是多义的,政治新闻的发布就与产品没有一毛钱的关系,没有动宾关系的制约,硬拿它做关键词去搜索,得到的就是信息巨多,太多杂音。总之,关键词作为语言的元件,表达信息不可能完整准确,它的好处是简单、鲁棒(robust)和查全率(recall)好,作为语言表达,关键词不过是一个最简单的近似,一个无奈的选择。

总结一下,关键词只是表象,它的价值植根于对信息的表达(载体)。是这种信息载体的身份使得它把用户的需求、网页的相关以及广告商的目标这三者联合起来,成为互联网经济的三大基石之一(电商交易和游戏服务是另外的两大互联网产业)。然而,关键词只是信息表达的最原始粗糙的元件,它没有抽象度,无法应对不可枚举的概念(譬如“产品”),它没有语词结构,最多只能用逻辑“与或非”操作关键词(术语叫 boolean query),而无法表达文法关系(譬如表达 “发布”的对象必须是产品)。所有这一切都是根子上的局限。因此,关键词不可能是信息时代的终点。关键词技术和关键词模式都面临而且需要一场颠覆式的革新。

下一讲预告《立委科普:关键词革新》,谈关键词的三面都面临怎样的颠覆式改革。

【后记】

这篇是地地道道的科普,太浅显、白话、常识了,老妪能解了吧,只是结论部分从天下大势和技术基础的角度指出了关键词技术和关键词模式的根本局限,算是夹带了私货:关键词面临革命(或者叫颠覆式革新更易让人接受,也更妥帖,因为不可能杀掉关键词,只是要剥夺它的信息唯一载体的地位)。

原载:《立委科普:关键词外传》

【相关】

《立委科普:关键词革命》 

《铿锵众人行,parsing 可以颠覆关键词吗?》 

《泥沙龙笔记:铿锵三人行》

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

【研发笔记:没有语言结构可以解析语义么?浅论 LSA】

【立委科普:基于关键词的舆情分类系统面临挑战】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【立委科普:如何自动识别同一个意思千变万化的表达?】

自然语言理解(NLU)的很多应用需要找到解答下列问题的算法:如何自动识别同一个意思千变万化的表达?譬如,问答系统或自然语言的任何人机接口,第一个问题就是如何理解不同用户千变万化的问题,以便从某个库里检索出合适的答案来。主流流行的做法仍然是绕过结构和理解,根据关键词、ngram以及 some word expansion,建立一个模型来计算不同问句的相似度。这种显然是偏离人类理解,最多可算是近似的做法被认为是理所当然,甚或唯一的算法,因为符号逻辑和语言规则那一套貌似模拟人类理解语言的做法早已从学界退出了历史舞台:学习界要竞争连对手都没有,只能自己跟自己玩。

以我骨灰级计算语言学家的身份,本篇就来专门谈谈这个问题的符号逻辑。都说语言学家迂腐得可以,云山雾罩,对牛弹琴。不信这个邪,你就是工程或学习的大牛,今儿个我也要把语言学的琴给你弹明白,不明白不收钱。(当然,明白了也没打算收钱。有心给小费的话,请转而打赏给任何公益项目为荷。)

我们把上述问题分解如下,更复杂的 cases 大多是这些部件的不同组合而已。

(1) 同一个意思的不同表达主要体现在用词的不同上,例如:

我没钱。
我很穷。
我买不起。
我就是个屌丝。
我银子不够。
我手头很紧。

(2)同一个意思的不同表达主要体现在结构的不同上,例如:

我没有那么多钱
钱我没有那么多
我钱没有那么多

同一个意思的不同表达所用的词不同结构也不同也是有的,那不过是上述两种情形的交织而已。任它千变万化,所牵涉到的变量是可以映射的。以上述场景为例,变量是:【human】【lack】【money】。其底层结构是:【lack】(【human】,【money】)。词典级的映射是:

【money】:钱,银子,美钞,RMB,¥,$ ......
【lack】:缺乏,没有,缺少,不够
【human】:我,你,他,人,.....
【lack】(,【money】):穷,穷酸,买不起,手头+紧,......
【lack】(“人”,【money】):屌丝

以底层结构为起点反推(乔姆斯基所谓生成),以上面的词典信息为驱动,加上一些简单的句法约束,包括容忍 optional 的随机成分(譬如加入程度“很”或强调“的确”,时态“已”等等),符号逻辑可以用计算文法(computational grammar)一网打尽语言的不同用词或结构的千变万化,不是清晰可见了吗?

一网打尽的前提是起点是一个定义明确的 logical statement,如果起点不确定,我们面对的是语言海洋,那就不好说了。因此,我一直跟人说,对于领域的问答系统,譬如,起点是 Q&A 的档案或者起点是一个 app 的可能的 commands,利用符号逻辑的自然语言理解技术,建造一个几乎一网打尽的自然语言接口,是完全靠谱,可以拍胸脯的事儿。

这里面的原理就在语言海洋的千变万化被聚焦了(据说深度学习也有了类似的时髦概念 叫 attention,在 IE 领域,这个概念已经有 20 多年的历史了,IE 本身就是 NLU 的聚焦)。聚焦以后仍然有很多变式,让人眼花缭乱的不同说法,但是这些变化逃不过如来佛的手掌。聚焦的最大特点是 vocabulary 急剧浓缩,加上语言学文法的约束(此篇省略其细节,明眼人自可想象,这绝对是 tractable 的任务),貌似的千变万化于是被一张无形的符号逻辑网罩住。

顺便一提:很喜欢张学友一首歌,叫【一张无边无际的网】,说的是情网,用来代表文法也很贴切。文法就是NL的无边无际的网。我们做计算文法的人 为什么乐此不疲,因为是在编织这张无边无际的网。尽管如此,仍然需要语义聚焦,才好最佳落地。

 

【相关】

立委科普:问答系统的前生今世

【deep parsing,deep learning 以及在对话和问答系统中的应用】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

From IBM's Jeopardy robot, Apple's Siri, to the new Google Translate

Latest Headline News: Samsung acquires Viv, a next-gen AI assistant built by the creators of Apple's Siri.

Wei:
Some people are just smart, or shrewd, more than we can imagine.  I am talking about Fathers of Siri, who have been so successful with their technology that they managed to sell the same type of technology twice, both at astronomical prices, and both to the giants in the mobile and IT industry.  What is more amazing is, the companies they sold their tech-assets to are direct competitors.  How did that happen?  How "nice" this world is, to a really really smart technologist with sharp business in mind.

What is more stunning is the fact that, Siri and the like so far are regarded more as toys than must-carry tools, intended at least for now to satisfy more curiosity than to meet the rigid demand of the market.  The most surprising is that the technology behind Siri is not unreachable rocket science by nature,  similar technology and a similar level of performance are starting to surface from numerous teams or companies, big or small.

I am a tech guy myself, loving gadgets, always watching for new technology breakthrough.  To my mind, something in the world is sheer amazing, taking us in awe, for example, the wonder of smartphones when the iPhone first came out. But some other things in the tech world do not make us admire or wonder that much, although they may have left a deep footprint in history. For example, the question answering machine made by IBM Watson Lab in winning Jeopardy.  They made it into the computer history exhibition as a major AI milestone.  More recently, the iPhone Siri, which Apple managed to put into hands of millions of people first time for seemingly live man-machine interaction. Beyond that accomplishment, there is no magic or miracle that surprises me.  I have the feel of "seeing through" these tools, both the IBM answering robot type depending on big data and Apple's intelligent agent Siri depending on domain apps (plus a flavor of AI chatbot tricks).

Chek: @ Wei I bet the experts in rocket technology will not be impressed that much by SpaceX either,

Wei: Right, this is because we are in the same field, what appears magical to the outside world can hardly win an insider's heart, who might think that given a chance, they could do the same trick or better.

The Watson answering system can well be regarded as a milestone in engineering for massive, parallel big data processing, not striking us as an AI breakthrough. what shines in terms of engineering accomplishment is that all this happened before the big data age when all the infrastructures for indexing, storing and retrieving big data in the cloud are widely adopted.  In this regard, IBM is indeed the first to run ahead of the trend, with the ability to put a farm of servers in working for the QA engine to be deployed onto massive data.  But from true AI perspective, neither the Watson robot nor the Siri assistant can be compared with the more-recent launch of the new Google Translate based on neural networks.  So far I have tested using this monster to help translate three Chinese blogs of mine (including this one in making), I have to say that I have been thrown away by what I see.  As a seasoned NLP practitioner who started MT training 30 years ago, I am still in disbelief before this wonder of the technology showcase.

Chen: wow, how so?

Wei:  What can I say?  It has exceeded my imagination limit for all my dreams of what MT can be and should be since I entered this field many years ago.  While testing, I only needed to do limited post-editing to make the following Chinese blogs of mine presentable and readable in English, a language with no kinship whatsoever with the source language Chinese.

Question answering of the past and present

Introduction to NLP Architecture

Hong: Wei seemed frightened by his own shadow.Chen:

Chen:  The effect is that impressive?

Wei:  Yes. Before the deep neural-nerve age, I also tested and tried to use SMT for the same job, having tried both Google Translate and Baidu MT, there is just no comparison with this new launch based on technology breakthrough.  If you hit their sweet spot, if your data to translate are close to the data they have trained the system on, Google Translate can save you at least 80% of the manual work.  80% of the time, it comes so smooth that there is hardly a need for post-editing.  There are errors or crazy things going on less than 20% of the translated crap, but who cares?  I can focus on that part and get my work done way more efficiently than before.  The most important thing is, SMT before deep learning rendered a text hardly readable no matter how good a temper I have.  It was unbearable to work with.  Now with this breakthrough in training the model based on sentence instead of words and phrase, the translation magically sounds fairly fluent now.

It is said that they are good a news genre, IT and technology articles, which they have abundant training data.  The legal domain is said to be good too.  Other domains, spoken language, online chats, literary works, etc., remain a challenge to them as there does not seem to have sufficient data available yet.

Chen: Yes, it all depends on how large and good the bilingual corpora are.

Wei:  That is true.  SMT stands on the shoulder of thousands of professional translators and their works.  An ordinary individual's head simply has no way in  digesting this much linguistic and translation knowledge to compete with a machine in efficiency and consistency, eventually in quality as well.

Chen: Google's major contribution is to explore and exploit the existence of huge human knowledge, including search, anchor text is the core.

Ma: I very much admire IBM's Watson, and I would not dare to think it possible to make such an answering robot back in 2007.

Wei: But the underlying algorithm does not strike as a breakthrough. They were lucky in targeting the mass media Jeopardy TV show to hit the world.  The Jeopardy quiz is, in essence, to push human brain's memory to its extreme, it is largely a memorization test, not a true intelligence test by nature.  For memorization, a human has no way in competing with a machine, not even close.  The vast majority of quiz questions are so-called factoid questions in the QA area, asking about things like who did what when and where, a very tractable task.  Factoid QA depends mainly on Named Entity technology which was mature long ago, coupled with the tractable task of question parsing for identifying its asking point, and the backend support from IR, a well studied and practised area for over 2 decades now.  Another benefit in this task is that most knowledge questions asked in the test involve standard answers with huge redundancy in the text archive expressed in various ways of expressions, some of which are bound to correspond to the way question is asked closely.  All these factors contribute to IBM's huge success in its almost mesmerizing performance in the historical event.  The bottom line is, shortly after the 1999 open domain QA was officially born with the first TREC QA track, the technology from the core engine has been researched well and verified for factoid questions given a large corpus as a knowledge source. The rest is just how to operate such a project in a big engineering platform and how to fine-tune it to adapt to the Jeopardy-style scenario for best effects in the competition.  Really no magic whatsoever.

Google Translated from【泥沙龙笔记:从三星购买Siri之父的二次创业技术谈起】, with post-editing by the author himself.

 

【Related】

Question answering of the past and present

Introduction to NLP Architecture

Newest GNMT: time to witness the miracle of Google Translate

Dr Li’s NLP Blog in English

 

【泥沙龙笔记:从三星购买Siri之父的二次创业技术谈起】

最近新闻:【三星收购 VIV 超级智能平台,与 Siri 和 Google 展开智能助理三国杀

我:
人要是精明,真是没治。一个 Siri,可以卖两次,而且都是天价,都是巨头,并且买家还是对头,也是奇了。最奇的是,Siri 迄今还是做玩具多于实用,满足好奇心多于满足市场的刚性需求。最最奇的是,Siri 里面的奥妙并不艰深,有类似水平和技术的也不是就他一家。
世界上有些事儿是让人惊叹的,譬如当 iPhone 问世的时候。但有些事儿动静很大,也在历史上留下了很深的足迹,但却没有叹服的感受。譬如 IBM 花生的问答系统,NND,都进入计算机历史展览馆了,作为AI里程碑。再如 Siri,第一个把人机对话送到千家万户的手掌心,功不可没。但这两样,都不让人惊叹,因为感觉上都是可以“看穿”的东西。不似火箭技术那种,让人有膜拜的冲动。IBM 那套我一直认为是工程的里程碑,是大数据计算和operations的成就,并非算法的突破。

查:
@wei 呵呵 估计搞火箭的也看不上SpaceX

我: 那倒也是,内行相轻,自古而然,因为彼此都多少知底。

陈:
最近对Watson很感冒

我:
花生是在大数据架构热起来之前做成的。从这方面看,IBM 的确开风气之先,有能力把一个感觉上平平的核心引擎,大规模部署到海量数据和平行计算上。总之,这两样都不如最近测试谷歌MT给我的震撼大。谷歌的“神经”翻译,神经得出乎意表,把我这个30年前就学MT的老江湖也弄晕糊了,云里雾里,不得不给他们吹一次喇叭

陈: 咋讲

我:
还讲啥,我是亲手测试的。两天里面测试翻译了我自己的两篇博文:

【Question answering of the past and present】

Introduction to NLP Architecture

洪:
伟爷被自己的影子吓坏了。

陈:
效果奇好?

我:
是的。前神经时代我也测试过,心里是有比较的。天壤之别。
如果你撞上了他们的枪口,数据与他们训练的接近,谷歌MT可以节省你至少 80% 的翻译人工。80% 的时候几乎可以不加编辑,就很顺畅了。谁在乎 20% 以内的错误或其他呢,反正我是省力一多半了。最重要的是,以前用 MT,根本就不堪卒读,无论你多好的脾气。现在一神经,就顺溜多了。当然,我的 NLP 博文,也正好撞上了他们的枪口。

陈:
以后也可以parsing。试一些医学的

我:
据说,他们擅长 news,IT,technology,好像 法律文体 据说也不错。其他领域、口语、文学作品等,那就太难为它了。

陈:
有双语语料

我:
就是,它是在千万个专业翻译的智慧结晶上。人的小小的脑袋怎么跟它比拼时间和效率呢,拼得了初一,也熬不过15。

陈:
谷歌的重大贡献是发掘人类已经存在的知识。包括搜索,锚文本是核心.

马:
我挺佩服IBM的华生的,如果是我,绝不敢在2007年觉得能做出这么一个东西出来

我:
可是算法上看真地不需要什么高超。那个智力竞赛是唬人的,挑战人的记忆极限。对于机器是特别有利的。绝大多数智力竞赛问答题,都是所谓 factoid questions
主要用到的是早已成熟的 Named Entity 技术,加上 question 的有限 parsing,背后的支撑也就是 IR。恰好智力竞赛的知识性问题又是典型的大数据里面具有相当 redundancy 的信息。这种种给IBM创造了成功的条件。

1999 年开始 open domain QA 正式诞生,不久上面的技术从核心引擎角度就已经被验证。剩下的就是工程的运作和针对这个竞赛的打磨了。

 

【相关】

【问答系统的前生今世】

【Question answering of the past and present】

谷歌NMT,见证奇迹的时刻

Newest GNMT: time to witness the miracle of Google Translate

《新智元笔记:知识图谱和问答系统:开题(1)》 

《新智元笔记:知识图谱和问答系统:how-question QA(2)》 

【置顶:立委NLP博文】

 

【问答系统的前生今世】

立委按:自从 Siri 第一次把问答系统送到千万人的手掌心后,如今又出了微软小冰和小娜。其实,中外所有IT巨头都在这方面加大了投入。于是想到重发2011年的博文。

一 前生
传统的问答系统是人工智能(AI: Artificial Intelligence)领域的一个应用,通常局限于一个非常狭窄专门的领域,基本上是由人工编制的知识库加上一个自然语言接口而成。由于领域狭窄,词汇总量很有限,其语言和语用的歧义问题可以得到有效的控制。问题是可以预测的,甚至是封闭的集合,合成相应的答案自然有律可循。著名的项目有上个世纪60年代研制的LUNAR系统,专事回答有关阿波罗登月返回的月球岩石样本的地质分析问题。SHRDLE 是另一个基于人工智能的专家系统,模拟的是机器人在玩具积木世界中的操作,机器人可以回答这个玩具世界的几何状态的问题,并听从语言指令进行合法操作。
这些早期的AI探索看上去很精巧,揭示了一个有如科学幻想的童话世界,启发人的想象力和好奇心,但是本质上这些都是局限于实验室的玩具系统(toy systems),完全没有实用的可能和产业价值。随着作为领域的人工智能之路越走越窄(部分专家系统虽然达到了实用,基于常识和知识推理的系统则举步维艰),寄生其上的问答系统也基本无疾而终。倒是有一些机器与人的对话交互系统 (chatterbots)一路发展下来至今,成为孩子们的网上玩具(我的女儿就很喜欢上网找机器人对话,有时故意问一些刁钻古怪的问题,程序应答对路的时候,就夸奖它一句,但更多的时候是看着机器人出丑而哈哈大笑。不过,我个人相信这个路子还大有潜力可挖,把语言学与心理学知识交融,应该可以编制出质量不错的机器人心理治疗师。其实在当今的高节奏高竞争的时代,很多人面对压力需要舒缓,很多时候只是需要一个忠实的倾听者,这样的系统可以帮助满足这个社会需求。要紧的是要消除使用者“对牛弹琴”的先入为主的偏见,或者设法巧妙隐瞒机器人的身份,使得对话可以敞开心扉。扯远了,打住。)
二 重生
产业意义上的开放式问答系统完全是另一条路子,它是随着互联网的发展以及搜索引擎的普及应运而生的。准确地说,开放式问答系统诞生于1999年,那一年搜索业界的第八届年会(TREC-8:Text REtrieval Conference)决定增加一个问答系统的竞赛,美国国防部有名的DARPA项目资助,由美国国家标准局组织实施,从而催生了这一新兴的问答系统及其community。问答系统竞赛的广告词写得非常精彩,恰到好处地指出搜索引擎的不足,确立了问答系统在搜索领域的价值定位。记得是这样写的(大体):用户有问题,他们需要答案。搜索引擎声称自己做的是信息检索(information retrieval),其实检索出来的并不是所求信息,而只是成千上万相关文件的链接(URLs),答案可能在也可能不在这些文件中。无论如何,总是要求人去阅读这些文件,才能寻得答案。问答系统正是要解决这个信息搜索的关键问题。对于问答系统,输入的是问题,输出的是答案,就是这么简单。
说到这里,有必要先介绍一下开放式问答系统诞生时候的学界与业界的背景。
从学界看,传统意义上的人工智能已经不再流行,代之而来的是大规模真实语料库基础上的机器学习和统计研究。语言学意义上的规则系统仍在自然语言领域发挥作用,作为机器学习的补充,而纯粹基于知识和推理的所谓智能规则系统基本被学界抛弃(除了少数学者的执着,譬如Douglas Lenat 的 Cyc)。学界在开放式问答系统诞生之前还有一个非常重要的发展,就是信息抽取(Information Extraction)专业方向及其community的发展壮大。与传统的自然语言理解(Natural Language Understanding)面对整个语言的海洋,试图分析每个语句求其语义不同,信息抽取是任务制导,任务之外的语义没有抽取的必要和价值:每个任务定义为一个预先设定的所求信息的表格,譬如,会议这个事件的表格需要填写会议主题、时间、地点、参加者等信息,类似于测试学生阅读理解的填空题。这样的任务制导的思路一下子缩短了语言技术与实用的距离,使得研究人员可以集中精力按照任务指向来优化系统,而不是从前那样面面俱到,试图一口吞下语言这个大象。到1999年,信息抽取的竞赛及其研讨会已经举行了七届(MUC-7:Message Understanding Conference),也是美国DARPA项目的资助产物(如果说DARPA引领了美国信息产业研究及其实用化的潮流,一点儿也不过誉),这个领域的任务、方法与局限也比较清晰了。发展得最成熟的信息抽取技术是所谓实体名词的自动标注(Named Entity:NE tagging),包括人名、地名、机构名、时间、百分比等等。其中优秀的系统无论是使用机器学习的方法,还是编制语言规则的方法,其查准率查全率的综合指标都已高达90%左右,接近于人工标注的质量。这一先行的年轻领域的技术进步为新一代问答系统的起步和开门红起到了关键的作用。
到1999年,从产业来看,搜索引擎随着互联网的普及而长足发展,根据关键词匹配以及页面链接为基础的搜索算法基本成熟定型,除非有方法学上的革命,关键词检索领域该探索的方方面面已经差不多到头了。由于信息爆炸时代对于搜索技术的期望永无止境,搜索业界对关键词以外的新技术的呼声日高。用户对粗疏的搜索结果越来越不满意,社会需求要求搜索结果的细化(more granular results),至少要以段落为单位(snippet)代替文章(URL)为单位,最好是直接给出答案,不要拖泥带水。虽然直接给出答案需要等待问答系统的研究成果,但是从全文检索细化到段落检索的工作已经在产业界实行,搜索的常规结果正从简单的网页链接进化到 highlight 了搜索关键词的一个个段落。
新式问答系统的研究就在这样一种业界急切呼唤、学界奠定了一定基础的形势下,走上历史舞台。美国标准局的测试要求系统就每一个问题给出最佳的答案,有短答案(不超过50字节)与长答案(不超过250字节)两种。下面是第一次问答竞赛的试题样品:
Who was the first American in space?
Where is the Taj Mahal?
In what year did Joe DiMaggio compile his 56-game hitting streak?
三 昙花
这次问答系统竞赛的结果与意义如何呢?应该说是结果良好,意义重大。最好的系统达到60%多的正确率,就是说每三个问题,系统可以从语言文档中大海捞针一样搜寻出两个正确答案。作为学界开放式系统的第一次尝试,这是非常令人鼓舞的结果。当时正是 dot com 的鼎盛时期,IT 业界渴望把学界的这一最新研究转移到信息产品中,实现搜索的革命性转变。里面有很多有趣的故事,参见我的相关博文:《朝华午拾:创业之路》
回顾当年的工作,可以发现是组织者、学界和业界的天时地利促成了问答系统奇迹般的立竿见影的效果。美国标准局在设计问题的时候,强调的是自然语言的问题(English questions,见上),而不是简单的关键词 queries,其结果是这些问句偏长,非常适合做段落检索。为了保证每个问题都有答案,他们议定问题的时候针对语言资料库做了筛选。这样一来,文句与文本必然有相似的语句对应,客观上使得段落匹配(乃至语句匹配)命中率高(其实,只要是海量文本,相似的语句一定会出现)。设想如果只是一两个关键词,寻找相关的可能含有答案的段落和语句就困难许多。当然找到对应的段落或语句,只是大大缩小了寻找答案的范围,不过是问答系统的第一步,要真正锁定答案,还需要进一步细化,pinpoint 到语句中那个作为答案的词或词组。这时候,信息抽取学界已经成熟的实名标注技术正好顶上来。为了力求问答系统竞赛的客观性,组织者有意选择那些答案比较单纯的问题,譬如人名、时间、地点等。这恰好对应了实名标注的对象,使得先行一步的这项技术有了施展身手之地。譬如对于问题 “In what year did Joe DiMaggio compile his 56-game hitting streak?”,段落语句搜索很容易找到类似下列的文本语句:Joe DiMaggio's 56 game hitting streak was between May 15, 1941 and July 16, 1941.  实名标注系统也很容易锁定 1941 这个时间单位。An exact answer to the exact question,答案就这样在海量文档中被搜得,好像大海捞针一般神奇。沿着这个路子,11 年后的 IBM 花生研究中心成功地研制出打败人脑的电脑问答系统,获得了电视智能大奖赛 Jeopardy! 的冠军(见报道 COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS),在全美观众面前大大地出了一次风头,有如当年电脑程序第一次赢得棋赛冠军那样激动人心。
当年成绩较好的问答系统,都不约而同地结合了实名标注与段落搜索的技术: 证明了只要有海量文档,snippet+NE 技术可以自动搜寻回答简单的问题。
四 现状
1999 年的学界在问答系统上初战告捷,我们作为成功者也风光一时,下自成蹊,业界风险投资商蜂拥而至。很快拿到了华尔街千万美元的风险资金,当时的感觉真地好像是在开创工业革命的新纪元。可惜好景不长,互联网泡沫破灭,IT 产业跌入了萧条的深渊,久久不能恢复。投资商急功近利,收紧银根,问答系统也从业界的宠儿变成了弃儿(见《朝华午拾 - 水牛风云》)。主流业界没人看好这项技术,比起传统的关键词索引和搜索,问答系统显得不稳定、太脆弱(not robust),也很难 scale up, 业界的重点从深度转向广度,集中精力增加索引涵盖面,包括所谓 deep web。问答系统的研制从业界几乎绝迹,但是这一新兴领域却在学界发芽生根,不断发展着,成为自然语言研究的一个重要分支。IBM 后来也解决了 scale up (用成百上千机器做分布式并行处理)和适应性培训的问题,为赢得大奖赛做好了技术准备。同时,学界也开始总结问答系统的各种类型。一种常见的分类是根据问题的种类。
我们很多人都在中学语文课上,听老师强调过阅读理解要抓住几个WH的重要性:who/what/when/where/how/why(Who did what when, where, how and why?).  抓住了这些WH,也就抓住了文章的中心内容。作为对人的阅读理解的仿真,设计问答系统也正是为了回答这些WH的问题。值得注意的是,这些 WH 问题有难有易,大体可以分成两类:有些WH对应的是实体专名,譬如 who/when/where,回答这类问题相对容易,技术已经成熟。另一类问题则不然,譬如what/how/why,回答这样的问题是对问答学界的挑战。简单介绍一下这三大难题如下。
What is X?类型的问题是所谓定义问题,譬如 What is iPad II? (也包括作为定义的who:Who is Bill Clinton?) 。这一类问题的特点是问题短小,除去问题词What与联系词 is 以外 (搜索界叫stop words,搜索前应该滤去的,问答系统在搜索前利用它理解问题的类型),只有一个 X 作为输入,非常不利于传统的关键词检索。回答这类问题最低的要求是一个有外延和种属的定义语句(而不是一个词或词组)。由于任何人或物体都是处在与其他实体的多重关系之中(还记得么,马克思说人是社会关系的总和),要想真正了解这个实体,比较完美地回答这个问题,一个简单的定义是不够的,最好要把这个实体的所有关键信息集中起来,给出一个全方位的总结(就好比是人的履历表与公司的简介一样),才可以说是真正回答了 What/Who is X 的问题。显然,做到这一步不容易,传统的关键词搜索完全无能为力,倒是深度信息抽取可以帮助达到这个目标,要把散落在文档各处的所有关键信息抽取出来,加以整合才有希望(【立委科普:信息抽取】)。
How 类型的问题也不好回答,它搜寻的是解决方案。同一个问题,往往有多种解决档案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。因此,比较完美地回答这个 How 类型的问题也就成为问答界公认的难题之一。

Why 类型的问题,是要寻找一个现象的缘由或动机。这些原因有显性表达,更多的则是隐性表达,而且几乎所有的原因都不是简单的词或短语可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。

可以一提的是,我来硅谷九年帮助设计开发 deploy 了两个产品,第一个产品的本质就是回答 How-question 的,第二个涉及舆情挖掘和回答舆情背后的 Why-question。问答系统的两个最大的难题可以认为被我们的深层分析技术解决了。

原文在:【立委科普:问答系统的前生今世】

【相关】

【Question answering of the past and present】

http://en.wikipedia.org/wiki/Question_answering

《新智元笔记:知识图谱和问答系统:开题(1)》 

《新智元笔记:知识图谱和问答系统:how-question QA(2)》 

【旧文翻新:金点子起家的老管家 Jeeves】

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》 

《新智元笔记:微软小冰,可能的商业模式(2)》 

【立委科普:从产业角度说说NLP这个行当】

Once upon a time, we were publishing like crazy

List of 23 NLP Publications (Cymfony Period)

Once upon a time, we were publishing like crazy ...... as if we were striving for tenure faculty

[1] R. Srihari, W. Li and X. Li. 2006. Question Answering Supported by
Multiple Levels of Information Extraction.  a book chapter in T. Strzalkowski & S. Harabagiu (eds.), Advances in Open- Domain Question Answering.  Springer, 2006, ISBN:1-4020-4744-4.

http://link.springer.com/chapter/10.1007%2F978-1-4020-4746-6_11

[2] R. Srihari, W. Li, C. Niu and T. Cornell. 2006.  InfoXtract: A Customizable Intermediate Level Information Extraction Engine.  Journal of Natural Language Engineering, 12(4), 1-37

http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=1513012

This paper focuses on IE tasks designed to support  information discovery applications. It defines new IE tasks such as entity profiles, and concept-based general events which represent realistic goals in terms of what can be accomplished in the near-term as well as providing useful, actionable information.

[3] C. Niu, W. Li, R. Srihari, H. Li.  2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation.  Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005)

W05-0605

[4] C. Niu, W. Li and R. Srihari. 2004. Weakly Supervised Learning for
Cross-document Person Name Disambiguation Supported by Information
Extraction. In Proceedings of ACL 2004.

ACL 2004 Niu Li Srihari 372_pdf_2-col

[5] C. Niu, W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop.

ACL 2004 Context Clustering for WSD niu1

[6] C. Niu, W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case
Restoration Using Supervised Learning Without Manual Annotation.
International Journal of Artificial Intelligence Tools, Vol. 13, No.
1, 2004.

IJAIT 2004 Niu, Li, Ding, and Srihari caseR

(7) Cheng Niu, Wei Li and Rohini Srihari 2004. A Bootstrapping
Approach to Information Extraction Domain Porting. ATEM-2004: The
AAAI-04 Workshop on Adaptive Text Extraction and Mining. San Jose. (PDF)

[8] W. Li, X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert
Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings
of ACL 2003. Sapporo, Japan. pp. 513-520.

ACL 2003 Li, Zhang, Niu, Jiang and Srihari 2003 PhrasalVerb_ACL2003_submitted

[9] C. Niu, W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping
Approach to Named Entity Classification using Successive Learners. In
Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342.

ACL 2003 Niu, Li, Ding and Srihari 2003 ne-acl2003

[10] W. Li, R. Srihari, C. Niu, and X. Li. 2003. Question Answering on
a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual
Summarization and Question Answering - Machine Learning and Beyond
(ACL-2003 Workshop). Sapporo, Japan. pp. 84-93.

ACL 2003 Workshop Li, Srihari, Niu and Li 2003 QA-workshopl2003_final

[11] C. Niu, W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for
Named Entity Tagging using Concept-based Seeds. In Proceedings of
HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada.

NAACL 2003 Niu, Li, Ding and Srihari 2003 ne_submitted

[12] R. Srihari, W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A
Customizable Intermediate Level Information Extraction Engine. In
Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and
Architecture of Language Technology Systems (SEALTS). pp. 52-59,
Edmonton, Canada.

NAACL 2003 Workshop InfoXtract SEALTS paper2

[13] H. Li, R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Locatio
Normalization: A Hybrid Approach to Geographic References in
Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on
Analysis of Geographic References. Edmonton, Canada.

NAACL 2003 Workshop Li, Srihari, Niu and Li 2003 CymfonyLoc_final

[14] W. Li, R. Srihari, C. Niu, and X. Li 2003. Entity Profile
Extraction from Large Corpora. In Proceedings of Pacific Association
for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia,
Canada.

PACLING 2003 Li, Srihari, Niu and Li 2003 Entity Profile profile_PACLING_final_submitted

[15] C. Niu, W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a
Hidden Markov Model for Relationship Extraction Using Multi-level
Contexts. In Proceedings of Pacific Association for Computational
Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada.

PACLING 2003 Niu, Li, Srihari and Crist 2003 CE Bootstrapping PACLING03_15_final

[16] C. Niu, Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised
Learning for Verb Sense Disambiguation Using Both Trigger Words and
Parsing Relations. In Proceedings of Pacific Association for
Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia,
Canada.

PACLING 2003 Niu, Zheng, Srihari, Li and Li 2003 Verb Sense Identification PACLING_14_final

[17] C. Niu, W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case
Restoration Using Supervised Learning Without Manual Annotation. In
Proceedings of the Sixteenth International FLAIRS Conference, St.
Augustine, FL, May 2003, pp. 402-406.

FLAIRS 2003 Niu, Li, Ding and Srihari 2003 FLAIRS03CNiu

[18] R. Srihari  and W. Li 2003. Rapid Domain Porting of an
Intermediate Level Information Extraction Engine. In Proceedings of
International Conference on Natural Language Processing 2003.

ICON2003 paper FINAL

[19] H. Li, R. Srihari, C. Niu and W. Li 2002. Location Normalization
for Information Extraction. In Proceedings of the 19th International
Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan.

COLING 2002 Li, Srihari, Niu and Li 2002 coling2002LocNZ

[20] W. Li, R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002.
Extracting Exact Answers to Questions Based on Structural Links. In
Proceedings of Multilingual Summarization and Question Answering
(COLING-2002 Workshop). Taipei, Taiwan.

COLING 2002 Workshop Li et al CymfonyQA_final

[21] R. Srihari, and W. Li. 2000. A Question Answering System
Supported by Information Extraction. In Proceedings of ANLP 2000.
Seattle.

ANLP 2000 Srihari and Li 2000 anlp9l

[22] R. Srihari, C. Niu and W. Li. 2000. A Hybrid Approach for Named
Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle.

ANLP 2000 Srihari, Niu and Li 2000 anlp105_final9

[23] R. Srihari and W. Li. 1999. Question Answering Supported by
Information Extraction. In Proceedings of TREC-8. Washington

cymfony

Other publications: SBIR Final Reports

W. Li & R. Srihari. 2003.  Flexible Information Extraction Learning Algorithm (Phase 2), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York. 


W. Li & R. Srihari. 2001.  Intermediate-Level Event Extraction for Temporal and Spatial Analysis and Visualization (Phase 1), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York.

W. Li & R. Srihari.  2000.  A Domain Independent Event Extraction Toolkit (Phase 2), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York.

W. Li & R. Srihari. 2000.  Flexible Information Extraction Learning Algorithm (Phase 1), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York.

W. Li & R. Srihari 2003. Automated Verb Sense Identification (Phase I), Final Techinical Report, U.S. DoD SBIR (Navy), Contract No. N00178-02-C-3073 (2002-2003)

R. Srihari & W. Li 2003. Fusion of Information from Diverse, Textual Media: A Case Restoration Approach (Phase I), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York. Contract No. F30602-02-C-0156 (2002-2003)

R. Srihari, W. Li & C. Niu 2004. A Large Scale Knowledge Repository and Information Discovery Portal Derived from Information Extraction (Phase 1), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York. (2003-2004)

R. Srihari & W. Li 2003. An Automated Domain Porting Toolkit for Information Extraction (Phase I), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York. Contract No. F30602-02-C-0057 (2002-2003)

T. Cornell, R. Srihari & W. Li 2004. Automatically Time Stamping Events in Unrestricted Text (Phase I), Final Technical Report, Air Force Research Laboratory, Information Directorate, Rome Research Site, New York. (2003-2004)

 

[Related]

Overview of Natural Language Processing

Dr. Wei Li’s English Blog on NLP

【一日一parsing:谈parsing是问答系统的核武】

一日一parsing:今天的是。。。

0831d

怎么知道这里的问题和答案可以相配呢?如果有 parsing 和建立其上的知识图谱,那就好办。图谱里面有 professionOf 的 relationship,有了 parsing 抽取这个关系就是小菜(这个例子很简单,就是把同位语关系映射到professionOf关系)。有了 parsing 对于 question 要问的关系,也可以解出来 asking point,子树(S:李娜-从事,O:从事-运动;Mod:什么-关系)就确定了 asking point 是寻求 professionOf(“李娜”)。然后做语义 matching,问答系统的这个环就圆了。This is IE or knowledge-graph supported QA.

具体说,为了让Q和A能match,我们可以对两边做子树规则,填空(抽取)到 professionOf 的关系去,语义一体化,然后就顺风顺水了。第一条子树规则是:

"从事"O: (“职业|运动”)

O: (“职业|运动”)

Mod (“什么|何种”)

S: ^Sombody==>

==> professionOf(^Somebody,?)

professionOf(^Somebody,?)

这是 Question parsing 和 asking point extraction.  在答案源那一边,也有一组规则做 professionOf 的抽取,其中有这样一条规则:[personNE]

[person-NE]:^Person

equiv([profession_token]:^Profession)

==> professionOf(^Person,^Profession)

QA 就这样 match 了。

如果没有专门的知识图谱,没有事先定义好的关系的抽取,怎样做 QA 来应对呢?那就用 SVO parsing 也可以应对相当多的关于事件的问答。但是关系和复杂的事件的问答,简单的 SVO matching 就不行。好在原则上说,复杂的语义大多可以预先定义成 IE (predefined), 专门去做针对性抽取。简单的语义是 open-ended 的,语言学parsing(主谓宾定状补等)就够应付了。

天不我欺也。

IE 对于 SVO,实质就是 (semantic) slot normalization,原来的 slots 是语言学的,叫 S 也好, O 也好,equiv(同位语)也好,mod 也好 。。。。现在的 slots 是 pragmatic 的语义: 譬如 professionOf, locationOf, employeeOf, acquiringCompany, acquiredCompany, priceOfAcqusition, etc.

SVO matching 的 QA 也可以举一个例子, 譬如询问如何做某事:做+某事 就是一个 V+O:

0831a

0831b

0831c

甭管怎样换说法,不变的是 VO (格式化,硬盘)。有了这个 VO matching 做底,离开QA 或人机对话就不远了。譬如,FAQ 档案里很可能就有这样的标题: 格式化硬盘的步骤;关于格式化硬盘;等。于是 Q与A基本就是 SVO 子树 matching:"格式化“ ---O---> “硬盘”。
0901b

接着这个话题再发挥一下。IE 说的是信息抽取,多数时候这个 information 是与 insights (情报,有价值的信息)等价。但其实 IE 可以是抽取有价值的情报,也可以是抽取无价值的情报(噪音)。

为啥要抽取无价值的信息呢?道理很简单,噪音捣乱啊,为了剔除噪音,首先要识别它,或者说抽取它以便扔掉它。所用的方法可以完全一样。搜索界有 stop words ,被当做噪音扔掉了,那是噪音的最简单形式,不需要上下文,纯粹是高频虚词:对于 parsing 这些 stop words 其实很关键,是必要的建立结构的桥梁,但对于关键词搜索,因为里面没有结构,这些词就变成纯粹的噪音了。用 IE 来剔除噪音,实际上是根据上下文结构来断定哪些信息是应该扔掉的,譬如上面的句子里面,在 QA 的语用场景下,就可以剔除诸如:“请告诉我”、“我不知道”等,这样才凸显关键的的VO“格式化-硬盘”。要是做相似度计算,这些个词都是噪音。把“请告诉我”当成一个 4-gram 的 stop word 行不行?可以,但是如果这种东西有很多变式,ngram 就不行了。这时候在子树基础上做 IE 抽取噪音就非常可取了。又因为噪音大多可以用 word-driven 来做,做这件事儿是很靠谱的,基本一抓一准。

小结一下,一般而言,如果 Q 和 A 说法类似,譬如“格式化”+ “硬盘”,那么只要在 SVO 基础上做 matching 就可以把 QA couple 起来。如果 说法很不相同,或者一个关系或事件的变式太多,那么就加一层 IE,matching 在 IE 语义上做。SVO 的 QA matching 是智能搜索的本质,可以对付不可预测的问题。IE 的 QA matching 是预先定义的,针对领域的,不仅精准,而且可以应对变式。两个方案相辅相成。一个善于领域的精准,一个善于open domain 的广度和召回。二者都比 keywords 好出很多,因为有结构。如果从 backoff 来看,那就是 IE 优先, SVO 其次,keywords 楼底。这样精度广度就全照顾到了。

说来归齐,对于QA,对于对话系统,parsing 是核心引擎的关键技术。QA 说到底就是在 Q 与 A 中建立映射,映射的基础是语义匹配。deep parsing 及其 IE 是语义匹配的核武。

 

【相关】

【Bots 的愿景】

立委科普:问答系统的前生今世

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

问答系统

泥沙龙笔记:搜索和知识图谱的话题

置顶:立委NLP博文一览】

《朝华午拾》总目录

立委NLP频道

【关于问答系统】

立委科普:问答系统的前生今世

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《朝华午拾:创业之路》

【Bots 的愿景】

《泥沙龙笔记:怎样满足用户的信息需求》

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 ...

与机器人对话

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于知识图谱】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】