大数据NLP论 屏蔽留存

大数据NLP论

屏蔽已有 10922 次阅读 2013-7-27 20:50 |个人分类:立委科普|系统分类:科普集锦| 大数据, processing, 自然语言处理, language, natural

由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套查准率(precision)和查全率(recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指标决定着一个系统在现实世界的成败,这个指标就是系统对于大数据的处理能力,可以不可以真正地 scale-up 到大数据上。由于电脑业的飞速发展,云计算技术的成熟,大数据处理在现实中的瓶颈往往是经济上的羁绊,而不是技术意义上的难关。其结果是革命性的。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据 更能将就不完美的引擎。

对于大数据,缺失部分数据也不是大问题,只要这种缺失对于要挖掘的话题或品牌没有针对性。缺失数据的原因很多,譬如,服务器或数据库故障,由于成本考量只取一定比例的样本,还有垃圾过滤系统的误删,当然也有系统本身查全率的不理想,等。总之缺失是常态,而求全则是不现实也是不必要的。大数据追求的是有影响力的信息和舆情动态,而这些原则上都不会因为数据的部分缺失而改变,因为动态和影响力的根基就在信息的高冗余度,而不是大海捞针。重要的是,冗余本身也是情报的题中应有之义。这与同一个情愿诉求为什么要征集成千上万的签名道理一样,至于最终是10万签名还是9万五千人签名了,完全不影响诉求的内容及其整体效应。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-711780.html

上一篇:On Big Data NLP
下一篇:为什么做大数据的吹鼓手?

 

15  李伟钢 曹建军 曹聪 许培扬 陈福强 陈辉 刘洪 李培光 徐晓 李宇斌 白图格吉扎布 翟自洋 bridgeneer lilojoan rosejump

发表评论评论 (8 个评论)

删除 回复 |赞[6]白图格吉扎布   2013-7-28 22:58
有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。
 回复  : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许真地价值连城。但是,不能指靠自然语言系统能够捞到那针,事实上,不能指靠任何系统有这种能力,原因在文章中也提到了:对于孤本的无能,不仅仅是技术难关,不仅仅是引擎查全率的缺陷,一个“孤本”完全可能由于系统以外的众多原因而够不着它:server down,database problem,经济羁绊而未进入index,等等等等。因此,所谓不能遗漏情报,遗漏了系统就不可靠,就不能使用,完全是不切实际的。必须接受大海捞针多半捞不着的现实,捞着了是运气,捞不着是常态。那么大数据系统情报挖掘的真正价值何在呢?那就是揭示冗余度支持的有统计意义的情报及其关联。

2013-7-29 00:351 楼(回复楼主)赞|回复

删除 回复 |赞[5]白图格吉扎布   2013-7-28 22:56
这个指标就是系统对于大数据的处理能力,...。由于电脑业的飞速发展,云计算技术的成熟,大数据处理在现实中的瓶颈往往是经济上的羁绊,而不是技术意义上的难关。

删除 回复 |赞[4]李红雨   2013-7-28 22:44
大数据离自然语言的理解还远,但是的确走在一条非常可行的路上,下一步应该是基于大数据的知识重构问题,那样会成为理解自然语言的突破。当前的IT技术及算法只是在逻辑的圈子里打转,还不能真正理解知识的本质

删除 回复 |赞[3]郑新奇   2013-7-28 16:41
维克托•迈尔•舍恩伯格(Viktor Mayer-Schönberger)认为:大数据时代更关注相关关系、全样本分析、模糊分析。

删除 回复 |赞[2]闵应骅   2013-7-28 08:52
根本没有论及自然语言理解。
 回复  : 呵呵,那就把题目改为《大数据NLP结缘论》、《大数据NLP应用论》、《大数据NLP条件论》,实在不行就《大数据NLP应用条件论》吧

2013-7-28 11:501 楼(回复楼主)赞|回复

删除 回复 |赞[1]郭文姣   2013-7-27 22:30
大数据的两个典型特征:要全不要精、要关联不要因果!

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据