大数据挖掘问答1:所谓数据完整性 屏蔽留存

大数据挖掘问答1:所谓数据完整性

屏蔽已有 3472 次阅读 2013-12-27 11:12 |个人分类:立委科普|系统分类:科研笔记| 大数据

到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了
作者: 立委 (*)
日期: 12/26/2013 18:54:07
关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意针对它都不成。阴谋(家)没有出场的可能。

以前我写博文论过这个完整性迷思/迷信。有100种可能损失部分“理想状态”的完整数据:server down,发围脖的人改主意了决定不发了,或者发了以后又撤了删了,数据库的bug,处理器的bug,为成本考量有意随机取样一个子集,等等。总之,不完整是常态,完整是奇迹,不能指望的。

都大数据了,少一些就少一些呗。其实,损失数据通常不会影响分析挖掘的质量和结论。

我们做过评估,一年的社会媒体和随机取其中10%的内容做index,挖掘结果没有统计意义的差别,可成本节省很多。

就更不用说垃圾数据,或者疑似垃圾数据(门槛可以高一点)。那只会提高数据质量和结论。

顺便说一下一人一票的民主制度。几亿人去投票唱票算大数据尺度吧。其实随机剥夺一半,甚至90%,公民的投票权,其选举结果是不变的。注意,我说的是随机,譬如所有姓名以S开头的人都不允许投票。被剥夺投票的人也不用担心,作为人民一分子,大海一滴水,你的那份权利已经被恰当地代表了,结果反正也不会因为你不参与而改变。从结果看,经济上应该这么做,当然没有任何民主政府这么做,因为里面牵涉到公民权利和意识等,不仅仅是结果的问题。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-753349.html

上一篇:大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》
下一篇:大数据挖掘问答2:会哭的孩子有奶吃

 

4  许培扬 刘钢 薛宇 邱嘉文

发表评论评论 (4 个评论)

删除 回复 |赞[3]邱嘉文   2013-12-29 09:41
谁能告诉我这个“尺度”要大到什么程度,可量化吗?才符合“最大似然原理”?

删除 回复 |赞[2]闵应骅   2013-12-27 16:02
从信息安全的角度讲,数据完整性是个大问题。

删除 回复 |赞[1]许培扬   2013-12-27 11:19
小数据解决不了的问题,大数据也一样。发现问题,不一定解决问题,奥巴马是个典型。
 回复  : 我觉得,大数据挖掘看全貌(森林),小数据分析看细节(树木),这是很多应用场合都需要的互补的步骤。

2013-12-27 22:051 楼(回复楼主)

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据