大数据挖掘问答1：所谓数据完整性

屏蔽已有 3472 次阅读 2013-12-27 11:12 |个人分类:立委科普|系统分类:科研笔记| 大数据

到了一定尺度以后，你也不用迷信什么数据完整性，好像少了一块数据，就怎样怎样了

作者: 立委 (*)

日期: 12/26/2013 18:54:07

关键是，不管何种原因数据不完整了，只要原则上保证这种数据损失不是针对特定话题即可（一视同仁）。而在大数据条件下，针对话题的损失事故几乎就不出现，因为话题不是预定的，想有意针对它都不成。阴谋（家）没有出场的可能。

以前我写博文论过这个完整性迷思/迷信。有100种可能损失部分“理想状态”的完整数据：server down，发围脖的人改主意了决定不发了，或者发了以后又撤了删了，数据库的bug，处理器的bug，为成本考量有意随机取样一个子集，等等。总之，不完整是常态，完整是奇迹，不能指望的。

都大数据了，少一些就少一些呗。其实，损失数据通常不会影响分析挖掘的质量和结论。

我们做过评估，一年的社会媒体和随机取其中10%的内容做index，挖掘结果没有统计意义的差别，可成本节省很多。

就更不用说垃圾数据，或者疑似垃圾数据（门槛可以高一点）。那只会提高数据质量和结论。

顺便说一下一人一票的民主制度。几亿人去投票唱票算大数据尺度吧。其实随机剥夺一半，甚至90%，公民的投票权，其选举结果是不变的。注意，我说的是随机，譬如所有姓名以S开头的人都不允许投票。被剥夺投票的人也不用担心，作为人民一分子，大海一滴水，你的那份权利已经被恰当地代表了，结果反正也不会因为你不参与而改变。从结果看，经济上应该这么做，当然没有任何民主政府这么做，因为里面牵涉到公民权利和意识等，不仅仅是结果的问题。

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-753349.html

上一篇：大数据帮助决策实例：《走进“大数据”——洗衣机寻购记》
下一篇：大数据挖掘问答2：会哭的孩子有奶吃

收藏修改| 删除|

当前推荐数：4 推荐人：许培扬 刘钢 薛宇 邱嘉文

发表评论评论 (4 个评论)

删除回复 |赞[3]邱嘉文 2013-12-29 09:41: 谁能告诉我这个“尺度”要大到什么程度，可量化吗？才符合“最大似然原理”？

删除回复 |赞[2]闵应骅 2013-12-27 16:02: 从信息安全的角度讲，数据完整性是个大问题。

删除回复 |赞[1]许培扬 2013-12-27 11:19: 小数据解决不了的问题，大数据也一样。发现问题，不一定解决问题，奥巴马是个典型。; 李维回复许培扬：我觉得，大数据挖掘看全貌（森林），小数据分析看细节（树木），这是很多应用场合都需要的互补的步骤。

2013-12-27 22:051 楼（回复楼主）

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

大数据挖掘问答1：所谓数据完整性屏蔽留存

大数据挖掘问答1：所谓数据完整性

当前推荐数：4 推荐人：许培扬 刘钢 薛宇 邱嘉文

发表评论评论 (4 个评论)

发布者

立委

发表回复

大数据挖掘问答1：所谓数据完整性

当前推荐数：4 推荐人： 许培扬 刘钢 薛宇 邱嘉文

发表评论评论 (4 个评论)

发布者

立委

发表回复

当前推荐数：4 推荐人：许培扬刘钢薛宇邱嘉文