大数据挖掘问答1:所谓数据完整性
屏蔽 |||
以前我写博文论过这个完整性迷思/迷信。有100种可能损失部分“理想状态”的完整数据:server down,发围脖的人改主意了决定不发了,或者发了以后又撤了删了,数据库的bug,处理器的bug,为成本考量有意随机取样一个子集,等等。总之,不完整是常态,完整是奇迹,不能指望的。
都大数据了,少一些就少一些呗。其实,损失数据通常不会影响分析挖掘的质量和结论。
我们做过评估,一年的社会媒体和随机取其中10%的内容做index,挖掘结果没有统计意义的差别,可成本节省很多。
就更不用说垃圾数据,或者疑似垃圾数据(门槛可以高一点)。那只会提高数据质量和结论。
顺便说一下一人一票的民主制度。几亿人去投票唱票算大数据尺度吧。其实随机剥夺一半,甚至90%,公民的投票权,其选举结果是不变的。注意,我说的是随机,譬如所有姓名以S开头的人都不允许投票。被剥夺投票的人也不用担心,作为人民一分子,大海一滴水,你的那份权利已经被恰当地代表了,结果反正也不会因为你不参与而改变。从结果看,经济上应该这么做,当然没有任何民主政府这么做,因为里面牵涉到公民权利和意识等,不仅仅是结果的问题。