只认数据不认人:IRT 的鼓噪左右美国民情了么?(屏蔽留存)

只认数据不认人:IRT 的鼓噪左右美国民情了么?

屏蔽已有 4109 次阅读 2013-12-30 06:27 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 舆情, 挖掘

套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》

当然,还有上帝:In God We Trust. In everyone else we need data.

大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

不过,挖掘本身也有可能有 bug(但即便是 bug 或者其他不完善之处,它们对所有搜索的话题也是一视同仁的,是独立于话题的,因为系统的编制针对的是开放话题),挖掘的结果可以从不同角度验证或质疑。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

上篇转载博文([转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28)就是老友在质疑和解读这方面做出的有意义的努力。老友指出,其所以造成 gluton intolerance 成为反对转基因的主要理由,是由于美国反转极端组织 IRT 的鼓噪的效应。从时间上看,IRT 确实在上个月的大数据调查区间内制造了反转新闻,似乎影响颇大(drill down 显示 twitter 在很短时间里对 cause gluten related illness “新闻”有 700 多条大同小异的微博或转发,下面是“鼓噪”及其社媒传播样品)。

RT | @tree_details http://t.co/i8PV0y3Ev2 Future Epidemic? Monsanto GM foods cause gluten-related illnesses. econ/food/soci- gmo.
Monsanto GM foods cause gluten-related illnesses (silveristhenew.com) […]
GM foods cause gluten-related illnesses —
I added a video to a @YouTube playlist http://t.co/rywMnDKtlU Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic Monsanto GM foods cause gluten related illnesses: Published on Dec 7, 2013 18 million of Ameri… http://t.co/86SnUlUmxv.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013 , RT.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013, RT.
Monsanto GM foods cause gluten-related illnesses • ‘March of Millions’: Ukraine braces for massive anti-govt rally • Spiritual Journey: Valaam monastery in Russia’s far north (RT Documentary).
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/leNyyCI1G4. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/kZlxQso6T4. #RT

………

RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @RT_com: Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/FbJhDufXzn. @portnayanyc
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/lknWlC2CP2

……….

Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/XOJYHwyci4 via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/EUYyOsnFyV via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/mAPr2RkyLL. #FutureEpidemic #GM #GMO #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/MwzyJkqjLI. #FutureEpidemic #GM #GMO #RT

………

有了上述解读,我们有两个问题需要解答:(1)一小撮 IRT 分子的 “鼓噪” 可以左右舆情么?影响度如何?(2)反对转基因的理由除去 gluten intolerance 后是怎样分布的?

于是我们继续做转基因的大数据自动挖掘来寻求答案,以便看清西方当今舆情和民情的真相。根据老友们的建议,我们可以设置条件,做一个对照调查。下面就是这次对照调查的条件和结果。

(1) Baseline:为做到 apple to apple 式的 minimal pair 对照比较,我们先把最近一个月的自动调查重复一次(除去了原 query 中的害群之马歧义词 GMC,因为发现它绝大多数是与 GM 品牌汽车相关,而不是指转基因谷物),结果拷贝如下:

这是 baseline,没有加限制词的结果,似乎没有多大改变
作者: 立委 (*)
日期: 12/29/2013 02:08:05

(2)在上述自动挖掘中加入限制词 “cause gluten” 以屏蔽由于 IRT 鼓噪事件带来的反转中最大,据专家认证也最不靠谱的理由:

嗨,我加了一个限制词 ”cause gluten“,舆情面貌变了哎
日期: 12/29/2013 08:16:59
不过褒贬指数还是很低:零下 33 度(比零下 37 度稍微升温 5 度)。似乎说明网络舆情对转基因还是充满抱怨的情绪。

 
Download
 
Download
 
Download

 
Download
 
Download

【相关博文】

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-754053.html

上一篇:与理发师的交谈
下一篇:“科学里说法的‘短命性’不是好事情吗?”

 

10  武夷山 孙根年 郑小康 陈儒军 陈筝 鲍得海 李宇斌 bridgeneer liyouxi tuner

发表评论评论 (15 个评论)

删除 |赞[10]李维   2013-12-31 20:25
新年将至,打个戳:

已有 3507590 人来访过

积分: 670威望: –金币: 665活跃度: 44665好友: 548主题: 2博文: 3618相册: 6分享: 343

stamped

删除 |赞[9]lmnnml   2013-12-31 16:14
再来指出你这个大数据统计的随意性。 你可以说“据专家认证gluten也最不靠谱的理由”从而把gluten删除, 从而提高了其它项目(例如致癌)的比例, 请问你从几个专家的意见得出了gluten不靠谱? 这不是跟你的标题“只认数据不认人”完全相反, 变成了“只认专家不认数据”了吗。 再反过来问你, 现在的大多数专家都认为已经批准了的转基因食品与常规的一样, 不致癌, 你为什么在致癌问题上,不加一个限制词 ”cause cancer“,你这不是按照自己的意愿和观点,随意操作大数据, 达到你自己的观点来误导舆论吗? 如果你有理的话, 请你不要删除我的观点, 正面回答
 回复  : 匿名朋友,没工夫跟你缠,这是我自家的菜园子,懂不?
你要是精力旺盛,到别处玩去。
你要是不匿名,我又有时间和心情,就陪你玩。
新年保重。

2013-12-31 19:591 楼(回复楼主)赞|

删除 |赞[8]lmnnml   2013-12-31 15:44
请问博主, 你为何把因为glutin 过敏反对GMO食品的60%的民意删除了? 你这不是不认数据只认人吗?
 回复  : 你睁开眼睛看仔细:那是做对照挖掘。删除前后的数据都在博文给出,难道你不读全文就指控?

朋友认为那个不是“民意”,而是某极端组织的“鼓噪”,因此做一个对比研究,看看该条“鼓噪”(或民意)对于整体褒贬指数的影响有多大,结果是5个点的影响。

大新年的。少点指控,多点快乐。祝新年好。

2013-12-31 19:551 楼(回复楼主)赞|

删除 |赞[7]liyouxi   2013-12-31 10:05
如果说的是我,我要说,我没有指出数据不可靠,只是说如何对待数据是个问题。

    [8]lmnnml

删除 |赞[6]liyouxi   2013-12-31 00:42
博主能否利用大数据手段证明或者证伪下述的据报道?

====
非营利性组织“国际食品信息委员会”(IFIC)在进行2013年《美国食品安全调查:消费者对食品安全、营养、健康的态度》调查时,依据2012年美国官方人口普查,以调查人群的性别、年龄分布、学历分布、族群分布和地区等变量配属统计权重,对1,006 名年龄18—80岁的美国人进行问卷采访。问卷结果显示,对于“你担心食品安全的哪些方面”这一问题,29%的消费者担心病菌和污染问题,21%的人担心制作过程,13%的人担心添加剂和化学品,只有2%的美国消费者表示担心转基因食品。当调查者进一步提问“你会避免哪些食品”时,消费者更多关注的是食品中“糖”和“脂肪”的含量,只有0.5%的人表示会避免转基因食品。对于现有的食品标签,仅有3%的消费者希望标注转基因信息。而在对消费者购买行为的调查中,87%的消费者表示生物技术(包括基因工程)不影响他们的购物选择。

 回复  : 没这个能力。

2013-12-31 13:061 楼(回复楼主)赞|

删除 |赞[5]liyouxi   2013-12-30 20:37
  

删除 |赞[4]liyouxi   2013-12-30 12:48
大数据能反映民意,这一点是没有太大问题的,只要收集数据的手段客观可靠即可。但是一个科技政策这样的专业判断问题,民意不能代表正确,且现代科学观念从来都是从少数人的探索开始的,社会大众事先不可能先行进行判断认定,即使成为科学知识之后,要一般老百姓(包含其他专业人士)来进行判断是强人所难。因此,我想博主可以做这样一个研究:美国民众在对待未知事物表达担忧的同时,是否主观想替代专业人士进行判断?或者在制定政策的层面上,是否对自己的非专业意见有足够的信心?还是,虽然有担忧,但是信任国家有关部门专家及科学共同体做出的决断和政策?他们老百姓有直接冲到最前线,推翻zf(FDA,AAAS等)的现有政策的意愿么?等等等等。
 回复  : 看样子,我得向美国NSF或者国内杰出老年基金申请一个课题来研究这一系列问题,题目就叫【论社会媒体民意与公共政策之关系:以转基因为小白鼠的 case study】

2013-12-30 16:081 楼(回复楼主)赞|

删除 |赞[3]liyouxi   2013-12-30 09:58
不过,摒除主观因素是一个重要方面,还有一个重要方面是样本空间是否足够客观、取样是否均匀?
 回复  : 样本是最近一个月的英文社会媒体存档,以 twitter 为主,Facebook 为次,其它论坛等只占一个小的比例。这是当今社交媒体的自然分布,取样应该是均匀的。具体交待见以前的两篇博文。

2013-12-30 10:551 楼(回复楼主)赞|

删除 |赞[2]liyouxi   2013-12-30 09:54
从某种意义上来说,人本身就是一架大数据处理机器,人就是在根据一辈子的所见所闻来下结论。不过,由于每个人处理数据的方式不一样,所以就一件客观的事情吵来吵去,难以得到共有的结论。因此,名义上,科学界不会以人的嗜好来作为判断标准,以尽量客观,虽然实质上还是会受影响。那么李老师,你所说的大数据处理方法摒除主观因素的能力是否在行业中得到公认?

删除 |赞[1]孙根年   2013-12-30 07:17
“数据,数据,除了它,我们谁也不认!”这话好,是情报分析的关键。

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据