【大数据挖掘：转基因英文网络的自动民调和分析】

屏蔽已有 4162 次阅读 2014-1-3 18:23 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 民意, 挖掘, 民调

前不久做过几个转基因在英文社交媒体的自动民调，引起广泛兴趣。不过，那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查，看看西方（主要是美国）社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用，因此甚至有热心网友提出愿意筹款资助这项调查。

既然转基因是大众如此关心的热点话题，我们就拿它当小白鼠，继续做系列大数据自动调查，用海量数据粉碎少数匿名极端分子散布的大数据调查涉嫌“输入伪数据”的谣言。博主保证在话题定义和输入给系统以后，相关的原始数据搜索及其自动分析全过程没有任何人工干预。这一点是由我们的大数据产品的性质决定的。产品允许以不同的 filters 来做对比研究，博主保证对比调查中的任何 filter 都明确标示，默认为不使用。各位谨记的是，大数据是客观的存在，大数据不会说谎，但是对数据的下列解读（interpretation）不可避免有主观的成分。欢迎百家争鸣，对这些数据做出不同的解读，也欢迎对数据挖掘的条件和过程提出建议和质疑。（但不欢迎任何极端分子的胡搅蛮缠无理取闹，博主保留对任何极端或不雅留言杀无赦不解释的权利。）

转基因一年来英文社会媒体口碑的自动民调和分析如下。

与前同（删除了歧义严重的害群之马 GMC）。

（2）自动民调结果总览

尝试解读：一年的自动调查提及转基因485万，调查了383 万多社交媒体的帖子，涉及近 15 万网民。这是真正的大数据民调，比传统手工民调最多几千份问卷，数据量和调查对象要高两到三个量级。转基因的一年大数据的平均褒贬指数为零下13度，比前几次的一个月数据的调查要好（虽然仍然是负面评价为主）。转基因的话题在西方社会媒体中，的确很有争议。

尝试解读：一年的提及转基因话题的帖子，有 28% 的帖子（134万）含有褒贬评价或情绪，其中贬（57%）略大于褒（43%）。褒贬的幅度区间在 6 度最高点（见上图最高红点旁 tooltip 小框）到零下 32 度（上图最低谷的红点处）之间。值得注意的是 2013 年六月是转基因网络热议的最高峰，而这场热议却使得转基因褒贬指数跌入最低点零下32度。

下面是最近半年的数据，褒贬度为零下10度，略好于一年的指标。

（3）共现话题：

尝试解读：多次挖掘都是如此，与转基因最密切的主题永远是 Monsanto （孟山都）。说转基因纯粹是科学问题，那是 too simple and naiive，只要背后有企业，就一定有利益因素。

（4）挺转反转的理由词云：

Download

尝试解读：正反理由旗鼓相当的样子，这比以前一个月数据的调查大为改善。反转的最大理由不再是 gluten 相关的疾病，而是死亡（Die）和癌症（Cause cancer）。挺转声音强调的是安全（safe），也是很自然的。

（5）挺转反转的情绪词云：

Download

尝试解读：wow，情绪云图中挺转的分贝（那些大大字体的 love，good，great）似乎比反转的（bad，not want，concerned，fear，hate，fuck）更高（表现为更大的字体），不过后者的表达更加多样化。

（6）挺转反转的行为：

Download

尝试解读：挺反双方不仅仅是情绪发泄，还有行动，有吃的用的买的（eat，use，buy），就有拒吃拒买甚至要求禁止的（not eat，not buy，reject，ban）。

（7）挺转反转的比例

（8）社媒样例：还是贬大于褒嘛。

【转基因大数据挖掘系列博文】

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】 2014-01-03

【大数据挖掘：转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人：IRT 的鼓噪左右美国民情了么？ 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么 2013-12-26

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

【置顶：立委科学网博客NLP博文一览（定期更新版）】

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-755554.html

上一篇：翻旧照片，原来 baby 生日蛋糕是酱紫吃地
下一篇：【大数据挖掘：方崔大战一年回顾】

收藏修改| 删除|

当前推荐数：4 推荐人：陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

删除 |赞[3]杨会杰 2014-1-4 11:58: 大数据崇拜要不得
其实大数据很大的一个特点是脏数据; 李维回复杨会杰：你想说什么呢？
因为数据脏，就不要挖掘？

2014-1-4 14:311 楼（回复楼主）赞|

删除 |赞[2]蔡小宁 2014-1-3 23:42: 博主的数据应该是真的，至少我是这样认为的，但是不要迷信“大数据”也是我一直的提醒。; 李维回复蔡小宁：蔡老师，什么叫“应该”？数据是从内容商买的，真的假的也是内容商的问题，我们只是使用它挖掘情报而已。

2014-1-4 14:301 楼（回复楼主）赞|

删除 |赞[1]biofans 2014-1-3 18:38: 不是说美国人吃了20多年的转基因食品吗？那就分析20年来的数据可能更可信。; 李维回复 biofans ：没有那么久的历史数据（即便有，也买不起，原始数据是需要给内容供应商付钱的）。社交媒体的历史总共不过七八年吧。

2014-1-3 19:021 楼（回复楼主）赞|; 李维回复 biofans ：另外，我怀疑 10-20年前，没什么人议论转基因。因为美国的转基因进入市场不加标识，绝大部分民众蒙在鼓里，根本没有这个概念。最近一年的热议，估计与美国崇尚自然有机食品的所谓健康饮食的时尚潮流有关。另一方面，也幸亏美国人做了 20 年的小白鼠。这 20 年美国没有发生转基因带来的严重问题，我个人认为足以证明国人对转基因的担心有点杞人忧天。只要按照美国标准去做，就应该没啥问题。当然，转基因主粮如大米和小麦的推向市场，还是谨慎为好。

2014-1-3 19:102 楼（回复楼主）赞|

【大数据挖掘：转基因英文网络的自动民调和分析】（屏幕留存）

【大数据挖掘：转基因英文网络的自动民调和分析】

当前推荐数：4 推荐人：陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

发布者

立委

发表回复

【大数据挖掘：转基因英文网络的自动民调和分析】

当前推荐数：4 推荐人： 陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

发布者

立委

发表回复

当前推荐数：4 推荐人：陈筝 biofans bridgeneer tuner