【大数据挖掘:转基因英文网络的自动民调和分析】(屏幕留存)

【大数据挖掘:转基因英文网络的自动民调和分析】

屏蔽已有 4162 次阅读 2014-1-3 18:23 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 民意, 挖掘, 民调

前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。

既然转基因是大众如此关心的热点话题,我们就拿它当小白鼠,继续做系列大数据自动调查,用海量数据粉碎少数匿名极端分子散布的大数据调查涉嫌“输入伪数据”的谣言。博主保证在话题定义和输入给系统以后,相关的原始数据搜索及其自动分析全过程没有任何人工干预。这一点是由我们的大数据产品的性质决定的。产品允许以不同的 filters 来做对比研究,博主保证对比调查中的任何 filter 都明确标示,默认为不使用。各位谨记的是,大数据是客观的存在,大数据不会说谎,但是对数据的下列解读(interpretation)不可避免有主观的成分。欢迎百家争鸣,对这些数据做出不同的解读,也欢迎对数据挖掘的条件和过程提出建议和质疑。(但不欢迎任何极端分子的胡搅蛮缠无理取闹,博主保留对任何极端或不雅留言杀无赦不解释的权利。)

转基因一年来英文社会媒体口碑的自动民调和分析如下。  

(1)话题的定义和输入:GM food | GMO | genetically modified | transgenic | transgene | genetically engineered food | GMF | Franken-food

与前同(删除了歧义严重的害群之马 GMC)。

(2)自动民调结果总览

尝试解读:一年的自动调查提及转基因485万,调查了383 万多社交媒体的帖子,涉及近 15 万网民。这是真正的大数据民调,比传统手工民调最多几千份问卷,数据量和调查对象要高两到三个量级。转基因的一年大数据的平均褒贬指数为零下13度,比前几次的一个月数据的调查要好(虽然仍然是负面评价为主)。转基因的话题在西方社会媒体中,的确很有争议。

尝试解读:一年的提及转基因话题的帖子,有 28% 的帖子(134万)含有褒贬评价或情绪,其中贬(57%)略大于褒(43%)。褒贬的幅度区间在 6 度最高点(见上图最高红点旁 tooltip 小框)到 零下 32 度(上图最低谷的红点处)之间。值得注意的是 2013 年六月是转基因网络热议的最高峰,而这场热议却使得转基因褒贬指数跌入最低点零下32度。

 

下面是最近半年的数据,褒贬度为零下10度,略好于一年的指标。

(3)共现话题:

尝试解读:多次挖掘都是如此,与转基因最密切的主题永远是 Monsanto (孟山都)。说转基因纯粹是科学问题,那是 too simple and naiive,只要背后有企业,就一定有利益因素。

(4)挺转反转的理由词云:

 
Download

尝试解读:正反理由旗鼓相当的样子,这比以前一个月数据的调查大为改善。反转的最大理由不再是 gluten 相关的疾病,而是死亡(Die)和癌症(Cause cancer)。挺转声音强调的是安全(safe),也是很自然的。

(5) 挺转反转的情绪词云:

 
Download

尝试解读:wow,情绪云图中挺转的分贝(那些大大字体的 love,good,great)似乎比反转的(bad,not want,concerned,fear,hate,fuck)更高(表现为更大的字体),不过后者的表达更加多样化。

(6)挺转反转的行为:

 
Download

尝试解读:挺反双方不仅仅是情绪发泄,还有行动,有吃的用的买的(eat,use,buy),就有拒吃拒买甚至要求禁止的(not eat,not buy,reject,ban)。

(7) 挺转反转的比例

 

(8)社媒样例:还是贬大于褒嘛。
 

 

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

 

转基因问题
http://blog.sciencenet.cn/blog-362400-755554.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

4  陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

删除 |赞[3]杨会杰   2014-1-4 11:58
   大数据崇拜要不得
其实大数据很大的一个特点是脏数据
 回复  : 你想说什么呢?
因为数据脏,就不要挖掘?

2014-1-4 14:311 楼(回复楼主)赞|

删除 |赞[2]蔡小宁   2014-1-3 23:42
博主的数据应该是真的,至少我是这样认为的,但是不要迷信“大数据”也是我一直的提醒。
 回复  : 蔡老师,什么叫“应该”?数据是从内容商买的,真的假的也是内容商的问题,我们只是使用它挖掘情报而已。

2014-1-4 14:301 楼(回复楼主)赞|

删除 |赞[1]biofans   2014-1-3 18:38
不是说美国人吃了20多年的转基因食品吗?那就分析20年来的数据可能更可信。
 回复  : 没有那么久的历史数据(即便有,也买不起,原始数据是需要给内容供应商付钱的)。社交媒体的历史总共不过七八年吧。

2014-1-3 19:021 楼(回复楼主)赞|
 回复  : 另外,我怀疑 10-20年前,没什么人议论转基因。因为美国的转基因进入市场不加标识,绝大部分民众蒙在鼓里,根本没有这个概念。最近一年的热议,估计与美国崇尚自然有机食品的所谓健康饮食的时尚潮流有关。另一方面,也幸亏美国人做了 20 年的小白鼠。这 20 年美国没有发生转基因带来的严重问题,我个人认为足以证明国人对转基因的担心有点杞人忧天。只要按照美国标准去做,就应该没啥问题。当然,转基因主粮如大米和小麦的推向市场,还是谨慎为好。

2014-1-3 19:102 楼(回复楼主)赞|
 

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据