继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么
屏蔽 |||
既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。
这次挖掘仍然是最近一个月的英文社会媒体,区间为:
GM food, 11/25/2013 - 12/25/2013
|
Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?):
-
GM food
-
genetically modified
-
transgenic
-
transgene
-
genetically engineered food
-
GMC
-
GMO
-
GMF
-
Franken-food
从下述共现主题词发现,GMC (for GM crop)有严重歧义,它更多用来作为 GM 汽车品牌:
因此加了以下限制词:
{ car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }
(也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)
Anyway,在上述定义的 query 下,搜索挖掘的结果如下。
共现主题:
总览:
上图科学网上显示不够清晰,可以下载下列文件在本地屏幕看仔细:
值得注意的是,与上次初步的调查的褒贬指数零下40度不同,这次更加 refined 的调查显示其褒贬指标为 零下29 度,转基因食品形象仍然很不佳,老百姓仍然很多疑虑和抱怨,但是不像 -40% 那样恐怖。这次调查做得更加细致,query defined 更周全, 个人认为应该更加真实可靠。
喜欢和厌恶转基因的理由云图如下:
社交媒体的地理分布:
从数据分布看,确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问,究竟是美国人民(网民)还是西方英文世界网民的民意。(我从善如流,为保险起见把前一篇博客的题目从“美国人民”改为“西方”,现在看来,我有依据再把标题改回去了。无需地理过滤,最近一个月英文社会媒体谈论 GM food 的话题,几乎全部集中在美国。)
美国国内的分布呢?
从颜色的深浅可以看出,这些议论主要集中在加洲(15%)和纽约州(9%),其次是德克萨斯(5%)和佛罗里达(5%)等。
其他信息图示:
网友一定奇怪,为什么挺转人士把 poison (毒药)列为理由呢?我也很好奇,就 drill down 到数据里面看,原来是这样的样例:
我们英文分析器当然知道 poison 是强贬义词,但是议论中的 poison 有否定词 no,因此处理器就转贬为褒。但是,遗憾的是,还是错了,可以算是一个质量的 bug,我这就去修改系统。错误在于,这不是简单的否定式,而是祈使否定句(NO 也用了大写),意思是“坚决不要孟山都的转基因毒药”,显然应该归入反转人士的意见去,现在弄反了。自然语言蛮复杂,除了否定,否定之否定,还有祈使,以及它们的混杂,这就是一个活生生的例证。再举一例,请看下面的 minimal pair:
(1) GM food is safer
(2) Be safer,GM food
同样是 “be safer”,(1)是褒义描述,而(2)是祈使句,带有贬义(义为 “拜托,你能安全一点,成不?”)
对这些 tricky 复杂的自然语言现象,我们做了不少工作,但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的,社会媒体的表达又很不规范。好在我们有不间断的质量检测(QA)流程, benchmarks 利用第三方 crowd-source 人工监测,四个判官,至少三个判官一致才作为标准。统计下来,英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用(以前我有几篇科普专文谈论这个),因此有信心说,总体结论是靠谱的,反映了社会媒体真实面貌的。
最后给一些社会媒体的samples
下载看上列样本的大图:
【相关篇什】
小数据和个案分析:个人在美国对转基因的感觉 2013-12-26
既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24
27 陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu
发表评论评论 (18 个评论)
- 删除 |赞[11]tuner
- 今年美国通过了转基因食品强制标识法案的州有3个:Vermont, Connecticut, 和Maine。都是东北部的州,看来孟山都等转基因公司想用金钱左右所有的民意,还是不可能的。
明年应该有更多的州会对转基因食品强制标识法案进行公投,看结果吧。博主也许可以再做一下同比,即前几年同一个月在这个话题上的民意,看变化情况,应该能进一步说明问题。
- 删除 |赞[5]zhiyanliao
- 用你这种大数据的方法, 调查民意, 我保证你的结论是:全世界的舆论都是反共, 反中国政府的, 中华人民共和国是专制的国家,钓鱼岛是属于日本的, 台湾是一个独立的国家, 毛泽东是暴君, ....... 。
为何? 因为你输入的数据是带偏见的。 你说你是没有输入自己的数据, 是网上已经有的数据, 请问科学家的数据跟民工中学毕业生的数据那个可靠。
- 删除 |赞[4]dangping
- 民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见,媒体也有可能更倾向于转载一些负面的报道和意见,所以这些分析结果能不能代表人民的意见还很难说。
- 删除 |赞[3]husselfist
- 有点意思。
- 删除 |赞[1]张能立
- 中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。