继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 (屏蔽留存)

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

屏蔽已有 5486 次阅读 2013-12-26 02:25 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 转基因, 社交媒体, 挖掘, 语言技术

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。

这次挖掘仍然是最近一个月的英文社会媒体,区间为:

GM food, 11/25/2013 – 12/25/2013

Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?):

  • GM food
  • genetically modified
  • transgenic
  • transgene
  • genetically engineered food
  • GMC
  • GMO
  • GMF
  • Franken-food

从下述共现主题词发现,GMC (for GM crop)有严重歧义,它更多用来作为 GM 汽车品牌:

因此加了以下限制词:

{ car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }

(也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)

Anyway,在上述定义的 query 下,搜索挖掘的结果如下。

共现主题:

总览:

值得注意的是,与上次初步的调查的褒贬指数零下40度不同,这次更加 refined 的调查显示其褒贬指标为 零下29 度,转基因食品形象仍然很不佳,老百姓仍然很多疑虑和抱怨,但是不像 -40% 那样恐怖。这次调查做得更加细致,query defined 更周全, 个人认为应该更加真实可靠。

喜欢和厌恶转基因的理由云图如下:

社交媒体的地理分布:

从数据分布看,确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问,究竟是美国人民(网民)还是西方英文世界网民的民意。(我从善如流,为保险起见把前一篇博客的题目从“美国人民”改为“西方”,现在看来,我有依据再把标题改回去了。无需地理过滤,最近一个月英文社会媒体谈论 GM food 的话题,几乎全部集中在美国。)

美国国内的分布呢?

从颜色的深浅可以看出,这些议论主要集中在加洲(15%)和纽约州(9%),其次是德克萨斯(5%)和佛罗里达(5%)等。

其他信息图示:

网友一定奇怪,为什么挺转人士把 poison (毒药)列为理由呢?我也很好奇,就 drill down 到数据里面看,原来是这样的样例:

我们英文分析器当然知道 poison 是强贬义词,但是议论中的 poison 有否定词 no,因此处理器就转贬为褒。但是,遗憾的是,还是错了,可以算是一个质量的 bug,我这就去修改系统。错误在于,这不是简单的否定式,而是祈使否定句(NO 也用了大写),意思是“坚决不要孟山都的转基因毒药”,显然应该归入反转人士的意见去,现在弄反了。自然语言蛮复杂,除了否定,否定之否定,还有祈使,以及它们的混杂,这就是一个活生生的例证。再举一例,请看下面的 minimal pair:

(1) GM food is safer

(2) Be safer,GM food

同样是 “be safer”,(1)是褒义描述,而(2)是祈使句,带有贬义(义为 “拜托,你能安全一点,成不?”)

对这些 tricky 复杂的自然语言现象,我们做了不少工作,但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的,社会媒体的表达又很不规范。好在我们有不间断的质量检测(QA)流程, benchmarks 利用第三方 crowd-source 人工监测,四个判官,至少三个判官一致才作为标准。统计下来,英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用(以前我有几篇科普专文谈论这个),因此有信心说,总体结论是靠谱的,反映了社会媒体真实面貌的。

最后给一些社会媒体的samples

 

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752915.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

27  陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu

发表评论评论 (16 个评论)

删除 |赞[10]tuner   2013-12-26 20:54
今年美国通过了转基因食品强制标识法案的州有3个:Vermont, Connecticut, 和Maine。都是东北部的州,看来孟山都等转基因公司想用金钱左右所有的民意,还是不可能的。

明年应该有更多的州会对转基因食品强制标识法案进行公投,看结果吧。博主也许可以再做一下同比,即前几年同一个月在这个话题上的民意,看变化情况,应该能进一步说明问题。

删除 |赞[9]崔小云   2013-12-26 17:05
大数据的方法真好。我慢慢学习李老师的博文吧。

删除 |赞[8]谢龙   2013-12-26 16:50
博主你应该增加一个关键词 biotech

删除 |赞[7]范丁丁   2013-12-26 15:17
李老师,你做这个的方法可否分享下,感觉很牛
 回复  : 我的博客有100多则科普类分享,你有空慢慢挑着看吧

2013-12-26 15:241 楼(回复楼主)赞|
 回复  : 在两个专栏里:《社媒挖掘》和《立委科普》

2013-12-26 15:252 楼(回复楼主)赞|

删除 |赞[6]lmnnml   2013-12-26 15:02
26楼点中要害

大数据能代表美国人民吗?        我看8楼的评论
zhiyanliao说大数据代表不了真理

 回复  : 谁说大数据代表真理,谁就不是 human!

2013-12-26 15:341 楼(回复楼主)赞|

删除 |赞[5]文克玲   2013-12-26 14:44
可以比较一下大数据与全民公决的结果(加州,转基因标识问题)。
 回复  : 这个工作就指望您啦

2013-12-26 15:351 楼(回复楼主)赞|

删除 |赞[4]dangping   2013-12-26 14:05
民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见,媒体也有可能更倾向于转载一些负面的报道和意见,所以这些分析结果能不能代表人民的意见还很难说。
 回复  : 其他网友也有这个看法。有一定道理。但这个否定不了大数据的挖掘价值。

2013-12-26 15:291 楼(回复楼主)赞|

删除 |赞[3]husselfist   2013-12-26 13:07
有点意思。

删除 |赞[2]薛宇   2013-12-26 11:27
您这个词频分析真是个好东西,另外,啥叫“共现主题”,能解释一下吗?还有,您这个用到热图了,这个我们好几年前就关注了,跟胖子还合作了一个工具。挺好,赞!
 回复  : 就是共现关键词,主要是实体名词

2013-12-26 15:071 楼(回复楼主)赞|

删除 |赞[1]张能立   2013-12-26 10:36
中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。
 

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据