【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 屏蔽留存

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

屏蔽已有 18605 次阅读 2013-12-24 06:47 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 社交媒体, 挖掘, genetically

从英文社会媒体对转基因食品大数据调查显示,其评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。

但褒贬双方的激烈程度(passion 指标为零)远不如国内。

 

这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。

说美国人民对转基因很放心安心,似乎离开事实太远。自发社会媒体的舆情分析,在西方(主体是美国,至少上网议论此事的),人民一样害怕(fear)而且担心(concern)。

 

褒贬的具体理由何在呢?让大数据给你揭示真相和民情。
 
褒的理由:

 

贬的理由:

 

褒贬不成比例是显而易见的,因为红多绿少:

 

不久后可以深入文体调查一下。从用语看,我怀疑,褒词多来自新闻网站,是公司和科学家的说辞。而贬辞似乎来自民间,对新生事物的自然恐惧。(我们正在研发更好的分类系统,把来自社会媒体中的企业话语与来自社会个体的话语,所谓 push media and pull media 更清晰地分割开来,因为后者才是真正的舆情,无论对错。前者则是宣传和灌输,不可等量齐观。在市场调查和舆情聆听中,这种分类可以屏蔽噪音,更清楚地听到人民的呼声。目前的工具也可以根据domain来源做一些分割,但是不如正在研制的分类器准确、robust和好用)

这项调查的数据来源、分布如下:
 
 

小崔花费50万来美国做社会调查,还不如把个零头给我,我可以做全方位千万数据点的自动调查
 
也省得他一个文傻被批评不科学,样本量不够,不懂统计,问卷有误导,等等 。

我只要他的零头(调查一年或者以上的数据有数据成本和不同调查侧面的操作成本)就可以给他从各种角度(来源、文体、性别、地理、舆论走向、社会背景、影响力等等),画出上百张有说服力的数据统计表和各种图示来。保证做到系统层面的客观公允,绝不夹带人为干预和主观误导。这就是大数据时代语言挖掘的力量。

有空再做一个中文社会媒体调查做比照。

RE:你的这个方法的内在限制:反转的比不反转的更有passion,网站多,网上发言也多,故有bias。

RE:所谓好事不出门坏事传千里。我觉得立委的大数据调查只能反映网上意见的传播情况,与现实社会还是有一定差距的。

有些道理。但比传统发问卷打电话在街口堵截用户做不足千份的数据调查呢?后者更容易走偏吧
作者: 立委 (*)

随机性上能去掉人对样本范围的选择的影响。数据点能跳上去两三个量级,代表性是问卷调查不可比拟的。

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

转基因问题
http://blog.sciencenet.cn/blog-362400-752316.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

52  郑小康 曾泳春 武夷山 孙根年 戎可 刘洋 吴飞鹏 董全 吴鸣 陈儒军 王国强 喻海良 鲍得海 牛登科 崔树勋 隋立明 赵凤光 陈辉 周雄伟 周洲 褚昭明 董侠 周春雷 徐晓 刘全慧 许培扬 赵斌 王秀玉 毕重增 付福友 薛宇 周华 王启云 俞立平 赵大良 张振兴 王锋 杨辉 曹广福 lbjman biofans tuner nanofluid zzjtcm ddsers yunml nm liyouxi bridgeneer huluhuluhulu schist ilovelife365

发表评论评论 (108 个评论)

删除 |赞[67]任金东   2014-1-14 13:34
美国人认为转基因食品安全是对的,因为那对于他们就是安全的。懂基因技术的人都知道,基因武器有着很好的定向性,转基因食品很可能是针对某些种族的,尽管我们目前还没有确实的证据,但对于这方面的戒备却不可以无,否则也许等到我们明白的时候也许就晚了。不管老外们如何评论,我们必须对转基因食品持非常谨慎的态度。我国的食用油、大豆(金龙鱼产品)据说都被米国高盛集团垄断了,里面有转基因成分大家注意,有的甚至根本没标明是转基因食品。我国现在年轻人不孕、不育的比例在增加,不知道是否与此有关?

删除 |赞[66]曹广福   2013-12-26 15:35
其实,任何涉及老百姓的事情都该征求老百姓的意见,可惜,中国历来是家长式制度,领导可以为百姓当家做主,这就使得某些利益集团觉得有机可乘。

删除 |赞[65]曹广福   2013-12-26 14:51
五十万的零头是多少呢? 
 回复  : 有网友说是5万,并准备捐款筹款,激励我继续做深度民调。
我的数学告诉我是零,所以我说不必捐款了,我有闲就继续做好了。

2013-12-26 15:231 楼(回复楼主)赞|

删除 |赞[64]husselfist   2013-12-26 13:41
gluten是指淀粉食品中的蛋白质,转基因当然和这个有关。搞搞清楚好吧。

删除 |赞[63]程宗明   2013-12-25 21:25
这个大数据分析其实很有意思。挺转(like)的和反转(dislike)的人群给出的理由说明挺转的群体对转基因基本是知道为什么“挺” (“like”),理由都很清楚,如25%的人认为是安全的,近20%认为是“商业批准的,加上其他,有近60%的人认为'转基因是”正面的“。而反转的(”dislike“)群体中有66%的人的理由是”gluten-related-illness“。gluten和转基因没有任何联系。不少美国人对gluten过敏,把对gluten(小麦是一个主要过敏源)过敏作为反转的理由说明这个群体对转基因的无知。小麦在转基因技术发明(70年代-80年代)前就已被人类食用至少几千年了。把这个帽子扣到转基因头上真是“冤枉”。所以,不能完全依靠“民意”来决策,而是说明科学普及即使在美国也非常缺乏。
 回复  : 有理。不少懂行老友也是这样解读的。

2013-12-26 01:301 楼(回复楼主)赞|

删除 |赞[62]周向进   2013-12-25 16:13
谢谢您的工作,祝您圣诞节快乐!新年快乐!
 回复  : 圣诞快乐,你也。

2013-12-25 16:401 楼(回复楼主)赞|

删除 |赞[61]闫安志   2013-12-25 14:45
中国的一句老话:无利不起早!
挺转派说的越多,叫的越响,这里肯定对他们有利!

删除 |赞[60]schist   2013-12-25 13:35
2012年美国加州37号提案 “GENETICALLY ENGINEERED FOODS. LABELING. INITIATIVE STATUTE. ” ,正反方的观点表述的都很清楚。无论持那一种观点,不应选择性地只介绍对自己观点有利的方面,而应客观全面地介绍给公众!链接地址如下:
http://voterguide.sos.ca.gov/propositions/37/arguments-rebuttals.htm#content
.

删除 |赞[59]schist   2013-12-25 13:30
to [4]蔡小宁  2013-12-24 09:23 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意转基因标识,大多数民意连转基因标识都不要了,对转基因食品安全性的担心能有多少呢?这个样本比你那个说明问题吧?
==================
"大多数民意连转基因标识都不要了,对转基因食品安全性的担心能有多少呢?" 如果我们了解了反对与支持转基因标识的比例,可能更有助于认知这个问题,实际上反对标识以微弱的比例胜出,说明还是有很多持疑义者。
关于加州37号转基因标识提案的投票结果,见维基百科的链接:http://en.wikipedia.org/wiki/California_Proposition_37_(2012)
Proposition 37
Genetically Engineered Foods Labeling Election results
Yes or no Votes Percentage
Yes      6,088,714     48.59%            
  No      6,442,371     51.41%
Valid votes 12,531,085 100%
Invalid or blank votes 0 0%
Total votes 12,531,085 100.00%

以反对该提案51.41% 对赞成48.59% 的比例否决了该提案。

该提案支持者募集的资金总数为920万美元,最大一笔资助来自Mercola Health Resources (Mercola 健康资源?),为119万9千美元;反对者募集的资金总数为4600万美元,最大一笔资助来自Monsanto Company(孟山都公司)为811万2千多美元。

双方前10为捐助者如下:

Supporters(支持)
Mercola Health Resources 1,199,000KentWhealy 1,000,000
Nature's Path Foods 610,709Dr.Bronner ′ sMagicSoaps 620,883
Organic Consumers Fund 605,667AliPartovi 288,975
Mark Squire 258,000WehahFarm 251,000
Amy's Kitchen 200,000TheStillongerTrust(MarkSquire,Trustee) 190,000
Opponents(反对)
Monsanto Company 8,112,867
E.I. Dupont De Nemours & Co.5,400,000
PepsiCo, Inc. 2,585,400GroceryManufacturersAssociation 2,002,000
Kraft Foods 2,000,500BayerCropscience 2,000,000
Dow AgroSciences 2,000,000BASFPlantScience 2,000,000
Syngenta Corporation 2,000,000Coca−ColaNorthAmerica 1,700,500

 回复  : thanks for info。

我人在加州但没有投票权,加上从来不关心转基因的话题,所以不了解这些细节。

2013-12-25 16:391 楼(回复楼主)赞|

删除 |赞[58]周华   2013-12-25 13:13
转基因食品其实没什么好争的,一个基本事实就是“反转的拒绝吃,挺转的不敢吃”。 

删除 |赞[57]黄火明   2013-12-25 12:58
转基因,暂时没有问题,不代表以后没有问题,基因问题或许几十年几百年之后才能显现出来。因为现在我们对生物,尤其是我们自身的身体的了解程度还非常低。仅仅照现有的一点点科学知识去推测结果,不准的可能性是非常大的。

删除 |赞[56]常顺利   2013-12-25 10:58
很多事情都是这样的:赞成的人不怎么发声,而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结,这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此,所谓相对客观的大数据,也许本身就已经预设了立场。
 回复  : 这种情况是可能的。所以我说,同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如,指数为零表面上似乎是褒贬民意旗鼓相当,你可以打个折扣,理解成其实是褒多于贬,只不过很多满意的人不言声而已。

这个折扣怎么打,可以根据经验法则,多一些实验也许慢慢可以显现出来。

2013-12-25 11:081 楼(回复楼主)赞|

删除 |赞[55]唐凌峰   2013-12-25 10:16
谢谢您的回复,这个方法如果有效的话,应该很有用处。可否用于做预测,例如预测美国总统选举谁胜出?您如果能正确预测几次,广告效应会很显著。
 回复  : 反过来看就明白了。这个方法无效的话,还会有企业客户花费几十万甚至上百万来购买它的使用权(一遍收集客户对品牌和产品的意见)么?当客户都是傻子呢。用处是毋庸置疑的。

至于预测,难度较大。从反映舆情走向,跳跃到预测未来,是一大步。可以做尝试,但不要指靠它。

关于美国总统选举,我以前的博文描述过用我们的系统实时检测美国总统辩论的舆情变化,其论题曲线与舆情的涨落有密切关联,你可以查看:奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。
http://blog.sciencenet.cn/blog-362400-623922.html

我也曾经两次拿它预测过具体股票的走势,推荐买进还是卖出。两次都侥幸成功了,但是那是一个通过股票人气做的简单试验。权当好玩,不能当真。这个在我以前的博文和大数据演讲中也有提及。见:【『科学』预测:A-股 看好】
http://blog.sciencenet.cn/blog-362400-639090.html

2013-12-25 16:361 楼(回复楼主)赞|

删除 |赞[54]薛宇   2013-12-25 10:01
赞赞赞!大数据玩的漂亮啊!
 回复  : 怎一个玩字了得。都圣诞了哎。
玩过头了。圣诞快乐

2013-12-25 16:451 楼(回复楼主)赞|

删除 |赞[53]杨全文   2013-12-25 08:57
那我们到底是等啦还是积极参与呢?也没个官方的指向。

删除 |赞[52]周向进   2013-12-25 08:56
1、这篇博文很好,数据很丰富,而且中立。
2、建议增加对统计内容的中文翻译,放在后面,有些字体太小,看不清楚。
3、建议您公布一个账户,我愿意为您的工作捐赠一些资金,并动员其它人一起捐赠,尽快达到5万元您要求的数额。
谢谢!
 回复  : 多谢美意,并不需要资金支持。我是 chief,有特权,有些成本可以不计,就算测试系统了。等闲来做更完整更大数据的调查,再向各位汇报。
圣诞快乐

2013-12-25 11:151 楼(回复楼主)赞|

删除 |赞[51]夏新宇   2013-12-25 08:34
会哭的孩子有奶吃,沉默的大多数永远被忽略。
 回复  : 如果沉默,忽略也是可以的,因为言论自由的社会你不表达,没人有义务揣摩你,而且也无法揣摩。民主社会选总统,常常有一半以上的人放弃投票权,也是一样被忽略。

2013-12-25 11:121 楼(回复楼主)赞|

删除 |赞[50]zhdqing   2013-12-25 08:21
相信!有时想,挺转的人是不是别有用心!!转基因是不是美国灭杀中国的一种长期战略?对以自我为中心的美国鬼子,不得不防!越是急于无厘头的挺转,大家越要小心阴谋!!!
 回复  : 我本人不相信美国(政府)有阴谋。但美国公司可能有利益相关。

2013-12-25 16:461 楼(回复楼主)赞|

删除 |赞[49]陈卫军   2013-12-25 08:13
也是一种了解舆情不错的方法。
 回复  : 大势所趋。传统手工问卷方式跟不上时代了,而且成本太高,周期太长,采样太小。

2013-12-25 16:441 楼(回复楼主)赞|

删除 |赞[48]王锋   2013-12-25 07:45
我在美国几乎没听见人家讨论或者担心转基因!当然可能是我认识的人太少!
 回复  : 我的经验跟你同。没想到国内掐成这样。

2013-12-25 16:421 楼(回复楼主)赞|

删除 |赞[47]xk1009   2013-12-25 06:18
我就对gluten过敏,还真不知道gluten跟转基因有了半毛钱的关系。

删除 |赞[46]fineday36   2013-12-25 00:48
不好意思,刚看了你是搞计算机的

删除 |赞[45]fineday36   2013-12-25 00:46
不严谨,瞎起哄,不是做学术的人应有的态度.
搞科学的人就是用科学的数据以简明扼要让民众听得懂的方式去解释给民众听,这个事算不上是仁者见仁智者见智的事吧,肯定有可以解释的地方.
反对也好,不反对也好,用科学的数据以简明扼要让民众听得懂的方式来说明,民意?大部分人都不懂,采集的民意有用么,收集一群啥也搞不清楚的人的民意能说明什么问题,有用么????????
混混沌沌,唉
 回复  : 采集民意没用?

好家伙,你反人民到如此啊(kidding)。谁敢说这个话?连历史上的独裁者为了自身利益和江山的长治久安,还常想法采集民意呢,过去还有采集民谣来看民意的。何况是现代的民主社会。

圣诞快乐

2013-12-25 01:041 楼(回复楼主)赞|

删除 |赞[44]liyouxi   2013-12-25 00:35
特别对于中国的公众,想着要跳过专业意见的束缚,强调是非常必要的,否则那么多谬误,即使已经被澄清,还被反复拿出来炒作。

博主回复(2013-12-25 00:25):这样的大白话还用强调么:所谓的大数据得到的公众观感统计结果并不表明“多数人是对的”

删除 |赞[43]唐凌峰   2013-12-25 00:25
任何一门新的方法的建立,都需要首先用对照验证其有效性。这种抓取网络关键词,有没有与大样本的问卷调查等传统方法进行对比,验证过有效性?看到fear,就下结论说是人民害怕,也许是有人说不用fear呢?至于英文网络的数据,为什么下结论时认为只是美国人的意见,把欧洲人等排除掉了?
 回复  : 有没有与问卷调查以及用其他方式验证过这个系统的有效性?

有过。很多次。而且还在不断定期进行中。为什么要这样做?因为质量是系统的生命线,否则怎么取信于客户。

大数据挖掘热点话题(冷门话题数据量少,就不好说了)作为舆情的反映,基本可信,至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息,权当 raise awareness 和科普。

2013-12-25 00:531 楼(回复楼主)赞|
 回复  : 至于意见中是不是只有美国?

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看,美国网民比重很大,但这个世界是地球村了,当可能包括西方其他国家的舆情夹在里面了。

其实很好解决,系统有地理过滤器,我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘,有成本的。今后高兴了,再做吧。

2013-12-25 00:592 楼(回复楼主)赞|
 回复  : 你提到“抓取关键词”,怀疑系统不能处理否定式(“也许是有人说不用 fear 了”),那是你不了解我的背景,虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之,我们的舆情挖掘不是通常的关键词技术,而是建立在高级得多的深度语法分析(deep parsing)之上的信息抽取和挖掘。不仅可以对付否定式,否定之否定等更复杂的语言现象也能处理。

2013-12-25 07:093 楼(回复楼主)赞|

删除 |赞[42]fineday36   2013-12-24 23:51
老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.
 回复  : 我只做民意。别的你们做,或这谁爱做谁做。

我不反对转基因,也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度,我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导,不能强迫人们吃转基因,或这任何东西。

2013-12-25 00:391 楼(回复楼主)赞|

删除 |赞[41]王秀玉   2013-12-24 23:39
转基因其他应用安全问题(1)转基因疫苗终于出事 地址:http://blog.sciencenet.cn/blog-817414-752583.html

删除 |赞[40]robindoc   2013-12-24 21:12
小崔自掏腰包,所做的却是为民的事。虽知不可为,而为之,是民族的良知趋使。而有些人,可以为之,却不作为。这是差距! 我们没有理由耻笑小崔,他是一面旗帜,是民族的脊梁,给予我们的不是答案,而是正能量! 向小崔致敬!
 回复  : 其实也没什么不可为了。都现代社会了,有互联网和社会媒体,谁还能一口遮天。每个人都有权发表意见。

很久以前看过他的节目,很优秀的主持人。

2013-12-25 00:221 楼(回复楼主)赞|

删除 |赞[39]liyouxi   2013-12-24 20:39
科学问题不是一个群众投票问题,美国公民知道转基因的并不如某些想象的那样多,但是他们为何准许政府有关机构 “瞒着他们” 搞那么多转基因产品给他们吃?因为他们信任他们的体制,包括政体和科学评价体系。国内的问题,是老百姓有点不信zf,顺带地也就没法相信 “专家”。 但是老百姓想要在专业知识要求很高的领域进行判断,完全是强人所难。所以,希望李维老师要强调(正如文章中那样)所谓的大数据得到的公众观感统计结果并不表明“多数人是对的”,而是给专业的科协共同体提供一个参考,去发现这个领域的科普做的怎么样。
可以设想,当年布鲁诺当年坚持日心说的时候,如果有机会进行一个 “大数据” 统计,不晓得会是一个什么结果。
 回复  : 这样的大白话还用强调么:所谓的大数据得到的公众观感统计结果并不表明“多数人是对的”

舆情与对错没有一毛钱的关系。何况很多东西从科学上讲,也不是只有对与错,黑与白,还有很多中间状态。

2013-12-25 00:251 楼(回复楼主)赞|

删除 |赞[38]蔡小宁   2013-12-24 20:00
37楼的李老师可以看看我对此事的解释:退运转基因玉米不等于其不安全http://bbs.sciencenet.cn/home.php?mod=space&uid=789923&do=blog&id=746196
 回复  : 我没说转基因玉米不安全啊?

去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。

2013-12-25 00:341 楼(回复楼主)赞|

删除 |赞[37]jimbolee   2013-12-24 19:48
额我以为文章是LZ写的,如果是的话LZ对搜索引擎玩的很转啊
当时我在看这篇报道的时候
http://www.lijingbo.com/gm-coin-returned-to-us/
其实内心也犯嘀咕,到底转基因的玉米有多少流入了中国市场
 回复  : LZ who 啊?

2013-12-25 16:471 楼(回复楼主)赞|

删除 |赞[36]tudao   2013-12-24 19:37
这篇博文充分说明,“大数据”并不是神仙,完全可能得出错误的结论,“大数据”只是一种工具,要看使用者如何使用它了。
 回复  : 说大数据是神仙的,多半是忽悠。

今天忽悠大数据,明天其他东西流行了,就忽悠其他东西。

但是大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级。拜科学技术所赐。

2013-12-25 00:301 楼(回复楼主)赞|

删除 |赞[35]王大元   2013-12-24 18:24
对于大数据处理, 我完全是外行, 现在说几句外行的话, 不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性, 不分青红皂白的把所有数据输入, 输入的数据就没有科学性, 可靠性, 由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V, 用定贴机为某一个题目专门不断发帖顶贴, 所以不分青红皂白的输入这种数据, 实际上是被其他人所误导。
3. 所以要用大数据, 必须界定你的大数据来源。 否则同一事物, 被不同人选择来源, 完全就有不同的结论。
以上是外行的话。
 回复  : 当然你的担心是有理由的。做大数据的人当然要过滤垃圾(包括无处不渗入的色情),而且要 detect 僵尸、水军和数据的过分重复(机器人发贴)等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度,可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是,由于大数据的存在以及大数据处理能力的不断完善,舆情挖掘提供了一个难以取代的情报源,在决策中有参考价值。这是可以基本肯定的。

2013-12-24 18:351 楼(回复楼主)赞|

删除 |赞[34]yunml   2013-12-24 17:57
我说的确实只是一个可能性。可能确实很难处理我说的这种“可能存在”的问题。
 回复  : 作为可能性是有意义的,它可以是一个研究课题。

(其实你的美丑的例子不恰当,因为多数语言中,贬义词的丰富程度很少比褒义词差。汉语中骂人的话比赞美i人的话更加多样化,光国骂 TMD 的变种就上百。当然这不影响你的假说。)

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不在成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

2013-12-24 18:291 楼(回复楼主)赞|

删除 |赞[33]刘学武   2013-12-24 17:42
花生最大的问题是黄曲霉素,过敏也很常见,这个不安全因素大家都知道。如果谁说,花生非常安全,大家都来吃,我肯定要质疑的。

删除 |赞[32]王大元   2013-12-24 17:39
还有一点, 博文中说的Gluten引起的各种那个过敏症。 我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。
而且超市中真正gluten-free的食品货架上很少的,现在美国飞机航班上不提供花生, 只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏, 所以航班不供应花生了。

至于博主和蔡晓宁先生说的大数据处理的技术我不会, 还得在学习了。 不过google或百度上的绝大多数数据是垃圾数据。 如果要使用大数据处理来统计, 我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理,看看你能得出一个什么结论。 这些可就是科学的结论了。

 回复  : 听我的专家朋友说,Glutten 确实与转基因无关,是有公认的科学结论的。

那为什么舆情中,这一项作为转基因的主要问题呢?

没办法,这就是舆情,我不能改变它,只能反映它。

也许这正说明,科普还没做到家,还没能让老百姓了解和信服。任重道远。

至于垃圾过滤,这是任何大数据系统都必须要做的工作,我们也有这个过滤,经过几年的不断改进,测试证明英文大数据的垃圾已经不再是大问题了。

不过中文媒体的垃圾过滤还有很多工作要做,有国内微博水军和僵尸的问题。不过对于热点话题,可以只选取带 V 的样本,也就杜绝了水军和僵尸。但对于冷门话题就不好办了。

另外一个工作是避免过量重复(de-dup),英文也已经做得很好。

2013-12-24 17:551 楼(回复楼主)赞|

删除 |赞[31]yunml   2013-12-24 17:32
我的论点,您可能只看到了其中一部分。我再多说一点,人们的用词习惯在这个比较里面没有被考虑到。比如,说一个人很丑可能多数人用单词A,而说她美可能会有十种表达方式。假定认为美的有十个人,用词个不一样,说她丑的只有三个人,但看起来是显然的高频词。这不是误导吗?这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。
 回复  : 要想做这种矫正,你先得研究清楚这种现象在真实语料中确实存在,严重程度,分布如何。听上去,这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外,一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小(其实即便在那里,我们对比较严格的同义词还是做了合并处理的,因此问题没有想像的严重),但并不影响最重要的 net sentiment (褒贬度)的指标,因为后者是根据褒贬两大类来计算,而不问具体的用词。

2013-12-24 17:451 楼(回复楼主)赞|

删除 |赞[30]yunml   2013-12-24 16:39
感觉这些高频关键词很可能有误导啊。
原因是:有些相似的观念会用近似而不是相同的词语来表达,就是说相近的语义用词却分化很大。举例来说,思维比较精细,比较理性的往往用词准确,因此用词就会多种多样。不理性的情绪,可能就不一样,直接就“简单粗暴”了。
 回复  : 你是说,秀才遇到兵,有理说不清。兵的呼喊分贝较高。
有点意思。

高频关键词本身并不误导,它是现实的反映。对它的解读可以有异,譬如把上述考量带入。

2013-12-24 17:091 楼(回复楼主)赞|

删除 |赞[29]孙根年   2013-12-24 16:33
其实,最重要的是“屁股决定脑袋”,“利益决定行为”,“态度决定言论”。当屁股坐在挺转的椅子,转基因就是“狗粪”,也会吃上一口说是“香的”。

删除 |赞[28]蔡小宁   2013-12-24 16:32
李维老师,我将在我博文评论里对你的回答张贴于此,供参考:

这是我自己主持开发的软件,用的是未经任何人控制的原始数据(英文叫做 firehose,就是直接从社交网站流出来的),没有人工干预,靠的是自然语言挖掘技术自动生成的。这样说,应该够清楚了吧。我的本行就是舆情自动调查,这只是针对热点问题,从系统输出结果而已,供大家做舆情分析时候一个参考。
(我本人在超市买食品,从来不区别转还是不转,领导倒是有时候强调要天然食品,大概是受到美国 Whole Food 等有机食品宣传的影响。)

博主回复(2013-12-24 16:24):我的推测是否正确,不是关键。关键是你的舆情分析软件结果与公民的投票结果相反,必须做出解释,否则这样的舆情分析只会造成更大的认识混乱;如果领导据此决策了,更加有误导嫌疑。

博主回复(2013-12-24 16:15):我不怀疑你的数学分析能力,你的数学模型包括软件应该是不错的。但是,出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面,还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你,让我们共勉吧:数学模型应当建立在具有生物学意义的基础上,离开了这个基础,哪怕数据再充分、模型再漂亮,也是没有意义的。

 回复  : 您如果质疑“调查反映了民间的真实态度”,完全没有问题,因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差,也还不算离谱。

可您凭空从头脑想出来并 描述了我的数据被操纵的过程和细节,就让人跌破眼镜了。

2013-12-24 16:381 楼(回复楼主)赞|
 回复  : 喂,喂,我为什么要为我的自动调查与公民投票的差异做出解释?

我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合,可能有一千个因素,我有什么责任和义务解释?

我也从来没关心过那次投票。

2013-12-24 16:442 楼(回复楼主)赞|
 回复  : 而且您的思维很怪异:说什么领导据此决策错误,我就更加有误导嫌疑。

这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源,依然决策错误,那就是狗屁领导,没有领导能力、决策能力,领导应该下台,这个决策错误与信息提供者有一毛钱的干系?

又:说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学,我做语言文本调查要什么生物学的基础?我的对象是自然语言(社交媒体),不是生物啥的。我的模型建立在语言学(语言分析,parsing)基础上,这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。

2013-12-24 18:073 楼(回复楼主)赞|

删除 |赞[27]李维   2013-12-24 16:02
蔡老师 发文 http://blog.sciencenet.cn/blog-789923-752383.html,说:“李维先生说,该英文社交媒体大数据调查反映了民间的真实态度,这个观点看来要打个问号了。” 这个“该”字从何谈起,我们对社交媒体是一网打尽(因为企业用户要求如此),其组成和来源都在文中有交待。他下面的推测充满了细节,实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢,描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的,其调查的人群经过了特异的选择,或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”,又有什么意义呢?”

蔡老师哎,你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件,用的是未经任何人控制的原始数据(英文叫做 firehose,就是直接从社交网站流出来的),没有人工干预,靠的是自然语言挖掘技术自动生成的。这样说,应该够清楚了吧。我的本行就是舆情自动调查,这只是针对热点问题,从系统输出结果而已,供大家做舆情分析时候一个参考。

(by the way 我本人在超市买食品,从来不区别转还是不转,领导倒是有时候强调要天然食品,大概是受到美国 Whole Food 等有机食品宣传的影响。)

 回复  : 说明一下,所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index (库存)里面,我们包括所有够得着的社交媒体,英文社交媒体从比重上看,twitter 为主,Facebook 其次,其他论坛上百万个来源只占少数,这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人,所以不时用系统挖掘热点话题,一来可以看看系统还有什么可以改良的地方,而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直是匪夷所思。

2013-12-24 16:101 楼(回复楼主)赞|

删除 |赞[26]曹俊   2013-12-24 15:58
网上的意见显然是有比较大的系统偏差。怎么修正这人偏差很值得研究。
 回复  : 系统偏差是指?

2013-12-24 16:231 楼(回复楼主)赞|

删除 |赞[25]abaniu   2013-12-24 15:54
这2个菠菜基因的蛋白, 全世界的人都在吃, 为何到了柑桔里就不能吃?这个例子说明, 转基因食物是否安全要个案一一审批, 最关键的就是你那个基因好不好。 我们大家都有基因, 为什么就要说基因不好呢?
    博主回复(2013-12-24 15:15):说得很好,很清晰。同意。

-----------------------------

啊?受教了,原来这么简单啊?基因和厨房的葱姜蒜等佐料一样,无论出现在哪个菜里都是葱姜蒜,起增味调香去腥的作用。

看来生物学很简单嘛,难怪被人骂成是骗子了,天天号称还有很多没搞清的,要投钱,投大钱,大投钱的。

也难怪最窝囊,最无用的人都去搞生物学了。搞得美国国会还提议在签证方面不把生物学人才当人才。

删除 |赞[24]崔健   2013-12-24 15:24
建议全民公决一下 来一次民主演习

删除 |赞[23]王大元   2013-12-24 15:20
[22]肖鑫鑫  2013-12-24 14:56  很想问一下,数据图怎么做的呀?请教~
----------------------------
jiaxing9回答:
1. 首先你要把数据收集好, 在excel的表格中输入数据(data entry)
2. 在excel中选项就可以把表中的数据转换为曲线图或者饼图, 柱图等等。
3. 然后在photoshop里用层的叠加功能, 可以把几根曲线合并到一张图上
估计在ofiice2010中的word中也可以完成(不用photoshop), 但我没有做过
 回复  : 要是那么麻烦,软件还能卖么。我们的软件即刻生成,立等可取。

2013-12-24 15:311 楼(回复楼主)赞|

删除 |赞[22]王大元   2013-12-24 15:08
您这个数据应该是没问题的。 但你这个数据是舆情调查数据。决策依据主要是根据科学数据, 也考虑舆情数据。 舆情数据与科学数据是两回事。 例如现在在中国,你要去调查黄色影片或黄色书籍是否可以开放, 或者你去调查军队是否要由党来领导, 你的舆情调查结果肯定与真实的结果完全相反。在400多年前你去调查袁崇焕是否应该被杀, 那时的舆情肯定是应该被杀。
但是对于一个新生的科学产品是否安全的唯一标准就是科研的数据。舆情是否要考虑? 当然要考虑。 就目前的转基因话题来说, 转基因玉米和转基因大豆的科学数据和实践都证明了他的安全性, 对这2种转基因食品的安全与否, 就可以不理睬舆情的数据。 EFSA(欧洲食品安全局)负责审批所有进口的转基因作物和食品是否可以以食品和饲料的形式在欧洲上市。 EFSA的所有评审报告, 不管是批准和不批准的第一句话就是(没有例外):”EFSA's Scientific Opinion is that ........". 然后送交欧盟主席团审批。 欧盟主席团从来不对EFSA的Scientific Opinion 做评论或指手画脚。 但是欧盟委员会並不因为EFSA说安全就绝对批准, 欧盟委员会还要根据欧洲民众的舆情和经济利益做出批还是不的决定, 不批并不是否决EFSA的安全Scientific Opinion
就拿美国来说, 转基因小麦的安全性,十年前被FDA/EPA审查通过是安全的了, 美国政府从来不说转基因小麦不安全,但就是不批准。 这就是考虑了舆情的因素, 孟山都也就知趣的不再申报商业上市了。 最近的美国的转基因三文鱼, FDA和EPA联合办公, 批准了申请了12年的转基因三文鱼是安全的(批文在网上挂了半年了), 但美国国会和美国政府也是考虑舆情, 一直按住不给商业化批文, 现在还在等待之中。
对中国政府来说, 也是采取了与欧洲和美国同样的方式, 转基因大豆食品,转基因玉米食品,不管你舆情如何反对,我就是批准上市, 因为有solid的科学依据。但中国政府 对转基因水稻, 就压住不批, 也是考虑到舆情。 我也支持中国政府的这种做法。 如果美国的转基因小麦和转基因三文鱼被批准商业化, 我估计我国的转基因水稻被批准的可能性大增。 尤其是转基因三文鱼一旦被批准, 美国后面有将近30种申请上市的转基因鱼,牛, 鸡,猪正在美国FDA/EPA那里排队等待批准,如果三文鱼被批准,后面就会一下子依前例可循的方式如洪水般的冲出来, 这是美国政府现在犹豫不决的主要原因。
上次你提到的转基因柑桔黄龙病那个例子, 我觉得被批准的可能性还是比较大的, 因为他们是把菠菜里的2个基因转到柑桔上,产生了抗黄龙病的抗性(菠菜里有很多我们正在吃的天然的蛋白是有抗菌作用的), 这2个菠菜基因的蛋白, 全世界的人都在吃, 为何到了柑桔里就不能吃?这个例子说明, 转基因食物是否安全要个案一一审批, 最关键的就是你那个基因好不好。 我们大家都有基因, 为什么就要说基因不好呢?
 回复  : 说得很好,很清晰。同意。

2013-12-24 15:151 楼(回复楼主)赞|

删除 |赞[21]肖鑫鑫   2013-12-24 14:56
很想问一下,数据图怎么做的呀?请教~
 回复  : 自家软件自动生成的,就好比 spreadsheet 里面有数据就可以自动生成图示一样。

2013-12-24 15:281 楼(回复楼主)赞|

删除 |赞[20]ffqllj   2013-12-24 13:38
支持,小崔那钱花得有点冤枉
 回复  : 精神可嘉?

2013-12-24 15:261 楼(回复楼主)赞|

删除 |赞[19]隋立明   2013-12-24 13:15
对待转基因,要有科学的态度。但是,很多反对转基因的人,连什么是基因都不很明白。另外,在科学问题上,不遵从少数服从多数。
 回复  : 不单是科学问题吧,要上老百姓餐桌的话。老百姓的感受不能不顾及。

2013-12-24 15:261 楼(回复楼主)赞|

删除 |赞[18]刘学武   2013-12-24 12:58
如果不能保证100%的安全,我们就有怀疑的理由。
 回复  : 哪里有百分百。花生是大众食品多少年了,每年不还有多少人花生过敏生病的么。

2013-12-24 15:241 楼(回复楼主)

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据