【大数据挖掘:方崔大战一年回顾】(更正版)
屏蔽 |||
对博文【大数据挖掘:方崔大战一年回顾】 2014-01-05 的更正是:去了“苦逼小崔”(白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude),加了中文繁体。(调查时间比前一次也后了一天。)
有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。
以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。
据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。
挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。
挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。
两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。
看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。
以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。
小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。
上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。
由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。
(1)共现主题词:(字体大小与热议成正比)
(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)
(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)
(4) 喜欢自有喜欢的理由:
(5)厌恶亦有厌恶的理由:
(6)所调查的数据来源种类:
(7)所调查的数据分布:
社交媒体样本:
DIsclaimer: still in beta, use at your own risk. bug report is welcome.
【相关的大数据挖掘博文】
【大数据挖掘:方崔大战一年回顾】(更正版) 2014-01-06
【大数据挖掘:转基因一年回顾】 2014-01-06
【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30
转基因问题
http://blog.sciencenet.cn/blog-362400-756334.html
上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?
13 陈辉 徐英祺 陈筝 薛宇 赵斌 董全 李宇斌 孙根年 王秀玉 麻庭光 ncepuztf tuner bridgeneer
发表评论评论 (31 个评论)
- 删除 |赞[20]dangping
- “数据挖掘的意义在于帮助了解舆情网情民情。”
有一个词叫做“制造舆论”,在有计划的宣传下,舆情网情民情都是可以制造出来的。 -
回复 : 当然,舆情都是人为制造出来的,不是上帝或者自然的现象。没有制造,就没有挖掘。在媒体学中,对企业或政府有组织的制造舆情与个体自然流露的民情,是严格区分的,叫 push media and pull media。企业有公关部也有游说为其利益服务。政府(特别是赤色政府或白色政府)专门设置庞大的宣传部,目的就是制造和牵引舆论,为稳定或洗脑用。两类舆情有相互渗透的时候,但本质上代表了完全不同的诉求。现在网络普及了,各显神通,开始有僵尸和水军,也是为了制造舆论,或者搅混水。这些都应该在挖掘和测量中予以分别处理和对待。这条路很漫长,但曙光就在前面。2014-1-8 03:281 楼(回复楼主)赞|
- 删除 |赞[18]gusij
- 我不知道“mirrorliwei”是谁,但愿不像之前有人所说,是您的“镜像帐号”。。。
针对他(或您)的评论,我的回复是,一篇好的研究,或者好的文章,当然要有点意义。就算没有,你做这个工作总给有个目的吧。。。如果您的研究就是为了展示一个“网络舆情”。我前边说了,至少在“转基因”问题的争论上,意义不大。而且你这篇文章展示出来的内容,很多其实就是水军互掐和个人攻击,对于没看过方微博,不了解转基因的人只会误导。-----------------------------------------------------------------------------------
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。
- 删除 |赞[17]杜昌文
- 这种数据分析很有意义, 但对于科学问题, 其结果也许只能说明广大民众科学素养的低下. 例如, 小崔, 无论现在有多少人支持他, 他在我心中的良好形象已完全崩溃, 已骂街泼皮几无差异.
- 删除 |赞[15]麻庭光
- 有意思的研究,我最关心的是,你能够从社交媒体中预报某一免费活动的参与者人数么?比如波士顿马拉松,我想提前知道人数,就可以做人流规划了。有没有这方面的前期工作?给个Citation,我正在写计划。谢谢
- 删除 |赞[14]蔡小宁
- 努力猜测一下。实际上方崔大战是从9月份开始的,崔永元在9月初首次发起进攻对方舟子的打击很有力,曲线急剧下降,应该说崔永元实话实说节目积累的威望使众多粉丝齐心协力痛骂方舟子。但是后来,崔永元不能依据科学证据说话,说话带脏字,原先的崔粉有少量叛逃,改为支持方舟子,所以方舟子开始上升,崔永元开始下降了。如果崔永元不能像方舟子那样说话有理有据,败下阵来的日子指日可待。现在崔永元是在吃“实话实说节目”的老本,能永远吃下去吗?
-
回复 : 转基因中文媒体一年趋势调查的网址在 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=7562942014-1-6 22:362 楼(回复楼主)赞|
- 删除 |赞[12]mirrorliwei
- to 某些评论者:镜某不能理解为何有些人的视野就那么窄!
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。
- 删除 |赞[8]gusij
- 同意。但是个人感觉在这个问题上的“民情”真的不是那么重要或者有严重误导性(具体原因不是评论一两句里能说清的)简单说,就是很多人是在无厘头的反对。
赞同:yakgg的观点。如果说这种数据还有意义,那么它的意义可能在于:“说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。"
- 删除 |赞[5]bridgeneer
- 突然发现,科学奴才真不少。
- 删除 |赞[3]yakgg
- 很有意义的, 说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。
- 删除 |赞[2]liyouxi
- 可以提供给农民起义领袖们把握“民意”时使用:http://user.qzone.qq.com/11454399/blog/1388906053