【大数据挖掘:方崔大战一年回顾】(更正版)(屏蔽留存)

【大数据挖掘:方崔大战一年回顾】(更正版)

屏蔽已有 8527 次阅读 2014-1-6 09:12 |个人分类:社媒挖掘|系统分类:博客资讯| 方舟子, 崔永元, 挖掘, 社会媒体

对博文【大数据挖掘:方崔大战一年回顾】 2014-01-05 的更正是:去了“苦逼小崔”(白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude),加了中文繁体。(调查时间比前一次也后了一天。)

 

本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twitter 等处会用繁体热议崔和方,其实没有增加多少。Twitter 和 Facebook 的 data 一直比 较稳定,不会像微博那样可能有缺漏。

有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。

以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。

据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。

挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。

挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。

两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。

看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。

 

 
 

以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。

小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。

上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。

 

由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。

(1)共现主题词:(字体大小与热议成正比)

 

 

(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)

 

 

(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)

 

 

(4) 喜欢自有喜欢的理由:

 

(5)厌恶亦有厌恶的理由:

 

(6)所调查的数据来源种类:
 

(7)所调查的数据分布:
 

 

社交媒体样本:

 

 

 

DIsclaimer: still in beta, use at your own risk.  bug report is welcome.

 

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】(更正版) 2014-01-06

【大数据挖掘:转基因一年回顾】 2014-01-06
【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756334.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

13  陈辉 徐英祺 陈筝 薛宇 赵斌 董全 李宇斌 孙根年 王秀玉 麻庭光 ncepuztf tuner bridgeneer

发表评论评论 (31 个评论)

删除 |赞[20]dangping   2014-1-7 18:44
“数据挖掘的意义在于帮助了解舆情网情民情。”
有一个词叫做“制造舆论”,在有计划的宣传下,舆情网情民情都是可以制造出来的。
 回复  : 当然,舆情都是人为制造出来的,不是上帝或者自然的现象。没有制造,就没有挖掘。在媒体学中,对企业或政府有组织的制造舆情与个体自然流露的民情,是严格区分的,叫 push media and pull media。企业有公关部也有游说为其利益服务。政府(特别是赤色政府或白色政府)专门设置庞大的宣传部,目的就是制造和牵引舆论,为稳定或洗脑用。两类舆情有相互渗透的时候,但本质上代表了完全不同的诉求。现在网络普及了,各显神通,开始有僵尸和水军,也是为了制造舆论,或者搅混水。这些都应该在挖掘和测量中予以分别处理和对待。这条路很漫长,但曙光就在前面。

2014-1-8 03:281 楼(回复楼主)赞|

删除 |赞[19]mitbbs   2014-1-7 10:25
两次网上掐架,从头关注到尾,没在任何人微薄上留过言。在我看来,韩寒和崔永元完败,虽然以前还蛮喜欢他们。

删除 |赞[18]gusij   2014-1-7 09:47
我不知道“mirrorliwei”是谁,但愿不像之前有人所说,是您的“镜像帐号”。。。
针对他(或您)的评论,我的回复是,一篇好的研究,或者好的文章,当然要有点意义。就算没有,你做这个工作总给有个目的吧。。。如果您的研究就是为了展示一个“网络舆情”。我前边说了,至少在“转基因”问题的争论上,意义不大。而且你这篇文章展示出来的内容,很多其实就是水军互掐和个人攻击,对于没看过方微博,不了解转基因的人只会误导。

-----------------------------------------------------------------------------------
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[17]杜昌文   2014-1-7 09:16
这种数据分析很有意义, 但对于科学问题, 其结果也许只能说明广大民众科学素养的低下.  例如, 小崔, 无论现在有多少人支持他, 他在我心中的良好形象已完全崩溃, 已骂街泼皮几无差异.

删除 |赞[16]金拓   2014-1-7 04:36
一年前的方韩大战可不是两败俱伤,而是韩寒完败。韩寒不仅再也不是天才作家和意见领袖了,而且语文差生的水平也暴露无疑了。
 回复  : 那是你或一批人的看法。
数据挖掘出来的结果不是如此。

2014-1-7 05:281 楼(回复楼主)赞|

删除 |赞[15]麻庭光   2014-1-7 04:34
有意思的研究,我最关心的是,你能够从社交媒体中预报某一免费活动的参与者人数么?比如波士顿马拉松,我想提前知道人数,就可以做人流规划了。有没有这方面的前期工作?给个Citation,我正在写计划。谢谢
 回复  : 不能。没研究过这种预测。目前只是反映和回顾。

2014-1-7 05:271 楼(回复楼主)赞|

删除 |赞[14]蔡小宁   2014-1-6 21:08
努力猜测一下。实际上方崔大战是从9月份开始的,崔永元在9月初首次发起进攻对方舟子的打击很有力,曲线急剧下降,应该说崔永元实话实说节目积累的威望使众多粉丝齐心协力痛骂方舟子。但是后来,崔永元不能依据科学证据说话,说话带脏字,原先的崔粉有少量叛逃,改为支持方舟子,所以方舟子开始上升,崔永元开始下降了。如果崔永元不能像方舟子那样说话有理有据,败下阵来的日子指日可待。现在崔永元是在吃“实话实说节目”的老本,能永远吃下去吗?
 回复  : 蔡老师去看看【转基因一年回顾】的调查,也许可以从曲线图上,看到九月前的趋势与九月后趋势的不同及其解读。我对此事件没有追踪过,看不大明白。

2014-1-6 22:141 楼(回复楼主)赞|
 回复  : 转基因中文媒体一年趋势调查的网址在 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=756294

2014-1-6 22:362 楼(回复楼主)赞|

删除 |赞[13]蔡小宁   2014-1-6 20:47
刚刚发现博主又搞了个新版的,里面变化很大呀!怎么搞的?
 回复  : 都在文中交待了,发现了一个 bug:苦逼小崔 不是指的 小崔(永元),必须剔除(exclude)。

原调查的来源限制为简体中文社会媒体,现调查加入了繁体中文的来源,不加限制,可以增加数据量,也可以反映海外中文世界的声音。

2014-1-6 21:491 楼(回复楼主)赞|

删除 |赞[12]mirrorliwei   2014-1-6 20:25
to 某些评论者:镜某不能理解为何有些人的视野就那么窄! 
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[11]王秀玉   2014-1-6 20:00
更正客观一些。
 回复  : 降噪。

主要是原来的那个苦逼小崔的低谷,实际上与小崔的公关形象无关。

我至今也不知道这个苦逼小崔是谁。总之是噪音。

2014-1-6 22:171 楼(回复楼主)赞|

删除 |赞[10]lmnnml   2014-1-6 18:10
本人多次指出了你经常输入假数据, 伪数据, 然后得出假结论, 伪结论。 你从来不敢回答我的质疑,采取把我的质疑删除, 不让大家看到。
 回复  : 你拉皮糖,好,就开恩把你这条谣言立此存照。

1. 同样的评论,你反复贴,你匿名骚扰。
2. 你不匿名,我可以不删你的任何帖子(重复除外),ok?
3. 我自家的菜园子,当然仍保留不给理由删任何帖子的权利。

科学网的防匿名骚扰功能有待加强。

2014-1-6 21:561 楼(回复楼主)赞|

删除 |赞[9]周春雷   2014-1-6 16:47
水军的意见咋处理的?

删除 |赞[8]gusij   2014-1-6 15:19
同意。但是个人感觉在这个问题上的“民情”真的不是那么重要或者有严重误导性(具体原因不是评论一两句里能说清的)简单说,就是很多人是在无厘头的反对。
赞同:yakgg的观点。如果说这种数据还有意义,那么它的意义可能在于:“说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。"

删除 |赞[7]陈军   2014-1-6 15:03
同意【1】楼

删除 |赞[6]dangping   2014-1-6 14:46
赞同[1]gusij
能否面向专业期刊来做数据挖掘?
 回复  : 我没有数据,也没有时间。

这个调查系列是作为一种大数据科普和展示来做的试验,旨在引发对大数据领域的了解,以及发现挖掘中的bugs和盲点。

2014-1-6 22:091 楼(回复楼主)赞|

删除 |赞[5]bridgeneer   2014-1-6 14:39
突然发现,科学奴才真不少。

删除 |赞[4]jiareng   2014-1-6 13:09
大数据不是万能的!
 回复  : 放之四海而皆准。
谁给你灌输大数据万能,那人一定是片子。

2014-1-6 14:371 楼(回复楼主)赞|

删除 |赞[3]yakgg   2014-1-6 12:30
很有意义的, 说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。

删除 |赞[2]liyouxi   2014-1-6 11:37
可以提供给农民起义领袖们把握“民意”时使用:http://user.qzone.qq.com/11454399/blog/1388906053

删除 |赞[1]gusij   2014-1-6 11:29
坦率讲,不知道这种所谓的“数据挖掘”有什么现实的意义。对于转基因这样专业的问题,我们不可能凭臆想和公众舆论做判断。需要真正了解诶转基因的生物学家做解读,这方面美国权威机构已基本给出答案,那就是目前批准的转基因作物是安全的!
您的这种数据挖掘不如面向专业的学术期刊,而不是社交网络。
 回复  : 数据挖掘的意义在于帮助了解舆情网情民情。不在解决任何专业问题。专业问题找专家,不要找普罗百姓。

2014-1-6 14:391 楼(回复楼主)

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据