【社煤挖掘:大数据女星排行榜】

Mirror mirror on the wall, who now is the fairest one of all?

自从毛委员开启新中国,半个多世纪以来影视娱乐界历经磨难起伏,如今迎来了百花齐放星光灿烂的黄金时代。被无数粉丝奉为当今中国影视女皇的范冰冰,在众多女星中究竟排名如何?我们让大数据说话,让社会媒体告诉你。

先比较一下据说当今PK范冰冰呼声最高的张馨予。

PK

张馨予天生丽质,比范冰冰更接地气,可惜她饰演的几位角色都是刁毒的坏女人,据说连带她也受牵累。下表是过去27个月社煤大数据挖掘的概览比较:

单看这概览便知,在大家心目中,张馨予还嫩了点,无法挑战范冰冰的影后地位。从人气上看,张小姐还不及范小姐的四分之一;褒贬指标 45% 虽然算是不错的媒体形象了,但也远远不及范冰冰的 62%。粉丝的狂热度也略逊一筹(70 pk 76)。下图是时间曲线。首先是热议度比较,可见出除了 2013 年十月前后,张馨予的热议度陡升外(为什么陡升,等空来细细挖掘看),过去两年多的其余时间均不及冰小姐。

反映媒体形象的褒贬指标(net-sentiment)的曲线表明,范冰冰差不多步步领先张馨予,而且评价度一直比较平稳。张馨予则起伏较大,只在四个时间点短暂超越范冰冰。

下面的情绪指标(passion intensity)也类似,不过两位更加接近(有三个时间点馨予短暂超越冰冰),说明各自都有一批狂热死忠的粉丝,争吵起来不惧激烈。

上述挖掘比较的结果,用我们创造的同时含有人气指标(品牌大小或泡泡的大小来表示),褒贬指标(net sentiment 横轴)和激情指标(passion intensity 纵轴)的多维品牌比较一览图 (Brand Passion Index,BPI) 独特图示如下:

张馨予不在话下,那么其他红星呢?请看:

哈,论人气,范冰冰稳居第一,比第二位的章子怡还要高出一倍。可论受欢迎的程度(褒贬度)这项硬指标,美丽大方接地气的高圆圆才是普罗百姓(也是笔者)心目中真正的无冕之后,高达 74 %,比范小姐高出 12 个点。

网民心目中的真正星后 高圆圆

(可惜的是,我所喜欢的徐静蕾风光不再,逐渐淡出女星圈,步入中年的她已经更多转型为导演了。)

高圆圆 pk 范冰冰是完胜。过去两年多除了几个短暂的时间点,圆圆是一路领先:

范冰冰只能说是话题女王或眼球女王,高圆圆才是网民心目中的真正皇后:

高圆圆为什么具有如此高的口碑成为网民的偶像呢?下面是圆圆的两张云图,可以提供一点insights:

最后把调查的六位当红女星的过去两年多的比较曲线一并提供如下,供大数据爱好者们研究参照:

 

【后记】

《圆冰之战花絮:泥沙龙笔记,核武器封喉篇》

我:
这个需要较真,为大数据正名。自摸、莫衷一是、粉丝之战都是有的,根子都是缺乏大数据的nlp,有了nlp,我们就坐在大数据之上,而不是被数据淹死,看不到真像,无论真像多么残酷。你冰的脑残粉多不多,当然不少,不独你一个,有图为证

大数据淹没下的冰美人(之三): 喜欢的理由

但是,世界上怕就怕大数据nlp和但是二词,与脑残粉一样巨多的是流言蜚语:大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)。而事实上,流言蜚语对你冰的buzz的贡献巨大,你懂的,国人奏好这口。这些都是舆情,但只是舆情的一个片面,大象的耳朵或大腿而已。真正决定舆情的是大数据的褒贬比例(所谓 net sentiment),为此立委洋洋洒洒写了五大篇大数据调查的总结系列,对你冰算是仁至义尽了吧。

请看结论篇: 大数据淹没下的冰美人(之五): 星光灿烂谁为最?

比没文化更可怕的是没核武器。圆冰之战,该结束了吧

 

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一)
大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇

【置顶:立委博客NLP博文一览】

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据