NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

在上一期弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)中,李维博士以特朗普对决希拉里为例,大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增。本期内容将深入讨论大数据是如何预测这一过程的。

这是特朗普对决希拉里终极对决前一周的对比图:

从图中来看,希拉里的选情的确不妙,川大叔领先了。是不是因为FBI重启希拉里“邮件门”调查造成的结果?这是当时24小时内的对比图:

这是大选前9月-10月的选情涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

这是大选前最后一周的选情对比:

最后一周对喜婆很不利。过去24小时一直在零下20上下,而老川在零上10左右,有30点的差距:

看看更大的背景,8-10月的选情对比:

喜大妈好不容易领先了,此前一直落后,直到9月底,9月底到10月中是喜妈的极盛期,是川普的麻烦期。

至于热议度,从来都没有变过,总是川普压倒:

眼球数也是一样:

一年来的狂热度(passion intensity)基本上也是川普领先,但喜婆也有不有不少强烈粉她或恨她的,所以曲线有交叉:

这个 passion intensity 与所谓 engagement 应该有强烈的正相关,因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来,这么多年,难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet(把秘密藏进衣柜),可是这家伙太狡猾,可能一辈子做商人太过精明。但大选当时只剩下一周、先期投票已经开始。

电邮门是摧毁性的。FBI 选在大选前一周重启,这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了,虽然对于数据的分析能力和角度,远不如我们的当时的平台丰富灵活。他们基本只有一个 engagement 的度量,连最起码的 sentiment classification 都没有,更不用说 social media deep sentiments 了。无论怎么说,希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票,还需要研究。

朋友提醒所谓社交媒体,其实是 pull 和 push 两种信息的交融,其来源也包含了不少news等,这些自上而下的贴子反映的是两党宣传部门的调子,高音量,影响也大,但并非真正的普罗网虫自下而上的好恶和呼声,最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图,我们只留下 twitter,FB,blog 和 microblog 四种社交媒体,剔除了 news 和其他社交媒体:

下面是only推特,大同小异:

对比一下所有的社交媒体,包括 news 网站,似乎对于这次大选,pull 和 push的确是混杂的,而且并没有大的冲突和鸿沟:

希拉里为什么选情告急?看看当时近一个月的希拉里云图,开始红多绿少了:

对比一下川普的云图,是红绿相当,趋向是绿有变多的趋势,尤其是第二张情绪(emotion)性云图:

再看看当时近一周的云图对比,舆论和选情的确在发生微妙的变化。这是川普的sentiment 云图:

下面是网民的针对希拉里来的正负行为表述的云图:

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普当时10月最后一周的呼声:

vote 的呼声超过 not vote for him。如果这次希拉里输了,the FBI director Comey 居功至伟。因为自从录音丑闻以后,选情对希拉里极为有利,选情的大幅度下滑与 FBI 重启调查紧密相关。媒体的特点是打摆子,再热的话题随着时间也会冷却,被其他话题代替。这次的问题在,FBI 重启电邮门调查的话题还没等到冷却,大选就结束了,媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期,已经冷却,被 FBI 话题代替了。从爆料的角度,录音丑闻略微早了一些,可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看当时10月最后一周的#Hashtags,也可以了解一点社交媒体话题的热度:

这是当时10月最后一周有关希拉里话题的emoji图:

虽然说笑比哭还多,希拉里及其阵营和粉丝却笑不起来,一周内用到这个话题的emoji总数高达 12,894,243。这也是社交媒体的特点吧,用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

FBI director 说这次重启调查,需要很长时间才能厘清。现在只是有了新线索需要重启,不能说明希拉里有罪无罪。没有结论前,先弄得满城风雨,客观上就是给选情带来变数。虽然在 prove 有罪前,都应该假定无罪,但是只要有风声,人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱,就更惊心动魄了。如果不是有背后的黑箱和势力,这个时间点的电邮门爆炸纯属与新线索的发现巧合,那就是希拉里的运气不佳,命无天子之福。一辈子强性格,卧薪尝胆,忍辱负重,功亏一篑,无功而返,保不准还有牢狱之灾。

可以预测,大选失败就是她急剧衰老的开始。

此前有个记者interview川普,川普一再说,希拉里这个犯罪的人,根本就不该被允许参加竞选。记者问,哪里犯罪了?川普说电邮门泄密,还有删除邮件隐瞒罪恶。当时还没有重启希拉里“邮件门”调查。记者问,这个案子不是有结论了吗,难到你不相信 FBI 的结论?川普说,他们弄错了,把罪犯轻易放了。

中间选民的数量在这种拉锯战中至关重要,当时的数量不少。中间选民如果决定投票,其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的,如今满世界说一方不好,合理的推断就是去投另一方了。现在看来,这场竞赛的确是拉锯战,很胶着,不是一方远远超过另一方。当录音丑闻爆料的时候,那个时间点,希拉里远远超过川普,毫无悬念。“邮件门”爆发一个月不到,选情大变,就不好说了,迹象仍然胶着。

不过,反过来看,川普的 popularity 的确是民意的反映,他所批判的问题的确长久存在。而希拉里显然是体系内的老旧派,让人看不到变革的希望。人心思变的时候,一个体系外的人物也可以被寄托希望,至少他敢于做不同事情。

当时我想:上台就上台吧,看看他造出一个什么世界

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据