NLP自选系列：大数据告诉我们，特朗普如何击败希拉里

弘·扬 | 首席科学家李维科普：大数据告诉我们，特朗普如何击败希拉里

在上一期弘·扬 | 首席科学家李维科普：文本大数据的信息抽取与情报挖掘（下）中，李维博士以特朗普对决希拉里为例，大选前夕及时提出警示，各种自动数据分析表明，希拉里选情告急，特朗普胜算大增。本期内容将深入讨论大数据是如何预测这一过程的。

这是特朗普对决希拉里终极对决前一周的对比图：

从图中来看，希拉里的选情的确不妙，川大叔领先了。是不是因为FBI重启希拉里“邮件门”调查造成的结果？这是当时24小时内的对比图：

这是大选前9月-10月的选情涨跌对比：

至此局势基本清晰了：希拉里的确选情告急。大选真是瞬息万变啊，之前还是喜妈领先或胶着，而最后川大叔居然翻身了，选情的变化无常真是让人惊心动魄。

这是大选前最后一周的选情对比：

最后一周对喜婆很不利。过去24小时一直在零下20上下，而老川在零上10左右，有30点的差距：

看看更大的背景，8-10月的选情对比：

喜大妈好不容易领先了，此前一直落后，直到9月底，9月底到10月中是喜妈的极盛期，是川普的麻烦期。

至于热议度，从来都没有变过，总是川普压倒：

眼球数也是一样：

一年来的狂热度（passion intensity）基本上也是川普领先，但喜婆也有不有不少强烈粉她或恨她的，所以曲线有交叉：

这个 passion intensity 与所谓 engagement 应该有强烈的正相关，因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来，这么多年，难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet（把秘密藏进衣柜），可是这家伙太狡猾，可能一辈子做商人太过精明。但大选当时只剩下一周、先期投票已经开始。

电邮门是摧毁性的。FBI 选在大选前一周重启，这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了，虽然对于数据的分析能力和角度，远不如我们的当时的平台丰富灵活。他们基本只有一个 engagement 的度量，连最起码的 sentiment classification 都没有，更不用说 social media deep sentiments 了。无论怎么说，希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票，还需要研究。

朋友提醒所谓社交媒体，其实是 pull 和 push 两种信息的交融，其来源也包含了不少news等，这些自上而下的贴子反映的是两党宣传部门的调子，高音量，影响也大，但并非真正的普罗网虫自下而上的好恶和呼声，最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图，我们只留下 twitter，FB，blog 和 microblog 四种社交媒体，剔除了 news 和其他社交媒体：

下面是only推特，大同小异：

对比一下所有的社交媒体，包括 news 网站，似乎对于这次大选，pull 和 push的确是混杂的，而且并没有大的冲突和鸿沟：

希拉里为什么选情告急？看看当时近一个月的希拉里云图，开始红多绿少了：

对比一下川普的云图，是红绿相当，趋向是绿有变多的趋势，尤其是第二张情绪（emotion）性云图：

再看看当时近一周的云图对比，舆论和选情的确在发生微妙的变化。这是川普的sentiment 云图：

下面是网民的针对希拉里来的正负行为表述的云图：

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普当时10月最后一周的呼声：

vote 的呼声超过 not vote for him。如果这次希拉里输了，the FBI director Comey 居功至伟。因为自从录音丑闻以后，选情对希拉里极为有利，选情的大幅度下滑与 FBI 重启调查紧密相关。媒体的特点是打摆子，再热的话题随着时间也会冷却，被其他话题代替。这次的问题在，FBI 重启电邮门调查的话题还没等到冷却，大选就结束了，媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期，已经冷却，被 FBI 话题代替了。从爆料的角度，录音丑闻略微早了一些，可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看当时10月最后一周的#Hashtags，也可以了解一点社交媒体话题的热度：

这是当时10月最后一周有关希拉里话题的emoji图：

虽然说笑比哭还多，希拉里及其阵营和粉丝却笑不起来，一周内用到这个话题的emoji总数高达 12,894,243。这也是社交媒体的特点吧，用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

FBI director 说这次重启调查，需要很长时间才能厘清。现在只是有了新线索需要重启，不能说明希拉里有罪无罪。没有结论前，先弄得满城风雨，客观上就是给选情带来变数。虽然在 prove 有罪前，都应该假定无罪，但是只要有风声，人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱，就更惊心动魄了。如果不是有背后的黑箱和势力，这个时间点的电邮门爆炸纯属与新线索的发现巧合，那就是希拉里的运气不佳，命无天子之福。一辈子强性格，卧薪尝胆，忍辱负重，功亏一篑，无功而返，保不准还有牢狱之灾。

可以预测，大选失败就是她急剧衰老的开始。

此前有个记者interview川普，川普一再说，希拉里这个犯罪的人，根本就不该被允许参加竞选。记者问，哪里犯罪了？川普说电邮门泄密，还有删除邮件隐瞒罪恶。当时还没有重启希拉里“邮件门”调查。记者问，这个案子不是有结论了吗，难到你不相信 FBI 的结论？川普说，他们弄错了，把罪犯轻易放了。

中间选民的数量在这种拉锯战中至关重要，当时的数量不少。中间选民如果决定投票，其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的，如今满世界说一方不好，合理的推断就是去投另一方了。现在看来，这场竞赛的确是拉锯战，很胶着，不是一方远远超过另一方。当录音丑闻爆料的时候，那个时间点，希拉里远远超过川普，毫无悬念。“邮件门”爆发一个月不到，选情大变，就不好说了，迹象仍然胶着。

不过，反过来看，川普的 popularity 的确是民意的反映，他所批判的问题的确长久存在。而希拉里显然是体系内的老旧派，让人看不到变革的希望。人心思变的时候，一个体系外的人物也可以被寄托希望，至少他敢于做不同事情。

当时我想：上台就上台吧，看看他造出一个什么世界。