【社媒挖掘：川大叔喜大妈谁长出了总统样？】

屏蔽已有 4780 次阅读 2016-10-26 02:29 |个人分类:社媒挖掘|系统分类:海外观察| 特朗普, 美国大选, 川普, 社煤挖掘, 自动民调

眼看决战时刻快到了，调查一下华人怎么看美国大选，最近一个月的舆情趋势。中文社会媒体对于美国总统候选人的自动调查。

aaa

先看喜大妈，是过去三十天的调查（时间区间：9/26-10/25）
summary-metrics-new-3
mentions 是热议度，net sentiment 是褒贬指数，反映的网民心目中的形象。

summary-metrics-6
很自然，二者并不总是吻合：譬如，在十月10日到11日的时候，希拉里被热议，而她的褒贬指数则跌入谷底。那天有喜大妈的什么丑闻吗？咱们把时间按周（by weeks）而不是按日来看 trends，粗线条看趋势也许更明显一些：

summary-metrics-7
Anyway，过去30天的总社煤形象分（net sentiment）是 11%，比起英语世界的冰点之下（-18%）好太多了，似乎华语世界远不如英语世界对老政客喜大妈的吐槽刻薄。

作为对比，我们看看川普（特朗普）在同一个时期的社会形象的消长趋势：川普过去30天的总社煤形象分（net sentiment）是 -12%，比希拉里的+11%成鲜明对比。

summary-metrics-8

看上面的趋势图（by weeks），川普的热议度一直居高不下，话题之王名副其实，但他的社会评价却一直在冰点之下，十月初更是跌入万丈深渊。同时期的希拉里，热议度与社会评价却时有交叉。趋势 by days：

summary-metrics-9

这样看来，虽然有所谓华人挺川的民间鼓噪，总体来看，川大叔在华人的网上口水战中，与喜大妈完全不是一个量级的对手。川普很臭，真地很臭。在英语社煤中，川普也很臭（-20%），但希拉里也不香，民间厌恶她诅咒她的说法随处可见，得分 -18%，略好于川普。譬如电邮门事件，很多老美对此深恶痛绝，不少华人（包括在下）心里难免觉得是小题大作。为什么华人世界对希拉里没有那么反感呢？居然给希拉里 +11% 的高评价。朋友说，希拉里更符合华人主流价值观吧。

这是我们的品牌对比图，三维直观地对比两位候选人在社煤的形象位置：

希拉里领先太多，虽然热议度略逊。

总有人质疑社煤挖掘的情报价值，说也许NLU不过关，挖掘有误呢。更多的质疑是，也许某党的人士更愿意搅浑水呢（譬如利用水军或机器人bots）。凡此总总，都给社会媒体舆情挖掘在多大程度上反映民意，提出了疑问和挑战。其实，对于传统的民调，不同的机构有不同的结果，加上手工民调的取样不可能大，error margin 也大。各机构结果也颇不同，所以大家也都是一肚子怀疑。不断有怀疑，还是不断有民调在进行。这是大选年的信息“刚需”吧。

所有的自动的或人工的民调，都可能有偏差，都只能做民意的参考。但是我要强调的是：

1. 现在的深度 NLU 支持的舆情挖掘，已经今非昔比，加上大数据信息冗余度的支撑，精准度在宏观上是可以保障的；

2. 全自动的社煤民调，其大数据的特性，是人工民调无法比的（时效以及costs也无法比，见【立委科普：自动民调】）;

3. 虽然社煤上的口水、噪音以及不同党派或群体在其上的反映都可能有很大差异，但是社煤民调的消长趋势的情报以及不同候选人（或品牌）的对比情报，是相对可靠的。怎么讲？因为自动系统具有与生俱来的一视同仁性。

时间维度上的舆情消长，具有相对的比较价值，它基本不受噪音或其他因素的影响。也不大受系统数据质量的影响（当然，太臭的舆情系统也还是糊不上墙，跟抛硬币差不了太多的一袋子词这样的“主流”舆情分类，在短消息压倒多数的社会媒体面前，还是不要提了吧，见一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑）。

我们目前的系统，是 deep parsing 支持，本性是 precision 优于 recall（precision 不降低，recall 也可以慢慢爬上来，譬如我们的英语舆情系统就有相当好的recall，recall在符号逻辑路线里面，本质上就是开发时间的函数）。Given big data 这样的场景，recall 的某种缺失，其实并不影响舆情的相对意义，因为决定 recall 的是规则量，缺少的是一些长尾 pattern rules，而语言学的 rules 不会因为时间或候选人的不同，而有所不同。同理，因为系统的编制是独立于千变万化的候选人、品牌或话题，因此数据质量对于候选人之间的比较，是靠谱的。这样看，舆情趋势和候选人对比的情报挖掘，的确真实地反映了民意的消长和相对评价。下面是这次自动民调的 Top 10 数据来源（可惜没有“她”，我是说 wechat），还是最动态反映舆情的推特中文帖子占多数（其中 66% 简体，30% 繁体，4% 粤语）。

domains-5