NLP自选系列：文本大数据的信息抽取与情报挖掘（下）

弘·扬 | 首席科学家李维科普：文本大数据的信息抽取与情报挖掘（下）

李维博士：我之所长不过是大数据的一部分，即自然语言的文本挖掘这块儿。而对于大数据的非文本形式（譬如语音、图片、录像、数字记录等），大数据的云处理手段及其工程架构等，所知十分有限。因此，本文仅仅就自然语言文本挖掘，特别是对近年火热的社交媒体的挖掘，谈一点一己之见，抛砖引玉，供各位参考。

感兴趣的小伙伴可以点击上期内容：

弘·扬 | 首席科学家李维科普：文本大数据的信息抽取与情报挖掘（上）

04 客户评价和民意舆论的抽取挖掘

舆情（舆论情绪/舆论情势）是什么？是人民（或网民）的声音。

人民是由个体组成的，网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社交媒体大数据。在大数据的尺度下，个体声音的过细分类没有太大意义，因为只要数据足够大，其最终舆情结果（结论）是不变的。举例来说，10万个正面呼声，100万个负面呼声，其综合舆情结果并不会因为这10万中有2万love，8万like，负面中有20万hate，80万dislike 而有大的改变。无论如何计算，结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢？就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下，个体情报的引擎查全率的不足不是问题，因为在大数据整体挖掘的背景下，样本空间的问题消失了。个体的不足或遗漏，不过是等价于样本空间缩小了那么一点点儿，对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来，统计情报都是手工 survey 而来，其样本空间由于预算以及时效的制约，大多是几千个数据点（data points）而已，统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘，随便一个调查都有百万甚至千万的数据点支持，与手工调查完全不可同日而语，样本空间的些微变化因此不能对情报价值造成伤害。总之，与其追求引擎的查全率，不如把精力放在查准率上，然后着力于应对数据量的挑战（scale up）。

采样大就可以弥补个体颗粒度的粗疏，这在机器学习领域被一再证明，也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说，语言学可以退出舞台了？

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌数据量就往往不够，另外很多分析要求会对数据进行切割，比如从时间维度的切割可以反映舆情的消长（trends），是制定决策时非常重要的情报，可是大数据一切割往往就成了小数据，没有语言学上比较细致的分析来弥补，舆情分析就不靠谱，没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览，它本身并不是 actionable insights. 知道很多人喜欢或者不喜欢一个品牌，so what？企业还是不知道怎么办，最多是在广告宣传投资量的决策上有些参考价值，对于改进品牌产品，适应用户需求，褒贬舆情太过抽象，不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法，去发掘这些情绪的背后动因（reasons/motivation），回答为什么网民喜欢（不喜欢）一个品牌的问题。譬如挖掘发现，原来喜欢麦当劳的主要原因是它发放优惠券，而不喜欢它的原因主要是嫌它热量太大，不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后，最渴望得到的 actionable 情报，因为他们可以据此调整产品方向（如增加绿色品种和花样，水果、色拉等），改变广告策略（如强调其绿色的部分）。

大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级，这都拜科学技术所赐。

05 自动民调: 社媒大数据挖掘的重要应用

社媒大数据挖掘最重要的应用之一是自动民调，可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果，以及总统选情的检测等等。

自动民调（Automatic Survey）指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论，其技术领域即所谓舆情挖掘（sentiment mining），通常需要自然语言（NLP）和机器学习（Machine Learning）等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社交媒体日益普及的今天，民间情绪和舆论通过微博、博客或论坛等社交媒体管道铺天盖地而来，为了检测、采集和吸收这些舆论，自动民调势在必行，因为手工挖掘面对大数据（big data）已经完全不堪负荷。

民意调查（poll）可以为政府、企业以及民众的决策提供量化情报，应用范围极其广泛。总统大选是一个突出的例子，对于总统候选人本人及其竞选团队，对于选民，民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子，譬如 iPhone 11发布以后，民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者，民调的结果也有助于他们在购买、等待还是转向别家的决策时，不至于陷入盲目。

相对于传统的以问卷（questionnaire）调查为基础的民调，自动民调有以下几个突出特点：

及时性。传统民调需要经过一系列过程，设计问卷、派发问卷（通过电话采访、街头采访、有奖刺激等手段）、回收问卷，直到整合归纳，所有程序都须手工进行，因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题，使用自动民调系统就像利用搜索引擎一样方便，因为其背后在不分昼夜地自动分析和索引有关的语言资料（通常来自社交媒体）。

高性价比。传统民调的手工性质使得只有舍得不菲的花费，才可以做一项有足够规模的民调（样本小误差就大，难以达到民调的目的）。自动民调是由系统自动完成，同一个系统可以服务不同客户不同话题的各种民调，因此可以做到非常廉价，花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级，是传统民调无法企及的。至于花费，通常的商业模式有两种，客户可以订阅（license）这样的系统使用权，然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用，每个话题民调一次缴纳多少钱。

客观性。传统民调需要设计问卷，这就可能有意无意引入主观因素，因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析，用的是归纳整合的方法，因此更加具有客观性。为了达成调查，调查者有时不得不施行物质刺激，这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露（水军和恶意操纵另论），基数大，也有利于降噪，这就保障了情报的客观性。

对比性。这一点特别重要，因为几乎任何话题的民调，都需要竞争对手或行业的背景。正面反面的舆论，问题的严重性等等，只有通过对比才能适当体现。譬如民调特朗普的总统竞选效益，离不开对比其对手希拉利。客户调查 AT&T 手机网络的服务，离不开比较其竞争者 Verizon。很多品牌实际上需要与一系列同类品牌做对比，才好确定其在市场的地位（如上图所示）。这种对比民调，虽然在理论上也可以手工进行，但是由于手工民调耗时耗力耗钱，很多时候调查者不得不减少或者牺牲对于竞争对手的调查，利用有限的资源只做对本企业的品牌调查。可自动民调就不同了，多话题的调查和对比是这类产品设计的题中应有之义，可以轻易完成。

自动民调也有挑战，主要挑战在于人为噪音：面对混乱的社交媒体现实，五毛、水军以及恶意舆论的泛滥，一个有效的舆情系统必须不断与垃圾作战。好在这方面，搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类（所谓push/pull的媒体分野）。民意调查切忌混入“长官意志”，客户情报一定要与商家宣传分开：同是好话，商家是王婆卖瓜，客户才是上帝下旨。这种媒体分类可以结合来源（sources）、语气（宣传类材料常常是新闻官方语气，而客户评价则多用口语和网络语）来决定，是有迹可寻的。

总之，在互联网的时代，随着社交媒体的深入民间，民间情绪和舆论的表达越来越多地诉诸于社交媒体。因此，民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟，大规模多语言的应用指日可待。

以总统大选为例。在特朗普对决希拉里时，我还在 Netbase 主持大数据产品的研发，手中有海量的推特数据以及我们研发的大数据挖掘的核武器，有独特的优势，可以见人所不能见。

虽然说推特是公开的社交媒体，人人可读，但没有语言抽取和挖掘，任何人或团体都难以看清全局走势。当年的选战瞬息万变，但大数据是不会骗人的，里面的跌宕起伏每日呈现在我的追踪系列里。当时主流媒体和民调一致认为希拉里要赢，特朗普自己也没料到自己会赢，连胜选演说都没预备好。希拉里这边更是有些得意忘形了，在选前的生日那天，希拉里发推特给自己庆生，标题是：祝未来的总统生日快乐！

就在这一片看好希拉里的预测中，我根据大数据挖掘结果，预测了特朗普的胜选。这可不是事后诸葛亮，都是有案可查的记录（有兴趣的读者可以关注后续报道）。

大选前一周的对比图：

这是当时24小时内的对比图：

这是一个月的涨跌对比：

至此局势基本清晰了：希拉里的确选情告急。大选真是瞬息万变啊，之前还是喜妈领先或胶着，而最后川大叔居然翻身了，选情的变化无常真是让人惊心动魄。

为什么会得出与主流民调相左的趋势预测呢？道理很简单，主流的手工民调落后于时代，数据采集点太稀疏，误差大，也没法及时反映变化的选情。这次大选后，不少朋友告诉我，从来没有如此真切地感受到大数据和语言技术的威力。

其实在前一轮的奥巴马总统竞选的时候，我们的工具就已经相当成熟，每次总统辩论，我们的舆情监测系统就在线实时展示辩论现场的舆情曲线变化，可即刻宣告辩论双方的得失和结果。奥巴马赢了第二次总统候选人辩论吗？舆情自动民调表明，奥巴马显然赢了这场辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。仔细分析可以看出，对奥巴马真正具有挑战性的议题有二：一是他在第一任总统期间的经济表现（6:55pm时）；二是批判他对中国不够强硬 (7:30pm时)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

06 实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理（risk management）在进入社交媒体大数据时代，确实成为一个大问题。老话说，好话不出门，坏话传千里。在微博微信的时代，岂止千里，有时候一件事被疯狂推转，能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧，损失的就是企业的信誉，外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚，由于公关处理失当，发现和应对的不及时不诚恳不懂心理学，惹恼了一位叫做罗永浩的胖大哥。老罗是大 V，嗓子亮，因此一个简单的产品质量问题（好像是西门子冰箱的门不太容易关严实）演变成一场社交媒体戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象，成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子，百万还是千万，只有他们自己可以算清楚，打落牙齿自己吞，这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios，其中 risk management 最容易打动客户，他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾，里面可以调控的时间不长，他们希望电脑大数据监控能在第一时间发出预警，然后他们可以及时应对。

曾经测试中文系统一个月的微博数据，想看看系统对于类似危机的监测效果如何，结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件，涉嫌侮辱视力残障人士。下面的挖掘抓取令人印象深刻，显然这次事件严重影响了企业的社会形象，是一个不折不扣的公关危机。

好在必胜客管理层应对迅速，及时道歉，逐渐平息了事态。

07 大数据及其挖掘的局限性

先说它的不宜和禁忌。

1、这种挖掘不宜做预测，更适合做回顾。当然，历史是未来的镜子，回顾过去也未尝不能透出一点趋向的预测。

2、这种挖掘一般不提供问题的答案，特别是科学问题，答案在专家或上帝手中，不在网民的口水中。

3、大数据不是决策的唯一依据，只是依据之一。正确的决策必须综合各种信息来源。大事不提，看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据就万事大吉，是不切实际的。值得注意的是，即便被认为是真实反映的同一组数据结果也完全可能有不同的解读（interpretations），人们就是在这种解读的争辩中逼近真相。一个好的大数据系统，必须创造条件，便于用户 drill down 去验证或否定一种解读，便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸，顽主比烂，僵尸横行，水军泛滥，大数据挖掘又有什么意义？无论是怎样大的染缸，它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度，它可能不是富矿，但肯定是金矿，就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确，大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的，而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上，无视大数据更容易被自己的局限所误导。害怕大数据，就好比蒙上眼睛，世界就不见了一样可笑。

应该指出的是，挖掘本身虽然可能有 bug ，数据本身也有不少噪音，但它们对所有搜索的话题是一视同仁的，是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景（reference frame）下来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。

特别是我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不再成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。

这一点毛主席早就说过：有比较才有鉴别。

08 大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中，在与用户的交互与市场的培育下，你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤，生逢其时，不早也不晚，而且有技术门槛（entry barrier）。

如果你做到了这一点，你会发现，你的客户不乏热情先行者（early adopters），他们不吝啬溢美之辞，为了现实需求中疑难的解决。也有客户大喜过望，把他们不理解的语言技术，视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案，而是每日在发生的时候，你不可能无动于衷，也不可能不加入客户成为创新的拥趸。