NLP自选系列：文本大数据的信息抽取与情报挖掘（上）

李维博士：我之所长不过是大数据的一部分，即自然语言的文本挖掘这块儿。而对于大数据的非文本形式（譬如语音、图片、录像、数字记录等），大数据的云处理手段及其工程架构等，所知十分有限。因此，本文仅仅就自然语言文本挖掘，特别是对近年火热的社交媒体的挖掘，谈一点一己之见，抛砖引玉，供各位参考。

01 大数据热的背景

我们现在正处在一个历史契机，近几年发生了一连串值得注意的相关事件。其热门关键词是社交媒体、云计算、移动互联网和大数据情报挖掘。针对社交媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社交媒体的持续升温，无论是用户还是其产生的内容，都以爆炸性速度增长，一场悄悄的社交媒体革命正在发生，它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式，正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻（无论是天灾人祸、名人掐架还是品牌褒贬）常常发端于处在现场的网民或当事人的微博，然后瞬间辐射到整个互联网，传统传媒往往紧随其后。在这样的形势下，企业软件巨头纷纷把目光聚焦在对于社交媒体舆论和民意的跟踪上，视其为品牌和客户情报的重要来源。

回顾一下历史。2011年初，美国做市场情报的巨头之一 Salesforce 以三亿多美元 (326 million) 的价钱并购了社交媒体客户情报检测系统 Radian6，说明社交媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社交媒体追踪的公司 RightNow 的并购更是高达15亿（1.5 billion）。HP在逐渐放弃低利润的 PC 和平板等硬件产业的同时，开始加强企业软件的投资力度，以120亿天价购并了从事文本情报的英国公司 Autonomy（12billion）。最后，接近2011年末的时候，全球企业软件的另一家巨头 SAP以 34 亿收购了云计算公司 SuccessFactors（3.4 billion），并决定与专事社交媒体深度分析的公司 Netbase 建立战略伙伴关系，分销并整合其社交媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics，可以看到所有企业软件巨头都曾不约而同看好社交媒体的情报价值。

当时在这个领域的投资和竞争非常激烈。不少华尔街主流投资公司加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software，连续得到 Sequoia Capital 两轮投资 (2007和2010)。Sequoia Capital 是“重中之重”的投资大鳄，曾是如下名牌企业的最早投资商，战略眼光犀利：Apple、Google、Cisco、Oracle。

这股社交媒体和大数据挖掘热潮以后，各种初创公司如雨后春笋。记得当年在 Netbase 主持社交媒体客户情报挖掘产品的那些年，在我们的竞争对手的注视名单上一开始有四五十家。十多年下来，大浪淘沙，后来只剩下五六家公司真正在市场站住了，包括 Netbase 的老对手 BrandWatch。

对于中文社交媒体大规模处理的应用型软件，有不少企业做了不同程度的应用落地尝试，但比起西方语言的企业市场应用，还有很大的距离，to B 的市场成熟度也不够。中文网络信息的增长速度一直扶摇直上，最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响，以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿，有潜在的巨大价值。

然而，迄今未见规模化落地应用，分析起来应该有好几个因素：（1）社交媒体大数据涉及隐私，不宜放任挖掘。事实上，微信数据是不对挖掘开放的。只有微博和一些论坛作为公开平台，其数据挖掘较少涉及隐私。（2）大数据挖掘应用的门槛很高，不仅仅是语言处理的能力需要有让人信服的数据质量（特别是精度），而且工程投入，包括存储、更新、检索都需要巨大的投入和积累；（3）就算大数据挖掘一切到位，挖掘出来的情报或知识图谱，到底如何应用还有很大的探索空间，目前还缺乏现场切入角度合适的规模化杀手级应用。尽管如此，从趋势上看，来自于文本大数据的源源不断的情报挖掘，终将成为信息社会不可或缺的软实力。

有人问，这一波热潮会不会是类似2000年的又一个巨大的泡沫？我的观察是，也是，也不是。的确，在大数据的市场还不成熟，发展和盈利模式还很不清晰的时候，大家一窝蜂拥上来创业、投资和冒险，其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而，这次热潮不是泡沫那么简单，里面蕴含了实实在在的内容和价值潜力，我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配，仍是一个巨大的问题。可以预见三五年之后的情景，涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧：

26年前雅虎以门户网站（Yahoo portal）先领风骚，谷歌以搜索 (Google search) 后来居上，脸书推出的社交网络（Facebook social）与推特（Twitter）的微博现已深入我们每个人的生活。国内社交媒体如新浪微博、腾讯微信等，下一个里程碑是什么？

Big data intelligence （大数据情报挖掘）

很多人这样预测，Google 首席科学家也列此为未来高新技术的大势所趋。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

02 什么是大数据

顾名思义就是强调数据的量，但其实这个概念并不是那样简单。如果单纯论量，大数据不是今天才有的，而且数据的量也是一个积累渐变（当然可能是加速度增长）的过程。

所谓大数据，更多的是社交媒体火热以后的专指，是已经与时事背景相关联的数据，而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社交媒体及其用户社交网络作为背景，纯粹从量上看，“大数据”早就存在了，它催生了搜索产业。对于搜索引擎，big data 早已不是新的概念，面对互联网的汪洋大海，搜索巨头利用关键词索引（keyword indexing）为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者，很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word，如今的大数据与社交媒体密不可分。当然，数据挖掘领域把用户信息和消费习惯的数据结合起来，已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续，从术语上说就是，text mining （from social media big data）是 data mining 的自然延伸。对于语言技术，NLP 系统需要对语言做结构分析，理解其语义，这样的智能型工作比给关键词建立索引要复杂千万倍，也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、图片和录像等媒体。本文只谈文本大数据。

随着社交媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体（人、企业、政府等），信息过载（information overload）问题日益严重，利用 NLP 等高新技术来帮助处理抽取信息，势在必行。

除了与社交媒体以及时事背景密切相关以外，大数据的当红也得力于技术手段的成熟。大数据的存储架构以及云计算的海量处理能力，为大数据时代的提供了技术支撑平台。在此基础上，大数据的深度挖掘才有可能跳出实验室，在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单，在信息爆炸的时代，任何个人的精力、能力和阅历都是有限的，所看到听到的都是冰山一角。大V也如此，大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然，这不是说，大数据挖掘就是完美的解决方案。但是，正如一人一票的民主选举也不是人类社会完美的体制，而只是最少犯错误的机制一样，大数据挖掘比任何其他个人或利益集团的分析，较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么？吆喝多了，烂了，就跟转基因似的，本来是正经的研究，也要被人怀疑是忽悠，甚至骗局。要说忽悠，大数据有没有忽悠？当然有，应该说很多。所有的泡沫都是吹起来的，但特别大的泡沫之所以能被吹起来并且持续，就不仅仅是吹功可为。正如我演讲中说过的，大数据不仅仅是忽悠，一场革命也许在酝酿着。

03 大数据挖掘技术及其挑战

社交媒体火了，信息爆炸式增长，也有了大数据支撑平台，挖掘技术跟上了么？

面对呈指数增长的海量信息，人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理（NLP），没有鲁棒高效的 NLP，电脑挖掘得不到什么有指导价值的情报。就说社交媒体对产品和服务的评价吧，每时每刻，无数用户的抱怨和推荐不断出现在网上，这些客户对产品的评价情报对于企业加强产品功能和研发新产品，具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢？出路就是：1 自动分析；2. 自动抽取；3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社交媒体的特点是什么？概括来说，就是：1. 不断翻新的海量信息源；2. 满是不规范的字词和表达法。这就要求研发的系统，首先必须具有大数据处理能力（ scalability），实验室的玩具系统无论其数据分析多么精准深入也是不行的；同等重要的还有分析系统的鲁棒性（robustness）。在这两者的基础上，如果再能做到有深度（depth）则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大，不同的客户、不同的产品对于信息的关注点不同，所以抽取信息应该越灵活越好，最好能做到像目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的，要做到信息的灵活抽取，而不是根据事先预定的信息模板来抽取，那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability，robustness，还要有 depth，不是一件容易的事儿。

在处理海量数据的问题解决以后，查准率和查全率变得相对不重要了。换句话说，即便不是最优秀的系统，只有平平的查准率（譬如70%，抓100个，只有70个抓对了），平平的查全率（譬如30%，三个只能抓到一个），只要可以用于大数据，一样可以做出优秀的实用系统来。其根本原因在于两个因素：一是大数据时代的信息冗余度；二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补，这一点比较好理解。既然有价值的信息，有统计意义的信息，不可能是“孤本”，它一定是被许多人以许多不同的说法重复着，那么查全率不高的系统总会抓住它也就没有疑问了。

从信息消费者的角度，一个信息被抓住一千次，与被抓住900次，是没有本质区别的，信息还是那个信息，只要准确就成。现在的问题是在一个查准率不理想的系统怎么可以取信于用户呢？如果是70%的系统，100条抓到的信息就有30条是错的，这岂不是鱼龙混杂，让人无法辨别，这样的系统还有什么价值？沿着这个思路，别说70%，就是高达90%的系统也还是错误随处可见，不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选（sampling/filtering）与整合（fusion）环节，因此夸大了系统的个案错误对最终结果的负面影响。实际上，典型的情景是，面对海量信息源，信息搜索者的几乎任何请求，都会有数不清的潜在答案。

由于信息消费者是人，不是神，即便有一个完美无误的理想系统能够把所有结果，不分巨细都提供给他，他也无福消受（所谓 information overload）。因此，一个实用系统必须要做筛选整合，把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分，可以保证最终结果的质量远远高于系统的个案质量。总之，size matters，多了就不一样了，可以让噪音沉底。大数据改变了技术应用的条件和生态，大数据更能将就不完美的引擎。

下回篇将进一步讨论社媒大数据挖掘的重要应用等内容。敬请期待！

「弘•扬」：弘智益人，扬道解惑。每周大咖分享栏目，敬请关注。