【科研笔记：big data NLP, how big is big?】

屏蔽已有 3369 次阅读 2012-10-31 19:03 |个人分类:立委科普|系统分类:科普集锦| 大数据, NLP, Big, Data, 语言技术

Big data 与云计算一样，成为当今 IT 的时髦词（buzzword / fashion word). 随着社会媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花，big data 呈爆炸性增长。对于信息受体（人、企业、政府等），信息过载（information overload）问题日益严重，利用 NLP 等高新技术来帮助处理抽取信息，势在必行。

对于搜索引擎，big data 早已不是新的概念，面对互联网的汪洋大海，搜索巨头利用关键词索引（keyword indexing）为亿万用户提供大海捞针的搜索服务已经很多年了。我们每一个网民都是big data搜索的受益者，很难想象一个没有搜索的互联网世界。可是对于语言技术，NLP 系统需要对语言做结构分析，理解其语义，这样的智能型工作比给关键词建立索引要复杂千万倍，也因此 big data 一直是自然语言技术的一个瓶颈。不说整个互联网，光社会媒体这块，也够咱喝一壶了。

目前的状况如何呢？

我们的语言系统每天阅读分析五千万个帖子。如果帖子的平均词量是30，就是 15 亿词的处理量。This is live feed，现炒现卖，立等可取。至于社会媒体的历史档案，系统通常追溯到一年之前，定期施行深度分析并更新数据库里的分析结果。我们的工程师们气定神闲，运筹帷幄之中，遥控着数百台不知身处哪块祥云的虚拟服务器大军，令其在“云端”不分昼夜并行处理海量数据，有如巨鲸在洋，在数据源与数据库之间吞吐自如，气派不凡。

when we talk about NLP scaling up to big data, it is this BIG

This is the progress we have made over the last two years. I feel extremely lucky to work with the engineering talents and product managers who made this possible. It is hardly imaginable that this can be done at this speed in other places than the Valley where magic happens everyday.

Where are we?

deep parsing 50 MILLION posts a day!!!

For one year NLP-indexing of social media data we use to support our products, we have

11 billion tweets (about 6-7% of the entire sample from twitter)
1 billion Facebook posts
1 billion forum posts from 5 million domains
430 million blog posts from 160 million domains
30 million reviews from 300 domains
55 million news reports from 55,000 domains
225 million comments from 100 million domains

回看这些数据，感受到的震撼与我第一次在纽约某科学馆看巨型科教片【宇宙起源】类似：不可思议。个体真是太渺小了。宇宙之大超过想象极限。

And that is by no means the limit for our NLP distributed computing: the real bottleneck comes from the cost considerations rather than the technical barriers of the architecture. Money matters. Archimedes said, "Give me a place to stand on, and I will move the Earth." With the NLP magic in hands, we can say, give me a large cloud, we can conquer the entire info world!

阿基米德说，给一个支点，我将翘起地球。今天的NLP技术官僚和工程师们可以说，给我一片云，一片足够大的云，我将鸟瞰整个儿信息世界。

一年社会媒体档案的 Big data，比起搜索引擎面对的整个互联网，自然是小巫见大巫。然而，对于 NLP，这已经远远超过我们当初可以想象的极限。令人兴奋的是，处理数据之大虽然超过想象，但却不再自惭渺小，因为渺小如我及其外化的系统已然溶入 big data 的海洋，体验的是弄潮儿的刺激和爽快。

曾几何时，大约25年前吧，我们守着 IBM-PC 测试 parsing，大约每句话需要30-35秒处理时间。我抱怨说太慢了，导师笑道：你知足吧。你们这一代开始学这行，是撞上大运了，小小的 PC 可以放在办公室调试，没有比这个更方便了。

原来，30几年前，在前 PC 时代，我的导师要做一个试验那叫一个难，常常需要深夜到计算中心排队轮值。当时的机器体积超大，可存储和速度都无法与 PC 比。导师说，一次去东北鉴定某教授的机器翻译系统，一个句子输进去，系统硬是绕不出来，鉴定组一行于是出去喝咖啡吃早点，折腾半拉小时回来，才见到结果。

再往前，我的导师刘先生与另一位高先生（我入行的时候他已去世），在上世纪50年代末期（当时我还没有来到这个世界呢），于1959 年开创了中国机器翻译的事业，测试了10个句子，上机试验获得成功（没有汉字fonts，输出的自动翻译译文是汉字编码）。当时的科学报道我读过，是高先生写的，字里行间洋溢着的兴奋之情，穿越时空深深打动了弱冠之年的我。

导师说过，在NLP这一行，我们在60年代初真真确确属于世界领先，得益于汉语机器处理的难度以及汉外之间的差异。我理解的他的言下之意是：我们何时再现辉煌？

天降大任，此其时也。

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-628017.html

上一篇：回答一个压力的问题
下一篇：需要有些靠谱的思考。而“科普”往往是不靠谱。

收藏修改| 删除|