作为公开课的大数据演讲 屏蔽留存

作为公开课的大数据演讲

屏蔽已有 11195 次阅读 2013-5-23 18:34 |个人分类:立委科普|系统分类:科普集锦| 大数据, NLP, 北京, 演讲, 立委

【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【科学网公开课】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯粹是一场精神折磨。主要是,人长得丑,从小就不爱照镜子,积重难返。后来有了镜子也自己不用,从来都是拿 mirror 照别人。如今看录像就是逼一个怕镜子的人照镜子,那种对自己的不满,恨石不成器,不说也罢。就事论事,首先是太长,近两个小时,成裹脚布了。口音也重(一辈子也没改成)。语速太快,含混不清,还夹杂了太多的发音很不堪的 English。虽然意思基本都传达出来了,但是想来作为听众大概是跟自己一样很受罪的,不熟南方口音的估计不太搞清楚这个委员在说什么。再有就是台风不正,老揉鼻子、扶眼镜,身体晃动太厉害。没治了。不过,透过这些表层,应该可以看到磨难、坎坷、血汗和鸿运,还有一些NLP和大数据的鸟瞰式介绍 -- 如果您有足够耐心的话。感谢热心听众忍受我的口音做出来的 transcript,并允许我校正后在自己博客发表。

 

立委大数据演讲公开课】链接:

http://video.sciencenet.cn/20130521/

首先谢谢各位今天光临。愚人节好!(笑)

今天的题目是《大数据时代中文社会媒体的舆情挖掘》。这个工作我一直在做,现在已经做出了一个 Alpha product,可以使用了,下面可以介绍更详细的东西。

首先做一点自我介绍。实际上我的一生就是一个流浪。几个 milestones是,1976年高中毕业,插队。1977年文革结束,77级,第一次跳龙门。83年跳第二次龙门到社科院,读硕士。我真正入行,如果从 83 年开始,学 machine translation,师从刘倬老师和刘涌泉老师,这两位都是我们中国NLP界的开山鼻祖。他们从1958年、1957 年开始做机器翻译,从俄国那边引过来。我同事傅爱平老师也在这儿。当时我和傅爱平跟着刘倬老师在一起做。从 1983 年到现在整整 30 年。所以我说有30年的NLP经验。

1986年硕士毕业,留在语言所继续做机器翻译方面的工作。当时跟中文信息学会都有很多交流。然后就在中关村搞合作,算是半下海。一起做了一个机器翻译系统。在高立公司,做了四五年。1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。就洋插队到了 UK,英国当时处于最不好的时期。失业率百分之十几。我在短短一年在英国时期,两次被抢,大白天被抢,你看我的博客(《朝华午拾:警察抓小偷的故事》),一些 stories 非常有意思:他大白天抢你,他要钱,"摸你,摸你"(Money Money),我说,你摸我也摸不出钱来,我是穷学生,没钱。然后他说,O,I am sorry,一溜烟就跑走了。所以,他们是比较礼貌的这种强盗。(笑)不管怎么礼貌,危邦不居。我觉得不行,赶快跑。那是1993年。

93年闯关东一样地到了加拿大。加拿大是非常漂亮的国家,鲜花和牛奶。所以在那里就觉得有点意识,这是一个可以移民的地方,就开始生孩子、读博士、办移民。可是,再鲜花再牛奶,它的机会不多。整个加拿大的工作机会也比不上美国一个加州。它是博大,但并没有多少工作机会。所以,1997 年南下。南下到美国。那时候赶得很好,正好是美国大跃进的时候,网络泡沫最盛的时候。别说你有 technology,你就没有 technology,你只是有个 idea,哎呀,我现在看到好多人都养宠物,那么我就开个网上商店,专门为那些宠物提供食品,然后列举我有多少有利条件,投资人就会给你投钱。这不错,这个 idea 很新颖。我当时是带着 NLP 的idea,NLP是在中国磨了四五年,跟着刘倬教授跟傅爱平一起做的,我是有背景的。然后就很容易地到华尔街拿了一千万。当时做的最热的叫做 question answering,问答系统。

问答系统很热。因为那时候 Google 搞 keyword search,它一统天下,该尝试的已经都尝试了。投资人在想,技术方面还有什么新的突破。当时有一家公司叫 Ask Jeeves(【 IT风云掌故:金点子起家的 AskJeeves 】),正在最发红的时候,因为当时它自称自己是搞 NLP 的,有一个 Natural Lanuguage Interface,它有个自然语言接口,说你问问题,我可以给你回答。你 Google 呢,你 search 是一个 term,给一个关键词,你拿出来的东西也不是答案,它只是给你相关的文件,说你要的那些关键词这个最相关,它并不回答你的问题,它不满足我们大众的信息需求。你有信息需求,你一定是有一个疑问在心里,你想问出来,希望机器给一个回答。Ask Jeeves 在这样一个思维的背景下,它有一个 million-dollar idea,非常妙的 idea,它实际上本身的技术含量并不高,它的 idea 非常好。结果一下子就得宠了。它的 idea 实际上很简单。Question answering 实际上是有两部分。一部分是你要去answer他,answer 那边你要面对互联网的大海。那么多网页啊,语句啊,隐含的可能的对问题的答案。它不做那一块。它那个所谓NLP,什么都不做,面对大海的不做。它雇了两百多语言学家、词典学家和 domain specialists,总而言之,语言学学完了也找不到工作,把那些人招来,很高兴。两百人干什么呢?就是天天在那里研究老百姓都有什么疑问。如果有了疑问,比如你喜欢问诺贝奖金获得者、喜欢问风景地、喜欢问好莱坞电影明星的故事啊,它就了解大众的心理。FAQ,frequently asked question,它就把你了解出来以后,然后就想,如果问题是这样的话,那么互联网哪个网页最相关,最可能存在答案。然后就把这个信息用人工的方法存到一个数据库里去。如果遇到这样的问题,你就调这个 URL,遇到那样的问题,你就调那个 URL,一调一个准,因为它事前研究过嘛。它以不变应万变。它怎么以不变应万变呢?他另一头做了点NLP:他说你们都是query么,我现在不讲 query,我说 question,natural language,你只要问一个问题,我就可以给你找到答案。实际上它的 NLP 很 shallow,根本就没有可能真地去理解问题。问题对于整个语言,只是一个子集。语言中还有很多其他现象。一个问题,一般不会太长,问题也有一定的格式,who,what,when,它都有一定的格式。实际上,问题对 NLP 来说,门槛不是特别高。尽管如此,在当时的条件下,它其实做得更加浅陋。大体上做了一个很模糊、浅层的NLP,然后他以不变应万变的 million-dollar idea 是,他把你的问题做了粗浅的分析以后,他把你的问题 rephrase back to you,他把你重新解释一遍,然后给你十个所谓问题模板。这 question templates,他拿你的那些词去填空,它针对你的这些词的痕迹,做一点粗浅的语法结构,他估计你问的问题不会出八个到十个 templates 的范围之外。然后他说,你是不是问的这个问题?你是不是问的那个问题?一个反馈以后,你可能觉得这个机器很聪明啊,它似乎了解我要问的问题,举手之劳,按一下,问题就解决了。实际上机器没有任何理解,他不需要理解,因为他的问题已经得到了 user 的 confirm,一 confirm 以后,往数据库一调动,问题答案就出来了。就这样,你问什么常见的问题,他都能回答。说,you have questions,I have answers,非常地牛啊,牛得不得了。万一你那十个、八个模板,正好一个屏幕,是吧,结果并没有针对他的问题,有可能啊,譬如 5% 到 10% 可能性,你的问题超出了它模板能概括的范围,那机器在那一点就露馅了。但最初大家都很吃惊,认为这是 next generation,下一代的系统,能够取代 Google,这就使得 Ask Jeeves 当时一下子得到华尔街的青睐。是 NLP 第一次牛气。整个华尔街到处都在谈 NLP,NLP 不得了。

它这样一个成功故事,在 Bubble 破灭以后,Ask Jeeves 当然是一落千丈,但是它被华尔街已经捧那么高了,有那么多资金,确实也做了一些事。到现在还存在,你还可以看 ask.com (今天的Ask.com), 当然是一直处于不死不活不景气的状态。Anyway,它给我们创造了一个条件,给我们学 NLP 的人。就是说,以前,在 Ask Jeeves 之前,NLP 只在很窄很窄的领域、很小的范围运用。当然,(NLP中)machine translation 是个例外,因为它做得年头比较多嘛,当时有一家公司叫 Systran,它可以把它商品化,还卖了很多机器翻译系统。但总体上来说,NLP 是象牙塔里学者的玩具。大家做玩具系统,没有人真想到这东西哪天能够卖钱,能够得到工业界、投资者的青睐,觉得不可能。但是,等到 Ask Jeeves 把这条路给闯出来了以后,我们再到华尔街,说,啊呀,我们要做一个问答系统,比 Ask Jeeves 高明多了。很容易有这个卖点。怎么比他们强呢?当然比他们强啊。当时我领导的组,做了一个系统参加 question answering 一个组,信息检索这个领域,有个 TREC,Text Retrieval Conference, 这个 TREC 是很大的规模,因为搜索在工业界影响很大,所以每年大家在一起做一次切磋。其中呢,他们就在 1999 年还是 1998 年,他们做了第一次的 Question Answering 的 track,单单做了这么个 Track,说,我们想看下一代的人机交互是个什么样子的。因为这一代大家都知道,key word,你 type,然后你得到一些东西。说老实话,我们都用 Google,确实在 80% 的时候,我们的问题得到了答案。我们有什么想寻求的东西,差不多都能得到。如果得不到,我再换一种方式,你要是聪明的话,一般可以得到。也有 20% 的时候,你觉得很困惑。你说,呀,这个问题,不管我怎么做 query,总是找不到答案,实际上是这种情况。但不管怎么说,系统要往前走。所以业界就开始提出这么个概念,说,query 和 relevant documents 不是我们真正的解决方案。人机必须自然,这是第一条。必须回答问题的那个点。如果问你 who,你就要把人名找出来。你如果问的是 when,我就要把时间给找出来。要的是答案,你不能说给一个 paragraph,一个 document,然后说,你自己去看去吧,那不是真正的下一代系统。在这么一个概念下就有了 question answering competition,去鼓励大家朝这个方向发展。当时,我们这个组正好有 NLP,我去的时候是 1997 年开始做的,我们当时也是随着潮流做了 Named Entity,Named Entity 是信息抽取的一个基石,是一个 foundation,你首先要把名字搞清楚嘛。我们有了这两条以后,做 question answering,就比较好办。因为当时第一届 question answering 设计得比较简单,比较黑白分明,问的问题都是一个点一个点的问题,都是问那个 when,where,who,这些比较容易回答的问题。然后我们就得了第一名,怎么说,你不用找投资人,是投资人追着你。所以很容易地一千万美金拿到手。当时就糊涂了,一千万怎么用,用不了啊。每两周与投资人开一次董事会,他们说你要大跃进啊,给钱,你要想办法招到人。当时最害怕不能扩招的话,没法给一个交待,钱一定要花出去。Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候【谢谢网友更正:应该是2001年】,那个 bubble 破灭,Nasdaq 垮了,整个美国至少股价是跌了一半,很多公司都关闭了。还好,我们公司没有关闭,还继续做下去,也做出了产品。这是那一段故事,我在我的博客里面你可以看,叫《朝华午拾:创业之路》,做了八年,直到我们公司后来被卖掉了。当然了,under water,并没有赚钱卖出,不过总是有一个善终,系统、产品还在用。

然后,我就觉得是一个转机了,就要进一步南下。我第一次是到 Buffalo,是在美国的的东北部,冰天雪地。当时创业,也没感觉到。后来,大家都向往的地方就是硅谷,就到硅谷去了,在现在的公司,做了七年。现在做的是这个舆情分析。

Anyway,我的生涯与 NLP 在工业界 penetrate 的这种节奏是基本上一致的。整个一个主题就是,流浪,流浪,还在流浪。

OK,我们回到正题,品牌,社会舆论和大数据。

【待续】

【相关篇什】

 北京演讲幻灯片上网(1/3)

北京演讲幻灯片上网(2/3)

北京演讲幻灯片上网(3/3)

愚人节大数据演讲 无片无真 移山愚人

【朝华午拾集锦:立委流浪图】

愚人节听立委报告

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-692826.html

上一篇:半导体的单晶硅
下一篇:照镜子的“效果”

 

37  肖重发 魏东平 蔣勁松 刘立 许培扬 李伟钢 庄世宇 陈安 武夷山 高建国 廖晓琳 杨华磊 陈筝 黄富强 袁贤讯 张文增 李宇斌 李本先 苏德辰 张能立 孔梅 闵应骅 徐大彬 李汝资 陈冬生 曹建军 章成志 何承林 张利华 刘淼 刘全慧 刘艳红 crossludo yangwencao EroControl bridgeneer tuner

发表评论评论 (26 个评论)

删除 回复 |赞[17]EroControl   2013-5-25 21:37
确实呢,有钱的话去加拿大开公司,人力资源应该比较充沛 

删除 回复 |赞[16]刘艳红   2013-5-25 18:52
不知道我的理解对不对: 美国人造原子弹,造航天飞机,我们也可以做出自己的原子弹,造自己的航天飞机,但美国人做出来个google, 我们不可能做自己的google.

删除 回复 |赞[15]tuner   2013-5-25 07:39
“Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候,那个 bubble 破灭,Nasdaq 垮了”——似乎应该是2001年。
 回复  : 谢谢更正,泡沫破灭确实是 2001。也引起了一波海归潮。

2013-5-25 18:101 楼(回复楼主)赞|回复

删除 回复 |赞[14]吴全丰   2013-5-25 01:18
非常不错。但是信息太多, 能给一个总结?
 回复  : 本来就是30年生涯、至少也是3年舆情研发的总结,还总结啥呢。看多少算多少吧。

2013-5-25 18:131 楼(回复楼主)赞|回复
 回复  : 真要总结,就八个字:大数据不全是忽悠。

2013-5-25 20:592 楼(回复楼主)赞|回复

删除 回复 |赞[13]肖陆江   2013-5-24 22:24
学习了,下面要讲Watson 吗?
 回复  : 不,下面专讲大数据自然语言挖掘。至于 Watson, 以前提过一点儿, 【立委科普:问答系统的前生今世】http://blog.sciencenet.cn/blog-362400-436555.html,它是把 factoid QA scale up 推向极致。

2013-5-25 18:191 楼(回复楼主)赞|回复

删除 回复 |赞[12]EroControl   2013-5-24 21:12
反馈一下,视频播放比较卡,看其它网络都没问题的。
ps:加拿大是好地方,是个适合“思考人生”的所在。
 回复  : 加拿大的美丽与大气是无与伦比的,是世界上最友好的移民天堂。正因为此,全世界移民蜂拥而入,造成了很多技术移民和投资移民的堆积,它消化不了。很多高端人才找不到合适的工作,很多投资移民做亏本生意,有的只好苦熬日子,坐移民监,然后南下美国或杀回东土再寻发展。对于囊中羞涩又找不到工作的新移民,心理压力和生活压力使得他无法、无心、无福欣赏加拿大的美丽,是不可承受之美。

2013-5-25 18:301 楼(回复楼主)赞|回复

删除 回复 |赞[11]EroControl   2013-5-24 21:01
视频的布景方面 明显吃亏了吧 ?感觉没有饶博主的书房明媚呢。 

删除 回复 |赞[10]陈冬生   2013-5-24 16:49
谢谢

删除 回复 |赞[9]吕喆   2013-5-24 16:46
》》Anyway,
~~~~~~~
俺内喂? 

删除 回复 |赞[8]闵应骅   2013-5-24 15:44
讲得比较实在,没有夸夸其谈。比较可信!

删除 回复 |赞[7]喻平   2013-5-24 14:42
声音太小,不知在讲什么。。。

删除 回复 |赞[6]宋昌   2013-5-24 13:58
我们每个人都想分析自己,现在缺少一种个人数据分析工具,不知道李老师有什么好的想法?

删除 回复 |赞[5]向贤   2013-5-24 12:22
声音有点小。。。  ,也许是我的电脑有问题
 回复  : 声音不小,就是太含混。快语加清晰还可能是长处,可我这样快语+含混+口音 就让人糊涂了。不过老毛老邓甚至老华(国锋)也都好不了太多,红色中国有传统的。

2013-5-24 14:381 楼(回复楼主)赞|回复

删除 回复 |赞[4]陈筝   2013-5-24 11:36
故事讲的很好:)
 回复  : 生活比故事往往更奇特。直叙就可了。

2013-5-24 14:401 楼(回复楼主)赞|回复

删除 回复 |赞[3]廖晓琳   2013-5-24 11:34
老师的[按]读出了点新东方俞敏洪的味道。看老师的录像,说“1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。”更有点俞式感觉了。外行的觉得:带口音的讲座很有魅力,老师的笑容也很迷人。呵呵~
 回复  : thanks,俞老师的东西没看过。 只知道他是英语教育产业化的教父。

2013-5-24 14:251 楼(回复楼主)赞|回复

删除 回复 |赞[2]陈安   2013-5-24 10:32
现场录的效果往往不是特别好,除非象CCTV百家讲坛那样,观众是挑选好的,摄像机是多个机位的。
 回复  : 不错啦。再好的话,消受不起呢。
保留了陈博士听到的几个 anyway,虽然很多余。

2013-5-24 14:301 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2013-5-24 06:45
要录像的话,照明、化妆和音响是必须要做的。应该是个好事情。试想想,花两个小时把博主二十年的东西都“听”懂了的话,岂不是“赚”大发了?

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据