测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀(屏蔽留存)

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

屏蔽已有 7208 次阅读 2013-6-21 03:18 |个人分类:社媒挖掘|系统分类:科研笔记| 陈冠希, 粤语, 阿娇, 娱乐界

 【研发笔记:粤语文句的情报挖掘】实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。

首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人看着舒服。华裔女演员比她名气大的多得很,但是看着比她养眼的极少。远的如巩俐大妞儿,太村姑了,长相很平,似有苦相。据说是魔鬼身材,可盘儿不靓,身材也就不作数了。大红大紫的张子怡有些小家子气。范冰冰长得怪怪的,艳丽有余,不像是真人。真正看得让人舒服的,台湾以前有一个徐若萱,大陆曾有一位邻家女孩徐静蕾,香港就数阿娇了,名如其人,娇美细嫩。对了,大陆1989年前有一位央视女主播杜宪,那是亿人迷,怎么看怎么舒服。养眼到什么程度呢,可以形式脱离内容。当年看央视新闻,内容别提多八股了,可是因为有杜宪,还是愿意看。至于阿娇,是偶然在一部武打片中发现的。从来不爱看那些打打杀杀的武打片,可是阿娇让人眼前一亮,再荒诞的内容也就剥离了。后来据说她受陈冠希之累,牵扯进艳照门负面新闻中。也难为她了,在那样的压力下,还不得不硬着头皮出来开记者会做一些澄清。记者会上一出场,依然是楚楚动人,确如她说的,太傻了,真地不值。话说回来,一辈子不做荒唐事者鲜见,她就是运气不好而已。扯远了,回到舆情挖掘上来。

除了阿娇,粤语文化圈里陈冠希据说是议论最多的一位了。他的艳照门事件很让整个华人世界兴奋躁动了一阵子。据说他是那种“坏”男人的典型,温哥华富豪华侨家出身的花花公子,party animal,讲一口流利的英语,开豪华车,酷而有型(除了泡妞,从来搞不清他擅长什么,音乐、舞蹈、演技、写作?)。那就看看舆论怎么说他吧。

下面的社交媒体挖掘,来自中文世界社交媒体过往一年的档案中被系统识别为粤语的部分。香港娱乐圈名人鍾欣桐(阿嬌)和陳冠希为挖掘对象。对不起了,只能拿名人做小白鼠了。从净情绪(net sentiment,一种褒贬比例的指数)来看,两位的社交媒体形象仍为负数,陳冠希更是低到-22%,说明网民对他的评论明显贬多于褒。

阿娇褒贬指数不高估计还是受到以前负面新闻之累(算她倒霉,碰到了陈冠希),其实粤语地区喜欢阿嬌的粉丝并不少,喜欢的理由见下图:主要是她长得年轻甜美(年轻/甜美/甜蜜:17.1%),人同此心啊。有意思的是,喜欢她的人很多具体提到她漂亮的手(18.9%)、眼睛和脸,甚至声音(其实她的皮肤也是没治了,怎么没人提?),总之她是以外在条件取胜,此乃尤物,足以移人。

至于陈冠希,不管多少负面新闻缠身,女粉丝“喜欢”(“爱”)他的仍然不少,见下面红多绿少的【情绪云图】中的“喜欢”两个大字。真是应了那句古话:男的不坏,女的不爱。(红贬中的“如此绝情”不知是他的哪一桩孽债。)

具体的不满集中在【褒贬云图】中大大的那个“搅”字。

我们把部分网友议论陈冠希的粤语帖子附在最后。

【相关】

 【研发笔记:粤语文句的情报挖掘】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-701385.html

上一篇:“好奇:油条为何两根一起炸?”
下一篇:Google 人事部门承认,千里马常有,而伯乐难寻

 

8  曹聪 廖晓琳 陈辉 武夷山 吴国胜 陆俊茜 bridgeneer biofans

发表评论评论 (7 个评论)

删除 回复 |赞[6]陆俊茜   2013-6-22 11:10
杜美人是适合做大老婆的。阿娇是适合做妾的。
没得比的。

删除 回复 |赞[2]吴国胜   2013-6-21 20:26
杜宪是谁啊?     

俺爱看国际台的海峡两岸,都是因为有个非凡气质的李红。可惜,在央视工作真是浪费人才  

 回复  : 至善至美,前无古人,后无来者。
http://blog.sciencenet.cn/blog-362400-331247.html

2013-6-21 23:071 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2013-6-21 12:19
【当年看央视新闻,内容别提多八股了,可是因为有杜宪,还是愿意看】老经典。泡沫剧也是如此。因为有几个喜欢的演员,也就看下去了。京味儿的对白,有时也有些意思。但是情节层面就显得很单薄了。

关于转基因及其社会媒体大数据挖掘的种种问题 (屏蔽留存)

关于转基因及其社会媒体大数据挖掘的种种问题

屏蔽已有 4859 次阅读 2013-12-25 07:55 |个人分类:社媒挖掘|系统分类:科普集锦| 挖掘, 社会媒体, 语言技术

没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。

1. 关于数据问题

你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意转基因标识,大多数民意连转基因标识都不要了,对转基因食品安全性的担心能有多少呢?这个样本比你那个说明问题吧?

博主回复(2013-12-24 10:04):这个数据是没有问题的,因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的,是普适的。对于一个月之上的数据,可以根据 GM Food 这样的主题词去筛选也可以一网打尽,但是有数据成本的问题。至于数据挖掘有没有偏差?文本挖掘技术当然不可能是完美的,但是统计上没有问题,因为第三方多次测试精确度都是接近90%。

2. 关于结论的对错

转基因的安全性靠调查研究难以给出正确评价。

博主回复(2013-12-24 12:47):两码事。

安全性是科学问题,假以时间应该由科学解答,或者有些已经回答并得到权威部门认证。

舆情调查反映的是普罗百姓对事物的方方面面(包括安全性)的看法而已。

 

还有一点, 博文中说的Gluten引起的各种那个过敏症。 我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。

而且超市中真正gluten-free的食品货架上很少的,现在美国飞机航班上不提供花生, 只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏, 所以航班不供应花生了。

博主回复(2013-12-24 17:55):听我的专家朋友说,Gluten 确实与转基因无关,是有公认的科学结论的。

那为什么舆情中,这一项作为转基因的主要问题呢?

没办法,这就是舆情,我不能改变它,只能反映它。

也许这正说明,科普还没做到家,还没能让老百姓了解和信服。任重道远。

 

3. 关于阴谋论

菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html,说:“李维先生说,该英文社交媒体大数据调查反映了民间的真实态度,这个观点看来要打个问号了。” 这个“该”字从何谈起,我们对社交媒体是一网打尽(因为企业用户要求如此),其组成和来源都在文中有交待。他下面的推测充满了细节,实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢,描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的,其调查的人群经过了特异的选择,或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”,又有什么意义呢?”(下划线是立委加的)

蔡老师哎,你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件,用的是未经任何人控制的原始数据(英文叫做 firehose,就是直接从社交网站流出来的),没有人工干预,靠的是自然语言挖掘技术自动生成的。这样说,应该够清楚了吧。我的本行就是舆情自动调查,这只是针对热点问题,从系统输出结果而已,供大家做舆情分析时候一个参考。

说明一下,所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index (库存)里面,我们包括所有够得着的社交媒体,英文社交媒体从比重上看,twitter 为主,Facebook 其次,其他论坛上百万个来源只占少数,这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人,所以不时用系统挖掘热点话题,一来可以看看系统还有什么可以改良的地方,而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。

蔡老师(2013-12-24 16:24):我的推测是否正确,不是关键。关键是你的舆情分析软件结果与公民的投票结果相反,必须做出解释,否则这样的舆情分析只会造成更大的认识混乱;如果领导据此决策了,更加有误导嫌疑。

(2013-12-24 16:15):我不怀疑你的数学分析能力,你的数学模型包括软件应该是不错的。但是,出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面,还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你,让我们共勉吧:数学模型应当建立在具有生物学意义的基础上,离开了这个基础,哪怕数据再充分、模型再漂亮,也是没有意义的。

博主回复(2013-12-24 18:07):您的思维很怪异:说什么领导据此决策错误,我就更加有误导嫌疑。

这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源,依然决策错误,那就是狗屁领导,没有领导能力、决策能力,领导应该下台,这个决策错误与信息提供者有一毛钱的干系?

又:说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学,我做语言文本调查要什么生物学的基础?我的对象是自然语言(社交媒体),不是生物啥的。我的模型建立在语言学(语言分析,parsing)基础上,这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。

博主回复(2013-12-24 16:44):喂,喂,我为什么要为我的自动调查与公民投票的差异做出解释?

我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合,可能有一千个因素,我有什么责任和义务解释?

我也从来没关心过那次投票。

博主回复(2013-12-24 16:38):

您如果质疑“调查反映了民间的真实态度”,完全没有问题,因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差,也还不算离谱。

可您凭空从头脑想出来并 描述了我的数据被操纵的过程和细节,就让人跌破眼镜了。

4. 关于噪音处理

至于博主和蔡晓宁先生说的大数据处理的技术我不会, 还得在学习了。 不过google或百度上的绝大多数数据是垃圾数据。 如果要使用大数据处理来统计, 我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理,看看你能得出一个什么结论。 这些可就是科学的结论了。

 

至于垃圾过滤,这是任何大数据系统都必须要做的工作,我们也有这个过滤,经过几年的不断改进,测试证明英文大数据的垃圾已经不再是大问题了。

不过中文媒体的垃圾过滤还有很多工作要做,有国内微博水军和僵尸的问题。不过对于热点话题,可以只选取带 V 的样本,也就杜绝了水军和僵尸。但对于冷门话题就不好办了。

另外一个工作是避免过量重复(de-dup),英文也已经做得很好。

 

对于大数据处理, 我完全是外行, 现在说几句外行的话, 不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性, 不分青红皂白的把所有数据输入, 输入的数据就没有科学性, 可靠性, 由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V, 用定贴机为某一个题目专门不断发帖顶贴, 所以不分青红皂白的输入这种数据, 实际上是被其他人所误导。
3. 所以要用大数据, 必须界定你的大数据来源。 否则同一事物, 被不同人选择来源, 完全就有不同的结论。
以上是外行的话。

博主回复(2013-12-24 18:35):当然你的担心是有理由的。做大数据的人当然要过滤垃圾(包括无处不渗入的色情),而且要 detect 僵尸、水军和数据的过分重复(机器人发贴)等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度,可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是,由于大数据的存在以及大数据处理能力的不断完善,舆情挖掘提供了一个难以取代的情报源,在决策中有参考价值。这是可以基本肯定的。

5. 有比较才有鉴别

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

有比较才有鉴别,这是铁律。任何指标单看,其意义就很悬。包括我说转基因不受美国人民喜欢(零下29度),也是因为有过往的褒贬指标平均值作为 reference frame 才说的。

6. 大数据是忽悠么?

是的,有很多忽悠。但是立委论大数据不是忽悠。

》》这篇博文充分说明,“大数据”并不是神仙,完全可能得出错误的结论,“大数据”只是一种工具,要看使用者如何使用它了。

博主回复(2013-12-25 00:30):说大数据是神仙的,多半是忽悠。

今天忽悠大数据,明天其他东西流行了,就忽悠其他东西。

但是大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级。拜科学技术所赐。

7. 关于系统可靠性

任何一门新的方法的建立,都需要首先用对照验证其有效性。这种抓取网络关键词,有没有与大样本的问卷调查等传统方法进行对比,验证过有效性?看到fear,就下结论说是人民害怕,也许是有人说不用fear呢?至于英文网络的数据,为什么下结论时认为只是美国人的意见,把欧洲人等排除掉了?

博主回复(2013-12-25 07:09):你提到“抓取关键词”,怀疑系统不能处理否定式(“也许是有人说不用 fear 了”),那是你不了解我的背景,虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之,我们的舆情挖掘不是通常的关键词技术,而是建立在高级得多的深度语法分析(deep parsing)之上的信息抽取和挖掘。不仅可以对付否定式,否定之否定等更复杂的语言现象也能处理。

博主回复(2013-12-25 00:59):至于意见中是不是只有美国?

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看,美国网民比重很大,但这个世界是地球村了,当可能包括西方其他国家的舆情夹在里面了。

其实很好解决,系统有地理过滤器,我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘,有成本的。今后高兴了,再做吧。博主回复(2013-12-25 00:53):有没有与问卷调查以及用其他方式验证过这个系统的有效性?

有过。很多次。而且还在不断定期进行中。为什么要这样做?因为质量是系统的生命线,否则怎么取信于客户。

大数据挖掘热点话题(冷门话题数据量少,就不好说了)作为舆情的反映,基本可信,至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息,权当 raise awareness 和科普。

我的论点,您可能只看到了其中一部分。我再多说一点,人们的用词习惯在这个比较里面没有被考虑到。比如,说一个人很丑可能多数人用单词A,而说她美可能会有十种表达方式。假定认为美的有十个人,用词个不一样,说她丑的只有三个人,但看起来是显然的高频词。这不是误导吗?这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。

博主回复(2013-12-24 17:45):要想做这种矫正,你先得研究清楚这种现象在真实语料中确实存在,严重程度,分布如何。听上去,这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外,一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小(其实即便在那里,我们对比较严格的同义词还是做了合并处理的,因此问题没有想像的严重),但并不影响最重要的 net sentiment (褒贬度)的指标,因为后者是根据褒贬两大类来计算,而不问具体的用词。

 

很多事情都是这样的:赞成的人不怎么发声,而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结,这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此,所谓相对客观的大数据,也许本身就已经预设了立场。博主回复(2013-12-25 11:08):这种情况是可能的。所以我说,同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如,指数为零表面上似乎是褒贬民意旗鼓相当,你可以打个折扣,理解成其实是褒多于贬,只不过很多满意的人不言声而已。

这个折扣怎么打,可以根据经验法则,多一些实验也许慢慢可以显现出来。

 

8. 我只做民意,不介入转基因的争论

老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.

博主回复(2013-12-25 00:39):我只做民意。别的你们做,或谁爱做谁做。

我不反对转基因,也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度,我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导,不能强迫人们吃转基因,或任何东西。在民意有很多顾虑的时候,给民众选择的权利是合理的(除非标识成本太高:其实高成本只要转嫁给要求标识的消费群体就合理了)。

题外话:我的转基因立场

我其实没有什么立场,也没有相关的生物知识背景,转基因从来不是我关注的对象(因为是热点话题才选它当小白鼠做舆情挖掘的试验,而不是对其感兴趣)。通过朋友的争论和综述, 觉得两边的极端派掐架很难看,都有误导和蛊惑。(By the way,我觉得挺转人士当年犯了致命错误,他们不该把 GM 翻译成转基因,要是翻译成生物高科技最新改良食品伍的,就会减少很多阻力和疑虑。名不正则言不顺,言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的,你说说这个术语翻译是不是害死人。后来金大米起的名字就很好,无奈受转基因的牵累,还是遭到很多人的排斥。)

我本人不介意吃转基因食品,因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此,转基因就不单是科学的问题了。要上老百姓餐桌的话,老百姓的感受不能不顾及。作为一种过渡,我觉得在中国有必要给转基因食品做标识(或给非转食品做标识,one way or the other),给人民选择的权利。这个不必要循美国不标识的例,原因是国情不同,老百姓为食品安全困扰太久,井绳之忧是自然的反应。转基因的最终胜出,应该靠自己的实力,譬如价格的低廉,日益显示出来的安全性等。标识以后,科学人士和我等无所谓(畏)人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子,就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。

最后来点 fun,转发老友的一个评论。

浅谈立委大数据利用的局限性
作者: 田牛
 
1。没法评估和预测股市,黄金走势
2。看不出钓鱼岛的归属依据
3。比较不出社会主义或资本主义的优越性
4。 对国际贸易的趋势做不出专家评论
5。完全忽视不上网不用手机的(或上网用手机但不进入他搜索网络)人群的话语权,比重
6。对测量(不是影响)湾区华人选票的帮助不大
7。依然无法用大数据得出吃一顿简单中餐得到的卡路里

暂时想到现在,希望立委有突破,我们LBC可以近水楼台先得月。

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26

关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752623.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

17  陈安 刘旭霞 孙根年 强涛 蔡小宁 杨宁 常顺利 武夷山 周雄伟 薛宇 郑小康 孙平 陈儒军 周洲 卢长明 bridgeneer biofans

发表评论评论 (17 个评论)

删除 |赞[11]lmnnml   2013-12-26 15:05
26楼点中要害

大数据挖掘的是什么?        我看14楼的评论感觉是
大数据挖掘不出真理和真相

 回复  : 当然不是挖掘真理。挖掘真理,请到圣经和毛主席语录去。
大数据挖掘的是民意,就跟传统的客户问卷调查类似。

2013-12-26 15:271 楼(回复楼主)赞|

删除 |赞[10]郑小康   2013-12-25 17:52
李老师的观点很客观 支持

删除 |赞[9]苏晓慧   2013-12-25 16:41
哈哈,这个技术很好,我现在也很着迷,可惜数学不好不会玩。回归正题,我的疑问是,怎么就没有学生物的尤其是分子生物学的出来发博客说说呢,除了植物所的蒋高明,但是一家之言不可尽信。那些生物大博主们都避开了这个话题啊 
 回复  : 不用数学好。任何人用过百度或谷歌搜索的都会玩。
唯一的问题是,要收费,(至少目前)非企业客户玩不起。

2013-12-25 17:411 楼(回复楼主)赞|

删除 |赞[8]mirrorliwei   2013-12-25 12:33
【转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目】就表明了有这个担心。
这里不需要讲什么“转基因的蛋白会引起面筋过敏的实例和原理”,只要相信墨菲的定律(http://zh.wikipedia.org/zh-cn/摩菲定理):“凡是可能出错的事均会出错。”(Anything that can go wrong will go wrong.)。可引申为“若缺陷有很多个可能性,则它必然会朝着最坏、最可怕的方向发展”。

删除 |赞[7]王大元   2013-12-25 12:15
[3]mirrorliwei  2013-12-25 09:06
镜女士(李薇): 请你讲讲转基因的蛋白会引起面筋过敏的实例和原理?转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目, 所有批准了的转BT基因的玉米, 其BT蛋白都没有致敏性, 你去查EPA/FDA的批准报告, 每一个批准报告在250页以上, 其中有关过敏性的试验数据大概在1-2页。
如果美国有个别人的试验报告说转BT基因的BT蛋白恶意造成面筋过敏, 那么这种试验结果先要被FDA/EPA采用, 一个在自己国家的权威部门都不采信的试验结果, 我们中国人没有必要为这种垃圾结果张灯结彩作为根据

删除 |赞[6]cuixiangmi   2013-12-25 12:06
大数据挖掘还是比较有意思的,但分析应该要更科学。比如来源同样是News,大报和小报,应该乘不同因子。
 回复  : 系统里面有很多这样的参数和过滤器可以根据自己的需要做调节,dice and slice,以便从不同侧面展示挖掘的情报。

我这只是玩票和展示性质,一切采用固定模板和default setting,偷懒不做这些细的工作。

我自己对此话题其实没兴趣,也不懂生物,科学不科学就是点到而已。

2013-12-25 16:551 楼(回复楼主)赞|

删除 |赞[5]王大元   2013-12-25 12:04
博主先生: 在你上一篇博文中我做的第一个评述,得到你的同意。 后来我发现那是你自己用大数据工具统计的资料, 由于我不懂大数据统计, 所以我又提出了几点疑问。我现在正在学习大数据的基本知识, 以便对大数据作为工具来调查舆情或者其它领域的应用前景。 现在还是作为外行向你求教几个问题?

1. 你能举几个例子来说明在那几个重大问题上, 大数据的统计结果被政府采纳了的, 或者做出了正确的预见的重大例子
2. 你能用大数据工具预言明天的那个股票会涨和跌吗?
3, 你能用你的大数据统计预测朝鲜1年后是什么样吗?
4. 你能用大数据统计预测中国明年的房地产涨还是跌, 涨幅或跌幅是多少?你的这个预测与其他不用大数据人做的预测有多大区别?
4. 你的转基因大数据的统计的结果能肯定现在的舆情结果将来肯定是对的或错的吗?
5. 如果我不用你的大数据统计,而是用科学杂志的数据来统计可以预测比你大数据的结果更准确的结果, 那么大数据的统计结果有什么意义 ?
我最基本的观点就是不管你的数据有多大, 但最关键的是你输入的数据是否正确和准确。 尽管你说了有删选数据的软件把关, 但我感到你的转基因那篇的大数据输入的数据的可靠性是有疑问的,你的软件似乎没有管好这个关, 例如与转基因无关的面筋竟然作为最主要的指标。 我建议你把转基因致癌那一部分, 单独拿出来用大数据统计一下, 其中输入持这种观点(致癌)的人的各种身份群体的比例:例如没有文化的老大娘, 小学, 中学程度的群体, 非专业人士群体的比例,科学家的比例, 统计一下, 看看中学学历以下和非科学家的群体比例的意见占多少, 我估计你可能会有完全不同的结论。 在这样的前提下输入你的数据, 看的人心里就踏实了: 哦!原来猪转基因致癌的是这么一部分人。

 回复  : 问题太多太长,难以回答。今天圣诞哎。
有一点,社会媒体大数据不是“你输入的数据”,是自然状态的数据,或者说,是无数网虫输入的数据。

因为社会媒体是网民交流和发泄的场所,所以里面必然存在舆情,只是咱们每个人都精力有限,肉眼凡胎,即便一目十行,也只能看到社交媒体大海的一滴水。只见树木,不见森林,是无法捕捉舆情(人民的呼声)的。好在有电脑,好在有语言学,两者结合就可以帮助我们调查舆情及其走向。

2013-12-25 17:551 楼(回复楼主)赞|

删除 |赞[4]huluhuluhulu   2013-12-25 10:49
看了“浅谈立委大数据利用的局限性”,真欢乐啊。我还以为大数据能得到一顿西餐的卡路里呢。哈哈
 回复  : 其实那是从大数据中搜索答案的问题。用同样的自然语言技术做问答系统(QA system),可以回答某个 popular 西餐的卡路里问题。这个不比舆情检测难,以前做过的。

2013-12-25 16:501 楼(回复楼主)赞|

删除 |赞[3]蔡小宁   2013-12-25 09:55
感谢李老师将我的观点列入博文!在这里我做点解释。
我的博文是在刚刚看到李老师那篇大数据舆情调查博文出来的时候,当时的感觉是为什么结果与加州、华盛顿州的公民投票不符?于是推测了一种可能性,并不是说一定是那样的。后来,随着我们讨论的深入,对李老师的认识也在加深,现在可以确信,“阴谋论”的可能性可以排除,在此特别声明。另一点就是,我不怀疑李老师的数学能力,做软件的水平肯定很高。我想要说的是,一个好的工具需要人们正确地使用,一个好的工具仍然可以继续改进。软件实际使用得出的结果要尽可能与事实相符,如果出现不符合的情况就要考虑是否参数设计出现了错误或不够完善;或者有其适用范围,超过这个范围,结论可能就是相反的了。可以适当做点解释,以减少误会。
 回复  : 我用词偏激处,蔡老师海涵。一开始看您的评论,有些不愉快所致。不打不相识。祝您圣诞快乐。

2013-12-25 10:581 楼(回复楼主)赞|

删除 |赞[2]mirrorliwei   2013-12-25 09:06
【我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。】的说法镜某以为不妥。因为很多所谓专业人员都不知道“gluten”是什么!所以他们直接用了洋文表述此概念。这个说法的依据是来自饭桌上的谈话。镜某的饭桌上,以为是所谓的专业人士(本科教育名牌生化),一个是正在复习考试这门功课。“gluten”就是中国人喜欢吃的面筋不假。而面筋又是什么????就言语不详了 
面筋就是面粉里面的蛋白质!!一种巨大的分子。转基因的风险就是可能会引起蛋白质的结构变化,带来新的过敏因子。

删除 |赞[1]孙根年   2013-12-25 08:32
其实你不必在意,“屁股决定脑袋”,“态度决定言行”。挺转人不愿意看到的,总能找出一百个理由来反对,这才是真正的原因。

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 (屏蔽留存)

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

屏蔽已有 5486 次阅读 2013-12-26 02:25 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 转基因, 社交媒体, 挖掘, 语言技术

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。

这次挖掘仍然是最近一个月的英文社会媒体,区间为:

GM food, 11/25/2013 - 12/25/2013

Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?):

  • GM food
  • genetically modified
  • transgenic
  • transgene
  • genetically engineered food
  • GMC
  • GMO
  • GMF
  • Franken-food

从下述共现主题词发现,GMC (for GM crop)有严重歧义,它更多用来作为 GM 汽车品牌:

因此加了以下限制词:

{ car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }

(也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)

Anyway,在上述定义的 query 下,搜索挖掘的结果如下。

共现主题:

总览:

值得注意的是,与上次初步的调查的褒贬指数零下40度不同,这次更加 refined 的调查显示其褒贬指标为 零下29 度,转基因食品形象仍然很不佳,老百姓仍然很多疑虑和抱怨,但是不像 -40% 那样恐怖。这次调查做得更加细致,query defined 更周全, 个人认为应该更加真实可靠。

喜欢和厌恶转基因的理由云图如下:

社交媒体的地理分布:

从数据分布看,确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问,究竟是美国人民(网民)还是西方英文世界网民的民意。(我从善如流,为保险起见把前一篇博客的题目从“美国人民”改为“西方”,现在看来,我有依据再把标题改回去了。无需地理过滤,最近一个月英文社会媒体谈论 GM food 的话题,几乎全部集中在美国。)

美国国内的分布呢?

从颜色的深浅可以看出,这些议论主要集中在加洲(15%)和纽约州(9%),其次是德克萨斯(5%)和佛罗里达(5%)等。

其他信息图示:

网友一定奇怪,为什么挺转人士把 poison (毒药)列为理由呢?我也很好奇,就 drill down 到数据里面看,原来是这样的样例:

我们英文分析器当然知道 poison 是强贬义词,但是议论中的 poison 有否定词 no,因此处理器就转贬为褒。但是,遗憾的是,还是错了,可以算是一个质量的 bug,我这就去修改系统。错误在于,这不是简单的否定式,而是祈使否定句(NO 也用了大写),意思是“坚决不要孟山都的转基因毒药”,显然应该归入反转人士的意见去,现在弄反了。自然语言蛮复杂,除了否定,否定之否定,还有祈使,以及它们的混杂,这就是一个活生生的例证。再举一例,请看下面的 minimal pair:

(1) GM food is safer

(2) Be safer,GM food

同样是 “be safer”,(1)是褒义描述,而(2)是祈使句,带有贬义(义为 “拜托,你能安全一点,成不?”)

对这些 tricky 复杂的自然语言现象,我们做了不少工作,但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的,社会媒体的表达又很不规范。好在我们有不间断的质量检测(QA)流程, benchmarks 利用第三方 crowd-source 人工监测,四个判官,至少三个判官一致才作为标准。统计下来,英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用(以前我有几篇科普专文谈论这个),因此有信心说,总体结论是靠谱的,反映了社会媒体真实面貌的。

最后给一些社会媒体的samples

 

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752915.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

27  陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu

发表评论评论 (16 个评论)

删除 |赞[10]tuner   2013-12-26 20:54
今年美国通过了转基因食品强制标识法案的州有3个:Vermont, Connecticut, 和Maine。都是东北部的州,看来孟山都等转基因公司想用金钱左右所有的民意,还是不可能的。

明年应该有更多的州会对转基因食品强制标识法案进行公投,看结果吧。博主也许可以再做一下同比,即前几年同一个月在这个话题上的民意,看变化情况,应该能进一步说明问题。

删除 |赞[9]崔小云   2013-12-26 17:05
大数据的方法真好。我慢慢学习李老师的博文吧。

删除 |赞[8]谢龙   2013-12-26 16:50
博主你应该增加一个关键词 biotech

删除 |赞[7]范丁丁   2013-12-26 15:17
李老师,你做这个的方法可否分享下,感觉很牛
 回复  : 我的博客有100多则科普类分享,你有空慢慢挑着看吧

2013-12-26 15:241 楼(回复楼主)赞|
 回复  : 在两个专栏里:《社媒挖掘》和《立委科普》

2013-12-26 15:252 楼(回复楼主)赞|

删除 |赞[6]lmnnml   2013-12-26 15:02
26楼点中要害

大数据能代表美国人民吗?        我看8楼的评论
zhiyanliao说大数据代表不了真理

 回复  : 谁说大数据代表真理,谁就不是 human!

2013-12-26 15:341 楼(回复楼主)赞|

删除 |赞[5]文克玲   2013-12-26 14:44
可以比较一下大数据与全民公决的结果(加州,转基因标识问题)。
 回复  : 这个工作就指望您啦

2013-12-26 15:351 楼(回复楼主)赞|

删除 |赞[4]dangping   2013-12-26 14:05
民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见,媒体也有可能更倾向于转载一些负面的报道和意见,所以这些分析结果能不能代表人民的意见还很难说。
 回复  : 其他网友也有这个看法。有一定道理。但这个否定不了大数据的挖掘价值。

2013-12-26 15:291 楼(回复楼主)赞|

删除 |赞[3]husselfist   2013-12-26 13:07
有点意思。

删除 |赞[2]薛宇   2013-12-26 11:27
您这个词频分析真是个好东西,另外,啥叫“共现主题”,能解释一下吗?还有,您这个用到热图了,这个我们好几年前就关注了,跟胖子还合作了一个工具。挺好,赞!
 回复  : 就是共现关键词,主要是实体名词

2013-12-26 15:071 楼(回复楼主)赞|

删除 |赞[1]张能立   2013-12-26 10:36
中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。
 

只认数据不认人:IRT 的鼓噪左右美国民情了么?(屏蔽留存)

只认数据不认人:IRT 的鼓噪左右美国民情了么?

屏蔽已有 4109 次阅读 2013-12-30 06:27 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 舆情, 挖掘

套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》

当然,还有上帝:In God We Trust. In everyone else we need data.

大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

不过,挖掘本身也有可能有 bug(但即便是 bug 或者其他不完善之处,它们对所有搜索的话题也是一视同仁的,是独立于话题的,因为系统的编制针对的是开放话题),挖掘的结果可以从不同角度验证或质疑。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

上篇转载博文([转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28)就是老友在质疑和解读这方面做出的有意义的努力。老友指出,其所以造成 gluton intolerance 成为反对转基因的主要理由,是由于美国反转极端组织 IRT 的鼓噪的效应。从时间上看,IRT 确实在上个月的大数据调查区间内制造了反转新闻,似乎影响颇大(drill down 显示 twitter 在很短时间里对 cause gluten related illness “新闻”有 700 多条大同小异的微博或转发,下面是“鼓噪”及其社媒传播样品)。

RT | @tree_details http://t.co/i8PV0y3Ev2 Future Epidemic? Monsanto GM foods cause gluten-related illnesses. econ/food/soci- gmo.
Monsanto GM foods cause gluten-related illnesses (silveristhenew.com) [...]
GM foods cause gluten-related illnesses --
I added a video to a @YouTube playlist http://t.co/rywMnDKtlU Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic Monsanto GM foods cause gluten related illnesses: Published on Dec 7, 2013 18 million of Ameri... http://t.co/86SnUlUmxv.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013 , RT.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013, RT.
Monsanto GM foods cause gluten-related illnesses • 'March of Millions': Ukraine braces for massive anti-govt rally • Spiritual Journey: Valaam monastery in Russia's far north (RT Documentary).
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/leNyyCI1G4. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/kZlxQso6T4. #RT

.........

RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @RT_com: Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/FbJhDufXzn. @portnayanyc
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/lknWlC2CP2

..........

Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/XOJYHwyci4 via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/EUYyOsnFyV via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/mAPr2RkyLL. #FutureEpidemic #GM #GMO #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/MwzyJkqjLI. #FutureEpidemic #GM #GMO #RT

.........

有了上述解读,我们有两个问题需要解答:(1)一小撮 IRT 分子的 “鼓噪” 可以左右舆情么?影响度如何?(2)反对转基因的理由除去 gluten intolerance 后是怎样分布的?

于是我们继续做转基因的大数据自动挖掘来寻求答案,以便看清西方当今舆情和民情的真相。根据老友们的建议,我们可以设置条件,做一个对照调查。下面就是这次对照调查的条件和结果。

(1) Baseline:为做到 apple to apple 式的 minimal pair 对照比较,我们先把最近一个月的自动调查重复一次(除去了原 query 中的害群之马歧义词 GMC,因为发现它绝大多数是与 GM 品牌汽车相关,而不是指转基因谷物),结果拷贝如下:

这是 baseline,没有加限制词的结果,似乎没有多大改变
作者: 立委 (*)
日期: 12/29/2013 02:08:05

(2)在上述自动挖掘中加入限制词 “cause gluten” 以屏蔽由于 IRT 鼓噪事件带来的反转中最大,据专家认证也最不靠谱的理由:

嗨,我加了一个限制词 ”cause gluten“,舆情面貌变了哎
日期: 12/29/2013 08:16:59
不过褒贬指数还是很低:零下 33 度(比零下 37 度稍微升温 5 度)。似乎说明网络舆情对转基因还是充满抱怨的情绪。

 
Download
 
Download
 
Download

 
Download
 
Download

【相关博文】

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-754053.html

上一篇:与理发师的交谈
下一篇:"科学里说法的‘短命性’不是好事情吗?"

 

10  武夷山 孙根年 郑小康 陈儒军 陈筝 鲍得海 李宇斌 bridgeneer liyouxi tuner

发表评论评论 (15 个评论)

删除 |赞[10]李维   2013-12-31 20:25
新年将至,打个戳:

已有 3507590 人来访过

积分: 670威望: --金币: 665活跃度: 44665好友: 548主题: 2博文: 3618相册: 6分享: 343

stamped

删除 |赞[9]lmnnml   2013-12-31 16:14
再来指出你这个大数据统计的随意性。 你可以说“据专家认证gluten也最不靠谱的理由”从而把gluten删除, 从而提高了其它项目(例如致癌)的比例, 请问你从几个专家的意见得出了gluten不靠谱? 这不是跟你的标题“只认数据不认人”完全相反, 变成了“只认专家不认数据”了吗。 再反过来问你, 现在的大多数专家都认为已经批准了的转基因食品与常规的一样, 不致癌, 你为什么在致癌问题上,不加一个限制词 ”cause cancer“,你这不是按照自己的意愿和观点,随意操作大数据, 达到你自己的观点来误导舆论吗? 如果你有理的话, 请你不要删除我的观点, 正面回答
 回复  : 匿名朋友,没工夫跟你缠,这是我自家的菜园子,懂不?
你要是精力旺盛,到别处玩去。
你要是不匿名,我又有时间和心情,就陪你玩。
新年保重。

2013-12-31 19:591 楼(回复楼主)赞|

删除 |赞[8]lmnnml   2013-12-31 15:44
请问博主, 你为何把因为glutin 过敏反对GMO食品的60%的民意删除了? 你这不是不认数据只认人吗?
 回复  : 你睁开眼睛看仔细:那是做对照挖掘。删除前后的数据都在博文给出,难道你不读全文就指控?

朋友认为那个不是“民意”,而是某极端组织的“鼓噪”,因此做一个对比研究,看看该条“鼓噪”(或民意)对于整体褒贬指数的影响有多大,结果是5个点的影响。

大新年的。少点指控,多点快乐。祝新年好。

2013-12-31 19:551 楼(回复楼主)赞|

删除 |赞[7]liyouxi   2013-12-31 10:05
如果说的是我,我要说,我没有指出数据不可靠,只是说如何对待数据是个问题。

    [8]lmnnml

删除 |赞[6]liyouxi   2013-12-31 00:42
博主能否利用大数据手段证明或者证伪下述的据报道?

====
非营利性组织“国际食品信息委员会”(IFIC)在进行2013年《美国食品安全调查:消费者对食品安全、营养、健康的态度》调查时,依据2012年美国官方人口普查,以调查人群的性别、年龄分布、学历分布、族群分布和地区等变量配属统计权重,对1,006 名年龄18—80岁的美国人进行问卷采访。问卷结果显示,对于“你担心食品安全的哪些方面”这一问题,29%的消费者担心病菌和污染问题,21%的人担心制作过程,13%的人担心添加剂和化学品,只有2%的美国消费者表示担心转基因食品。当调查者进一步提问“你会避免哪些食品”时,消费者更多关注的是食品中“糖”和“脂肪”的含量,只有0.5%的人表示会避免转基因食品。对于现有的食品标签,仅有3%的消费者希望标注转基因信息。而在对消费者购买行为的调查中,87%的消费者表示生物技术(包括基因工程)不影响他们的购物选择。

 回复  : 没这个能力。

2013-12-31 13:061 楼(回复楼主)赞|

删除 |赞[5]liyouxi   2013-12-30 20:37
  

删除 |赞[4]liyouxi   2013-12-30 12:48
大数据能反映民意,这一点是没有太大问题的,只要收集数据的手段客观可靠即可。但是一个科技政策这样的专业判断问题,民意不能代表正确,且现代科学观念从来都是从少数人的探索开始的,社会大众事先不可能先行进行判断认定,即使成为科学知识之后,要一般老百姓(包含其他专业人士)来进行判断是强人所难。因此,我想博主可以做这样一个研究:美国民众在对待未知事物表达担忧的同时,是否主观想替代专业人士进行判断?或者在制定政策的层面上,是否对自己的非专业意见有足够的信心?还是,虽然有担忧,但是信任国家有关部门专家及科学共同体做出的决断和政策?他们老百姓有直接冲到最前线,推翻zf(FDA,AAAS等)的现有政策的意愿么?等等等等。
 回复  : 看样子,我得向美国NSF或者国内杰出老年基金申请一个课题来研究这一系列问题,题目就叫【论社会媒体民意与公共政策之关系:以转基因为小白鼠的 case study】

2013-12-30 16:081 楼(回复楼主)赞|

删除 |赞[3]liyouxi   2013-12-30 09:58
不过,摒除主观因素是一个重要方面,还有一个重要方面是样本空间是否足够客观、取样是否均匀?
 回复  : 样本是最近一个月的英文社会媒体存档,以 twitter 为主,Facebook 为次,其它论坛等只占一个小的比例。这是当今社交媒体的自然分布,取样应该是均匀的。具体交待见以前的两篇博文。

2013-12-30 10:551 楼(回复楼主)赞|

删除 |赞[2]liyouxi   2013-12-30 09:54
从某种意义上来说,人本身就是一架大数据处理机器,人就是在根据一辈子的所见所闻来下结论。不过,由于每个人处理数据的方式不一样,所以就一件客观的事情吵来吵去,难以得到共有的结论。因此,名义上,科学界不会以人的嗜好来作为判断标准,以尽量客观,虽然实质上还是会受影响。那么李老师,你所说的大数据处理方法摒除主观因素的能力是否在行业中得到公认?

删除 |赞[1]孙根年   2013-12-30 07:17
"数据,数据,除了它,我们谁也不认!"这话好,是情报分析的关键。

【大数据挖掘:转基因英文网络的自动民调和分析】(屏幕留存)

【大数据挖掘:转基因英文网络的自动民调和分析】

屏蔽已有 4162 次阅读 2014-1-3 18:23 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 民意, 挖掘, 民调

前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。

既然转基因是大众如此关心的热点话题,我们就拿它当小白鼠,继续做系列大数据自动调查,用海量数据粉碎少数匿名极端分子散布的大数据调查涉嫌“输入伪数据”的谣言。博主保证在话题定义和输入给系统以后,相关的原始数据搜索及其自动分析全过程没有任何人工干预。这一点是由我们的大数据产品的性质决定的。产品允许以不同的 filters 来做对比研究,博主保证对比调查中的任何 filter 都明确标示,默认为不使用。各位谨记的是,大数据是客观的存在,大数据不会说谎,但是对数据的下列解读(interpretation)不可避免有主观的成分。欢迎百家争鸣,对这些数据做出不同的解读,也欢迎对数据挖掘的条件和过程提出建议和质疑。(但不欢迎任何极端分子的胡搅蛮缠无理取闹,博主保留对任何极端或不雅留言杀无赦不解释的权利。)

转基因一年来英文社会媒体口碑的自动民调和分析如下。  

(1)话题的定义和输入:GM food | GMO | genetically modified | transgenic | transgene | genetically engineered food | GMF | Franken-food

与前同(删除了歧义严重的害群之马 GMC)。

(2)自动民调结果总览

尝试解读:一年的自动调查提及转基因485万,调查了383 万多社交媒体的帖子,涉及近 15 万网民。这是真正的大数据民调,比传统手工民调最多几千份问卷,数据量和调查对象要高两到三个量级。转基因的一年大数据的平均褒贬指数为零下13度,比前几次的一个月数据的调查要好(虽然仍然是负面评价为主)。转基因的话题在西方社会媒体中,的确很有争议。

尝试解读:一年的提及转基因话题的帖子,有 28% 的帖子(134万)含有褒贬评价或情绪,其中贬(57%)略大于褒(43%)。褒贬的幅度区间在 6 度最高点(见上图最高红点旁 tooltip 小框)到 零下 32 度(上图最低谷的红点处)之间。值得注意的是 2013 年六月是转基因网络热议的最高峰,而这场热议却使得转基因褒贬指数跌入最低点零下32度。

 

下面是最近半年的数据,褒贬度为零下10度,略好于一年的指标。

(3)共现话题:

尝试解读:多次挖掘都是如此,与转基因最密切的主题永远是 Monsanto (孟山都)。说转基因纯粹是科学问题,那是 too simple and naiive,只要背后有企业,就一定有利益因素。

(4)挺转反转的理由词云:

 
Download

尝试解读:正反理由旗鼓相当的样子,这比以前一个月数据的调查大为改善。反转的最大理由不再是 gluten 相关的疾病,而是死亡(Die)和癌症(Cause cancer)。挺转声音强调的是安全(safe),也是很自然的。

(5) 挺转反转的情绪词云:

 
Download

尝试解读:wow,情绪云图中挺转的分贝(那些大大字体的 love,good,great)似乎比反转的(bad,not want,concerned,fear,hate,fuck)更高(表现为更大的字体),不过后者的表达更加多样化。

(6)挺转反转的行为:

 
Download

尝试解读:挺反双方不仅仅是情绪发泄,还有行动,有吃的用的买的(eat,use,buy),就有拒吃拒买甚至要求禁止的(not eat,not buy,reject,ban)。

(7) 挺转反转的比例

 

(8)社媒样例:还是贬大于褒嘛。
 

 

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

 

转基因问题
http://blog.sciencenet.cn/blog-362400-755554.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

4  陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

删除 |赞[3]杨会杰   2014-1-4 11:58
   大数据崇拜要不得
其实大数据很大的一个特点是脏数据
 回复  : 你想说什么呢?
因为数据脏,就不要挖掘?

2014-1-4 14:311 楼(回复楼主)赞|

删除 |赞[2]蔡小宁   2014-1-3 23:42
博主的数据应该是真的,至少我是这样认为的,但是不要迷信“大数据”也是我一直的提醒。
 回复  : 蔡老师,什么叫“应该”?数据是从内容商买的,真的假的也是内容商的问题,我们只是使用它挖掘情报而已。

2014-1-4 14:301 楼(回复楼主)赞|

删除 |赞[1]biofans   2014-1-3 18:38
不是说美国人吃了20多年的转基因食品吗?那就分析20年来的数据可能更可信。
 回复  : 没有那么久的历史数据(即便有,也买不起,原始数据是需要给内容供应商付钱的)。社交媒体的历史总共不过七八年吧。

2014-1-3 19:021 楼(回复楼主)赞|
 回复  : 另外,我怀疑 10-20年前,没什么人议论转基因。因为美国的转基因进入市场不加标识,绝大部分民众蒙在鼓里,根本没有这个概念。最近一年的热议,估计与美国崇尚自然有机食品的所谓健康饮食的时尚潮流有关。另一方面,也幸亏美国人做了 20 年的小白鼠。这 20 年美国没有发生转基因带来的严重问题,我个人认为足以证明国人对转基因的担心有点杞人忧天。只要按照美国标准去做,就应该没啥问题。当然,转基因主粮如大米和小麦的推向市场,还是谨慎为好。

2014-1-3 19:102 楼(回复楼主)赞|
 

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】(屏蔽留存)

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

屏蔽已有 4121 次阅读 2014-1-3 20:12 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 中文, 挖掘, 社会媒体

中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢?

终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。

这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面交待。

接着来中文社媒的民调:挺转派明显占上风,疑似媒体正面为主?
作者: 立委 (*)
日期: 01/02/2014 19:26:23

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

转基因问题
http://blog.sciencenet.cn/blog-362400-755584.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

8  郑小康 徐军 陈辉 薛宇 孙根年 bridgeneer tuner liyouxi

发表评论评论 (10 个评论)

删除 |赞[6]liyouxi   2014-1-5 18:27
如果中美对比数据需要得出有意义的结果,我觉得可以尝试一些其他相关数据(不构成因果关系),比如两个社会对于星相学的态度,对于神秘现象的态度等等,那么把得到的结果放到这些相关背景上去看,可能很有意义。

删除 |赞[5]lmnnml   2014-1-5 00:11
删了我的真话--心虚? 门前冷落鞍马稀, 大家已经知道你的大数据是什么东西了
 回复  : 那就留着这条立此存照吧。

2014-1-5 06:101 楼(回复楼主)赞|

删除 |赞[4]tlw2013   2014-1-4 12:51
   各取所需,公开透明

删除 |赞[3]李旸   2014-1-4 12:44
李老师,数据用什么软件分析的
 回复  : 用的是我们自己开发的软件产品。这个产品主要是为企业挖掘客户情报用的。

2014-1-4 14:261 楼(回复楼主)赞|

删除 |赞[2]闵应骅   2014-1-4 11:38
谁挑起了这么个争论?这事儿民调能解决吗?
 回复  : 民调的目的不是解决问题,而是了解问题。

2014-1-4 14:271 楼(回复楼主)赞|

删除 |赞[1]蔡小宁   2014-1-3 23:34
中国人最关心“中文世界”了,非常欢迎李老师来到中文世界!

【大数据挖掘:中国红十字会的社会媒体形象】(屏蔽留存)

【大数据挖掘:中国红十字会的社会媒体形象】

屏蔽已有 4765 次阅读 2014-1-4 20:27 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 挖掘, 红十字会, 社会媒体

【置顶:立委科学网博客NLP博文一览(定期更新版)】

在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往往见木不见林,难以把握总体趋势和全貌。而自然语言技术可以帮助我们自动阅读分析海量信息,从中挖掘任何话题的舆情以及机构或个人的媒体形象,从而从一个角度为决策提供依据。

一般而言,红十字会总是与各种慈善活动紧密相关,因此如果不出意外,红十字会的社会形象是非常正面的。但是,中国红十字会却不尽如此。用我们中文大数据挖掘系统(beta)对最近一年的社会媒体(完整的微博数据仍然在与内容商协商之中)的自动民调显示其形象起伏颇大,但一年平均指数 36 并不很低。

从上图看过去一年(2013元月13至2014元月14)的社会媒体趋势,社会媒体的相关议论的数量除了去年四月五月之间突然出现一个高峰以外(出了什么状况?),一直很平稳。随着这个热议的是其形象一跌千丈,直至五月12号到谷底零下56度。随后的发展表明,虽然议论量趋于平稳,但去年七月中与九月末还是出现两次形象受损,疑似公关失当?这里面的故事,一直追踪网络事件的记者和网友应该有所可言。

网友表达的情绪中最显眼的是“谴责”,远远超出正面的情绪(“信任”)。

上图展示了具体的褒贬理由。下面是其比例的饼图,如何解读这些数据还是留给了解事件发展过程的人士吧。总之是遇到了丑闻和麻烦。

http://blog.sciencenet.cn/blog-362400-755868.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

5  蔡小宁 郑小康 王秀玉 徐晓 bridgeneer

发表评论评论 (1 个评论)

删除 |赞[1]王秀玉   2014-1-4 21:47
读李维老师《大数据挖掘:中国红十字会的社会媒体形象(2013)》后感 地址:http://blog.sciencenet.cn/blog-817414-755900.html

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】(屏蔽留存)

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

屏蔽已有 4589 次阅读 2014-1-6 00:54 |个人分类:社媒挖掘|系统分类:博客资讯| 小崔

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Re:你的软件有bug。5-7月,崔永元主要在忙公益基金的事情。

当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。

上篇挖掘崔方大战一年的形象变化曲线,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in garbage-out 造成的?

于是 narrow down 到那个区间做进一步调查,看来不是小方也不是月亮,而是“苦逼” 惹的祸。

初步查了一下,可能的原因是“苦逼”。那段时期称他为苦逼小崔的较多
日期: 01/05/2014 10:28:11
系统认为 苦逼 是负面评价,加上数据总量(8930 mentions)不够,所以就构成低谷了

法克

好在,这个问题数据量大了以后应该自行纠正。希望与内容商的谈判早日定局,数据量一大遮百丑。

 

 

 

 
 

MD 这么一条就左右主导了曲线两个月低谷??

所有数据量需要一个阈值才靠谱。这个经验值还在探索中。

系统本身绝不是 garbage in n out,苦逼 平时确实更多贬义,但也有调侃同情的可能。

大数据的要点是 大。Lesson learned

RE:应该是5-7月曝光少,噪声起作用了。之前是两会,之后是公益等。

 

小崔这期间共8930 mentions,其中褒贬词量1164,而小崔负面评价总数686,其中苦逼610次
日期: 01/05/2014 11:20:50
问题是这样的帖子,de-dup 也对付不了,因为帖子本身是 不同的,但是短语 苦逼小崔 只是帖子的一个组成成分

还是一句话,大数据重在大,一大遮百丑,一大就靠谱。

不过,数据量不足也有好处,可以更加容易暴露系统的bugs,而数据量一大,噪音和 bugs 就自然退居幕后,浮不上台面了。

 

google 了一下,原来 苦逼小崔 真地不是崔永元???
作者: 立委 (*)
日期: 01/05/2014 16:01:20
那是谁呢?

笑话闹大了。

在小崔民调中,我可以(应该)过滤掉“苦逼小崔”的干扰。

 

  1. 苦逼小崔。 - 豆瓣

    www.douban.com/people/55978871/

    Translate this page

     

    老孙谁都不是。 不是前任,不是现任,不是同学,不是同事,甚至称他为朋友都有点牵强,他是同学介绍给我的适合结婚的对象,这个定义听起来有点残忍,但事实就是 ...

  2. 苦逼小崔。的豆瓣小组

    www.douban.com/group/people/55978871/

    Translate this page

     

    小组、话题. 苦逼小崔。的豆瓣小组. 小组主页 · 加入的小组(22) · 喜欢(0) · 推荐(1). 加入的小组(22). 太原一家人. (9297). 掀起你的内幕来┃青草公益活动月. (254349).

  3. 苦逼小崔。的相册 - 豆瓣

    www.douban.com/people/55978871/photos

    Translate this page

     

    有了这个相册,我就知道明年什么时候该穿什么衣服了。 11张照片 2013-07-16更新. Wish you were here. I'm here. 11张照片 2013-07-15更新. 西安西安. 75张照片 ...

  4. 我刚才看到了一个苦逼小崔的自爆…… - 豆瓣

    www.douban.com/group/topic/41545991/

    Translate this page

     

    Jul 19, 2013 - 成功勾引母猪 (Feel so close) 2013-07-19 23:42:27. 我操,我操,蛋大的事也值得你开个帖? 我操,我操,蛋大的事也值得你开个帖? 苦逼小崔。

  5. 苦逼小崔。的相册-夏 - 豆瓣

    www.douban.com/photos/album/106664416/

    Translate this page

     

    Jul 15, 2013 - alay : 。。要我当面指给你看么 09-24 14:23; 苦逼小崔。 : 胸部在哪? 09-24 14:23; alay : 胸部不错啊 09-24 13:38; 苦逼小崔。 : 蓬荜生辉有木有!

  6. 北京,北京- 苦逼小崔- 面包旅行

    breadtrip.com/trips/2387782532/

    Translate this page

     

    Oct 2, 2013 - 坐缆车准备爬山了。 喜欢(0) 评论(0). 2013-10-02 11:43:00. 北京. 苦逼小崔-北京,北京-2400515001. 到顶。 喜欢(0) 评论(0). 2013-10-02 12:57:00.

  7. 苦逼- 小崔seo_崔长河的个人博客

    seo-oo.com/?tag=苦逼

    Translate this page

     

    小崔seo,是一个致力于关注互联网技术、网络营销、搜索引擎优化(SEO)的博客。博客内容包括SEO,但不限于SEO。

Page 2 of 20 results (0.13 seconds)
 
 
 
 
 
 

转基因问题
http://blog.sciencenet.cn/blog-362400-756279.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

5  王秀玉 武夷山 孙根年 陈筝 bridgeneer

发表评论评论 (5 个评论)

删除 |赞[3]laohe41   2014-9-3 10:02
崔绝对不是苦逼,逗逼还差不多。

删除 |赞[2]何小阳   2014-1-6 17:43
没有“阀值”这个词,只有“阈值”,threshold
 回复  : thanks

2014-1-6 21:591 楼(回复楼主)赞|

删除 |赞[1]戎可   2014-1-6 06:50
2013?
 回复  : thanks

2014-1-6 08:331 楼(回复楼主)赞|

【大数据挖掘:转基因一年回顾】(屏蔽留存)

【大数据挖掘:转基因一年回顾】

屏蔽已有 3140 次阅读 2014-1-6 05:42 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 挖掘, 社会媒体

转基因大战提升还是损害了转基因的网络形象?
日期: 01/05/2014 15:12:11

我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03),下面我们进一步做转基因最近一年的网络形象趋势的调查,看看到底转基因在网民中的形象是提升还是损害了?

转基因确实是去年的热门话题,在我们够得着处理(indexed)的中文社会媒体一年档案中,转基因被提及55万多次,其中两万九千多次为正面,两万七千多次为负面,挺转反转可谓旗鼓相当,平均褒贬指数为 4 度,挺转呼声略强。

 

下面看一年的褒贬热议趋势图。蓝色曲线表示热议度(mentions),紫色曲线为褒贬指数(net sentiment),下列第一张趋势图记录每日的热议和褒贬的跌宕起伏。

 

下图是每周的热议和褒贬的趋势图。

 

下图是每月的热议和褒贬的趋势图,展示显得更加粗线条,但展示发展趋势也更为明显。热议度一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。不过全年看下来,转基因的网络形象实际上变得更加正面了。

 

补充不同区间的对比图

日期: 01/05/2014 15:30:03

半年趋势图:

 

 

三个月趋势图:

 

 
 
一个月的趋势图:

 

 

老友脑子好,帮助看看是提升了还是损害了形象
日期: 01/05/2014 15:32:15

隐约感觉是提升了,但是期间跌宕很大。

最近三个月的某个转基因热议期间(去年十 月底),转基因形象却走低,后来又逐渐恢复了。

是不是?

我自己已经糊涂了

下面是过去一年有关转基因的各类云图。

 
Download
 
比如上图 “转基因技术”,褒贬图中有红有绿(绿大红小),表示有人说好有人说坏,但褒大于贬。

 
Download
 
Download
 
Download

 
Download

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756294.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

2  孙根年 王秀玉

发表评论评论 (4 个评论)

删除 |赞[2]蔡小宁   2014-1-7 23:13
承蒙李老师的热情,我只能做点猜测。上半年支反双方没有特别大的行动,但是下半年就不同了,支转方开展了多次转基因大米品尝科普活动是有效果的,而且五家专业学会等单位联合开办了《基因农业网》,加强了转基因科普的力量,累积至9月中旬达支转方的支持度到高点。也就是9月初,崔永元突然杀出,以其实话实说建立的超高人气,使得支转方遭到重大打击,随后崔永元进一步宣布自费赴美、日调查转基因,使反转方赢得了大量的赞誉,崔永元再次建立起直言不讳的负责任的英雄形象,导致了支转方在10、11月落到低谷。然而,支转方不甘落后,不断组织反击,方舟子多次发文批驳崔永元,由于方舟子的文章往往有理有据,而崔永元没有实质内容、脏话连篇,导致少量崔粉放弃对其的支持,加上农业部发言人出面说话,俄罗斯又批准了转基因作物的种植,支转方逐步收复失地,于是12月中旬达到高点。年终,双方都忙于年终工作总结、过节等,热度都有所下降。
 回复  : 很好的分析,比我盲人说象强太多了。

2014-1-8 03:181 楼(回复楼主)赞|

删除 |赞[1]王秀玉   2014-1-6 20:10
李老师再试一下选“转基因主粮”、“转基因安全”一定可以补充“转基因技术”这个无多大争议的tag 的不足。这是一点补充。沈阳
 回复  : 这个可以做。

2014-1-6 21:501 楼(回复楼主)赞|
 

【大数据挖掘:方崔大战一年回顾】(更正版)(屏蔽留存)

【大数据挖掘:方崔大战一年回顾】(更正版)

屏蔽已有 8527 次阅读 2014-1-6 09:12 |个人分类:社媒挖掘|系统分类:博客资讯| 方舟子, 崔永元, 挖掘, 社会媒体

对博文【大数据挖掘:方崔大战一年回顾】 2014-01-05 的更正是:去了“苦逼小崔”(白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude),加了中文繁体。(调查时间比前一次也后了一天。)

 

本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twitter 等处会用繁体热议崔和方,其实没有增加多少。Twitter 和 Facebook 的 data 一直比 较稳定,不会像微博那样可能有缺漏。

有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。

以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。

据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。

挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。

挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。

两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。

看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。

 

 
 

以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。

小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。

上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。

 

由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。

(1)共现主题词:(字体大小与热议成正比)

 

 

(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)

 

 

(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)

 

 

(4) 喜欢自有喜欢的理由:

 

(5)厌恶亦有厌恶的理由:

 

(6)所调查的数据来源种类:
 

(7)所调查的数据分布:
 

 

社交媒体样本:

 

 

 

DIsclaimer: still in beta, use at your own risk.  bug report is welcome.

 

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】(更正版) 2014-01-06

【大数据挖掘:转基因一年回顾】 2014-01-06
【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756334.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

13  陈辉 徐英祺 陈筝 薛宇 赵斌 董全 李宇斌 孙根年 王秀玉 麻庭光 ncepuztf tuner bridgeneer

发表评论评论 (31 个评论)

删除 |赞[20]dangping   2014-1-7 18:44
“数据挖掘的意义在于帮助了解舆情网情民情。”
有一个词叫做“制造舆论”,在有计划的宣传下,舆情网情民情都是可以制造出来的。
 回复  : 当然,舆情都是人为制造出来的,不是上帝或者自然的现象。没有制造,就没有挖掘。在媒体学中,对企业或政府有组织的制造舆情与个体自然流露的民情,是严格区分的,叫 push media and pull media。企业有公关部也有游说为其利益服务。政府(特别是赤色政府或白色政府)专门设置庞大的宣传部,目的就是制造和牵引舆论,为稳定或洗脑用。两类舆情有相互渗透的时候,但本质上代表了完全不同的诉求。现在网络普及了,各显神通,开始有僵尸和水军,也是为了制造舆论,或者搅混水。这些都应该在挖掘和测量中予以分别处理和对待。这条路很漫长,但曙光就在前面。

2014-1-8 03:281 楼(回复楼主)赞|

删除 |赞[19]mitbbs   2014-1-7 10:25
两次网上掐架,从头关注到尾,没在任何人微薄上留过言。在我看来,韩寒和崔永元完败,虽然以前还蛮喜欢他们。

删除 |赞[18]gusij   2014-1-7 09:47
我不知道“mirrorliwei”是谁,但愿不像之前有人所说,是您的“镜像帐号”。。。
针对他(或您)的评论,我的回复是,一篇好的研究,或者好的文章,当然要有点意义。就算没有,你做这个工作总给有个目的吧。。。如果您的研究就是为了展示一个“网络舆情”。我前边说了,至少在“转基因”问题的争论上,意义不大。而且你这篇文章展示出来的内容,很多其实就是水军互掐和个人攻击,对于没看过方微博,不了解转基因的人只会误导。

-----------------------------------------------------------------------------------
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[17]杜昌文   2014-1-7 09:16
这种数据分析很有意义, 但对于科学问题, 其结果也许只能说明广大民众科学素养的低下.  例如, 小崔, 无论现在有多少人支持他, 他在我心中的良好形象已完全崩溃, 已骂街泼皮几无差异.

删除 |赞[16]金拓   2014-1-7 04:36
一年前的方韩大战可不是两败俱伤,而是韩寒完败。韩寒不仅再也不是天才作家和意见领袖了,而且语文差生的水平也暴露无疑了。
 回复  : 那是你或一批人的看法。
数据挖掘出来的结果不是如此。

2014-1-7 05:281 楼(回复楼主)赞|

删除 |赞[15]麻庭光   2014-1-7 04:34
有意思的研究,我最关心的是,你能够从社交媒体中预报某一免费活动的参与者人数么?比如波士顿马拉松,我想提前知道人数,就可以做人流规划了。有没有这方面的前期工作?给个Citation,我正在写计划。谢谢
 回复  : 不能。没研究过这种预测。目前只是反映和回顾。

2014-1-7 05:271 楼(回复楼主)赞|

删除 |赞[14]蔡小宁   2014-1-6 21:08
努力猜测一下。实际上方崔大战是从9月份开始的,崔永元在9月初首次发起进攻对方舟子的打击很有力,曲线急剧下降,应该说崔永元实话实说节目积累的威望使众多粉丝齐心协力痛骂方舟子。但是后来,崔永元不能依据科学证据说话,说话带脏字,原先的崔粉有少量叛逃,改为支持方舟子,所以方舟子开始上升,崔永元开始下降了。如果崔永元不能像方舟子那样说话有理有据,败下阵来的日子指日可待。现在崔永元是在吃“实话实说节目”的老本,能永远吃下去吗?
 回复  : 蔡老师去看看【转基因一年回顾】的调查,也许可以从曲线图上,看到九月前的趋势与九月后趋势的不同及其解读。我对此事件没有追踪过,看不大明白。

2014-1-6 22:141 楼(回复楼主)赞|
 回复  : 转基因中文媒体一年趋势调查的网址在 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=756294

2014-1-6 22:362 楼(回复楼主)赞|

删除 |赞[13]蔡小宁   2014-1-6 20:47
刚刚发现博主又搞了个新版的,里面变化很大呀!怎么搞的?
 回复  : 都在文中交待了,发现了一个 bug:苦逼小崔 不是指的 小崔(永元),必须剔除(exclude)。

原调查的来源限制为简体中文社会媒体,现调查加入了繁体中文的来源,不加限制,可以增加数据量,也可以反映海外中文世界的声音。

2014-1-6 21:491 楼(回复楼主)赞|

删除 |赞[12]mirrorliwei   2014-1-6 20:25
to 某些评论者:镜某不能理解为何有些人的视野就那么窄! 
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[11]王秀玉   2014-1-6 20:00
更正客观一些。
 回复  : 降噪。

主要是原来的那个苦逼小崔的低谷,实际上与小崔的公关形象无关。

我至今也不知道这个苦逼小崔是谁。总之是噪音。

2014-1-6 22:171 楼(回复楼主)赞|

删除 |赞[10]lmnnml   2014-1-6 18:10
本人多次指出了你经常输入假数据, 伪数据, 然后得出假结论, 伪结论。 你从来不敢回答我的质疑,采取把我的质疑删除, 不让大家看到。
 回复  : 你拉皮糖,好,就开恩把你这条谣言立此存照。

1. 同样的评论,你反复贴,你匿名骚扰。
2. 你不匿名,我可以不删你的任何帖子(重复除外),ok?
3. 我自家的菜园子,当然仍保留不给理由删任何帖子的权利。

科学网的防匿名骚扰功能有待加强。

2014-1-6 21:561 楼(回复楼主)赞|

删除 |赞[9]周春雷   2014-1-6 16:47
水军的意见咋处理的?

删除 |赞[8]gusij   2014-1-6 15:19
同意。但是个人感觉在这个问题上的“民情”真的不是那么重要或者有严重误导性(具体原因不是评论一两句里能说清的)简单说,就是很多人是在无厘头的反对。
赞同:yakgg的观点。如果说这种数据还有意义,那么它的意义可能在于:“说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。"

删除 |赞[7]陈军   2014-1-6 15:03
同意【1】楼

删除 |赞[6]dangping   2014-1-6 14:46
赞同[1]gusij
能否面向专业期刊来做数据挖掘?
 回复  : 我没有数据,也没有时间。

这个调查系列是作为一种大数据科普和展示来做的试验,旨在引发对大数据领域的了解,以及发现挖掘中的bugs和盲点。

2014-1-6 22:091 楼(回复楼主)赞|

删除 |赞[5]bridgeneer   2014-1-6 14:39
突然发现,科学奴才真不少。

删除 |赞[4]jiareng   2014-1-6 13:09
大数据不是万能的!
 回复  : 放之四海而皆准。
谁给你灌输大数据万能,那人一定是片子。

2014-1-6 14:371 楼(回复楼主)赞|

删除 |赞[3]yakgg   2014-1-6 12:30
很有意义的, 说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。

删除 |赞[2]liyouxi   2014-1-6 11:37
可以提供给农民起义领袖们把握“民意”时使用:http://user.qzone.qq.com/11454399/blog/1388906053

删除 |赞[1]gusij   2014-1-6 11:29
坦率讲,不知道这种所谓的“数据挖掘”有什么现实的意义。对于转基因这样专业的问题,我们不可能凭臆想和公众舆论做判断。需要真正了解诶转基因的生物学家做解读,这方面美国权威机构已基本给出答案,那就是目前批准的转基因作物是安全的!
您的这种数据挖掘不如面向专业的学术期刊,而不是社交网络。
 回复  : 数据挖掘的意义在于帮助了解舆情网情民情。不在解决任何专业问题。专业问题找专家,不要找普罗百姓。

2014-1-6 14:391 楼(回复楼主)

【大数据解读:方崔大战对转基因形象的影响】(屏蔽留存)

【大数据解读:方崔大战对转基因形象的影响】

屏蔽已有 2589 次阅读 2014-1-7 06:29 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 反转, 挺转

据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。

下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度(mentions)一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度(net sentiment)在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。

 

不过全年看下来,转基因的网络形象实际上变得更加正面了因为褒贬指数平均值从全年的4%,上升为半年的8%(近三个月为6%, 最近一个月的指数陡升为 19%)。总的趋势应该是挺转占了上风,东风压倒西风。

半年趋势图:

 

三个月趋势图:

近三个月(从去年十月五号到今年元月五号)的趋势图是大战最酣的时期,值得仔细研究。从热议度和褒贬度两条曲线的对比看,十月下旬到十一月上旬是热议高峰期,估计也是挺反两派斗争最激烈的阶段,但这个阶段转基因的媒体形象反而略为走低,至 11月18号的谷底(-22%),说明反转呼声占了上风。

但是此后的发展是,热议度基本持平,直到12月底开始有些消停(斗累了?过年了?),但挺转的走势明显上升直到12月16日全年最高点(41%)。但此后又开始下滑。

这些拉锯还在继续,近一个月的跌宕图示是否预示着,这场斗争还远远没有结束?不过最近两周确实有些疲软了。

 

一个月的趋势图:

 

一鼓作气,二鼓衰而不竭。挺/反尚未成功,同志仍需努力。

【附:蔡老师精彩点评】

 

[2]蔡小宁  2014-1-7 23:13承蒙李老师的热情,我只能做点猜测。上半年支反双方没有特别大的行动,但是下半年就不同了,支转方开展了多次转基因大米品尝科普活动是有效果的,而且五家专业学会等单位联合开办了《基因农业网》,加强了转基因科普的力量,累积至9月中旬达支转方的支持度到高点。也就是9月初,崔永元突然杀出,以其实话实说建立的超高人气,使得支转方遭到重大打击,随后崔永元进一步宣布自费赴美、日调查转基因,使反转方赢得了大量的赞誉,崔永元再次建立起直言不讳的负责任的英雄形象,导致了支转方在10、11月落到低谷。然而,支转方不甘落后,不断组织反击,方舟子多次发文批驳崔永元,由于方舟子的文章往往有理有据,而崔永元没有实质内容、脏话连篇,导致少量崔粉放弃对其的支持,加上农业部发言人出面说话,俄罗斯又批准了转基因作物的种植,支转方逐步收复失地,于是12月中旬达到高点。年终,双方都忙于年终工作总结、过节等,热度都有所下降。博主回复(2014-1-8 03:18):很好的分析,比我盲人说象强太多了。

更多数据在:

【大数据挖掘:转基因一年回顾】 2014-01-06

http://blog.sciencenet.cn/blog-362400-756627.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

3  蔡小宁 bridgeneer dchlin

发表评论评论 (4 个评论)

删除 回复 |赞[3]王秀玉   2014-1-9 13:52
选择评论:实名用户 就可以禁止匿名骚扰 

删除 回复 |赞[2]zhiyanliao   2014-1-7 10:04
科学网网管;李维无休无止的发些毫无意义的大数据烂文, 是否请网管适当控制, 不要让科学网变成李维推销他软件的自由市场
 回复  : 喂喂,匿名网友,同样的留言你不要重复骚扰好勿好?
你跑到我后院,匿名呼吁网管禁我的言,不滑稽可笑么?
我帮你呼吁一下吧:网管MM,请不要加精立委大数据的烂文。

顺便也问一下网管MM:按哪个按钮可以禁止匿名骚扰呢?

2014-1-7 10:111 楼(回复楼主)赞|回复

删除 回复 |赞[1]陈安   2014-1-7 07:57
大家继续掐
 

“大数据与认识论”研讨会的书面发言(屏蔽留存)

“大数据与认识论”研讨会的书面发言

屏蔽已有 12 次阅读 2014-1-11 19:27 |个人分类:社媒挖掘|系统分类:论文交流| 大数据, 挖掘

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级的大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂里面的人物大多是科学殿堂让人高山仰止的大科学家,而在下不过是一介匠人)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会也征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也早邀请立委在其创新频道做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

(1) 大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 、云计算(cloud computing),移动互联网(mobile web)和大数据(big data)情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

2011年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前才刚起步。然而中文网络信息的增长速度却是扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

 

有问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

 
20多年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么?
 
Big data intelligence (大数据情报挖掘)
 

很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

 

(2)什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社会媒体火热以后的专指,是已经与施事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社会媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社会媒体以及施事背景密切相关以外,大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力,为大数据时代的到来提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

(3)大数据挖掘技术及其挑战

   社会媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

   面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析; 2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

   社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth),则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

   在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据 更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

 

(5)自动民调: 社媒大数据挖掘的重要应用

 
社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终 取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

 

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。

       对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

 

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

先说它的不宜和禁忌。

1 这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2  这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3  大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的吹鼓手。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-758135.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

【喋喋不休论大数据(立委博文汇总)】(屏蔽留存)

【喋喋不休论大数据(立委博文汇总)】

屏蔽已有 6090 次阅读 2014-1-12 01:47 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 立委

【立委按】为准备一个大数据的书面发言,今天把自己过去两年在科学网【立委科普】和【社媒挖掘】专栏里发的有关大数据及其挖掘的博文扫了一遍,计104篇,洋洋洒洒m万言,总量远远超过彭德怀元帅1958年“为人民鼓与呼”的万言上书。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。

“大数据与认识论”研讨会的书面发言(草稿) 2014-02-10

【立委论大数据挖掘(博文汇总)】

 

分享【1】为什么做大数据的吹鼓手?热度 2 李维 2013-7-28 01:14王婆卖瓜是一种解释,虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜,毕竟是自己辛辛苦苦栽培,一把水一把肥看着它长大的,恰好赶上了百年不遇的高温干旱,这鲜美的瓜不吆喝都对不起它。 主要的原因是上帝。哦,我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了,当 ...个人分类: 立委科普|667 次阅读|2 个评论

 

分享【2】 大数据NLP论热度 5 李维 2013-7-27 20:50由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套 查准率 (precision)和 查全率 (recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指 ...个人分类: 立委科普|3090 次阅读|6 个评论

 

分享【3】On Big Data NLP热度 1 李维 2013-7-27 20:43Admittedly, it is not easy to develop an NLP ( Natural Language Processing ) system with both high precision and high recall (i.e. high F-score) due to the ambiguity and complexity of natural language phenomena. Social media is even more challenging, full of misspellings, irregularities, and ...个人分类: 立委科普|766 次阅读|2 个评论

 

分享

 

分享【4】 作为公开课的大数据演讲热度 16 李维 2013-5-23 18:34【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【 科学网公开课 】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯 ...个人分类: 立委科普|6654 次阅读|17 个评论

【5】社媒是个大染缸,大数据挖掘有啥价值?李维 2014-1-7 09:56社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义? 无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口,尤其在东土。 水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事 ...个人分类: 立委科普|190 次阅读|没有评论

 

分享【6】大数据挖掘问答2:会哭的孩子有奶吃热度 2 李维 2013-12-27 15:44RE: 有人在网上叫得最凶,所以这种大数据分析很容易受网上的vocal minority影响,不是么? 叫得最响用处不大,要叫得多。叫得响可以影响情绪烈度指标(passion index),但不影响最关键的褒贬指数(net sentiment)。叫得多也不能靠水军和僵尸,因为容易当作噪音被剔除,所以必须要叫得多种多样。 作者: 立委 ...个人分类: 立委科普|556 次阅读|2 个评论

 

分享【7】大数据挖掘问答1:所谓数据完整性热度 3 李维 2013-12-27 11:12到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了 作者: 立委 (*) 日期: 12/26/2013 18:54:07 关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意 ...个人分类: 立委科普|395 次阅读|3 个评论

【8】科研围脖:提上来,再谈查全率和大海捞针热度 1 李维 2013-7-29 00:38白图格吉扎布 2013-7-28 22:58 文章标题: 大数据NLP论 有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。 博主回复(2013-7-29 00:35) : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许 ...个人分类: 立委科普|1223 次阅读|1 个评论

分享

【9】【立委科普:所谓大数据(BIG DATA)】热度 3 李维 2013-3-21 04:58Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普|1175 次阅读|3 个评论

【10】广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘热度 11 李维 2013-3-20 19:57UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普|1283 次阅读|13 个评论

分享【11】Coarse-grained vs. fine-grained sentiment extraction李维 2013-3-12 06:51As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普|671 次阅读|没有评论

 

分享【12】【“剩女”的去向和出路(1)】热度 2 李维 2013-3-8 20:03在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 ...个人分类: 立委科普|1035 次阅读|2 个评论

 

分享【13】 【立委科普:基于关键词的舆情分类系统面临挑战】热度 1 李维 2013-2-15 22:47

 

Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普|1372 次阅读|1 个评论

 

分享【14】曙光在眼前,轻松过个年热度 1 李维 2013-2-9 04:34

曙光在眼前,轻松过个年

QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 ...个人分类: 立委科普|626 次阅读|3 个评论

 

分享【15】 围脖提上来:大数据时代的生活策略热度 2 李维 2013-2-5 07:33RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 ...个人分类: 立委科普|1294 次阅读|2 个评论

 

分享【16】 【立委科普:舆情挖掘的背后】热度 2 李维 2013-2-4 10:22

【立委科普:舆情挖掘的背后】

中文版 " 品牌舆情图 "设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普|1815 次阅读|3 个评论

【17】【科研笔记:big data NLP, how big is big?】热度 1 李维 2012-10-31 19:03Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo ...个人分类: 立委科普|967 次阅读|1 个评论

【18】 【立委科普:自动民调】热度 3 李维 2012-10-19 02:33

Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 ...个人分类: 立委科普|1530 次阅读|3 个评论

分享【19】 【研发笔记:粤语文句的情报挖掘】热度 4 李维 2012-9-28 07:50

【研发笔记:粤语文句的情报挖掘】

在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...个人分类: 立委科普|2167 次阅读|4 个评论

【20】2011 信息产业的两大关键词:社交媒体和云计算李维 2012-2-1 16:45我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, ...个人分类: 立委科普|1170 次阅读|没有评论

【21】社会媒体比烂,但国骂隐含舆情热度 3 李维 2012-3-20 03:59本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 ...个人分类: 立委科普|978 次阅读|3 个评论

【22】立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷热度 3 李维 2012-5-1 13:59词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 ...个人分类: 立委科普|1585 次阅读|4 个评论

 

分享【23】比起英语,汉语感情更外露还是更炽烈?李维 2012-4-28 04:29Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普|1158 次阅读|没有评论

【24】社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?热度 1 李维 2011-11-22 14:23“三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普|1630 次阅读|1 个评论

 

分享【25】科研笔记:开天辟地的感觉真好李维 2011-10-30 01:40刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 ...个人分类: 立委科普|1262 次阅读|没有评论

【26】《科普随笔:机器八卦》李维 2011-10-14 17:09机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普|863 次阅读|没有评论

【27】言多必露,文本挖掘可以揭示背景信息热度 1 李维 2011-7-11 01:03言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X -- X (student, t ...个人分类: 立委科普|939 次阅读

分享【28】《立委科普:机器八卦》李维 2009-12-23 06:45机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 ...个人分类: 立委科普|5095 次阅读|没有评论

【29】《朝华午拾:信息抽取笔记》热度 1 李维 2009-12-12 08:33《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 ...个人分类: 立委科普|2071 次阅读|

【30】【立委科普:信息抽取】热度 1 李维 2009-12-12 08:35【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 ...个人分类: 立委科普|3013 次阅读|4 个评论

分享【31】【立委论大数据博文汇总】草稿李维 2014-1-12 01:28为准备一个大数据的书面发言,今天把自己过去两年在科学网【 立委科普 】和【 社媒挖掘 】专栏里发的有关大数据的博文扫了一遍,共计篇,洋洋洒洒 言。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。 【立委论大数据博文汇总】 立委科普 | 编辑 ...个人分类: 社媒挖掘|没有评论

 

分享【32】“大数据与认识论”研讨会的书面发言草稿李维 2014-1-11 19:27【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。上次愚人节应中文信息学会邀请在软件所做了一个题为【】的演讲,科学网编辑还特 ...个人分类: 社媒挖掘|没有评论

 

分享【33】【大数据挖掘:微信(WeChat)】热度 1 李维 2014-1-8 19:26上帝给人类的礼物,一软一硬两个。硬的叫 iPhone(爱疯) ,软的叫 微信(英文品牌叫 WeChat) 。 都是颠覆世界,改变我们生活的移动互联网杀手产品,一旦用上,就让人离不开。 即便是上帝的礼物,也仍然会有人抱怨。因为有抱怨,才会有进步和升级。有朋友在微信团队,都是特别精明虎虎生气的年轻人,说,你给我们 ...个人分类: 社媒挖掘|541 次阅读|1 个评论

 

分享【34】【大数据解读:方崔大战对转基因形象的影响】热度 3 李维 2014-1-7 06:29据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。 下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度 (mentions) 一年的趋势 ...个人分类: 社媒挖掘|327 次阅读|3 个评论

 

分享【35】 【大数据挖掘:方崔大战一年回顾】(更正版)热度 17 李维 2014-1-6 09:12对博文 【大数据挖掘:方崔大战一年回顾】 2014-01-05 的 更正是: 去了“苦逼小崔” (白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude) ,加了中文 繁体 。 (调查时间比前一次也后了一天。) 本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twit ...个人分类: 社媒挖掘|2300 次阅读|20 个评论

 

分享【36】【大数据挖掘:转基因一年回顾】热度 2 李维 2014-1-6 05:42转基因大战提升还是损害了转基因的网络形象? 日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 ),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 ...个人分类: 社媒挖掘|439 次阅读|2 个评论

 

分享【37】【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】热度 2 李维 2014-1-6 00:54Re: 你的软件有bug。 5-7月,崔永元主要在忙公益基金的事情。 当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。 上篇挖掘 崔方大战一年的形象变化曲线 ,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in ...个人分类: 社媒挖掘|454 次阅读|2 个评论

 

分享【38】【大数据挖掘:方崔大战一年回顾】热度 4 李维 2014-1-5 18:11以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。 据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。 挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与 ...个人分类: 社媒挖掘|439 次阅读|9 个评论

 

分享【39】【大数据挖掘:中国红十字会的社会媒体形象】热度 1 李维 2014-1-4 20:27在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往 ...个人分类: 社媒挖掘|325 次阅读|1 个评论

 

分享【40】 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】热度 6 李维 2014-1-3 20:12中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢? 终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。 这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面 ...个人分类: 社媒挖掘|1235 次阅读|7 个评论

 

分享【41】【大数据挖掘:转基因英文网络的自动民调和分析】热度 3 李维 2014-1-3 18:23前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。 ...个人分类: 社媒挖掘|485 次阅读|3 个评论

 

分享【42】预告:转基因过去一年社会媒体口碑的自动民调正在进行中李维 2014-1-3 06:21将公布细节,先把 summary 发布如下:个人分类: 社媒挖掘|262 次阅读|没有评论

 

分享【43】 只认数据不认人:IRT 的鼓噪左右美国民情了么?热度 3 李维 2013-12-30 06:27套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》 当然,还有上帝: In God We Trust. In everyone else we need data. 大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也 ...个人分类: 社媒挖掘|918 次阅读|10 个评论

 

分享【44】 大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》热度 7 李维 2013-12-26 22:30走进“大数据”——洗衣机寻购记(上) 长城战略咨询 2013-04-05 阅读次数:529 分享到: 前 言 当我们准备购买一件商品的时候,品牌、功能和价格等都是我们需要考虑的因素。然而,当我们面对琳琅满目的货架,众多的品牌和多种多样的功能组合时,又让我 ...个人分类: 社媒挖掘|949 次阅读|7 个评论

 

分享【45】 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么热度 13 李维 2013-12-26 02:25既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。 这次挖掘仍然是最近一个月的英文社会媒体,区间为: GM food, 11/25/2013 - 12/25/2013 Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?): GM food genetically modified transgenic transgene geneti ...个人分类: 社媒挖掘|1827 次阅读|11 个评论

 

分享【46】 关于转基因及其社会媒体大数据挖掘的种种问题热度 12 李维 2013-12-25 07:55没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】 ),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意 ...个人分类: 社媒挖掘|1264 次阅读|13 个评论

 

分享【47】 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】热度 48 李维 2013-12-24 06:47从英文社会媒体对 转基因食品 大数据 调查 显示,其 评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。 但褒贬双方的激烈程度(passion 指标为零)远不如国内。 这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。 ...个人分类: 社媒挖掘|11191 次阅读|66 个评论

 

分享【48】Social media mining: Teens and Issues李维 2013-9-9 21:36As is well known, the teenager years are a special and important period of growth for children, or young adults, to be more precise. It is growing pain, mixed with joy. It is often a rebellious phase when both parents and teens find it difficult to communicate with each other. Thi ...个人分类: 社媒挖掘|542 次阅读|没有评论

 

分享【49】【微博自动民调:薄熙来、薛蛮子和李天一】热度 2 李维 2013-8-30 09:33Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and w ...个人分类: 社媒挖掘|898 次阅读|2 个评论

 

分享【50】池鱼失火,殃及城门:USC 足球队拖累 USC热度 2 李维 2013-8-16 23:27写了两篇舆情挖掘博文,言之凿凿说 USC (南加大) 口碑不好,因为民间舆论认定它 overrated,名不副实。有网友指出: USC跟UCLA的mentions大部分都是在講football, 譬如說overrated大部分是指football team從preseason no.1掉到unranked這件事..... 我老外了不是?从来不懂不看美式足球,于是向女儿求证,女儿看了 ...个人分类: 社媒挖掘|927 次阅读|3 个评论

 

分享【51】【社媒挖掘:加州大学舆情详析 UCLA/UCSD vs USC】热度 1 李维 2013-8-16 17:17加大(UCs)是美国有名的公立大学系统,尤其以加大伯克利(UC Berkeley)最为国内所称道。其实,加大洛杉矶分校(UCLA)也很有名,几乎与伯克利比肩。而加大圣地亚哥(UCSD)一般认为是加大的老三,据说学生过得蛮开心轻松,不象伯克利洛杉矶那么紧张,周末就驱车去墨西哥喝酒派对。最有意思的是,加大圣地亚哥在上次社交 ...个人分类: 社媒挖掘|790 次阅读|1 个评论

 

分享【52】 【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】热度 3 李维 2013-8-14 07:40今天一到办公室就被我们开发的舆情挖掘系统告知(alert),最近两天必胜客热议度急升(八月9日开始,今天为最)。是不是有什么特别事件发生? 前一阵子,他们出过一次“虾球广告”的公关危机,系统也及时发现了(参见 【社媒挖掘:大数据时代的危机管理】 ),幸亏他们处理及时,道歉诚恳,把事态平息了。今 ...个人分类: 社媒挖掘|2619 次阅读|3 个评论

 

分享【53】【自动民调:美国五所超级牛校(俗称 Magic 5)人气排名】热度 3 李维 2013-8-13 20:12接着练,看一看英文社交媒体与中文社交媒体对这五所超级牛校的人气排名是怎样的: 有意思的是,中文社交媒体的口碑普林斯顿最末;而英文媒体 普林斯顿(Princeton) 却高高在上,明显高过其他四所,虽然这所学校的中英文热议度都不如其他学校。而哈佛排名英文最末,中文也倒数第二,没想到啊。 中文口碑排名: 1 ...个人分类: 社媒挖掘|935 次阅读|3 个评论

 

分享【54】【自动民调:美国名牌大学人气排名】热度 1 李维 2013-8-12 16:46For the first time, the automatic survey of social media 1-year archive on some US brand name universities shows the rankings as follows, which are quite different from official ranking (Harvard and Caltech accidentally not included): 1. UCSD; 2.Chicago; 3. UPenn; 4. Carnegie Mellon ...个人分类: 社媒挖掘|794 次阅读|1 个评论

 

分享【55】 【社媒挖掘:大数据时代的危机管理】热度 2 李维 2013-6-28 19:46写下标题,突然意识到,这怎么看上去像是科学网超级名博陈安博士的卖瓜课题。陈博士,对不起了,不是抢您的风头,也不是砸您的饭碗,是纯粹撞车了。不是冤家不撞车,一来二去,保不定您就成了我的客户呢,也未可知。 Anyway,话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话 ...个人分类: 社媒挖掘|2555 次阅读|2 个评论

 

分享【56】 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀热度 4 李维 2013-6-21 03:18【研发笔记:粤语文句的情报挖掘】 实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。 首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人 ...个人分类: 社媒挖掘|2144 次阅读|7 个评论

 

分享【57】舆情挖掘用于股市房市预测靠谱么?热度 1 李维 2013-4-18 21:24Can social media sentiment mining be used for predicting stock/property market? I tried our Chinese system for that and it proved to be right. Is that pure luck or there is some value in using public opinions and sentiments to assist prediction of markets? 作为技术展示,曾经用中文社交媒体的舆 ...个人分类: 社媒挖掘|605 次阅读|1 个评论

 

分享【58】【舆情挖掘:房市总体看好】李维 2013-4-17 16:44回国期间我现场展示系统,问热点话题,有人说查查“房市”吧 于是我搜索了房市,无论是简体还是繁体的社交媒体,发现舆情指向都是“看好”两个大字主宰,就跟我上回查询A股类似(见 【『科学』预测:A-股 看好】 )。 因此目前似乎仍然是投资房市的好时机。 国内形势也很不错 ...个人分类: 社媒挖掘|735 次阅读|没有评论

 

分享【59】愚人节大数据演讲 无片无真 移山愚人热度 10 李维 2013-4-2 05:42就是累 累滩了 作者: 立委 (*) 日期: 04/01/2013 15:26:05 昨晚没怎么睡觉 准备 slides 讲演的 还有会谈的 再加工 讲演还好 时间是卡住了 qa 也有时间了 就是我本来是希望轻松搞笑一些的 结果还是自我感觉太严肃枯燥了些 感谢软件所孙教授,还有各位的光临 科学网四剑客,包括女侠迟菲等前来捧 ...个人分类: 社媒挖掘|957 次阅读|10 个评论

 

分享【60】【社媒挖掘:第一夫人光彩夺目赞誉有加】热度 2 李维 2013-3-25 21:03也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞 ...个人分类: 社媒挖掘|1066 次阅读|2 个评论

 

分享【61】 【社媒挖掘:“剩女”问题】热度 9 李维 2013-3-4 16:00

【社媒挖掘:“剩女”问题】

今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女 ...个人分类: 社媒挖掘|4061 次阅读|10 个评论

 

分享【62】《大数据时代的购物策略:洗衣机寻购记(3)完结篇》热度 1 李维 2013-3-3 05:30

 

Maytag Maxima 4.3 cu. ft. High-Efficiency Front Load Washer with Steam in Granite, ENERGY STAR Model # MHW7000XG 989.10/EAEachWAS989.10/EA−EachWAS1,399.0 0 LG Electronics 4.0 cu.ft. High-Efficiency Front Load Washer in Graphite Steel, ENE ...个人分类: 社媒挖掘|943 次阅读|2 个评论

 

分享【63】《大数据时代的购物策略:洗衣机寻购记(2)》热度 3 李维 2013-2-25 22:41洗衣机的选择:top loading 抑或 front loading? 作者: 立委 日期: 02/24/2013 23:35:39 本来我们是要放弃 front loading (镜先生考证,国内叫滚筒式)洗衣机,去选更容易清洁的 top loading (国内称作 波轮式 )的。可是如今大数据了,领导还是要看看二者的优劣,听听用户都怎么选择的。 于是挖掘 ...个人分类: 社媒挖掘|1067 次阅读|4 个评论

 

分享【64】 《大数据时代的购物策略:洗衣机寻购记(1)》热度 8 李维 2013-2-25 21:07ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With ...个人分类: 社媒挖掘|1996 次阅读|10 个评论

 

分享【65】【社媒挖掘:社会媒体眼中的陳水扁】草稿李维 2013-2-24 07:09系列最后个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【66】【社媒挖掘:社会媒体眼中的李登輝】草稿李维 2013-2-24 07:08个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【67】【社媒挖掘:社会媒体眼中的臺灣綠營大佬】草稿李维 2013-2-24 06:33除了在民眾輿論已經貶出局的在押阿扁外,民進黨大佬主要包括蔡蔡謝蘇(蔡英文、謝長廷、蘇貞昌),下面就看看社會媒體對這三位綠營大佬毀譽如何。 Cai COns CaiXieSuLEE LikesDislikes contr ...个人分类: 社媒挖掘|1 次阅读|没有评论

 

分享【68】【社媒挖掘:馬英九施政一年來輿情晴雨表】热度 2 李维 2013-2-23 20:07【 馬英九施政一年來輿情晴雨表 】 看點及分析: (1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會 ...个人分类: 社媒挖掘|567 次阅读|2 个评论

 

分享【69】【社媒挖掘:臺灣政壇輿情圖】热度 2 李维 2013-2-23 08:58今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他 ...个人分类: 社媒挖掘|691 次阅读|2 个评论

 

分享【70】【社媒挖掘:社会媒体眼中的米拉先生】热度 2 李维 2013-2-20 19:42

【社媒挖掘:社会媒体眼中的米拉先生】

免责声明:此片纯属戏作,敬请对号入座。 江湖上盛传的米拉先生生活素颜照 (1)先看概览,总体得分不坏嘛,20有1,是正能量,不独跌入 18层冰窖的小方 没法 望其项背 ,比 零度以下的开复老师 和韩少也强远啦: (2)网虫对镜子的情绪呢? &nbs ...个人分类: 社媒挖掘|630 次阅读|2 个评论

 

分享【71】【社媒挖掘:社会媒体眼中的李开复老师】热度 5 李维 2013-2-19 17:55

【社媒挖掘:社会媒体眼中的李开复老师】

据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公 ...个人分类: 社媒挖掘|1026 次阅读|5 个评论

 

分享【72】 【舆情挖掘:2013央视春晚播后】热度 3 李维 2013-2-15 04:50

【舆情挖掘:2013央视春晚播后】

春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从 ...个人分类: 社媒挖掘|1632 次阅读|4 个评论

 

分享【73】【舆情挖掘:年三十挖一挖央视春晚】热度 3 李维 2013-2-11 01:32【舆情挖掘:年三十挖一挖央视春晚】 日期: 02/09/2013 20:25:02 说不完道不尽的央视春晚。 一台节目三十多年来一直成为亿万人民过 年的大餐兼热门话题,这是人类历史上少有的文化现象。众口难调,央视春晚遭到批评指摘与其受到的赞扬和热议一样多。今年有了自己制造的工具,决定挖掘一下社会媒体对于春晚的舆论。 ...个人分类: 社媒挖掘|671 次阅读|3 个评论

 

分享【74】 【社媒挖掘:美国的枪支管制任重道远】热度 9 李维 2013-2-6 09:39

【社媒挖掘:美国的枪支管制任重道远】

美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥 ...个人分类: 社媒挖掘|1392 次阅读|13 个评论

 

分享【75】【社媒挖掘:《品牌舆情图》的设计问题】热度 3 李维 2013-2-3 00:57

【社媒挖掘:《品牌舆情图》的设计问题】

镜子先生在我的【社媒挖掘】专栏留言道: 褒贬度可以用别的颜色。 博主回复(2013-2-2 23:45) : 什么颜色好呢? 烈度用红色没问题。 褒贬在我们其他的图示中,是绿褒红贬。 不知道红色和绿色混合的颜色是什么(后注:黄色嘛,真是老糊涂了),可不可以用? 于 ...个人分类: 社媒挖掘|594 次阅读|9 个评论

 

分享【76】 【社媒挖掘:外来快餐店风光不再】热度 7 李维 2013-2-2 08:57

【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's ...个人分类: 社媒挖掘|1858 次阅读|9 个评论

 

分享【77】【社媒挖掘:中国手机市场仍处于战国争雄的阶段】热度 1 李维 2013-1-31 15:51

Chinese mobile phone market is found to be still in the stage of multiple vendors competing with each other with no single one clearly ahead of others. Even Apple iPhone is on a par, in terms of net sentiments and consumer passion, with HTC, Samsung, Nokia and Chinese brand Xiaomi d ...个人分类: 社媒挖掘|810 次阅读|1 个评论

 

分享【78】【社媒挖掘:糟糕透顶的方韩社会形象】热度 1 李维 2013-1-31 05:35

【社媒挖掘:糟糕透顶的方韩社会形象】

刚刚学会用图示来表达社会情绪(passion index),看看方韩一年来的总体社会形象吧,非常糟糕。 takeaways 1. 两人社会形象都相当负面,接近底线,小方更是过了冰点。事实上,小方的负面评价是如此之多,与其正面评价完全不成比例,以至于如果严格按照净情绪(net-sentiment,即正面减去负面的一个情绪指标,作为 ...个人分类: 社媒挖掘|587 次阅读|1 个评论

 

分享【79】【社会媒体:现代婚姻推背图】李维 2013-1-11 05:23

【社会媒体:现代婚姻推背图】

立委按:哈,【 爱情推背图 】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【 社会媒体:现代婚姻推背图 】。 【大众心理探究:婚姻】 日期: 01/09/2013 16:39: ...个人分类: 社媒挖掘|903 次阅读|没有评论

 

分享【80】 【社会媒体:现代爱情推背图】热度 8 李维 2013-1-10 08:31

【社会媒体:现代爱情推背图】

【大众心理探究:爱情】 日期: 01/09/2013 16:39:34 所挖掘的数据源:社会媒体过往一年(博客、论坛等) 爱情(简体)被提及三千万多次;繁体被提及 50多万次 繁简体的分别调查可以透露出大陆社区与台湾社区对待永恒话题“爱情”的有所不同的社会认知。 1. 爱情的关系概念 要点: ...个人分类: 社媒挖掘|3793 次阅读|9 个评论

 

分享【81】【微博不进门,真地急死人:关于南周事件】李维 2013-1-8 10:32不行不行,data 不够,最近一周提及南周才1万多次,没多少褒贬 什么时候微薄进来了,我就可以追踪任何热点了。 如今国内南周闹得沸沸 扬扬,我们系统中从海外 twitter 等及时更新的数据看,还没多少讨论 从这最近一周(元旦到一月八号)的数据挖掘看,主题事件(theme)倒是可以看出了 我的 中国梦& ...个人分类: 社媒挖掘|991 次阅读|没有评论

 

分享【82】【社媒挖掘:社会媒体眼中的财政悬崖】李维 2013-1-2 11:00

RE: What do these tell us more than we've known already? very good question: however, if it is known info, it confirms its validity 日期: 01/01/2013 11:11:49 it builds the users' (and developers') confidence in the automatic summerization of the computer processing of t ...个人分类: 社媒挖掘|644 次阅读|没有评论

 

分享【83】Social media mining: 2013 vs. 2012李维 2013-1-1 16:08

Let us have a look at the past year 2012, which is more associated with the hardest year in people's mind than a good/best year.个人分类: 社媒挖掘|838 次阅读|没有评论

 

分享【84】新年新打算:【社媒挖掘】专栏开张大吉热度 2 李维 2012-12-30 04:37

 

社会媒体印象(词云) 【立委按】我有一位很谈得来 ...个人分类: 社媒挖掘|747 次阅读|2 个评论

 

分享【85】【科学技术之云】李维 2012-12-29 17:55

【科学技术之云】

老朋友来函: “ 李维老师您好。社会媒体测试很有意思,我是科盲不太了解其机理,能否测试一下科学、技术等关键词,我想会有很有启发性的。谢谢。 ” 其实,我们做社会舆情自动监测挖掘的,主要是服务于企业客户对品牌形象的情报需求,着重了解客户对于品牌/产品的褒贬评价。延伸下来,也可用于热点话题的追踪以及公众人 ...个人分类: 社媒挖掘|746 次阅读|没有评论

 

分享【86】新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】热度 1 李维 2012-12-29 16:22

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【五】 方舟子和韩寒,谁的名声更臭? 关于方韩,以前做过较小规模的社会媒体测试 ( 方寒大战高频情绪性词的词频分析 ; 方韩大战的舆情自动分析:小方的评价比韩少差太多了 ), 年终了,该是扩大规模给这两位互联网枭雄盘点一下社会形象的时机了。 需要说明的是,这次的测试规模虽然较大,但是社会 ...个人分类: 社媒挖掘|863 次阅读|1 个评论

 

分享【87】新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】热度 1 李维 2012-12-29 15:11

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国 ...个人分类: 社媒挖掘|952 次阅读|1 个评论

 

分享【88】新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】热度 1 李维 2012-12-29 13:25

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

【三】 舌尖上的中国 美食纪录片《舌尖上的中国》把国人的食物和文化唱红到全世界。中国美食很火、很美。 最大的特点你猜猜是什么?不是辣,不是甜,而是 酥!个人分类: 社媒挖掘|613 次阅读|1 个评论

 

分享【89】新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】李维 2012-12-29 13:12

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

【二】 林书豪 / 林書豪 林书豪刮起的林旋风是2012一大热点,受到无数粉丝的相信、喜欢、支持和欣赏。 华人世界虽然以他的华裔背景而骄傲,他的最突出的特点却是美国人。 林书豪的伤病及恢复引起了广泛的关注。个人分类: 社媒挖掘|669 次阅读|没有评论

 

分享【90】新鲜出炉:2012 热点话题五大盘点之一【吊丝】李维 2012-12-29 12:57

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

【一】 吊丝/屌丝 吊丝男们向往的是 白富美 的 女神 ,嫉妒的是 高富帅 ; 女吊丝则向往的是 高富帅 ,嫉妒的是 白富美 。 吊丝的情绪最 为难 , 伤不起 。吊丝的印记是 注定孤独 , 哭 ,且 撸 。( 撸 何?how why? ...个人分类: 社媒挖掘|732 次阅读|没有评论

 

分享【91】WordClouds: Season's sentiments, pros & cons of Xmas热度 1 李维 2012-12-26 15:35

Most every hot topic coming to my mind these days, I will check our social media system to see how social media reflects it. Word clouds are intriguing vehicles to present the common social image. Most word clouds generated by other systems are based on statistics of keywords mentioned ...个人分类: 社媒挖掘|804 次阅读|1 个评论

 

分享【92】圣诞社媒印象: 简体世界狂欢,繁體世界分享。李维 2012-12-26 05:27

圣诞社媒印象:简体世界狂欢,繁體世界分享。

狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折!个人分类: 社媒挖掘|687 次阅读|没有评论

 

分享【93】尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?李维 2012-12-14 15:41

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有 ...个人分类: 社媒挖掘|1518 次阅读|没有评论

 

分享【94】社会媒体测试知名品牌百度,有惊人发现热度 2 李维 2012-12-13 08:54

社会媒体测试知名品牌百度,有惊人发现

今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post a ...个人分类: 社媒挖掘|888 次阅读|3 个评论

 

分享【95】【凡事不决问 social:切糕是神马?】热度 1 李维 2012-12-5 03:14

【凡事不决问 social:切糕是神马?】

鼓捣出个中文系统,尽管只是个 alpha 版,处理对象也还很有限(微薄还没进来),但也自动分析了数不清的帖子,大体的舆论情绪还是可以客观反映吧。 于是,如今遇到任何事或物,不去维基,不去百度,先去问问自家的系统,看看此物(事)在公众中的 形象/印象 如何。 这不,最近流行【切糕】,不懂这个貌似家常食品的词 ...个人分类: 社媒挖掘|815 次阅读|1 个评论

 

分享【96】【『科学』预测:A-股 看好】热度 1 李维 2012-12-4 13:37

【『科学』预测:A-股 看好】

有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续 ...个人分类: 社媒挖掘|748 次阅读|1 个评论

 

分享【97】【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】热度 1 李维 2012-11-14 07:24

【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】

哈哈,终于把 fonts 弄对了,今天测试中文系统,iPhone/爱疯 的词云满漂亮嘛 日期: 11/13/2012 17:17:43 褒贬情绪词大体都抓对了啊,是不是? 同事看到我手舞足蹈,说:香槟呢?快上香槟! 放大一点儿看仔细:这是客户对iPhone的情绪 (绿色为褒,红色为贬,社会媒体的用语果然有特色哎 ...个人分类: 社媒挖掘|720 次阅读|1 个评论

 

分享【98】奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。热度 1 李维 2012-10-18 15:54

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence 民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人 气曲线表明他几乎在所有议题上领先罗梅尼。 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经 济表现(6:55pm);二是批判他对中国不够强硬 ...个人分类: 社媒挖掘|1209 次阅读|1 个评论

 

分享【99】社会媒体舆情自动分析:马英九 vs 陈水扁李维 2012-9-29 16:51Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对 ...个人分类: 社媒挖掘|830 次阅读|没有评论

 

分享【100】方韩大战高频情绪性词的词频分析热度 3 李维 2012-9-21 06:49方 韩 大战高频情绪性词的词频分析 作者: 立委 (*) 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2% ...个人分类: 社媒挖掘|1107 次阅读|3 个评论

 

分享【101】舆情自动分析表明,谷歌的社会评价度高出百度一倍李维 2012-9-8 20:32拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a ...个人分类: 社媒挖掘|987 次阅读|没有评论

 

分享【102】方韩大战的舆情自动分析:小方的评价比韩少差太多了热度 1 李维 2012-9-8 20:11非常初步的有限范围试验表明,方韩大战(其实也没有真大战过,基本是小方的单方面攻击,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动, ...个人分类: 社媒挖掘|1552 次阅读|1 个评论

 

分享【103】研究发现,国人爱说反话:夸奖的背后藏着嘲讽热度 1 李维 2012-9-8 19:45

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In thi ...个人分类: 社媒挖掘|892 次阅读|1 个评论

 

分享【104】立委统计发现,人是几乎无可救药的情绪性动物热度 1 李维 2012-7-28 15:28立委跨语言统计发现,人是几乎无可救药的情绪性动物 作者: 立委 (*) 日期: 07/27/2012 12:58:29 最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要 ...个人分类: 社媒挖掘|1152 次阅读|1 个评论

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-758230.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

 

3  曹聪 陈辉 tuner

发表评论评论 (1 个评论)

删除 回复 |赞[1]mirrorliwei   2014-1-12 08:03
有这样的汇总好。毕业时老师在祝词中说:竹子结实、长得快,都靠结点的功劳。这样的分类也是结点。各学会也可以把流行的话题汇总为会员们提供科研的方便。

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过(屏蔽留存)

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

屏蔽已有 4784 次阅读 2014-6-16 14:57 |个人分类:社媒挖掘|系统分类:科研笔记| 跨国公司, 沃尔玛, 挖掘, 社会媒体, Walmart

最近用自家产品做了一次关于沃尔玛的自动调查,总体来看,沃尔玛这个品牌似乎蛮受欢迎的,正面评价为主,褒贬指数达到正48,是相当不错了。指责抱怨也有,主要针对一些负面事件(狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等)。进一步挖掘(drill down)发现了令人惊奇的现象:好话大多是网民自发的评价,而挖掘出来的负面信息几乎一律出自国家新闻机构(CCTV等)的报道。社会媒体挖掘的本意是自动民调,了解客户对于品牌和产品的意见,正式新闻有机构或国家宣传的因素在,是应该加以区分的。可是目前,这种区分还做得不好,很多有影响的传统媒体的新闻被反复在社会媒体中转发传播,与民意混杂在一起。

Some further analysis and findings:

 

1.       The existing data are not very large (400k mentions a year), but the results make sense with decent data quality

2.       From geos stats, we know most data on Walmart come from China (dark color) instead of overseas sources

3.       From domains stats, the data actually include data from Sina Weibo (weibo.com) and Tencent Weibo (t.qq.com) although the data flow from these two important Microblog sources is not stable at this point.  Also the domains stats show that the major domains are all from China.  I know that Walmart is a very influential brand in China and has many stores in cities of China.

4.       The net sentiment 48% is fairly high, which is reflected in the emotions stats (data quality very good): big green fonts emotional terms include  放心 (piece of mind),喜欢 (like),乐 (happy),支持/推 (support),很好 (very good), 不错(not bad),成功 (success) etc.  The negative emotional words (in small red font) are not many, including  差劲 (bad),抱怨 (complain),不喜欢 (dislike),垃圾 (garbage),很一般 (very so-so: meaning not as good as expected).

5.       In the proscons word cloud, the likes include money-saving (省钱/便宜)and first-class service(服务一流); more interesting insights come from the dislikes, including (1) fake beef (using fox meat 狐狸肉事件); (2) recall (召回some product?); (3) cheating(欺诈);  (4) scandal(丑闻) etc.

6.       In order to drill down to see what negative incidents led to the above dislikes, the Walmart_con_sample shows some related sound bites which look like negative news on some incidents:  1st sound bite reports CCTV news on Walmart’s fake alcohol and fake meat (using fox meat) incidents;  2nd sound bite reports using fox meat to fake beef and donkey meat and using chicken to fake beef in the sold burgers at its Sam’s Club;  the third sound bite reports three incidents of Walmart at different times and its apologies, including using cheap frozen meat to fake organic green food; using cheap fox meat to fake beef; and its lack of quality control in importing low quality products for sale, having issued 200 permits within 7 years for disqualified products to be on shelf.

7.       Note that the above sound bites are selectively collected to show that our system can indeed capture detailed negative incidents of the brand in the media.  When I drill down, there are quite some duplicates in our sound bites (one bad news gets re-posted everywhere);  another thing is that the negative comments are not mainly from social media users, but from news (state-run news which get posted in social media too).

8.       Unlike the overwhelming positive terms in emotions word cloud and the summary, the behavior word cloud shows more or bigger negative behavior terms than the positive terms.  This is understandable because of the heavily reported incidents as shown above in the sample sound bites.    Eye-catching negative behavior terms include “revealed”(被曝), “take to court”/”being sued”(告上法庭); “closed”(关闭); “have to take off shelf” (下架)etc.

9.       From the above negative behavior terms, I drilled down to see more details in the sample sound bites below,  which is similar to the sample discussed in 6.  These two sound bites both come from negative news of Walmart, which originated from traditional news and got spread all over Internet.  

 

中国新闻媒体对美国的跨国公司的负面报道跟民意没什么关系,倒往往由某种国际关系的大气候所致。当年为了打压谷歌,硬是给谷歌搜索按上了黄色监管不力的莫须有的大帽子,无视国内的搜索、视频和很多其他网站黄色泛滥到令人发指的露骨程度。欲加之罪,何患无辞。

不仅如此,最近还听说,由于中美相互指责对方利用网络偷窃情报,IT 业关系恶化,以至于谷歌和苹果等公司在中国遭到进一步打压,连做学问的信息利器 Google Scholar 都被封杀了。造孽啊,城门失火,殃及池鱼。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-803837.html

上一篇:世界杯是全世界的热点,纵不懂也有义务挖掘一哈
下一篇:《李老夫子遗墨》主要编纂者何秀柏后人网上留言存录

 

10  武夷山 李世春 章成志 孙平 陈筝 周云圣 强涛 高建国 fumingxu bridgeneer

发表评论评论 (13 个评论)

删除 回复 |赞[10]davidli91   2014-6-17 13:17
唠叨几句个人意见,仅供参考:

博主回复(2014-6-17 02:07):对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音,技术手段终究可以对付。
......五毛因为只拿五毛,急工出糙活,应该有迹可寻的。反过来看,一个“有实质内容”的帖子,出自五毛的可能性极低。......
......一般而言,认证客户至少要顾及自己的信誉。 ......
=====================
"凡是程序自动做的噪音,技术手段终究可以对付。"---完全同意。
而后两点,有待商榷:
因为简单粗糙的五毛评论(读者还是可以区分一点的)给"雇主"带来的不是"美誉度"而是"毁誉度",故此,做新媒体推广的广告公司中的招商文稿中往往会特别声明是“有实质内容”的,或由“大V”推广!当然,要价也高出了很多很多。
还有就是往往不是一次性集中发多少评论,而是一段时间内发多少篇等等,“定价规则”很灵活。

感觉做民调,要特别注意“沉默的大多数”,才不会走偏。

大数据<>高准确性(高可信)!

科学的做法应该是考虑样本群体与对象群体的差异才有意义,特别是在差异巨大时。
就拿大型超市而言,相信绝大多数顾客不会因为买到了一件低价的商品而去某个网络媒体给个好评(潜意识中大型超市应该低价?),只有有了矛盾,才会感到“店大欺客”,想去找个地方“说理”。因此,排除“官方噪声”,差评>>好评似乎应该是正常现象。
再拿所谓的“淘宝信用”来说,用真实的快递单(最有实质内容了)来刷淘宝店信誉已成了公开的“行业秘密”;因此,又有了“天猫”,“1号店”等等的诞生。

删除 回复 |赞[9]刘灵通   2014-6-16 17:09
李维老师,恕我愚钝,找不到线索... 最小线索都找不到。。。 
 回复  : 这就对了。这是科学网,探讨科学技术的地方。我只管技术,力求做全世界最好的技术。技术做出啥产品,产品卖得如何,无需我操心,更不用我广告。再说了,科学网这地儿,都是书生,能用得起高技术产品的,寥若晨星。

2014-6-17 01:461 楼(回复楼主)赞|回复

删除 回复 |赞[8]刘灵通   2014-6-16 15:59
"最近用自家产品做了一次" 请问李维老师,“世界杯是全世界的热点,纵不懂也有义务挖掘一哈”也是“自家产品”的杰作么? 那么这个“自家产品”能否给个线索让我了解了解.  
 回复  : 有意不做品牌宣传。不想让人觉得在做广告。
别处可以查到的。

2014-6-16 16:141 楼(回复楼主)赞|回复

删除 回复 |赞[7]davidli91   2014-6-16 15:42
[6]李世春  2014-6-16 15:36   
尖端课题,如何从大数据中剔除五毛的贡献?
=====================
确实不易,再多说一点点:
"单纯好评"的"单价"和"短文好评"的"单价"要差10倍左右。"雇主"也知道要"优质优价"的。 
 回复  : 对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音,技术手段终究可以对付。

而五毛则麻烦多了。如果人都区分不了谁是五毛,谁是良民,那么也别指望机器了。不过,五毛因为只拿五毛,急工出糙活,应该有迹可寻的。反过来看,一个“有实质内容”的帖子,出自五毛的可能性极低。怎么裁定“有实质内容”呢,信息论的指导可以帮助分类识别内容的丰富程度。这也是一条思路。

再一点,五毛由于工作的本性,是不可能成为认证用户的。在大数据条件下,也可以只采样认证客户的帖子,以确保不受水军五毛的影响。一般而言,认证客户至少要顾及自己的信誉。

2014-6-17 02:071 楼(回复楼主)赞|回复

删除 回复 |赞[6]李世春   2014-6-16 15:36
尖端课题,如何从大数据中剔除五毛的贡献?

删除 回复 |赞[5]davidli91   2014-6-16 15:30
[4]李世春  2014-6-16 15:26    楼下?
大公司也雇佣五毛?
============
五毛的主力“雇主”是财大气粗的主。不然,这个行业早死了。 
当然,“雇主”会和一个广告公司签一个XXX形象推广合同。 

删除 回复 |赞[4]李世春   2014-6-16 15:26
楼下?

大公司也雇佣五毛?

删除 回复 |赞[3]davidli91   2014-6-16 15:23
"好话大多是网民自发的评价",  您知道发一个好评多少钱吗?大公司有公关部的。 

删除 回复 |赞[2]李世春   2014-6-16 15:21
这个吗?

天知地知你知!'

删除 回复 |赞[1]fumingxu   2014-6-16 15:13
怎么挖掘的?不明觉厉!

[转载]ZT:牛津大学王宁博士:大数据与有限理性(屏蔽留存)

[转载]ZT:牛津大学王宁博士:大数据与有限理性

屏蔽已有 3069 次阅读 2014-8-16 23:10 |个人分类:社媒挖掘|系统分类:人文社科| 大数据, 牛津大学, 股市预测, 有限理性, 王宁博士 |文章来源:转载

  • 大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。

  • 云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“信息孤岛”的问题?

  • 大数据又将如何提高我们决策的准确性,帮助我们更准确地预测未来?

牛津大学互联网研究院研究员王宁博士分享了《大数据与有限理性》。

大数据与有限理性

要生存还是要毁灭,这是个值得思考的问题,它道出了我们所有人一个共同的难题,就是选择,很多人都惧怕选择,有些人有选择恐惧症,特别是面对一些关于人生、事业、爱情这种重大选择的时候,我们往往看不清楚未来,算不清楚得失,不知道该怎么选,有时候非常纠结。上至一个国家的领导人,大政方针的制定者,再至很多公司的管理层,最后到普通的老百姓,选择可能都是每天需要面对的一个问题。

人类是如何进行选择的呢?早期的经济学家认为人类是理性的,这也就是亚当·斯密在《国富论》中论述的,市场是一只看不见的手,每个人在他个体利益最大化的同时也达到整个群体的利益最大化。然而经济学家可能往往都生活在理性的乌托邦中,当我们的脑科学家在解剖,打开人的大脑后,发现人的大脑是一个异常复杂的系统,是一个复杂性网络,它可能有上亿个节点,可能是迄今为止最复杂的一个系统,正是因为它的复杂性导致了人类很多的行动都是不可知的,也是不可预测的。所以,从另一个方面讲是非理性的。

我们今天讨论的可能是一个有限理性的理论,行为经济学理论,介于理性和非理性之间,人类的理性受制于很多外部条件的限制,最重要的外部条件就是信息,你获取到什么样的信息将直接影响到你所做的选择。

2013年4月23号黑客给Twitter发布了一条虚假信息,白宫有两次爆炸,奥巴马受伤,我们可以看到美国道琼斯指数在相同的时间段应声下跌近140点,这也可能是人类历史上第一次通过社交媒体影响到整个股市行情的崩盘。

信息会影响股市的走向。波士顿大学的一个研究团队分析了从2004年到2011年道琼斯指数走势跟谷歌趋势的相关性,每次股市剧烈的变化伴随而来的都是搜索量急剧的增加。

利用这个策略,他们设计了一个基于谷歌搜索引擎的交易策略,这个策略使用的一个关键词就是“负债”。这个交易策略很简单,当搜索引擎的数据量减少的时候,我们就可以买进下一个星期的道琼斯指数,当搜索量增加的时候,我们卖出下一星期的道琼斯指数。

我们可以很明显地看到蓝色的线是谷歌的交易模型创造的,如果套用这个交易模型,最终它的投资收益率是300%,你投资一块钱,最后能够收回三块钱。红色的线就是你买了这个指数之后一直放在那儿,实际上收益是非常低的。这证明搜索引擎,包括社交媒体的很多东西能够帮助人类做很多决定,也就是今天汤道生先生谈到的怎么利用大数据帮助人类做一些决定。

相同的研究还包括一篇发表在《自然》杂志的文章,关于面向未来的指数,它做的方式是利用搜索量,比如今年的搜索量,明年的搜索量和前年的搜索量。它用明年的搜索量除以前年的搜索量,未来的数据除以过去的数据,这个数据就是基于未来的指数。

通过相关的模型,我们可以发现这个基于未来的指数跟每个国家的GDP有很好的正相关性,从另一个方面讲,当一个国家的国民或者网民更加的偏向于搜索未来的东西,那这个国家的经济情况往往是比较好的。

2012年我跟牛津大学互联网研究院(OII)的一个同事马克一起做了一个基于英国洪水的可视化分析,可以看到在大家左手边的这个是英国官方气象局的一个降雨量的分析,而右边是我们把所有的相关时段内在Twitter里跟洪水相关的信息下载了之后分布到地图上。我们可以看到在一些洪水特别泛滥的地区,我们的图形跟英国的官方的图形有很好的吻合,但是有很多地方也是没有的,可能网上没有这种信息。但是好处是我们数据是实时的,能实时分析出洪水分布的情况,官方的数据可能要等到好几个星期以后。所以,社交媒体的很多数据能帮我们做一些自然灾害预防的决策。

2012年我们做过一个关于美国大选的分析方案,当时美国有两个候选人,罗姆尼跟奥巴马,我们把所有大选之前一个月的跟罗姆尼和奥巴马相关的Twitter上的信息都下载之后,按美国每个区的分布做成了一个可视化图。大家都知道美国的总统选举是选举人制度,就是根据每个州的投票所决定的,我们在美国大选之前已经明显的可以看出网上讨论奥巴马的要远远大于讨论罗姆尼的,基于此我们预言奥巴马的胜算更大一点儿,我们把提到奥巴马的数据和罗姆尼的数据进行对比,52.4%有关于奥巴马,47.6%有关于罗姆尼。下面是大选之后官方的数据,两个数据有很大的相似性。

当时我们这个结果发布出来以后,很多政治评论家都怀疑,说罗姆尼不可能赢得马萨诸塞州的选举。而且奥巴马赢得得克萨斯州的选举也是很多人预测不到的,但是最后结果证明我们的数据对这两个州的分析都是正确的。

Facebook做了一个关于社交网络中人的行为传播的实验,号称是迄今为止最大的一个实验,分析了六千万人的样本,也是美国大选期间,每个人投过票之后可以在Facebook上发布一个消息,Facebook的分析员把人的亲疏关系分成十等,数据越大证明你跟这个人越亲密,10就代表人跟人的关系非常亲密,我们可以通过这个图看到当亲疏关系增加,人跟人的影响力也是在增长的,越亲密它的传播跟影响就会越大。这样我们每个人做的决定,不但影响到你,有可能你这个决定还会影响到别人。比如我更加倾向于投奥巴马,有可能周边的人也更加倾向于投奥巴马。

之前谈了很多大数据的应用,都是很正面的东西,这里我想提两点,大数据研究的风险。

首先,第一个风险是数据的误读,谷歌流感的分析提的很多了,特别是牛津互联网研究院维克多教授《大数据时代》的开篇就以这个案例作为大数据成功应用的典型,但是我们仔细地看这个大数据分析,2012年和2013年之间这一根红色的线就是谷歌流感的数据,绿色的是美国官方疾病控制中心的数据。在2012年至2013年的6、7月份,谷歌流感的数据远远大于疾病控制中心的数据,所以,我们如果基于谷歌的数据做一些预判、风险的预防,有可能导致预判错误,有些网上的数据有可能是夸张地显示出了实际生活的一些情况。

另外一个例子,我们进行大数据研究时,很多学者都忽略了一个最根本的问题就是偏差的问题,这是我们今年发表的一篇文章,我们研究了三个不同的数据库,针对同一种关键词用不同的方法提取,最后我们得到三种不同的数据库。我们把这三个不同的数据进行比较,然后计算各个数据跟各个数据之间的相关性,我们发现这种相关性随着时间的流逝是有变化的,也就是说从另一个方面理解,当三个不同的学者在做一个同样的研究,有可能你用不同的方法,不同的数据采集方式,最后提取的数据不同。你再基于这种数据做出很多的结论,有可能这个结论到最后是有偏差的,而这个偏差是基于数据的,有可能蕴藏于你原始的数据之中。

我们人类在很长一段时间,因为互联网到现在也就几十年的时间,针对人类上千年的历史,人类在很长的时间处于信息稀缺的时代,我们很多决定的时候可能没有信息或者信息不够,就像今天汤道生讲的是一种近似于赌博式的方法,就像中国古代早期很多占卜的方式,没有什么好选择就去占卜、抽签或者利用龟壳的方式。大数据实际上对于人类做决定最重要的影响可能就是改变了这个现状。现在我们不是在一个信息稀缺的时代,而是在一个信息过剩的时代,我们每个人所有的行为模式、方法都会被映射到网上,不但你的,还有你朋友的,社交媒体的行为模式都被映射到网上,这个数据是源源不断的,我们不再担心数据不够,而更需要担心数据过剩的问题。

在传统的人类决策模型中,每个人做一个决定,这个决定转化为信息,它转化的方式更多的通过口传心授,比如你朋友买了一个什么东西,他告诉你,然后你去买,影响到你做决定。或者通过书本的方式,我们通过读书摄取之后转化成自己的知识,通过这个方式做决定,最后形成了一个反馈回路。但是大数据时代这个反馈回路可能要进行扩展。我们有了第二层外环的反馈回路,人类做决定之后,这些所有的决定都会被转化为数据,这就是我们所说的大数据时代,所有人的行为模式,各种各样的东西通过手机、无线互联网都会被转化为数据,这些数据通过大数据分析转化为信息,然后信息给相关的决策者,决策者通过这些信息做判断,这样形成另外一层的反馈回路,通过这种反馈回路的信息数据不停地循环,最后达到一个终极目的:会不会有可能通过机器取代人的位置,人类最大的一个难题可能就解决了,不是人去做,让机器去做很多决定。

谈到机器决定,现在用数据的模式让机器做决定也是非常热的一个话题,我们觉得机器做决定可能有三步走的方式。首先,第一步很明显,人自己做决定。而现在在大数据时代,更多的是人跟机器交互做决定,比如一些常规的决定,一些比较重复性的决定,都是通过机器来做,而人去做一些机器所不能做的决定。最简单的一个例子,你去信用卡公司买东西,你地址换了,信用卡公司会发现有可能是有人盗用你的信用卡,通过数据判断出之后他把这个信息转给一个接线生或者公司员工,这个员工会给你打电话,这就是一个典型的人机交互做决定的模式,人跟你谈完话以后决定到底是不是有人盗用你的信用卡,最后会不会有可能所有的决定都会让机器来做,今天时间有限,我可以在最后再跟大家讨论。

最后我想以一句话结束我今天的演讲,“数据是一种知识源,但是除非数据进行很好的组织加工,并按照正确的方式提供给正确的人进行决策,否则它就是一种负担,不是一种收益”。

==关于我们==

大数据实验室公众平台【ID:bigdata-lab】由资深大数据方向专业人士管理运营,观点聚焦于大数据领域,大数据实验室和顶尖的研究机构和诸多企业建立合作,并 汇聚了学界、商界、业界顶尖的智囊,为开拓者指点迷津。我们将精选大数据行业内最精华的文章或报告,汇聚专业精英,促进学习交流,互相提升思维的深度、广 度和高度。

大数据实验室致力于国内大数据领域投资,凡入选的初创企业将获得大数据实验室孵化基金提供的种子资金,将会有导师协助完善他们的商业模式,建立一个完整的核心团队,并进行初步的客户反馈和验证。感兴趣的创业团队或初创企业,可以通过以下方式与我们取得**。

感谢关注公众微信:bigdata-lab

也请推荐更多的朋友关注或添加!

**方式:

邮箱:[email protected]

QQ:361993695

微信:shangjingfu_nus

网址:www.bigdata-lab.com

新浪微博:大数据实验室

也可直接在对话框内给我们留言并留下您的**方式。

来源:http://chuansongme.com/n/588516 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-820065.html

上一篇:是家具?还是家俱?这是个问题
下一篇:到底社媒曲线与股市曲线有没有、有多少相关度?

 

1  张云

两年来中国红十字会的社会媒体形象调查(屏蔽留存)

两年来中国红十字会的社会媒体形象调查

屏蔽已有 3948 次阅读 2014-9-21 18:27 |个人分类:社媒挖掘|系统分类:科研笔记| 形象, 中国红十字会, 社会媒体

让数据说话,让专家解读。这里提供的是数据的各个侧面,是全自动对社会媒体调查的结果,没有人工参与。

调查的是2012年七月至今两年多(27个月)社会媒体样本对中国红十字会的评价(因为微博数据的 cost 很大,不能选择全样本)。虽然其间出了很多负面新闻,但总体形象分 net-sentiment 41% 显得相当正面,这一方面说明其公关危机处理可能有成效,另一方面很可能是得益于红十字会本身的慈善任务及其天生光环(下面有分析)。

148,889           Mentions
45,866,471      Potential Impressions
41%                  Net Sentiment
16,454              Positive
6,831                Negative
47,405             Unique Authors

从话题热度看,2013年五月是个大高峰,今年八月是个小高峰。从舆情看,去年七月跌得很惨,九月到谷底,另一个低点是今年七月。

我们先把调查聚焦在前后两个高峰区段,看看前后舆情的变化。

第一个区间选在去年四月到九月。

第二个区间是 7/7/2014 - 9/13/2014

现在我们回到过去27个月的总体调查数据上来,下列的信息挖掘都是过去两年多的数据基础上,有别于上面的两个时间区间。

2 相关关键词和话题:

3 网民情绪

舆情分析的指标之一是网民情绪,从下图看,情绪方面很激愤,中国红十字会受到很多“谴责”和“质疑”,骂他们“狗血”和“太臭”。

4 行为方面的挖掘也很不利,这个组织的慈善体系被郭美美等一干事件“摧毁”了。那个看上去正面的“接受(最大量的捐款)” 行为,drill down 看在语境中也是负面的,讽刺这个慈善组织的老大得钱最多,可做得很差。

行为这项指标也不及格。那么为什么总体评价还是正面多于反面呢?那是因为下面的优劣指标的比例造成的。

5 优劣指标抓取的是喜欢或厌恶的具体理由,这一方面是东风压倒西风,绿多于红:

需要说明的是,红十字会作为慈善组织,从本性和使命上说,它有天生的光环。提到红十字会,最多报道的是他们的“救灾”、“捐赠”等善举。加上一些媒体公关的正面宣传,这就把批评意见压倒了。

仔细看正反优劣的舆情评价,发现表扬的都是它的日常工作和套话,而批评的却辛辣得多,“饱受争议”、“侵吞”、“渎职”、“一落千丈” 等等。这样看来,前面的总体形象指数是偏高了。

6 这次调查的网民地理分布:自然是国内为主,但世界各地的华人都有不同程度的议论参与

7 此话题网民的男女比例:还是男网友吐槽多得多

8 关于数据来源和分布:

其中主要论坛:

主要的部落格是

主要的新闻类网站

前面说过,最重要的来源微博由于数据代价的问题,无法加入,这是一个相当的遗憾。另外,新闻类比重过大,可能冲淡了来自草根网民的舆情。前者只要有钱就可以弥补,不是系统能力的问题,而是研究项目谁买单的问题。后者在数据量大的时候,可以很容易排除掉,或分别考察对比。其实还有一个地理区分的角度,海外与国内舆情应该分开,这个也容易。业余做这个调查,懒得花更多时间了。

9. 吐槽样本

索性再花点时间把郭美美事件及其对红十字会的影响的民意舆情调查一下吧:

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-829629.html

上一篇:Social media mining on credit industry in China
下一篇:全球社交媒体热议阿里巴巴上市

 

5  周健 武夷山 王秀玉 XuexingLu bridgeneer

发表评论评论 (5 个评论)

删除 回复 |赞[4]王秀玉   2014-9-30 12:25
这个报告用了大量数据,说明中国红会在这27个月来的努力是有数据可查的!

删除 回复 |赞[3]王秀玉   2014-9-30 12:17
   太好了!

删除 回复 |赞[2]XuexingLu   2014-9-21 19:57
官方不说实话, 你猜也是白猜

删除 回复 |赞[1]周健   2014-9-21 19:12
李老师的软件很牛啊,赞!什么地方可以了解你的软件的更多信息?
 回复  : 谢赞。官网不做广告,不谈生意。总之是不便宜,目前这个模式知识分子一般使不起(零散的小生意不做)。

2014-9-21 20:171 楼(回复楼主)赞|回复

社媒挖掘:央视的老毕(屏蔽留存)

社媒挖掘:央视的老毕

屏蔽已有 3138 次阅读 2015-4-9 16:57 |个人分类:社媒挖掘|系统分类:人文社科| 毕福剑

Chinese TV star Bi Fujian caught on tape privately insulting Mao, which triggered a huge political debate in social media between the leftist and the rightist.  China is presently stuck between post-Mao era entering modern society with limited speech freedom (at least on private occastions) and the totalitarian government inheriting Mao's legacy, hence the regulatory pressure to the star himself suspending his job for 4 days. Bi's speech would have made him sentenced to death or life in prison in Mao's time.

这两天微信老有提到他,今晚美国中文电视也报道了,据说社会媒体闹翻天了,于是想到做个舆情自动调查。

本来是私底下对毛时代和毛本人的打趣开涮,没想到闹到了网上,加上这个话题对于左右两派的敏感性,一下成了热点。

下面是针对内容商给我们提供的一周简体中文社会媒体(可惜,不含微信:万能的微信,你什么时候在不侵犯隐私的情况下开放哪怕部分数据,好让民情上达周知?)的自动调查结果,用的是咱独家自然语言挖掘技术。

负面多于正面,老毕形象严重受损:

wow 够上纲上线的,倒退四十年,老毕有十个头也不够杀的:

一周的媒体热议曲线:

看一周褒贬度的图示如下,毕姥爷的社会媒体形象陡然下跌:

下面是一周的情绪烈度图,可见正反吐槽越演越烈:符合咱老中爱吵架的习惯

吐槽样本:

旗帜鲜明支持毕福剑!

你们可以继续喜欢毕福剑。

[哈哈] 毕福剑老好人?

旗帜鲜明支持毕福剑!

毕福剑没错

毕福剑快去死吧!

毕福剑, 骂的客观!

十分认真地支持毕福剑先生

立场坚定支持毕福剑!

毕福剑无罪

不喜欢毕福剑, 老流氓架势

鄙视毕福剑

毕福剑该死

毕福剑作死啊

支持毕福剑

毕福剑, 变化多端.

毕福剑火了!

毕福剑该出来道歉

感谢毕福剑敢于捅破了窗户纸

狗操的毕福剑, 去死吧

毕姥爷瞎说什么大实话

毕福剑交友不慎啊。

毕福剑为什么辱骂毛泽东?

毕姥爷叛国了·

毕福剑明天就死。

毕姥爷作死啊!

毕姥爷瞎说啥实话

应该引起重视, 坚决批判毕福剑。

支持毕福剑!

支持毕姥爷

央视的毕姥爷这下更火了。

毕姥爷威武

特别讨厌毕福剑

cctv就是仃办也不能再用毕福剑这样的流氓主持。

毕福剑此事定义准确!

毕福剑是民族英雄, 不畏强暴。

严惩辱骂毛主席的毕福剑

难道毕福剑真能一手遮天?

毕姥爷还是很有才的

毕福剑真的死了吗。

毕姥爷是在嫖娼吗

毕姥爷又火了一把

[哈哈] 毕福剑现象, 中央应该反思!

毕福剑言论不雅视频竟口无遮拦公然骂毛泽东

网上舆论因此哗然, 纷纷指责毕福剑当面一套, 背后一套。

毕福剑是真正男子汉, 正直中国人全支持他.

[哈哈] 毕福剑这样的党员在为谁歌唱!

毕福剑诋毁伟人和先烈必须严惩

[哈哈] 毕福剑的酒桌表演为什么不能容忍?

只怪毕福剑交友不慎, 好事者用心不良。"

这是毕福剑作死的节奏。

毕姥爷叛国了···

毕福剑并非第一次"惹事"。

不作死就不会死毕福剑原形毕露, 就是老兵里的垃圾。

毕福剑言论不雅视频, 竟口无遮拦公然骂毛泽东。

狗操的毕福剑, 被车撞死了。

我喜欢老毕

东北人支持毕福剑

开始支持毕福剑了

强烈要求央视开除侮辱谩骂毛主席的坏蛋毕福剑!

很喜欢毕福剑。

赞毕姥爷!

毕姥爷威武!

从此鄙视毕福剑......

从此鄙视毕福剑!

看来毕姥爷央视的饭碗堪忧。

[哈哈] 有人说毕福剑是酒后吹牛逼不必上纲上线。

毕福剑骂的太好了, 比我骂的有影响力。

喜欢这条评论毕福剑诋毁伟人和先烈必须严惩

话糙理不糙, 支持“毕姥爷”!

我还是觉得毕姥爷厉害来自QQ浏览器快速回帖

谁敢处分毕福剑必无好下场.

毕福剑的酒桌表演为什么不能容忍?

毕福剑嫖娼的日子不远了。

毕福剑公开侮辱人不用负责任吗?

面对公众人物毕福剑的信口开河你怎么看

毕福剑是媒体人的光辉榜样。

毕福剑侮辱领袖必遭鞭刑。

毕姥爷的形象瞬间伟岸起来。

毕福剑无罪, 发视频的应该重判

毕福剑, 死啦死啦的。

你毕福剑应该向全国人民谢罪...

毕福剑毕姥爷交友不慎遇人不淑, 被人陷害于不仁不义。

官媒: 毕福剑侮辱开国领袖应受公众的谴责图

央视大腕不能人模狗样毕福剑是媒体人的光辉榜样。

央视对毕福剑处理的越严重, 毕福剑的声誉就会越高;

毕福剑万岁, 万万岁.

 

资料来源:

【相关】

社媒挖掘:老毕私下辱毛事件再挖掘 2015-04-12

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-881109.html

上一篇:吐槽系列:企业的良心,消费者的鉴赏水平
下一篇:下周二在哈佛医学院应邀给个大数据挖掘talk

 

5  刘全慧 戴德昌 陈辉 yangb919 bridgeneer

发表评论评论 (4 个评论)

删除 回复 |赞[2]yangb919   2015-4-10 09:22
现在看来,此事很不简单 

删除 回复 |赞[1]yangb919   2015-4-9 17:08
倒退四十年,老毕成了老毙 
 回复  : 对于文明社会,这种私下调侃无论怎么过激根本就不是事儿。偷拍并散布的人才是别有用心的小人(据传有敌情?)。当然,这些调侃的确会触犯不少思想或感情停留在毛时代的人,引起反弹是必然的。

2015-4-10 07:241 楼(回复楼主)赞|回复
 回复  : 做个不甚恰当也不离谱的比较,当年璩美凤的性爱光碟也是如此,璩美凤本人的私生活被偷拍,本来不是事的璩小姐的私生活被不良记者刊物广为渲染传播。

2015-4-10 07:342 楼(回复楼主)赞|回复
 

社媒挖掘:老毕私下辱毛事件再挖掘(屏蔽留存)

社媒挖掘:老毕私下辱毛事件再挖掘

屏蔽已有 3570 次阅读 2015-4-12 00:22 |个人分类:社媒挖掘|系统分类:人文社科| 央视, 主持人, 毕福剑, 开涮

毕福剑事件持续发酵,今早起来再做一次中文简体社会媒体的自动民调,发现有些微妙的变化。

我把两天前的调查曲线图(区间是四月二号到四月九号)拷贝在下与现在做的(区间是四月四号到四月11号)做个比较。

(1)热度:

四月二号到四月九号媒体热度曲线图

四月四号到四11号媒体热度曲线图

(2) 媒体形象趋向:

褒贬曲线(net sentiment)对比发现毕姥爷形象大损后,四月九号到低谷,这两天又开始显著回升

怎么回事?公关道歉开始收效,还是右派群众(挺毕派)开始有效反击?

四月二号到四月九号媒体褒贬曲线图

四月四号到四月11号媒体褒贬曲线图

(3)情绪烈度变化图:最奇怪的是吐槽情绪本来越演越烈,两派互骂炽热化,居然从四月九号开始明显收敛,是网众重归理性,还是过激帖子被批量删除?

四月二号到四月九号媒体情绪烈度曲线图

四月四号到四月11号媒体情绪烈度曲线图

相关:

社媒挖掘:央视的老毕 2015-04-09

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-881701.html

上一篇:吐槽系列:企业的良心,消费者的鉴赏水平
下一篇:下周二在哈佛医学院应邀给个大数据挖掘talk

 

2  武夷山 bridgeneer

发表评论评论 (3 个评论)

删除 回复 |赞[3]huangnigang1   2015-4-12 04:01
史上第一个告密者:商纣王时代的崇侯虎

http://news.ifeng.com/history/minjianshuoshi/hemufeng/detail_2009_12/16/320005_0.shtml

删除 回复 |赞[2]huangnigang1   2015-4-12 03:14
武则天有一阵子禁止屠宰牲口。有个叫张德的右拾遗,因为喜得贵子,便违禁宰了头羊,宴请朋友同事。同事中有个叫杜肃的,吃了一顿之后就跑去向武则天告密。第二天朝会,女皇将杜肃的告密信交给张德,然后告诉他:卿今后请客,还是小心一点,那种前头吃了好酒菜一转身就去告密的小人,就不要请了。

删除 回复 |赞[1]eat   2015-4-12 01:56
还来啊,外松内紧,这阶段骟贴疯狂您没看到?那个当心小王爷暴怒了出去抓人杀了炖。

【社媒挖掘:不朽邓丽君】(屏蔽留存)

【社媒挖掘:不朽邓丽君】

屏蔽已有 5476 次阅读 2015-5-10 22:59 |个人分类:社媒挖掘|系统分类:博客资讯| 邓丽君, 社会媒体

邓丽君逝世20周年,中港台日美社会媒体热议纪念一代歌后

The pop queen Teresa Teng passed away 20 years ago and her songs remain popular in the Chinese communities all over the world. Social media from Taiwan where she was born, from Mainland China, from Hong Kong, from Singapore, from Japan, from US and other parts of the world are full of all kinds of commemoration of her life and songs in Mandarin Chinese, Cantonese, Japanese and English. See the results of our multilingual text mining for how dearly she has been loved and remembered across generations of Chinese in Asia and around the world.

先看最近一周的社会媒体热议:

下面是排山倒海的纪念

(说明:去世等词通常被认为是负面的词,用红色,但这里是在20周年纪念的上下文中,不应视为贬义)

再看过去27个月的挖掘结果:

喜欢的理由主要是:邓丽君的歌,好听,柔情,甜美清純,《甜蜜蜜》,经典,动人,老少咸宜,百听不厌。也有个别不喜欢她的,提到的有靡靡之音和庸俗,这是音乐口味问题,还有她吸毒致死的传闻,不知真假。瑕不掩瑜,即使由于生活寂寞苦恼而吸毒,邓丽君的总体形象还是光彩照人,是很多人心中的不朽女神,她的歌曲及其演绎是华人乐坛经久不衰的真正经典。

社会媒体样本(去除重复帖,压倒性的怀念赞美,只有极少数的负面帖子,表示不喜欢她的靡靡之音,也有提到她吸毒过量):

紀念鄧麗君逝世20周年!

邓丽君永不朽

纪念邓丽君

喜欢邓丽君

邓丽君好听啊

邓丽君我妈年轻的时候喜欢

怀念邓丽君, 不幸的女子

邓丽君甜蜜蜜

喜欢邓丽君的歌, 百听不厌

邓丽君经典

大爱邓丽君

邓丽君亮咯

邓丽君挺好

邓丽君好听!

喜欢邓丽君的甜美声音

Great voice of Teresa teng.

邓丽君最萌

相反对邓丽君感觉一般...

邓丽君qq 多年经久好听

我初恋也爱邓丽君

怀念著名歌星邓丽君

看到邓丽君果断顶帖

邓丽君歌曲最得意的粉丝

最爱邓丽君

懷念鄧麗君

テレサ・テン好き

挚爱邓丽君

都喜欢邓丽君熬

邓丽君百听不厌

甜蜜蜜, 想念邓丽君。

红颜薄命, 怀念邓丽君小姐

テレサ・テン最高

邓丽君唱歌好听很我擦。

喜欢邓丽君, 加上无聊消磨时间

邓丽君金门劳军

鄧麗君果part 好正啊!

邓丽君真是机智

テレサ・テンのPVヤバい

支持邓丽君

邓丽君牛

有如邓丽君般低调的华丽

挚爱邓丽君

このあと、SONGS「テレサ・テン」楽しみやな。

次回SONGSはテレサ・テン特集、楽しみ #nhk

王菲献唱纪念邓丽君

テレサ・テン好き

谢谢邓丽君

邓丽君好漂亮

邓丽君100分

邓丽君生前珍贵照片曝光

邓丽君无与伦比

邓丽君, 无可替代!

邓丽君逝世20周年

邓丽君当然是好人

邓丽君的都行

邓丽君落伍吗?

邓丽君怎么去世的

鄧麗君很漂亮。

邓丽君是我的挚爱

鄧麗君好型!

邓丽君md是亮点

邓丽君的很精美

还邓丽君清白!

邓丽君很有成就

还是邓丽君靓!

鄧麗君真係好掂

那个邓丽君好难听

邓丽君影响力最大。

鄧麗君最靚聲

鄧麗君有用過...

邓丽君是精神启蒙老师

美丽人物: 邓丽君

邓丽君逝世纪念日...

邓丽君死得不明不白

邓丽君也行......

以此支持楼主发起纪念邓丽君的活动。

喜欢邓丽君的歌弹的真不错!

我喜欢邓丽君, 死掉了;

纪念邓丽君逝世二十周年!

经典的歌曲, 怀念邓丽君。

年轻时候我最喜欢邓丽君。

我喜欢邓丽君, 死掉了;

萨达阿萨德了空间爱上邓丽君

喜欢邓丽君的歌, 好拍

邓丽君是我最喜欢的女歌手

我喜欢邓丽君, 病死了;

经典的歌曲, 怀念邓丽君!

咱不能强迫别人喜欢邓丽君。

没说的就是喜欢邓丽君的歌!

Another great song by Teresa Teng.

推 jacklee340: 鄧麗君無誤 03/16 16:17

我并不喜欢邓丽君的声音啊

我喜欢邓丽君, 好好听啊

不错的老音乐喜欢邓丽君

整個假鄧麗君公仔, 有咩意思?

邓丽君是亚洲人钟爱的歌手。

妖精邓丽君很漂亮啊...

我最喜欢唱邓丽君的甜蜜蜜

有点邓丽君的感觉[呵呵]

怀念邓丽君, 谢谢好音源

邓丽君的歌我欣赏不了啊

俺也是邓丽君的忠实粉丝!

我爸是邓丽君的忠实粉丝

喜欢邓丽君, 祝福赵四海。

蒋勤勤爱好邓丽君死掉了,

那年代邓丽君的歌是靡靡之音

テレサ・テンの曲いいね~。

邓丽君绝对的第一名, 无争议

楼主不喜欢邓丽君的歌么

邓丽君成为年轻人崇拜的偶像。

NHK SONGS テレサ・テンを見るなう。

鄧麗君逝世20年將辦虛擬人紀念演唱會 wp.me/p4oKX8-2OXx

1月12日广州将上演纪念邓丽君演唱会;

歌词写得美, 邓丽君唱得更美。

謝安琪獻唱金曲紀念鄧麗君:  youtu.be/uiScrF13yrQ?a via @YouTube

一代歌后邓丽君去世。

鄧麗君的歌聲真是好聽

总算找到邓丽君高清了

邓丽君泳装身材凹凸......

哥哥鄧麗君有冇咁紅

邓丽君有些太大气了

邓丽君最受欢迎的歌曲

研究邓丽君值得一看

邓丽君火到日本。

邓丽君死了多少年!

邓丽君是菲菲偶像...

这个邓丽君非常唯美。

當然鄧麗君都好聽啦

邓丽君更漂亮哈哈

邓丽君的太难听了

邓丽君还是很明智的

Teresa Teng is alive.

邓丽君怎么死的?

鄧麗君版最紅

邓丽君死好早!

别样邓丽君好听!

邓丽君温婉甜美。

邓丽君去世的早。

回味邓丽君百听不厌!

邓丽君温婉甜美。

还是原版邓丽君好看...

支持邓丽君的粉丝们

感觉邓丽君好亲切啊

邓丽君猝死之谜

邓丽君的歌声很甜美

邓丽君很漂亮啊...

邓丽君剥削谁了?

邓丽君不是自杀的吗

以前邓丽君很红的

这个邓丽君, 也漂亮

邓丽君就是流行歌手啊

邓丽君是中华优秀儿女

邓丽君因吸毒过量而死

一代歌后邓丽君去世。

很好听的曲子, 怀念邓丽君!

但是不阻碍我喜欢邓丽君呀!

邓丽君の歌、お勧めです。

DVD 倾城怀念邓丽君2005现场音乐会。

............

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-889203.html

上一篇:【社媒挖掘:成都暴打事件中的男司机和女司机】
下一篇:大数据淹没下的冰美人(之一)

 

8  罗德海 刘全慧 许培扬 李颖业 戴德昌 徐晓 王林平 bridgeneer

发表评论评论 (2 个评论)

删除 回复 |赞[2]dollge   2015-5-13 13:00
那年代她的歌声一统华语江湖哦

删除 回复 |赞[1]李颖业   2015-5-11 12:03
邓林逐日迹,
丽景馈娉婷。
君志如夸父,
余音绝唱萦。

大数据淹没下的冰美人(之二)(屏蔽留存)

大数据淹没下的冰美人(之二)

屏蔽已有 3216 次阅读 2015-5-13 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 范冰冰, 挖掘, 社会媒体

女神 or 妖精,总之不似人类

好,我们开始范冰冰的社媒深度挖掘,看看网友都怎么说她。

先看网友的赞美(绿字体)和吐槽(红字体)等情绪化评语的词云分布,显然是东风压倒西风:

分类总结前五类情绪评语如下。

先看赞誉,毫无悬念,迷恋她、惊艳其美和粉丝的溢美之词占绝大多数,见(1)(2)(3):

(1)   喜欢, 爱,迷恋, 羡慕, 中意, 享受, 怀念, 惊喜,飞吻,?,相中, 看中

(2)   QQ, 粉丝,给力,成功,最强,很火,不错,很好,最佳,可爱,受欢迎

(3)   美, 美爆, 绝美, 女神, 传奇, 完美,逆天,耀眼, 精彩, 更胜一筹

(4)   倾国倾城,性感,威武,强大,厉害,独特, 优雅, 经典, 华丽

 

(5)   支持, 欣赏, 赞, 夸赞, 看好, 期待, 关注

有意思的是(4)中系列形容词所发出的信息:把倾国倾城、性感厉害、优雅华丽与威武强大等集合起来,在当今华裔女星中是不多见的,她反映冰小姐的御姐女皇范儿给观众留下的印象,她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。

各花入各眼,萝卜青菜各有所爱,她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物,在排山倒海的网友和粉丝的赞誉中,自然也不免被吐槽,也分五类如下:

 

(1)   不喜欢, 吐槽, 讨厌, 抱怨,烦, 骂, 恨, 气,不爱, 不欣赏, 不羡慕,失望, 无语, 受不了,无法忍受,
   大跌眼镜,大失所望

(2)   质疑, 怀疑, 鄙视, 讽刺, 嘲讽, 不接受, 批评, 不关注, 抵制, 看不上, 看不惯,不看好,看不起

(3)   不美, 不好, 差, 破, 不怎么样,不完美, 不行, 没多美,没有我美,算不上一流,一无是处, 不给力

(4)   低能儿蠢货, 不要脸,我操,垃圾,变态,傻逼,坑爹,这么狗血,最不要脸, 恶心,鸡肋,操, 吓人,
   美个屁,挖鼻屎,白痴,二货

(5)   还不如现在的张馨予,还不如穆婷婷可爱,太胖,臃肿,

第一类表达各种程度的不喜欢不欣赏,第二类是各种鄙视看不惯,第三类酸溜溜的多少带有嫉妒的不屑,这些大多是口味问题,或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了,这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映,你美了就骂你蠢,你急智就骂你丑,总之是无冤无仇也要骂娘,特别是要骂名人。倒是第五类的负面信息最为具体,说她不如张美人穆美人(张穆都是啥妖精,怎么从来没听说过,演过啥,没有一丝印象),说她太胖臃肿,虽然明显有偏见,却也不是空穴来风。

为了过来看看

@素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱...

人总是健忘的 RT @zmt0516: 记得当年范冰冰的名声还不如现在的张馨予,现在已经被公关团队刷成女神之神了。。。

#freedom #民主 范冰冰黄裙现身体态臃肿 群众爬墙头睹芳容 组图 http://t.co/xprlcS1RdE 

总体来看,情绪化用语无论正面负面,大都当不得真,只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由,为什么喜欢或者不喜欢她?这类细线条的深度舆情挖掘,我们留待下一篇博文给您提供。

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一) 

大数据淹没下的冰美人(之三): 喜欢的理由 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五):  星光灿烂谁为最?

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Chinese First Lady in Social Media (屏蔽留存)

Chinese First Lady in Social Media

屏蔽已有 3139 次阅读 2015-6-14 14:40 |个人分类:社媒挖掘|系统分类:科研笔记| first, Lady, Peng, Liyuan

The personal story aside, Chinese social media are never short of coverage and fans of Chinese First Lady Mrs Peng Liyuan in the last few years.  For too long China watched the western media covering first ladies in the US and other countries without being able to brag about its own.  Since Mrs. Peng went on the spotlight and accompanied Chinese President Xi Jinping on world trips, the Chinese netters have been overjoyed to follow her all the way with compliments and amazement in her gracefulness.  Mrs. Peng has been a star in the Chinese music industry for decades and knows how to present herself in the public.  A more recent story came from APEC last year when the Russian president Putin was seen to stand up, gracefully placing a blanket around the shoulders of Chinese First Lady, too gentleman an act that triggered waves of online comments.  

Using our own text mining tool, we collected one year Chinese social media data to see what the public image looks like for the First Lady.  Overwhelming praises and admiration, on her grace, intelligence and personality, with almost no negative comments. The only eye-catching criticism that was uncovered involves early days of Peng Liyuan "wearing fat army trousers (穿肥大的军裤)", which seems not to be something that agrees with first lady's image in people's mind. (It turned out that this was a story about the First Lady's dating the president long ago when she wanted to test the present if he was only attracted to her appearance by wearing not as nice on purpose.  The story got spread all over the net.)  But look at the Photo News today, First Lady is now leading the fashion trend of China.

Related:

Peng Liyuan, China's glamorous new First Lady - CNN.com

科学网—【社媒挖掘:第一夫人光彩夺目赞誉有加】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

隐藏已有 2364 次阅读 2013-3-25 21:03 |个人分类:社媒挖掘|系统分类:博客资讯| 第一夫人, 彭丽媛

也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞美和聚焦。

这是一年以来社会媒体对第一夫人评价的词云,几乎一面倒的赞誉。唯一一条比较显眼的批评是彭丽媛不知何时何地曾经“穿肥大的军裤”,似乎影响了人们心目中的形象。可是看看近一周的图片新闻,第一夫人如今的穿戴是如此高贵大方,引领潮流!

下图展示了三个月来大众对第一夫人的热度(净情绪)曲线,可见多数时候居高不下,更在二月20号左右达到100%的顶点。如此的高评价,在我对各种人物和品牌所做的系列自动媒体调查中,这是绝无仅有的。

这是近一周的媒体评价。

【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。

        

I showed the First Lady's news pictures to my daughter.  Tanya was so intrigued, "Dad, Mom told me that you used to teach First Lady many years ago, is that true?"  "It is true, but that was only a short time, one or two semesters, and it was not her major subject.  As a part-time lecturer, I was teaching Advanced English to graduate students in the music conservatory and she happened to be one in my class.  She was already famous then as a new star for folk songs."  Tanya got excited, "Well, you never know, maybe her English training in graduate school helps her in state visits today.  My Dad is cool."  She continued, "Dad, Mom also told me that you were interpreter for foreign minister when she dated you, is that true?"  "Well, that was largely an accident, only happened once when I substituted some professor to act as interpreter for the former foreign minister and former Chinese congresss vice-chairman Mr. Huang Hua.  Your Mom agreed to date me partially because of her seeing a picture of me interporeting for Mr. Huang.  So I guess I benefited from that 'accident'."  Tanya was amused and felt very proud, "I have the coolest Dad in the world. He was so successful even when he was young, teaching future first lady and interpreting for the then foreign minister.  Wow"  

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-673923.html

上一篇:吴-程有关5次方程根式解的论争
下一篇:101 我来啦

 

8  曾新林 蔣勁松 武夷山 刘洋 周素勤 翟自洋 曹聪 bridgeneer

发表评论评论 (1 个评论)

删除 回复 |赞[1]曹聪   2013-3-31 14:56
Don't know whether the First Lady still remembers you.

【社媒挖掘:美国大选候选人大战(1):川普很臭】(屏蔽留存)

【社媒挖掘:美国大选候选人大战(1):川普很臭】

屏蔽已有 6 次阅读 2016-3-18 04:11 |个人分类:社媒挖掘|系统分类:海外观察| 大数据, 美国大选, 川普, 挖掘, 社会媒体

这阵子一直忙于调试系统,好久没顾上做热点话题的舆情调查了。老友一直催我用大数据追踪一下美国总统大选。今年的美国大选,情势诡异,尤其是杀出一个不按常理出牌的共和党的川普,不少追随者粉他,恨他的人也很多。

这是几天前(周二前)做的美国大选半年以来的英文社会媒体的大数据调查,直到今天才得空整理上网分享。先给一个一个过去半年的大数据总结图。

人气评价(Net Sentiment)最高的是民主党的 Bernie,褒贬指数高达正45%,把其他对手远远抛在后面,第二名 Marco 21%,Beinie 的一半还不到,评价最差的是川普 6%.

难怪我女儿是 Beinie 的铁杆粉丝,不断催促我们给 Beinie 投票,不要让希拉里出线。我:
而话题大王,则非川普莫属,一亿五千多万的 mentions,23兆860多亿的眼球数,瑶瑶领先。
第二名的 Ted (眼球数8兆)只有眼球大王川普的三分之一
可见川普这个美国政坛的怪物掀起了怎样的一个风暴
普这个美国政坛的怪物掀起了怎样的一个风暴

http://blog.sciencenet.cn/blog-362400-963290.html

上一篇:【NLP笔记:人工智能神话的背后是汗水】
下一篇:【新智元笔记:强弱人工智能之辩】

 
 

收藏

【关于舆情挖掘】(屏蔽留存)

【关于舆情挖掘】

屏蔽已有 3088 次阅读 2016-7-2 07:00 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 社交媒体, sentiment, 舆情挖掘

 

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

       Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season's sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

《朝华午拾》总目录

【关于立委NLP的《关于系列》】

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

 

【社媒挖掘:川大叔喜大妈谁长出了总统样?】(屏蔽留存)

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

屏蔽已有 4780 次阅读 2016-10-26 02:29 |个人分类:社媒挖掘|系统分类:海外观察| 特朗普, 美国大选, 川普, 社煤挖掘, 自动民调

眼看决战时刻快到了,调查一下华人怎么看美国大选,最近一个月的舆情趋势。中文社会媒体对于美国总统候选人的自动调查。

aaa

先看喜大妈,是过去三十天的调查(时间区间:9/26-10/25)
summary-metrics-new-3
mentions 是热议度,net sentiment 是褒贬指数,反映的网民心目中的形象。

summary-metrics-6
很自然,二者并不总是吻合:譬如,在十月10日到11日的时候,希拉里被热议,而她的褒贬指数则跌入谷底。那天有喜大妈的什么丑闻吗?咱们把时间按周(by weeks)而不是按日来看 trends,粗线条看趋势也许更明显一些:

summary-metrics-7
Anyway,过去30天的总社煤形象分(net sentiment)是 11%,比起英语世界的冰点之下(-18%)好太多了,似乎华语世界远不如英语世界对老政客喜大妈的吐槽刻薄。

作为对比,我们看看川普(特朗普)在同一个时期的社会形象的消长趋势:川普过去30天的总社煤形象分(net sentiment)是 -12%,比希拉里的+11%成鲜明对比。

summary-metrics-8

看上面的趋势图(by weeks),川普的热议度一直居高不下,话题之王名副其实,但他的社会评价却一直在冰点之下,十月初更是跌入万丈深渊。同时期的希拉里,热议度与社会评价却时有交叉。趋势 by days:

summary-metrics-9

这样看来,虽然有所谓华人挺川的民间鼓噪,总体来看,川大叔在华人的网上口水战中,与喜大妈完全不是一个量级的对手。川普很臭,真地很臭。在英语社煤中,川普也很臭(-20%),但希拉里也不香,民间厌恶她诅咒她的说法随处可见,得分 -18%,略好于川普。譬如电邮门事件,很多老美对此深恶痛绝,不少华人(包括在下)心里难免觉得是小题大作。为什么华人世界对希拉里没有那么反感呢?居然给希拉里 +11% 的高评价。朋友说,希拉里更符合华人主流价值观吧。

这是我们的品牌对比图,三维直观地对比两位候选人在社煤的形象位置:

brand-passion-index-10

希拉里领先太多,虽然热议度略逊。

总有人质疑社煤挖掘的情报价值,说也许NLU不过关,挖掘有误呢。更多的质疑是,也许某党的人士更愿意搅浑水呢(譬如利用水军或机器人bots)。凡此总总,都给社会媒体舆情挖掘在多大程度上反映民意,提出了疑问和挑战。其实,对于传统的民调,不同的机构有不同的结果,加上手工民调的取样不可能大,error margin 也大。各机构结果也颇不同,所以大家也都是一肚子怀疑。不断有怀疑,还是不断有民调在进行。这是大选年的信息“刚需”吧。

所有的自动的或人工的民调,都可能有偏差,都只能做民意的参考。但是我要强调的是:

1. 现在的深度 NLU 支持的舆情挖掘,已经今非昔比,加上大数据信息冗余度的支撑,精准度在宏观上是可以保障的;

2. 全自动的社煤民调,其大数据的特性,是人工民调无法比的(时效以及costs也无法比,见【立委科普:自动民调】);

3. 虽然社煤上的口水、噪音以及不同党派或群体在其上的反映都可能有很大差异,但是社煤民调的消长趋势的情报以及不同候选人(或品牌)的对比情报,是相对可靠的。怎么讲?因为自动系统具有与生俱来的一视同仁性。

时间维度上的舆情消长,具有相对的比较价值,它基本不受噪音或其他因素的影响。也不大受系统数据质量的影响(当然,太臭的舆情系统也还是糊不上墙,跟抛硬币差不了太多的一袋子词这样的“主流”舆情分类,在短消息压倒多数的社会媒体面前,还是不要提了吧,见一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑)。

我们目前的系统,是 deep parsing 支持,本性是 precision 优于 recall(precision 不降低,recall 也可以慢慢爬上来,譬如我们的英语舆情系统就有相当好的recall,recall在符号逻辑路线里面,本质上就是开发时间的函数)。Given big data 这样的场景,recall 的某种缺失,其实并不影响舆情的相对意义,因为决定 recall 的是规则量,缺少的是一些长尾 pattern rules,而语言学的 rules 不会因为时间或候选人的不同,而有所不同。同理,因为系统的编制是独立于千变万化的候选人、品牌或话题,因此数据质量对于候选人之间的比较,是靠谱的。这样看,舆情趋势和候选人对比的情报挖掘,的确真实地反映了民意的消长和相对评价。下面是这次自动民调的 Top 10 数据来源(可惜没有“她”,我是说 wechat),还是最动态反映舆情的推特中文帖子占多数(其中 66% 简体,30% 繁体,4% 粤语)。

domains-5

看一下popular的帖子,居然小方的也在其列。倒也不怪,方在中文社煤还是有影响力的。

chuanpupopularposts

小方总结得不错啊,难得同意他:满嘴跑火车的川大叔是“谎言大王”。其实川普与其说是谎话连篇,不如说是他根本不care 或不屑去核对事实。就跟北京出租司机信口开河成为习惯一样,话说到这里,转一篇我的老友刚写的博文(论保守派该投票克林顿),quote:

川普说话不顾事实是众所周知的。只要他一开口,就忙坏了各种事实核查 fact check ......
更重要的是,川普不仅犯了大大小小众多的事实错误,而且对事实抱着强烈的轻蔑和鄙视。

总结一下这次民调的结果可以说,如果是华人投票,川普不仅是 lose 而是要死得很惨,很难看。(当然,不管华人与否,川普都没有啥胜算。)

timeline-comparison-12

这是 by days 的趋势对比,这种持续的舆情领先在大选前很难改变吧:

timeline-comparison-13

更多美国大选舆情的自动调查还在进行整理中,stay tuned

【相关】

Big data mining shows clear social rating decline of Trump last month

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

论保守派该投票克林顿

【立委科普:自动民调】

【立委科普:舆情挖掘的背后】

【社媒挖掘:《品牌舆情图》的设计问题】

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

【关于舆情挖掘】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1010878.html

上一篇:Big data mining shows clear social rating decline of Trump
下一篇:为了川普,我选克林顿。

 

6  陈辉 文克玲 强涛 xlsd bridgeneer LongLeeLu

发表评论评论 (4 个评论)

删除 回复 |赞[4]朱志敏   2016-10-26 22:40
刚看了篇文章,说美帝华人精英多支持川普?你这貌似不支持啊

删除 回复 |赞[3]李家亮   2016-10-26 14:06
看见川大我就进来了,结果发现是川大叔

删除 回复 |赞[2]张珑   2016-10-26 09:02
国内应该也有类似的调查吧。呵呵。

删除 回复 |赞[1]crossludo   2016-10-26 04:16
以论文为导向严肃党内政治生活建设研究型学者型政府公务队伍
http://news.sciencenet.cn/htmlnews/2016/10/359155.shtm

【社煤挖掘:为什么要选ta而不是ta做总统?】(屏蔽留存)

【社煤挖掘:为什么要选ta而不是ta做总统?】

屏蔽已有 2971 次阅读 2016-10-27 01:09 |个人分类:社媒挖掘|系统分类:科普集锦| 希拉里, 克林顿, 舆情挖掘, 自动民调, 总统大选

中文社煤挖掘美国大选的华人舆情,接着练。

Why and why not Clinton/Trump?

Why 喜大妈?Why 川大叔?Why not Clinton? Why not Trump?这是大选的首要问题,也是我们舆情挖掘想要探究的重点。Why???

First, why Clinton and why not Clinton? 看看喜大妈在舆情中的优劣对比图(pros and cons)。

sentiment-drivers-33

why Clinton?剔除竞选表现优秀等等与总统辩论和 campaign 有关的好话(“领先”、“获胜”、“占上风”、“赢得”等)外,主要理由有:

1. 老练 强硬; 2. 乐观; 2. 清楚; 4 换发活力 谈笑风生; 5. 梦想共同市场

拿着放大镜,除了政治套话和谀辞外也没看到什么真正的亮点。舆情领先,只能说对手太差了吧。四年前与奥巴马竞争被甩出一条街去,那是遇到了真正的强手。

OK,why not Clinton?

1. 性侵 性骚扰 威胁(她丈夫做的好事,她来背黑锅,呵呵。照常理她是受害者,可以同情的,不料给同样管不住下半身的川普一抹黑,她倒成了性侵的帮凶,说是威胁被性侵的女性。最滑稽的是,川普自己的丑闻曝光,他却一本正经带了一帮前总统克林顿的绯闻女士开记者会,来抹黑自己的对手克林顿夫人。滑稽逆天了。)

2. 邮件门 曝光 泄密

3 竞选团队的不轨行为 操纵大选 作弊

4. 克林顿基金会的问题

5. 华尔街收费

6 健康问题

7 撒谎、可耻

8. 缺乏判断力

这些都不是新鲜事儿,大选以来已经炒了很久了,但比起她的长处(经验老练等少数几条),喜妈被抓住的辫子还真不少。再看网民的情绪性吐槽, 说好话都是相似的,坏话却各有不同:轻的是,“乏善可陈”、“不喜欢”、“不信任”; 重的是:“妖婆”,“婊子”、“灾难”、“无耻”、“邪恶”。

sentiment-drivers-34
作为对比,来看川大叔,why or why not Trump?

sentiment-drivers-35

pros:1. 减税;2. 承诺 崛起 (America great again);3. 真实;4. 擅长 business
cons:
1. 曝光的视频丑闻 性骚扰
2. 偷税漏税
3. 吹嘘
4 咄咄逼人 喜怒无常
5 粗鄙、威胁
6 撒谎

情绪性吐槽,轻的是 “不靠谱”、“出言不逊”,重的是 “恶心”、“愚蠢”、“卑劣”、“众叛亲离”。

sentiment-drivers-36
上篇中文社煤自动民调博文发了以后有朋友问,为什么不见大名鼎鼎的脸书。(微信不见可以理解,人家数据不对外开放,对隐私性特别敏感,比脸书严多了。不过,地球人都知道,反映我大唐舆情最及时精准的大数据宝库,非微信莫属)。查对了一下,上次做的中文舆情调查,不知何故 Facebook 不在 top 10,只占调查数据的 0.1%:

sources-9

记得以前的英语社煤调查,通常的比例是 70% twitter,20% Facebook, 其他所有论坛和社交媒体只占 10%。最近加了 instagram、Tumblr 等,格局似有变。但是中文在海外,除了推特,Facebook 本来应该有比重的,特别是我台湾同胞,用 Facebook 跟东土用微信一样普遍。

再看看这次调查的网民背景分类。

1.  职业是科技为主(大概不少是咱码农),其次才是新闻界和教育界。这些人喜欢到网上嚷嚷。

professions

这是他们的兴趣(interests),有意思的关联似乎是,喜欢谈政治的与喜欢谈宗教和美食的有相当大交集。

interests

这是年龄分组,分布比较均匀,但还是中青年为主。

age

性别不用说,男多女少。男人谈政治与女人谈shopping一样热心。

gender

最后看看地理分布,社煤的地理来源:
geo-regions

【相关】

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

Big data mining shows clear social rating decline of Trump last month

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】(屏蔽留存)

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

屏蔽已有 3425 次阅读 2016-10-29 04:30 |个人分类:社媒挖掘|系统分类:海外观察| 希拉里, 美国大选, 克林顿, 川普, 自动民调

反正日夜颠倒了,那就较真一下,看看大数据大知识,对于川普的葛底斯堡演说的所谓舆情飙升到底是怎么回事。先给几个links:

DONALD J. TRUMP DELIVERS GROUNDBREAKING CONTRACT FOR THE AMERICAN VOTER IN GETTYSBURG

报道的是本月22日川大叔的历史性演说,旨在振奋人心,做竞选的最后冲刺,大意:
寡人与美国人民有个约定,看我的,believe me

中文舆论中,这篇似乎流传最广:【川普重磅演讲致支持率飙升 全球股市将暴跌?】。

因为川普演说是22日,为了看舆情的飙升对比,可以以22日为中心取前后几天的社会媒体大数据做分析,看个究竟。至少比传统民调打五百、一千个电话来调查,自动民调的大数据(millions 的数据点)还是靠谱一些吧。

timeline-comparison-14
这张趋势图怎么看?

1 川普在这个时间区间总体的确是上升。飙升之说,不完全是无中生有(准确地说,其实是捕风捉影,见下)。

2 但是,仔细看舆情(net sentiment)图可以发现,川普这段时间基本上还是一直没有摆脱负面舆情多于正面舆情的局面,舆情曲线除了22号当天短暂超越冰点,总体一直是零下。

3. 飙升之说经不起推敲,因为凡飙升,必须是事件后比事件前的舆情,有明显的飞跃,其实不然。

4. 事实是,川大叔近期舆情的谷底是本月18号(零下20+),从18号到22号 他 deliver speech 前,他的舆情已经有比较明显的提升(从 -20 到 0),而从 22 号 到 25 号,舆情不升反略降,飙升从何谈起?

5. 虽然没有飙升,但川大叔这次表演还是及格的。至少 speech 后,舆情没有大跌,基本保持了接近零度的基本面。

6 由此可见,媒体造势是多么地捕风捉影。以后各位看到这种明显是宣传(propaganda)的帖子,可以多一个心眼了:通常的宣传造势的帖子都在夸大其词(如果不公然颠倒黑白或歪曲事实的话),从所谓“舆情飙升”到预计“股市暴跌”,都是要显示川普演说的重量级。基本是无稽之言,不能当真的。

下图是这个调查区间的数据小结:

trump1

这个区间的平均舆情指数是 -9%,2.7 million 的正面评价,3.2 million 的负面评价。

-9% 是一个什么概念,根据我们以往对政治人物的多次舆情调查来看,这不是一个好的舆情,但也不是特别糟糕,属于平均线下。但是,与川普自己的总体舆情比较,这个区间表现良好,有 13 点的提升,但这个提升并非所谓演说飙升带来的。

这是社煤数据源的统计:

trump2

从比例看,推特永远是最 dynamic,量也最大,总热议度 34.5 mentions,推特占了 23.9 million。不少社煤的分析 apps 干脆扔掉其他的数据源,只做推特,作为社会媒体的代表,也基本上可以了。但是,感觉上还是,只做推特,虽然大数据之量可以保证,但可能偏差会大一些,因为喜欢上推特跟踪政治人物和话题,吐槽或粉丝的人,只是社会阶层中的一部分,往往是比较狂热的一批。推特这个公共平台,本来就长于偶像和followers(粉丝或“黑”)互动。其他的社会媒体可能更平实一些,譬如 Facebook 上的发言基本是说给朋友圈的。Facebook 也有 1.7 million 的热议。

好,我们把区间放大,看 last 30 days 的趋势,作为这次演说前后趋势的一个背景。

timeline-comparison-15
这是 9/28-10/28 的川普与克林顿舆情趋势对比图,by days;仔细解读前,总体印象是够纠缠的。这两位老头老太也真是,剪不断理还乱,不是冤家不碰头,呵呵。两位都那么多丑闻缠身,性格都很tough倔强。看看一个月来 by weeks 的曲线也许更明朗:

timeline-comparison-16

不管我多么厌恶川普,也不管我为了厌恶川普而决定选举并不喜欢的克林顿,作为 data scientist,不得不说,希拉里最近的情势不是很乐观:川普居然开始有点儿领先克林顿的趋势了,NND。

timeline-comparison-17

上图是热议度(mentions)的对比。这个没的说,川普天生的话题大王,克林顿无论如何也赶不上。

timeline-comparison-18

这是舆情烈度的对比:喜欢或厌恶川普的还是更加狂热,虽然印象中希拉里克林顿比起其他政治人物所引起的情绪已经要更趋于激烈了。可是川普是个政治异数,还是更容易引起狂热或争议。

川普在演说中特别强调选举被操纵的危险,他显然在夸大这种危险,为将来的不承认选举结果做铺垫。挺恶心人的。现在的情况是,如果克林顿大幅度领先,川大叔再流氓也没辙。如果是拉锯接近,就麻烦了,老川和川粉几乎肯定要闹事。可现在的选情显得有些胶着拉锯,这也是为什么很多人包括保守派开始有倡议,说为了川普,请投票克林顿。本来我是要投第三党的,或者弃权不投,但是这次选举不同,危险太大,川老是个定时炸弹,而且不可预测。为了防止他撒泼,还是投给克林顿好。至少让他看看,马戏团的表演是上不了台面的,由不得他胡来。沐猴而冠变不成林肯。

对比我 一周前做的自动民调 Big data mining shows clear social rating decline of Trump last month,下面这个品牌对比图似乎更加拉锯,克林顿最近选情不是很佳。

brand-passion-index-11

最近30天,克林顿是 -17%,川普是 -19%,略领先于川普。所幸,川普的这次演讲并没有真正扭转两人的差距,从下面这张历史趋势品牌对比看,克林顿从开始的舆情落后,变为领先的趋势还在:

brand-passion-index-12
不过最近克林顿的选情是原地踏步,并没有明显进展。比较克林顿的三个圈可知,最淡的圈是过去30天的前10天,明显落后于川普,后两个圈是最近20天,基本原地,只是圈子变大了,说明竞选的投入和力度加大了,但效益并不明显。而从川普方面的三个圈圈看趋势,这老头儿实际的总体趋势是下跌,过去三十天,中间的十天舆情有改观,但最近的十天又倒回去了,虽然热议度有增长。(MD,这个分析没法细做,越做越惊心动魄,很难保持平和的心态,可咱是 data scientist 啊。朋友说,“就是要挖点惊心动魄的”,真心唯恐天下不乱啊。)看看川普的30天社煤的褒贬云图(Word Cloud for pros and cons)和情绪云图(Word Cloud for emotions)吧:

sentiment-drivers-38

sentiment-drivers-37
朋友一眼看中了那红红的 fuck 舆情,问:“fuck”的主语和宾语是谁?

主语一般不出现,默认是普罗网虫,fuck 的宾语当然是川普,否则上不来他的负面情绪云图:

trumpfuck

trumpfuck2
天,fuck mentions 占据了数据的 5%,老川在一个月里被社煤普罗 fuck 了近40万次,可见这家伙如果上台会有多少与他不共戴天的子民。看上面怎么吐槽 fuck 的:

fucking moron
fucking idiot
asshole
shithead

you name it,甚至疑似共和党人也fuck他:
Trump is a fucking idiot. Thank you for ruining the Republican Party you shithead.

看 popular media,貌似流传最广的大多是视频:

trumpmedia

Tumblr 超越 Facebook 成为社煤老二?

domains-6

从来没用过 Tumblr 这名字也拗口 怎么这么 popular?

西方媒体吐槽的,男女比较均衡:male 52% female 48%,对比中文社媒,明显是女人少谈政治的:才占25%。这次调查的种族背景分布:

trumpethinics

还是白大哥占压倒多数。族裔信息占社煤帖子中的近一半,所以这个社煤族裔分布的情报应该是靠谱的。黑大哥第二,占 13%,亚裔才 6%。墨大哥 8%, 与其人口比例不相称吧(?):由于语言或文化障碍,under-represented here??

这个有点意思,喜欢到社煤吐槽的人,集中在周三和周日的晚上,晚九点达到高峰, 譬如 关于川普话题的社煤,在周日晚上九点高达 1,357,766, 一个小时就有一百三十五万帖啊,够大数据吧。

trumpdayhour

这还才是 sampling 的 data, 推特sampling占总量大约十分之一吧,如果是 data hose (要额外付钱的)一网打尽的话,数据量又要增加一个量级。不过,对于大数据情报挖掘,再增加一个量级已经没有什么意义了,不会实质上改变调查的结果的。说明一下,那个周日的统计量应该是过去一个月的调查中的周日的总和,一个月有四个周日,那个数据应该除以4,然后乘以10,才是川普数据周日九点的那是时间区间的真实量。总之是地地道道的大数据。相比之下,传统民调,不管怎么抽样,感觉都是儿戏,有点胡闹:
500 个电话,说是代表了两亿人的民意舆情,不是儿戏是什么。不过,前大数据时代,那是没办法的办法。自动民调是大势所趋

下图是影响最大 followers 最多的 authors:

trumpmedia2

Most mentioned authors below:

trumpauthors

什么时代有过如此丰富的信息与如此强大的数据挖掘能力?

RW:
@wei 你实际上可以好好搞一个大选预测引擎,利用你现在的methodology, finetune 一下,可以吸引很多眼球。效果好,下次就可以收费了。一炮而红,还有什么是更有效的marketing?

我:
我要是有微信数据的话,不打炮也会红。什么都不用变,就是现在的引擎,现在的app,只要有微信,什么情报专家也难比拟。为什么现在发布中文舆情挖掘不如英文挖掘那么有底气?不是我中文不行,而是数据源太 crappy 了。闹来闹去也就是新浪微博、天涯论坛、中文推特或脸书。至少全球华人大陆背景的,这个压倒多数,都在用微信,而数据够不着,得不到反映。

李:
@wei 我公司有团队做着类似的事情

我:
你能染指微信数据?

李:
微信个人数据只有腾讯有。

看看流传最广的社煤帖子都是什么?

trumppopularposts

从 total engagement 指标看,无疑是川普自己的推特账号,以及 Fox : 这大概是唯一的主流媒体中仅存的共和党的声音了。也不怪,老川在竞选造势中,不断指着鼻子骂主流媒体,甚至刻薄主持人的偏袒。历史上似乎还没有一个候选人与主流媒体如此对着干,也没有一个人被主流媒体如此地厌恶。

展示到这里,朋友转来一个最新的帖子,说是用人工智能预测美国大选,川普会赢:Trump will win the election and is more popular than Obama in 2008, AI system finds,quote:

"But the entrepreneur admitted that there were limitations to the data in that sentiment around social media posts is difficult for the system to analyze. Just because somebody engages with a Trump tweet, it doesn't mean that they support him. Also there are currently more people on social media than there were in the three previous presidential elections."

haha,同行是冤家,他的AI能比我自然语言deep parsing支持的 I 吗?从文中看,他着重 engagement,这玩意儿的本质就是话题性、热议度吧。早就说了,川普是话题大王,热议度绝对领先。(就跟冰冰一样,话题女王最后在舆情上还是败给了舆情青睐的圆圆,不是?)不是码农相轻,他这个很大程度上是博眼球,大家都说川普要输,我偏说他必赢。两周后即便错了,这个名已经传出去了。川普团队也会不遗余力帮助宣传转发这个。

Xi:
那个印度鬼子也有点瞎扯了。
知道ip地址跟知道ssl加密后的搜索的内容是两码事儿啊!
不知道是记者不懂呢,还是这小子就是在瞎胡弄了。

洪:
印度ai公司预测美国大选,有50%以上测准概率,中国ai公司也别放过这个机会

毛:
伟哥为什么认为川普必赢?不是说希拉莉的赢率是 95% 吗?

南山/邓保军: 不是wei说的

我:
这叫横插一杠子。川普要赢,我去跳河。。。

毛:
哦,伟哥是在转述。

我:
跳河是玩笑了,我移民回加拿大总是可以吧。

李:
韩国这个料就爆得好。希拉里在关键时刻,也有可能爆大料

我:
问题是谁爆谁的料。两人都到了最后的时刻,似乎能找到的爆料也都差不多用了。再不用就不赶趟了。很多地方的提早投票都已经开始了,有杀手锏最多再等两三天是极限了,要给媒体和普罗一个消化和咀嚼的时间。

毛:
@wei 但是老印的那个系统并非专为本届大选而开发,并且说是已经连续报准了三届呀?

我:
我的也不是专为大选开发的呀。而且上次奥巴马决定用我们,你看他就赢了,我们也助了一臂之力呢。

毛:
你们两家的配方不同?

我:
奥巴马团队拥抱新技术,用舆情挖掘帮助监测调整竞选策略,这个比预测牛一点点吧。预测是作为 outsider 来赌概率。我这个是 engage in the process、技术提供助力 呵呵。当时不允许说的。

李:
奥巴马有可能会去硅谷打工唉

毛:
是否在舆情之外还有什么因素?

李:
原来你那个奥巴马照片不是蜡像呀

我:
假做真时真亦假呀

002_510_image

【相关】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1011526.html

上一篇:为了川普,我选克林顿。
下一篇:Did Trump's Gettysburg speech enable support rate to soar?

 

3  冯国平 史晓雷 bridgeneer

【社煤挖掘:大数据告诉我们,希拉里选情告急】(屏蔽留存)

【社煤挖掘:大数据告诉我们,希拉里选情告急】

屏蔽已有 2948 次阅读 2016-11-1 07:22 |个人分类:社媒挖掘|系统分类:科研笔记| 希拉里, 美国大选, 自然语言理解, 克林顿, 社煤挖掘

这是最近最近一周的对比图:

brand-passion-index-15
的确显得不妙,川大叔领先了。是不是因为FBI重启调查造成的结果?
这是过去24小时的图:

brand-passion-index-17
这是一个月的涨跌对比:

timeline-comparison-25

至此局势基本清晰了:希拉里的确选情告急。MD 这大选真是瞬息万变啊,不久前还是喜妈领先或胶着,如今川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

这是last week:

timeline-comparison-26

这一周喜婆,很被动很不利。过去24小时 一直在零下20上下,而老川在零上10左右,有30点(note:不是传统的 percentage points)的差距 NND:

timeline-comparison-27

 

看看更大的背景,过去三个月的选情对比:

timeline-comparison-28

原来是, 喜大妈好容易领先了,此前一直落后,直到九月底。九月底到十月中是喜妈的极盛期,是川普的麻烦期。

至于热议度,从来都没有变过,总是川普压倒:

timeline-comparison-31

眼球数也是一样:

timeline-comparison-32

一年来的狂热度(passion intensity)基本上也是川普领先,但喜婆也有不有不少强烈粉她或恨她的,所以曲线有交叉:

timeline-comparison-33

这个 passion intensity 与所谓 engagement 应该有强烈的正相关,因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来。这家伙那么多年,难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet,可是这家伙太狡猾,可能一辈子做商人太过精明,连染有液体的内裤也不曾留下过?是时候从 closet 拿出来了。反正这次大选已经 low 得不能再 low 了,索性 low 到底。不过如果要是有,不会等到今天,大选只剩下一周、先期投票已经开始。

这么看来,作为 data scientist,我不敢不尊重 data 一厢情愿宣传喜妈的赢面大了。赶巧我一周前调查的那个月是克林顿选情的黄金月,结果令人鼓舞。

我们有 27 种 filters,用我们的大数据平台可以把数据任意组合切割,要是在会玩的分析师手中,可以做出很漂亮的各种角度的分析报告和图表出来。地理、时间只是其中两项。

邮电门是摧毁性的。FBI 选在大选前一周重启,这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了,虽然对于数据的分析能力和角度,远不如我们的平台的丰富灵活。他们基本只有一个 engagement 的度量。无论怎么说,希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票,还需要研究。

朋友提醒所谓社会媒体,其实是 pull 和 push 两种信息的交融,其来源也包含了不少news等,这些自上而下的贴子反映的是两党宣传部门的调子,高音量,影响也大,但并非真正的普罗网虫自下而上的好恶和呼声,最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图,我们只留下 twitter,FB,blog 和 microblog 四种社会媒体,剔除了 news 和其他的社会媒体:

timeline-comparison-49

下面是推特 only,大同小异:

timeline-comparison-50

对比一下所有的社会媒体,包括 news 网站,似乎对于这次大选,pull 和 push的确是混杂的,而且并没有大的冲突和鸿沟:

timeline-comparison-51

希拉里为什么选情告急?看看近一个月的希拉里云图,开始红多绿少了:

sentiment-drivers-43

sentiment-drivers-44

对比一下川普的云图,是红绿相当,趋向是绿有变多的趋势,尤其是第二张情绪(emotion)性云图:

sentiment-drivers-45

sentiment-drivers-46

再看看近一周的云图对比, 舆论和选情的确在发生微妙的变化。这是川普最近一周的sentiment 云图:

sentiment-drivers-47

sentiment-drivers-48
对比喜婆婆的一周云图:

sentiment-drivers-49

sentiment-drivers-50

下面是网民的针对希拉里来的正负行为表述的云图:

sentiment-drivers-51

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普最近一周的呼声:

sentiment-drivers-52
vote 的呼声超过 not vote for him

这是最近一周关于克林顿流传最广的posts:

clinton_trouble

FBI 重启调查显然被川普利用到了极致,影响深远。

Most popular posts last week by engagement:

clinton_trouble1

Most popular posts last week on Clinton by replies and comments:

clinton_trouble2

Some random sample posts:

clinton_tposts_random
negative comments are rampant on Clinton recently:

clinton_tposts

如果这次希拉里输了,the FBI director 居功至伟。因为自从录音丑闻以后,选情对希拉里极为有利,选情的大幅度下滑与FBI重启调查紧密相关。媒体的特点是打摆子,再热的话题随着时间也会冷却,被其他话题代替。这次的问题在,FBI 重启电邮门调查的话题还没等到冷却,大选就结束了,媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期,已经冷却,被 FBI 话题代替了。从爆料的角度,录音丑闻略微早了一些,可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看最近一周的#Hashtags,也可以了解一点社会媒体话题的热度:

word-cloud-23

与事件有关的有: #fbi #hillarysemails #hillarysemail #podestaemails19 #podestaemails20
Negative ones include: #wikileaks #neverhillary #crookedhillary #votetrump

Look at the buzz around Hillary below: the biggest is "FBI" in the brands cloud mentioned with her in the last week's data:

word-cloud-24

The overall buzz last week:

word-cloud-26

这是最近一周有关希拉里话题的emoji图:

hullery1weekemoji

虽然说笑比哭还,希拉里及其阵营和粉丝却笑不起来,一周内用到这个话题的emoji总数高达 12,894,243 。这也是社会媒体的特点吧,用图画表达情绪。情绪的主调就是 哭。邮件门终于炸了。

现在的纠结是,【大数据告诉我们,希拉里选情告急】,到底发还是不发?为了党派利益和反川立场,不能发。长老川志气,灭吾党威风。为了 data scientist 的职业精神,应该发。一切从数据和事实出发,是信息时代之基。中和的办法是,先发一篇批驳那篇流传甚广的所谓印度AI公司预测川普要赢,因为那一篇的调查区间与我此前做的调查区间基本相同,那是希拉里选情最好的一个月,他们居然根据 engagement alone 大嘴巴预测川普的胜选,根本就没有深度数据的精神,就是赌一把而已。也许等批完了伪AI,宣扬了真NLU,然后再发这篇 【大数据告诉我们,希拉里选情告急】

FBI director 说这次重启调查,需要很长时间才能厘清。现在只是有了新线索需要重启,不能说明希拉里有罪无罪。没有结论前,先弄得满城风雨,客观上就是给选情带来变数。虽然在 prove 有罪前,都应该假定无罪,但是只要有风声,人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱,就更惊心动魄了。如果不是有背后的黑箱和势力,这个时间点的电邮门爆炸纯属与新线索的发现巧合,那就是希拉里的运气不佳,命无天子之福。一辈子强性格,卧薪尝胆,忍辱负重,功亏一篑,无功而返,保不准还有牢狱之灾。可以预测,大选失败就是她急剧衰老的开始。

一周前有个记者interview川普,川普一再说,希拉里这个犯罪的人,根本就不该被允许参加竞选。记者问,哪里犯罪了?川普说电邮门泄密,还有删除邮件隐瞒罪恶。当时这个重启调查还没有。记者问,这个案子不是有结论了吗,难到你不相信FBI的结论?川普说,他们弄错了,把罪犯轻易放了。这是一个腐烂的机构,blah blah。可是,同样这个组织,老川现在是赞誉有加。这就是一个无法无天满嘴跑火车的老狐狸。法律对他是儿戏,顺着他的就对,不顺着他心意的就是 corrupt,rigged,这种人怎么可以放心让他当总统?

中间选民的数量在这种拉锯战中至关重要,据说不少。中间选民如果决定投票,其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的,如今满世界说一方不好,合理的推断就是去投另一方了。现在看来,这场竞赛的确是拉锯战,很胶着,不是一方远远超过另一方。一个月前,当录音丑闻爆料的时候,那个时间点,希拉里远远超过川普,毫无悬念。一个月不到,选情大变,就不好说了,迹象是,仍然胶着。

不过,反过来看,川普的 popularity 的确是民意的反映。不管这个人怎么让人厌恶,他所批判的问题的确长久存在。某种意义上,Sanders 这样的极端社会主义者今年能有不俗的表现,成为很多年轻一代的偶像,也是基于类似的对现状不满、对establishment的反叛的民意。而希拉里显然是体系内的老旧派,让人看不到变革的希望。人心思变的时候,一个体系外的怪物也可以被寄托希望。至少他敢于做不同事情,没有瓶瓶罐罐的牵扯。

上台就上台吧,看看他造出一个什么世界。

老闻100年前就说过:
这是一沟绝望的死水,清风吹不起半点漪沦。不如多扔些破铜烂铁,爽性泼你的剩菜残羹。
。。。。。。
这是一沟绝望的死水,这里断不是美的所在,不如让给丑恶来开垦,看它造出个什么世界。

【相关】

Trump sucks in social media big data in Spanish

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-1012046.html

上一篇:Trump sucks in social media big data in Spanish
下一篇:【大数据跟踪美大选,希拉里成功反击,拉川普下水】

 

3  许培扬 蔡小宁 强涛

发表评论评论 (2 个评论)

删除 回复 |赞[2]蔡小宁   2016-11-1 13:01
其实川大叔上台对美国发展更有利,喜婆政治正确不能当饭吃,还是追求实惠为好。

删除 回复 |赞[1]ljxm   2016-11-1 07:57
希拉里干过总统,还想干总统 

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基(留存)

怪哉,一篇游戏文字也被科学网屏蔽,不知犯了哪条天律。拷贝留存于此。

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

屏蔽已有 2734 次阅读 2015-4-15 10:39 |个人分类:立委其人|系统分类:生活其它| 乔姆斯基 |文章来源:转载

巧遇语言学新秀 - 乔姆斯基
作者: 欧阳峰
日期: 04/14/2015 09:42:43
今天我又到系里转一圈。语言学系一如既往地沉闷。这也不是本校的问题,据说现在全国会议也同样地乏善可陈。有 才的年轻人,眼睛都盯着钱。这种纯学术的领域很冷清。

该回家了。我走进了电梯,里面有两个亚洲人,一男一女。虽然在我背后,我还是感觉到那男的一直盯着我看。女的轻轻说了一句,大概是中文吧。但依靠语言学家的敏锐,我隐约听到了自己的名字。

回头一看,哈,原来这人我认识。以前一个中国学生给我介绍过他的博客,据说在科学网上是金牌博主。记得他在计算机公司主持什么NLP开发,在我看来也是充满铜臭的东西。但看了几篇他的博文,似乎他对纯学术的东西还有点旧情难忘。这种人现在很少了,所以我还有点记得。他的姓很普通,我不记得了。但记得他的名字叫Wei,中国学生告诉我,是独一无二的意思。

当然,真正让我认出他的,还是他的招牌衣着:圆领衫。到底是语言学家,在衣着上也找到了自己的voice。不容易。

记得他在博文上好几次提到了我,甚至说我是几千年出一个的伟人。哈哈,连我这样的也快被捧晕了。也许中文对人评价的calibration不同?这倒是个值得研究的语言现象。不管怎样,多一个崇拜者总是让人高兴的事。因为我有自知之明,所以我相信他的几百万读者中至少有80%是第一次听到我的名字。所以我的知名度也因他而提高吧。如果他的读者中有10%buy his statement,那我就征服了又一个国度了。

这些念头转过后,我就默默地等着他和我打招呼。谁知电梯到了,他也没有make move。我只好走出了电梯。我故意把脚步放得很慢很慢。相信我,这对于一个老人来说一点也不难。

但是他没有追上来。我只听见照相机响了一声。

今天阳光普照,是美好的一天。

~~~~~~~~~~~~~~~~~~~~~~~~~~~

可以转载到科学网博客么?博人一乐

>>老头在立委心目中就是神圣,大大方方提出合影本来就是一件很普通的请求

古人说,近乡情更怯,我这厢是 面圣心忐忑,手足无措、思维停摆了,这个世界上没有比他在我心目中更高大的了
作者: 立委
日期: 04/14/2015 11:17:09
这就好像我时光穿越,突然遇见孔夫子一样,一定是手足失措的

【相关】

巧遇语言学上帝乔姆斯基 2015-04-14

【置顶:立委科学网博客NLP博文一览(定期更新版)】

【李白毛梁王124: 从虚拟现实扯到学科鄙视链】

李:今天看到一个研究意识的理论说法,有点意思。说的是人类的感知结果从来就不是现实,而是现实的 GUI (图形界面)。换句话说,就是进化造成的虚拟现实。

眼见为实,我们早已发现漏洞百出了,眼睛是很容易受骗的。所有的感官都容易受骗。进一步说,认知也是注定要受骗的。这是因为千万年的进化,就不是为了反映真实的现实而存在的,进化只有一个指向,生存和繁衍。一切有利于生存和繁衍的假象都会自然形成和加强,一切不利于生存和繁衍的真实都会被遮蔽。

热恋是盲目的,就是一个典型。情人眼与其他人的眼睛,物理生理构造并无区别,但看到的对象就是不同。情人眼看到的对象闪闪发光,甚至爱屋及乌,对象身边的事物也变得不同。这是很多人经历过的体验。

可见光呈现五颜六色,是 GUI 的最好展示。看见五颜六色是因为对进化有利,有利才让你看见。看不见紫外线等同样是进化的选择结果。

今天在想,既然我们本来就是用自己的感官在创造虚拟现实,就没有道理不让电脑的虚拟现实来丰富和延伸我们的世界。这套理论推向极端就是唯心主义。我不看月亮,月亮就不存在。

白:光影效果太复杂,如果是虚拟现实,搞不懂上帝为什么舍弃简单的而弄了个这么复杂的graphics。要发光物体干嘛,任意设置光源多好。要白天黑夜干嘛,总是白天多好。要我是上帝,我绝不这么render。

李:白天黑夜很好解释啊,日夜的感知有利于生物的作息节律,从而有利于生存和繁衍。

白:要生物干嘛,一片干净多好。费那么大劲,图啥?上帝早该躺平。

李:讲的就是意识的理论,不是造物主的理论。没生物这个宿主,意识根本就不是话题。

可恨的是,白天黑夜的感知演化得过好,结果人类发明了电,开启了不夜城和夜总会,人类的节律被打乱,失眠成为仅次于肥胖症和忧郁症的难以治愈的病痛。想来人类要是猫,就不会逆天造电的。

按照大爆炸的理论思路,文明不过是无数现象中的一个瞬间闪现。根本谈不上图啥,没有目的,也不会存续。

白:我是说感官其实是虚拟现实的架构,如果是某个造物主设计的,太不合理。这个造物主为啥要这么蠢?

梁:是的,感官不过是虚拟现实实现器。而且眼睛鼻子能探测到的范围很有限。

李:那是因为生物的自我保护:感知太多,处理负担太重。一定要把有限的感知集中在对于生存最重要的点上,例如感知危险,感知食品、感知求偶对象。

梁:是,人只把自己最基本的需求随身携带。

白:被剪裁甚至被扭曲的实像,和被创造的虚像,有本质区别。以上说来说去,进化也好,选择也好,还是实像,不是虚像。这和传说中的虚拟现实,还是有距离的。

梁:主要是,人如果只靠感官来理解现实,比较狭隘,主要的是要理解,要用理论。

李:50步 100步。扭曲现实 与 虚拟现实。不过 trigger 不同罢了。反正都不是现实。更要命的问题是 谁也不知道现实的本尊是什么。甚至不知道是不是有恒定的真实性存在。如果现实本身就有不可知 或 测不准的特性,那么甚至扭曲都谈不上。扭曲的前提是假设有一个绝对的黄金标准或对象。就是这位教授写了本一定影响的书 书名就是 The Case against Reality:反现实辩。

 

梁:白老师一报怨,上帝就说他马上改正,全是靠 error correction 。[Chuckle] @白硕。现实是一些 concious agent build 出来的,这个好像是对的。[Grin] John Wheeler (惠勒) 曾提出 Participatory Universe 参与者的宇宙,有这个意思。

李:这几天一直还在想虚拟现实的事儿。

什么是现实?我们的感知和认知的对象是现实,可现实是我们的感知那样吗,是我们认知那样吗?感知认知就是我们与现实的一个 GUI 界面而已,而任何界面的本性就是虚拟或扭曲。光谱的部分频率进入眼中成为颜色,声波的部分频率进入耳朵变成声音,这是进化选择的界面表示。完全可能不是这样的一种感知反映。

到了认知就更没准了。感知方面人类多多少少还有个伴儿,与动物有类似的感知。到了认知,只剩下人类了,谁能保证我们认知的世界就是世界的本来面目。白马非马。

换个角度看现实世界。现实世界有本来面目吗?如果任何现实都有本质和表象两个方面,道理上只有本质是真实的,而表象只是个宿主的主观折射/反映。如果这个世界没有人类宿主,哪里还有表象。可是,没有感知认知,世界真实还是不真实,有什么区别?这个问题还是问题吗。

白:没有关系。馒头不是真的,胃也不是真的。大家你糊弄我我糊弄你。

毛:肚子会饿可是真的。

白:毛老总是画龙点睛。

李:肚子饿属于 suffering,suffering 据称是区分人和机器最大的衡量标准。问题是如何测量 suffering。造一个机器人老在那里愁眉苦脸叫饿叫苦,甚至哭鼻子,怎么测量他是 suffering 而哭呢。

白:什么叫做作,这就现身说法了。没有物理基础的主诉,做不得数的。

李:物理测量不容易,所以医生问病人疼痛的程度总是用启发式:如果疼痛是 1-10, 你现在的疼痛是几?其实得到的答案 也不能认真,个体差异太大。只在自己跟自己比较多时候,才有其相对意义。

梁:但馒头和胃的关系是真的。[Grin] 胃喜欢馒头抚慰,馒头需要通过胃进入人体,变成能量,实现自己的价值[Chuckle]

白:有个有意思的类比:馒头是1,1/2,1/4,………;胃是-1,-1/2,1/4,……。甭管你怎么论证馒头最终变到0,胃也最终变到0,但是在这个过程中,馒头和胃始终互为相反数。把实体虚无掉了,关系还是实在的。

李:自从爱因斯坦把物质与能量划了等号以后,无中生有 终归虚无 的轮回貌似成为自然而然的天理。以前最常问的问题是 无之前是什么?宇宙大爆炸之前是什么?宇宙之外不存在空间,那么宇宙往哪儿膨胀?从哪里来 到哪里去?

现在流行的说法好像是 宇宙就是肥皂泡。bang 一个宇宙泡就出来了;bia 一个宇宙泡就湮灭了 为下面的泡积攒条件。

毛:把物质与能量划上等号,是说能量也是物质,而不是说物质就是虚无。

李:外行瞎谈体会 不能当真。这些体会大多是那些科普神仙制造的。

ted talk 里面最有人气的大概就是物理了,看那些各路神仙大谈宇宙故事,把高深的学问当成情景剧 异常生动 配上各种精妙的图片和动画,灌输给我们外行普罗。一个愿打 一个愿挨 人气就形成了。谈无和有的 一箩筐。正反粒子 暗物质 湮灭为无 无中生有 量子涨落。二象性也谈 虚无也谈 现实和意识划等号的 划不等号的 都有。物质湮灭 释放能量;能量凭空创造物质,变戏法似的,一切皆有可能。都是大名鼎鼎的教授。普罗就是看个热闹。不看觉得自己没文化,看了其实还是没文化。本来不可知 现在弄得似有若无。科普也是商品 有的是市场 毕竟人的好奇心是很难泯灭的。

这一个月 听了系列 string theory,红得发紫的理论,据说是完成了爱因斯坦遗志,找到了大一统公式,gods equation。原来宇宙是10+1 高维度世界,可惜人类只能感知 3+1 四维时空,其他七维被屏蔽了。但人类有智能,有理论,可以在认知世界中补足这些维度。这个理论的创立者之一 一口气写了四本书,全部上了纽约时报畅销榜,互联网无数他的讲演 绝对铁嘴钢牙。名叫 micheo kaku日裔教授:

白发苍苍了。铁嘴不止他一个 还有这一位:

Brian 的 ted talk 深入浅出到让人窒息。

wang:似乎与热衷于predictive modeling的很多人类似,一个个都在画鬼,哗众取宠。谁也没见过鬼,吹牛不上税。

李:还有一位华裔 也是了得。物理以前以为都是高智商不善言辞的故儒,没想到里面也有那么多表演艺术家。总之比三国演义好听 过瘾 还是要感谢他们懂得如何把小众的探索转化为大众话题。

梁:当年伽莫夫,《从一到无穷大》作者,就是这样吸引了好多年轻人,加入到天体物理学,宇宙学的行当来。[Grin]

李:物理在鄙视链顶端,虽然说 物理上面还有数学,可那玩意儿只是物理学家的敲门砖。所以 kaku 教授说 一切生物都可以规约为化学,一切化学规约为物理。照说,生物下端还有社会学 政治学 语言学等,但这些基本不算科学,不计入内 上不了鄙视链的阶梯 都,连受鄙视的资格都没有。

梁:都被物理鄙视了?

李:对呀。

梁:然后数学鄙视物理?那数学就是皇冠上的明珠!

李:纠缠态。数学物理是纠缠,不分伯仲。智商也不相上下。

比较尴尬的 大概数哲学和计算机人工智能(学?)。哲学被物理大咖打死差不多了,堕落到鄙视链之外了。人工智能反而异军突起,替代了哲学,大有高高在上,挑战物理的上帝视野。

毛:纯数学鄙视应用数学,应用数学鄙视物理,物理鄙视 everything else。

梁:那就是说,那么几个纯数学家,鄙视 every other people ! [Grin]

until 哥德尔,数学大厦轰然倒下。

毛:也不是轰然倒下,而是原先指望能一统江山的突然知道绝无可能了。

梁:对,数学必须和物理纠缠起来,才可能活下去。

毛:不一定。数学用于密码,就没有与物理纠缠。

梁:密码之所以不能解,是因为到了物理世界不实际。比如解的时间(或者求解所需要的资源)远远大于宇宙的 capacity, 比如“素数分解”。

毛:物理学家其实也鄙视数学家,觉得他们不切实际空对空。没有物理定律,就没有微分方程。

李:化学家也可以鄙视物理学起码是宇宙学,说他们不接“地”气。生物学鄙视化学可以说他们不以人为本。语言学鄙视一下生物学可以拿智能的载体说事,以人为本的前提是以会说话的动物作为对象。说话(speech) is everything:这一点不仅有全才马克思背书,连当代哲学家明星赫拉利也强调再四。更不用说背后的乔姆斯基巨人身影了。

 

【相关】
 
 

 

【李白梁123: 人机融合新物种及其自我意识辩】

李:上帝到底掷不掷骰子,其实从语言学里面也可以看到端倪。自然语言有规律吗?当然有 于是生成了很多文法。但这规律却不是铁律。大规则里面有例外,例外里面有小规则,小规则也还可能有例外。错综复杂 这就是语言世界。

关于亚原子微观世界的测不准(现在叫不确定性)原理 量子坍缩(?)这类玄妙的现象 我的理解是其实在日常的宏观世界也有类似表现。这就是随处可见的离散和连续的矛盾统一。

上文提到的时间维度的连续体即是如此。所谓现在、过去或未来,一旦测量定位到特定的细颗粒度,就坍缩成一个点面。是无数的点面碎片在我们的记忆中拼凑出了完整的世界映像。而世界其实是测不准的,无论我们如何切割时间的剖面。

所有的音频视频的数字化都是以离散去逼近连续。我们测量的任何一个数字都是离散(或者说坍缩)的结果,而不是事物的本真。我说拿破仑身高 1.65米,他真实的身高其实是不可以用有限数字表示的。展示出来的结果都是测量的近似值,无论多精密的测量器具。

这样说来拿破仑身高究竟是确定的还是random的?文学老年,胡扯几句,不可认真。

看物理科普入迷 与其说是求知 不如说是好奇。因为知道知识是需要基础的,基础要经年累月培训庶几可得 绝不可能一个外行靠看科普就可以真正理解,所以求知也就是个笑话 求知不得才是真的。但这不妨碍感受物理世界的奇妙 诡秘和震撼。

如果在规律和随机中,硬要选择一样作为起点,感觉世界是随机的 或者离散的。规律性和概念化都是人类出现之后 对于无限世界连续现象 不得不通过感知或认知做了 clustering 的结果。白马本非马 硬说白马是马 是把白马“坍缩”(抽象)成一个不存在的概念马。这是人类(也许还包括部分高等动物)观测世界和融合世界的效应。

离开人类以后 规律还存在不存在可以争论。但离开人类 概念肯定荡然无存 应该是确定的。没有概念及其体系,何来理论?没有理论如何表示规律?无从表示的规律是不是还叫规律呢?

白:假设识别马和白马的系统在人类死绝了以后还活着,遇到马发出一种鸟叫声,遇到白马发出另一种鸟叫声。这两种鸟叫声世界上还会有很多种动物听得到。如果这系统懂得非单调逻辑,在同时识别出马和白马时,应该发出白马对应的鸟叫声,而不是同时发出两种鸟叫声。这一切虽然是人创造的,人却不存在了,但并不妨碍动物们对白马和马做出差异化的反应。

李:如果物种也灭绝了,传递给谁。不妨把物种当作人类的延长线,包括高等动物 甚至低等动物。没有神经系统的植物还算不算 感觉很勉强了。

梁:不知道了,很难想象[Chuckle]

李:机器(人)呢 如果不承认有生物意义上的人与机器嫁接的物种的话。

梁:生命的本质,就是信息存储,信息处理,信息更新,和信息传递。

李:这个机器可以。但信息为表 意义为里。

梁:如果机器能不断更新自己的代码,以适应环境,自我繁殖,那它差不多就是生命。

李:机器传承的一套信息系统,是什么意义呢?信息是个客观的物理现象,可以独立于人类所赋予的意义,但没有意义的信息,有啥?可以被机器捕捉(感知),然后呢?

白:人类死光了,动物可以再进化,进化途中遇到人类遗留的系统,会给它们形成概念提供现成的样本。它们可以不叫白马,不叫马。但对这两个概念的实例做出差异化反应。

李:新轮回论。

白:反正,差异化反应是客观存在,可以用于概念学习也是客观存在

李:人类文明历史 没有看到继承以前某灭绝文明的蛛丝马迹,轮回不曾发生 是对将来可能发生的不利依据。

白:模式识别能力是现成的,某种自然动力驱动也是现成的。没有人可以一直运行下去,就看动物们的造化了。有监督的学习可以加速。

梁:非得让现有物种上吗?[Chuckle]

白:只是为了说明,概念没什么神秘的,根本不需要量子也不需要坍缩,就可以搞定。

李:据说青蛙也有某种粗糙的概念分类,青蛙对眼前客观物体 最有可能的分类是:食物 还是 天敌?决定了是扑上去抓捕还是跃迁逃生。

白:白马实用价值确实比较低。还可以考虑天气预报系统。

李:那是因为客观世界有无数种分类可能,很难说人类建立的概念体系 对于动物具有可用性。没用的分类是不利于进化和生存的。

白:另一方面,神经网络里面的阈值触发机制,也像极了所谓“坍缩”。为啥古人要占卜,无非是要从乌龟壳的裂纹中寻找概念。有个人类遗留系统在这儿,不用才怪。

李:写 上帝的公式 的教授坚信,上帝规律是客观的 在他手中写成的公式,在其他文明中不过是写成另外的符号形式。这是预设了宇宙存在多个文明。

白:彭罗斯,我第一个不服的就是他。把物质本源、生命本源、智能本源三个巨难的问题放在一起反而简单了?骗鬼呢。

人类遗留系统,不担心后进化的动物们不用,只担心它们样本小的时候瞎用,得出跟人类不一样的概念。[Chuckle]

梁:后进化的物种肯定会根据自己的理解“瞎”用的。[Chuckle]

白:尤其猴子这种好奇心很强的动物,瞎用的可能性太大了。

李:我觉得动物先与人类灭绝的可能性更大。毕竟人类太狡猾了 并且越来越狡猾。当然,聪明反被聪明误,人类毁在自己手上也不是小概率。尽管如此,人类文明的传递最好不要指望动物的传承。

梁:人可能把自己的知识传给自己创造的物种:人工智能。

李:这是我最不解也是最怀疑的:生物工程与电脑工程到底能够结合到什么程度?我对《未来简史》作者赫拉利最大的怀疑就在于此。他的立论、视野和框架,尤其是他在《人类简史》中对历史的透视,说服性很强,醍醐灌顶,让人震撼。但是他未来学的最重要的立足点之一就是预设了人机的有机结合。感觉就是人和机器可以杂交成为新的物种。

我-不-信服!

我当下的认识是,两股道都可以跑得很远。人可以通过生物工程创造超人。电脑可以创造出超电脑。硬要说二者可以融合的话,那也是沿着机器的道路去,而不是沿着生物人类的道路去。例如,人类的记忆最终可以存储到碟片流传出去。但出现一个生物意义的人机新物种,天方夜谭。手足当然可以换成机械臂膀,人的大脑如何被电脑置换,而且可以繁衍延续,匪夷所思。

白:机器跟物种没啥关系,跟向物种提供的“标注语料”有关系。

意义是系统对符号的固定反射模式。有系统就有意义,甭管系统的载体是啥。比如无人车看见红灯停下来,对于无人车而言,停下来就是红灯的意义。人死光了,无人车要想互相不发生事故,还可以继续使用红绿灯。

李:无人车为什么想不发生事故呢?怕死还是怕疼?

白:人也经不起终极意义的追问吧?都会在某一层打住。怕散架不行吗?

李:如果说生物的驱动力是繁衍,非生物的驱动力在哪里?

白:繁衍本质上是逆天而为。这个驱动力,拉长时间跨度很可笑。

李:对。所有做功都是以局部之力违反普适熵增定律,注定短命。

白:所以短期的驱动力,大家彼此彼此。谁也好不到哪去,五十步笑百步。

基因的延伸,实际上就是信息复制链的延伸。这个,机器也在行。

李:根子还是在那个叫自我意识的东西。复制不是根本。机不畏死 奈何以死惧之。赫拉利说,自我意识最简单的表现就是那种 suffering 的感觉。据说是进化必然的结果,文明的间接成因。

白:植物、微生物可以没有suffer。

李:所以不反对把植物、微生物与无生物划归到一类去,都是非文明。其他动物则介于文明与非文明之间。

白:suffer是软件硬件数据一体化的特殊架构造成的,这种架构对于生命不是必须的,对于智能也不是必须的。没有过硬证据非它不可。信息复制、架构不死才是必然的。

李:那倒是。因为完全可以人为麻痹神经,把suffering抑制住。这间接证明了suffering不是必要的因素,大概只是一个方便生存和演化的产物。

白:从架构角度看,只不过是系统自己暴露给自己一些probe。想关掉就关掉好了。如果软件和数据远在云端,硬件就完全没必要suffer,坏了换就是了。

李:suffering 被看重,并不是因为它是文明必要的因素,而是因为它是检验文明与否的一个方便的指标。没有 suffering的比照,就没有幸福的感觉,文明也就失去了方向。真正的图灵测试应该以 suffering 作为测试标准。什么时候有令人信服的证据证明机器的确 suffer,那时候就可以声称人机真正融合成为新的物种。

白:为了通过图灵测试假装suffer,多没劲。

李:好像图灵测试不是假装似的。50步100步吧,假装 suffer 与假装能对话,都是假装。

白:本来可以有一种更高贵的架构,更高贵的文明,却要向低级文明凑近乎。为什么不可以声称,你suffer,是因为你低贱。你的物种决定了你们自我折磨,而我们,不需要这种自我折磨。

很多仪式性的东西本来就是假装,人类自充伟大也未必不是假装。

李:认知层面的假装更加迷惑人,极易引起伊利萨效应的误导,造成对人智的恐慌。倒是感知层面的假装,容易为人识破,直指人智的机器本质。

著名科幻《三体》里面说的森林法则,就是说文明之间只会相互残杀。但纽约那位日籍明星教授说,其实,天外文明更大可能不屑于杀死人类文明,或者说不在乎杀死还是不杀死你,因为你太低级了。这就好比人类文明会不会无缘无故去杀死长颈鹿“文明”。也许到了森林里面,看到长颈鹿,你会好奇,去跟他说说话,玩一玩。但很快你就会索然无味。

白:无视。

李:对,最可能就是选择无视他。根据现在的宇宙尺度和天文知识,如果天外文明存在,并且造访地球,他们一定比我们高n个层次,其跨度几乎肯定比人与长颈鹿的距离要大得多,看我们连蚂蚁都不是。哪里有兴趣专门来消灭我们。要消灭也不过是其他计划的偶然殉葬品而已,不是靠人类避免暴露所可以防止的。

的确,人总是免不了高看自己。

 

 

 

 

 

 

【相关】