大数据淹没下的冰美人(之二)(屏蔽留存)

大数据淹没下的冰美人(之二)

屏蔽已有 3216 次阅读 2015-5-13 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 范冰冰, 挖掘, 社会媒体

女神 or 妖精,总之不似人类

好,我们开始范冰冰的社媒深度挖掘,看看网友都怎么说她。

先看网友的赞美(绿字体)和吐槽(红字体)等情绪化评语的词云分布,显然是东风压倒西风:

分类总结前五类情绪评语如下。

先看赞誉,毫无悬念,迷恋她、惊艳其美和粉丝的溢美之词占绝大多数,见(1)(2)(3):

(1)   喜欢, 爱,迷恋, 羡慕, 中意, 享受, 怀念, 惊喜,飞吻,?,相中, 看中

(2)   QQ, 粉丝,给力,成功,最强,很火,不错,很好,最佳,可爱,受欢迎

(3)   美, 美爆, 绝美, 女神, 传奇, 完美,逆天,耀眼, 精彩, 更胜一筹

(4)   倾国倾城,性感,威武,强大,厉害,独特, 优雅, 经典, 华丽

 

(5)   支持, 欣赏, 赞, 夸赞, 看好, 期待, 关注

有意思的是(4)中系列形容词所发出的信息:把倾国倾城、性感厉害、优雅华丽与威武强大等集合起来,在当今华裔女星中是不多见的,她反映冰小姐的御姐女皇范儿给观众留下的印象,她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。

各花入各眼,萝卜青菜各有所爱,她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物,在排山倒海的网友和粉丝的赞誉中,自然也不免被吐槽,也分五类如下:

 

(1)   不喜欢, 吐槽, 讨厌, 抱怨,烦, 骂, 恨, 气,不爱, 不欣赏, 不羡慕,失望, 无语, 受不了,无法忍受,
   大跌眼镜,大失所望

(2)   质疑, 怀疑, 鄙视, 讽刺, 嘲讽, 不接受, 批评, 不关注, 抵制, 看不上, 看不惯,不看好,看不起

(3)   不美, 不好, 差, 破, 不怎么样,不完美, 不行, 没多美,没有我美,算不上一流,一无是处, 不给力

(4)   低能儿蠢货, 不要脸,我操,垃圾,变态,傻逼,坑爹,这么狗血,最不要脸, 恶心,鸡肋,操, 吓人,
   美个屁,挖鼻屎,白痴,二货

(5)   还不如现在的张馨予,还不如穆婷婷可爱,太胖,臃肿,

第一类表达各种程度的不喜欢不欣赏,第二类是各种鄙视看不惯,第三类酸溜溜的多少带有嫉妒的不屑,这些大多是口味问题,或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了,这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映,你美了就骂你蠢,你急智就骂你丑,总之是无冤无仇也要骂娘,特别是要骂名人。倒是第五类的负面信息最为具体,说她不如张美人穆美人(张穆都是啥妖精,怎么从来没听说过,演过啥,没有一丝印象),说她太胖臃肿,虽然明显有偏见,却也不是空穴来风。

为了过来看看

@素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱...

人总是健忘的 RT @zmt0516: 记得当年范冰冰的名声还不如现在的张馨予,现在已经被公关团队刷成女神之神了。。。

#freedom #民主 范冰冰黄裙现身体态臃肿 群众爬墙头睹芳容 组图 http://t.co/xprlcS1RdE 

总体来看,情绪化用语无论正面负面,大都当不得真,只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由,为什么喜欢或者不喜欢她?这类细线条的深度舆情挖掘,我们留待下一篇博文给您提供。

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一) 

大数据淹没下的冰美人(之三): 喜欢的理由 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五):  星光灿烂谁为最?

【置顶:立委科学网博客NLP博文一览(定期更新版)】

社会媒体舆情自动分析:马英九 vs 陈水扁(屏蔽留存)

社会媒体舆情自动分析:马英九 vs 陈水扁

屏蔽已有 4966 次阅读 2012-9-29 16:51 |个人分类:社媒挖掘|系统分类:科研笔记| 马英九, 陈水扁, 社会媒体, 舆情分析, 社会形象

Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president.
 
不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。
 
(1) 高频情绪性词的词频分析的对照图示
 
(2) 高频褒贬描述性词的词频分析的对照图示
 
 
 
相关篇什:

研究发现,国人爱说反话:夸奖的背后藏着冷笑

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-617870.html

上一篇:两种啤酒罐的开口结构
下一篇:评《有关太阳内光子想到一个类比——金属导电》

 

1  王芳

【『科学』预测:A-股 看好】(屏蔽留存)

【『科学』预测:A-股 看好】

屏蔽已有 4306 次阅读 2012-12-4 13:37 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 监测, 股市, 舆情, 社会媒体

有什么大众话题想要测试我的中文系统么?
作者: 立委
日期: 12/03/2012 17:40:25
RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。
 
能啊。见图:
 
 

自动舆情监测分析表明:A-股 看好 哎!!!

那谁谁,还不进场!据说外资已经陆续到位抄底了呢。股市应该不久会反弹。
 
【免责声明】舆情检测虽然大数据,很客观,无人为干扰,但是过去和现在的舆情不能成为未来预测的保证。有网友听信陪钱,概不负责。
但有听信而赚钱者,务请捐款1/10至:大数据NLP立委基金,c/o 通天塔委员会 @ 牛市。
 
【立委名言】总统人气犹可预测,况股市走向乎?
 
想起前不久总统竞选辩论来。两位总统候选人比着对中国强硬。这是美国政客惯用的竞选伎俩。由于种种原因,起飞中的中国在美国选民中隐隐成为某种威胁,对中国强硬有利于吸引选票。在野总统候选人打中国牌比较有利,因为他不必顾忌对中国现实贸易的相互依赖和利害关系。于是,罗姆尼一直批评奥巴马对中国太软弱,宣称他一旦当选,就立即宣布中国是汇率操纵国,列入操纵者黑名单意味着贸易制裁的强硬态度。奥巴马反守为攻,辩论中告诉听众,千万不要相信罗姆尼的口头激进。他指着罗姆尼说:他对中国最不可能强硬,因为亿万家财的罗姆尼有大笔投资在中国呢。罗姆尼急了,反驳说,你奥巴马回去查查你自己的退休基金的流向,我担保里面有中国概念股,这么说你也有中国投资,因此影响你对中国的政策,笑话嘛。
 

确实,资本唯利是图。投资理财的美国资本顾问,一个个猴精,一方面不断唱衰中国,一方面绝不会放过中国经济这块蛋糕。一边把中国概念股系列弄得垃圾似的,一方面又不失时机进来抄底。总统候选人怎么可能摘得清呢。

【相关】

 到底社媒曲线与股市曲线有没有、有多少相关度?

转载]ZT:牛津大学王宁博士:大数据与有限理性

舆情挖掘用于股市房市预测靠谱么?

【舆情挖掘:房市总体看好】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-639090.html

上一篇:三代 “大跃进”
下一篇:【凡事不决问 social:切糕是神马?】

 

2  王号 曹聪

发表评论评论 (1 个评论)

删除 回复 |赞[1]wuqunan   2012-12-4 21:11
哥来抄底了!呵呵。艾玛,肿么下面还有地板,地板下面还有地下室,介个真有木有?
 

尝试揭秘百度的“哪里有小姐”(屏蔽留存)

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

屏蔽已有 8461 次阅读 2012-12-14 15:41 |个人分类:社媒挖掘|系统分类:博客资讯| 百度, 社会媒体

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的(the results are not faked?)。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。
 
我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。
 
先谈数据:
 

百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据:

 
 
什么是词云呢?
A word cloud displays the frequently occurring terms surfacing from a topic's text.
 
 
从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了
 
是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸?

请看六个月 的词云数据图:

 
三个月 的词云数据图:
 
一个月 的词云数据图:
 
一周的词云数据图:
 
一天 的词云数据图:
 
再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果
谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了
 
 
 
Let US Drill down: 百度小姐的真相在这里
 
是什么样的推手把 小姐 与 百度快照 弄得满世界都是
日期: 12/14/2012 17:40:43

一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。
 

Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。

大概是删不胜删。
 
 
 
最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。
 

最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。

 
 
前一篇博文:
 

社会媒体测试知名品牌百度,有惊人发现

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-642614.html

上一篇:社会媒体测试知名品牌百度,有惊人发现
下一篇:“我们为什么选择在学校学习”的思考

 

7  刘洋 张婷婷 蔣勁松 武夷山 贺天伟 sz1961sy sun879109994

圣诞社媒印象: 简体世界狂欢,繁體世界分享。(屏蔽留存)

圣诞社媒印象: 简体世界狂欢,繁體世界分享。

屏蔽已有 4127 次阅读 2012-12-26 05:27 |个人分类:社媒挖掘|系统分类:生活其它| 圣诞, 社会媒体

狂欢 vs. 分享
 

狂欢也应该,劳苦一年了。

 
 
不过,当然是分享高出狂欢一头。
 
狂欢没有问题,狂到找哪里有小姐就有些过了。
 
 
 
大众心理里,圣诞节的 pros and cons 呢?
商品社会嘛,离不开打折!
 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-646437.html

上一篇:手表的价值观
下一篇:WordClouds: Season's sentiments, pros & cons of Xmas

 

5  曹聪 武夷山 刘洋 贺天伟 sz1961sy

【社会媒体:现代婚姻推背图】(屏蔽留存)

【社会媒体:现代婚姻推背图】

屏蔽已有 4098 次阅读 2013-1-11 05:23 |个人分类:社媒挖掘|系统分类:生活其它| 婚姻, 推背图

立委按:哈,【爱情推背图】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【社会媒体:现代婚姻推背图】。

 
【大众心理探究:婚姻】
日期: 01/09/2013 16:39:34

所挖掘的数据源:来自中文世界社会媒体过往一年的档案,繁体约五千五百万文档,简体文档达三亿五千万。大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。

婚姻(简体)被提及390万次;繁体被提及约 41 万次

繁简体的分别调查可以透露出大陆社区与台湾社区对待几乎永恒的话题“婚姻”的有所不同的社会认知。首先值得注意的差别在对于婚姻的总体评价上,简体世界基本是负面的,净情绪指数为-5%,而繁体世界是正面为多,净情绪指数为+5%。这正负5%共10个点的对照,虽在意料之中,仍让人嗟叹无语。祖国大陆经济起飞,社会巨变,带来的是社会的两极分化以及婚姻关系的不稳定等系列问题,从而影响了普罗百姓对婚姻的信心和评价,这是意料之中。而台湾呢,虽然生活在夹缝中,整体社会情绪还是向上的,乐观的,这在对“爱情”观念的调查中也得到印证。另一点对照就是所谓热情强度的指数,简体世界高出繁体世界五个点(21-16=5),说明海外华人社区比起国内,更加平和一些。

 
 
1. 婚姻的关系概念

可以提出的看点有:

(1)婚姻是男人与女人之间的事情(貌似废话。本来不是事儿,可如果调查美国社会媒体,可能就是事儿了:不同州法律不同,同性婚姻是敏感的热点话题,其合法化似乎有蔓延全国之势。)

(2)爱情与婚姻关联度极高(那自然)
 
(3)除了男女爱情老公老婆结婚证外,与婚姻概念最相关的不外乎是 家庭、父母 和 孩子,对了,还有房子(至少在大陆很多城市,房子对结成婚结不成婚至关重要)。
(4)有意思的是,婚姻问题总是与 岁月 和 时间 不可分(所谓n年之痒?)
(5)浮出水面的其他与婚姻有瓜葛的人和事包括:霍启刚(是不是那个与我们奥运之花搞世纪婚礼的大款?)、还没结婚儿子越来越多(这又是谁?有几房?)、姚晨(谁?婚姻怎么啦?)、婚纱照、婆婆、裸婚、剩女(错过了?)、假证(假结婚证还是假房产证?待查)。
 
 
 
看看以臺灣社會為源頭的繁體世界中婚姻的社會形象如何吧
 
(1)婚姻最大的concern似乎是 歲月(誰經得起歲月?樹猶如此,婚何以堪),其次就是 愛情 問題(愛情枯萎、愛情褪色?婚姻難道真是愛情墳墓?)
 
(2)跟愛情生活一樣,繁體世界特別重視 星座 在婚姻生活中的影響,什麽 處女座、金牛座、雙魚座,不亦樂乎,星座不同,就不能婚麽?同胞,你們也太迷信了吧。
 
(3)不像愛情馬拉松,婚姻的核心是行動:結婚結婚結婚,聽上去很像【義勇軍進行曲】,赴湯蹈火呢?
 
 
 
2. 与婚姻有关的情绪分析
 
情绪上,无论简体社会还是 繁体社会,围绕的核心问题就是幸福和不幸福,大多源于婚姻的破裂和失败。
似乎美满婚姻只是一个传说。婚姻需要支持,尽管如此,不幸福、不看好,破裂和失败的婚姻仍然像一个幽灵,在华人社区徘徊。以前都说西方社会乱象丛生,满大街都是陈世美,离婚率高达50%,如今起飞中的中国据说也快赶上来了。
 
婚姻带来的情绪对立看下图一目了然。总体来看,大陆社区正不压邪,缺乏正能量,负面情绪如病毒一样在蔓延:厌倦、烦恼、悲惨、不如意、不美满、不愉快、太荒唐、太难熬、出状况、有名无实、不能忍受。海外社區也有很多矛盾情緒和牢騷,可總體上還是東風壓倒西風,相信婚姻,渴望婚姻,享受婚姻,感到婚姻 甜蜜美滿 的也大有人在。
 
 
3. 探幽婚姻的是非得失
 
1. 无论繁简,婚姻世界映入眼帘都有两个大字 问题. 外交无小事,婚姻大问题。婚姻最大的问题就是问题。啥问题呢?本来我们系统是非得失的挖掘着眼于发现具体的缺点或优点,而不是抽象的问题。大概婚姻的是非太难缠了,清官难断婚内事,结果就是大大的问题,却搞不清问题所在。保不准啥问题都有。
 
2.  問題之外,繁體世界顯然比較美好,甜蜜、合法、穩定/固 占了主流,建議欲享受婚姻的同胞,一定要找臺灣女生,移民到臺去做乘龍佳婿,那裏似乎還有一片美滿婚姻的綠洲!简体世界可就惨了,婚姻不但 没有浪漫色彩,而且总是 不顺,不稳定,不容易。
 
3. 把婚姻比作 沉重的枷锁,不是首创,是很多人的真切感受。可彼岸同胞,却有称它为 一種甜蜜的負荷,行啊,同胞,服了您,简直太可爱太乐观了。
 
 
 
 
朋友,您从这些从成千上万人思想言谈中真实发掘出来的推背图系列里,又发现什么呢?您的婚姻观与大众的婚姻认知有差距么?在婚姻这古老的制度和观念上,对于您自己的切身环境以及未来社会,您是乐观派、悲观派,还是绝望族?
 
从爱情到婚姻,种种纠结啊,好比面对一个蜜罐转成的火坑,跳也不跳?
 
婚姻就是围城:颠扑不破的宇宙真理。
【立委名言】归纳是预测之母
 
 
 
 
 
 
这两天在看非诚勿扰,感觉人类迄今对于婚姻最深刻的认识就是围城论
作者: 立委
日期: 01/09/2013 13:14:24

真的是在城外的一个个拼命要钻进去
城内的呢, 隐隐约约多多少少又想出来(太累啦)。
 
所谓“进化论”,其实就是对“稳态”的否定。当然不是说个体的不稳定,
作者: mirror (*)
日期: 01/09/2013 18:03:39

而是说要有“鲁棒性”。嫁 鸡随鸡嫁狗随狗,用个学术词儿的表达其实就是鲁棒性。

鲁棒性好,就可以象昆虫、寄生蟹那样拖着盔甲、房屋跑。鲁棒性不好,只有推到重建了。

----------
就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。

 
 
 

http://blog.sciencenet.cn/blog-362400-651871.html

上一篇:论“论”
下一篇:卫生巾和纸尿布

 

1  杨华磊

【社媒挖掘:臺灣政壇輿情圖】(屏蔽留存)

【社媒挖掘:臺灣政壇輿情圖】

屏蔽已有 3312 次阅读 2013-2-23 08:58 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 臺灣, 政壇, 輿情圖

                   

 
今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他奈我何?
 
 
 
說來慚愧,我對臺灣政壇並不熟悉,所熟知的政治人物不到一打。好,那就把能想到的幾位調查一下,得輿情圖一張如上。請臺灣朋友看看,靠譜不靠譜。
 
一眼看去,臺灣的藍綠政客幾乎全部擠在輿情圖的左下角(弱+反感),說明什麽?說明他們在民眾中的形象都不咋樣。不僅如此,大家對他們的情感也不強烈,大概是失望已久,又沒有其他備選項,已經疲怠了,無所謂了。
 
仔細比較,可以看出,蘇貞昌名聲最佳,毫無疑問是這次自動民調中的矮子叢中的將軍。謝長廷緊隨其後,然後才到蔡英文和馬英九。蔡(指數19)比馬(指數18)略高,但由於是當選總統,馬的議論最多(泡泡最大)。從圖上看,馬英九幾乎把蔡英文整個兒攬於懷中(滑稽不?簡直成了絕妙的政治諷刺漫畫了)。老總統李登輝的聲望則日落西山,更在馬蔡之下。
 
至於阿扁前總統嘛,名聲太臭,凈情緒指標-12,處於地下冰窖第18層,根本浮不上輿情圖的臺面。連戰、蕭萬長、宋楚瑜也未能浮現輿情臺面,原因不是被民眾唾棄,而是被民眾遺忘,他們根本就沒有多少議論,泡泡太小,非置於放大鏡之下不得見也。其實,論褒貶指數,連戰的凈情緒 36 才是冠軍,蕭萬長也有 33,二者均高出蘇貞昌的28一頭。詳細數據比較見下圖。
 

 

資料來源及分布:迄今一年的社會媒體檔案(正體)

 
【立委名言:政治輿情圖旨在計量社會公仆在社會媒體中的被關註度、褒貶度和愛憎情緒強度,反映其公眾網絡形象】
 
【預告】
下期【社媒挖掘】繼續比較臺灣的政治人物,顯示民眾的正反情緒,比較政客們的得失。敬請留意。

http://blog.sciencenet.cn/blog-362400-664312.html

上一篇:米拉围脖:什么是原创? 张亭栋是原创么?
下一篇:初中科学教育是分科教学好还是合科教学好?

 

1  李伟钢

发表评论评论 (4 个评论)

删除 回复 |赞[2]陈楷翰   2013-2-23 13:24
换个字吧?这看起来多累啊老哥?
 回复  : 这是台湾的那些事儿,还是原汁原味吧

2013-2-23 18:361 楼(回复楼主)赞|回复

删除 回复 |赞[1]陈熹   2013-2-23 09:04
没看到图呀
 回复  : 麦当劳免费上网,传图总是失败,等晚上回家再弄

2013-2-23 09:061 楼(回复楼主)赞|回复

【社媒挖掘:馬英九施政一年來輿情晴雨表】(屏蔽留存)

【社媒挖掘:馬英九施政一年來輿情晴雨表】

屏蔽已有 3368 次阅读 2013-2-23 20:07 |个人分类:社媒挖掘|系统分类:博客资讯| normal, style, 晴雨表

【馬英九施政一年來輿情晴雨表】

看點及分析:
 
(1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會推波助瀾。
 
(2)不過一年來也有10多次短暫的亮點,聲望處於零度以上(褒大於貶),雖然都好景不長:從圖上看,去年七月初到九月初之間是正面聲望持續最長的區間(只在八月短暫跌入零度以下),不知道有什麽亮麗的政治表現還是由於團隊公關得力,有興趣的讀者可以查證一下。馬總統宣誓就職的五月中,凈情緒指標尚在零下30度左右徘徊,怎麽到了七月就迅速回暖至零度以上,持續約兩個月,直到九月2日的+35的峰值。我對臺灣政治不熟悉,也沒有精力去探究 data 和證據鏈(盡管我們的工具提供了多項 drill down 的功能),但這個區間似乎確是馬總統二度當選以來得到民眾認可的最佳時期。此後就一蹶不振,只在十月、十一月與今年元月短暫回升。一年來的最低點在三月四日的-44,十二月16日也很慘,一度跌入-42,冰凍刺骨。總而言之,馬英九自從去年初當選以來,不是很順,民眾的失望抱怨情緒彌漫網壇。
 
我們來看看針對馬英九的公眾情緒的雲圖,鐵桿支持相信他的藍營很搶眼,與罵他笨蛋反對他的呼聲針鋒相對。但從數據點上看,還是紅色負面情緒更多。
 

 
網民眼中馬英九之榮辱得失究竟如何?
 
先看馬的支持者的理由
 

 
再看馬的批評者的指責
 

對比一下馬施政一年來的得失榮辱:
 
 

正面評價中最大的亮點是清廉,負面評價除了無能外,最大的批評就是一意孤行和畏懼中國(嫌他在兩岸關系中對大陸不夠強硬,在我接觸到的臺灣朋友中,這是一個相當普遍的抱怨)。
 
立委的觀感是,臺灣民眾比較煩,比較煩。馬總統要想贏得民心,光靠已有的清廉形象遠遠不夠。他要青史留名,改變無能總統的批評浪潮,扭轉其頹勢,今後三年一定要交出一份更大的成績單。
 
正所謂:
 
總統輪流做,明朝到誰家?
帥俊小馬哥,憔悴如明蝦。
 
【立委名言:民主總統不好玩,當家五年狗都嫌】
 
【相关篇什】

社媒挖掘:社会媒体眼中的臺灣綠營大佬

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-664500.html

上一篇:米拉围脖:什么是原创? 张亭栋是原创么?
下一篇:初中科学教育是分科教学好还是合科教学好?

 

1  孙根年

发表评论评论 (2 个评论)

删除 回复 |赞[1]孙根年   2013-2-24 06:58
很好,能详细介绍所用方法吗?
 回复  : 【立委科普】专栏有系列介绍,今后还会继续:
http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&classid=123261&view=me&from=space

2013-2-24 07:111 楼(回复楼主)赞|回复

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀(屏蔽留存)

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

屏蔽已有 7208 次阅读 2013-6-21 03:18 |个人分类:社媒挖掘|系统分类:科研笔记| 陈冠希, 粤语, 阿娇, 娱乐界

 【研发笔记:粤语文句的情报挖掘】实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。

首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人看着舒服。华裔女演员比她名气大的多得很,但是看着比她养眼的极少。远的如巩俐大妞儿,太村姑了,长相很平,似有苦相。据说是魔鬼身材,可盘儿不靓,身材也就不作数了。大红大紫的张子怡有些小家子气。范冰冰长得怪怪的,艳丽有余,不像是真人。真正看得让人舒服的,台湾以前有一个徐若萱,大陆曾有一位邻家女孩徐静蕾,香港就数阿娇了,名如其人,娇美细嫩。对了,大陆1989年前有一位央视女主播杜宪,那是亿人迷,怎么看怎么舒服。养眼到什么程度呢,可以形式脱离内容。当年看央视新闻,内容别提多八股了,可是因为有杜宪,还是愿意看。至于阿娇,是偶然在一部武打片中发现的。从来不爱看那些打打杀杀的武打片,可是阿娇让人眼前一亮,再荒诞的内容也就剥离了。后来据说她受陈冠希之累,牵扯进艳照门负面新闻中。也难为她了,在那样的压力下,还不得不硬着头皮出来开记者会做一些澄清。记者会上一出场,依然是楚楚动人,确如她说的,太傻了,真地不值。话说回来,一辈子不做荒唐事者鲜见,她就是运气不好而已。扯远了,回到舆情挖掘上来。

除了阿娇,粤语文化圈里陈冠希据说是议论最多的一位了。他的艳照门事件很让整个华人世界兴奋躁动了一阵子。据说他是那种“坏”男人的典型,温哥华富豪华侨家出身的花花公子,party animal,讲一口流利的英语,开豪华车,酷而有型(除了泡妞,从来搞不清他擅长什么,音乐、舞蹈、演技、写作?)。那就看看舆论怎么说他吧。

下面的社交媒体挖掘,来自中文世界社交媒体过往一年的档案中被系统识别为粤语的部分。香港娱乐圈名人鍾欣桐(阿嬌)和陳冠希为挖掘对象。对不起了,只能拿名人做小白鼠了。从净情绪(net sentiment,一种褒贬比例的指数)来看,两位的社交媒体形象仍为负数,陳冠希更是低到-22%,说明网民对他的评论明显贬多于褒。

阿娇褒贬指数不高估计还是受到以前负面新闻之累(算她倒霉,碰到了陈冠希),其实粤语地区喜欢阿嬌的粉丝并不少,喜欢的理由见下图:主要是她长得年轻甜美(年轻/甜美/甜蜜:17.1%),人同此心啊。有意思的是,喜欢她的人很多具体提到她漂亮的手(18.9%)、眼睛和脸,甚至声音(其实她的皮肤也是没治了,怎么没人提?),总之她是以外在条件取胜,此乃尤物,足以移人。

至于陈冠希,不管多少负面新闻缠身,女粉丝“喜欢”(“爱”)他的仍然不少,见下面红多绿少的【情绪云图】中的“喜欢”两个大字。真是应了那句古话:男的不坏,女的不爱。(红贬中的“如此绝情”不知是他的哪一桩孽债。)

具体的不满集中在【褒贬云图】中大大的那个“搅”字。

我们把部分网友议论陈冠希的粤语帖子附在最后。

【相关】

 【研发笔记:粤语文句的情报挖掘】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-701385.html

上一篇:“好奇:油条为何两根一起炸?”
下一篇:Google 人事部门承认,千里马常有,而伯乐难寻

 

8  曹聪 廖晓琳 陈辉 武夷山 吴国胜 陆俊茜 bridgeneer biofans

发表评论评论 (7 个评论)

删除 回复 |赞[6]陆俊茜   2013-6-22 11:10
杜美人是适合做大老婆的。阿娇是适合做妾的。
没得比的。

删除 回复 |赞[2]吴国胜   2013-6-21 20:26
杜宪是谁啊?     

俺爱看国际台的海峡两岸,都是因为有个非凡气质的李红。可惜,在央视工作真是浪费人才  

 回复  : 至善至美,前无古人,后无来者。
http://blog.sciencenet.cn/blog-362400-331247.html

2013-6-21 23:071 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2013-6-21 12:19
【当年看央视新闻,内容别提多八股了,可是因为有杜宪,还是愿意看】老经典。泡沫剧也是如此。因为有几个喜欢的演员,也就看下去了。京味儿的对白,有时也有些意思。但是情节层面就显得很单薄了。

关于转基因及其社会媒体大数据挖掘的种种问题 (屏蔽留存)

关于转基因及其社会媒体大数据挖掘的种种问题

屏蔽已有 4859 次阅读 2013-12-25 07:55 |个人分类:社媒挖掘|系统分类:科普集锦| 挖掘, 社会媒体, 语言技术

没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。

1. 关于数据问题

你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意转基因标识,大多数民意连转基因标识都不要了,对转基因食品安全性的担心能有多少呢?这个样本比你那个说明问题吧?

博主回复(2013-12-24 10:04):这个数据是没有问题的,因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的,是普适的。对于一个月之上的数据,可以根据 GM Food 这样的主题词去筛选也可以一网打尽,但是有数据成本的问题。至于数据挖掘有没有偏差?文本挖掘技术当然不可能是完美的,但是统计上没有问题,因为第三方多次测试精确度都是接近90%。

2. 关于结论的对错

转基因的安全性靠调查研究难以给出正确评价。

博主回复(2013-12-24 12:47):两码事。

安全性是科学问题,假以时间应该由科学解答,或者有些已经回答并得到权威部门认证。

舆情调查反映的是普罗百姓对事物的方方面面(包括安全性)的看法而已。

 

还有一点, 博文中说的Gluten引起的各种那个过敏症。 我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。

而且超市中真正gluten-free的食品货架上很少的,现在美国飞机航班上不提供花生, 只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏, 所以航班不供应花生了。

博主回复(2013-12-24 17:55):听我的专家朋友说,Gluten 确实与转基因无关,是有公认的科学结论的。

那为什么舆情中,这一项作为转基因的主要问题呢?

没办法,这就是舆情,我不能改变它,只能反映它。

也许这正说明,科普还没做到家,还没能让老百姓了解和信服。任重道远。

 

3. 关于阴谋论

菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html,说:“李维先生说,该英文社交媒体大数据调查反映了民间的真实态度,这个观点看来要打个问号了。” 这个“该”字从何谈起,我们对社交媒体是一网打尽(因为企业用户要求如此),其组成和来源都在文中有交待。他下面的推测充满了细节,实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢,描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的,其调查的人群经过了特异的选择,或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”,又有什么意义呢?”(下划线是立委加的)

蔡老师哎,你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件,用的是未经任何人控制的原始数据(英文叫做 firehose,就是直接从社交网站流出来的),没有人工干预,靠的是自然语言挖掘技术自动生成的。这样说,应该够清楚了吧。我的本行就是舆情自动调查,这只是针对热点问题,从系统输出结果而已,供大家做舆情分析时候一个参考。

说明一下,所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index (库存)里面,我们包括所有够得着的社交媒体,英文社交媒体从比重上看,twitter 为主,Facebook 其次,其他论坛上百万个来源只占少数,这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人,所以不时用系统挖掘热点话题,一来可以看看系统还有什么可以改良的地方,而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。

蔡老师(2013-12-24 16:24):我的推测是否正确,不是关键。关键是你的舆情分析软件结果与公民的投票结果相反,必须做出解释,否则这样的舆情分析只会造成更大的认识混乱;如果领导据此决策了,更加有误导嫌疑。

(2013-12-24 16:15):我不怀疑你的数学分析能力,你的数学模型包括软件应该是不错的。但是,出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面,还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你,让我们共勉吧:数学模型应当建立在具有生物学意义的基础上,离开了这个基础,哪怕数据再充分、模型再漂亮,也是没有意义的。

博主回复(2013-12-24 18:07):您的思维很怪异:说什么领导据此决策错误,我就更加有误导嫌疑。

这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源,依然决策错误,那就是狗屁领导,没有领导能力、决策能力,领导应该下台,这个决策错误与信息提供者有一毛钱的干系?

又:说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学,我做语言文本调查要什么生物学的基础?我的对象是自然语言(社交媒体),不是生物啥的。我的模型建立在语言学(语言分析,parsing)基础上,这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。

博主回复(2013-12-24 16:44):喂,喂,我为什么要为我的自动调查与公民投票的差异做出解释?

我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合,可能有一千个因素,我有什么责任和义务解释?

我也从来没关心过那次投票。

博主回复(2013-12-24 16:38):

您如果质疑“调查反映了民间的真实态度”,完全没有问题,因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差,也还不算离谱。

可您凭空从头脑想出来并 描述了我的数据被操纵的过程和细节,就让人跌破眼镜了。

4. 关于噪音处理

至于博主和蔡晓宁先生说的大数据处理的技术我不会, 还得在学习了。 不过google或百度上的绝大多数数据是垃圾数据。 如果要使用大数据处理来统计, 我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理,看看你能得出一个什么结论。 这些可就是科学的结论了。

 

至于垃圾过滤,这是任何大数据系统都必须要做的工作,我们也有这个过滤,经过几年的不断改进,测试证明英文大数据的垃圾已经不再是大问题了。

不过中文媒体的垃圾过滤还有很多工作要做,有国内微博水军和僵尸的问题。不过对于热点话题,可以只选取带 V 的样本,也就杜绝了水军和僵尸。但对于冷门话题就不好办了。

另外一个工作是避免过量重复(de-dup),英文也已经做得很好。

 

对于大数据处理, 我完全是外行, 现在说几句外行的话, 不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性, 不分青红皂白的把所有数据输入, 输入的数据就没有科学性, 可靠性, 由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V, 用定贴机为某一个题目专门不断发帖顶贴, 所以不分青红皂白的输入这种数据, 实际上是被其他人所误导。
3. 所以要用大数据, 必须界定你的大数据来源。 否则同一事物, 被不同人选择来源, 完全就有不同的结论。
以上是外行的话。

博主回复(2013-12-24 18:35):当然你的担心是有理由的。做大数据的人当然要过滤垃圾(包括无处不渗入的色情),而且要 detect 僵尸、水军和数据的过分重复(机器人发贴)等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度,可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是,由于大数据的存在以及大数据处理能力的不断完善,舆情挖掘提供了一个难以取代的情报源,在决策中有参考价值。这是可以基本肯定的。

5. 有比较才有鉴别

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

有比较才有鉴别,这是铁律。任何指标单看,其意义就很悬。包括我说转基因不受美国人民喜欢(零下29度),也是因为有过往的褒贬指标平均值作为 reference frame 才说的。

6. 大数据是忽悠么?

是的,有很多忽悠。但是立委论大数据不是忽悠。

》》这篇博文充分说明,“大数据”并不是神仙,完全可能得出错误的结论,“大数据”只是一种工具,要看使用者如何使用它了。

博主回复(2013-12-25 00:30):说大数据是神仙的,多半是忽悠。

今天忽悠大数据,明天其他东西流行了,就忽悠其他东西。

但是大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级。拜科学技术所赐。

7. 关于系统可靠性

任何一门新的方法的建立,都需要首先用对照验证其有效性。这种抓取网络关键词,有没有与大样本的问卷调查等传统方法进行对比,验证过有效性?看到fear,就下结论说是人民害怕,也许是有人说不用fear呢?至于英文网络的数据,为什么下结论时认为只是美国人的意见,把欧洲人等排除掉了?

博主回复(2013-12-25 07:09):你提到“抓取关键词”,怀疑系统不能处理否定式(“也许是有人说不用 fear 了”),那是你不了解我的背景,虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之,我们的舆情挖掘不是通常的关键词技术,而是建立在高级得多的深度语法分析(deep parsing)之上的信息抽取和挖掘。不仅可以对付否定式,否定之否定等更复杂的语言现象也能处理。

博主回复(2013-12-25 00:59):至于意见中是不是只有美国?

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看,美国网民比重很大,但这个世界是地球村了,当可能包括西方其他国家的舆情夹在里面了。

其实很好解决,系统有地理过滤器,我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘,有成本的。今后高兴了,再做吧。博主回复(2013-12-25 00:53):有没有与问卷调查以及用其他方式验证过这个系统的有效性?

有过。很多次。而且还在不断定期进行中。为什么要这样做?因为质量是系统的生命线,否则怎么取信于客户。

大数据挖掘热点话题(冷门话题数据量少,就不好说了)作为舆情的反映,基本可信,至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息,权当 raise awareness 和科普。

我的论点,您可能只看到了其中一部分。我再多说一点,人们的用词习惯在这个比较里面没有被考虑到。比如,说一个人很丑可能多数人用单词A,而说她美可能会有十种表达方式。假定认为美的有十个人,用词个不一样,说她丑的只有三个人,但看起来是显然的高频词。这不是误导吗?这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。

博主回复(2013-12-24 17:45):要想做这种矫正,你先得研究清楚这种现象在真实语料中确实存在,严重程度,分布如何。听上去,这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外,一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小(其实即便在那里,我们对比较严格的同义词还是做了合并处理的,因此问题没有想像的严重),但并不影响最重要的 net sentiment (褒贬度)的指标,因为后者是根据褒贬两大类来计算,而不问具体的用词。

 

很多事情都是这样的:赞成的人不怎么发声,而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结,这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此,所谓相对客观的大数据,也许本身就已经预设了立场。博主回复(2013-12-25 11:08):这种情况是可能的。所以我说,同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如,指数为零表面上似乎是褒贬民意旗鼓相当,你可以打个折扣,理解成其实是褒多于贬,只不过很多满意的人不言声而已。

这个折扣怎么打,可以根据经验法则,多一些实验也许慢慢可以显现出来。

 

8. 我只做民意,不介入转基因的争论

老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.

博主回复(2013-12-25 00:39):我只做民意。别的你们做,或谁爱做谁做。

我不反对转基因,也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度,我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导,不能强迫人们吃转基因,或任何东西。在民意有很多顾虑的时候,给民众选择的权利是合理的(除非标识成本太高:其实高成本只要转嫁给要求标识的消费群体就合理了)。

题外话:我的转基因立场

我其实没有什么立场,也没有相关的生物知识背景,转基因从来不是我关注的对象(因为是热点话题才选它当小白鼠做舆情挖掘的试验,而不是对其感兴趣)。通过朋友的争论和综述, 觉得两边的极端派掐架很难看,都有误导和蛊惑。(By the way,我觉得挺转人士当年犯了致命错误,他们不该把 GM 翻译成转基因,要是翻译成生物高科技最新改良食品伍的,就会减少很多阻力和疑虑。名不正则言不顺,言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的,你说说这个术语翻译是不是害死人。后来金大米起的名字就很好,无奈受转基因的牵累,还是遭到很多人的排斥。)

我本人不介意吃转基因食品,因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此,转基因就不单是科学的问题了。要上老百姓餐桌的话,老百姓的感受不能不顾及。作为一种过渡,我觉得在中国有必要给转基因食品做标识(或给非转食品做标识,one way or the other),给人民选择的权利。这个不必要循美国不标识的例,原因是国情不同,老百姓为食品安全困扰太久,井绳之忧是自然的反应。转基因的最终胜出,应该靠自己的实力,譬如价格的低廉,日益显示出来的安全性等。标识以后,科学人士和我等无所谓(畏)人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子,就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。

最后来点 fun,转发老友的一个评论。

浅谈立委大数据利用的局限性
作者: 田牛
 
1。没法评估和预测股市,黄金走势
2。看不出钓鱼岛的归属依据
3。比较不出社会主义或资本主义的优越性
4。 对国际贸易的趋势做不出专家评论
5。完全忽视不上网不用手机的(或上网用手机但不进入他搜索网络)人群的话语权,比重
6。对测量(不是影响)湾区华人选票的帮助不大
7。依然无法用大数据得出吃一顿简单中餐得到的卡路里

暂时想到现在,希望立委有突破,我们LBC可以近水楼台先得月。

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26

关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752623.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

17  陈安 刘旭霞 孙根年 强涛 蔡小宁 杨宁 常顺利 武夷山 周雄伟 薛宇 郑小康 孙平 陈儒军 周洲 卢长明 bridgeneer biofans

发表评论评论 (17 个评论)

删除 |赞[11]lmnnml   2013-12-26 15:05
26楼点中要害

大数据挖掘的是什么?        我看14楼的评论感觉是
大数据挖掘不出真理和真相

 回复  : 当然不是挖掘真理。挖掘真理,请到圣经和毛主席语录去。
大数据挖掘的是民意,就跟传统的客户问卷调查类似。

2013-12-26 15:271 楼(回复楼主)赞|

删除 |赞[10]郑小康   2013-12-25 17:52
李老师的观点很客观 支持

删除 |赞[9]苏晓慧   2013-12-25 16:41
哈哈,这个技术很好,我现在也很着迷,可惜数学不好不会玩。回归正题,我的疑问是,怎么就没有学生物的尤其是分子生物学的出来发博客说说呢,除了植物所的蒋高明,但是一家之言不可尽信。那些生物大博主们都避开了这个话题啊 
 回复  : 不用数学好。任何人用过百度或谷歌搜索的都会玩。
唯一的问题是,要收费,(至少目前)非企业客户玩不起。

2013-12-25 17:411 楼(回复楼主)赞|

删除 |赞[8]mirrorliwei   2013-12-25 12:33
【转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目】就表明了有这个担心。
这里不需要讲什么“转基因的蛋白会引起面筋过敏的实例和原理”,只要相信墨菲的定律(http://zh.wikipedia.org/zh-cn/摩菲定理):“凡是可能出错的事均会出错。”(Anything that can go wrong will go wrong.)。可引申为“若缺陷有很多个可能性,则它必然会朝着最坏、最可怕的方向发展”。

删除 |赞[7]王大元   2013-12-25 12:15
[3]mirrorliwei  2013-12-25 09:06
镜女士(李薇): 请你讲讲转基因的蛋白会引起面筋过敏的实例和原理?转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目, 所有批准了的转BT基因的玉米, 其BT蛋白都没有致敏性, 你去查EPA/FDA的批准报告, 每一个批准报告在250页以上, 其中有关过敏性的试验数据大概在1-2页。
如果美国有个别人的试验报告说转BT基因的BT蛋白恶意造成面筋过敏, 那么这种试验结果先要被FDA/EPA采用, 一个在自己国家的权威部门都不采信的试验结果, 我们中国人没有必要为这种垃圾结果张灯结彩作为根据

删除 |赞[6]cuixiangmi   2013-12-25 12:06
大数据挖掘还是比较有意思的,但分析应该要更科学。比如来源同样是News,大报和小报,应该乘不同因子。
 回复  : 系统里面有很多这样的参数和过滤器可以根据自己的需要做调节,dice and slice,以便从不同侧面展示挖掘的情报。

我这只是玩票和展示性质,一切采用固定模板和default setting,偷懒不做这些细的工作。

我自己对此话题其实没兴趣,也不懂生物,科学不科学就是点到而已。

2013-12-25 16:551 楼(回复楼主)赞|

删除 |赞[5]王大元   2013-12-25 12:04
博主先生: 在你上一篇博文中我做的第一个评述,得到你的同意。 后来我发现那是你自己用大数据工具统计的资料, 由于我不懂大数据统计, 所以我又提出了几点疑问。我现在正在学习大数据的基本知识, 以便对大数据作为工具来调查舆情或者其它领域的应用前景。 现在还是作为外行向你求教几个问题?

1. 你能举几个例子来说明在那几个重大问题上, 大数据的统计结果被政府采纳了的, 或者做出了正确的预见的重大例子
2. 你能用大数据工具预言明天的那个股票会涨和跌吗?
3, 你能用你的大数据统计预测朝鲜1年后是什么样吗?
4. 你能用大数据统计预测中国明年的房地产涨还是跌, 涨幅或跌幅是多少?你的这个预测与其他不用大数据人做的预测有多大区别?
4. 你的转基因大数据的统计的结果能肯定现在的舆情结果将来肯定是对的或错的吗?
5. 如果我不用你的大数据统计,而是用科学杂志的数据来统计可以预测比你大数据的结果更准确的结果, 那么大数据的统计结果有什么意义 ?
我最基本的观点就是不管你的数据有多大, 但最关键的是你输入的数据是否正确和准确。 尽管你说了有删选数据的软件把关, 但我感到你的转基因那篇的大数据输入的数据的可靠性是有疑问的,你的软件似乎没有管好这个关, 例如与转基因无关的面筋竟然作为最主要的指标。 我建议你把转基因致癌那一部分, 单独拿出来用大数据统计一下, 其中输入持这种观点(致癌)的人的各种身份群体的比例:例如没有文化的老大娘, 小学, 中学程度的群体, 非专业人士群体的比例,科学家的比例, 统计一下, 看看中学学历以下和非科学家的群体比例的意见占多少, 我估计你可能会有完全不同的结论。 在这样的前提下输入你的数据, 看的人心里就踏实了: 哦!原来猪转基因致癌的是这么一部分人。

 回复  : 问题太多太长,难以回答。今天圣诞哎。
有一点,社会媒体大数据不是“你输入的数据”,是自然状态的数据,或者说,是无数网虫输入的数据。

因为社会媒体是网民交流和发泄的场所,所以里面必然存在舆情,只是咱们每个人都精力有限,肉眼凡胎,即便一目十行,也只能看到社交媒体大海的一滴水。只见树木,不见森林,是无法捕捉舆情(人民的呼声)的。好在有电脑,好在有语言学,两者结合就可以帮助我们调查舆情及其走向。

2013-12-25 17:551 楼(回复楼主)赞|

删除 |赞[4]huluhuluhulu   2013-12-25 10:49
看了“浅谈立委大数据利用的局限性”,真欢乐啊。我还以为大数据能得到一顿西餐的卡路里呢。哈哈
 回复  : 其实那是从大数据中搜索答案的问题。用同样的自然语言技术做问答系统(QA system),可以回答某个 popular 西餐的卡路里问题。这个不比舆情检测难,以前做过的。

2013-12-25 16:501 楼(回复楼主)赞|

删除 |赞[3]蔡小宁   2013-12-25 09:55
感谢李老师将我的观点列入博文!在这里我做点解释。
我的博文是在刚刚看到李老师那篇大数据舆情调查博文出来的时候,当时的感觉是为什么结果与加州、华盛顿州的公民投票不符?于是推测了一种可能性,并不是说一定是那样的。后来,随着我们讨论的深入,对李老师的认识也在加深,现在可以确信,“阴谋论”的可能性可以排除,在此特别声明。另一点就是,我不怀疑李老师的数学能力,做软件的水平肯定很高。我想要说的是,一个好的工具需要人们正确地使用,一个好的工具仍然可以继续改进。软件实际使用得出的结果要尽可能与事实相符,如果出现不符合的情况就要考虑是否参数设计出现了错误或不够完善;或者有其适用范围,超过这个范围,结论可能就是相反的了。可以适当做点解释,以减少误会。
 回复  : 我用词偏激处,蔡老师海涵。一开始看您的评论,有些不愉快所致。不打不相识。祝您圣诞快乐。

2013-12-25 10:581 楼(回复楼主)赞|

删除 |赞[2]mirrorliwei   2013-12-25 09:06
【我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。】的说法镜某以为不妥。因为很多所谓专业人员都不知道“gluten”是什么!所以他们直接用了洋文表述此概念。这个说法的依据是来自饭桌上的谈话。镜某的饭桌上,以为是所谓的专业人士(本科教育名牌生化),一个是正在复习考试这门功课。“gluten”就是中国人喜欢吃的面筋不假。而面筋又是什么????就言语不详了 
面筋就是面粉里面的蛋白质!!一种巨大的分子。转基因的风险就是可能会引起蛋白质的结构变化,带来新的过敏因子。

删除 |赞[1]孙根年   2013-12-25 08:32
其实你不必在意,“屁股决定脑袋”,“态度决定言行”。挺转人不愿意看到的,总能找出一百个理由来反对,这才是真正的原因。

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 (屏蔽留存)

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

屏蔽已有 5486 次阅读 2013-12-26 02:25 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 转基因, 社交媒体, 挖掘, 语言技术

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。

这次挖掘仍然是最近一个月的英文社会媒体,区间为:

GM food, 11/25/2013 - 12/25/2013

Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?):

  • GM food
  • genetically modified
  • transgenic
  • transgene
  • genetically engineered food
  • GMC
  • GMO
  • GMF
  • Franken-food

从下述共现主题词发现,GMC (for GM crop)有严重歧义,它更多用来作为 GM 汽车品牌:

因此加了以下限制词:

{ car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }

(也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)

Anyway,在上述定义的 query 下,搜索挖掘的结果如下。

共现主题:

总览:

值得注意的是,与上次初步的调查的褒贬指数零下40度不同,这次更加 refined 的调查显示其褒贬指标为 零下29 度,转基因食品形象仍然很不佳,老百姓仍然很多疑虑和抱怨,但是不像 -40% 那样恐怖。这次调查做得更加细致,query defined 更周全, 个人认为应该更加真实可靠。

喜欢和厌恶转基因的理由云图如下:

社交媒体的地理分布:

从数据分布看,确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问,究竟是美国人民(网民)还是西方英文世界网民的民意。(我从善如流,为保险起见把前一篇博客的题目从“美国人民”改为“西方”,现在看来,我有依据再把标题改回去了。无需地理过滤,最近一个月英文社会媒体谈论 GM food 的话题,几乎全部集中在美国。)

美国国内的分布呢?

从颜色的深浅可以看出,这些议论主要集中在加洲(15%)和纽约州(9%),其次是德克萨斯(5%)和佛罗里达(5%)等。

其他信息图示:

网友一定奇怪,为什么挺转人士把 poison (毒药)列为理由呢?我也很好奇,就 drill down 到数据里面看,原来是这样的样例:

我们英文分析器当然知道 poison 是强贬义词,但是议论中的 poison 有否定词 no,因此处理器就转贬为褒。但是,遗憾的是,还是错了,可以算是一个质量的 bug,我这就去修改系统。错误在于,这不是简单的否定式,而是祈使否定句(NO 也用了大写),意思是“坚决不要孟山都的转基因毒药”,显然应该归入反转人士的意见去,现在弄反了。自然语言蛮复杂,除了否定,否定之否定,还有祈使,以及它们的混杂,这就是一个活生生的例证。再举一例,请看下面的 minimal pair:

(1) GM food is safer

(2) Be safer,GM food

同样是 “be safer”,(1)是褒义描述,而(2)是祈使句,带有贬义(义为 “拜托,你能安全一点,成不?”)

对这些 tricky 复杂的自然语言现象,我们做了不少工作,但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的,社会媒体的表达又很不规范。好在我们有不间断的质量检测(QA)流程, benchmarks 利用第三方 crowd-source 人工监测,四个判官,至少三个判官一致才作为标准。统计下来,英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用(以前我有几篇科普专文谈论这个),因此有信心说,总体结论是靠谱的,反映了社会媒体真实面貌的。

最后给一些社会媒体的samples

 

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752915.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

27  陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu

发表评论评论 (16 个评论)

删除 |赞[10]tuner   2013-12-26 20:54
今年美国通过了转基因食品强制标识法案的州有3个:Vermont, Connecticut, 和Maine。都是东北部的州,看来孟山都等转基因公司想用金钱左右所有的民意,还是不可能的。

明年应该有更多的州会对转基因食品强制标识法案进行公投,看结果吧。博主也许可以再做一下同比,即前几年同一个月在这个话题上的民意,看变化情况,应该能进一步说明问题。

删除 |赞[9]崔小云   2013-12-26 17:05
大数据的方法真好。我慢慢学习李老师的博文吧。

删除 |赞[8]谢龙   2013-12-26 16:50
博主你应该增加一个关键词 biotech

删除 |赞[7]范丁丁   2013-12-26 15:17
李老师,你做这个的方法可否分享下,感觉很牛
 回复  : 我的博客有100多则科普类分享,你有空慢慢挑着看吧

2013-12-26 15:241 楼(回复楼主)赞|
 回复  : 在两个专栏里:《社媒挖掘》和《立委科普》

2013-12-26 15:252 楼(回复楼主)赞|

删除 |赞[6]lmnnml   2013-12-26 15:02
26楼点中要害

大数据能代表美国人民吗?        我看8楼的评论
zhiyanliao说大数据代表不了真理

 回复  : 谁说大数据代表真理,谁就不是 human!

2013-12-26 15:341 楼(回复楼主)赞|

删除 |赞[5]文克玲   2013-12-26 14:44
可以比较一下大数据与全民公决的结果(加州,转基因标识问题)。
 回复  : 这个工作就指望您啦

2013-12-26 15:351 楼(回复楼主)赞|

删除 |赞[4]dangping   2013-12-26 14:05
民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见,媒体也有可能更倾向于转载一些负面的报道和意见,所以这些分析结果能不能代表人民的意见还很难说。
 回复  : 其他网友也有这个看法。有一定道理。但这个否定不了大数据的挖掘价值。

2013-12-26 15:291 楼(回复楼主)赞|

删除 |赞[3]husselfist   2013-12-26 13:07
有点意思。

删除 |赞[2]薛宇   2013-12-26 11:27
您这个词频分析真是个好东西,另外,啥叫“共现主题”,能解释一下吗?还有,您这个用到热图了,这个我们好几年前就关注了,跟胖子还合作了一个工具。挺好,赞!
 回复  : 就是共现关键词,主要是实体名词

2013-12-26 15:071 楼(回复楼主)赞|

删除 |赞[1]张能立   2013-12-26 10:36
中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。
 

只认数据不认人:IRT 的鼓噪左右美国民情了么?(屏蔽留存)

只认数据不认人:IRT 的鼓噪左右美国民情了么?

屏蔽已有 4109 次阅读 2013-12-30 06:27 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 舆情, 挖掘

套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》

当然,还有上帝:In God We Trust. In everyone else we need data.

大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

不过,挖掘本身也有可能有 bug(但即便是 bug 或者其他不完善之处,它们对所有搜索的话题也是一视同仁的,是独立于话题的,因为系统的编制针对的是开放话题),挖掘的结果可以从不同角度验证或质疑。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

上篇转载博文([转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28)就是老友在质疑和解读这方面做出的有意义的努力。老友指出,其所以造成 gluton intolerance 成为反对转基因的主要理由,是由于美国反转极端组织 IRT 的鼓噪的效应。从时间上看,IRT 确实在上个月的大数据调查区间内制造了反转新闻,似乎影响颇大(drill down 显示 twitter 在很短时间里对 cause gluten related illness “新闻”有 700 多条大同小异的微博或转发,下面是“鼓噪”及其社媒传播样品)。

RT | @tree_details http://t.co/i8PV0y3Ev2 Future Epidemic? Monsanto GM foods cause gluten-related illnesses. econ/food/soci- gmo.
Monsanto GM foods cause gluten-related illnesses (silveristhenew.com) [...]
GM foods cause gluten-related illnesses --
I added a video to a @YouTube playlist http://t.co/rywMnDKtlU Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic Monsanto GM foods cause gluten related illnesses: Published on Dec 7, 2013 18 million of Ameri... http://t.co/86SnUlUmxv.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013 , RT.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013, RT.
Monsanto GM foods cause gluten-related illnesses • 'March of Millions': Ukraine braces for massive anti-govt rally • Spiritual Journey: Valaam monastery in Russia's far north (RT Documentary).
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/leNyyCI1G4. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/kZlxQso6T4. #RT

.........

RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @RT_com: Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/FbJhDufXzn. @portnayanyc
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/lknWlC2CP2

..........

Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/XOJYHwyci4 via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/EUYyOsnFyV via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/mAPr2RkyLL. #FutureEpidemic #GM #GMO #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/MwzyJkqjLI. #FutureEpidemic #GM #GMO #RT

.........

有了上述解读,我们有两个问题需要解答:(1)一小撮 IRT 分子的 “鼓噪” 可以左右舆情么?影响度如何?(2)反对转基因的理由除去 gluten intolerance 后是怎样分布的?

于是我们继续做转基因的大数据自动挖掘来寻求答案,以便看清西方当今舆情和民情的真相。根据老友们的建议,我们可以设置条件,做一个对照调查。下面就是这次对照调查的条件和结果。

(1) Baseline:为做到 apple to apple 式的 minimal pair 对照比较,我们先把最近一个月的自动调查重复一次(除去了原 query 中的害群之马歧义词 GMC,因为发现它绝大多数是与 GM 品牌汽车相关,而不是指转基因谷物),结果拷贝如下:

这是 baseline,没有加限制词的结果,似乎没有多大改变
作者: 立委 (*)
日期: 12/29/2013 02:08:05

(2)在上述自动挖掘中加入限制词 “cause gluten” 以屏蔽由于 IRT 鼓噪事件带来的反转中最大,据专家认证也最不靠谱的理由:

嗨,我加了一个限制词 ”cause gluten“,舆情面貌变了哎
日期: 12/29/2013 08:16:59
不过褒贬指数还是很低:零下 33 度(比零下 37 度稍微升温 5 度)。似乎说明网络舆情对转基因还是充满抱怨的情绪。

 
Download
 
Download
 
Download

 
Download
 
Download

【相关博文】

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-754053.html

上一篇:与理发师的交谈
下一篇:"科学里说法的‘短命性’不是好事情吗?"

 

10  武夷山 孙根年 郑小康 陈儒军 陈筝 鲍得海 李宇斌 bridgeneer liyouxi tuner

发表评论评论 (15 个评论)

删除 |赞[10]李维   2013-12-31 20:25
新年将至,打个戳:

已有 3507590 人来访过

积分: 670威望: --金币: 665活跃度: 44665好友: 548主题: 2博文: 3618相册: 6分享: 343

stamped

删除 |赞[9]lmnnml   2013-12-31 16:14
再来指出你这个大数据统计的随意性。 你可以说“据专家认证gluten也最不靠谱的理由”从而把gluten删除, 从而提高了其它项目(例如致癌)的比例, 请问你从几个专家的意见得出了gluten不靠谱? 这不是跟你的标题“只认数据不认人”完全相反, 变成了“只认专家不认数据”了吗。 再反过来问你, 现在的大多数专家都认为已经批准了的转基因食品与常规的一样, 不致癌, 你为什么在致癌问题上,不加一个限制词 ”cause cancer“,你这不是按照自己的意愿和观点,随意操作大数据, 达到你自己的观点来误导舆论吗? 如果你有理的话, 请你不要删除我的观点, 正面回答
 回复  : 匿名朋友,没工夫跟你缠,这是我自家的菜园子,懂不?
你要是精力旺盛,到别处玩去。
你要是不匿名,我又有时间和心情,就陪你玩。
新年保重。

2013-12-31 19:591 楼(回复楼主)赞|

删除 |赞[8]lmnnml   2013-12-31 15:44
请问博主, 你为何把因为glutin 过敏反对GMO食品的60%的民意删除了? 你这不是不认数据只认人吗?
 回复  : 你睁开眼睛看仔细:那是做对照挖掘。删除前后的数据都在博文给出,难道你不读全文就指控?

朋友认为那个不是“民意”,而是某极端组织的“鼓噪”,因此做一个对比研究,看看该条“鼓噪”(或民意)对于整体褒贬指数的影响有多大,结果是5个点的影响。

大新年的。少点指控,多点快乐。祝新年好。

2013-12-31 19:551 楼(回复楼主)赞|

删除 |赞[7]liyouxi   2013-12-31 10:05
如果说的是我,我要说,我没有指出数据不可靠,只是说如何对待数据是个问题。

    [8]lmnnml

删除 |赞[6]liyouxi   2013-12-31 00:42
博主能否利用大数据手段证明或者证伪下述的据报道?

====
非营利性组织“国际食品信息委员会”(IFIC)在进行2013年《美国食品安全调查:消费者对食品安全、营养、健康的态度》调查时,依据2012年美国官方人口普查,以调查人群的性别、年龄分布、学历分布、族群分布和地区等变量配属统计权重,对1,006 名年龄18—80岁的美国人进行问卷采访。问卷结果显示,对于“你担心食品安全的哪些方面”这一问题,29%的消费者担心病菌和污染问题,21%的人担心制作过程,13%的人担心添加剂和化学品,只有2%的美国消费者表示担心转基因食品。当调查者进一步提问“你会避免哪些食品”时,消费者更多关注的是食品中“糖”和“脂肪”的含量,只有0.5%的人表示会避免转基因食品。对于现有的食品标签,仅有3%的消费者希望标注转基因信息。而在对消费者购买行为的调查中,87%的消费者表示生物技术(包括基因工程)不影响他们的购物选择。

 回复  : 没这个能力。

2013-12-31 13:061 楼(回复楼主)赞|

删除 |赞[5]liyouxi   2013-12-30 20:37
  

删除 |赞[4]liyouxi   2013-12-30 12:48
大数据能反映民意,这一点是没有太大问题的,只要收集数据的手段客观可靠即可。但是一个科技政策这样的专业判断问题,民意不能代表正确,且现代科学观念从来都是从少数人的探索开始的,社会大众事先不可能先行进行判断认定,即使成为科学知识之后,要一般老百姓(包含其他专业人士)来进行判断是强人所难。因此,我想博主可以做这样一个研究:美国民众在对待未知事物表达担忧的同时,是否主观想替代专业人士进行判断?或者在制定政策的层面上,是否对自己的非专业意见有足够的信心?还是,虽然有担忧,但是信任国家有关部门专家及科学共同体做出的决断和政策?他们老百姓有直接冲到最前线,推翻zf(FDA,AAAS等)的现有政策的意愿么?等等等等。
 回复  : 看样子,我得向美国NSF或者国内杰出老年基金申请一个课题来研究这一系列问题,题目就叫【论社会媒体民意与公共政策之关系:以转基因为小白鼠的 case study】

2013-12-30 16:081 楼(回复楼主)赞|

删除 |赞[3]liyouxi   2013-12-30 09:58
不过,摒除主观因素是一个重要方面,还有一个重要方面是样本空间是否足够客观、取样是否均匀?
 回复  : 样本是最近一个月的英文社会媒体存档,以 twitter 为主,Facebook 为次,其它论坛等只占一个小的比例。这是当今社交媒体的自然分布,取样应该是均匀的。具体交待见以前的两篇博文。

2013-12-30 10:551 楼(回复楼主)赞|

删除 |赞[2]liyouxi   2013-12-30 09:54
从某种意义上来说,人本身就是一架大数据处理机器,人就是在根据一辈子的所见所闻来下结论。不过,由于每个人处理数据的方式不一样,所以就一件客观的事情吵来吵去,难以得到共有的结论。因此,名义上,科学界不会以人的嗜好来作为判断标准,以尽量客观,虽然实质上还是会受影响。那么李老师,你所说的大数据处理方法摒除主观因素的能力是否在行业中得到公认?

删除 |赞[1]孙根年   2013-12-30 07:17
"数据,数据,除了它,我们谁也不认!"这话好,是情报分析的关键。

【大数据挖掘:转基因英文网络的自动民调和分析】(屏幕留存)

【大数据挖掘:转基因英文网络的自动民调和分析】

屏蔽已有 4162 次阅读 2014-1-3 18:23 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 民意, 挖掘, 民调

前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。

既然转基因是大众如此关心的热点话题,我们就拿它当小白鼠,继续做系列大数据自动调查,用海量数据粉碎少数匿名极端分子散布的大数据调查涉嫌“输入伪数据”的谣言。博主保证在话题定义和输入给系统以后,相关的原始数据搜索及其自动分析全过程没有任何人工干预。这一点是由我们的大数据产品的性质决定的。产品允许以不同的 filters 来做对比研究,博主保证对比调查中的任何 filter 都明确标示,默认为不使用。各位谨记的是,大数据是客观的存在,大数据不会说谎,但是对数据的下列解读(interpretation)不可避免有主观的成分。欢迎百家争鸣,对这些数据做出不同的解读,也欢迎对数据挖掘的条件和过程提出建议和质疑。(但不欢迎任何极端分子的胡搅蛮缠无理取闹,博主保留对任何极端或不雅留言杀无赦不解释的权利。)

转基因一年来英文社会媒体口碑的自动民调和分析如下。  

(1)话题的定义和输入:GM food | GMO | genetically modified | transgenic | transgene | genetically engineered food | GMF | Franken-food

与前同(删除了歧义严重的害群之马 GMC)。

(2)自动民调结果总览

尝试解读:一年的自动调查提及转基因485万,调查了383 万多社交媒体的帖子,涉及近 15 万网民。这是真正的大数据民调,比传统手工民调最多几千份问卷,数据量和调查对象要高两到三个量级。转基因的一年大数据的平均褒贬指数为零下13度,比前几次的一个月数据的调查要好(虽然仍然是负面评价为主)。转基因的话题在西方社会媒体中,的确很有争议。

尝试解读:一年的提及转基因话题的帖子,有 28% 的帖子(134万)含有褒贬评价或情绪,其中贬(57%)略大于褒(43%)。褒贬的幅度区间在 6 度最高点(见上图最高红点旁 tooltip 小框)到 零下 32 度(上图最低谷的红点处)之间。值得注意的是 2013 年六月是转基因网络热议的最高峰,而这场热议却使得转基因褒贬指数跌入最低点零下32度。

 

下面是最近半年的数据,褒贬度为零下10度,略好于一年的指标。

(3)共现话题:

尝试解读:多次挖掘都是如此,与转基因最密切的主题永远是 Monsanto (孟山都)。说转基因纯粹是科学问题,那是 too simple and naiive,只要背后有企业,就一定有利益因素。

(4)挺转反转的理由词云:

 
Download

尝试解读:正反理由旗鼓相当的样子,这比以前一个月数据的调查大为改善。反转的最大理由不再是 gluten 相关的疾病,而是死亡(Die)和癌症(Cause cancer)。挺转声音强调的是安全(safe),也是很自然的。

(5) 挺转反转的情绪词云:

 
Download

尝试解读:wow,情绪云图中挺转的分贝(那些大大字体的 love,good,great)似乎比反转的(bad,not want,concerned,fear,hate,fuck)更高(表现为更大的字体),不过后者的表达更加多样化。

(6)挺转反转的行为:

 
Download

尝试解读:挺反双方不仅仅是情绪发泄,还有行动,有吃的用的买的(eat,use,buy),就有拒吃拒买甚至要求禁止的(not eat,not buy,reject,ban)。

(7) 挺转反转的比例

 

(8)社媒样例:还是贬大于褒嘛。
 

 

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

 

转基因问题
http://blog.sciencenet.cn/blog-362400-755554.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

4  陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

删除 |赞[3]杨会杰   2014-1-4 11:58
   大数据崇拜要不得
其实大数据很大的一个特点是脏数据
 回复  : 你想说什么呢?
因为数据脏,就不要挖掘?

2014-1-4 14:311 楼(回复楼主)赞|

删除 |赞[2]蔡小宁   2014-1-3 23:42
博主的数据应该是真的,至少我是这样认为的,但是不要迷信“大数据”也是我一直的提醒。
 回复  : 蔡老师,什么叫“应该”?数据是从内容商买的,真的假的也是内容商的问题,我们只是使用它挖掘情报而已。

2014-1-4 14:301 楼(回复楼主)赞|

删除 |赞[1]biofans   2014-1-3 18:38
不是说美国人吃了20多年的转基因食品吗?那就分析20年来的数据可能更可信。
 回复  : 没有那么久的历史数据(即便有,也买不起,原始数据是需要给内容供应商付钱的)。社交媒体的历史总共不过七八年吧。

2014-1-3 19:021 楼(回复楼主)赞|
 回复  : 另外,我怀疑 10-20年前,没什么人议论转基因。因为美国的转基因进入市场不加标识,绝大部分民众蒙在鼓里,根本没有这个概念。最近一年的热议,估计与美国崇尚自然有机食品的所谓健康饮食的时尚潮流有关。另一方面,也幸亏美国人做了 20 年的小白鼠。这 20 年美国没有发生转基因带来的严重问题,我个人认为足以证明国人对转基因的担心有点杞人忧天。只要按照美国标准去做,就应该没啥问题。当然,转基因主粮如大米和小麦的推向市场,还是谨慎为好。

2014-1-3 19:102 楼(回复楼主)赞|
 

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】(屏蔽留存)

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

屏蔽已有 4121 次阅读 2014-1-3 20:12 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 中文, 挖掘, 社会媒体

中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢?

终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。

这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面交待。

接着来中文社媒的民调:挺转派明显占上风,疑似媒体正面为主?
作者: 立委 (*)
日期: 01/02/2014 19:26:23

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

转基因问题
http://blog.sciencenet.cn/blog-362400-755584.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

8  郑小康 徐军 陈辉 薛宇 孙根年 bridgeneer tuner liyouxi

发表评论评论 (10 个评论)

删除 |赞[6]liyouxi   2014-1-5 18:27
如果中美对比数据需要得出有意义的结果,我觉得可以尝试一些其他相关数据(不构成因果关系),比如两个社会对于星相学的态度,对于神秘现象的态度等等,那么把得到的结果放到这些相关背景上去看,可能很有意义。

删除 |赞[5]lmnnml   2014-1-5 00:11
删了我的真话--心虚? 门前冷落鞍马稀, 大家已经知道你的大数据是什么东西了
 回复  : 那就留着这条立此存照吧。

2014-1-5 06:101 楼(回复楼主)赞|

删除 |赞[4]tlw2013   2014-1-4 12:51
   各取所需,公开透明

删除 |赞[3]李旸   2014-1-4 12:44
李老师,数据用什么软件分析的
 回复  : 用的是我们自己开发的软件产品。这个产品主要是为企业挖掘客户情报用的。

2014-1-4 14:261 楼(回复楼主)赞|

删除 |赞[2]闵应骅   2014-1-4 11:38
谁挑起了这么个争论?这事儿民调能解决吗?
 回复  : 民调的目的不是解决问题,而是了解问题。

2014-1-4 14:271 楼(回复楼主)赞|

删除 |赞[1]蔡小宁   2014-1-3 23:34
中国人最关心“中文世界”了,非常欢迎李老师来到中文世界!

【大数据挖掘:中国红十字会的社会媒体形象】(屏蔽留存)

【大数据挖掘:中国红十字会的社会媒体形象】

屏蔽已有 4765 次阅读 2014-1-4 20:27 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 挖掘, 红十字会, 社会媒体

【置顶:立委科学网博客NLP博文一览(定期更新版)】

在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往往见木不见林,难以把握总体趋势和全貌。而自然语言技术可以帮助我们自动阅读分析海量信息,从中挖掘任何话题的舆情以及机构或个人的媒体形象,从而从一个角度为决策提供依据。

一般而言,红十字会总是与各种慈善活动紧密相关,因此如果不出意外,红十字会的社会形象是非常正面的。但是,中国红十字会却不尽如此。用我们中文大数据挖掘系统(beta)对最近一年的社会媒体(完整的微博数据仍然在与内容商协商之中)的自动民调显示其形象起伏颇大,但一年平均指数 36 并不很低。

从上图看过去一年(2013元月13至2014元月14)的社会媒体趋势,社会媒体的相关议论的数量除了去年四月五月之间突然出现一个高峰以外(出了什么状况?),一直很平稳。随着这个热议的是其形象一跌千丈,直至五月12号到谷底零下56度。随后的发展表明,虽然议论量趋于平稳,但去年七月中与九月末还是出现两次形象受损,疑似公关失当?这里面的故事,一直追踪网络事件的记者和网友应该有所可言。

网友表达的情绪中最显眼的是“谴责”,远远超出正面的情绪(“信任”)。

上图展示了具体的褒贬理由。下面是其比例的饼图,如何解读这些数据还是留给了解事件发展过程的人士吧。总之是遇到了丑闻和麻烦。

http://blog.sciencenet.cn/blog-362400-755868.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

5  蔡小宁 郑小康 王秀玉 徐晓 bridgeneer

发表评论评论 (1 个评论)

删除 |赞[1]王秀玉   2014-1-4 21:47
读李维老师《大数据挖掘:中国红十字会的社会媒体形象(2013)》后感 地址:http://blog.sciencenet.cn/blog-817414-755900.html

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】(屏蔽留存)

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

屏蔽已有 4589 次阅读 2014-1-6 00:54 |个人分类:社媒挖掘|系统分类:博客资讯| 小崔

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Re:你的软件有bug。5-7月,崔永元主要在忙公益基金的事情。

当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。

上篇挖掘崔方大战一年的形象变化曲线,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in garbage-out 造成的?

于是 narrow down 到那个区间做进一步调查,看来不是小方也不是月亮,而是“苦逼” 惹的祸。

初步查了一下,可能的原因是“苦逼”。那段时期称他为苦逼小崔的较多
日期: 01/05/2014 10:28:11
系统认为 苦逼 是负面评价,加上数据总量(8930 mentions)不够,所以就构成低谷了

法克

好在,这个问题数据量大了以后应该自行纠正。希望与内容商的谈判早日定局,数据量一大遮百丑。

 

 

 

 
 

MD 这么一条就左右主导了曲线两个月低谷??

所有数据量需要一个阈值才靠谱。这个经验值还在探索中。

系统本身绝不是 garbage in n out,苦逼 平时确实更多贬义,但也有调侃同情的可能。

大数据的要点是 大。Lesson learned

RE:应该是5-7月曝光少,噪声起作用了。之前是两会,之后是公益等。

 

小崔这期间共8930 mentions,其中褒贬词量1164,而小崔负面评价总数686,其中苦逼610次
日期: 01/05/2014 11:20:50
问题是这样的帖子,de-dup 也对付不了,因为帖子本身是 不同的,但是短语 苦逼小崔 只是帖子的一个组成成分

还是一句话,大数据重在大,一大遮百丑,一大就靠谱。

不过,数据量不足也有好处,可以更加容易暴露系统的bugs,而数据量一大,噪音和 bugs 就自然退居幕后,浮不上台面了。

 

google 了一下,原来 苦逼小崔 真地不是崔永元???
作者: 立委 (*)
日期: 01/05/2014 16:01:20
那是谁呢?

笑话闹大了。

在小崔民调中,我可以(应该)过滤掉“苦逼小崔”的干扰。

 

  1. 苦逼小崔。 - 豆瓣

    www.douban.com/people/55978871/

    Translate this page

     

    老孙谁都不是。 不是前任,不是现任,不是同学,不是同事,甚至称他为朋友都有点牵强,他是同学介绍给我的适合结婚的对象,这个定义听起来有点残忍,但事实就是 ...

  2. 苦逼小崔。的豆瓣小组

    www.douban.com/group/people/55978871/

    Translate this page

     

    小组、话题. 苦逼小崔。的豆瓣小组. 小组主页 · 加入的小组(22) · 喜欢(0) · 推荐(1). 加入的小组(22). 太原一家人. (9297). 掀起你的内幕来┃青草公益活动月. (254349).

  3. 苦逼小崔。的相册 - 豆瓣

    www.douban.com/people/55978871/photos

    Translate this page

     

    有了这个相册,我就知道明年什么时候该穿什么衣服了。 11张照片 2013-07-16更新. Wish you were here. I'm here. 11张照片 2013-07-15更新. 西安西安. 75张照片 ...

  4. 我刚才看到了一个苦逼小崔的自爆…… - 豆瓣

    www.douban.com/group/topic/41545991/

    Translate this page

     

    Jul 19, 2013 - 成功勾引母猪 (Feel so close) 2013-07-19 23:42:27. 我操,我操,蛋大的事也值得你开个帖? 我操,我操,蛋大的事也值得你开个帖? 苦逼小崔。

  5. 苦逼小崔。的相册-夏 - 豆瓣

    www.douban.com/photos/album/106664416/

    Translate this page

     

    Jul 15, 2013 - alay : 。。要我当面指给你看么 09-24 14:23; 苦逼小崔。 : 胸部在哪? 09-24 14:23; alay : 胸部不错啊 09-24 13:38; 苦逼小崔。 : 蓬荜生辉有木有!

  6. 北京,北京- 苦逼小崔- 面包旅行

    breadtrip.com/trips/2387782532/

    Translate this page

     

    Oct 2, 2013 - 坐缆车准备爬山了。 喜欢(0) 评论(0). 2013-10-02 11:43:00. 北京. 苦逼小崔-北京,北京-2400515001. 到顶。 喜欢(0) 评论(0). 2013-10-02 12:57:00.

  7. 苦逼- 小崔seo_崔长河的个人博客

    seo-oo.com/?tag=苦逼

    Translate this page

     

    小崔seo,是一个致力于关注互联网技术、网络营销、搜索引擎优化(SEO)的博客。博客内容包括SEO,但不限于SEO。

Page 2 of 20 results (0.13 seconds)
 
 
 
 
 
 

转基因问题
http://blog.sciencenet.cn/blog-362400-756279.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

5  王秀玉 武夷山 孙根年 陈筝 bridgeneer

发表评论评论 (5 个评论)

删除 |赞[3]laohe41   2014-9-3 10:02
崔绝对不是苦逼,逗逼还差不多。

删除 |赞[2]何小阳   2014-1-6 17:43
没有“阀值”这个词,只有“阈值”,threshold
 回复  : thanks

2014-1-6 21:591 楼(回复楼主)赞|

删除 |赞[1]戎可   2014-1-6 06:50
2013?
 回复  : thanks

2014-1-6 08:331 楼(回复楼主)赞|

【大数据挖掘:转基因一年回顾】(屏蔽留存)

【大数据挖掘:转基因一年回顾】

屏蔽已有 3140 次阅读 2014-1-6 05:42 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 挖掘, 社会媒体

转基因大战提升还是损害了转基因的网络形象?
日期: 01/05/2014 15:12:11

我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03),下面我们进一步做转基因最近一年的网络形象趋势的调查,看看到底转基因在网民中的形象是提升还是损害了?

转基因确实是去年的热门话题,在我们够得着处理(indexed)的中文社会媒体一年档案中,转基因被提及55万多次,其中两万九千多次为正面,两万七千多次为负面,挺转反转可谓旗鼓相当,平均褒贬指数为 4 度,挺转呼声略强。

 

下面看一年的褒贬热议趋势图。蓝色曲线表示热议度(mentions),紫色曲线为褒贬指数(net sentiment),下列第一张趋势图记录每日的热议和褒贬的跌宕起伏。

 

下图是每周的热议和褒贬的趋势图。

 

下图是每月的热议和褒贬的趋势图,展示显得更加粗线条,但展示发展趋势也更为明显。热议度一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。不过全年看下来,转基因的网络形象实际上变得更加正面了。

 

补充不同区间的对比图

日期: 01/05/2014 15:30:03

半年趋势图:

 

 

三个月趋势图:

 

 
 
一个月的趋势图:

 

 

老友脑子好,帮助看看是提升了还是损害了形象
日期: 01/05/2014 15:32:15

隐约感觉是提升了,但是期间跌宕很大。

最近三个月的某个转基因热议期间(去年十 月底),转基因形象却走低,后来又逐渐恢复了。

是不是?

我自己已经糊涂了

下面是过去一年有关转基因的各类云图。

 
Download
 
比如上图 “转基因技术”,褒贬图中有红有绿(绿大红小),表示有人说好有人说坏,但褒大于贬。

 
Download
 
Download
 
Download

 
Download

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756294.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

2  孙根年 王秀玉

发表评论评论 (4 个评论)

删除 |赞[2]蔡小宁   2014-1-7 23:13
承蒙李老师的热情,我只能做点猜测。上半年支反双方没有特别大的行动,但是下半年就不同了,支转方开展了多次转基因大米品尝科普活动是有效果的,而且五家专业学会等单位联合开办了《基因农业网》,加强了转基因科普的力量,累积至9月中旬达支转方的支持度到高点。也就是9月初,崔永元突然杀出,以其实话实说建立的超高人气,使得支转方遭到重大打击,随后崔永元进一步宣布自费赴美、日调查转基因,使反转方赢得了大量的赞誉,崔永元再次建立起直言不讳的负责任的英雄形象,导致了支转方在10、11月落到低谷。然而,支转方不甘落后,不断组织反击,方舟子多次发文批驳崔永元,由于方舟子的文章往往有理有据,而崔永元没有实质内容、脏话连篇,导致少量崔粉放弃对其的支持,加上农业部发言人出面说话,俄罗斯又批准了转基因作物的种植,支转方逐步收复失地,于是12月中旬达到高点。年终,双方都忙于年终工作总结、过节等,热度都有所下降。
 回复  : 很好的分析,比我盲人说象强太多了。

2014-1-8 03:181 楼(回复楼主)赞|

删除 |赞[1]王秀玉   2014-1-6 20:10
李老师再试一下选“转基因主粮”、“转基因安全”一定可以补充“转基因技术”这个无多大争议的tag 的不足。这是一点补充。沈阳
 回复  : 这个可以做。

2014-1-6 21:501 楼(回复楼主)赞|
 

【大数据挖掘:方崔大战一年回顾】(更正版)(屏蔽留存)

【大数据挖掘:方崔大战一年回顾】(更正版)

屏蔽已有 8527 次阅读 2014-1-6 09:12 |个人分类:社媒挖掘|系统分类:博客资讯| 方舟子, 崔永元, 挖掘, 社会媒体

对博文【大数据挖掘:方崔大战一年回顾】 2014-01-05 的更正是:去了“苦逼小崔”(白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude),加了中文繁体。(调查时间比前一次也后了一天。)

 

本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twitter 等处会用繁体热议崔和方,其实没有增加多少。Twitter 和 Facebook 的 data 一直比 较稳定,不会像微博那样可能有缺漏。

有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。

以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。

据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。

挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。

挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。

两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。

看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。

 

 
 

以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。

小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。

上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。

 

由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。

(1)共现主题词:(字体大小与热议成正比)

 

 

(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)

 

 

(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)

 

 

(4) 喜欢自有喜欢的理由:

 

(5)厌恶亦有厌恶的理由:

 

(6)所调查的数据来源种类:
 

(7)所调查的数据分布:
 

 

社交媒体样本:

 

 

 

DIsclaimer: still in beta, use at your own risk.  bug report is welcome.

 

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】(更正版) 2014-01-06

【大数据挖掘:转基因一年回顾】 2014-01-06
【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756334.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

13  陈辉 徐英祺 陈筝 薛宇 赵斌 董全 李宇斌 孙根年 王秀玉 麻庭光 ncepuztf tuner bridgeneer

发表评论评论 (31 个评论)

删除 |赞[20]dangping   2014-1-7 18:44
“数据挖掘的意义在于帮助了解舆情网情民情。”
有一个词叫做“制造舆论”,在有计划的宣传下,舆情网情民情都是可以制造出来的。
 回复  : 当然,舆情都是人为制造出来的,不是上帝或者自然的现象。没有制造,就没有挖掘。在媒体学中,对企业或政府有组织的制造舆情与个体自然流露的民情,是严格区分的,叫 push media and pull media。企业有公关部也有游说为其利益服务。政府(特别是赤色政府或白色政府)专门设置庞大的宣传部,目的就是制造和牵引舆论,为稳定或洗脑用。两类舆情有相互渗透的时候,但本质上代表了完全不同的诉求。现在网络普及了,各显神通,开始有僵尸和水军,也是为了制造舆论,或者搅混水。这些都应该在挖掘和测量中予以分别处理和对待。这条路很漫长,但曙光就在前面。

2014-1-8 03:281 楼(回复楼主)赞|

删除 |赞[19]mitbbs   2014-1-7 10:25
两次网上掐架,从头关注到尾,没在任何人微薄上留过言。在我看来,韩寒和崔永元完败,虽然以前还蛮喜欢他们。

删除 |赞[18]gusij   2014-1-7 09:47
我不知道“mirrorliwei”是谁,但愿不像之前有人所说,是您的“镜像帐号”。。。
针对他(或您)的评论,我的回复是,一篇好的研究,或者好的文章,当然要有点意义。就算没有,你做这个工作总给有个目的吧。。。如果您的研究就是为了展示一个“网络舆情”。我前边说了,至少在“转基因”问题的争论上,意义不大。而且你这篇文章展示出来的内容,很多其实就是水军互掐和个人攻击,对于没看过方微博,不了解转基因的人只会误导。

-----------------------------------------------------------------------------------
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[17]杜昌文   2014-1-7 09:16
这种数据分析很有意义, 但对于科学问题, 其结果也许只能说明广大民众科学素养的低下.  例如, 小崔, 无论现在有多少人支持他, 他在我心中的良好形象已完全崩溃, 已骂街泼皮几无差异.

删除 |赞[16]金拓   2014-1-7 04:36
一年前的方韩大战可不是两败俱伤,而是韩寒完败。韩寒不仅再也不是天才作家和意见领袖了,而且语文差生的水平也暴露无疑了。
 回复  : 那是你或一批人的看法。
数据挖掘出来的结果不是如此。

2014-1-7 05:281 楼(回复楼主)赞|

删除 |赞[15]麻庭光   2014-1-7 04:34
有意思的研究,我最关心的是,你能够从社交媒体中预报某一免费活动的参与者人数么?比如波士顿马拉松,我想提前知道人数,就可以做人流规划了。有没有这方面的前期工作?给个Citation,我正在写计划。谢谢
 回复  : 不能。没研究过这种预测。目前只是反映和回顾。

2014-1-7 05:271 楼(回复楼主)赞|

删除 |赞[14]蔡小宁   2014-1-6 21:08
努力猜测一下。实际上方崔大战是从9月份开始的,崔永元在9月初首次发起进攻对方舟子的打击很有力,曲线急剧下降,应该说崔永元实话实说节目积累的威望使众多粉丝齐心协力痛骂方舟子。但是后来,崔永元不能依据科学证据说话,说话带脏字,原先的崔粉有少量叛逃,改为支持方舟子,所以方舟子开始上升,崔永元开始下降了。如果崔永元不能像方舟子那样说话有理有据,败下阵来的日子指日可待。现在崔永元是在吃“实话实说节目”的老本,能永远吃下去吗?
 回复  : 蔡老师去看看【转基因一年回顾】的调查,也许可以从曲线图上,看到九月前的趋势与九月后趋势的不同及其解读。我对此事件没有追踪过,看不大明白。

2014-1-6 22:141 楼(回复楼主)赞|
 回复  : 转基因中文媒体一年趋势调查的网址在 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=756294

2014-1-6 22:362 楼(回复楼主)赞|

删除 |赞[13]蔡小宁   2014-1-6 20:47
刚刚发现博主又搞了个新版的,里面变化很大呀!怎么搞的?
 回复  : 都在文中交待了,发现了一个 bug:苦逼小崔 不是指的 小崔(永元),必须剔除(exclude)。

原调查的来源限制为简体中文社会媒体,现调查加入了繁体中文的来源,不加限制,可以增加数据量,也可以反映海外中文世界的声音。

2014-1-6 21:491 楼(回复楼主)赞|

删除 |赞[12]mirrorliwei   2014-1-6 20:25
to 某些评论者:镜某不能理解为何有些人的视野就那么窄! 
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[11]王秀玉   2014-1-6 20:00
更正客观一些。
 回复  : 降噪。

主要是原来的那个苦逼小崔的低谷,实际上与小崔的公关形象无关。

我至今也不知道这个苦逼小崔是谁。总之是噪音。

2014-1-6 22:171 楼(回复楼主)赞|

删除 |赞[10]lmnnml   2014-1-6 18:10
本人多次指出了你经常输入假数据, 伪数据, 然后得出假结论, 伪结论。 你从来不敢回答我的质疑,采取把我的质疑删除, 不让大家看到。
 回复  : 你拉皮糖,好,就开恩把你这条谣言立此存照。

1. 同样的评论,你反复贴,你匿名骚扰。
2. 你不匿名,我可以不删你的任何帖子(重复除外),ok?
3. 我自家的菜园子,当然仍保留不给理由删任何帖子的权利。

科学网的防匿名骚扰功能有待加强。

2014-1-6 21:561 楼(回复楼主)赞|

删除 |赞[9]周春雷   2014-1-6 16:47
水军的意见咋处理的?

删除 |赞[8]gusij   2014-1-6 15:19
同意。但是个人感觉在这个问题上的“民情”真的不是那么重要或者有严重误导性(具体原因不是评论一两句里能说清的)简单说,就是很多人是在无厘头的反对。
赞同:yakgg的观点。如果说这种数据还有意义,那么它的意义可能在于:“说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。"

删除 |赞[7]陈军   2014-1-6 15:03
同意【1】楼

删除 |赞[6]dangping   2014-1-6 14:46
赞同[1]gusij
能否面向专业期刊来做数据挖掘?
 回复  : 我没有数据,也没有时间。

这个调查系列是作为一种大数据科普和展示来做的试验,旨在引发对大数据领域的了解,以及发现挖掘中的bugs和盲点。

2014-1-6 22:091 楼(回复楼主)赞|

删除 |赞[5]bridgeneer   2014-1-6 14:39
突然发现,科学奴才真不少。

删除 |赞[4]jiareng   2014-1-6 13:09
大数据不是万能的!
 回复  : 放之四海而皆准。
谁给你灌输大数据万能,那人一定是片子。

2014-1-6 14:371 楼(回复楼主)赞|

删除 |赞[3]yakgg   2014-1-6 12:30
很有意义的, 说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。

删除 |赞[2]liyouxi   2014-1-6 11:37
可以提供给农民起义领袖们把握“民意”时使用:http://user.qzone.qq.com/11454399/blog/1388906053

删除 |赞[1]gusij   2014-1-6 11:29
坦率讲,不知道这种所谓的“数据挖掘”有什么现实的意义。对于转基因这样专业的问题,我们不可能凭臆想和公众舆论做判断。需要真正了解诶转基因的生物学家做解读,这方面美国权威机构已基本给出答案,那就是目前批准的转基因作物是安全的!
您的这种数据挖掘不如面向专业的学术期刊,而不是社交网络。
 回复  : 数据挖掘的意义在于帮助了解舆情网情民情。不在解决任何专业问题。专业问题找专家,不要找普罗百姓。

2014-1-6 14:391 楼(回复楼主)

【大数据解读:方崔大战对转基因形象的影响】(屏蔽留存)

【大数据解读:方崔大战对转基因形象的影响】

屏蔽已有 2589 次阅读 2014-1-7 06:29 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 反转, 挺转

据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。

下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度(mentions)一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度(net sentiment)在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。

 

不过全年看下来,转基因的网络形象实际上变得更加正面了因为褒贬指数平均值从全年的4%,上升为半年的8%(近三个月为6%, 最近一个月的指数陡升为 19%)。总的趋势应该是挺转占了上风,东风压倒西风。

半年趋势图:

 

三个月趋势图:

近三个月(从去年十月五号到今年元月五号)的趋势图是大战最酣的时期,值得仔细研究。从热议度和褒贬度两条曲线的对比看,十月下旬到十一月上旬是热议高峰期,估计也是挺反两派斗争最激烈的阶段,但这个阶段转基因的媒体形象反而略为走低,至 11月18号的谷底(-22%),说明反转呼声占了上风。

但是此后的发展是,热议度基本持平,直到12月底开始有些消停(斗累了?过年了?),但挺转的走势明显上升直到12月16日全年最高点(41%)。但此后又开始下滑。

这些拉锯还在继续,近一个月的跌宕图示是否预示着,这场斗争还远远没有结束?不过最近两周确实有些疲软了。

 

一个月的趋势图:

 

一鼓作气,二鼓衰而不竭。挺/反尚未成功,同志仍需努力。

【附:蔡老师精彩点评】

 

[2]蔡小宁  2014-1-7 23:13承蒙李老师的热情,我只能做点猜测。上半年支反双方没有特别大的行动,但是下半年就不同了,支转方开展了多次转基因大米品尝科普活动是有效果的,而且五家专业学会等单位联合开办了《基因农业网》,加强了转基因科普的力量,累积至9月中旬达支转方的支持度到高点。也就是9月初,崔永元突然杀出,以其实话实说建立的超高人气,使得支转方遭到重大打击,随后崔永元进一步宣布自费赴美、日调查转基因,使反转方赢得了大量的赞誉,崔永元再次建立起直言不讳的负责任的英雄形象,导致了支转方在10、11月落到低谷。然而,支转方不甘落后,不断组织反击,方舟子多次发文批驳崔永元,由于方舟子的文章往往有理有据,而崔永元没有实质内容、脏话连篇,导致少量崔粉放弃对其的支持,加上农业部发言人出面说话,俄罗斯又批准了转基因作物的种植,支转方逐步收复失地,于是12月中旬达到高点。年终,双方都忙于年终工作总结、过节等,热度都有所下降。博主回复(2014-1-8 03:18):很好的分析,比我盲人说象强太多了。

更多数据在:

【大数据挖掘:转基因一年回顾】 2014-01-06

http://blog.sciencenet.cn/blog-362400-756627.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

3  蔡小宁 bridgeneer dchlin

发表评论评论 (4 个评论)

删除 回复 |赞[3]王秀玉   2014-1-9 13:52
选择评论:实名用户 就可以禁止匿名骚扰 

删除 回复 |赞[2]zhiyanliao   2014-1-7 10:04
科学网网管;李维无休无止的发些毫无意义的大数据烂文, 是否请网管适当控制, 不要让科学网变成李维推销他软件的自由市场
 回复  : 喂喂,匿名网友,同样的留言你不要重复骚扰好勿好?
你跑到我后院,匿名呼吁网管禁我的言,不滑稽可笑么?
我帮你呼吁一下吧:网管MM,请不要加精立委大数据的烂文。

顺便也问一下网管MM:按哪个按钮可以禁止匿名骚扰呢?

2014-1-7 10:111 楼(回复楼主)赞|回复

删除 回复 |赞[1]陈安   2014-1-7 07:57
大家继续掐
 

“大数据与认识论”研讨会的书面发言(屏蔽留存)

“大数据与认识论”研讨会的书面发言

屏蔽已有 12 次阅读 2014-1-11 19:27 |个人分类:社媒挖掘|系统分类:论文交流| 大数据, 挖掘

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级的大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂里面的人物大多是科学殿堂让人高山仰止的大科学家,而在下不过是一介匠人)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会也征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也早邀请立委在其创新频道做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

(1) 大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 、云计算(cloud computing),移动互联网(mobile web)和大数据(big data)情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

2011年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前才刚起步。然而中文网络信息的增长速度却是扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

 

有问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

 
20多年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么?
 
Big data intelligence (大数据情报挖掘)
 

很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

 

(2)什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社会媒体火热以后的专指,是已经与施事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社会媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社会媒体以及施事背景密切相关以外,大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力,为大数据时代的到来提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

(3)大数据挖掘技术及其挑战

   社会媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

   面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析; 2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

   社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth),则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

   在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据 更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

 

(5)自动民调: 社媒大数据挖掘的重要应用

 
社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终 取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

 

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。

       对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

 

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

先说它的不宜和禁忌。

1 这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2  这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3  大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的吹鼓手。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-758135.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

【喋喋不休论大数据(立委博文汇总)】(屏蔽留存)

【喋喋不休论大数据(立委博文汇总)】

屏蔽已有 6090 次阅读 2014-1-12 01:47 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 立委

【立委按】为准备一个大数据的书面发言,今天把自己过去两年在科学网【立委科普】和【社媒挖掘】专栏里发的有关大数据及其挖掘的博文扫了一遍,计104篇,洋洋洒洒m万言,总量远远超过彭德怀元帅1958年“为人民鼓与呼”的万言上书。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。

“大数据与认识论”研讨会的书面发言(草稿) 2014-02-10

【立委论大数据挖掘(博文汇总)】

 

分享【1】为什么做大数据的吹鼓手?热度 2 李维 2013-7-28 01:14王婆卖瓜是一种解释,虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜,毕竟是自己辛辛苦苦栽培,一把水一把肥看着它长大的,恰好赶上了百年不遇的高温干旱,这鲜美的瓜不吆喝都对不起它。 主要的原因是上帝。哦,我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了,当 ...个人分类: 立委科普|667 次阅读|2 个评论

 

分享【2】 大数据NLP论热度 5 李维 2013-7-27 20:50由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套 查准率 (precision)和 查全率 (recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指 ...个人分类: 立委科普|3090 次阅读|6 个评论

 

分享【3】On Big Data NLP热度 1 李维 2013-7-27 20:43Admittedly, it is not easy to develop an NLP ( Natural Language Processing ) system with both high precision and high recall (i.e. high F-score) due to the ambiguity and complexity of natural language phenomena. Social media is even more challenging, full of misspellings, irregularities, and ...个人分类: 立委科普|766 次阅读|2 个评论

 

分享

 

分享【4】 作为公开课的大数据演讲热度 16 李维 2013-5-23 18:34【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【 科学网公开课 】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯 ...个人分类: 立委科普|6654 次阅读|17 个评论

【5】社媒是个大染缸,大数据挖掘有啥价值?李维 2014-1-7 09:56社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义? 无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口,尤其在东土。 水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事 ...个人分类: 立委科普|190 次阅读|没有评论

 

分享【6】大数据挖掘问答2:会哭的孩子有奶吃热度 2 李维 2013-12-27 15:44RE: 有人在网上叫得最凶,所以这种大数据分析很容易受网上的vocal minority影响,不是么? 叫得最响用处不大,要叫得多。叫得响可以影响情绪烈度指标(passion index),但不影响最关键的褒贬指数(net sentiment)。叫得多也不能靠水军和僵尸,因为容易当作噪音被剔除,所以必须要叫得多种多样。 作者: 立委 ...个人分类: 立委科普|556 次阅读|2 个评论

 

分享【7】大数据挖掘问答1:所谓数据完整性热度 3 李维 2013-12-27 11:12到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了 作者: 立委 (*) 日期: 12/26/2013 18:54:07 关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意 ...个人分类: 立委科普|395 次阅读|3 个评论

【8】科研围脖:提上来,再谈查全率和大海捞针热度 1 李维 2013-7-29 00:38白图格吉扎布 2013-7-28 22:58 文章标题: 大数据NLP论 有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。 博主回复(2013-7-29 00:35) : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许 ...个人分类: 立委科普|1223 次阅读|1 个评论

分享

【9】【立委科普:所谓大数据(BIG DATA)】热度 3 李维 2013-3-21 04:58Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普|1175 次阅读|3 个评论

【10】广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘热度 11 李维 2013-3-20 19:57UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普|1283 次阅读|13 个评论

分享【11】Coarse-grained vs. fine-grained sentiment extraction李维 2013-3-12 06:51As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普|671 次阅读|没有评论

 

分享【12】【“剩女”的去向和出路(1)】热度 2 李维 2013-3-8 20:03在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 ...个人分类: 立委科普|1035 次阅读|2 个评论

 

分享【13】 【立委科普:基于关键词的舆情分类系统面临挑战】热度 1 李维 2013-2-15 22:47

 

Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普|1372 次阅读|1 个评论

 

分享【14】曙光在眼前,轻松过个年热度 1 李维 2013-2-9 04:34

曙光在眼前,轻松过个年

QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 ...个人分类: 立委科普|626 次阅读|3 个评论

 

分享【15】 围脖提上来:大数据时代的生活策略热度 2 李维 2013-2-5 07:33RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 ...个人分类: 立委科普|1294 次阅读|2 个评论

 

分享【16】 【立委科普:舆情挖掘的背后】热度 2 李维 2013-2-4 10:22

【立委科普:舆情挖掘的背后】

中文版 " 品牌舆情图 "设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普|1815 次阅读|3 个评论

【17】【科研笔记:big data NLP, how big is big?】热度 1 李维 2012-10-31 19:03Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo ...个人分类: 立委科普|967 次阅读|1 个评论

【18】 【立委科普:自动民调】热度 3 李维 2012-10-19 02:33

Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 ...个人分类: 立委科普|1530 次阅读|3 个评论

分享【19】 【研发笔记:粤语文句的情报挖掘】热度 4 李维 2012-9-28 07:50

【研发笔记:粤语文句的情报挖掘】

在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...个人分类: 立委科普|2167 次阅读|4 个评论

【20】2011 信息产业的两大关键词:社交媒体和云计算李维 2012-2-1 16:45我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, ...个人分类: 立委科普|1170 次阅读|没有评论

【21】社会媒体比烂,但国骂隐含舆情热度 3 李维 2012-3-20 03:59本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 ...个人分类: 立委科普|978 次阅读|3 个评论

【22】立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷热度 3 李维 2012-5-1 13:59词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 ...个人分类: 立委科普|1585 次阅读|4 个评论

 

分享【23】比起英语,汉语感情更外露还是更炽烈?李维 2012-4-28 04:29Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普|1158 次阅读|没有评论

【24】社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?热度 1 李维 2011-11-22 14:23“三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普|1630 次阅读|1 个评论

 

分享【25】科研笔记:开天辟地的感觉真好李维 2011-10-30 01:40刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 ...个人分类: 立委科普|1262 次阅读|没有评论

【26】《科普随笔:机器八卦》李维 2011-10-14 17:09机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普|863 次阅读|没有评论

【27】言多必露,文本挖掘可以揭示背景信息热度 1 李维 2011-7-11 01:03言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X -- X (student, t ...个人分类: 立委科普|939 次阅读

分享【28】《立委科普:机器八卦》李维 2009-12-23 06:45机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 ...个人分类: 立委科普|5095 次阅读|没有评论

【29】《朝华午拾:信息抽取笔记》热度 1 李维 2009-12-12 08:33《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 ...个人分类: 立委科普|2071 次阅读|

【30】【立委科普:信息抽取】热度 1 李维 2009-12-12 08:35【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 ...个人分类: 立委科普|3013 次阅读|4 个评论

分享【31】【立委论大数据博文汇总】草稿李维 2014-1-12 01:28为准备一个大数据的书面发言,今天把自己过去两年在科学网【 立委科普 】和【 社媒挖掘 】专栏里发的有关大数据的博文扫了一遍,共计篇,洋洋洒洒 言。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。 【立委论大数据博文汇总】 立委科普 | 编辑 ...个人分类: 社媒挖掘|没有评论

 

分享【32】“大数据与认识论”研讨会的书面发言草稿李维 2014-1-11 19:27【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。上次愚人节应中文信息学会邀请在软件所做了一个题为【】的演讲,科学网编辑还特 ...个人分类: 社媒挖掘|没有评论

 

分享【33】【大数据挖掘:微信(WeChat)】热度 1 李维 2014-1-8 19:26上帝给人类的礼物,一软一硬两个。硬的叫 iPhone(爱疯) ,软的叫 微信(英文品牌叫 WeChat) 。 都是颠覆世界,改变我们生活的移动互联网杀手产品,一旦用上,就让人离不开。 即便是上帝的礼物,也仍然会有人抱怨。因为有抱怨,才会有进步和升级。有朋友在微信团队,都是特别精明虎虎生气的年轻人,说,你给我们 ...个人分类: 社媒挖掘|541 次阅读|1 个评论

 

分享【34】【大数据解读:方崔大战对转基因形象的影响】热度 3 李维 2014-1-7 06:29据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。 下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度 (mentions) 一年的趋势 ...个人分类: 社媒挖掘|327 次阅读|3 个评论

 

分享【35】 【大数据挖掘:方崔大战一年回顾】(更正版)热度 17 李维 2014-1-6 09:12对博文 【大数据挖掘:方崔大战一年回顾】 2014-01-05 的 更正是: 去了“苦逼小崔” (白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude) ,加了中文 繁体 。 (调查时间比前一次也后了一天。) 本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twit ...个人分类: 社媒挖掘|2300 次阅读|20 个评论

 

分享【36】【大数据挖掘:转基因一年回顾】热度 2 李维 2014-1-6 05:42转基因大战提升还是损害了转基因的网络形象? 日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 ),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 ...个人分类: 社媒挖掘|439 次阅读|2 个评论

 

分享【37】【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】热度 2 李维 2014-1-6 00:54Re: 你的软件有bug。 5-7月,崔永元主要在忙公益基金的事情。 当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。 上篇挖掘 崔方大战一年的形象变化曲线 ,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in ...个人分类: 社媒挖掘|454 次阅读|2 个评论

 

分享【38】【大数据挖掘:方崔大战一年回顾】热度 4 李维 2014-1-5 18:11以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。 据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。 挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与 ...个人分类: 社媒挖掘|439 次阅读|9 个评论

 

分享【39】【大数据挖掘:中国红十字会的社会媒体形象】热度 1 李维 2014-1-4 20:27在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往 ...个人分类: 社媒挖掘|325 次阅读|1 个评论

 

分享【40】 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】热度 6 李维 2014-1-3 20:12中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢? 终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。 这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面 ...个人分类: 社媒挖掘|1235 次阅读|7 个评论

 

分享【41】【大数据挖掘:转基因英文网络的自动民调和分析】热度 3 李维 2014-1-3 18:23前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。 ...个人分类: 社媒挖掘|485 次阅读|3 个评论

 

分享【42】预告:转基因过去一年社会媒体口碑的自动民调正在进行中李维 2014-1-3 06:21将公布细节,先把 summary 发布如下:个人分类: 社媒挖掘|262 次阅读|没有评论

 

分享【43】 只认数据不认人:IRT 的鼓噪左右美国民情了么?热度 3 李维 2013-12-30 06:27套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》 当然,还有上帝: In God We Trust. In everyone else we need data. 大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也 ...个人分类: 社媒挖掘|918 次阅读|10 个评论

 

分享【44】 大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》热度 7 李维 2013-12-26 22:30走进“大数据”——洗衣机寻购记(上) 长城战略咨询 2013-04-05 阅读次数:529 分享到: 前 言 当我们准备购买一件商品的时候,品牌、功能和价格等都是我们需要考虑的因素。然而,当我们面对琳琅满目的货架,众多的品牌和多种多样的功能组合时,又让我 ...个人分类: 社媒挖掘|949 次阅读|7 个评论

 

分享【45】 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么热度 13 李维 2013-12-26 02:25既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。 这次挖掘仍然是最近一个月的英文社会媒体,区间为: GM food, 11/25/2013 - 12/25/2013 Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?): GM food genetically modified transgenic transgene geneti ...个人分类: 社媒挖掘|1827 次阅读|11 个评论

 

分享【46】 关于转基因及其社会媒体大数据挖掘的种种问题热度 12 李维 2013-12-25 07:55没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】 ),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意 ...个人分类: 社媒挖掘|1264 次阅读|13 个评论

 

分享【47】 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】热度 48 李维 2013-12-24 06:47从英文社会媒体对 转基因食品 大数据 调查 显示,其 评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。 但褒贬双方的激烈程度(passion 指标为零)远不如国内。 这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。 ...个人分类: 社媒挖掘|11191 次阅读|66 个评论

 

分享【48】Social media mining: Teens and Issues李维 2013-9-9 21:36As is well known, the teenager years are a special and important period of growth for children, or young adults, to be more precise. It is growing pain, mixed with joy. It is often a rebellious phase when both parents and teens find it difficult to communicate with each other. Thi ...个人分类: 社媒挖掘|542 次阅读|没有评论

 

分享【49】【微博自动民调:薄熙来、薛蛮子和李天一】热度 2 李维 2013-8-30 09:33Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and w ...个人分类: 社媒挖掘|898 次阅读|2 个评论

 

分享【50】池鱼失火,殃及城门:USC 足球队拖累 USC热度 2 李维 2013-8-16 23:27写了两篇舆情挖掘博文,言之凿凿说 USC (南加大) 口碑不好,因为民间舆论认定它 overrated,名不副实。有网友指出: USC跟UCLA的mentions大部分都是在講football, 譬如說overrated大部分是指football team從preseason no.1掉到unranked這件事..... 我老外了不是?从来不懂不看美式足球,于是向女儿求证,女儿看了 ...个人分类: 社媒挖掘|927 次阅读|3 个评论

 

分享【51】【社媒挖掘:加州大学舆情详析 UCLA/UCSD vs USC】热度 1 李维 2013-8-16 17:17加大(UCs)是美国有名的公立大学系统,尤其以加大伯克利(UC Berkeley)最为国内所称道。其实,加大洛杉矶分校(UCLA)也很有名,几乎与伯克利比肩。而加大圣地亚哥(UCSD)一般认为是加大的老三,据说学生过得蛮开心轻松,不象伯克利洛杉矶那么紧张,周末就驱车去墨西哥喝酒派对。最有意思的是,加大圣地亚哥在上次社交 ...个人分类: 社媒挖掘|790 次阅读|1 个评论

 

分享【52】 【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】热度 3 李维 2013-8-14 07:40今天一到办公室就被我们开发的舆情挖掘系统告知(alert),最近两天必胜客热议度急升(八月9日开始,今天为最)。是不是有什么特别事件发生? 前一阵子,他们出过一次“虾球广告”的公关危机,系统也及时发现了(参见 【社媒挖掘:大数据时代的危机管理】 ),幸亏他们处理及时,道歉诚恳,把事态平息了。今 ...个人分类: 社媒挖掘|2619 次阅读|3 个评论

 

分享【53】【自动民调:美国五所超级牛校(俗称 Magic 5)人气排名】热度 3 李维 2013-8-13 20:12接着练,看一看英文社交媒体与中文社交媒体对这五所超级牛校的人气排名是怎样的: 有意思的是,中文社交媒体的口碑普林斯顿最末;而英文媒体 普林斯顿(Princeton) 却高高在上,明显高过其他四所,虽然这所学校的中英文热议度都不如其他学校。而哈佛排名英文最末,中文也倒数第二,没想到啊。 中文口碑排名: 1 ...个人分类: 社媒挖掘|935 次阅读|3 个评论

 

分享【54】【自动民调:美国名牌大学人气排名】热度 1 李维 2013-8-12 16:46For the first time, the automatic survey of social media 1-year archive on some US brand name universities shows the rankings as follows, which are quite different from official ranking (Harvard and Caltech accidentally not included): 1. UCSD; 2.Chicago; 3. UPenn; 4. Carnegie Mellon ...个人分类: 社媒挖掘|794 次阅读|1 个评论

 

分享【55】 【社媒挖掘:大数据时代的危机管理】热度 2 李维 2013-6-28 19:46写下标题,突然意识到,这怎么看上去像是科学网超级名博陈安博士的卖瓜课题。陈博士,对不起了,不是抢您的风头,也不是砸您的饭碗,是纯粹撞车了。不是冤家不撞车,一来二去,保不定您就成了我的客户呢,也未可知。 Anyway,话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话 ...个人分类: 社媒挖掘|2555 次阅读|2 个评论

 

分享【56】 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀热度 4 李维 2013-6-21 03:18【研发笔记:粤语文句的情报挖掘】 实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。 首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人 ...个人分类: 社媒挖掘|2144 次阅读|7 个评论

 

分享【57】舆情挖掘用于股市房市预测靠谱么?热度 1 李维 2013-4-18 21:24Can social media sentiment mining be used for predicting stock/property market? I tried our Chinese system for that and it proved to be right. Is that pure luck or there is some value in using public opinions and sentiments to assist prediction of markets? 作为技术展示,曾经用中文社交媒体的舆 ...个人分类: 社媒挖掘|605 次阅读|1 个评论

 

分享【58】【舆情挖掘:房市总体看好】李维 2013-4-17 16:44回国期间我现场展示系统,问热点话题,有人说查查“房市”吧 于是我搜索了房市,无论是简体还是繁体的社交媒体,发现舆情指向都是“看好”两个大字主宰,就跟我上回查询A股类似(见 【『科学』预测:A-股 看好】 )。 因此目前似乎仍然是投资房市的好时机。 国内形势也很不错 ...个人分类: 社媒挖掘|735 次阅读|没有评论

 

分享【59】愚人节大数据演讲 无片无真 移山愚人热度 10 李维 2013-4-2 05:42就是累 累滩了 作者: 立委 (*) 日期: 04/01/2013 15:26:05 昨晚没怎么睡觉 准备 slides 讲演的 还有会谈的 再加工 讲演还好 时间是卡住了 qa 也有时间了 就是我本来是希望轻松搞笑一些的 结果还是自我感觉太严肃枯燥了些 感谢软件所孙教授,还有各位的光临 科学网四剑客,包括女侠迟菲等前来捧 ...个人分类: 社媒挖掘|957 次阅读|10 个评论

 

分享【60】【社媒挖掘:第一夫人光彩夺目赞誉有加】热度 2 李维 2013-3-25 21:03也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞 ...个人分类: 社媒挖掘|1066 次阅读|2 个评论

 

分享【61】 【社媒挖掘:“剩女”问题】热度 9 李维 2013-3-4 16:00

【社媒挖掘:“剩女”问题】

今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女 ...个人分类: 社媒挖掘|4061 次阅读|10 个评论

 

分享【62】《大数据时代的购物策略:洗衣机寻购记(3)完结篇》热度 1 李维 2013-3-3 05:30

 

Maytag Maxima 4.3 cu. ft. High-Efficiency Front Load Washer with Steam in Granite, ENERGY STAR Model # MHW7000XG 989.10/EAEachWAS989.10/EA−EachWAS1,399.0 0 LG Electronics 4.0 cu.ft. High-Efficiency Front Load Washer in Graphite Steel, ENE ...个人分类: 社媒挖掘|943 次阅读|2 个评论

 

分享【63】《大数据时代的购物策略:洗衣机寻购记(2)》热度 3 李维 2013-2-25 22:41洗衣机的选择:top loading 抑或 front loading? 作者: 立委 日期: 02/24/2013 23:35:39 本来我们是要放弃 front loading (镜先生考证,国内叫滚筒式)洗衣机,去选更容易清洁的 top loading (国内称作 波轮式 )的。可是如今大数据了,领导还是要看看二者的优劣,听听用户都怎么选择的。 于是挖掘 ...个人分类: 社媒挖掘|1067 次阅读|4 个评论

 

分享【64】 《大数据时代的购物策略:洗衣机寻购记(1)》热度 8 李维 2013-2-25 21:07ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With ...个人分类: 社媒挖掘|1996 次阅读|10 个评论

 

分享【65】【社媒挖掘:社会媒体眼中的陳水扁】草稿李维 2013-2-24 07:09系列最后个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【66】【社媒挖掘:社会媒体眼中的李登輝】草稿李维 2013-2-24 07:08个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【67】【社媒挖掘:社会媒体眼中的臺灣綠營大佬】草稿李维 2013-2-24 06:33除了在民眾輿論已經貶出局的在押阿扁外,民進黨大佬主要包括蔡蔡謝蘇(蔡英文、謝長廷、蘇貞昌),下面就看看社會媒體對這三位綠營大佬毀譽如何。 Cai COns CaiXieSuLEE LikesDislikes contr ...个人分类: 社媒挖掘|1 次阅读|没有评论

 

分享【68】【社媒挖掘:馬英九施政一年來輿情晴雨表】热度 2 李维 2013-2-23 20:07【 馬英九施政一年來輿情晴雨表 】 看點及分析: (1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會 ...个人分类: 社媒挖掘|567 次阅读|2 个评论

 

分享【69】【社媒挖掘:臺灣政壇輿情圖】热度 2 李维 2013-2-23 08:58今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他 ...个人分类: 社媒挖掘|691 次阅读|2 个评论

 

分享【70】【社媒挖掘:社会媒体眼中的米拉先生】热度 2 李维 2013-2-20 19:42

【社媒挖掘:社会媒体眼中的米拉先生】

免责声明:此片纯属戏作,敬请对号入座。 江湖上盛传的米拉先生生活素颜照 (1)先看概览,总体得分不坏嘛,20有1,是正能量,不独跌入 18层冰窖的小方 没法 望其项背 ,比 零度以下的开复老师 和韩少也强远啦: (2)网虫对镜子的情绪呢? &nbs ...个人分类: 社媒挖掘|630 次阅读|2 个评论

 

分享【71】【社媒挖掘:社会媒体眼中的李开复老师】热度 5 李维 2013-2-19 17:55

【社媒挖掘:社会媒体眼中的李开复老师】

据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公 ...个人分类: 社媒挖掘|1026 次阅读|5 个评论

 

分享【72】 【舆情挖掘:2013央视春晚播后】热度 3 李维 2013-2-15 04:50

【舆情挖掘:2013央视春晚播后】

春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从 ...个人分类: 社媒挖掘|1632 次阅读|4 个评论

 

分享【73】【舆情挖掘:年三十挖一挖央视春晚】热度 3 李维 2013-2-11 01:32【舆情挖掘:年三十挖一挖央视春晚】 日期: 02/09/2013 20:25:02 说不完道不尽的央视春晚。 一台节目三十多年来一直成为亿万人民过 年的大餐兼热门话题,这是人类历史上少有的文化现象。众口难调,央视春晚遭到批评指摘与其受到的赞扬和热议一样多。今年有了自己制造的工具,决定挖掘一下社会媒体对于春晚的舆论。 ...个人分类: 社媒挖掘|671 次阅读|3 个评论

 

分享【74】 【社媒挖掘:美国的枪支管制任重道远】热度 9 李维 2013-2-6 09:39

【社媒挖掘:美国的枪支管制任重道远】

美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥 ...个人分类: 社媒挖掘|1392 次阅读|13 个评论

 

分享【75】【社媒挖掘:《品牌舆情图》的设计问题】热度 3 李维 2013-2-3 00:57

【社媒挖掘:《品牌舆情图》的设计问题】

镜子先生在我的【社媒挖掘】专栏留言道: 褒贬度可以用别的颜色。 博主回复(2013-2-2 23:45) : 什么颜色好呢? 烈度用红色没问题。 褒贬在我们其他的图示中,是绿褒红贬。 不知道红色和绿色混合的颜色是什么(后注:黄色嘛,真是老糊涂了),可不可以用? 于 ...个人分类: 社媒挖掘|594 次阅读|9 个评论

 

分享【76】 【社媒挖掘:外来快餐店风光不再】热度 7 李维 2013-2-2 08:57

【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's ...个人分类: 社媒挖掘|1858 次阅读|9 个评论

 

分享【77】【社媒挖掘:中国手机市场仍处于战国争雄的阶段】热度 1 李维 2013-1-31 15:51

Chinese mobile phone market is found to be still in the stage of multiple vendors competing with each other with no single one clearly ahead of others. Even Apple iPhone is on a par, in terms of net sentiments and consumer passion, with HTC, Samsung, Nokia and Chinese brand Xiaomi d ...个人分类: 社媒挖掘|810 次阅读|1 个评论

 

分享【78】【社媒挖掘:糟糕透顶的方韩社会形象】热度 1 李维 2013-1-31 05:35

【社媒挖掘:糟糕透顶的方韩社会形象】

刚刚学会用图示来表达社会情绪(passion index),看看方韩一年来的总体社会形象吧,非常糟糕。 takeaways 1. 两人社会形象都相当负面,接近底线,小方更是过了冰点。事实上,小方的负面评价是如此之多,与其正面评价完全不成比例,以至于如果严格按照净情绪(net-sentiment,即正面减去负面的一个情绪指标,作为 ...个人分类: 社媒挖掘|587 次阅读|1 个评论

 

分享【79】【社会媒体:现代婚姻推背图】李维 2013-1-11 05:23

【社会媒体:现代婚姻推背图】

立委按:哈,【 爱情推背图 】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【 社会媒体:现代婚姻推背图 】。 【大众心理探究:婚姻】 日期: 01/09/2013 16:39: ...个人分类: 社媒挖掘|903 次阅读|没有评论

 

分享【80】 【社会媒体:现代爱情推背图】热度 8 李维 2013-1-10 08:31

【社会媒体:现代爱情推背图】

【大众心理探究:爱情】 日期: 01/09/2013 16:39:34 所挖掘的数据源:社会媒体过往一年(博客、论坛等) 爱情(简体)被提及三千万多次;繁体被提及 50多万次 繁简体的分别调查可以透露出大陆社区与台湾社区对待永恒话题“爱情”的有所不同的社会认知。 1. 爱情的关系概念 要点: ...个人分类: 社媒挖掘|3793 次阅读|9 个评论

 

分享【81】【微博不进门,真地急死人:关于南周事件】李维 2013-1-8 10:32不行不行,data 不够,最近一周提及南周才1万多次,没多少褒贬 什么时候微薄进来了,我就可以追踪任何热点了。 如今国内南周闹得沸沸 扬扬,我们系统中从海外 twitter 等及时更新的数据看,还没多少讨论 从这最近一周(元旦到一月八号)的数据挖掘看,主题事件(theme)倒是可以看出了 我的 中国梦& ...个人分类: 社媒挖掘|991 次阅读|没有评论

 

分享【82】【社媒挖掘:社会媒体眼中的财政悬崖】李维 2013-1-2 11:00

RE: What do these tell us more than we've known already? very good question: however, if it is known info, it confirms its validity 日期: 01/01/2013 11:11:49 it builds the users' (and developers') confidence in the automatic summerization of the computer processing of t ...个人分类: 社媒挖掘|644 次阅读|没有评论

 

分享【83】Social media mining: 2013 vs. 2012李维 2013-1-1 16:08

Let us have a look at the past year 2012, which is more associated with the hardest year in people's mind than a good/best year.个人分类: 社媒挖掘|838 次阅读|没有评论

 

分享【84】新年新打算:【社媒挖掘】专栏开张大吉热度 2 李维 2012-12-30 04:37

 

社会媒体印象(词云) 【立委按】我有一位很谈得来 ...个人分类: 社媒挖掘|747 次阅读|2 个评论

 

分享【85】【科学技术之云】李维 2012-12-29 17:55

【科学技术之云】

老朋友来函: “ 李维老师您好。社会媒体测试很有意思,我是科盲不太了解其机理,能否测试一下科学、技术等关键词,我想会有很有启发性的。谢谢。 ” 其实,我们做社会舆情自动监测挖掘的,主要是服务于企业客户对品牌形象的情报需求,着重了解客户对于品牌/产品的褒贬评价。延伸下来,也可用于热点话题的追踪以及公众人 ...个人分类: 社媒挖掘|746 次阅读|没有评论

 

分享【86】新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】热度 1 李维 2012-12-29 16:22

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【五】 方舟子和韩寒,谁的名声更臭? 关于方韩,以前做过较小规模的社会媒体测试 ( 方寒大战高频情绪性词的词频分析 ; 方韩大战的舆情自动分析:小方的评价比韩少差太多了 ), 年终了,该是扩大规模给这两位互联网枭雄盘点一下社会形象的时机了。 需要说明的是,这次的测试规模虽然较大,但是社会 ...个人分类: 社媒挖掘|863 次阅读|1 个评论

 

分享【87】新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】热度 1 李维 2012-12-29 15:11

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国 ...个人分类: 社媒挖掘|952 次阅读|1 个评论

 

分享【88】新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】热度 1 李维 2012-12-29 13:25

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

【三】 舌尖上的中国 美食纪录片《舌尖上的中国》把国人的食物和文化唱红到全世界。中国美食很火、很美。 最大的特点你猜猜是什么?不是辣,不是甜,而是 酥!个人分类: 社媒挖掘|613 次阅读|1 个评论

 

分享【89】新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】李维 2012-12-29 13:12

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

【二】 林书豪 / 林書豪 林书豪刮起的林旋风是2012一大热点,受到无数粉丝的相信、喜欢、支持和欣赏。 华人世界虽然以他的华裔背景而骄傲,他的最突出的特点却是美国人。 林书豪的伤病及恢复引起了广泛的关注。个人分类: 社媒挖掘|669 次阅读|没有评论

 

分享【90】新鲜出炉:2012 热点话题五大盘点之一【吊丝】李维 2012-12-29 12:57

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

【一】 吊丝/屌丝 吊丝男们向往的是 白富美 的 女神 ,嫉妒的是 高富帅 ; 女吊丝则向往的是 高富帅 ,嫉妒的是 白富美 。 吊丝的情绪最 为难 , 伤不起 。吊丝的印记是 注定孤独 , 哭 ,且 撸 。( 撸 何?how why? ...个人分类: 社媒挖掘|732 次阅读|没有评论

 

分享【91】WordClouds: Season's sentiments, pros & cons of Xmas热度 1 李维 2012-12-26 15:35

Most every hot topic coming to my mind these days, I will check our social media system to see how social media reflects it. Word clouds are intriguing vehicles to present the common social image. Most word clouds generated by other systems are based on statistics of keywords mentioned ...个人分类: 社媒挖掘|804 次阅读|1 个评论

 

分享【92】圣诞社媒印象: 简体世界狂欢,繁體世界分享。李维 2012-12-26 05:27

圣诞社媒印象:简体世界狂欢,繁體世界分享。

狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折!个人分类: 社媒挖掘|687 次阅读|没有评论

 

分享【93】尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?李维 2012-12-14 15:41

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有 ...个人分类: 社媒挖掘|1518 次阅读|没有评论

 

分享【94】社会媒体测试知名品牌百度,有惊人发现热度 2 李维 2012-12-13 08:54

社会媒体测试知名品牌百度,有惊人发现

今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post a ...个人分类: 社媒挖掘|888 次阅读|3 个评论

 

分享【95】【凡事不决问 social:切糕是神马?】热度 1 李维 2012-12-5 03:14

【凡事不决问 social:切糕是神马?】

鼓捣出个中文系统,尽管只是个 alpha 版,处理对象也还很有限(微薄还没进来),但也自动分析了数不清的帖子,大体的舆论情绪还是可以客观反映吧。 于是,如今遇到任何事或物,不去维基,不去百度,先去问问自家的系统,看看此物(事)在公众中的 形象/印象 如何。 这不,最近流行【切糕】,不懂这个貌似家常食品的词 ...个人分类: 社媒挖掘|815 次阅读|1 个评论

 

分享【96】【『科学』预测:A-股 看好】热度 1 李维 2012-12-4 13:37

【『科学』预测:A-股 看好】

有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续 ...个人分类: 社媒挖掘|748 次阅读|1 个评论

 

分享【97】【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】热度 1 李维 2012-11-14 07:24

【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】

哈哈,终于把 fonts 弄对了,今天测试中文系统,iPhone/爱疯 的词云满漂亮嘛 日期: 11/13/2012 17:17:43 褒贬情绪词大体都抓对了啊,是不是? 同事看到我手舞足蹈,说:香槟呢?快上香槟! 放大一点儿看仔细:这是客户对iPhone的情绪 (绿色为褒,红色为贬,社会媒体的用语果然有特色哎 ...个人分类: 社媒挖掘|720 次阅读|1 个评论

 

分享【98】奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。热度 1 李维 2012-10-18 15:54

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence 民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人 气曲线表明他几乎在所有议题上领先罗梅尼。 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经 济表现(6:55pm);二是批判他对中国不够强硬 ...个人分类: 社媒挖掘|1209 次阅读|1 个评论

 

分享【99】社会媒体舆情自动分析:马英九 vs 陈水扁李维 2012-9-29 16:51Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对 ...个人分类: 社媒挖掘|830 次阅读|没有评论

 

分享【100】方韩大战高频情绪性词的词频分析热度 3 李维 2012-9-21 06:49方 韩 大战高频情绪性词的词频分析 作者: 立委 (*) 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2% ...个人分类: 社媒挖掘|1107 次阅读|3 个评论

 

分享【101】舆情自动分析表明,谷歌的社会评价度高出百度一倍李维 2012-9-8 20:32拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a ...个人分类: 社媒挖掘|987 次阅读|没有评论

 

分享【102】方韩大战的舆情自动分析:小方的评价比韩少差太多了热度 1 李维 2012-9-8 20:11非常初步的有限范围试验表明,方韩大战(其实也没有真大战过,基本是小方的单方面攻击,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动, ...个人分类: 社媒挖掘|1552 次阅读|1 个评论

 

分享【103】研究发现,国人爱说反话:夸奖的背后藏着嘲讽热度 1 李维 2012-9-8 19:45

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In thi ...个人分类: 社媒挖掘|892 次阅读|1 个评论

 

分享【104】立委统计发现,人是几乎无可救药的情绪性动物热度 1 李维 2012-7-28 15:28立委跨语言统计发现,人是几乎无可救药的情绪性动物 作者: 立委 (*) 日期: 07/27/2012 12:58:29 最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要 ...个人分类: 社媒挖掘|1152 次阅读|1 个评论

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-758230.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

 

3  曹聪 陈辉 tuner

发表评论评论 (1 个评论)

删除 回复 |赞[1]mirrorliwei   2014-1-12 08:03
有这样的汇总好。毕业时老师在祝词中说:竹子结实、长得快,都靠结点的功劳。这样的分类也是结点。各学会也可以把流行的话题汇总为会员们提供科研的方便。

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过(屏蔽留存)

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

屏蔽已有 4784 次阅读 2014-6-16 14:57 |个人分类:社媒挖掘|系统分类:科研笔记| 跨国公司, 沃尔玛, 挖掘, 社会媒体, Walmart

最近用自家产品做了一次关于沃尔玛的自动调查,总体来看,沃尔玛这个品牌似乎蛮受欢迎的,正面评价为主,褒贬指数达到正48,是相当不错了。指责抱怨也有,主要针对一些负面事件(狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等)。进一步挖掘(drill down)发现了令人惊奇的现象:好话大多是网民自发的评价,而挖掘出来的负面信息几乎一律出自国家新闻机构(CCTV等)的报道。社会媒体挖掘的本意是自动民调,了解客户对于品牌和产品的意见,正式新闻有机构或国家宣传的因素在,是应该加以区分的。可是目前,这种区分还做得不好,很多有影响的传统媒体的新闻被反复在社会媒体中转发传播,与民意混杂在一起。

Some further analysis and findings:

 

1.       The existing data are not very large (400k mentions a year), but the results make sense with decent data quality

2.       From geos stats, we know most data on Walmart come from China (dark color) instead of overseas sources

3.       From domains stats, the data actually include data from Sina Weibo (weibo.com) and Tencent Weibo (t.qq.com) although the data flow from these two important Microblog sources is not stable at this point.  Also the domains stats show that the major domains are all from China.  I know that Walmart is a very influential brand in China and has many stores in cities of China.

4.       The net sentiment 48% is fairly high, which is reflected in the emotions stats (data quality very good): big green fonts emotional terms include  放心 (piece of mind),喜欢 (like),乐 (happy),支持/推 (support),很好 (very good), 不错(not bad),成功 (success) etc.  The negative emotional words (in small red font) are not many, including  差劲 (bad),抱怨 (complain),不喜欢 (dislike),垃圾 (garbage),很一般 (very so-so: meaning not as good as expected).

5.       In the proscons word cloud, the likes include money-saving (省钱/便宜)and first-class service(服务一流); more interesting insights come from the dislikes, including (1) fake beef (using fox meat 狐狸肉事件); (2) recall (召回some product?); (3) cheating(欺诈);  (4) scandal(丑闻) etc.

6.       In order to drill down to see what negative incidents led to the above dislikes, the Walmart_con_sample shows some related sound bites which look like negative news on some incidents:  1st sound bite reports CCTV news on Walmart’s fake alcohol and fake meat (using fox meat) incidents;  2nd sound bite reports using fox meat to fake beef and donkey meat and using chicken to fake beef in the sold burgers at its Sam’s Club;  the third sound bite reports three incidents of Walmart at different times and its apologies, including using cheap frozen meat to fake organic green food; using cheap fox meat to fake beef; and its lack of quality control in importing low quality products for sale, having issued 200 permits within 7 years for disqualified products to be on shelf.

7.       Note that the above sound bites are selectively collected to show that our system can indeed capture detailed negative incidents of the brand in the media.  When I drill down, there are quite some duplicates in our sound bites (one bad news gets re-posted everywhere);  another thing is that the negative comments are not mainly from social media users, but from news (state-run news which get posted in social media too).

8.       Unlike the overwhelming positive terms in emotions word cloud and the summary, the behavior word cloud shows more or bigger negative behavior terms than the positive terms.  This is understandable because of the heavily reported incidents as shown above in the sample sound bites.    Eye-catching negative behavior terms include “revealed”(被曝), “take to court”/”being sued”(告上法庭); “closed”(关闭); “have to take off shelf” (下架)etc.

9.       From the above negative behavior terms, I drilled down to see more details in the sample sound bites below,  which is similar to the sample discussed in 6.  These two sound bites both come from negative news of Walmart, which originated from traditional news and got spread all over Internet.  

 

中国新闻媒体对美国的跨国公司的负面报道跟民意没什么关系,倒往往由某种国际关系的大气候所致。当年为了打压谷歌,硬是给谷歌搜索按上了黄色监管不力的莫须有的大帽子,无视国内的搜索、视频和很多其他网站黄色泛滥到令人发指的露骨程度。欲加之罪,何患无辞。

不仅如此,最近还听说,由于中美相互指责对方利用网络偷窃情报,IT 业关系恶化,以至于谷歌和苹果等公司在中国遭到进一步打压,连做学问的信息利器 Google Scholar 都被封杀了。造孽啊,城门失火,殃及池鱼。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-803837.html

上一篇:世界杯是全世界的热点,纵不懂也有义务挖掘一哈
下一篇:《李老夫子遗墨》主要编纂者何秀柏后人网上留言存录

 

10  武夷山 李世春 章成志 孙平 陈筝 周云圣 强涛 高建国 fumingxu bridgeneer

发表评论评论 (13 个评论)

删除 回复 |赞[10]davidli91   2014-6-17 13:17
唠叨几句个人意见,仅供参考:

博主回复(2014-6-17 02:07):对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音,技术手段终究可以对付。
......五毛因为只拿五毛,急工出糙活,应该有迹可寻的。反过来看,一个“有实质内容”的帖子,出自五毛的可能性极低。......
......一般而言,认证客户至少要顾及自己的信誉。 ......
=====================
"凡是程序自动做的噪音,技术手段终究可以对付。"---完全同意。
而后两点,有待商榷:
因为简单粗糙的五毛评论(读者还是可以区分一点的)给"雇主"带来的不是"美誉度"而是"毁誉度",故此,做新媒体推广的广告公司中的招商文稿中往往会特别声明是“有实质内容”的,或由“大V”推广!当然,要价也高出了很多很多。
还有就是往往不是一次性集中发多少评论,而是一段时间内发多少篇等等,“定价规则”很灵活。

感觉做民调,要特别注意“沉默的大多数”,才不会走偏。

大数据<>高准确性(高可信)!

科学的做法应该是考虑样本群体与对象群体的差异才有意义,特别是在差异巨大时。
就拿大型超市而言,相信绝大多数顾客不会因为买到了一件低价的商品而去某个网络媒体给个好评(潜意识中大型超市应该低价?),只有有了矛盾,才会感到“店大欺客”,想去找个地方“说理”。因此,排除“官方噪声”,差评>>好评似乎应该是正常现象。
再拿所谓的“淘宝信用”来说,用真实的快递单(最有实质内容了)来刷淘宝店信誉已成了公开的“行业秘密”;因此,又有了“天猫”,“1号店”等等的诞生。

删除 回复 |赞[9]刘灵通   2014-6-16 17:09
李维老师,恕我愚钝,找不到线索... 最小线索都找不到。。。 
 回复  : 这就对了。这是科学网,探讨科学技术的地方。我只管技术,力求做全世界最好的技术。技术做出啥产品,产品卖得如何,无需我操心,更不用我广告。再说了,科学网这地儿,都是书生,能用得起高技术产品的,寥若晨星。

2014-6-17 01:461 楼(回复楼主)赞|回复

删除 回复 |赞[8]刘灵通   2014-6-16 15:59
"最近用自家产品做了一次" 请问李维老师,“世界杯是全世界的热点,纵不懂也有义务挖掘一哈”也是“自家产品”的杰作么? 那么这个“自家产品”能否给个线索让我了解了解.  
 回复  : 有意不做品牌宣传。不想让人觉得在做广告。
别处可以查到的。

2014-6-16 16:141 楼(回复楼主)赞|回复

删除 回复 |赞[7]davidli91   2014-6-16 15:42
[6]李世春  2014-6-16 15:36   
尖端课题,如何从大数据中剔除五毛的贡献?
=====================
确实不易,再多说一点点:
"单纯好评"的"单价"和"短文好评"的"单价"要差10倍左右。"雇主"也知道要"优质优价"的。 
 回复  : 对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音,技术手段终究可以对付。

而五毛则麻烦多了。如果人都区分不了谁是五毛,谁是良民,那么也别指望机器了。不过,五毛因为只拿五毛,急工出糙活,应该有迹可寻的。反过来看,一个“有实质内容”的帖子,出自五毛的可能性极低。怎么裁定“有实质内容”呢,信息论的指导可以帮助分类识别内容的丰富程度。这也是一条思路。

再一点,五毛由于工作的本性,是不可能成为认证用户的。在大数据条件下,也可以只采样认证客户的帖子,以确保不受水军五毛的影响。一般而言,认证客户至少要顾及自己的信誉。

2014-6-17 02:071 楼(回复楼主)赞|回复

删除 回复 |赞[6]李世春   2014-6-16 15:36
尖端课题,如何从大数据中剔除五毛的贡献?

删除 回复 |赞[5]davidli91   2014-6-16 15:30
[4]李世春  2014-6-16 15:26    楼下?
大公司也雇佣五毛?
============
五毛的主力“雇主”是财大气粗的主。不然,这个行业早死了。 
当然,“雇主”会和一个广告公司签一个XXX形象推广合同。 

删除 回复 |赞[4]李世春   2014-6-16 15:26
楼下?

大公司也雇佣五毛?

删除 回复 |赞[3]davidli91   2014-6-16 15:23
"好话大多是网民自发的评价",  您知道发一个好评多少钱吗?大公司有公关部的。 

删除 回复 |赞[2]李世春   2014-6-16 15:21
这个吗?

天知地知你知!'

删除 回复 |赞[1]fumingxu   2014-6-16 15:13
怎么挖掘的?不明觉厉!

[转载]ZT:牛津大学王宁博士:大数据与有限理性(屏蔽留存)

[转载]ZT:牛津大学王宁博士:大数据与有限理性

屏蔽已有 3069 次阅读 2014-8-16 23:10 |个人分类:社媒挖掘|系统分类:人文社科| 大数据, 牛津大学, 股市预测, 有限理性, 王宁博士 |文章来源:转载

  • 大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。

  • 云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“信息孤岛”的问题?

  • 大数据又将如何提高我们决策的准确性,帮助我们更准确地预测未来?

牛津大学互联网研究院研究员王宁博士分享了《大数据与有限理性》。

大数据与有限理性

要生存还是要毁灭,这是个值得思考的问题,它道出了我们所有人一个共同的难题,就是选择,很多人都惧怕选择,有些人有选择恐惧症,特别是面对一些关于人生、事业、爱情这种重大选择的时候,我们往往看不清楚未来,算不清楚得失,不知道该怎么选,有时候非常纠结。上至一个国家的领导人,大政方针的制定者,再至很多公司的管理层,最后到普通的老百姓,选择可能都是每天需要面对的一个问题。

人类是如何进行选择的呢?早期的经济学家认为人类是理性的,这也就是亚当·斯密在《国富论》中论述的,市场是一只看不见的手,每个人在他个体利益最大化的同时也达到整个群体的利益最大化。然而经济学家可能往往都生活在理性的乌托邦中,当我们的脑科学家在解剖,打开人的大脑后,发现人的大脑是一个异常复杂的系统,是一个复杂性网络,它可能有上亿个节点,可能是迄今为止最复杂的一个系统,正是因为它的复杂性导致了人类很多的行动都是不可知的,也是不可预测的。所以,从另一个方面讲是非理性的。

我们今天讨论的可能是一个有限理性的理论,行为经济学理论,介于理性和非理性之间,人类的理性受制于很多外部条件的限制,最重要的外部条件就是信息,你获取到什么样的信息将直接影响到你所做的选择。

2013年4月23号黑客给Twitter发布了一条虚假信息,白宫有两次爆炸,奥巴马受伤,我们可以看到美国道琼斯指数在相同的时间段应声下跌近140点,这也可能是人类历史上第一次通过社交媒体影响到整个股市行情的崩盘。

信息会影响股市的走向。波士顿大学的一个研究团队分析了从2004年到2011年道琼斯指数走势跟谷歌趋势的相关性,每次股市剧烈的变化伴随而来的都是搜索量急剧的增加。

利用这个策略,他们设计了一个基于谷歌搜索引擎的交易策略,这个策略使用的一个关键词就是“负债”。这个交易策略很简单,当搜索引擎的数据量减少的时候,我们就可以买进下一个星期的道琼斯指数,当搜索量增加的时候,我们卖出下一星期的道琼斯指数。

我们可以很明显地看到蓝色的线是谷歌的交易模型创造的,如果套用这个交易模型,最终它的投资收益率是300%,你投资一块钱,最后能够收回三块钱。红色的线就是你买了这个指数之后一直放在那儿,实际上收益是非常低的。这证明搜索引擎,包括社交媒体的很多东西能够帮助人类做很多决定,也就是今天汤道生先生谈到的怎么利用大数据帮助人类做一些决定。

相同的研究还包括一篇发表在《自然》杂志的文章,关于面向未来的指数,它做的方式是利用搜索量,比如今年的搜索量,明年的搜索量和前年的搜索量。它用明年的搜索量除以前年的搜索量,未来的数据除以过去的数据,这个数据就是基于未来的指数。

通过相关的模型,我们可以发现这个基于未来的指数跟每个国家的GDP有很好的正相关性,从另一个方面讲,当一个国家的国民或者网民更加的偏向于搜索未来的东西,那这个国家的经济情况往往是比较好的。

2012年我跟牛津大学互联网研究院(OII)的一个同事马克一起做了一个基于英国洪水的可视化分析,可以看到在大家左手边的这个是英国官方气象局的一个降雨量的分析,而右边是我们把所有的相关时段内在Twitter里跟洪水相关的信息下载了之后分布到地图上。我们可以看到在一些洪水特别泛滥的地区,我们的图形跟英国的官方的图形有很好的吻合,但是有很多地方也是没有的,可能网上没有这种信息。但是好处是我们数据是实时的,能实时分析出洪水分布的情况,官方的数据可能要等到好几个星期以后。所以,社交媒体的很多数据能帮我们做一些自然灾害预防的决策。

2012年我们做过一个关于美国大选的分析方案,当时美国有两个候选人,罗姆尼跟奥巴马,我们把所有大选之前一个月的跟罗姆尼和奥巴马相关的Twitter上的信息都下载之后,按美国每个区的分布做成了一个可视化图。大家都知道美国的总统选举是选举人制度,就是根据每个州的投票所决定的,我们在美国大选之前已经明显的可以看出网上讨论奥巴马的要远远大于讨论罗姆尼的,基于此我们预言奥巴马的胜算更大一点儿,我们把提到奥巴马的数据和罗姆尼的数据进行对比,52.4%有关于奥巴马,47.6%有关于罗姆尼。下面是大选之后官方的数据,两个数据有很大的相似性。

当时我们这个结果发布出来以后,很多政治评论家都怀疑,说罗姆尼不可能赢得马萨诸塞州的选举。而且奥巴马赢得得克萨斯州的选举也是很多人预测不到的,但是最后结果证明我们的数据对这两个州的分析都是正确的。

Facebook做了一个关于社交网络中人的行为传播的实验,号称是迄今为止最大的一个实验,分析了六千万人的样本,也是美国大选期间,每个人投过票之后可以在Facebook上发布一个消息,Facebook的分析员把人的亲疏关系分成十等,数据越大证明你跟这个人越亲密,10就代表人跟人的关系非常亲密,我们可以通过这个图看到当亲疏关系增加,人跟人的影响力也是在增长的,越亲密它的传播跟影响就会越大。这样我们每个人做的决定,不但影响到你,有可能你这个决定还会影响到别人。比如我更加倾向于投奥巴马,有可能周边的人也更加倾向于投奥巴马。

之前谈了很多大数据的应用,都是很正面的东西,这里我想提两点,大数据研究的风险。

首先,第一个风险是数据的误读,谷歌流感的分析提的很多了,特别是牛津互联网研究院维克多教授《大数据时代》的开篇就以这个案例作为大数据成功应用的典型,但是我们仔细地看这个大数据分析,2012年和2013年之间这一根红色的线就是谷歌流感的数据,绿色的是美国官方疾病控制中心的数据。在2012年至2013年的6、7月份,谷歌流感的数据远远大于疾病控制中心的数据,所以,我们如果基于谷歌的数据做一些预判、风险的预防,有可能导致预判错误,有些网上的数据有可能是夸张地显示出了实际生活的一些情况。

另外一个例子,我们进行大数据研究时,很多学者都忽略了一个最根本的问题就是偏差的问题,这是我们今年发表的一篇文章,我们研究了三个不同的数据库,针对同一种关键词用不同的方法提取,最后我们得到三种不同的数据库。我们把这三个不同的数据进行比较,然后计算各个数据跟各个数据之间的相关性,我们发现这种相关性随着时间的流逝是有变化的,也就是说从另一个方面理解,当三个不同的学者在做一个同样的研究,有可能你用不同的方法,不同的数据采集方式,最后提取的数据不同。你再基于这种数据做出很多的结论,有可能这个结论到最后是有偏差的,而这个偏差是基于数据的,有可能蕴藏于你原始的数据之中。

我们人类在很长一段时间,因为互联网到现在也就几十年的时间,针对人类上千年的历史,人类在很长的时间处于信息稀缺的时代,我们很多决定的时候可能没有信息或者信息不够,就像今天汤道生讲的是一种近似于赌博式的方法,就像中国古代早期很多占卜的方式,没有什么好选择就去占卜、抽签或者利用龟壳的方式。大数据实际上对于人类做决定最重要的影响可能就是改变了这个现状。现在我们不是在一个信息稀缺的时代,而是在一个信息过剩的时代,我们每个人所有的行为模式、方法都会被映射到网上,不但你的,还有你朋友的,社交媒体的行为模式都被映射到网上,这个数据是源源不断的,我们不再担心数据不够,而更需要担心数据过剩的问题。

在传统的人类决策模型中,每个人做一个决定,这个决定转化为信息,它转化的方式更多的通过口传心授,比如你朋友买了一个什么东西,他告诉你,然后你去买,影响到你做决定。或者通过书本的方式,我们通过读书摄取之后转化成自己的知识,通过这个方式做决定,最后形成了一个反馈回路。但是大数据时代这个反馈回路可能要进行扩展。我们有了第二层外环的反馈回路,人类做决定之后,这些所有的决定都会被转化为数据,这就是我们所说的大数据时代,所有人的行为模式,各种各样的东西通过手机、无线互联网都会被转化为数据,这些数据通过大数据分析转化为信息,然后信息给相关的决策者,决策者通过这些信息做判断,这样形成另外一层的反馈回路,通过这种反馈回路的信息数据不停地循环,最后达到一个终极目的:会不会有可能通过机器取代人的位置,人类最大的一个难题可能就解决了,不是人去做,让机器去做很多决定。

谈到机器决定,现在用数据的模式让机器做决定也是非常热的一个话题,我们觉得机器做决定可能有三步走的方式。首先,第一步很明显,人自己做决定。而现在在大数据时代,更多的是人跟机器交互做决定,比如一些常规的决定,一些比较重复性的决定,都是通过机器来做,而人去做一些机器所不能做的决定。最简单的一个例子,你去信用卡公司买东西,你地址换了,信用卡公司会发现有可能是有人盗用你的信用卡,通过数据判断出之后他把这个信息转给一个接线生或者公司员工,这个员工会给你打电话,这就是一个典型的人机交互做决定的模式,人跟你谈完话以后决定到底是不是有人盗用你的信用卡,最后会不会有可能所有的决定都会让机器来做,今天时间有限,我可以在最后再跟大家讨论。

最后我想以一句话结束我今天的演讲,“数据是一种知识源,但是除非数据进行很好的组织加工,并按照正确的方式提供给正确的人进行决策,否则它就是一种负担,不是一种收益”。

==关于我们==

大数据实验室公众平台【ID:bigdata-lab】由资深大数据方向专业人士管理运营,观点聚焦于大数据领域,大数据实验室和顶尖的研究机构和诸多企业建立合作,并 汇聚了学界、商界、业界顶尖的智囊,为开拓者指点迷津。我们将精选大数据行业内最精华的文章或报告,汇聚专业精英,促进学习交流,互相提升思维的深度、广 度和高度。

大数据实验室致力于国内大数据领域投资,凡入选的初创企业将获得大数据实验室孵化基金提供的种子资金,将会有导师协助完善他们的商业模式,建立一个完整的核心团队,并进行初步的客户反馈和验证。感兴趣的创业团队或初创企业,可以通过以下方式与我们取得**。

感谢关注公众微信:bigdata-lab

也请推荐更多的朋友关注或添加!

**方式:

邮箱:[email protected]

QQ:361993695

微信:shangjingfu_nus

网址:www.bigdata-lab.com

新浪微博:大数据实验室

也可直接在对话框内给我们留言并留下您的**方式。

来源:http://chuansongme.com/n/588516 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-820065.html

上一篇:是家具?还是家俱?这是个问题
下一篇:到底社媒曲线与股市曲线有没有、有多少相关度?

 

1  张云

两年来中国红十字会的社会媒体形象调查(屏蔽留存)

两年来中国红十字会的社会媒体形象调查

屏蔽已有 3948 次阅读 2014-9-21 18:27 |个人分类:社媒挖掘|系统分类:科研笔记| 形象, 中国红十字会, 社会媒体

让数据说话,让专家解读。这里提供的是数据的各个侧面,是全自动对社会媒体调查的结果,没有人工参与。

调查的是2012年七月至今两年多(27个月)社会媒体样本对中国红十字会的评价(因为微博数据的 cost 很大,不能选择全样本)。虽然其间出了很多负面新闻,但总体形象分 net-sentiment 41% 显得相当正面,这一方面说明其公关危机处理可能有成效,另一方面很可能是得益于红十字会本身的慈善任务及其天生光环(下面有分析)。

148,889           Mentions
45,866,471      Potential Impressions
41%                  Net Sentiment
16,454              Positive
6,831                Negative
47,405             Unique Authors

从话题热度看,2013年五月是个大高峰,今年八月是个小高峰。从舆情看,去年七月跌得很惨,九月到谷底,另一个低点是今年七月。

我们先把调查聚焦在前后两个高峰区段,看看前后舆情的变化。

第一个区间选在去年四月到九月。

第二个区间是 7/7/2014 - 9/13/2014

现在我们回到过去27个月的总体调查数据上来,下列的信息挖掘都是过去两年多的数据基础上,有别于上面的两个时间区间。

2 相关关键词和话题:

3 网民情绪

舆情分析的指标之一是网民情绪,从下图看,情绪方面很激愤,中国红十字会受到很多“谴责”和“质疑”,骂他们“狗血”和“太臭”。

4 行为方面的挖掘也很不利,这个组织的慈善体系被郭美美等一干事件“摧毁”了。那个看上去正面的“接受(最大量的捐款)” 行为,drill down 看在语境中也是负面的,讽刺这个慈善组织的老大得钱最多,可做得很差。

行为这项指标也不及格。那么为什么总体评价还是正面多于反面呢?那是因为下面的优劣指标的比例造成的。

5 优劣指标抓取的是喜欢或厌恶的具体理由,这一方面是东风压倒西风,绿多于红:

需要说明的是,红十字会作为慈善组织,从本性和使命上说,它有天生的光环。提到红十字会,最多报道的是他们的“救灾”、“捐赠”等善举。加上一些媒体公关的正面宣传,这就把批评意见压倒了。

仔细看正反优劣的舆情评价,发现表扬的都是它的日常工作和套话,而批评的却辛辣得多,“饱受争议”、“侵吞”、“渎职”、“一落千丈” 等等。这样看来,前面的总体形象指数是偏高了。

6 这次调查的网民地理分布:自然是国内为主,但世界各地的华人都有不同程度的议论参与

7 此话题网民的男女比例:还是男网友吐槽多得多

8 关于数据来源和分布:

其中主要论坛:

主要的部落格是

主要的新闻类网站

前面说过,最重要的来源微博由于数据代价的问题,无法加入,这是一个相当的遗憾。另外,新闻类比重过大,可能冲淡了来自草根网民的舆情。前者只要有钱就可以弥补,不是系统能力的问题,而是研究项目谁买单的问题。后者在数据量大的时候,可以很容易排除掉,或分别考察对比。其实还有一个地理区分的角度,海外与国内舆情应该分开,这个也容易。业余做这个调查,懒得花更多时间了。

9. 吐槽样本

索性再花点时间把郭美美事件及其对红十字会的影响的民意舆情调查一下吧:

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-829629.html

上一篇:Social media mining on credit industry in China
下一篇:全球社交媒体热议阿里巴巴上市

 

5  周健 武夷山 王秀玉 XuexingLu bridgeneer

发表评论评论 (5 个评论)

删除 回复 |赞[4]王秀玉   2014-9-30 12:25
这个报告用了大量数据,说明中国红会在这27个月来的努力是有数据可查的!

删除 回复 |赞[3]王秀玉   2014-9-30 12:17
   太好了!

删除 回复 |赞[2]XuexingLu   2014-9-21 19:57
官方不说实话, 你猜也是白猜

删除 回复 |赞[1]周健   2014-9-21 19:12
李老师的软件很牛啊,赞!什么地方可以了解你的软件的更多信息?
 回复  : 谢赞。官网不做广告,不谈生意。总之是不便宜,目前这个模式知识分子一般使不起(零散的小生意不做)。

2014-9-21 20:171 楼(回复楼主)赞|回复

社媒挖掘:央视的老毕(屏蔽留存)

社媒挖掘:央视的老毕

屏蔽已有 3138 次阅读 2015-4-9 16:57 |个人分类:社媒挖掘|系统分类:人文社科| 毕福剑

Chinese TV star Bi Fujian caught on tape privately insulting Mao, which triggered a huge political debate in social media between the leftist and the rightist.  China is presently stuck between post-Mao era entering modern society with limited speech freedom (at least on private occastions) and the totalitarian government inheriting Mao's legacy, hence the regulatory pressure to the star himself suspending his job for 4 days. Bi's speech would have made him sentenced to death or life in prison in Mao's time.

这两天微信老有提到他,今晚美国中文电视也报道了,据说社会媒体闹翻天了,于是想到做个舆情自动调查。

本来是私底下对毛时代和毛本人的打趣开涮,没想到闹到了网上,加上这个话题对于左右两派的敏感性,一下成了热点。

下面是针对内容商给我们提供的一周简体中文社会媒体(可惜,不含微信:万能的微信,你什么时候在不侵犯隐私的情况下开放哪怕部分数据,好让民情上达周知?)的自动调查结果,用的是咱独家自然语言挖掘技术。

负面多于正面,老毕形象严重受损:

wow 够上纲上线的,倒退四十年,老毕有十个头也不够杀的:

一周的媒体热议曲线:

看一周褒贬度的图示如下,毕姥爷的社会媒体形象陡然下跌:

下面是一周的情绪烈度图,可见正反吐槽越演越烈:符合咱老中爱吵架的习惯

吐槽样本:

旗帜鲜明支持毕福剑!

你们可以继续喜欢毕福剑。

[哈哈] 毕福剑老好人?

旗帜鲜明支持毕福剑!

毕福剑没错

毕福剑快去死吧!

毕福剑, 骂的客观!

十分认真地支持毕福剑先生

立场坚定支持毕福剑!

毕福剑无罪

不喜欢毕福剑, 老流氓架势

鄙视毕福剑

毕福剑该死

毕福剑作死啊

支持毕福剑

毕福剑, 变化多端.

毕福剑火了!

毕福剑该出来道歉

感谢毕福剑敢于捅破了窗户纸

狗操的毕福剑, 去死吧

毕姥爷瞎说什么大实话

毕福剑交友不慎啊。

毕福剑为什么辱骂毛泽东?

毕姥爷叛国了·

毕福剑明天就死。

毕姥爷作死啊!

毕姥爷瞎说啥实话

应该引起重视, 坚决批判毕福剑。

支持毕福剑!

支持毕姥爷

央视的毕姥爷这下更火了。

毕姥爷威武

特别讨厌毕福剑

cctv就是仃办也不能再用毕福剑这样的流氓主持。

毕福剑此事定义准确!

毕福剑是民族英雄, 不畏强暴。

严惩辱骂毛主席的毕福剑

难道毕福剑真能一手遮天?

毕姥爷还是很有才的

毕福剑真的死了吗。

毕姥爷是在嫖娼吗

毕姥爷又火了一把

[哈哈] 毕福剑现象, 中央应该反思!

毕福剑言论不雅视频竟口无遮拦公然骂毛泽东

网上舆论因此哗然, 纷纷指责毕福剑当面一套, 背后一套。

毕福剑是真正男子汉, 正直中国人全支持他.

[哈哈] 毕福剑这样的党员在为谁歌唱!

毕福剑诋毁伟人和先烈必须严惩

[哈哈] 毕福剑的酒桌表演为什么不能容忍?

只怪毕福剑交友不慎, 好事者用心不良。"

这是毕福剑作死的节奏。

毕姥爷叛国了···

毕福剑并非第一次"惹事"。

不作死就不会死毕福剑原形毕露, 就是老兵里的垃圾。

毕福剑言论不雅视频, 竟口无遮拦公然骂毛泽东。

狗操的毕福剑, 被车撞死了。

我喜欢老毕

东北人支持毕福剑

开始支持毕福剑了

强烈要求央视开除侮辱谩骂毛主席的坏蛋毕福剑!

很喜欢毕福剑。

赞毕姥爷!

毕姥爷威武!

从此鄙视毕福剑......

从此鄙视毕福剑!

看来毕姥爷央视的饭碗堪忧。

[哈哈] 有人说毕福剑是酒后吹牛逼不必上纲上线。

毕福剑骂的太好了, 比我骂的有影响力。

喜欢这条评论毕福剑诋毁伟人和先烈必须严惩

话糙理不糙, 支持“毕姥爷”!

我还是觉得毕姥爷厉害来自QQ浏览器快速回帖

谁敢处分毕福剑必无好下场.

毕福剑的酒桌表演为什么不能容忍?

毕福剑嫖娼的日子不远了。

毕福剑公开侮辱人不用负责任吗?

面对公众人物毕福剑的信口开河你怎么看

毕福剑是媒体人的光辉榜样。

毕福剑侮辱领袖必遭鞭刑。

毕姥爷的形象瞬间伟岸起来。

毕福剑无罪, 发视频的应该重判

毕福剑, 死啦死啦的。

你毕福剑应该向全国人民谢罪...

毕福剑毕姥爷交友不慎遇人不淑, 被人陷害于不仁不义。

官媒: 毕福剑侮辱开国领袖应受公众的谴责图

央视大腕不能人模狗样毕福剑是媒体人的光辉榜样。

央视对毕福剑处理的越严重, 毕福剑的声誉就会越高;

毕福剑万岁, 万万岁.

 

资料来源:

【相关】

社媒挖掘:老毕私下辱毛事件再挖掘 2015-04-12

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-881109.html

上一篇:吐槽系列:企业的良心,消费者的鉴赏水平
下一篇:下周二在哈佛医学院应邀给个大数据挖掘talk

 

5  刘全慧 戴德昌 陈辉 yangb919 bridgeneer

发表评论评论 (4 个评论)

删除 回复 |赞[2]yangb919   2015-4-10 09:22
现在看来,此事很不简单 

删除 回复 |赞[1]yangb919   2015-4-9 17:08
倒退四十年,老毕成了老毙 
 回复  : 对于文明社会,这种私下调侃无论怎么过激根本就不是事儿。偷拍并散布的人才是别有用心的小人(据传有敌情?)。当然,这些调侃的确会触犯不少思想或感情停留在毛时代的人,引起反弹是必然的。

2015-4-10 07:241 楼(回复楼主)赞|回复
 回复  : 做个不甚恰当也不离谱的比较,当年璩美凤的性爱光碟也是如此,璩美凤本人的私生活被偷拍,本来不是事的璩小姐的私生活被不良记者刊物广为渲染传播。

2015-4-10 07:342 楼(回复楼主)赞|回复
 

社媒挖掘:老毕私下辱毛事件再挖掘(屏蔽留存)

社媒挖掘:老毕私下辱毛事件再挖掘

屏蔽已有 3570 次阅读 2015-4-12 00:22 |个人分类:社媒挖掘|系统分类:人文社科| 央视, 主持人, 毕福剑, 开涮

毕福剑事件持续发酵,今早起来再做一次中文简体社会媒体的自动民调,发现有些微妙的变化。

我把两天前的调查曲线图(区间是四月二号到四月九号)拷贝在下与现在做的(区间是四月四号到四月11号)做个比较。

(1)热度:

四月二号到四月九号媒体热度曲线图

四月四号到四11号媒体热度曲线图

(2) 媒体形象趋向:

褒贬曲线(net sentiment)对比发现毕姥爷形象大损后,四月九号到低谷,这两天又开始显著回升

怎么回事?公关道歉开始收效,还是右派群众(挺毕派)开始有效反击?

四月二号到四月九号媒体褒贬曲线图

四月四号到四月11号媒体褒贬曲线图

(3)情绪烈度变化图:最奇怪的是吐槽情绪本来越演越烈,两派互骂炽热化,居然从四月九号开始明显收敛,是网众重归理性,还是过激帖子被批量删除?

四月二号到四月九号媒体情绪烈度曲线图

四月四号到四月11号媒体情绪烈度曲线图

相关:

社媒挖掘:央视的老毕 2015-04-09

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-881701.html

上一篇:吐槽系列:企业的良心,消费者的鉴赏水平
下一篇:下周二在哈佛医学院应邀给个大数据挖掘talk

 

2  武夷山 bridgeneer

发表评论评论 (3 个评论)

删除 回复 |赞[3]huangnigang1   2015-4-12 04:01
史上第一个告密者:商纣王时代的崇侯虎

http://news.ifeng.com/history/minjianshuoshi/hemufeng/detail_2009_12/16/320005_0.shtml

删除 回复 |赞[2]huangnigang1   2015-4-12 03:14
武则天有一阵子禁止屠宰牲口。有个叫张德的右拾遗,因为喜得贵子,便违禁宰了头羊,宴请朋友同事。同事中有个叫杜肃的,吃了一顿之后就跑去向武则天告密。第二天朝会,女皇将杜肃的告密信交给张德,然后告诉他:卿今后请客,还是小心一点,那种前头吃了好酒菜一转身就去告密的小人,就不要请了。

删除 回复 |赞[1]eat   2015-4-12 01:56
还来啊,外松内紧,这阶段骟贴疯狂您没看到?那个当心小王爷暴怒了出去抓人杀了炖。

【社媒挖掘:不朽邓丽君】(屏蔽留存)

【社媒挖掘:不朽邓丽君】

屏蔽已有 5476 次阅读 2015-5-10 22:59 |个人分类:社媒挖掘|系统分类:博客资讯| 邓丽君, 社会媒体

邓丽君逝世20周年,中港台日美社会媒体热议纪念一代歌后

The pop queen Teresa Teng passed away 20 years ago and her songs remain popular in the Chinese communities all over the world. Social media from Taiwan where she was born, from Mainland China, from Hong Kong, from Singapore, from Japan, from US and other parts of the world are full of all kinds of commemoration of her life and songs in Mandarin Chinese, Cantonese, Japanese and English. See the results of our multilingual text mining for how dearly she has been loved and remembered across generations of Chinese in Asia and around the world.

先看最近一周的社会媒体热议:

下面是排山倒海的纪念

(说明:去世等词通常被认为是负面的词,用红色,但这里是在20周年纪念的上下文中,不应视为贬义)

再看过去27个月的挖掘结果:

喜欢的理由主要是:邓丽君的歌,好听,柔情,甜美清純,《甜蜜蜜》,经典,动人,老少咸宜,百听不厌。也有个别不喜欢她的,提到的有靡靡之音和庸俗,这是音乐口味问题,还有她吸毒致死的传闻,不知真假。瑕不掩瑜,即使由于生活寂寞苦恼而吸毒,邓丽君的总体形象还是光彩照人,是很多人心中的不朽女神,她的歌曲及其演绎是华人乐坛经久不衰的真正经典。

社会媒体样本(去除重复帖,压倒性的怀念赞美,只有极少数的负面帖子,表示不喜欢她的靡靡之音,也有提到她吸毒过量):

紀念鄧麗君逝世20周年!

邓丽君永不朽

纪念邓丽君

喜欢邓丽君

邓丽君好听啊

邓丽君我妈年轻的时候喜欢

怀念邓丽君, 不幸的女子

邓丽君甜蜜蜜

喜欢邓丽君的歌, 百听不厌

邓丽君经典

大爱邓丽君

邓丽君亮咯

邓丽君挺好

邓丽君好听!

喜欢邓丽君的甜美声音

Great voice of Teresa teng.

邓丽君最萌

相反对邓丽君感觉一般...

邓丽君qq 多年经久好听

我初恋也爱邓丽君

怀念著名歌星邓丽君

看到邓丽君果断顶帖

邓丽君歌曲最得意的粉丝

最爱邓丽君

懷念鄧麗君

テレサ・テン好き

挚爱邓丽君

都喜欢邓丽君熬

邓丽君百听不厌

甜蜜蜜, 想念邓丽君。

红颜薄命, 怀念邓丽君小姐

テレサ・テン最高

邓丽君唱歌好听很我擦。

喜欢邓丽君, 加上无聊消磨时间

邓丽君金门劳军

鄧麗君果part 好正啊!

邓丽君真是机智

テレサ・テンのPVヤバい

支持邓丽君

邓丽君牛

有如邓丽君般低调的华丽

挚爱邓丽君

このあと、SONGS「テレサ・テン」楽しみやな。

次回SONGSはテレサ・テン特集、楽しみ #nhk

王菲献唱纪念邓丽君

テレサ・テン好き

谢谢邓丽君

邓丽君好漂亮

邓丽君100分

邓丽君生前珍贵照片曝光

邓丽君无与伦比

邓丽君, 无可替代!

邓丽君逝世20周年

邓丽君当然是好人

邓丽君的都行

邓丽君落伍吗?

邓丽君怎么去世的

鄧麗君很漂亮。

邓丽君是我的挚爱

鄧麗君好型!

邓丽君md是亮点

邓丽君的很精美

还邓丽君清白!

邓丽君很有成就

还是邓丽君靓!

鄧麗君真係好掂

那个邓丽君好难听

邓丽君影响力最大。

鄧麗君最靚聲

鄧麗君有用過...

邓丽君是精神启蒙老师

美丽人物: 邓丽君

邓丽君逝世纪念日...

邓丽君死得不明不白

邓丽君也行......

以此支持楼主发起纪念邓丽君的活动。

喜欢邓丽君的歌弹的真不错!

我喜欢邓丽君, 死掉了;

纪念邓丽君逝世二十周年!

经典的歌曲, 怀念邓丽君。

年轻时候我最喜欢邓丽君。

我喜欢邓丽君, 死掉了;

萨达阿萨德了空间爱上邓丽君

喜欢邓丽君的歌, 好拍

邓丽君是我最喜欢的女歌手

我喜欢邓丽君, 病死了;

经典的歌曲, 怀念邓丽君!

咱不能强迫别人喜欢邓丽君。

没说的就是喜欢邓丽君的歌!

Another great song by Teresa Teng.

推 jacklee340: 鄧麗君無誤 03/16 16:17

我并不喜欢邓丽君的声音啊

我喜欢邓丽君, 好好听啊

不错的老音乐喜欢邓丽君

整個假鄧麗君公仔, 有咩意思?

邓丽君是亚洲人钟爱的歌手。

妖精邓丽君很漂亮啊...

我最喜欢唱邓丽君的甜蜜蜜

有点邓丽君的感觉[呵呵]

怀念邓丽君, 谢谢好音源

邓丽君的歌我欣赏不了啊

俺也是邓丽君的忠实粉丝!

我爸是邓丽君的忠实粉丝

喜欢邓丽君, 祝福赵四海。

蒋勤勤爱好邓丽君死掉了,

那年代邓丽君的歌是靡靡之音

テレサ・テンの曲いいね~。

邓丽君绝对的第一名, 无争议

楼主不喜欢邓丽君的歌么

邓丽君成为年轻人崇拜的偶像。

NHK SONGS テレサ・テンを見るなう。

鄧麗君逝世20年將辦虛擬人紀念演唱會 wp.me/p4oKX8-2OXx

1月12日广州将上演纪念邓丽君演唱会;

歌词写得美, 邓丽君唱得更美。

謝安琪獻唱金曲紀念鄧麗君:  youtu.be/uiScrF13yrQ?a via @YouTube

一代歌后邓丽君去世。

鄧麗君的歌聲真是好聽

总算找到邓丽君高清了

邓丽君泳装身材凹凸......

哥哥鄧麗君有冇咁紅

邓丽君有些太大气了

邓丽君最受欢迎的歌曲

研究邓丽君值得一看

邓丽君火到日本。

邓丽君死了多少年!

邓丽君是菲菲偶像...

这个邓丽君非常唯美。

當然鄧麗君都好聽啦

邓丽君更漂亮哈哈

邓丽君的太难听了

邓丽君还是很明智的

Teresa Teng is alive.

邓丽君怎么死的?

鄧麗君版最紅

邓丽君死好早!

别样邓丽君好听!

邓丽君温婉甜美。

邓丽君去世的早。

回味邓丽君百听不厌!

邓丽君温婉甜美。

还是原版邓丽君好看...

支持邓丽君的粉丝们

感觉邓丽君好亲切啊

邓丽君猝死之谜

邓丽君的歌声很甜美

邓丽君很漂亮啊...

邓丽君剥削谁了?

邓丽君不是自杀的吗

以前邓丽君很红的

这个邓丽君, 也漂亮

邓丽君就是流行歌手啊

邓丽君是中华优秀儿女

邓丽君因吸毒过量而死

一代歌后邓丽君去世。

很好听的曲子, 怀念邓丽君!

但是不阻碍我喜欢邓丽君呀!

邓丽君の歌、お勧めです。

DVD 倾城怀念邓丽君2005现场音乐会。

............

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-889203.html

上一篇:【社媒挖掘:成都暴打事件中的男司机和女司机】
下一篇:大数据淹没下的冰美人(之一)

 

8  罗德海 刘全慧 许培扬 李颖业 戴德昌 徐晓 王林平 bridgeneer

发表评论评论 (2 个评论)

删除 回复 |赞[2]dollge   2015-5-13 13:00
那年代她的歌声一统华语江湖哦

删除 回复 |赞[1]李颖业   2015-5-11 12:03
邓林逐日迹,
丽景馈娉婷。
君志如夸父,
余音绝唱萦。

大数据淹没下的冰美人(之二)(屏蔽留存)

大数据淹没下的冰美人(之二)

屏蔽已有 3216 次阅读 2015-5-13 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 范冰冰, 挖掘, 社会媒体

女神 or 妖精,总之不似人类

好,我们开始范冰冰的社媒深度挖掘,看看网友都怎么说她。

先看网友的赞美(绿字体)和吐槽(红字体)等情绪化评语的词云分布,显然是东风压倒西风:

分类总结前五类情绪评语如下。

先看赞誉,毫无悬念,迷恋她、惊艳其美和粉丝的溢美之词占绝大多数,见(1)(2)(3):

(1)   喜欢, 爱,迷恋, 羡慕, 中意, 享受, 怀念, 惊喜,飞吻,?,相中, 看中

(2)   QQ, 粉丝,给力,成功,最强,很火,不错,很好,最佳,可爱,受欢迎

(3)   美, 美爆, 绝美, 女神, 传奇, 完美,逆天,耀眼, 精彩, 更胜一筹

(4)   倾国倾城,性感,威武,强大,厉害,独特, 优雅, 经典, 华丽

 

(5)   支持, 欣赏, 赞, 夸赞, 看好, 期待, 关注

有意思的是(4)中系列形容词所发出的信息:把倾国倾城、性感厉害、优雅华丽与威武强大等集合起来,在当今华裔女星中是不多见的,她反映冰小姐的御姐女皇范儿给观众留下的印象,她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。

各花入各眼,萝卜青菜各有所爱,她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物,在排山倒海的网友和粉丝的赞誉中,自然也不免被吐槽,也分五类如下:

 

(1)   不喜欢, 吐槽, 讨厌, 抱怨,烦, 骂, 恨, 气,不爱, 不欣赏, 不羡慕,失望, 无语, 受不了,无法忍受,
   大跌眼镜,大失所望

(2)   质疑, 怀疑, 鄙视, 讽刺, 嘲讽, 不接受, 批评, 不关注, 抵制, 看不上, 看不惯,不看好,看不起

(3)   不美, 不好, 差, 破, 不怎么样,不完美, 不行, 没多美,没有我美,算不上一流,一无是处, 不给力

(4)   低能儿蠢货, 不要脸,我操,垃圾,变态,傻逼,坑爹,这么狗血,最不要脸, 恶心,鸡肋,操, 吓人,
   美个屁,挖鼻屎,白痴,二货

(5)   还不如现在的张馨予,还不如穆婷婷可爱,太胖,臃肿,

第一类表达各种程度的不喜欢不欣赏,第二类是各种鄙视看不惯,第三类酸溜溜的多少带有嫉妒的不屑,这些大多是口味问题,或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了,这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映,你美了就骂你蠢,你急智就骂你丑,总之是无冤无仇也要骂娘,特别是要骂名人。倒是第五类的负面信息最为具体,说她不如张美人穆美人(张穆都是啥妖精,怎么从来没听说过,演过啥,没有一丝印象),说她太胖臃肿,虽然明显有偏见,却也不是空穴来风。

为了过来看看

@素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱...

人总是健忘的 RT @zmt0516: 记得当年范冰冰的名声还不如现在的张馨予,现在已经被公关团队刷成女神之神了。。。

#freedom #民主 范冰冰黄裙现身体态臃肿 群众爬墙头睹芳容 组图 http://t.co/xprlcS1RdE 

总体来看,情绪化用语无论正面负面,大都当不得真,只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由,为什么喜欢或者不喜欢她?这类细线条的深度舆情挖掘,我们留待下一篇博文给您提供。

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一) 

大数据淹没下的冰美人(之三): 喜欢的理由 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五):  星光灿烂谁为最?

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Chinese First Lady in Social Media (屏蔽留存)

Chinese First Lady in Social Media

屏蔽已有 3139 次阅读 2015-6-14 14:40 |个人分类:社媒挖掘|系统分类:科研笔记| first, Lady, Peng, Liyuan

The personal story aside, Chinese social media are never short of coverage and fans of Chinese First Lady Mrs Peng Liyuan in the last few years.  For too long China watched the western media covering first ladies in the US and other countries without being able to brag about its own.  Since Mrs. Peng went on the spotlight and accompanied Chinese President Xi Jinping on world trips, the Chinese netters have been overjoyed to follow her all the way with compliments and amazement in her gracefulness.  Mrs. Peng has been a star in the Chinese music industry for decades and knows how to present herself in the public.  A more recent story came from APEC last year when the Russian president Putin was seen to stand up, gracefully placing a blanket around the shoulders of Chinese First Lady, too gentleman an act that triggered waves of online comments.  

Using our own text mining tool, we collected one year Chinese social media data to see what the public image looks like for the First Lady.  Overwhelming praises and admiration, on her grace, intelligence and personality, with almost no negative comments. The only eye-catching criticism that was uncovered involves early days of Peng Liyuan "wearing fat army trousers (穿肥大的军裤)", which seems not to be something that agrees with first lady's image in people's mind. (It turned out that this was a story about the First Lady's dating the president long ago when she wanted to test the present if he was only attracted to her appearance by wearing not as nice on purpose.  The story got spread all over the net.)  But look at the Photo News today, First Lady is now leading the fashion trend of China.

Related:

Peng Liyuan, China's glamorous new First Lady - CNN.com

科学网—【社媒挖掘:第一夫人光彩夺目赞誉有加】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

隐藏已有 2364 次阅读 2013-3-25 21:03 |个人分类:社媒挖掘|系统分类:博客资讯| 第一夫人, 彭丽媛

也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞美和聚焦。

这是一年以来社会媒体对第一夫人评价的词云,几乎一面倒的赞誉。唯一一条比较显眼的批评是彭丽媛不知何时何地曾经“穿肥大的军裤”,似乎影响了人们心目中的形象。可是看看近一周的图片新闻,第一夫人如今的穿戴是如此高贵大方,引领潮流!

下图展示了三个月来大众对第一夫人的热度(净情绪)曲线,可见多数时候居高不下,更在二月20号左右达到100%的顶点。如此的高评价,在我对各种人物和品牌所做的系列自动媒体调查中,这是绝无仅有的。

这是近一周的媒体评价。

【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。

        

I showed the First Lady's news pictures to my daughter.  Tanya was so intrigued, "Dad, Mom told me that you used to teach First Lady many years ago, is that true?"  "It is true, but that was only a short time, one or two semesters, and it was not her major subject.  As a part-time lecturer, I was teaching Advanced English to graduate students in the music conservatory and she happened to be one in my class.  She was already famous then as a new star for folk songs."  Tanya got excited, "Well, you never know, maybe her English training in graduate school helps her in state visits today.  My Dad is cool."  She continued, "Dad, Mom also told me that you were interpreter for foreign minister when she dated you, is that true?"  "Well, that was largely an accident, only happened once when I substituted some professor to act as interpreter for the former foreign minister and former Chinese congresss vice-chairman Mr. Huang Hua.  Your Mom agreed to date me partially because of her seeing a picture of me interporeting for Mr. Huang.  So I guess I benefited from that 'accident'."  Tanya was amused and felt very proud, "I have the coolest Dad in the world. He was so successful even when he was young, teaching future first lady and interpreting for the then foreign minister.  Wow"  

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-673923.html

上一篇:吴-程有关5次方程根式解的论争
下一篇:101 我来啦

 

8  曾新林 蔣勁松 武夷山 刘洋 周素勤 翟自洋 曹聪 bridgeneer

发表评论评论 (1 个评论)

删除 回复 |赞[1]曹聪   2013-3-31 14:56
Don't know whether the First Lady still remembers you.

【社媒挖掘:美国大选候选人大战(1):川普很臭】(屏蔽留存)

【社媒挖掘:美国大选候选人大战(1):川普很臭】

屏蔽已有 6 次阅读 2016-3-18 04:11 |个人分类:社媒挖掘|系统分类:海外观察| 大数据, 美国大选, 川普, 挖掘, 社会媒体

这阵子一直忙于调试系统,好久没顾上做热点话题的舆情调查了。老友一直催我用大数据追踪一下美国总统大选。今年的美国大选,情势诡异,尤其是杀出一个不按常理出牌的共和党的川普,不少追随者粉他,恨他的人也很多。

这是几天前(周二前)做的美国大选半年以来的英文社会媒体的大数据调查,直到今天才得空整理上网分享。先给一个一个过去半年的大数据总结图。

人气评价(Net Sentiment)最高的是民主党的 Bernie,褒贬指数高达正45%,把其他对手远远抛在后面,第二名 Marco 21%,Beinie 的一半还不到,评价最差的是川普 6%.

难怪我女儿是 Beinie 的铁杆粉丝,不断催促我们给 Beinie 投票,不要让希拉里出线。我:
而话题大王,则非川普莫属,一亿五千多万的 mentions,23兆860多亿的眼球数,瑶瑶领先。
第二名的 Ted (眼球数8兆)只有眼球大王川普的三分之一
可见川普这个美国政坛的怪物掀起了怎样的一个风暴
普这个美国政坛的怪物掀起了怎样的一个风暴

http://blog.sciencenet.cn/blog-362400-963290.html

上一篇:【NLP笔记:人工智能神话的背后是汗水】
下一篇:【新智元笔记:强弱人工智能之辩】

 
 

收藏