【喋喋不休论大数据(立委博文汇总)】 屏蔽留存

【喋喋不休论大数据(立委博文汇总)】

屏蔽已有 6090 次阅读 2014-1-12 01:47 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 立委

【立委按】为准备一个大数据的书面发言,今天把自己过去两年在科学网【立委科普】和【社媒挖掘】专栏里发的有关大数据及其挖掘的博文扫了一遍,计104篇,洋洋洒洒m万言,总量远远超过彭德怀元帅1958年“为人民鼓与呼”的万言上书。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。

“大数据与认识论”研讨会的书面发言(草稿) 2014-02-10

【立委论大数据挖掘(博文汇总)】

 

分享【1】为什么做大数据的吹鼓手?热度 2 李维 2013-7-28 01:14王婆卖瓜是一种解释,虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜,毕竟是自己辛辛苦苦栽培,一把水一把肥看着它长大的,恰好赶上了百年不遇的高温干旱,这鲜美的瓜不吆喝都对不起它。 主要的原因是上帝。哦,我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了,当 ...个人分类: 立委科普|667 次阅读|2 个评论

 

分享【2】 大数据NLP论热度 5 李维 2013-7-27 20:50由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套 查准率 (precision)和 查全率 (recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指 ...个人分类: 立委科普|3090 次阅读|6 个评论

 

分享【3】On Big Data NLP热度 1 李维 2013-7-27 20:43Admittedly, it is not easy to develop an NLP ( Natural Language Processing ) system with both high precision and high recall (i.e. high F-score) due to the ambiguity and complexity of natural language phenomena. Social media is even more challenging, full of misspellings, irregularities, and ...个人分类: 立委科普|766 次阅读|2 个评论

 

分享

 

分享【4】 作为公开课的大数据演讲热度 16 李维 2013-5-23 18:34【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【 科学网公开课 】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯 ...个人分类: 立委科普|6654 次阅读|17 个评论

【5】社媒是个大染缸,大数据挖掘有啥价值?李维 2014-1-7 09:56社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义? 无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口,尤其在东土。 水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事 ...个人分类: 立委科普|190 次阅读|没有评论

 

分享【6】大数据挖掘问答2:会哭的孩子有奶吃热度 2 李维 2013-12-27 15:44RE: 有人在网上叫得最凶,所以这种大数据分析很容易受网上的vocal minority影响,不是么? 叫得最响用处不大,要叫得多。叫得响可以影响情绪烈度指标(passion index),但不影响最关键的褒贬指数(net sentiment)。叫得多也不能靠水军和僵尸,因为容易当作噪音被剔除,所以必须要叫得多种多样。 作者: 立委 ...个人分类: 立委科普|556 次阅读|2 个评论

 

分享【7】大数据挖掘问答1:所谓数据完整性热度 3 李维 2013-12-27 11:12到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了 作者: 立委 (*) 日期: 12/26/2013 18:54:07 关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意 ...个人分类: 立委科普|395 次阅读|3 个评论

【8】科研围脖:提上来,再谈查全率和大海捞针热度 1 李维 2013-7-29 00:38白图格吉扎布 2013-7-28 22:58 文章标题: 大数据NLP论 有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。 博主回复(2013-7-29 00:35) : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许 ...个人分类: 立委科普|1223 次阅读|1 个评论

分享

【9】【立委科普:所谓大数据(BIG DATA)】热度 3 李维 2013-3-21 04:58Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普|1175 次阅读|3 个评论

【10】广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘热度 11 李维 2013-3-20 19:57UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普|1283 次阅读|13 个评论

分享【11】Coarse-grained vs. fine-grained sentiment extraction李维 2013-3-12 06:51As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普|671 次阅读|没有评论

 

分享【12】【“剩女”的去向和出路(1)】热度 2 李维 2013-3-8 20:03在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 ...个人分类: 立委科普|1035 次阅读|2 个评论

 

分享【13】 【立委科普:基于关键词的舆情分类系统面临挑战】热度 1 李维 2013-2-15 22:47

 

Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普|1372 次阅读|1 个评论

 

分享【14】曙光在眼前,轻松过个年热度 1 李维 2013-2-9 04:34

曙光在眼前,轻松过个年

QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 ...个人分类: 立委科普|626 次阅读|3 个评论

 

分享【15】 围脖提上来:大数据时代的生活策略热度 2 李维 2013-2-5 07:33RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 ...个人分类: 立委科普|1294 次阅读|2 个评论

 

分享【16】 【立委科普:舆情挖掘的背后】热度 2 李维 2013-2-4 10:22

【立委科普:舆情挖掘的背后】

中文版 " 品牌舆情图 "设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普|1815 次阅读|3 个评论

【17】【科研笔记:big data NLP, how big is big?】热度 1 李维 2012-10-31 19:03Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo ...个人分类: 立委科普|967 次阅读|1 个评论

【18】 【立委科普:自动民调】热度 3 李维 2012-10-19 02:33

Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 ...个人分类: 立委科普|1530 次阅读|3 个评论

分享【19】 【研发笔记:粤语文句的情报挖掘】热度 4 李维 2012-9-28 07:50

【研发笔记:粤语文句的情报挖掘】

在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...个人分类: 立委科普|2167 次阅读|4 个评论

【20】2011 信息产业的两大关键词:社交媒体和云计算李维 2012-2-1 16:45我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, ...个人分类: 立委科普|1170 次阅读|没有评论

【21】社会媒体比烂,但国骂隐含舆情热度 3 李维 2012-3-20 03:59本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 ...个人分类: 立委科普|978 次阅读|3 个评论

【22】立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷热度 3 李维 2012-5-1 13:59词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 ...个人分类: 立委科普|1585 次阅读|4 个评论

 

分享【23】比起英语,汉语感情更外露还是更炽烈?李维 2012-4-28 04:29Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普|1158 次阅读|没有评论

【24】社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?热度 1 李维 2011-11-22 14:23“三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普|1630 次阅读|1 个评论

 

分享【25】科研笔记:开天辟地的感觉真好李维 2011-10-30 01:40刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 ...个人分类: 立委科普|1262 次阅读|没有评论

【26】《科普随笔:机器八卦》李维 2011-10-14 17:09机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普|863 次阅读|没有评论

【27】言多必露,文本挖掘可以揭示背景信息热度 1 李维 2011-7-11 01:03言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X -- X (student, t ...个人分类: 立委科普|939 次阅读

分享【28】《立委科普:机器八卦》李维 2009-12-23 06:45机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 ...个人分类: 立委科普|5095 次阅读|没有评论

【29】《朝华午拾:信息抽取笔记》热度 1 李维 2009-12-12 08:33《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 ...个人分类: 立委科普|2071 次阅读|

【30】【立委科普:信息抽取】热度 1 李维 2009-12-12 08:35【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 ...个人分类: 立委科普|3013 次阅读|4 个评论

分享【31】【立委论大数据博文汇总】草稿李维 2014-1-12 01:28为准备一个大数据的书面发言,今天把自己过去两年在科学网【 立委科普 】和【 社媒挖掘 】专栏里发的有关大数据的博文扫了一遍,共计篇,洋洋洒洒 言。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。 【立委论大数据博文汇总】 立委科普 | 编辑 ...个人分类: 社媒挖掘|没有评论

 

分享【32】“大数据与认识论”研讨会的书面发言草稿李维 2014-1-11 19:27【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。上次愚人节应中文信息学会邀请在软件所做了一个题为【】的演讲,科学网编辑还特 ...个人分类: 社媒挖掘|没有评论

 

分享【33】【大数据挖掘:微信(WeChat)】热度 1 李维 2014-1-8 19:26上帝给人类的礼物,一软一硬两个。硬的叫 iPhone(爱疯) ,软的叫 微信(英文品牌叫 WeChat) 。 都是颠覆世界,改变我们生活的移动互联网杀手产品,一旦用上,就让人离不开。 即便是上帝的礼物,也仍然会有人抱怨。因为有抱怨,才会有进步和升级。有朋友在微信团队,都是特别精明虎虎生气的年轻人,说,你给我们 ...个人分类: 社媒挖掘|541 次阅读|1 个评论

 

分享【34】【大数据解读:方崔大战对转基因形象的影响】热度 3 李维 2014-1-7 06:29据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。 下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度 (mentions) 一年的趋势 ...个人分类: 社媒挖掘|327 次阅读|3 个评论

 

分享【35】 【大数据挖掘:方崔大战一年回顾】(更正版)热度 17 李维 2014-1-6 09:12对博文 【大数据挖掘:方崔大战一年回顾】 2014-01-05 的 更正是: 去了“苦逼小崔” (白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude) ,加了中文 繁体 。 (调查时间比前一次也后了一天。) 本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twit ...个人分类: 社媒挖掘|2300 次阅读|20 个评论

 

分享【36】【大数据挖掘:转基因一年回顾】热度 2 李维 2014-1-6 05:42转基因大战提升还是损害了转基因的网络形象? 日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 ),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 ...个人分类: 社媒挖掘|439 次阅读|2 个评论

 

分享【37】【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】热度 2 李维 2014-1-6 00:54Re: 你的软件有bug。 5-7月,崔永元主要在忙公益基金的事情。 当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。 上篇挖掘 崔方大战一年的形象变化曲线 ,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in ...个人分类: 社媒挖掘|454 次阅读|2 个评论

 

分享【38】【大数据挖掘:方崔大战一年回顾】热度 4 李维 2014-1-5 18:11以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。 据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。 挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与 ...个人分类: 社媒挖掘|439 次阅读|9 个评论

 

分享【39】【大数据挖掘:中国红十字会的社会媒体形象】热度 1 李维 2014-1-4 20:27在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往 ...个人分类: 社媒挖掘|325 次阅读|1 个评论

 

分享【40】 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】热度 6 李维 2014-1-3 20:12中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢? 终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。 这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面 ...个人分类: 社媒挖掘|1235 次阅读|7 个评论

 

分享【41】【大数据挖掘:转基因英文网络的自动民调和分析】热度 3 李维 2014-1-3 18:23前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。 ...个人分类: 社媒挖掘|485 次阅读|3 个评论

 

分享【42】预告:转基因过去一年社会媒体口碑的自动民调正在进行中李维 2014-1-3 06:21将公布细节,先把 summary 发布如下:个人分类: 社媒挖掘|262 次阅读|没有评论

 

分享【43】 只认数据不认人:IRT 的鼓噪左右美国民情了么?热度 3 李维 2013-12-30 06:27套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》 当然,还有上帝: In God We Trust. In everyone else we need data. 大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也 ...个人分类: 社媒挖掘|918 次阅读|10 个评论

 

分享【44】 大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》热度 7 李维 2013-12-26 22:30走进“大数据”——洗衣机寻购记(上) 长城战略咨询 2013-04-05 阅读次数:529 分享到: 前 言 当我们准备购买一件商品的时候,品牌、功能和价格等都是我们需要考虑的因素。然而,当我们面对琳琅满目的货架,众多的品牌和多种多样的功能组合时,又让我 ...个人分类: 社媒挖掘|949 次阅读|7 个评论

 

分享【45】 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么热度 13 李维 2013-12-26 02:25既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。 这次挖掘仍然是最近一个月的英文社会媒体,区间为: GM food, 11/25/2013 - 12/25/2013 Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?): GM food genetically modified transgenic transgene geneti ...个人分类: 社媒挖掘|1827 次阅读|11 个评论

 

分享【46】 关于转基因及其社会媒体大数据挖掘的种种问题热度 12 李维 2013-12-25 07:55没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】 ),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意 ...个人分类: 社媒挖掘|1264 次阅读|13 个评论

 

分享【47】 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】热度 48 李维 2013-12-24 06:47从英文社会媒体对 转基因食品 大数据 调查 显示,其 评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。 但褒贬双方的激烈程度(passion 指标为零)远不如国内。 这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。 ...个人分类: 社媒挖掘|11191 次阅读|66 个评论

 

分享【48】Social media mining: Teens and Issues李维 2013-9-9 21:36As is well known, the teenager years are a special and important period of growth for children, or young adults, to be more precise. It is growing pain, mixed with joy. It is often a rebellious phase when both parents and teens find it difficult to communicate with each other. Thi ...个人分类: 社媒挖掘|542 次阅读|没有评论

 

分享【49】【微博自动民调:薄熙来、薛蛮子和李天一】热度 2 李维 2013-8-30 09:33Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and w ...个人分类: 社媒挖掘|898 次阅读|2 个评论

 

分享【50】池鱼失火,殃及城门:USC 足球队拖累 USC热度 2 李维 2013-8-16 23:27写了两篇舆情挖掘博文,言之凿凿说 USC (南加大) 口碑不好,因为民间舆论认定它 overrated,名不副实。有网友指出: USC跟UCLA的mentions大部分都是在講football, 譬如說overrated大部分是指football team從preseason no.1掉到unranked這件事..... 我老外了不是?从来不懂不看美式足球,于是向女儿求证,女儿看了 ...个人分类: 社媒挖掘|927 次阅读|3 个评论

 

分享【51】【社媒挖掘:加州大学舆情详析 UCLA/UCSD vs USC】热度 1 李维 2013-8-16 17:17加大(UCs)是美国有名的公立大学系统,尤其以加大伯克利(UC Berkeley)最为国内所称道。其实,加大洛杉矶分校(UCLA)也很有名,几乎与伯克利比肩。而加大圣地亚哥(UCSD)一般认为是加大的老三,据说学生过得蛮开心轻松,不象伯克利洛杉矶那么紧张,周末就驱车去墨西哥喝酒派对。最有意思的是,加大圣地亚哥在上次社交 ...个人分类: 社媒挖掘|790 次阅读|1 个评论

 

分享【52】 【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】热度 3 李维 2013-8-14 07:40今天一到办公室就被我们开发的舆情挖掘系统告知(alert),最近两天必胜客热议度急升(八月9日开始,今天为最)。是不是有什么特别事件发生? 前一阵子,他们出过一次“虾球广告”的公关危机,系统也及时发现了(参见 【社媒挖掘:大数据时代的危机管理】 ),幸亏他们处理及时,道歉诚恳,把事态平息了。今 ...个人分类: 社媒挖掘|2619 次阅读|3 个评论

 

分享【53】【自动民调:美国五所超级牛校(俗称 Magic 5)人气排名】热度 3 李维 2013-8-13 20:12接着练,看一看英文社交媒体与中文社交媒体对这五所超级牛校的人气排名是怎样的: 有意思的是,中文社交媒体的口碑普林斯顿最末;而英文媒体 普林斯顿(Princeton) 却高高在上,明显高过其他四所,虽然这所学校的中英文热议度都不如其他学校。而哈佛排名英文最末,中文也倒数第二,没想到啊。 中文口碑排名: 1 ...个人分类: 社媒挖掘|935 次阅读|3 个评论

 

分享【54】【自动民调:美国名牌大学人气排名】热度 1 李维 2013-8-12 16:46For the first time, the automatic survey of social media 1-year archive on some US brand name universities shows the rankings as follows, which are quite different from official ranking (Harvard and Caltech accidentally not included): 1. UCSD; 2.Chicago; 3. UPenn; 4. Carnegie Mellon ...个人分类: 社媒挖掘|794 次阅读|1 个评论

 

分享【55】 【社媒挖掘:大数据时代的危机管理】热度 2 李维 2013-6-28 19:46写下标题,突然意识到,这怎么看上去像是科学网超级名博陈安博士的卖瓜课题。陈博士,对不起了,不是抢您的风头,也不是砸您的饭碗,是纯粹撞车了。不是冤家不撞车,一来二去,保不定您就成了我的客户呢,也未可知。 Anyway,话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话 ...个人分类: 社媒挖掘|2555 次阅读|2 个评论

 

分享【56】 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀热度 4 李维 2013-6-21 03:18【研发笔记:粤语文句的情报挖掘】 实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。 首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人 ...个人分类: 社媒挖掘|2144 次阅读|7 个评论

 

分享【57】舆情挖掘用于股市房市预测靠谱么?热度 1 李维 2013-4-18 21:24Can social media sentiment mining be used for predicting stock/property market? I tried our Chinese system for that and it proved to be right. Is that pure luck or there is some value in using public opinions and sentiments to assist prediction of markets? 作为技术展示,曾经用中文社交媒体的舆 ...个人分类: 社媒挖掘|605 次阅读|1 个评论

 

分享【58】【舆情挖掘:房市总体看好】李维 2013-4-17 16:44回国期间我现场展示系统,问热点话题,有人说查查“房市”吧 于是我搜索了房市,无论是简体还是繁体的社交媒体,发现舆情指向都是“看好”两个大字主宰,就跟我上回查询A股类似(见 【『科学』预测:A-股 看好】 )。 因此目前似乎仍然是投资房市的好时机。 国内形势也很不错 ...个人分类: 社媒挖掘|735 次阅读|没有评论

 

分享【59】愚人节大数据演讲 无片无真 移山愚人热度 10 李维 2013-4-2 05:42就是累 累滩了 作者: 立委 (*) 日期: 04/01/2013 15:26:05 昨晚没怎么睡觉 准备 slides 讲演的 还有会谈的 再加工 讲演还好 时间是卡住了 qa 也有时间了 就是我本来是希望轻松搞笑一些的 结果还是自我感觉太严肃枯燥了些 感谢软件所孙教授,还有各位的光临 科学网四剑客,包括女侠迟菲等前来捧 ...个人分类: 社媒挖掘|957 次阅读|10 个评论

 

分享【60】【社媒挖掘:第一夫人光彩夺目赞誉有加】热度 2 李维 2013-3-25 21:03也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞 ...个人分类: 社媒挖掘|1066 次阅读|2 个评论

 

分享【61】 【社媒挖掘:“剩女”问题】热度 9 李维 2013-3-4 16:00

【社媒挖掘:“剩女”问题】

今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女 ...个人分类: 社媒挖掘|4061 次阅读|10 个评论

 

分享【62】《大数据时代的购物策略:洗衣机寻购记(3)完结篇》热度 1 李维 2013-3-3 05:30

 

Maytag Maxima 4.3 cu. ft. High-Efficiency Front Load Washer with Steam in Granite, ENERGY STAR Model # MHW7000XG 989.10/EAEachWAS989.10/EA−EachWAS1,399.0 0 LG Electronics 4.0 cu.ft. High-Efficiency Front Load Washer in Graphite Steel, ENE ...个人分类: 社媒挖掘|943 次阅读|2 个评论

 

分享【63】《大数据时代的购物策略:洗衣机寻购记(2)》热度 3 李维 2013-2-25 22:41洗衣机的选择:top loading 抑或 front loading? 作者: 立委 日期: 02/24/2013 23:35:39 本来我们是要放弃 front loading (镜先生考证,国内叫滚筒式)洗衣机,去选更容易清洁的 top loading (国内称作 波轮式 )的。可是如今大数据了,领导还是要看看二者的优劣,听听用户都怎么选择的。 于是挖掘 ...个人分类: 社媒挖掘|1067 次阅读|4 个评论

 

分享【64】 《大数据时代的购物策略:洗衣机寻购记(1)》热度 8 李维 2013-2-25 21:07ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With ...个人分类: 社媒挖掘|1996 次阅读|10 个评论

 

分享【65】【社媒挖掘:社会媒体眼中的陳水扁】草稿李维 2013-2-24 07:09系列最后个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【66】【社媒挖掘:社会媒体眼中的李登輝】草稿李维 2013-2-24 07:08个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【67】【社媒挖掘:社会媒体眼中的臺灣綠營大佬】草稿李维 2013-2-24 06:33除了在民眾輿論已經貶出局的在押阿扁外,民進黨大佬主要包括蔡蔡謝蘇(蔡英文、謝長廷、蘇貞昌),下面就看看社會媒體對這三位綠營大佬毀譽如何。 Cai COns CaiXieSuLEE LikesDislikes contr ...个人分类: 社媒挖掘|1 次阅读|没有评论

 

分享【68】【社媒挖掘:馬英九施政一年來輿情晴雨表】热度 2 李维 2013-2-23 20:07【 馬英九施政一年來輿情晴雨表 】 看點及分析: (1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會 ...个人分类: 社媒挖掘|567 次阅读|2 个评论

 

分享【69】【社媒挖掘:臺灣政壇輿情圖】热度 2 李维 2013-2-23 08:58今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他 ...个人分类: 社媒挖掘|691 次阅读|2 个评论

 

分享【70】【社媒挖掘:社会媒体眼中的米拉先生】热度 2 李维 2013-2-20 19:42

【社媒挖掘:社会媒体眼中的米拉先生】

免责声明:此片纯属戏作,敬请对号入座。 江湖上盛传的米拉先生生活素颜照 (1)先看概览,总体得分不坏嘛,20有1,是正能量,不独跌入 18层冰窖的小方 没法 望其项背 ,比 零度以下的开复老师 和韩少也强远啦: (2)网虫对镜子的情绪呢? &nbs ...个人分类: 社媒挖掘|630 次阅读|2 个评论

 

分享【71】【社媒挖掘:社会媒体眼中的李开复老师】热度 5 李维 2013-2-19 17:55

【社媒挖掘:社会媒体眼中的李开复老师】

据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公 ...个人分类: 社媒挖掘|1026 次阅读|5 个评论

 

分享【72】 【舆情挖掘:2013央视春晚播后】热度 3 李维 2013-2-15 04:50

【舆情挖掘:2013央视春晚播后】

春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从 ...个人分类: 社媒挖掘|1632 次阅读|4 个评论

 

分享【73】【舆情挖掘:年三十挖一挖央视春晚】热度 3 李维 2013-2-11 01:32【舆情挖掘:年三十挖一挖央视春晚】 日期: 02/09/2013 20:25:02 说不完道不尽的央视春晚。 一台节目三十多年来一直成为亿万人民过 年的大餐兼热门话题,这是人类历史上少有的文化现象。众口难调,央视春晚遭到批评指摘与其受到的赞扬和热议一样多。今年有了自己制造的工具,决定挖掘一下社会媒体对于春晚的舆论。 ...个人分类: 社媒挖掘|671 次阅读|3 个评论

 

分享【74】 【社媒挖掘:美国的枪支管制任重道远】热度 9 李维 2013-2-6 09:39

【社媒挖掘:美国的枪支管制任重道远】

美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥 ...个人分类: 社媒挖掘|1392 次阅读|13 个评论

 

分享【75】【社媒挖掘:《品牌舆情图》的设计问题】热度 3 李维 2013-2-3 00:57

【社媒挖掘:《品牌舆情图》的设计问题】

镜子先生在我的【社媒挖掘】专栏留言道: 褒贬度可以用别的颜色。 博主回复(2013-2-2 23:45) : 什么颜色好呢? 烈度用红色没问题。 褒贬在我们其他的图示中,是绿褒红贬。 不知道红色和绿色混合的颜色是什么(后注:黄色嘛,真是老糊涂了),可不可以用? 于 ...个人分类: 社媒挖掘|594 次阅读|9 个评论

 

分享【76】 【社媒挖掘:外来快餐店风光不再】热度 7 李维 2013-2-2 08:57

【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's ...个人分类: 社媒挖掘|1858 次阅读|9 个评论

 

分享【77】【社媒挖掘:中国手机市场仍处于战国争雄的阶段】热度 1 李维 2013-1-31 15:51

Chinese mobile phone market is found to be still in the stage of multiple vendors competing with each other with no single one clearly ahead of others. Even Apple iPhone is on a par, in terms of net sentiments and consumer passion, with HTC, Samsung, Nokia and Chinese brand Xiaomi d ...个人分类: 社媒挖掘|810 次阅读|1 个评论

 

分享【78】【社媒挖掘:糟糕透顶的方韩社会形象】热度 1 李维 2013-1-31 05:35

【社媒挖掘:糟糕透顶的方韩社会形象】

刚刚学会用图示来表达社会情绪(passion index),看看方韩一年来的总体社会形象吧,非常糟糕。 takeaways 1. 两人社会形象都相当负面,接近底线,小方更是过了冰点。事实上,小方的负面评价是如此之多,与其正面评价完全不成比例,以至于如果严格按照净情绪(net-sentiment,即正面减去负面的一个情绪指标,作为 ...个人分类: 社媒挖掘|587 次阅读|1 个评论

 

分享【79】【社会媒体:现代婚姻推背图】李维 2013-1-11 05:23

【社会媒体:现代婚姻推背图】

立委按:哈,【 爱情推背图 】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【 社会媒体:现代婚姻推背图 】。 【大众心理探究:婚姻】 日期: 01/09/2013 16:39: ...个人分类: 社媒挖掘|903 次阅读|没有评论

 

分享【80】 【社会媒体:现代爱情推背图】热度 8 李维 2013-1-10 08:31

【社会媒体:现代爱情推背图】

【大众心理探究:爱情】 日期: 01/09/2013 16:39:34 所挖掘的数据源:社会媒体过往一年(博客、论坛等) 爱情(简体)被提及三千万多次;繁体被提及 50多万次 繁简体的分别调查可以透露出大陆社区与台湾社区对待永恒话题“爱情”的有所不同的社会认知。 1. 爱情的关系概念 要点: ...个人分类: 社媒挖掘|3793 次阅读|9 个评论

 

分享【81】【微博不进门,真地急死人:关于南周事件】李维 2013-1-8 10:32不行不行,data 不够,最近一周提及南周才1万多次,没多少褒贬 什么时候微薄进来了,我就可以追踪任何热点了。 如今国内南周闹得沸沸 扬扬,我们系统中从海外 twitter 等及时更新的数据看,还没多少讨论 从这最近一周(元旦到一月八号)的数据挖掘看,主题事件(theme)倒是可以看出了 我的 中国梦& ...个人分类: 社媒挖掘|991 次阅读|没有评论

 

分享【82】【社媒挖掘:社会媒体眼中的财政悬崖】李维 2013-1-2 11:00

RE: What do these tell us more than we've known already? very good question: however, if it is known info, it confirms its validity 日期: 01/01/2013 11:11:49 it builds the users' (and developers') confidence in the automatic summerization of the computer processing of t ...个人分类: 社媒挖掘|644 次阅读|没有评论

 

分享【83】Social media mining: 2013 vs. 2012李维 2013-1-1 16:08

Let us have a look at the past year 2012, which is more associated with the hardest year in people's mind than a good/best year.个人分类: 社媒挖掘|838 次阅读|没有评论

 

分享【84】新年新打算:【社媒挖掘】专栏开张大吉热度 2 李维 2012-12-30 04:37

 

社会媒体印象(词云) 【立委按】我有一位很谈得来 ...个人分类: 社媒挖掘|747 次阅读|2 个评论

 

分享【85】【科学技术之云】李维 2012-12-29 17:55

【科学技术之云】

老朋友来函: “ 李维老师您好。社会媒体测试很有意思,我是科盲不太了解其机理,能否测试一下科学、技术等关键词,我想会有很有启发性的。谢谢。 ” 其实,我们做社会舆情自动监测挖掘的,主要是服务于企业客户对品牌形象的情报需求,着重了解客户对于品牌/产品的褒贬评价。延伸下来,也可用于热点话题的追踪以及公众人 ...个人分类: 社媒挖掘|746 次阅读|没有评论

 

分享【86】新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】热度 1 李维 2012-12-29 16:22

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【五】 方舟子和韩寒,谁的名声更臭? 关于方韩,以前做过较小规模的社会媒体测试 ( 方寒大战高频情绪性词的词频分析 ; 方韩大战的舆情自动分析:小方的评价比韩少差太多了 ), 年终了,该是扩大规模给这两位互联网枭雄盘点一下社会形象的时机了。 需要说明的是,这次的测试规模虽然较大,但是社会 ...个人分类: 社媒挖掘|863 次阅读|1 个评论

 

分享【87】新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】热度 1 李维 2012-12-29 15:11

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国 ...个人分类: 社媒挖掘|952 次阅读|1 个评论

 

分享【88】新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】热度 1 李维 2012-12-29 13:25

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

【三】 舌尖上的中国 美食纪录片《舌尖上的中国》把国人的食物和文化唱红到全世界。中国美食很火、很美。 最大的特点你猜猜是什么?不是辣,不是甜,而是 酥!个人分类: 社媒挖掘|613 次阅读|1 个评论

 

分享【89】新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】李维 2012-12-29 13:12

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

【二】 林书豪 / 林書豪 林书豪刮起的林旋风是2012一大热点,受到无数粉丝的相信、喜欢、支持和欣赏。 华人世界虽然以他的华裔背景而骄傲,他的最突出的特点却是美国人。 林书豪的伤病及恢复引起了广泛的关注。个人分类: 社媒挖掘|669 次阅读|没有评论

 

分享【90】新鲜出炉:2012 热点话题五大盘点之一【吊丝】李维 2012-12-29 12:57

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

【一】 吊丝/屌丝 吊丝男们向往的是 白富美 的 女神 ,嫉妒的是 高富帅 ; 女吊丝则向往的是 高富帅 ,嫉妒的是 白富美 。 吊丝的情绪最 为难 , 伤不起 。吊丝的印记是 注定孤独 , 哭 ,且 撸 。( 撸 何?how why? ...个人分类: 社媒挖掘|732 次阅读|没有评论

 

分享【91】WordClouds: Season's sentiments, pros & cons of Xmas热度 1 李维 2012-12-26 15:35

Most every hot topic coming to my mind these days, I will check our social media system to see how social media reflects it. Word clouds are intriguing vehicles to present the common social image. Most word clouds generated by other systems are based on statistics of keywords mentioned ...个人分类: 社媒挖掘|804 次阅读|1 个评论

 

分享【92】圣诞社媒印象: 简体世界狂欢,繁體世界分享。李维 2012-12-26 05:27

圣诞社媒印象:简体世界狂欢,繁體世界分享。

狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折!个人分类: 社媒挖掘|687 次阅读|没有评论

 

分享【93】尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?李维 2012-12-14 15:41

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有 ...个人分类: 社媒挖掘|1518 次阅读|没有评论

 

分享【94】社会媒体测试知名品牌百度,有惊人发现热度 2 李维 2012-12-13 08:54

社会媒体测试知名品牌百度,有惊人发现

今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post a ...个人分类: 社媒挖掘|888 次阅读|3 个评论

 

分享【95】【凡事不决问 social:切糕是神马?】热度 1 李维 2012-12-5 03:14

【凡事不决问 social:切糕是神马?】

鼓捣出个中文系统,尽管只是个 alpha 版,处理对象也还很有限(微薄还没进来),但也自动分析了数不清的帖子,大体的舆论情绪还是可以客观反映吧。 于是,如今遇到任何事或物,不去维基,不去百度,先去问问自家的系统,看看此物(事)在公众中的 形象/印象 如何。 这不,最近流行【切糕】,不懂这个貌似家常食品的词 ...个人分类: 社媒挖掘|815 次阅读|1 个评论

 

分享【96】【『科学』预测:A-股 看好】热度 1 李维 2012-12-4 13:37

【『科学』预测:A-股 看好】

有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续 ...个人分类: 社媒挖掘|748 次阅读|1 个评论

 

分享【97】【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】热度 1 李维 2012-11-14 07:24

【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】

哈哈,终于把 fonts 弄对了,今天测试中文系统,iPhone/爱疯 的词云满漂亮嘛 日期: 11/13/2012 17:17:43 褒贬情绪词大体都抓对了啊,是不是? 同事看到我手舞足蹈,说:香槟呢?快上香槟! 放大一点儿看仔细:这是客户对iPhone的情绪 (绿色为褒,红色为贬,社会媒体的用语果然有特色哎 ...个人分类: 社媒挖掘|720 次阅读|1 个评论

 

分享【98】奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。热度 1 李维 2012-10-18 15:54

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence 民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人 气曲线表明他几乎在所有议题上领先罗梅尼。 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经 济表现(6:55pm);二是批判他对中国不够强硬 ...个人分类: 社媒挖掘|1209 次阅读|1 个评论

 

分享【99】社会媒体舆情自动分析:马英九 vs 陈水扁李维 2012-9-29 16:51Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对 ...个人分类: 社媒挖掘|830 次阅读|没有评论

 

分享【100】方韩大战高频情绪性词的词频分析热度 3 李维 2012-9-21 06:49方 韩 大战高频情绪性词的词频分析 作者: 立委 (*) 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2% ...个人分类: 社媒挖掘|1107 次阅读|3 个评论

 

分享【101】舆情自动分析表明,谷歌的社会评价度高出百度一倍李维 2012-9-8 20:32拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a ...个人分类: 社媒挖掘|987 次阅读|没有评论

 

分享【102】方韩大战的舆情自动分析:小方的评价比韩少差太多了热度 1 李维 2012-9-8 20:11非常初步的有限范围试验表明,方韩大战(其实也没有真大战过,基本是小方的单方面攻击,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动, ...个人分类: 社媒挖掘|1552 次阅读|1 个评论

 

分享【103】研究发现,国人爱说反话:夸奖的背后藏着嘲讽热度 1 李维 2012-9-8 19:45

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In thi ...个人分类: 社媒挖掘|892 次阅读|1 个评论

 

分享【104】立委统计发现,人是几乎无可救药的情绪性动物热度 1 李维 2012-7-28 15:28立委跨语言统计发现,人是几乎无可救药的情绪性动物 作者: 立委 (*) 日期: 07/27/2012 12:58:29 最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要 ...个人分类: 社媒挖掘|1152 次阅读|1 个评论

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-758230.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

 

3  曹聪 陈辉 tuner

发表评论评论 (1 个评论)

删除 |赞[1]mirrorliwei   2014-1-12 08:03
有这样的汇总好。毕业时老师在祝词中说:竹子结实、长得快,都靠结点的功劳。这样的分类也是结点。各学会也可以把流行的话题汇总为会员们提供科研的方便。

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据