从人类认知谈AI融合之不易

听了一些深度学习的大神们的各路演讲,有些感触。

他们的科普类演讲大多有个共性,就是哲学味道很浓,有上帝视野,或干脆自己做上帝状。这是可以理解的情绪和姿态,也是一种自然的表现。在AI寒冬走过来的这些人,面壁N多年,终于迎来了扬眉吐气的深度网络横扫AI的各种奇迹和荣誉,不俯视天下反而是不可能的。

面对新闻记者的采访,有时候会给人一种自己被自己的成就吓倒了的极端自豪感,很有趣也很人性的一种表现,这种时候最容易天马行空。记者问,你认为什么时候神经网络可以自主意识呢?回答是,我认为已经自主意识了啊。

不过他们的长篇演讲还是有很多让人启发的思考,他们都在寻找下一个突破口,并不满足于小修小补。小修小补,模型越做越大的渐变式成功,他们认为是年轻人的事儿,水到渠成。他们希望自己能带领AI迎来下一个范式转变或者根本性突破。这种心理非常强烈,也是很自然的。人的本性都是,无论多大的成就,盛筵过后总是要追求下一个更大的辉煌。

其中思考最多的问题之一是,人用小数据就可以高效训练自己的技能,可是深度神经却需要大了好几个数量级的数据才能训练好。图像识别是最典型的例子,儿童开始识别猫啊、狗啊,见过的实例非常有限,但识别率则很高,什么机制?为什么机器只能蛮力去学,不能像人类一样?

在与人的认知机制的比较中,他们出现了两极的表述,很有意思。上面是强调人和机器的不同,思考如何弥合这种不同,或者如何更加逼近人的认知过程来提高机器学习效率。另一个方面说法却是强调深度神经就是人的神经。敢于这么说我觉得主要是因为生物领域的大脑机制研究很多年陷入泥潭。有人说这不怪生物学家,因为人的认知和意识是世界上最难解开的谜,目前人类对它的认知只是冰山一角。既然脑神经系统是怎么工作的留下太多的空白,AI 神经系统的大神们就理直气壮认为深度神经网络就是人脑机理的最完美模型就可以理解了,毕竟这套模型在很多认知任务(语音、图像、翻译等)的表现中已经接近或超过人脑的水平。

AI神经与生物认知这两个领域以前大多处于老死不相往来的状态。有意思的是,由于AI的高亮度,现在越来越多的生物界人士开始关注神经网络系统的进展。听过一些生物学家的看法,认同AI的不少,大概是看到了AI的表现,有点信服的意思。

谈点自己的观感。人脑的认知和决策比较复杂,大概其中有些部分的机制的确很像是各个节点互相连接以不同权重互相影响的神经网路,特别是那些我们称为“本能式反应”的下意识过程(例如遇到紧急路况的驾驶反应,在水中学会的游泳技能等),这些反应人也说不清,有些甚至已经固化到我们的条件反射里面,但这些反应是有效的生存策略。

但是,人的确有非常有逻辑条理和清晰的认知过程存在,包括我们所熟知的语言理解过程,虽然说 native speaker 似乎都可以“本能”学会说话和理解,但是其中绝大多数理解过程细细琢磨是可以找到背后的逻辑脉络的。这种认知通常是符号化(概念化)的,往往非常抽象而高效,不依赖大数据,只需要有限量数据做微调。这方面的理性认知与目前流行的神经网络很不相同。

能够清晰梳理出来的语言理解案例,在白硕老师的语义计算群里有过无数案例、讨论或解说,【语义计算:李白对话录系列】对此有所记录。其特点是:1. 符号化的;2. 多层面的较量;3. 就事论事都可以讲清楚哪个层面哪个因素主导了最终的理解,如果出现歧义,歧义背后的脉络也是清晰可见的。这些层面其实并不多,列举下来:第一是词汇概念及其背后的本体知识(常识),也包括情感分析的因素;第二是形式制约(句法、形态等);第三是篇章上下文;第四是领域性行业知识;第五是说者和听者的社会关系影响。大概就这几项了。原则都是有限的符号体系可以勾画、模拟和演算的。

符号AI在这方面的尝试已经很多,创新在悄悄发生,虽然听不到太大动静。这一路更像是真实逼近或模拟的高级认知功能。感觉到的痛点不是高度抽象的符号化概念化本身的问题,而是以上各种力量对比在语言理解过程中如何较量的问题。这正是符号化规则的短板,压下葫芦浮起瓢。也正是在这点上,神经系统或统计模型应该可以助力,主要是要找到合适的接口来做对接。这方面白老师也说过多次。我的理解是,符号系统画出骨架,血肉可以让大数据神经/统计模型来填写。

可是这种对接和融合的构想,不是神经系统 leaders 所要的。这也可以理解,每个人有不同角度。他们的角度总是,确立神经的骨架,在神经网络的延长线上,希望其他知识系统用某种方式融入。但迄今为止也大多想不出来如何融入“异质” 的知识资源,毕竟这看上去是不兼容的怪物。不少人不是不想深度融合,但困于不兼容的感觉是普遍的。

宏观上看是两条路线的不兼容,根本就没有起码的共同语言与词汇,只不过恰好面对的问题领域重合了而已。一边是离散的符号,一边是各种向量/参数,怎么交融?这就好比物理学家、化学家和生物学家很多时候不兼容一样,物理面对的是基本粒子,化学玩的是分子,生物研究细胞,不同层次的体系,如何交融。

~~~~~~~

有生物医学老友评论说:

“人用小数据就可以高效训练自己的技能”, 不知道这有啥证据。

人从生下来就在学习。把猫狗图像识别用于刚出生 的婴儿试一试,估计还不如机器快。

人的认知过程本质是环境输入信号和大脑已有模型的拟合过程,而人脑的已有模型是通过学习建立的。这个模型的建立过程归记忆的机制在研究。很显然目前还不能在分子和细胞水平进行解释。

AI识别和人脑识别最大的不同是AI没有情绪成份。人脑情绪成份的加入会严重影响记忆建模过程,并因此影响模型和环境信号的拟合过程,也就是影响对环境信号的识别。情绪成份是生物上亿年进化出来的东西,和个体生存和种系繁衍有关。情绪的逻辑和AI的数理逻辑差异巨大。

说不准算不算小数据认知。只是感觉认识物体与学习语言类似,并不需要海量样本。

我们教孩子认识一个物体,也就是给有限的几个样本,他们就认识了。后去这些物体的各种变形,基本上一样可以认出来。

类似的过程在学习语言这种复杂的系统中最为明显。所以乔姆斯基认为,人生下来就有一个普遍语法机制在头脑,这个机制有一些参数需要数据去训练,但人在学语言的时候,其实面对的并不是海量数据,也不是完整无误的数据。就是这些片段的有限数据,让最傻的孩子也可以自如学会母语。

可是机器学习不同,最新的深度学习的语言模型的预训练规模是:

GPT-3 is a very large language model (the largest till date) with about 175 billion parameters. It is trained on about 45TB of text data from different datasets

当然,现在的语言模型的语言生成能力包括流畅度和合法性,已经超越普通人的水平。

乔姆斯基批评这种学习是蛮力,没有科学意义,因为不能揭示人类的认知过程。

的确,关于生物演化而来的喜怒哀乐情绪,在人机对比中更具有区别意义。

本来情绪这种东西,看上去是非理性的 比较低级的心理过程,因为一些高级动物也会有某些情绪的表现。而理性思维和智能被认为是人类独有的高级认知功能。

但是,现在看来,机器在不断压缩或逼近人类的智能空间,原先以为人类独有的很多智能活动,逐渐被机器学习超越了。反而是情绪这种东西,成为人机的真正鸿沟。

教会机器“谈”恋爱并不难,但是让机器堕入爱河是不可能的。让机器呼天喊地哭鼻子叫苦叫疼也可以做到,但证明他是因为痛苦而哭现在看来是天方夜谭。自主意识和自主感情是科学幻想所热衷的话题,但是至少迄今没有任何可信的迹象表明,生物科技(基因工程)与电脑科技会真正深度融合人机,以至于可以创造出具有情绪的超级机器人。担心自主的机器起来造反或谋杀人类,是相当可笑的。AI如果有灾难,是人自己把自己玩死了,是某种 bugs 没消除就部署造成的意外灾难,这是可能的,但绝不是机器人犯上作乱。

图灵测试不是人机不可逾越的界限,情绪证明才是。

 

【相关】
 
 

 

 

《李白125:语言学的爱因斯坦之梦》

白:

“写作业”被整体强制为N/N。

终于搞清楚了,只有“最大投射”才有权利参加Swap,即从已饱和的坑中置换出免费萝卜的操作。一个成分所包含的所有最大投射,按“加入革命”(即配属于当前中心词)的早晚排列,last-mentioned不是指自然顺序,而是指参加革命顺序。越晚参加的,免费额度越不牢靠,越有可能被替换成临时工。

李:为什么要强制转N?

另一个可能的做法也许是:

(1) “当成”: S/2N X
(2)“把”:X+

然后就齐了,介词可以带着S的介宾,S的三个坑可以匹配一个 X。

白:想过这个方案,某种意义上是等价的。

李:一个旁证:“当写作业为负担”,“当” 的两个坑,一个是 X 做宾语,一个是 PP(为) 做补足语。“当成”实际上是 “当+成/为” 而来的合成词,结果合成动词整体就有了三个坑。

白:感觉X+容易惹火烧身,X好控制一些,所以用了后者。把的这个,因为是直接成分,所以用了N+。用了X+,弄不好就把整个谓语给吞了。

一般的介词是S+/N或者S+/X,后置的也有+S/N或者+S/X。单目运算,即升降格、泛化特化这种,虽然中心词没有改变,但中心词的句法属性有了重大改变的,也属于“最大投射”。比如“吃食堂”,“食堂”从N变更为+S前后,是两个不同的最大投射。

李:这样的话 如何区分:“在中国服务” vs “为中国服务”,这种介词搭配如何体现?

白:S+/N N S/2N,这是一样的。但是,惠格是必选论元,可以置换一个免费额度给萝卜“中国”重用。间宾是正式工作,发工资的,介宾是客串临时工,不发工资的。在中国,不是惠格,没有这个待遇。介宾就是正式工作了。中间代表“中国”的那个N,重用与否,有免费额度与否,区别主要在这儿。这是“服务”的论元结构决定的。

李:嗯,“在” 标注为 S+/N,“为”的格怎么表示?或者说 “服务” 怎么表示需要这个 “为”-格?从词典角度,这种介词搭配信息应该是在 “服务” 的词条上吧。

白:我们在S+的modee里表示 +beneficial 这个控制标签。服务的对象,在服务第二个坑里,有一个 -beneficial 的控制标签。二者匹配,就可以。

李:嗯 那行。

白:之前还讨论过“张三向李四出示身份证”“张三为李四出示身份证”的问题,也是类似。惠格会截胡。把李四当成身份证的宿主,对格(向)不会截胡,所以宿主是张三。这个介宾转正,实行的是白名单制。

把和被,直接用N+转正了,与动词无关。

李:对 这两个介词就是格标志。

白:而其他与动词有关的就采用白名单制。即使“在”格,遇到合适的动词也可转正的。比如“放在桌子上”。

S/3N +S/N N +N

桌子上,可以转正。但是,在桌子上打滚,就不是标配论元,只能老老实实地做介宾。打滚是S/N,不特别强调处所。在天上飞,类似。

李:放:locative+,这样的标注缺少方向,如何区分:

“在家 放 在抽屉里”
“在外 放 在口袋里”

为什么 “在家/在外” 斗不过 “在抽屉里/在口袋里”?“放 在家”、“放 在外” 也都是通的。

locative 的候选PP,在谓词前是静态状语,谓词后才是 动态/目的地/结果 意义的所谓补语;前者一般认为是随机的,后者才是(萝卜/坑)配对。

白:已填坑的萝卜,只有本体、控制标签都相谐的最大投射,才可以考虑重用与否。控制标签,类似自动机的状态,但一般从命名上即可看出句法意义,所以比较方便语言学家维护。

“假如不是家人在绑匪手里,谁会忍得下这口气啊?”通过条件连接词组成复句,主句的已填坑萝卜“谁”,在从句中“家人”处的残坑被复用。兼语句式更是典型的萝卜复用。

右填坑、右修饰,先验优先级都高于对应的左填坑、左修饰。但像惠格,放在前面也好使。

“为他把邮票贴在信封上。” 既有locative,又有beneficial。

“为他把胡子刮了”,刮的是“他”的胡子;“为了他把胡子刮了”,刮的是自己的胡子。如果一定要“为她把胡子刮了”,可以因为不相谐而强制指向自己。“为”效果等同于“为了”。

类似的吞音段子有:“今天我要讲两个小时,【停顿】你们肯定烦透了。”——其中的“要”一开始被理解为“想要”,停顿后自动被脑补为“要是”。

“为他把扣子扣在扣眼里”,扣子是衣服的部件,衣服是人的部件(缺省场景)。那扣子是介宾的,而不是逻辑主语的。因为惠格介宾可以截胡残坑。

“他的基本信息已经被公安部门编码在身份证里。”——谁的身份证?好像很显然,但是想要让计算机做到,就要让位于逻辑主语的定语位置的“他”有机会出来走两步,才能碰上那个放出了“残坑”的“身份证”。我们的做法是:给一个免费额度,看动态(后验)优先级造化。

李:宏观上看,回答谁的身份证这个问题(填逻辑所有格的坑),是一个与本句其他谓词填坑的问题处于不同层次的问题。【N1 “编码” N2 PP(N3)】 已经完满了,只不过恰好 N3 本身是个部件,那么部件就有个逻辑宿主的问题出现。换句话说,这貌似另一层次的问题,感觉上较少受到句法条件的约束。既然不是同一层的问题,超越这个层次找宿主的自由度就大很多。策略可以是左右扫描,找距离最近的本体相和谐的宿主为最优。不必顾忌结构的约束,只要看线性距离即可,前提是相谐。上句中,唯一的 candidate 是“他”,无论 “他” 处于结构树的什么节点上。

白:转正问题和这个不一样,这是对的。前者是白名单制,后者是黑名单制。在自身辖域里,唯一相谐的已填坑萝卜,要复用也只有它了。可万一不那么相谐呢?比如“她意识到妻子的责任。”  ——这时,宁可空着,也不乱填。

“作为这个网站的访客,我居然不知道(其)域名。” 这个顺序,“访客”是最新参加革命的,但与“域名”的宿主在语义上不相谐,于是需要进一步顺藤摸瓜,找出下一个大瓜——“网站”。不加“其”,机器翻译给自动加its的很少;加了“其”,做对的就多了。

如果坑的总数超过萝卜的总数,那么有合适的萝卜优先复用,这个精神是一致的,只不过,有的用白名单制,有的用黑名单制而已。

李:白名单是要求相谐,黑名单是要求只要不相悖(对象没在黑名单上)即可,是吗?

白:不是,白名单是不在里面就不考虑萝卜复用,在里面也还要过相谐这一关。黑名单是不在里面就可以考虑萝卜复用,在里面同样要过相谐这一关。

李:里面?辖域?同一个句子之内?

白:两方结合,一方有未饱和坑,且在自身辖域之内寻萝卜未果;向另一方的已填坑萝卜寻求复用。所以范围是另一方的辖域。两方正式结合,辖域合并的不算。萝卜复用都是辖域内部的事情,不涉及辖域合并。

人家都搞C-Command,我这萝卜复用的位置更宽泛,只要是最大投射就ok。不如就叫M-Command。

李:C-command 之类对于反身代词 self 似乎的确有可以感触的结构约束效用。但是对于其他寻求宿主的行为,感觉结构不起作用。Binding theory 其实是从反面证明了这一点,其中第二条约束说的不是“谁可以回指谁”,而是“谁不可以回指谁”,后者实际上是几乎放弃了结构约束。

白:不一定是宿主,谓词合并时过继而来的那些残坑怎么寻找相应的可复用萝卜,都需要研究分析树的拓扑。残坑和代词释放出来的空范畴可以一并处理。

李:所有格宿主问题感觉不是结构问题。至于其他的合并共享,应该是有结构约束的。

白:我这里已经统一了。是一个完整的大一统理论。

李:哈哈。联想到这段时间老看到物理大牛的大一统理论,theory of everything,每个人都想实现的爱因斯坦之梦。

白:中心词萝卜对正常坑,只需要CFG;中心词萝卜对残坑,需要C-Command;非中心词萝卜对正常坑和残坑,都必须突破C-Command,但后者是纯粹的交叉,画出来都是飞线。用程序实现也不难,这个部位的核心代码也就200行。四种情况一个理论模型就可以搞定。

李:嗯 听上去蛮 comprehensive and reasonable。

飞线的实质就是本体决定论,绕过结构,再深也压不住。句法(结构)语义(本体)的“统一场”中涵盖句法约束和语义约束的不同比例分配,包括两个极端:1. 结构决定论;2. 本体决定论,plus anything in between, white- or black-lists。

白:只有第三种情况:非中心词萝卜对正常坑,才需要白名单控制,其他不需要。

把四种情况分别列一下,除了第一种,都有“交叉”。第二种,是非中心词分母把自己的未饱和坑(残坑)托管给中心词分母,让这些残坑有跟亲坑一样与外界结合的机会。第三种,是给非中心词最大投射一个进入主流成为其论元的机会,前提是,最大投射携带的控制标签在对方设定的标签白名单之内。第四种,是让合适的非中心词最大投射和对方携带的残坑之间有一个“拉飞线”的机会,前提是,最大投射携带的控制标签不在对方设定的标签黑名单之内。

M-Command关系,萝卜一方处于某一个非中心词所在子树的继承链顶端,坑一方处于中心词所在子树的任何位置。C-Command关系,萝卜一方处于所在子树的中心词位置,坑一方处于中心词所在子树的任何位置。

垂直方向是局部中心词继承方向,斜向转角处是最大投射成分。

寻找萝卜复用的算法,涉及到把所有最大投射按类型链在一起,随着分析的进行,这个链会动态调整,但是一旦正常邻接成分处理完毕仍有未饱和坑,就会启动这条链的搜索。这个算法也就是把各类飞线一网打尽的算法,号称“大一统”。

李:这个 c-command 和 m-command 图示,看不大懂。通常说的 c-command 就是姐妹及其下位。蓝点和红点没看出姐妹关系。两个点是姐妹,需要共同的 parent ,不知道在哪里。

白:对啊,姐妹,这里还要考虑中心词继承关系。蓝点顺着中心词继承路线可以走到转角点,也就是左子树的根。它就可以统辖整个右子树。M-Command,就是蓝点不一定走到根,可以走到任意最大投射。只要你相谐。但是对面的坑,亲疏有别。

李:所谓 m-command 说到底我的理解就是放松 traverse 的条件限制。其实可以从反面来想这个问题。条件放松到极致,就是遍历每一个节点。那么问题就变成 m-command 比起遍历,到底多了什么限制?或者问 到底哪些是 m-command 的例外区间?

白:中心词继承路上,不用多关注,盯住最后结果就行了。一开始并不一定给你很具体的本体标签。越继承,越具体。修饰语的每一次汇入,都会带来modee的标签。比如,“不男不女的东西”,“不男不女”给“东西”带来了更加specific的本体标签吧。

实用角度,对于M-Command,我们可以只考虑N和S的继承链。需要遍历的数据组织非常清晰。

 

【相关】
 
 

社媒挖掘:关于狗肉的争议

社媒挖掘:关于狗肉的争议

 

蒋老师看了关于柴静的社会媒体舆论挖掘后留言,问可不可以帮助挖掘一下狗肉的话题。这也是一个极其有争议的热点话题。凸显动物保护主义与传统文化的冲突。

蒋老师何等人物,岂敢怠慢。n 年前,是蒋老师最先介绍我到科学网来的。恭敬不如从命,还是赶紧交家庭作业吧,这是对过去27个月的中文社会媒体样本的初步挖掘结果,还没有做细致的分析解读。

一 总览和回顾


Download

上面是过去27个月的“狗肉”话题在社交媒体的热议度,能看到两个高峰,那应该是在玉林狗肉节期间引起的广泛争议。

下图叫 Brand Passion Index Trend,内涵舆情挖掘的简约但丰富的信息,反映的是对于狗肉好恶的消长趋势,图中截取了过去一年半中社会舆论喜爱或痛恨(吃)狗肉的争议变化,三个泡泡反映了每半年的好恶(BPI)指标:泡泡的深浅度反映了数据的新旧,具体说就是,左下颜色最深的泡泡是最近半年统计挖掘出的好恶指标,中间那个泡泡是一年前的统计,颜色最浅的右下泡泡反映的是一年半前的指标。泡泡的大小表明了热议度,譬如一年前比半年前热议更多。泡泡所处的坐标位置反映了两项舆情,一是好恶(越往左越喜欢),二是情绪烈度(越往上越情绪化)。可见,一年前那个统计情绪烈度最大,而对(吃)狗肉的厌恶则随着时间推移越来越大(越来越靠左)。这说明什么呢?应该可以看到近年来,动物保护主义的影响在逐渐增大,反对吃狗肉的呼声正在变高。

Download

二 相关热点话题


Download

Download

Download

Download


Download

三 褒贬比例


Download

Download

四 情绪及其好恶的理由


Download

Download

Download

五 社会舆论的地理分布


Download

六 数据样本的来源


Download

8  蔣勁松 吕喆 戴德昌 余池明 张珑 赵美娣 uneyecat bridgeneer

发表评论评论 (12 个评论)

删除 回复 |赞[8]蔡小宁   2015-3-8 10:29
愿意吃的吃,不愿意吃的就不吃,自由选择,相安无事。
删除 回复 |赞[7]bridgeneer   2015-3-7 21:08
谢谢博主给的链接,图很清晰 
删除 回复 |赞[6]bridgeneer   2015-3-7 12:28
饼图看不清 
删除 回复 |赞[5]uneyecat   2015-3-7 09:31
口袋里的钱是多起来了,但离文明社会还相差甚远。
删除 回复 |赞[4]余池明   2015-3-7 08:10
信息化好厉害,是用什么软件搜集舆情反应吗?
 回复  : 自家的软件。是为企业服务的。
追踪热点话题是副产品,作为测试、展示、消遣用,多少可以显示一些自然语言技术的潜力和价值。

2015-3-7 09:491 楼(回复楼主)赞|回复
删除 回复 |赞[3]戴德昌   2015-3-7 07:35
韩国的情况没有包括进来 
 回复  : 等我把韩语做出来再做一次。大约半年后会有韩语的挖掘进入系统。

2015-3-7 08:021 楼(回复楼主)赞|回复
删除 回复 |赞[2]冯喆   2015-3-7 07:31
这种挖掘确实能找到让人意想不到的线索。现在大家关注的信息渠道都很丰富,但实际上来源并不多。有些观点我自以为支持的人很多,看到您的挖掘才知道还有同样多的人反对。
 回复  : 那就好。最好的挖掘是,如果与人的日常感知吻合,虽然情报本身并不新鲜,只是对已有感知的印证,那也间接证明了挖掘质量的靠谱,因而没有理由不相信这种挖掘(无论挖掘出的是已知还是未知的信息,因为挖掘方式是同样的)所具有的参考价值。如果情报出乎预料,那就更具情报价值,可以帮助人看到全局。

2015-3-7 11:021 楼(回复楼主)赞|回复

删除 回复 |赞[1]蔣勁松   2015-3-7 00:26
谢谢,感恩!
 

【社煤挖掘:雷同学之死】(屏蔽留存)

【社煤挖掘:雷同学之死】

屏蔽已有 10098 次阅读 2016-5-14 08:54 |个人分类:社媒挖掘|系统分类:观点评述| 舆情挖掘

这是最近的热点新闻,舆情鼎沸,有蔓延之势。值得挖掘和跟踪。

 

社煤选样:

雷洋遗体外伤严重

质疑雷洋案件十大疑点

雷洋妻报案:有充分证据警察涉故意伤害致死罪(图)

雷洋事件解决不好,非正常死亡可能成为常态【时局深度】-

蔡慎坤:血与泪的控诉还原雷洋遇害真相

对比家属报案书和警方通报再看雷洋致死案

转发雷洋案刑事报案书:描述死亡过程(真相即将到来)-衡阳

雷洋案件之疑点-第11页-

血与泪的控诉还原雷洋遇害真相-

网传’大学生屁股被警察叔叔打开花’,警方:属实!图_中华论坛_中华网社区-

雷洋死亡当晚到底发生了什么?央视专访当事警察

雷洋家属向北京市检报案要求侦查涉事民警-

‘他沒有嫖娼時間’ 家屬報案指雷洋被無辜毆死

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋死有余辜!

雷某的家人实在太不要脸了!

“刑事报案书”描述雷洋之死【李鸣生】-常德

雷洋妻子报案,事件最新爆料!嫖娼是栽赃,雷洋被打死-休闲侃吧-

[原创]雷洋遗孀之报案书等于官媒的死刑判决书

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋最新情报:“刑事报案书”描述雷洋之死经历

关于要求北京市检察院立案侦查雷洋被害案的刑事报案书(转载)

我们为什么要关注雷洋之死?

雷洋案刑事报案书,警方涉嫌故意伤害(致人死亡)罪、滥用职权罪、帮助伪造证据罪-

转帖:雷洋妻子向北京市检察院报案:嫖娼是栽赃,雷洋被打死

1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3)尸检结果延迟到60天出结果

一个昌平“嫖娼者”为何引燃了全国公众的怒火?(转)

陈有西律师曝雷洋案发现最新一个重要疑问

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

雷洋家属向北京市检报案,要求侦查涉事民警

【时评】雷洋之死,疑云重重

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

作为正在人大读书的研究僧,分析雷案可能的结果吧-

七律读微信圈雷洋数帖激愤有咏一气呵成重字不改也

何新:悼雷洋

哀悼环保烈士雷洋

血的事实告诉我,雷洋事件很快就平静下来!

警察滥用国家暴力必须予以遏制

雷洋事件解决不好,非正常死亡可能成为常态【时局深度】-

雷洋之死纯属咎由自取_中华论坛_中华网社区-

人大硕士雷洋真的嫖娼了吗?十三省

朝吉:足疗送命记

雷洋之死击碎了中产阶级的优越感!

昌平的一个“嫖娼者”为什么会引发公众的怒火

雷洋案:尽管真相还在路上,三种共识可以先到

北京公安回應雷洋案:決不護短

北京市检察院:已将雷某家属报案材料移送昌平检方

北京市公安局公开回应雷洋案:高度重视绝不护短

横河:雷洋案为什么应该怀疑警方

关于雷阳事件的随想

警察蜀黍为何喜欢抓嫖?-

“雷洋事件”终于开了个好头

雷洋用牺牲捍卫一个公务员的尊严 _网上谈兵_中华网社区-

从目击者证言和记者调查的报道看被忽略的雷洋事件关键点

雷洋被强押致死案,槽点多多,警方说辞漏洞百出

雷洋事件:中国人民大学88级部分校友向公安部门下战书

雷洋家属联系第三方鉴定机构将第二次与检方沟通-

雷洋事件,显示了老百姓的焦虑,不安全和无助感_网罗天下_天涯论坛

雷洋的家属成了大输家!!!

雷洋案真相不难搞清,但很多人打死也不愿相信

解密雷洋之死的根本原因!-常德

有见过抓嫖不在店里抓现行而在马路上盘查的吗

【视点】比雷某嫖娼事件真相更可怕的,是“相信”尽失!

【时评】雷洋事件,送环球时报两字无耻

中国人民大学88级部分校友就雷洋同学意外身亡的声明

[原创]雷洋之死:给你真相又何妨?

雷洋遗体外伤严重尸检后家属控告警方涉嫌犯罪 – 中国禁闻网

呼格案律师谈雷洋之死:涉事警察是嫌犯警方无权再接触证人-常德

民众为什么关注雷洋的案子?

转载:雷洋妻子正式报案:嫖娼是栽赃,雷洋致命处睾丸异常肿大系被打死

妻子坚决捍卫老公嫖娼有理正义吗。打飞机不算嫖娼吗_中华论坛_中华网社区-

雷洋之死的九大谜团,谁能告诉我们真相?

雷洋案:守住私德的底线,恢复人性的的良知

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷洋案:守住私德的底线,恢复人性的的良知

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

雷洋案真相不难搞清,可怕的是有人就是打死也不愿相信

网友热议:雷洋的事,恐怖在哪儿?(图) – 看中国 secretchina.com

雷洋尸检报告未出,但问题已显现:(第3页)_天涯杂谈_天涯论坛

[原创]嫖娼案拒谈嫖娼,雷洋老婆居心叵测,图谋不轨

雷洋死亡案铁证如山,雷洋没有白死

雷洋案新证据浮现:警察有问题

快讯!雷洋家属正式控告警方涉嫌犯罪

雷某嫖娼案最终结果的终极预测-第2页-

雷洋怎么死的,我来分析下。

[原创]雷洋死因的逻辑分析

[原创]雷洋怎么死的?【猫眼看人】-

雷洋嫖娼,谁又在嫖中国法律_天涯杂谈_天涯论坛

警方回应雷洋案热点问题昌平检方介入调查

【转帖】中国人民大学88级部分校友就雷洋同学意外身亡的声明-

橫河:雷洋案為什麼應該懷疑警方

最新消息:从警方提供及其他方面提供的证据看,雷洋涉嫌“嫖娼”的疑问太多!【铁证】 – 有啥说啥

我们为什么要关注雷洋之死?(第4页)_关天茶舍_天涯论坛

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

我服了雷洋家人了,到底要闹哪样?没见过这么无赖的(第5页)_天涯杂谈_天涯论坛

[原创]草根今日谈:依法治国请从雷洋事件开始

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文 – 中国禁闻网

中国人民大学77、78级校友关于雷洋的声明

大陸雷洋離奇死亡聯合國貼文關注

雷洋尸检超过12个小时北京昌平警方回避不

热帖:为什么我们应该感谢雷洋的妻子(图)

雷洋死有余辜!

[原创]由雷洋事件看恶警李乐斌杀人未受惩罚的危害性

[原创]支持雷洋遗孀依法起诉诬陷其亡夫的媒体

雷洋之死的真相究竟是什么?

[原创]雷洋,愿你的名字叫做公正与法治【猫眼看人】-

雷洋事件,显示了老百姓的焦虑,不安全和无助感_网罗天下_天涯论坛

‘嫖娼者’雷洋的安全感要不要保护

亦忱:简评陈有西代理雷洋案的前景

雷洋案新证据浮现:警察有问题

雷洋之死的两个最重要真相! – 云中茶社

[原创]由雷洋事件看恶警李乐斌杀人未受惩罚的危害性

雷洋家属发表声明:警方的做法是在混淆视听

昌平警方的行为完全合法!

周小平:酷吏以法杀人,奸生以文灭口-真相为何败给愤怒?-第6页-

雷洋案:守住私德的底线,恢复人性的的良知

[原创]三点详析雷洋事件严重亏空损耗了XX公信力!

雷洋有没有嫖娼,有一个绝招,立刻就能见分晓!

风云洞评劣等民族情商高?(图)

周小平:酷吏以法杀人,奸生以文灭口-真相为何败给愤怒?-第6页-

周小平:酷吏以法杀人,奸生以文灭口-真相为何败给愤怒?-第6页-

雷洋有没有嫖娼,有一个绝招,立刻就能见分晓!

雷洋案:守住私德的底线,恢复人性的的良知

涉案警方擅自检验死者DNA是否涉嫌违法犯罪?

贾冀豫__北京出租车司机说雷洋是打死的

【风青杨专栏】对不起,我并不想知道雷洋如何嫖娼(第8页)_天涯杂谈_天涯论坛

雷洋之死让普通人感到无比恐惧

雷洋之死或可推动社会三大进步

雷洋之死让普通人感到无比恐惧

这不是两个人死亡的问题_社会热点_中华网社区-

解密雷洋之死的根本原因!-常德

性价比。。。。_上海汽车论坛_XCAR

有见过抓嫖不在店里抓现行而在马路上盘查的吗

雷洋嫖娼离奇死亡案。

重大消息!国资委官员嫖娼被抓猝死(组图)

这不是两个人死亡的问题

张鸣:雷洋之死

雷洋案,网友如何“推波助澜”?全民一起破案,真相越来越近了吗?-

人大硕士求救帖,几乎每一段都充斥着谎言!

中国人民大学77、78级校友关于雷洋的声明

中国人民大学77、78级校友关于雷洋的声明

2016年05月13日

人大的校友别再发声了,77,78,84,88级的

女人天天被杀都激不起水花,雷洋死就激起千层浪!

《雷洋案》引起北京公安局领导高度重视

雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法

快讯!雷洋家属正式控告警方涉嫌犯罪

雷洋案:守住私德的底线,恢复人性的的良知

雷洋事件也许将有助中国执法部门的公正、警醒?

那些声嘶力竭认为雷洋嫖娼该死的人,他们是些啥人?

雷洋事件也许将有助中国执法部门的公正、警醒?

关注小人物的命运!就是关注自个命运!小人物之死网友理应关注

雷洋案:守住私德的底线,恢复人性的的良知

“欺负死人不能说话”乃世间首恶

“欺负死人不能说话”乃世间首恶

拿雷洋殒命事件大肆鼓噪的那些人,可把死者一家人害惨了

“欺负死人不能说话”乃世间首恶

[原创]“欺负死人不能说话”乃世间首恶

力瑾:還有多少國人在意雷洋案的真相?

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

雷洋案:守住私德的底线,恢复人性的的良知

警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 – 第2页 – 警务探讨

[原创]草根今日谈:依法治国请从雷洋事件开始

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

雷洋案:为何警方信息发布总显得很被动?

【视点】比雷某嫖娼事件真相更可怕的,是“相信”尽失!

【时评】雷洋事件,送环球时报两字无耻

 

中国人民大学88级部分校友就雷洋同学意外身亡的声明

‘嫖娼者’雷洋的安全感要不要保护

打飞机为何没有改变雷洋案的舆情走向?

一个昌平“嫖娼者”为何引燃了全国公众的怒火?(转)

十族沦为下一个魏则西比雷洋尤恐怖 – 有图有真相 – 中豫爆料

十日谈;我想说几句了,关于何新的两篇文章_中华论坛_中华网社区-

女人天天被杀都激不起水花,雷洋死就激起千层浪!

女人天天被杀都激不起水花,雷洋死就激起千层浪!

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

【今言野语】副省长私访被警察殴打的社会问题?_新闻众评_天涯论坛

[原创]雷洋死亡案铁证如山,雷洋没有白死

雷洋死亡案铁证如山,雷洋没有白死

说雷阳打飞机我的看法不成立!_中华论坛_中华网社区-

陈中华;警察威严不容丧尽,法律遵严不容侵犯_中华论坛_中华网社区-

为违法警察洗地,无耻!_中华论坛_中华网社区-

雷洋事件,某些人已经玩过火了!

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋事件:雷洋律师团调集近20位律师参案

雷洋事件:雷洋律师团调集近20位律师参案

雷洋案:守住私德的底线,恢复人性的的良知

转载:一个昌平“嫖娼者”为何引燃了全国公众的怒火?|洛阳城事

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷洋之死第二季

规范警务活动:从雷洋案开始

雷洋之死击碎了中产阶级的优越感!

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

雷洋案:守住私德的底线,恢复人性的的良知

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

李悔之:比雷洋之死更可怕的是龙兴伟

从雷洋案看科学研究思维在生活中的应用

从雷洋案看科学研究思维在生活中的应用

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文 – 中国禁闻网

民主到底能不能当饭吃?

 
 

对警察说两句,你们不感到愧疚吗

涉嫌嫖娼男突发死亡,你怎么看?-

雷洋事件,让我想起那些年采访过的奇葩嫖娼案_三秦网

雷洋被嫖被死案,急呼性合法化_京味悠长_天涯论坛

贪官雷洋嫖娼被抓,畏罪拘捕逃跑未遂身亡

雷洋父母看完遗体后,为何当场给尸检证人下跪?

 

[原创]我又不嫖娼,我为什么会成为下一个雷洋

我们追问雷洋是怎么死的,他们却要证明他是怎么嫖的!

雷洋怎么死的,我来分析下。

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷洋妻儿父母岳父母的今后生活北京警方必须承担-

雷洋案件之疑点-第5页-

投票赢取《狄仁杰之神都龙王》..

《意外的恋爱时光》都市剩男&..

为您梦想中的“土豪人生”投票..

雷洋事件需要真相而非真像

雷洋案件之疑点-第3页-

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

拍案尖笑(集锦)

雷阳事件现场群众偷拍视频

雷洋疑案:史上效率最高最变态最廉价的嫖娼

雷洋事件解决不好,非正常死亡可能成为常态【时局深度】-

雷洋事件解决不好,非正常死亡可能成为常态

老徐:雷洋事件需要真相而非真像

雷洋事件,让我想起那些年采访过的嫖娼案

雷洋案:守住私德的底线,恢复人性的的良知

警察能让处女嫖娼,何况男士乎?

雷洋事件解决不好,非正常死亡可能成为常态_中华论坛_中华网社区-

雷洋事件解决不好,非正常死亡可能成为常态_中华论坛_中华网社区-

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

雷洋之死击碎了中产阶级的优越感!

雷洋之死击碎了中产阶级的优越感!

贾冀豫__北京出租车司机说雷洋是打死的

”这份“公平正义”,雷洋听不到了,但我们必须感受到!(第2页)_重庆_天涯论坛

警察能让处女嫖娼,何况男士乎?

让子弹飞一会:人大硕士涉嫖身亡(集中讨论)(第2页)_国际观察_天涯论坛

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

这些事发生在啥国度?!

德媒:雷洋之死公信力缺失之下人人自危(图)

德媒:雷洋之死公信力缺失之下人人自危(图) – 中国禁闻网

德媒:雷洋之死公信力缺失之下人人自危(图)

女人天天被杀都激不起水花,雷洋死就激起千层浪!

对不起,我并不想知道雷洋如何嫖娼-邵阳

中国人民大学77、78级校友关于雷洋的声明

罗竖一:检方应尽快就雷洋一案启动侦查程序

雷洋死亡案,我持消极看法

[原创]草根今日谈:依法治国请从雷洋事件开始

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

张鸣:雷洋之死

说服公众

【话题】常识变为异端的社会

 

下一个“雷洋”不会太远,或是你我,或在身边-

下一个“雷洋”不会太远,或是你我,或在身边-

被雷洋案击中的那根弦

雷洋案与毒地案有关?网传因特殊身份致死(组图)

警方:已證實雷洋有嫖娼行為

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

雷洋嫖娼案的所有证据都是事后补上?

雷洋嫖娼案的所有证据都是事后补上?(图)

雷洋嫖娼案的所有证据都是事后补上?(图) – 中国禁闻网

重要质疑:就雷洋案请教昌平警方几个问题-常德

雷洋嫖娼案的所有证据都是事后补上?(图)

关注雷洋,也关注人民警察

[原创]就雷洋案请教昌平警方几个问题

没有嫖娼动机的说法很可笑

[原创]雷洋死亡原因的最简单分析

雷洋案新证据浮现:警察有问题

三个字道破宇宙真理,破解《道德经》三千年谜团。

雷洋家属状告公安局全体民警,称雷洋没嫖娼,一切都是警方伪造,故意杀人后伪造事实

[原创]凯迪何公然支持传谣?!有关“雷阳视频”的真相

[原创]十年一觉京华梦赢得娼平嫖客名

雷洋“嫖资收据”铁证如山_胜利社区_东营论坛_油城茶座

985各校新闻量排行

张鸣:雷洋之死…………..

尸检结论获一致认可前雷洋遗体不会被火化

[原创]洗脚女,昌平警察提供了雷洋没有进入洗脚店的证据

民主到底能不能当饭吃?

识不足则多虑,不要因个别负面事件过于恐慌 – 我说深圳事

谁在妖魔化中国人

中国人开始追求免于恐惧的自由

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

致人“屁股开花”的警察有兽性无人性

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

雷洋事件,某些人已经玩过火了!

中国人开始追求免于恐惧的自由(转载)_邯郸_天涯论坛

[原创]雷洋案:“我上车,我必死”

公知们,不要搬起石头砸了自己的脚(转载)_时尚资讯_天涯论坛

质疑雷洋案件十大疑点

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋妻报案:有充分证据警察涉故意伤害致死罪(图)

[原创]雷洋案:“我上车,我必死”

欲追究警方刑責雷洋家屬向北京市檢報案 | 暴力執法 | 大紀元

欲追究警方刑责雷洋家属向北京市检报案

[原创]雷洋家属及代理律师已提出刑事起诉

雷洋事件,某些人已经玩过火了!

欲追究警方刑事责任雷洋家属向北京市检报案 – 中国禁闻网

四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论?-

四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论?-

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

每日大盘走势预判和盘中分时高低点的实时分析

各国《宪法》中几种《权利法案》之比较

除了移民我们还有什么更好的选蔡慎坤

家属最大的交代和安慰

雷某嫖娼案最终结果的终极预测-第2页-

很奇怪,没抓现行,雷洋已死,警方是怎么锁定雷洋所嫖失足女的?

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

民主到底能不能当饭吃?

[原创]雷洋死亡案,已经形成死结

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃?

雷洋事件引发更深刻的社会问题

蔡慎坤:雷洋之死真相早己大白于天下

民主到底能不能当饭吃?

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃?

民主到底能不能当饭吃?

蔡慎坤:雷洋之死真相早己大白于天下

民主到底能不能当饭吃?

民主到底能不能当饭吃?

民主到底能不能当饭吃?

[原创]三点详析雷洋事件严重亏空损耗了XX公信力!

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃?

民主到底能不能当饭吃?

民主到底能不能当饭吃?

蔡慎坤:我們為什麼恐懼為什麼憤怒?

童大焕:中国人开始追求免于恐惧的自由|洛阳城事

蔡慎坤:我们为什么恐惧为什么愤怒?

雷洋是否嫖娼和怎么死亡证据链暴光

童大煥:中国人开始追求免于恐惧的自由-

喝我这七星茶听他摆龙门阵再饮三盅

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

赏析《还原雷洋之死》(续)

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷剧大反转之二:让子弹飞一会儿(ZT)

国资委官员嫖娼死的“春秋笔法”-

程序正义高于实质正义的理念,规则重于道德的理念,生命高于一切的理念_胜利社区_东营论坛_油城茶座

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

雷洋事件需要真相而非真像

雷洋之死真相早己大白于天下

几乎所有关注雷洋之死的舆论和公

雷洋,你能否为暴力执法敲一个警钟?_新浪杂谈_历史论坛_新浪网

童大焕:中国人开始追求免于恐惧的自由

雷洋之死真相早已大白于天下【猫眼看人】-

[原创]雷洋家属有责任立即单方面公布解剖真相

雷洋案:守住私德的底线,恢复人性的的良知

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

童大焕:中国人开始追求免于恐惧的自由

老徐:雷洋事件需要真相而非真像

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

下一个雷洋是谁?

律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立_中华论坛_中华网社区-

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

力瑾:還有多少國人在意雷洋案的真相?

国资委官员嫖娼死的“春秋笔法”——雷洋事件再反转_中华论坛_中华网社区-

“友邦人士,莫名惊诧,长此以往,国将不国”:是不是鲁讯的文章?!_汽车时代_天涯论坛

“友邦人士,莫名惊诧,长此以往,国将不国”:是不是鲁讯的文章?!

雷洋“嫖资收据”铁证如山_胜利社区_东营论坛_油城茶座

让子弹飞一会:人大硕士涉嫖身亡(集中讨论)(第2页)_国际观察_天涯论坛

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

人大硕士雷洋真的嫖娼了吗?十三省

下一个’雷洋’是谁?

雷洋之死击碎了中产阶级的优越感!

雷洋嫖娼,谁嫖了法治?

为北京警方的“嫖资收据管理”叫好

通过雷洋案,都要洗干净自己的灵魂,多一份正能量,就少一份阴暗

我服了雷洋家人了,到底要闹哪样?没见过这么无赖的(第5页)_天涯杂谈_天涯论坛

雷洋之后谁会成为替补

蔡慎坤:雷洋之死真相早己大白于天下

【普欣夜话】拿嫖娼说事,最终谁会被嫖娼?(第3页)_天涯杂谈_天涯论坛

雷洋猝死政府忙公关:雇水军、删贴、掉包视频

[原创]雷洋嫖娼,谁嫖了法治?【猫眼看人】-

昌平警方说明其实暗示了真相宽带山KDS-宽带山社区-第一城市消费门户

[原创]雷洋嫖娼,谁嫖了法治?【猫眼看人】-

[原创]草根今日谈:依法治国请从雷洋事件开始

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

端宏斌:国资委官员嫖娼死的“春秋笔法” – 警务探讨

雷洋案:检方已出手,“涉嫖死”真相,在这

讨论:雷洋案应抓重点,不然就被人给误导了

汪剛強:從鄧玉嬌到雷洋

昌平警方说明其实暗示了真相

‘嫖娼者’雷洋的安全感要不要保护

成年男子安全路过洗脚屋行动指南

妻子不关心嫖娼 ‘雷洋之死’还存疑点真相究竟是什么妻子不关心嫖娼,’雷洋之死’还存疑点。硕士雷洋死亡之夜到底发生了什么?雷洋死了,意外地死在一起嫖娼事件当中,揪住全社会的心。今日,有协调处理此事的警员感叹舆论发酵到这般程度,受到伤害最大的是家人……

雷洋案中警方存在’钓鱼’抓嫖的可能

人大硕士雷洋之死

对“如果雷洋没有死”的一些推论

端宏斌:国资委官员嫖娼死的“春秋笔法”_上海汽车论坛_XCAR

再次重复:雷洋死后谁是下一个?

中国人民大学77、78级校友关于雷洋的声明

国资委官员嫖娼死的“春秋笔法”-

雷洋事件引发更深刻的社会问题

童大煥:中国人开始追求免于恐惧的自由-

中国人开始追求免于恐惧的自由

女人天天被杀都激不起水花,雷洋死就激起千层浪!

童大焕:中国人开始追求免于恐惧的自由

新华社连发两篇评论追问

童大焕:中国人开始追求免于恐惧的自由

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大法学院就雷洋案举行研讨会案情惊动联

昌平警方的行为完全合法!

嫖娼釣魚執法,坐地分贓

深度剖析雷某嫖娼案…

姜杰律师:雷洋案件管辖权的法律分析

雷洋案件之疑点-第4页-

雷洋案:守住私德的底线,恢复人性的的良知

嫖就嫖了,何必美其名——“被嫖娼”?|【新鲜茶馆】

雷洋案真相不难搞清,但很多人打死也不愿相信

央视:足疗女帮雷洋打飞机,帮助他射精你怎么看?

看“嫖资收据”雷洋嫖娼铁证!(图)

雷洋之死背后的阴谋论-

雷洋案真相不难搞清,可怕的是有人就是打死也不愿相信

雷洋之死背后的阴谋论

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文

不成为下一个雷洋:就要围观不悲观

蔡慎坤:血与泪的控诉还原雷洋遇害真相

对比家属报案书和警方通报再看雷洋致死案

雷洋惊天大推论——喊假警察居然为报信

觀察:徹查雷洋案誰是獨立方?

对比家属报案书和警方通报再看雷洋致死案

雷洋妻子正式报案:嫖娼是栽赃,致命处睾丸异常肿大_中华论坛_中华网社区-

转发雷洋案刑事报案书:描述死亡过程(真相即将到来)-衡阳

血与泪的控诉还原雷洋遇害真相-

雷洋事件:有百姓的信任危机,或许也有被利用!_中华论坛_中华网社区-

雷洋死亡当晚到底发生了什么?央视专访当事警察

雷洋妻子正式报案:嫖娼是栽赃,致命处睾丸异常肿大

雷洋家属向北京市检报案要求侦查涉事民警湖南人在北京-常德

雷洋家属向北京市检报案要求侦查涉事民警-

雷洋案「刑事報案書」細述雷洋之死經歷 | 刑訊逼供 | 暴力執法 | 大紀元

‘他沒有嫖娼時間’ 家屬報案指雷洋被無辜毆死

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋事件:有百姓的信任危机,或许也有被利用!

‘刑事报案书’细述雷洋之死:外力伤害所致

雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法

雷洋死有余辜!

雷某的家人实在太不要脸了!

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋妻子报案,事件最新爆料!嫖娼是栽赃,雷洋被打死-休闲侃吧-

质疑雷洋案件十大疑点

[原创]雷洋遗孀之报案书等于官媒的死刑判决书

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋最新情报:“刑事报案书”描述雷洋之死经历

关于要求北京市检察院立案侦查雷洋被害案的刑事报案书(转载)

我们为什么要关注雷洋之死?

雷洋案刑事报案书-

雷洋案刑事报案书,警方涉嫌故意伤害(致人死亡)罪、滥用职权罪、帮助伪造证据罪-

转帖:雷洋妻子向北京市检察院报案:嫖娼是栽赃,雷洋被打死

雷洋死有余辜!

1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3)尸检结果延迟到60天出结果

一个昌平“嫖娼者”为何引燃了全国公众的怒火?(转)

陈有西律师曝雷洋案发现最新一个重要疑问

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

别忘了雷洋案中被抓的另五名嫌疑人

雷洋父母看完遗体向专家证人痛哭下跪

四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论?-

求助帖:别忘了雷洋案中被抓的另五名嫌疑人 – 有啥说啥

那些声嘶力竭认为雷洋嫖娼该死的人,他们是些啥人?

雷洋事件昌平警方两份通报比较出的问题

别忘了雷洋案中另五名被抓的嫌疑人

父母看完遗体向专家证人痛哭下跪-常德

[原创]雷洋死亡案,已经形成死结

[原创]警察蜀黍为何喜欢抓嫖?

崔家楠律师认为:确定雷洋死亡的时间,比确定死亡的原因更重要!

歐陽南山:下一個雷洋是誰?

 

童大煥:中国人开始追求免于恐惧的自由-

[原创]雷洋,愿你的名字叫做公正与法治【猫眼看人】-

我们追问雷洋是怎么死的,他们却要证明他是怎么嫖的!

雷洋没有抗拒执法,铁证如山!证据就在此

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

哀悼环保烈士雷洋|龙虎文苑

雷洋案:守住私德的底线,恢复人性的的良知

雷洋案:守住私德的底线,恢复人性的的良知(第7页)_关天茶舍_天涯论坛

雷洋案件的焦点应该回归到如何死亡的问题上_文学论坛_中华网社区-

雷洋案件的焦点应该回归到如何死亡的问题上_社会热点_中华网社区-

小区内现蛇窝:5条大蛇吓得消防员直冒汗(图)

程序正义高于实质正义的理念,规则重于道德的理念,生命高于一切的理念_胜利社区_东营论坛_油城茶座

雷洋的父母下跪为哪般?(原创)

明天就是5.16,大家还是说点什么吧

[原创]雷阳事件肯定不是跨区执法

雷洋案中,当事警察说谎了没有?

雷洋案中,当事警察说谎了没有?

天啊——这位律师是在为雷洋鸣不平吗?!_中华论坛_中华网社区-

童大焕:中国人开始追求免于恐惧的自由-

童大焕:中国人开始追求免于恐惧的自由-

童大焕:中国人开始追求免于恐惧的自由-

女人天天被杀都激不起水花,雷洋死就激起千层浪!

女人天天被杀都激不起水花,雷洋死就激起千层浪!

雷洋案件的焦点应该回归到如何死亡的问题上

雷洋案件的焦点应该回归到如何死亡的问题上

关注小人物的命运!就是关注自个命运!小人物之死网友理应关注

童大焕:中国人开始追求免于恐惧的自由

律师:事后搜集卖淫女的供词根本不能作为证据!

童大焕:中国人开始追求免于恐惧的自由

天啊——这位律师真是在为雷洋鸣不平吗?!

中国人开始追求免于恐惧的自由

雷洋案:守住私德的底线,恢复人性的的良知

我们关注雷某事件的重点:执法人员滥用职权、非法拘禁致人死亡_娱乐八卦_天涯论坛

律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立-常德

雷洋案:守住私德的底线,恢复人性的的良知

雷洋之死击碎了中产阶级的优越感!

力瑾:还有多少国人在意雷洋案的真相?

人大硕士之死果然反转了,这小脸,抽得啪啪的响!(转载)(第35页)_娱乐八卦_天涯论坛

雷洋之死击碎了中产阶级的优越感!

致人民大学88级部分校友:看了你们的声明我很无语(转载)(第2页)_网罗天下_天涯论坛

律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立_中华论坛_中华网社区-

雷洋案中案和常州毒地案有關係 ??

雷洋死于无知

雷洋嫖娼,谁嫖了法治?

【话题】关于垒洋之死的问答

通过雷洋案,都要洗干净自己的灵魂,多一份正能量,就少一份阴暗

如果雷洋案发生在美国

再次重复:雷洋死后谁是下一个?

人大法学院就雷洋案举行研讨会案情惊动联合国

狗哥评论雷洋事件!_天涯杂谈_天涯论坛

中国人民大学77、78级校友关于雷洋的声明

朋友圈骂交警“擦亮狗眼”被拘2日是执法滥权

雷洋之死或可推动社会三大进步

议雷洋之死

看了这么多人关心雷阳事件,我感觉警察存在钓鱼执法行为。_新闻众评_天涯论坛

雷洋屍檢釐清死因 校友發聲明轟警違法瀆職 – 東網即時

再次重复:雷洋死后谁是下一个?

戴套打飞机

雷洋怎么死的?

女人天天被杀都激不起水花,雷洋死就激起千层浪!

雷洋这事,关键看标题

雷洋之死牵动人大校友上百人联署声明要真相

雷洋案中案神秘便衣牵出常州毒地案

雷洋家属指警方误导公众

雷洋案新证据浮现:警察有问题

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

“雷洋嫖娼”案惊动联合国

立此存照:雷阳的事情经过

BBC:雷洋之死背后中国人对中国没信心(图)

雷洋死后的人血馒头,不知道网上各位公知吃的好不好?

张鸣:雷洋之死

观察:雷洋事件舆论风暴眼中的盲点

朱征夫:卖淫嫖娼收容制度违宪,早该废

雷洋嫖娼案的所有证据都是事后补上?

为什么雷洋案这么高的社会关注度能持续一周时间?

重要质疑:就雷洋案请教昌平警方几个问题-常德

雷洋嫖娼案的所有证据都是事后补上?(图)

人大校友声明是粗暴干涉司法的恶劣行为

关注雷洋,也关注人民警察

”这份“公平正义”,雷洋听不到了,但我们必须感受到!

[原创]细思极恐,雷洋之死或有更深内幕

[原创]就雷洋案请教昌平警方几个问题

对比家属报案书和警方通报再看雷洋致死案

对雷洋家属说几句话

橫河:雷洋案為什麼應該懷疑警方

贪官雷洋嫖娼被抓,畏罪拘捕逃跑未遂身亡

雷洋死亡案铁证如山,雷洋没有白死

雷洋父母看完遗体向专家证人痛哭下跪

雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法_中华论坛_中华网社区-

【江西卫视】北京昌平的警方

雷洋尸体应严加监控,以防M帝下手

童大焕:必须全面还原并公开雷洋案执法过程

对不起,我并不想知道雷洋如何嫖娼-邵阳

大反转:目击者详述雷洋事发过程:警察没打人!请火速扩散! (转载)_婆媳关系_天涯论坛

[原创]警方塑造出神一般的雷洋

雷洋案尸检初步结果出炉:等待病理结果警方回避不在现场

雷洋之死的看法_北京_天涯论坛

【调查】探访雷洋案’神秘’专家证人张惠芹

雷洋用牺牲捍卫一个公务员的尊严!!!!!

雷洋尸检超12小时家属请她全程监督

“雷洋事件”终于开了个好头

雷洋之死真相早己大白于天下(转帖)-

雷洋之死击碎了中产阶级的优越感!

滨州刑警支队原副支队长张惠芹,作全程见证雷洋尸

雷洋案:尽管真相还在路上,三种共识可以先到

雷洋没有抗拒执法,铁证如山!证据就在此

雷洋尸检超12小时警方回避家属坚持请她全程监

雷洋嫖娼案的所有证据都是事后补上?(图)

下一个雷洋是谁?

“雷洋嫖娼”案惊动联合国

十日谈;我想说几句了,关于何新的两篇文章_中华论坛_中华网社区-

雷洋案蹊跷中国官方的处理手段令人心寒

郭宝胜呼吁海内外人大校友都来关注雷洋案, 为雷洋讨取公道

[原创]雷洋没有抗拒执法,特证就在此。

雷洋是否嫖娼不重要?怎么就不重要了?!很重要好吗!_天涯杂谈_天涯论坛

中国人民大学77、78级校友关于雷洋的声明

看“嫖资收据”雷洋嫖娼铁证!(图)

警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 – 第2页 – 警务探讨

【麻辣舆情】人大硕士雷洋非正常死亡舆情分析-麻辣棱镜舆情通-

从目击者证言和记者调查的报道看被忽略的雷洋事件关键点

人大硕士涉嫖身亡死因蹊跷背后真相》给人民一个交代

应当理直气壮的为“暴力执法”正名!

他嫖不嫖娼关我屁事,我只关心他到底是怎么死的

雷洋“打飞机”能把自己打死吗?

家属澄清雷洋调查常州毒地等三传言

雷洋被强押致死案,槽点多多,警方说辞漏洞百出

时代尖兵:雷洋的官方背景值得关注!

雷洋案的焦点就是有没有受到粗暴对待?

雷洋真嫖娼了吗? – 第2页

 

【相关】

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】  

韩春雨事件
http://blog.sciencenet.cn/blog-362400-977111.html

上一篇:【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩”】
下一篇:【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

 

12  许培扬 武夷山 蔡小宁 魏焱明 黄永义 汤伯杞 徐晓 苏德辰 张阳阳 侯成亚 gaoshannankai aliala

发表评论评论 (14 个评论)

删除 回复 |赞[12]liudongshen   2016-6-5 17:25
警察为什么热衷这项事业?因为这项事业在中国首先具有道德制高点。违法不违法只是技术问题。莫须有的道德污点却在中国更具备杀伤力

删除 回复 |赞[11]张阳阳   2016-5-15 09:57
和某个教授一下,是恶法杀人。
这个嫖娼条例,压榨了失足妇女(她们都要直接或变相的缴纳保护费或罚款),恐吓了嫖娼者(如解决生理需求的雷洋同学),肥了某些部分的腰包,增加了社会的不安定因素(如强奸)。这样的恶法,还不能废除,大抵是披着道德的外衣吧。
 回复  : 恶法杀人。不从根子上解决问题,悲剧不绝。

2016-5-15 11:421 楼(回复楼主)赞|回复

删除 回复 |赞[10]dafwlg   2016-5-14 23:25
围观此事件人群有各种心态:
1、哇!嫖娼!看看有图没?看看真正的嫖娼现场什么样的!满足一下猎奇心理,我还没嫖过呢!
2、哼!硕士也嫖娼吧!学习好怎么了,我当年一直学不好,一直被你们排挤,很自卑!
3、嫖娼被打死也活该!
4、嫖娼也不应该打死啊!

删除 回复 |赞[9]gaoshannankai   2016-5-14 16:50
雷洋一案-嫖娼问题是关键问题
http://blog.sciencenet.cn/blog-907017-976650.html
核心是 嫖娼

删除 回复 |赞[8]柳竹浠   2016-5-14 13:10
让人想起2003年被活活打死的大学生孙志刚,从孙志刚到雷洋,不服从的代价就是死?
看看这次这么大的舆论事件怎么平息?

删除 回复 |赞[7]yao101yao   2016-5-14 12:33
这篇的分析真的很有意思。这可以从很多角度来分析这个问题。心理上的 社会上的 逻辑上的 数据挖掘 统计的

删除 回复 |赞[6]赵锐   2016-5-14 11:45
https://www.youtube.com/watch?v=E2ZcdociKZI

删除 回复 |赞[5]赵锐   2016-5-14 11:45
https://www.youtube.com/watch?v=CerUrdH1J5Y

删除 回复 |赞[4]姚小鸥   2016-5-14 11:27
圆饼如何读啊,不会。

删除 回复 |赞[3]junkscience   2016-5-14 10:29
当最后的结论与大数据不符合时, 就是对大数据最不可靠,最不科学的审判

删除 回复 |赞[2]魏焱明   2016-5-14 10:21
我刚刚写了一个呼吁,欢迎好友及时推荐。
《“雷洋事件”是催生文明徭役抵罚和发展慈善机构的大好契机!》http://blog.sciencenet.cn/blog-2339914-977077.html

删除 回复 |赞[1]蔡小宁   2016-5-14 10:21
能不能对这些图做点解读?
 回复  : 那个没法自动化,要仔细研究数据。虽然工具很好用,可以从不同角度追踪、展示舆情和信息,但解读还是需要分析师的去粗存精、去伪存真。

2016-5-14 12:021 楼(回复楼主)赞|回复
 

大数据淹没下的冰美人(之二)(屏蔽留存)

大数据淹没下的冰美人(之二)

屏蔽已有 3216 次阅读 2015-5-13 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 范冰冰, 挖掘, 社会媒体

女神 or 妖精,总之不似人类

好,我们开始范冰冰的社媒深度挖掘,看看网友都怎么说她。

先看网友的赞美(绿字体)和吐槽(红字体)等情绪化评语的词云分布,显然是东风压倒西风:

分类总结前五类情绪评语如下。

先看赞誉,毫无悬念,迷恋她、惊艳其美和粉丝的溢美之词占绝大多数,见(1)(2)(3):

(1)   喜欢, 爱,迷恋, 羡慕, 中意, 享受, 怀念, 惊喜,飞吻,💋,相中, 看中

(2)   QQ, 粉丝,给力,成功,最强,很火,不错,很好,最佳,可爱,受欢迎

(3)   美, 美爆, 绝美, 女神, 传奇, 完美,逆天,耀眼, 精彩, 更胜一筹

(4)   倾国倾城,性感,威武,强大,厉害,独特, 优雅, 经典, 华丽

 

(5)   支持, 欣赏, 赞, 夸赞, 看好, 期待, 关注

有意思的是(4)中系列形容词所发出的信息:把倾国倾城、性感厉害、优雅华丽与威武强大等集合起来,在当今华裔女星中是不多见的,她反映冰小姐的御姐女皇范儿给观众留下的印象,她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。

各花入各眼,萝卜青菜各有所爱,她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物,在排山倒海的网友和粉丝的赞誉中,自然也不免被吐槽,也分五类如下:

 

(1)   不喜欢, 吐槽, 讨厌, 抱怨,烦, 骂, 恨, 气,不爱, 不欣赏, 不羡慕,失望, 无语, 受不了,无法忍受,
   大跌眼镜,大失所望

(2)   质疑, 怀疑, 鄙视, 讽刺, 嘲讽, 不接受, 批评, 不关注, 抵制, 看不上, 看不惯,不看好,看不起

(3)   不美, 不好, 差, 破, 不怎么样,不完美, 不行, 没多美,没有我美,算不上一流,一无是处, 不给力

(4)   低能儿蠢货, 不要脸,我操,垃圾,变态,傻逼,坑爹,这么狗血,最不要脸, 恶心,鸡肋,操, 吓人,
   美个屁,挖鼻屎,白痴,二货

(5)   还不如现在的张馨予,还不如穆婷婷可爱,太胖,臃肿,

第一类表达各种程度的不喜欢不欣赏,第二类是各种鄙视看不惯,第三类酸溜溜的多少带有嫉妒的不屑,这些大多是口味问题,或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了,这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映,你美了就骂你蠢,你急智就骂你丑,总之是无冤无仇也要骂娘,特别是要骂名人。倒是第五类的负面信息最为具体,说她不如张美人穆美人(张穆都是啥妖精,怎么从来没听说过,演过啥,没有一丝印象),说她太胖臃肿,虽然明显有偏见,却也不是空穴来风。

为了过来看看

@素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱…

人总是健忘的 RT @zmt0516: 记得当年范冰冰的名声还不如现在的张馨予,现在已经被公关团队刷成女神之神了。。。

#freedom #民主 范冰冰黄裙现身体态臃肿 群众爬墙头睹芳容 组图 http://t.co/xprlcS1RdE 

总体来看,情绪化用语无论正面负面,大都当不得真,只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由,为什么喜欢或者不喜欢她?这类细线条的深度舆情挖掘,我们留待下一篇博文给您提供。

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一) 

大数据淹没下的冰美人(之三): 喜欢的理由 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五):  星光灿烂谁为最?

【置顶:立委科学网博客NLP博文一览(定期更新版)】

社会媒体舆情自动分析:马英九 vs 陈水扁(屏蔽留存)

社会媒体舆情自动分析:马英九 vs 陈水扁

屏蔽已有 4966 次阅读 2012-9-29 16:51 |个人分类:社媒挖掘|系统分类:科研笔记| 马英九, 陈水扁, 社会媒体, 舆情分析, 社会形象

Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president.
 
不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。
 
(1) 高频情绪性词的词频分析的对照图示
 
(2) 高频褒贬描述性词的词频分析的对照图示
 
 
 
相关篇什:

研究发现,国人爱说反话:夸奖的背后藏着冷笑

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-617870.html

上一篇:两种啤酒罐的开口结构
下一篇:评《有关太阳内光子想到一个类比——金属导电》

 

1  王芳

【『科学』预测:A-股 看好】(屏蔽留存)

【『科学』预测:A-股 看好】

屏蔽已有 4306 次阅读 2012-12-4 13:37 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 监测, 股市, 舆情, 社会媒体

有什么大众话题想要测试我的中文系统么?
作者: 立委
日期: 12/03/2012 17:40:25
RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。
 
能啊。见图:
 
 

自动舆情监测分析表明:A-股 看好 哎!!!

那谁谁,还不进场!据说外资已经陆续到位抄底了呢。股市应该不久会反弹。
 
【免责声明】舆情检测虽然大数据,很客观,无人为干扰,但是过去和现在的舆情不能成为未来预测的保证。有网友听信陪钱,概不负责。
但有听信而赚钱者,务请捐款1/10至:大数据NLP立委基金,c/o 通天塔委员会 @ 牛市。
 
【立委名言】总统人气犹可预测,况股市走向乎?
 
想起前不久总统竞选辩论来。两位总统候选人比着对中国强硬。这是美国政客惯用的竞选伎俩。由于种种原因,起飞中的中国在美国选民中隐隐成为某种威胁,对中国强硬有利于吸引选票。在野总统候选人打中国牌比较有利,因为他不必顾忌对中国现实贸易的相互依赖和利害关系。于是,罗姆尼一直批评奥巴马对中国太软弱,宣称他一旦当选,就立即宣布中国是汇率操纵国,列入操纵者黑名单意味着贸易制裁的强硬态度。奥巴马反守为攻,辩论中告诉听众,千万不要相信罗姆尼的口头激进。他指着罗姆尼说:他对中国最不可能强硬,因为亿万家财的罗姆尼有大笔投资在中国呢。罗姆尼急了,反驳说,你奥巴马回去查查你自己的退休基金的流向,我担保里面有中国概念股,这么说你也有中国投资,因此影响你对中国的政策,笑话嘛。
 

确实,资本唯利是图。投资理财的美国资本顾问,一个个猴精,一方面不断唱衰中国,一方面绝不会放过中国经济这块蛋糕。一边把中国概念股系列弄得垃圾似的,一方面又不失时机进来抄底。总统候选人怎么可能摘得清呢。

【相关】

 到底社媒曲线与股市曲线有没有、有多少相关度?

转载]ZT:牛津大学王宁博士:大数据与有限理性

舆情挖掘用于股市房市预测靠谱么?

【舆情挖掘:房市总体看好】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-639090.html

上一篇:三代 “大跃进”
下一篇:【凡事不决问 social:切糕是神马?】

 

2  王号 曹聪

发表评论评论 (1 个评论)

删除 回复 |赞[1]wuqunan   2012-12-4 21:11
哥来抄底了!呵呵。艾玛,肿么下面还有地板,地板下面还有地下室,介个真有木有?
 

尝试揭秘百度的“哪里有小姐”(屏蔽留存)

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

屏蔽已有 8461 次阅读 2012-12-14 15:41 |个人分类:社媒挖掘|系统分类:博客资讯| 百度, 社会媒体

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的(the results are not faked?)。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。
 
我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。
 
先谈数据:
 

百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据:

 
 
什么是词云呢?
A word cloud displays the frequently occurring terms surfacing from a topic’s text.
 
 
从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了
 
是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸?

请看六个月 的词云数据图:

 
三个月 的词云数据图:
 
一个月 的词云数据图:
 
一周的词云数据图:
 
一天 的词云数据图:
 
再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果
谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了
 
 
 
Let US Drill down: 百度小姐的真相在这里
 
是什么样的推手把 小姐 与 百度快照 弄得满世界都是
日期: 12/14/2012 17:40:43

一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。
 

Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。

大概是删不胜删。
 
 
 
最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。
 

最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。

 
 
前一篇博文:
 

社会媒体测试知名品牌百度,有惊人发现

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-642614.html

上一篇:社会媒体测试知名品牌百度,有惊人发现
下一篇:“我们为什么选择在学校学习”的思考

 

7  刘洋 张婷婷 蔣勁松 武夷山 贺天伟 sz1961sy sun879109994

圣诞社媒印象: 简体世界狂欢,繁體世界分享。(屏蔽留存)

圣诞社媒印象: 简体世界狂欢,繁體世界分享。

屏蔽已有 4127 次阅读 2012-12-26 05:27 |个人分类:社媒挖掘|系统分类:生活其它| 圣诞, 社会媒体

狂欢 vs. 分享
 

狂欢也应该,劳苦一年了。

 
 
不过,当然是分享高出狂欢一头。
 
狂欢没有问题,狂到找哪里有小姐就有些过了。
 
 
 
大众心理里,圣诞节的 pros and cons 呢?
商品社会嘛,离不开打折!
 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-646437.html

上一篇:手表的价值观
下一篇:WordClouds: Season’s sentiments, pros & cons of Xmas

 

5  曹聪 武夷山 刘洋 贺天伟 sz1961sy

【社会媒体:现代婚姻推背图】(屏蔽留存)

【社会媒体:现代婚姻推背图】

屏蔽已有 4098 次阅读 2013-1-11 05:23 |个人分类:社媒挖掘|系统分类:生活其它| 婚姻, 推背图

立委按:哈,【爱情推背图】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【社会媒体:现代婚姻推背图】。

 
【大众心理探究:婚姻】
日期: 01/09/2013 16:39:34

所挖掘的数据源:来自中文世界社会媒体过往一年的档案,繁体约五千五百万文档,简体文档达三亿五千万。大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。

婚姻(简体)被提及390万次;繁体被提及约 41 万次

繁简体的分别调查可以透露出大陆社区与台湾社区对待几乎永恒的话题“婚姻”的有所不同的社会认知。首先值得注意的差别在对于婚姻的总体评价上,简体世界基本是负面的,净情绪指数为-5%,而繁体世界是正面为多,净情绪指数为+5%。这正负5%共10个点的对照,虽在意料之中,仍让人嗟叹无语。祖国大陆经济起飞,社会巨变,带来的是社会的两极分化以及婚姻关系的不稳定等系列问题,从而影响了普罗百姓对婚姻的信心和评价,这是意料之中。而台湾呢,虽然生活在夹缝中,整体社会情绪还是向上的,乐观的,这在对“爱情”观念的调查中也得到印证。另一点对照就是所谓热情强度的指数,简体世界高出繁体世界五个点(21-16=5),说明海外华人社区比起国内,更加平和一些。

 
 
1. 婚姻的关系概念

可以提出的看点有:

(1)婚姻是男人与女人之间的事情(貌似废话。本来不是事儿,可如果调查美国社会媒体,可能就是事儿了:不同州法律不同,同性婚姻是敏感的热点话题,其合法化似乎有蔓延全国之势。)

(2)爱情与婚姻关联度极高(那自然)
 
(3)除了男女爱情老公老婆结婚证外,与婚姻概念最相关的不外乎是 家庭、父母 和 孩子,对了,还有房子(至少在大陆很多城市,房子对结成婚结不成婚至关重要)。
(4)有意思的是,婚姻问题总是与 岁月 和 时间 不可分(所谓n年之痒?)
(5)浮出水面的其他与婚姻有瓜葛的人和事包括:霍启刚(是不是那个与我们奥运之花搞世纪婚礼的大款?)、还没结婚儿子越来越多(这又是谁?有几房?)、姚晨(谁?婚姻怎么啦?)、婚纱照、婆婆、裸婚、剩女(错过了?)、假证(假结婚证还是假房产证?待查)。
 
 
 
看看以臺灣社會為源頭的繁體世界中婚姻的社會形象如何吧
 
(1)婚姻最大的concern似乎是 歲月(誰經得起歲月?樹猶如此,婚何以堪),其次就是 愛情 問題(愛情枯萎、愛情褪色?婚姻難道真是愛情墳墓?)
 
(2)跟愛情生活一樣,繁體世界特別重視 星座 在婚姻生活中的影響,什麽 處女座、金牛座、雙魚座,不亦樂乎,星座不同,就不能婚麽?同胞,你們也太迷信了吧。
 
(3)不像愛情馬拉松,婚姻的核心是行動:結婚結婚結婚,聽上去很像【義勇軍進行曲】,赴湯蹈火呢?
 
 
 
2. 与婚姻有关的情绪分析
 
情绪上,无论简体社会还是 繁体社会,围绕的核心问题就是幸福和不幸福,大多源于婚姻的破裂和失败。
似乎美满婚姻只是一个传说。婚姻需要支持,尽管如此,不幸福、不看好,破裂和失败的婚姻仍然像一个幽灵,在华人社区徘徊。以前都说西方社会乱象丛生,满大街都是陈世美,离婚率高达50%,如今起飞中的中国据说也快赶上来了。
 
婚姻带来的情绪对立看下图一目了然。总体来看,大陆社区正不压邪,缺乏正能量,负面情绪如病毒一样在蔓延:厌倦、烦恼、悲惨、不如意、不美满、不愉快、太荒唐、太难熬、出状况、有名无实、不能忍受。海外社區也有很多矛盾情緒和牢騷,可總體上還是東風壓倒西風,相信婚姻,渴望婚姻,享受婚姻,感到婚姻 甜蜜美滿 的也大有人在。
 
 
3. 探幽婚姻的是非得失
 
1. 无论繁简,婚姻世界映入眼帘都有两个大字 问题. 外交无小事,婚姻大问题。婚姻最大的问题就是问题。啥问题呢?本来我们系统是非得失的挖掘着眼于发现具体的缺点或优点,而不是抽象的问题。大概婚姻的是非太难缠了,清官难断婚内事,结果就是大大的问题,却搞不清问题所在。保不准啥问题都有。
 
2.  問題之外,繁體世界顯然比較美好,甜蜜、合法、穩定/固 占了主流,建議欲享受婚姻的同胞,一定要找臺灣女生,移民到臺去做乘龍佳婿,那裏似乎還有一片美滿婚姻的綠洲!简体世界可就惨了,婚姻不但 没有浪漫色彩,而且总是 不顺,不稳定,不容易。
 
3. 把婚姻比作 沉重的枷锁,不是首创,是很多人的真切感受。可彼岸同胞,却有称它为 一種甜蜜的負荷,行啊,同胞,服了您,简直太可爱太乐观了。
 
 
 
 
朋友,您从这些从成千上万人思想言谈中真实发掘出来的推背图系列里,又发现什么呢?您的婚姻观与大众的婚姻认知有差距么?在婚姻这古老的制度和观念上,对于您自己的切身环境以及未来社会,您是乐观派、悲观派,还是绝望族?
 
从爱情到婚姻,种种纠结啊,好比面对一个蜜罐转成的火坑,跳也不跳?
 
婚姻就是围城:颠扑不破的宇宙真理。
【立委名言】归纳是预测之母
 
 
 
 
 
 
这两天在看非诚勿扰,感觉人类迄今对于婚姻最深刻的认识就是围城论
作者: 立委
日期: 01/09/2013 13:14:24

真的是在城外的一个个拼命要钻进去
城内的呢, 隐隐约约多多少少又想出来(太累啦)。
 
所谓“进化论”,其实就是对“稳态”的否定。当然不是说个体的不稳定,
作者: mirror (*)
日期: 01/09/2013 18:03:39

而是说要有“鲁棒性”。嫁 鸡随鸡嫁狗随狗,用个学术词儿的表达其实就是鲁棒性。

鲁棒性好,就可以象昆虫、寄生蟹那样拖着盔甲、房屋跑。鲁棒性不好,只有推到重建了。

———-
就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。

 
 
 

http://blog.sciencenet.cn/blog-362400-651871.html

上一篇:论“论”
下一篇:卫生巾和纸尿布

 

1  杨华磊

【社媒挖掘:臺灣政壇輿情圖】(屏蔽留存)

【社媒挖掘:臺灣政壇輿情圖】

屏蔽已有 3312 次阅读 2013-2-23 08:58 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 臺灣, 政壇, 輿情圖

                   

 
今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他奈我何?
 
 
 
說來慚愧,我對臺灣政壇並不熟悉,所熟知的政治人物不到一打。好,那就把能想到的幾位調查一下,得輿情圖一張如上。請臺灣朋友看看,靠譜不靠譜。
 
一眼看去,臺灣的藍綠政客幾乎全部擠在輿情圖的左下角(弱+反感),說明什麽?說明他們在民眾中的形象都不咋樣。不僅如此,大家對他們的情感也不強烈,大概是失望已久,又沒有其他備選項,已經疲怠了,無所謂了。
 
仔細比較,可以看出,蘇貞昌名聲最佳,毫無疑問是這次自動民調中的矮子叢中的將軍。謝長廷緊隨其後,然後才到蔡英文和馬英九。蔡(指數19)比馬(指數18)略高,但由於是當選總統,馬的議論最多(泡泡最大)。從圖上看,馬英九幾乎把蔡英文整個兒攬於懷中(滑稽不?簡直成了絕妙的政治諷刺漫畫了)。老總統李登輝的聲望則日落西山,更在馬蔡之下。
 
至於阿扁前總統嘛,名聲太臭,凈情緒指標-12,處於地下冰窖第18層,根本浮不上輿情圖的臺面。連戰、蕭萬長、宋楚瑜也未能浮現輿情臺面,原因不是被民眾唾棄,而是被民眾遺忘,他們根本就沒有多少議論,泡泡太小,非置於放大鏡之下不得見也。其實,論褒貶指數,連戰的凈情緒 36 才是冠軍,蕭萬長也有 33,二者均高出蘇貞昌的28一頭。詳細數據比較見下圖。
 

 

資料來源及分布:迄今一年的社會媒體檔案(正體)

 
【立委名言:政治輿情圖旨在計量社會公仆在社會媒體中的被關註度、褒貶度和愛憎情緒強度,反映其公眾網絡形象】
 
【預告】
下期【社媒挖掘】繼續比較臺灣的政治人物,顯示民眾的正反情緒,比較政客們的得失。敬請留意。

http://blog.sciencenet.cn/blog-362400-664312.html

上一篇:米拉围脖:什么是原创? 张亭栋是原创么?
下一篇:初中科学教育是分科教学好还是合科教学好?

 

1  李伟钢

发表评论评论 (4 个评论)

删除 回复 |赞[2]陈楷翰   2013-2-23 13:24
换个字吧?这看起来多累啊老哥?
 回复  : 这是台湾的那些事儿,还是原汁原味吧

2013-2-23 18:361 楼(回复楼主)赞|回复

删除 回复 |赞[1]陈熹   2013-2-23 09:04
没看到图呀
 回复  : 麦当劳免费上网,传图总是失败,等晚上回家再弄

2013-2-23 09:061 楼(回复楼主)赞|回复

【社媒挖掘:馬英九施政一年來輿情晴雨表】(屏蔽留存)

【社媒挖掘:馬英九施政一年來輿情晴雨表】

屏蔽已有 3368 次阅读 2013-2-23 20:07 |个人分类:社媒挖掘|系统分类:博客资讯| normal, style, 晴雨表

【馬英九施政一年來輿情晴雨表】

看點及分析:
 
(1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會推波助瀾。
 
(2)不過一年來也有10多次短暫的亮點,聲望處於零度以上(褒大於貶),雖然都好景不長:從圖上看,去年七月初到九月初之間是正面聲望持續最長的區間(只在八月短暫跌入零度以下),不知道有什麽亮麗的政治表現還是由於團隊公關得力,有興趣的讀者可以查證一下。馬總統宣誓就職的五月中,凈情緒指標尚在零下30度左右徘徊,怎麽到了七月就迅速回暖至零度以上,持續約兩個月,直到九月2日的+35的峰值。我對臺灣政治不熟悉,也沒有精力去探究 data 和證據鏈(盡管我們的工具提供了多項 drill down 的功能),但這個區間似乎確是馬總統二度當選以來得到民眾認可的最佳時期。此後就一蹶不振,只在十月、十一月與今年元月短暫回升。一年來的最低點在三月四日的-44,十二月16日也很慘,一度跌入-42,冰凍刺骨。總而言之,馬英九自從去年初當選以來,不是很順,民眾的失望抱怨情緒彌漫網壇。
 
我們來看看針對馬英九的公眾情緒的雲圖,鐵桿支持相信他的藍營很搶眼,與罵他笨蛋反對他的呼聲針鋒相對。但從數據點上看,還是紅色負面情緒更多。
 

 
網民眼中馬英九之榮辱得失究竟如何?
 
先看馬的支持者的理由
 

 
再看馬的批評者的指責
 

對比一下馬施政一年來的得失榮辱:
 
 

正面評價中最大的亮點是清廉,負面評價除了無能外,最大的批評就是一意孤行和畏懼中國(嫌他在兩岸關系中對大陸不夠強硬,在我接觸到的臺灣朋友中,這是一個相當普遍的抱怨)。
 
立委的觀感是,臺灣民眾比較煩,比較煩。馬總統要想贏得民心,光靠已有的清廉形象遠遠不夠。他要青史留名,改變無能總統的批評浪潮,扭轉其頹勢,今後三年一定要交出一份更大的成績單。
 
正所謂:
 
總統輪流做,明朝到誰家?
帥俊小馬哥,憔悴如明蝦。
 
【立委名言:民主總統不好玩,當家五年狗都嫌】
 
【相关篇什】

社媒挖掘:社会媒体眼中的臺灣綠營大佬

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-664500.html

上一篇:米拉围脖:什么是原创? 张亭栋是原创么?
下一篇:初中科学教育是分科教学好还是合科教学好?

 

1  孙根年

发表评论评论 (2 个评论)

删除 回复 |赞[1]孙根年   2013-2-24 06:58
很好,能详细介绍所用方法吗?
 回复  : 【立委科普】专栏有系列介绍,今后还会继续:
http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&classid=123261&view=me&from=space

2013-2-24 07:111 楼(回复楼主)赞|回复

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀(屏蔽留存)

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

屏蔽已有 7208 次阅读 2013-6-21 03:18 |个人分类:社媒挖掘|系统分类:科研笔记| 陈冠希, 粤语, 阿娇, 娱乐界

 【研发笔记:粤语文句的情报挖掘】实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。

首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人看着舒服。华裔女演员比她名气大的多得很,但是看着比她养眼的极少。远的如巩俐大妞儿,太村姑了,长相很平,似有苦相。据说是魔鬼身材,可盘儿不靓,身材也就不作数了。大红大紫的张子怡有些小家子气。范冰冰长得怪怪的,艳丽有余,不像是真人。真正看得让人舒服的,台湾以前有一个徐若萱,大陆曾有一位邻家女孩徐静蕾,香港就数阿娇了,名如其人,娇美细嫩。对了,大陆1989年前有一位央视女主播杜宪,那是亿人迷,怎么看怎么舒服。养眼到什么程度呢,可以形式脱离内容。当年看央视新闻,内容别提多八股了,可是因为有杜宪,还是愿意看。至于阿娇,是偶然在一部武打片中发现的。从来不爱看那些打打杀杀的武打片,可是阿娇让人眼前一亮,再荒诞的内容也就剥离了。后来据说她受陈冠希之累,牵扯进艳照门负面新闻中。也难为她了,在那样的压力下,还不得不硬着头皮出来开记者会做一些澄清。记者会上一出场,依然是楚楚动人,确如她说的,太傻了,真地不值。话说回来,一辈子不做荒唐事者鲜见,她就是运气不好而已。扯远了,回到舆情挖掘上来。

除了阿娇,粤语文化圈里陈冠希据说是议论最多的一位了。他的艳照门事件很让整个华人世界兴奋躁动了一阵子。据说他是那种“坏”男人的典型,温哥华富豪华侨家出身的花花公子,party animal,讲一口流利的英语,开豪华车,酷而有型(除了泡妞,从来搞不清他擅长什么,音乐、舞蹈、演技、写作?)。那就看看舆论怎么说他吧。

下面的社交媒体挖掘,来自中文世界社交媒体过往一年的档案中被系统识别为粤语的部分。香港娱乐圈名人鍾欣桐(阿嬌)和陳冠希为挖掘对象。对不起了,只能拿名人做小白鼠了。从净情绪(net sentiment,一种褒贬比例的指数)来看,两位的社交媒体形象仍为负数,陳冠希更是低到-22%,说明网民对他的评论明显贬多于褒。

阿娇褒贬指数不高估计还是受到以前负面新闻之累(算她倒霉,碰到了陈冠希),其实粤语地区喜欢阿嬌的粉丝并不少,喜欢的理由见下图:主要是她长得年轻甜美(年轻/甜美/甜蜜:17.1%),人同此心啊。有意思的是,喜欢她的人很多具体提到她漂亮的手(18.9%)、眼睛和脸,甚至声音(其实她的皮肤也是没治了,怎么没人提?),总之她是以外在条件取胜,此乃尤物,足以移人。

至于陈冠希,不管多少负面新闻缠身,女粉丝“喜欢”(“爱”)他的仍然不少,见下面红多绿少的【情绪云图】中的“喜欢”两个大字。真是应了那句古话:男的不坏,女的不爱。(红贬中的“如此绝情”不知是他的哪一桩孽债。)

具体的不满集中在【褒贬云图】中大大的那个“搅”字。

我们把部分网友议论陈冠希的粤语帖子附在最后。

【相关】

 【研发笔记:粤语文句的情报挖掘】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-701385.html

上一篇:“好奇:油条为何两根一起炸?”
下一篇:Google 人事部门承认,千里马常有,而伯乐难寻

 

8  曹聪 廖晓琳 陈辉 武夷山 吴国胜 陆俊茜 bridgeneer biofans

发表评论评论 (7 个评论)

删除 回复 |赞[6]陆俊茜   2013-6-22 11:10
杜美人是适合做大老婆的。阿娇是适合做妾的。
没得比的。

删除 回复 |赞[2]吴国胜   2013-6-21 20:26
杜宪是谁啊?     

俺爱看国际台的海峡两岸,都是因为有个非凡气质的李红。可惜,在央视工作真是浪费人才  

 回复  : 至善至美,前无古人,后无来者。
http://blog.sciencenet.cn/blog-362400-331247.html

2013-6-21 23:071 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2013-6-21 12:19
【当年看央视新闻,内容别提多八股了,可是因为有杜宪,还是愿意看】老经典。泡沫剧也是如此。因为有几个喜欢的演员,也就看下去了。京味儿的对白,有时也有些意思。但是情节层面就显得很单薄了。

关于转基因及其社会媒体大数据挖掘的种种问题 (屏蔽留存)

关于转基因及其社会媒体大数据挖掘的种种问题

屏蔽已有 4859 次阅读 2013-12-25 07:55 |个人分类:社媒挖掘|系统分类:科普集锦| 挖掘, 社会媒体, 语言技术

没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。

1. 关于数据问题

你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意转基因标识,大多数民意连转基因标识都不要了,对转基因食品安全性的担心能有多少呢?这个样本比你那个说明问题吧?

博主回复(2013-12-24 10:04):这个数据是没有问题的,因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的,是普适的。对于一个月之上的数据,可以根据 GM Food 这样的主题词去筛选也可以一网打尽,但是有数据成本的问题。至于数据挖掘有没有偏差?文本挖掘技术当然不可能是完美的,但是统计上没有问题,因为第三方多次测试精确度都是接近90%。

2. 关于结论的对错

转基因的安全性靠调查研究难以给出正确评价。

博主回复(2013-12-24 12:47):两码事。

安全性是科学问题,假以时间应该由科学解答,或者有些已经回答并得到权威部门认证。

舆情调查反映的是普罗百姓对事物的方方面面(包括安全性)的看法而已。

 

还有一点, 博文中说的Gluten引起的各种那个过敏症。 我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。

而且超市中真正gluten-free的食品货架上很少的,现在美国飞机航班上不提供花生, 只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏, 所以航班不供应花生了。

博主回复(2013-12-24 17:55):听我的专家朋友说,Gluten 确实与转基因无关,是有公认的科学结论的。

那为什么舆情中,这一项作为转基因的主要问题呢?

没办法,这就是舆情,我不能改变它,只能反映它。

也许这正说明,科普还没做到家,还没能让老百姓了解和信服。任重道远。

 

3. 关于阴谋论

菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html,说:“李维先生说,该英文社交媒体大数据调查反映了民间的真实态度,这个观点看来要打个问号了。” 这个“该”字从何谈起,我们对社交媒体是一网打尽(因为企业用户要求如此),其组成和来源都在文中有交待。他下面的推测充满了细节,实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢,描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的,其调查的人群经过了特异的选择,或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”,又有什么意义呢?”(下划线是立委加的)

蔡老师哎,你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件,用的是未经任何人控制的原始数据(英文叫做 firehose,就是直接从社交网站流出来的),没有人工干预,靠的是自然语言挖掘技术自动生成的。这样说,应该够清楚了吧。我的本行就是舆情自动调查,这只是针对热点问题,从系统输出结果而已,供大家做舆情分析时候一个参考。

说明一下,所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index (库存)里面,我们包括所有够得着的社交媒体,英文社交媒体从比重上看,twitter 为主,Facebook 其次,其他论坛上百万个来源只占少数,这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人,所以不时用系统挖掘热点话题,一来可以看看系统还有什么可以改良的地方,而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。

蔡老师(2013-12-24 16:24):我的推测是否正确,不是关键。关键是你的舆情分析软件结果与公民的投票结果相反,必须做出解释,否则这样的舆情分析只会造成更大的认识混乱;如果领导据此决策了,更加有误导嫌疑。

(2013-12-24 16:15):我不怀疑你的数学分析能力,你的数学模型包括软件应该是不错的。但是,出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面,还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你,让我们共勉吧:数学模型应当建立在具有生物学意义的基础上,离开了这个基础,哪怕数据再充分、模型再漂亮,也是没有意义的。

博主回复(2013-12-24 18:07):您的思维很怪异:说什么领导据此决策错误,我就更加有误导嫌疑。

这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源,依然决策错误,那就是狗屁领导,没有领导能力、决策能力,领导应该下台,这个决策错误与信息提供者有一毛钱的干系?

又:说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学,我做语言文本调查要什么生物学的基础?我的对象是自然语言(社交媒体),不是生物啥的。我的模型建立在语言学(语言分析,parsing)基础上,这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。

博主回复(2013-12-24 16:44):喂,喂,我为什么要为我的自动调查与公民投票的差异做出解释?

我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合,可能有一千个因素,我有什么责任和义务解释?

我也从来没关心过那次投票。

博主回复(2013-12-24 16:38):

您如果质疑“调查反映了民间的真实态度”,完全没有问题,因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差,也还不算离谱。

可您凭空从头脑想出来并 描述了我的数据被操纵的过程和细节,就让人跌破眼镜了。

4. 关于噪音处理

至于博主和蔡晓宁先生说的大数据处理的技术我不会, 还得在学习了。 不过google或百度上的绝大多数数据是垃圾数据。 如果要使用大数据处理来统计, 我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理,看看你能得出一个什么结论。 这些可就是科学的结论了。

 

至于垃圾过滤,这是任何大数据系统都必须要做的工作,我们也有这个过滤,经过几年的不断改进,测试证明英文大数据的垃圾已经不再是大问题了。

不过中文媒体的垃圾过滤还有很多工作要做,有国内微博水军和僵尸的问题。不过对于热点话题,可以只选取带 V 的样本,也就杜绝了水军和僵尸。但对于冷门话题就不好办了。

另外一个工作是避免过量重复(de-dup),英文也已经做得很好。

 

对于大数据处理, 我完全是外行, 现在说几句外行的话, 不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性, 不分青红皂白的把所有数据输入, 输入的数据就没有科学性, 可靠性, 由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V, 用定贴机为某一个题目专门不断发帖顶贴, 所以不分青红皂白的输入这种数据, 实际上是被其他人所误导。
3. 所以要用大数据, 必须界定你的大数据来源。 否则同一事物, 被不同人选择来源, 完全就有不同的结论。
以上是外行的话。

博主回复(2013-12-24 18:35):当然你的担心是有理由的。做大数据的人当然要过滤垃圾(包括无处不渗入的色情),而且要 detect 僵尸、水军和数据的过分重复(机器人发贴)等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度,可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是,由于大数据的存在以及大数据处理能力的不断完善,舆情挖掘提供了一个难以取代的情报源,在决策中有参考价值。这是可以基本肯定的。

5. 有比较才有鉴别

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

有比较才有鉴别,这是铁律。任何指标单看,其意义就很悬。包括我说转基因不受美国人民喜欢(零下29度),也是因为有过往的褒贬指标平均值作为 reference frame 才说的。

6. 大数据是忽悠么?

是的,有很多忽悠。但是立委论大数据不是忽悠。

》》这篇博文充分说明,“大数据”并不是神仙,完全可能得出错误的结论,“大数据”只是一种工具,要看使用者如何使用它了。

博主回复(2013-12-25 00:30):说大数据是神仙的,多半是忽悠。

今天忽悠大数据,明天其他东西流行了,就忽悠其他东西。

但是大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级。拜科学技术所赐。

7. 关于系统可靠性

任何一门新的方法的建立,都需要首先用对照验证其有效性。这种抓取网络关键词,有没有与大样本的问卷调查等传统方法进行对比,验证过有效性?看到fear,就下结论说是人民害怕,也许是有人说不用fear呢?至于英文网络的数据,为什么下结论时认为只是美国人的意见,把欧洲人等排除掉了?

博主回复(2013-12-25 07:09):你提到“抓取关键词”,怀疑系统不能处理否定式(“也许是有人说不用 fear 了”),那是你不了解我的背景,虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之,我们的舆情挖掘不是通常的关键词技术,而是建立在高级得多的深度语法分析(deep parsing)之上的信息抽取和挖掘。不仅可以对付否定式,否定之否定等更复杂的语言现象也能处理。

博主回复(2013-12-25 00:59):至于意见中是不是只有美国?

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看,美国网民比重很大,但这个世界是地球村了,当可能包括西方其他国家的舆情夹在里面了。

其实很好解决,系统有地理过滤器,我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘,有成本的。今后高兴了,再做吧。博主回复(2013-12-25 00:53):有没有与问卷调查以及用其他方式验证过这个系统的有效性?

有过。很多次。而且还在不断定期进行中。为什么要这样做?因为质量是系统的生命线,否则怎么取信于客户。

大数据挖掘热点话题(冷门话题数据量少,就不好说了)作为舆情的反映,基本可信,至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息,权当 raise awareness 和科普。

我的论点,您可能只看到了其中一部分。我再多说一点,人们的用词习惯在这个比较里面没有被考虑到。比如,说一个人很丑可能多数人用单词A,而说她美可能会有十种表达方式。假定认为美的有十个人,用词个不一样,说她丑的只有三个人,但看起来是显然的高频词。这不是误导吗?这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。

博主回复(2013-12-24 17:45):要想做这种矫正,你先得研究清楚这种现象在真实语料中确实存在,严重程度,分布如何。听上去,这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外,一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小(其实即便在那里,我们对比较严格的同义词还是做了合并处理的,因此问题没有想像的严重),但并不影响最重要的 net sentiment (褒贬度)的指标,因为后者是根据褒贬两大类来计算,而不问具体的用词。

 

很多事情都是这样的:赞成的人不怎么发声,而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结,这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此,所谓相对客观的大数据,也许本身就已经预设了立场。博主回复(2013-12-25 11:08):这种情况是可能的。所以我说,同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如,指数为零表面上似乎是褒贬民意旗鼓相当,你可以打个折扣,理解成其实是褒多于贬,只不过很多满意的人不言声而已。

这个折扣怎么打,可以根据经验法则,多一些实验也许慢慢可以显现出来。

 

8. 我只做民意,不介入转基因的争论

老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.

博主回复(2013-12-25 00:39):我只做民意。别的你们做,或谁爱做谁做。

我不反对转基因,也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度,我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导,不能强迫人们吃转基因,或任何东西。在民意有很多顾虑的时候,给民众选择的权利是合理的(除非标识成本太高:其实高成本只要转嫁给要求标识的消费群体就合理了)。

题外话:我的转基因立场

我其实没有什么立场,也没有相关的生物知识背景,转基因从来不是我关注的对象(因为是热点话题才选它当小白鼠做舆情挖掘的试验,而不是对其感兴趣)。通过朋友的争论和综述, 觉得两边的极端派掐架很难看,都有误导和蛊惑。(By the way,我觉得挺转人士当年犯了致命错误,他们不该把 GM 翻译成转基因,要是翻译成生物高科技最新改良食品伍的,就会减少很多阻力和疑虑。名不正则言不顺,言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的,你说说这个术语翻译是不是害死人。后来金大米起的名字就很好,无奈受转基因的牵累,还是遭到很多人的排斥。)

我本人不介意吃转基因食品,因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此,转基因就不单是科学的问题了。要上老百姓餐桌的话,老百姓的感受不能不顾及。作为一种过渡,我觉得在中国有必要给转基因食品做标识(或给非转食品做标识,one way or the other),给人民选择的权利。这个不必要循美国不标识的例,原因是国情不同,老百姓为食品安全困扰太久,井绳之忧是自然的反应。转基因的最终胜出,应该靠自己的实力,譬如价格的低廉,日益显示出来的安全性等。标识以后,科学人士和我等无所谓(畏)人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子,就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。

最后来点 fun,转发老友的一个评论。

浅谈立委大数据利用的局限性
作者: 田牛
 
1。没法评估和预测股市,黄金走势
2。看不出钓鱼岛的归属依据
3。比较不出社会主义或资本主义的优越性
4。 对国际贸易的趋势做不出专家评论
5。完全忽视不上网不用手机的(或上网用手机但不进入他搜索网络)人群的话语权,比重
6。对测量(不是影响)湾区华人选票的帮助不大
7。依然无法用大数据得出吃一顿简单中餐得到的卡路里

暂时想到现在,希望立委有突破,我们LBC可以近水楼台先得月。

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26

关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752623.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

17  陈安 刘旭霞 孙根年 强涛 蔡小宁 杨宁 常顺利 武夷山 周雄伟 薛宇 郑小康 孙平 陈儒军 周洲 卢长明 bridgeneer biofans

发表评论评论 (17 个评论)

删除 |赞[11]lmnnml   2013-12-26 15:05
26楼点中要害

大数据挖掘的是什么?        我看14楼的评论感觉是
大数据挖掘不出真理和真相

 回复  : 当然不是挖掘真理。挖掘真理,请到圣经和毛主席语录去。
大数据挖掘的是民意,就跟传统的客户问卷调查类似。

2013-12-26 15:271 楼(回复楼主)赞|

删除 |赞[10]郑小康   2013-12-25 17:52
李老师的观点很客观 支持

删除 |赞[9]苏晓慧   2013-12-25 16:41
哈哈,这个技术很好,我现在也很着迷,可惜数学不好不会玩。回归正题,我的疑问是,怎么就没有学生物的尤其是分子生物学的出来发博客说说呢,除了植物所的蒋高明,但是一家之言不可尽信。那些生物大博主们都避开了这个话题啊 
 回复  : 不用数学好。任何人用过百度或谷歌搜索的都会玩。
唯一的问题是,要收费,(至少目前)非企业客户玩不起。

2013-12-25 17:411 楼(回复楼主)赞|

删除 |赞[8]mirrorliwei   2013-12-25 12:33
【转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目】就表明了有这个担心。
这里不需要讲什么“转基因的蛋白会引起面筋过敏的实例和原理”,只要相信墨菲的定律(http://zh.wikipedia.org/zh-cn/摩菲定理):“凡是可能出错的事均会出错。”(Anything that can go wrong will go wrong.)。可引申为“若缺陷有很多个可能性,则它必然会朝着最坏、最可怕的方向发展”。

删除 |赞[7]王大元   2013-12-25 12:15
[3]mirrorliwei  2013-12-25 09:06
镜女士(李薇): 请你讲讲转基因的蛋白会引起面筋过敏的实例和原理?转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目, 所有批准了的转BT基因的玉米, 其BT蛋白都没有致敏性, 你去查EPA/FDA的批准报告, 每一个批准报告在250页以上, 其中有关过敏性的试验数据大概在1-2页。
如果美国有个别人的试验报告说转BT基因的BT蛋白恶意造成面筋过敏, 那么这种试验结果先要被FDA/EPA采用, 一个在自己国家的权威部门都不采信的试验结果, 我们中国人没有必要为这种垃圾结果张灯结彩作为根据

删除 |赞[6]cuixiangmi   2013-12-25 12:06
大数据挖掘还是比较有意思的,但分析应该要更科学。比如来源同样是News,大报和小报,应该乘不同因子。
 回复  : 系统里面有很多这样的参数和过滤器可以根据自己的需要做调节,dice and slice,以便从不同侧面展示挖掘的情报。

我这只是玩票和展示性质,一切采用固定模板和default setting,偷懒不做这些细的工作。

我自己对此话题其实没兴趣,也不懂生物,科学不科学就是点到而已。

2013-12-25 16:551 楼(回复楼主)赞|

删除 |赞[5]王大元   2013-12-25 12:04
博主先生: 在你上一篇博文中我做的第一个评述,得到你的同意。 后来我发现那是你自己用大数据工具统计的资料, 由于我不懂大数据统计, 所以我又提出了几点疑问。我现在正在学习大数据的基本知识, 以便对大数据作为工具来调查舆情或者其它领域的应用前景。 现在还是作为外行向你求教几个问题?

1. 你能举几个例子来说明在那几个重大问题上, 大数据的统计结果被政府采纳了的, 或者做出了正确的预见的重大例子
2. 你能用大数据工具预言明天的那个股票会涨和跌吗?
3, 你能用你的大数据统计预测朝鲜1年后是什么样吗?
4. 你能用大数据统计预测中国明年的房地产涨还是跌, 涨幅或跌幅是多少?你的这个预测与其他不用大数据人做的预测有多大区别?
4. 你的转基因大数据的统计的结果能肯定现在的舆情结果将来肯定是对的或错的吗?
5. 如果我不用你的大数据统计,而是用科学杂志的数据来统计可以预测比你大数据的结果更准确的结果, 那么大数据的统计结果有什么意义 ?
我最基本的观点就是不管你的数据有多大, 但最关键的是你输入的数据是否正确和准确。 尽管你说了有删选数据的软件把关, 但我感到你的转基因那篇的大数据输入的数据的可靠性是有疑问的,你的软件似乎没有管好这个关, 例如与转基因无关的面筋竟然作为最主要的指标。 我建议你把转基因致癌那一部分, 单独拿出来用大数据统计一下, 其中输入持这种观点(致癌)的人的各种身份群体的比例:例如没有文化的老大娘, 小学, 中学程度的群体, 非专业人士群体的比例,科学家的比例, 统计一下, 看看中学学历以下和非科学家的群体比例的意见占多少, 我估计你可能会有完全不同的结论。 在这样的前提下输入你的数据, 看的人心里就踏实了: 哦!原来猪转基因致癌的是这么一部分人。

 回复  : 问题太多太长,难以回答。今天圣诞哎。
有一点,社会媒体大数据不是“你输入的数据”,是自然状态的数据,或者说,是无数网虫输入的数据。

因为社会媒体是网民交流和发泄的场所,所以里面必然存在舆情,只是咱们每个人都精力有限,肉眼凡胎,即便一目十行,也只能看到社交媒体大海的一滴水。只见树木,不见森林,是无法捕捉舆情(人民的呼声)的。好在有电脑,好在有语言学,两者结合就可以帮助我们调查舆情及其走向。

2013-12-25 17:551 楼(回复楼主)赞|

删除 |赞[4]huluhuluhulu   2013-12-25 10:49
看了“浅谈立委大数据利用的局限性”,真欢乐啊。我还以为大数据能得到一顿西餐的卡路里呢。哈哈
 回复  : 其实那是从大数据中搜索答案的问题。用同样的自然语言技术做问答系统(QA system),可以回答某个 popular 西餐的卡路里问题。这个不比舆情检测难,以前做过的。

2013-12-25 16:501 楼(回复楼主)赞|

删除 |赞[3]蔡小宁   2013-12-25 09:55
感谢李老师将我的观点列入博文!在这里我做点解释。
我的博文是在刚刚看到李老师那篇大数据舆情调查博文出来的时候,当时的感觉是为什么结果与加州、华盛顿州的公民投票不符?于是推测了一种可能性,并不是说一定是那样的。后来,随着我们讨论的深入,对李老师的认识也在加深,现在可以确信,“阴谋论”的可能性可以排除,在此特别声明。另一点就是,我不怀疑李老师的数学能力,做软件的水平肯定很高。我想要说的是,一个好的工具需要人们正确地使用,一个好的工具仍然可以继续改进。软件实际使用得出的结果要尽可能与事实相符,如果出现不符合的情况就要考虑是否参数设计出现了错误或不够完善;或者有其适用范围,超过这个范围,结论可能就是相反的了。可以适当做点解释,以减少误会。
 回复  : 我用词偏激处,蔡老师海涵。一开始看您的评论,有些不愉快所致。不打不相识。祝您圣诞快乐。

2013-12-25 10:581 楼(回复楼主)赞|

删除 |赞[2]mirrorliwei   2013-12-25 09:06
【我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。】的说法镜某以为不妥。因为很多所谓专业人员都不知道“gluten”是什么!所以他们直接用了洋文表述此概念。这个说法的依据是来自饭桌上的谈话。镜某的饭桌上,以为是所谓的专业人士(本科教育名牌生化),一个是正在复习考试这门功课。“gluten”就是中国人喜欢吃的面筋不假。而面筋又是什么????就言语不详了 
面筋就是面粉里面的蛋白质!!一种巨大的分子。转基因的风险就是可能会引起蛋白质的结构变化,带来新的过敏因子。

删除 |赞[1]孙根年   2013-12-25 08:32
其实你不必在意,“屁股决定脑袋”,“态度决定言行”。挺转人不愿意看到的,总能找出一百个理由来反对,这才是真正的原因。

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 (屏蔽留存)

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

屏蔽已有 5486 次阅读 2013-12-26 02:25 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 转基因, 社交媒体, 挖掘, 语言技术

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。

这次挖掘仍然是最近一个月的英文社会媒体,区间为:

GM food, 11/25/2013 – 12/25/2013

Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?):

  • GM food
  • genetically modified
  • transgenic
  • transgene
  • genetically engineered food
  • GMC
  • GMO
  • GMF
  • Franken-food

从下述共现主题词发现,GMC (for GM crop)有严重歧义,它更多用来作为 GM 汽车品牌:

因此加了以下限制词:

{ car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }

(也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)

Anyway,在上述定义的 query 下,搜索挖掘的结果如下。

共现主题:

总览:

值得注意的是,与上次初步的调查的褒贬指数零下40度不同,这次更加 refined 的调查显示其褒贬指标为 零下29 度,转基因食品形象仍然很不佳,老百姓仍然很多疑虑和抱怨,但是不像 -40% 那样恐怖。这次调查做得更加细致,query defined 更周全, 个人认为应该更加真实可靠。

喜欢和厌恶转基因的理由云图如下:

社交媒体的地理分布:

从数据分布看,确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问,究竟是美国人民(网民)还是西方英文世界网民的民意。(我从善如流,为保险起见把前一篇博客的题目从“美国人民”改为“西方”,现在看来,我有依据再把标题改回去了。无需地理过滤,最近一个月英文社会媒体谈论 GM food 的话题,几乎全部集中在美国。)

美国国内的分布呢?

从颜色的深浅可以看出,这些议论主要集中在加洲(15%)和纽约州(9%),其次是德克萨斯(5%)和佛罗里达(5%)等。

其他信息图示:

网友一定奇怪,为什么挺转人士把 poison (毒药)列为理由呢?我也很好奇,就 drill down 到数据里面看,原来是这样的样例:

我们英文分析器当然知道 poison 是强贬义词,但是议论中的 poison 有否定词 no,因此处理器就转贬为褒。但是,遗憾的是,还是错了,可以算是一个质量的 bug,我这就去修改系统。错误在于,这不是简单的否定式,而是祈使否定句(NO 也用了大写),意思是“坚决不要孟山都的转基因毒药”,显然应该归入反转人士的意见去,现在弄反了。自然语言蛮复杂,除了否定,否定之否定,还有祈使,以及它们的混杂,这就是一个活生生的例证。再举一例,请看下面的 minimal pair:

(1) GM food is safer

(2) Be safer,GM food

同样是 “be safer”,(1)是褒义描述,而(2)是祈使句,带有贬义(义为 “拜托,你能安全一点,成不?”)

对这些 tricky 复杂的自然语言现象,我们做了不少工作,但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的,社会媒体的表达又很不规范。好在我们有不间断的质量检测(QA)流程, benchmarks 利用第三方 crowd-source 人工监测,四个判官,至少三个判官一致才作为标准。统计下来,英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用(以前我有几篇科普专文谈论这个),因此有信心说,总体结论是靠谱的,反映了社会媒体真实面貌的。

最后给一些社会媒体的samples

 

 

【相关篇什】

小数据和个案分析:个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-752915.html

上一篇:米拉围脖:“窝心”
下一篇:大数据持续升温,是忽悠还是黑马?转薛老师赞大数据的quote

 

27  陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu

发表评论评论 (16 个评论)

删除 |赞[10]tuner   2013-12-26 20:54
今年美国通过了转基因食品强制标识法案的州有3个:Vermont, Connecticut, 和Maine。都是东北部的州,看来孟山都等转基因公司想用金钱左右所有的民意,还是不可能的。

明年应该有更多的州会对转基因食品强制标识法案进行公投,看结果吧。博主也许可以再做一下同比,即前几年同一个月在这个话题上的民意,看变化情况,应该能进一步说明问题。

删除 |赞[9]崔小云   2013-12-26 17:05
大数据的方法真好。我慢慢学习李老师的博文吧。

删除 |赞[8]谢龙   2013-12-26 16:50
博主你应该增加一个关键词 biotech

删除 |赞[7]范丁丁   2013-12-26 15:17
李老师,你做这个的方法可否分享下,感觉很牛
 回复  : 我的博客有100多则科普类分享,你有空慢慢挑着看吧

2013-12-26 15:241 楼(回复楼主)赞|
 回复  : 在两个专栏里:《社媒挖掘》和《立委科普》

2013-12-26 15:252 楼(回复楼主)赞|

删除 |赞[6]lmnnml   2013-12-26 15:02
26楼点中要害

大数据能代表美国人民吗?        我看8楼的评论
zhiyanliao说大数据代表不了真理

 回复  : 谁说大数据代表真理,谁就不是 human!

2013-12-26 15:341 楼(回复楼主)赞|

删除 |赞[5]文克玲   2013-12-26 14:44
可以比较一下大数据与全民公决的结果(加州,转基因标识问题)。
 回复  : 这个工作就指望您啦

2013-12-26 15:351 楼(回复楼主)赞|

删除 |赞[4]dangping   2013-12-26 14:05
民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见,媒体也有可能更倾向于转载一些负面的报道和意见,所以这些分析结果能不能代表人民的意见还很难说。
 回复  : 其他网友也有这个看法。有一定道理。但这个否定不了大数据的挖掘价值。

2013-12-26 15:291 楼(回复楼主)赞|

删除 |赞[3]husselfist   2013-12-26 13:07
有点意思。

删除 |赞[2]薛宇   2013-12-26 11:27
您这个词频分析真是个好东西,另外,啥叫“共现主题”,能解释一下吗?还有,您这个用到热图了,这个我们好几年前就关注了,跟胖子还合作了一个工具。挺好,赞!
 回复  : 就是共现关键词,主要是实体名词

2013-12-26 15:071 楼(回复楼主)赞|

删除 |赞[1]张能立   2013-12-26 10:36
中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。
 

只认数据不认人:IRT 的鼓噪左右美国民情了么?(屏蔽留存)

只认数据不认人:IRT 的鼓噪左右美国民情了么?

屏蔽已有 4109 次阅读 2013-12-30 06:27 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 舆情, 挖掘

套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》

当然,还有上帝:In God We Trust. In everyone else we need data.

大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

不过,挖掘本身也有可能有 bug(但即便是 bug 或者其他不完善之处,它们对所有搜索的话题也是一视同仁的,是独立于话题的,因为系统的编制针对的是开放话题),挖掘的结果可以从不同角度验证或质疑。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

上篇转载博文([转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28)就是老友在质疑和解读这方面做出的有意义的努力。老友指出,其所以造成 gluton intolerance 成为反对转基因的主要理由,是由于美国反转极端组织 IRT 的鼓噪的效应。从时间上看,IRT 确实在上个月的大数据调查区间内制造了反转新闻,似乎影响颇大(drill down 显示 twitter 在很短时间里对 cause gluten related illness “新闻”有 700 多条大同小异的微博或转发,下面是“鼓噪”及其社媒传播样品)。

RT | @tree_details http://t.co/i8PV0y3Ev2 Future Epidemic? Monsanto GM foods cause gluten-related illnesses. econ/food/soci- gmo.
Monsanto GM foods cause gluten-related illnesses (silveristhenew.com) […]
GM foods cause gluten-related illnesses —
I added a video to a @YouTube playlist http://t.co/rywMnDKtlU Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic Monsanto GM foods cause gluten related illnesses: Published on Dec 7, 2013 18 million of Ameri… http://t.co/86SnUlUmxv.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013 , RT.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013, RT.
Monsanto GM foods cause gluten-related illnesses • ‘March of Millions’: Ukraine braces for massive anti-govt rally • Spiritual Journey: Valaam monastery in Russia’s far north (RT Documentary).
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/leNyyCI1G4. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/kZlxQso6T4. #RT

………

RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @RT_com: Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/FbJhDufXzn. @portnayanyc
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/lknWlC2CP2

……….

Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/XOJYHwyci4 via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/EUYyOsnFyV via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/mAPr2RkyLL. #FutureEpidemic #GM #GMO #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/MwzyJkqjLI. #FutureEpidemic #GM #GMO #RT

………

有了上述解读,我们有两个问题需要解答:(1)一小撮 IRT 分子的 “鼓噪” 可以左右舆情么?影响度如何?(2)反对转基因的理由除去 gluten intolerance 后是怎样分布的?

于是我们继续做转基因的大数据自动挖掘来寻求答案,以便看清西方当今舆情和民情的真相。根据老友们的建议,我们可以设置条件,做一个对照调查。下面就是这次对照调查的条件和结果。

(1) Baseline:为做到 apple to apple 式的 minimal pair 对照比较,我们先把最近一个月的自动调查重复一次(除去了原 query 中的害群之马歧义词 GMC,因为发现它绝大多数是与 GM 品牌汽车相关,而不是指转基因谷物),结果拷贝如下:

这是 baseline,没有加限制词的结果,似乎没有多大改变
作者: 立委 (*)
日期: 12/29/2013 02:08:05

(2)在上述自动挖掘中加入限制词 “cause gluten” 以屏蔽由于 IRT 鼓噪事件带来的反转中最大,据专家认证也最不靠谱的理由:

嗨,我加了一个限制词 ”cause gluten“,舆情面貌变了哎
日期: 12/29/2013 08:16:59
不过褒贬指数还是很低:零下 33 度(比零下 37 度稍微升温 5 度)。似乎说明网络舆情对转基因还是充满抱怨的情绪。

 
Download
 
Download
 
Download

 
Download
 
Download

【相关博文】

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-754053.html

上一篇:与理发师的交谈
下一篇:“科学里说法的‘短命性’不是好事情吗?”

 

10  武夷山 孙根年 郑小康 陈儒军 陈筝 鲍得海 李宇斌 bridgeneer liyouxi tuner

发表评论评论 (15 个评论)

删除 |赞[10]李维   2013-12-31 20:25
新年将至,打个戳:

已有 3507590 人来访过

积分: 670威望: –金币: 665活跃度: 44665好友: 548主题: 2博文: 3618相册: 6分享: 343

stamped

删除 |赞[9]lmnnml   2013-12-31 16:14
再来指出你这个大数据统计的随意性。 你可以说“据专家认证gluten也最不靠谱的理由”从而把gluten删除, 从而提高了其它项目(例如致癌)的比例, 请问你从几个专家的意见得出了gluten不靠谱? 这不是跟你的标题“只认数据不认人”完全相反, 变成了“只认专家不认数据”了吗。 再反过来问你, 现在的大多数专家都认为已经批准了的转基因食品与常规的一样, 不致癌, 你为什么在致癌问题上,不加一个限制词 ”cause cancer“,你这不是按照自己的意愿和观点,随意操作大数据, 达到你自己的观点来误导舆论吗? 如果你有理的话, 请你不要删除我的观点, 正面回答
 回复  : 匿名朋友,没工夫跟你缠,这是我自家的菜园子,懂不?
你要是精力旺盛,到别处玩去。
你要是不匿名,我又有时间和心情,就陪你玩。
新年保重。

2013-12-31 19:591 楼(回复楼主)赞|

删除 |赞[8]lmnnml   2013-12-31 15:44
请问博主, 你为何把因为glutin 过敏反对GMO食品的60%的民意删除了? 你这不是不认数据只认人吗?
 回复  : 你睁开眼睛看仔细:那是做对照挖掘。删除前后的数据都在博文给出,难道你不读全文就指控?

朋友认为那个不是“民意”,而是某极端组织的“鼓噪”,因此做一个对比研究,看看该条“鼓噪”(或民意)对于整体褒贬指数的影响有多大,结果是5个点的影响。

大新年的。少点指控,多点快乐。祝新年好。

2013-12-31 19:551 楼(回复楼主)赞|

删除 |赞[7]liyouxi   2013-12-31 10:05
如果说的是我,我要说,我没有指出数据不可靠,只是说如何对待数据是个问题。

    [8]lmnnml

删除 |赞[6]liyouxi   2013-12-31 00:42
博主能否利用大数据手段证明或者证伪下述的据报道?

====
非营利性组织“国际食品信息委员会”(IFIC)在进行2013年《美国食品安全调查:消费者对食品安全、营养、健康的态度》调查时,依据2012年美国官方人口普查,以调查人群的性别、年龄分布、学历分布、族群分布和地区等变量配属统计权重,对1,006 名年龄18—80岁的美国人进行问卷采访。问卷结果显示,对于“你担心食品安全的哪些方面”这一问题,29%的消费者担心病菌和污染问题,21%的人担心制作过程,13%的人担心添加剂和化学品,只有2%的美国消费者表示担心转基因食品。当调查者进一步提问“你会避免哪些食品”时,消费者更多关注的是食品中“糖”和“脂肪”的含量,只有0.5%的人表示会避免转基因食品。对于现有的食品标签,仅有3%的消费者希望标注转基因信息。而在对消费者购买行为的调查中,87%的消费者表示生物技术(包括基因工程)不影响他们的购物选择。

 回复  : 没这个能力。

2013-12-31 13:061 楼(回复楼主)赞|

删除 |赞[5]liyouxi   2013-12-30 20:37
  

删除 |赞[4]liyouxi   2013-12-30 12:48
大数据能反映民意,这一点是没有太大问题的,只要收集数据的手段客观可靠即可。但是一个科技政策这样的专业判断问题,民意不能代表正确,且现代科学观念从来都是从少数人的探索开始的,社会大众事先不可能先行进行判断认定,即使成为科学知识之后,要一般老百姓(包含其他专业人士)来进行判断是强人所难。因此,我想博主可以做这样一个研究:美国民众在对待未知事物表达担忧的同时,是否主观想替代专业人士进行判断?或者在制定政策的层面上,是否对自己的非专业意见有足够的信心?还是,虽然有担忧,但是信任国家有关部门专家及科学共同体做出的决断和政策?他们老百姓有直接冲到最前线,推翻zf(FDA,AAAS等)的现有政策的意愿么?等等等等。
 回复  : 看样子,我得向美国NSF或者国内杰出老年基金申请一个课题来研究这一系列问题,题目就叫【论社会媒体民意与公共政策之关系:以转基因为小白鼠的 case study】

2013-12-30 16:081 楼(回复楼主)赞|

删除 |赞[3]liyouxi   2013-12-30 09:58
不过,摒除主观因素是一个重要方面,还有一个重要方面是样本空间是否足够客观、取样是否均匀?
 回复  : 样本是最近一个月的英文社会媒体存档,以 twitter 为主,Facebook 为次,其它论坛等只占一个小的比例。这是当今社交媒体的自然分布,取样应该是均匀的。具体交待见以前的两篇博文。

2013-12-30 10:551 楼(回复楼主)赞|

删除 |赞[2]liyouxi   2013-12-30 09:54
从某种意义上来说,人本身就是一架大数据处理机器,人就是在根据一辈子的所见所闻来下结论。不过,由于每个人处理数据的方式不一样,所以就一件客观的事情吵来吵去,难以得到共有的结论。因此,名义上,科学界不会以人的嗜好来作为判断标准,以尽量客观,虽然实质上还是会受影响。那么李老师,你所说的大数据处理方法摒除主观因素的能力是否在行业中得到公认?

删除 |赞[1]孙根年   2013-12-30 07:17
“数据,数据,除了它,我们谁也不认!”这话好,是情报分析的关键。

【大数据挖掘:转基因英文网络的自动民调和分析】(屏幕留存)

【大数据挖掘:转基因英文网络的自动民调和分析】

屏蔽已有 4162 次阅读 2014-1-3 18:23 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 民意, 挖掘, 民调

前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。

既然转基因是大众如此关心的热点话题,我们就拿它当小白鼠,继续做系列大数据自动调查,用海量数据粉碎少数匿名极端分子散布的大数据调查涉嫌“输入伪数据”的谣言。博主保证在话题定义和输入给系统以后,相关的原始数据搜索及其自动分析全过程没有任何人工干预。这一点是由我们的大数据产品的性质决定的。产品允许以不同的 filters 来做对比研究,博主保证对比调查中的任何 filter 都明确标示,默认为不使用。各位谨记的是,大数据是客观的存在,大数据不会说谎,但是对数据的下列解读(interpretation)不可避免有主观的成分。欢迎百家争鸣,对这些数据做出不同的解读,也欢迎对数据挖掘的条件和过程提出建议和质疑。(但不欢迎任何极端分子的胡搅蛮缠无理取闹,博主保留对任何极端或不雅留言杀无赦不解释的权利。)

转基因一年来英文社会媒体口碑的自动民调和分析如下。  

(1)话题的定义和输入:GM food | GMO | genetically modified | transgenic | transgene | genetically engineered food | GMF | Franken-food

与前同(删除了歧义严重的害群之马 GMC)。

(2)自动民调结果总览

尝试解读:一年的自动调查提及转基因485万,调查了383 万多社交媒体的帖子,涉及近 15 万网民。这是真正的大数据民调,比传统手工民调最多几千份问卷,数据量和调查对象要高两到三个量级。转基因的一年大数据的平均褒贬指数为零下13度,比前几次的一个月数据的调查要好(虽然仍然是负面评价为主)。转基因的话题在西方社会媒体中,的确很有争议。

尝试解读:一年的提及转基因话题的帖子,有 28% 的帖子(134万)含有褒贬评价或情绪,其中贬(57%)略大于褒(43%)。褒贬的幅度区间在 6 度最高点(见上图最高红点旁 tooltip 小框)到 零下 32 度(上图最低谷的红点处)之间。值得注意的是 2013 年六月是转基因网络热议的最高峰,而这场热议却使得转基因褒贬指数跌入最低点零下32度。

 

下面是最近半年的数据,褒贬度为零下10度,略好于一年的指标。

(3)共现话题:

尝试解读:多次挖掘都是如此,与转基因最密切的主题永远是 Monsanto (孟山都)。说转基因纯粹是科学问题,那是 too simple and naiive,只要背后有企业,就一定有利益因素。

(4)挺转反转的理由词云:

 
Download

尝试解读:正反理由旗鼓相当的样子,这比以前一个月数据的调查大为改善。反转的最大理由不再是 gluten 相关的疾病,而是死亡(Die)和癌症(Cause cancer)。挺转声音强调的是安全(safe),也是很自然的。

(5) 挺转反转的情绪词云:

 
Download

尝试解读:wow,情绪云图中挺转的分贝(那些大大字体的 love,good,great)似乎比反转的(bad,not want,concerned,fear,hate,fuck)更高(表现为更大的字体),不过后者的表达更加多样化。

(6)挺转反转的行为:

 
Download

尝试解读:挺反双方不仅仅是情绪发泄,还有行动,有吃的用的买的(eat,use,buy),就有拒吃拒买甚至要求禁止的(not eat,not buy,reject,ban)。

(7) 挺转反转的比例

 

(8)社媒样例:还是贬大于褒嘛。
 

 

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

 

转基因问题
http://blog.sciencenet.cn/blog-362400-755554.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

4  陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

删除 |赞[3]杨会杰   2014-1-4 11:58
   大数据崇拜要不得
其实大数据很大的一个特点是脏数据
 回复  : 你想说什么呢?
因为数据脏,就不要挖掘?

2014-1-4 14:311 楼(回复楼主)赞|

删除 |赞[2]蔡小宁   2014-1-3 23:42
博主的数据应该是真的,至少我是这样认为的,但是不要迷信“大数据”也是我一直的提醒。
 回复  : 蔡老师,什么叫“应该”?数据是从内容商买的,真的假的也是内容商的问题,我们只是使用它挖掘情报而已。

2014-1-4 14:301 楼(回复楼主)赞|

删除 |赞[1]biofans   2014-1-3 18:38
不是说美国人吃了20多年的转基因食品吗?那就分析20年来的数据可能更可信。
 回复  : 没有那么久的历史数据(即便有,也买不起,原始数据是需要给内容供应商付钱的)。社交媒体的历史总共不过七八年吧。

2014-1-3 19:021 楼(回复楼主)赞|
 回复  : 另外,我怀疑 10-20年前,没什么人议论转基因。因为美国的转基因进入市场不加标识,绝大部分民众蒙在鼓里,根本没有这个概念。最近一年的热议,估计与美国崇尚自然有机食品的所谓健康饮食的时尚潮流有关。另一方面,也幸亏美国人做了 20 年的小白鼠。这 20 年美国没有发生转基因带来的严重问题,我个人认为足以证明国人对转基因的担心有点杞人忧天。只要按照美国标准去做,就应该没啥问题。当然,转基因主粮如大米和小麦的推向市场,还是谨慎为好。

2014-1-3 19:102 楼(回复楼主)赞|
 

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】(屏蔽留存)

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

屏蔽已有 4121 次阅读 2014-1-3 20:12 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 中文, 挖掘, 社会媒体

中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢?

终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。

这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面交待。

接着来中文社媒的民调:挺转派明显占上风,疑似媒体正面为主?
作者: 立委 (*)
日期: 01/02/2014 19:26:23

【转基因大数据挖掘系列博文】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03

【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24

转基因问题
http://blog.sciencenet.cn/blog-362400-755584.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

8  郑小康 徐军 陈辉 薛宇 孙根年 bridgeneer tuner liyouxi

发表评论评论 (10 个评论)

删除 |赞[6]liyouxi   2014-1-5 18:27
如果中美对比数据需要得出有意义的结果,我觉得可以尝试一些其他相关数据(不构成因果关系),比如两个社会对于星相学的态度,对于神秘现象的态度等等,那么把得到的结果放到这些相关背景上去看,可能很有意义。

删除 |赞[5]lmnnml   2014-1-5 00:11
删了我的真话–心虚? 门前冷落鞍马稀, 大家已经知道你的大数据是什么东西了
 回复  : 那就留着这条立此存照吧。

2014-1-5 06:101 楼(回复楼主)赞|

删除 |赞[4]tlw2013   2014-1-4 12:51
   各取所需,公开透明

删除 |赞[3]李旸   2014-1-4 12:44
李老师,数据用什么软件分析的
 回复  : 用的是我们自己开发的软件产品。这个产品主要是为企业挖掘客户情报用的。

2014-1-4 14:261 楼(回复楼主)赞|

删除 |赞[2]闵应骅   2014-1-4 11:38
谁挑起了这么个争论?这事儿民调能解决吗?
 回复  : 民调的目的不是解决问题,而是了解问题。

2014-1-4 14:271 楼(回复楼主)赞|

删除 |赞[1]蔡小宁   2014-1-3 23:34
中国人最关心“中文世界”了,非常欢迎李老师来到中文世界!

【大数据挖掘:中国红十字会的社会媒体形象】(屏蔽留存)

【大数据挖掘:中国红十字会的社会媒体形象】

屏蔽已有 4765 次阅读 2014-1-4 20:27 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 挖掘, 红十字会, 社会媒体

【置顶:立委科学网博客NLP博文一览(定期更新版)】

在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往往见木不见林,难以把握总体趋势和全貌。而自然语言技术可以帮助我们自动阅读分析海量信息,从中挖掘任何话题的舆情以及机构或个人的媒体形象,从而从一个角度为决策提供依据。

一般而言,红十字会总是与各种慈善活动紧密相关,因此如果不出意外,红十字会的社会形象是非常正面的。但是,中国红十字会却不尽如此。用我们中文大数据挖掘系统(beta)对最近一年的社会媒体(完整的微博数据仍然在与内容商协商之中)的自动民调显示其形象起伏颇大,但一年平均指数 36 并不很低。

从上图看过去一年(2013元月13至2014元月14)的社会媒体趋势,社会媒体的相关议论的数量除了去年四月五月之间突然出现一个高峰以外(出了什么状况?),一直很平稳。随着这个热议的是其形象一跌千丈,直至五月12号到谷底零下56度。随后的发展表明,虽然议论量趋于平稳,但去年七月中与九月末还是出现两次形象受损,疑似公关失当?这里面的故事,一直追踪网络事件的记者和网友应该有所可言。

网友表达的情绪中最显眼的是“谴责”,远远超出正面的情绪(“信任”)。

上图展示了具体的褒贬理由。下面是其比例的饼图,如何解读这些数据还是留给了解事件发展过程的人士吧。总之是遇到了丑闻和麻烦。

http://blog.sciencenet.cn/blog-362400-755868.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:【大数据挖掘:方崔大战一年回顾】

 

5  蔡小宁 郑小康 王秀玉 徐晓 bridgeneer

发表评论评论 (1 个评论)

删除 |赞[1]王秀玉   2014-1-4 21:47
读李维老师《大数据挖掘:中国红十字会的社会媒体形象(2013)》后感 地址:http://blog.sciencenet.cn/blog-817414-755900.html

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】(屏蔽留存)

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

屏蔽已有 4589 次阅读 2014-1-6 00:54 |个人分类:社媒挖掘|系统分类:博客资讯| 小崔

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Re:你的软件有bug。5-7月,崔永元主要在忙公益基金的事情。

当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。

上篇挖掘崔方大战一年的形象变化曲线,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in garbage-out 造成的?

于是 narrow down 到那个区间做进一步调查,看来不是小方也不是月亮,而是“苦逼” 惹的祸。

初步查了一下,可能的原因是“苦逼”。那段时期称他为苦逼小崔的较多
日期: 01/05/2014 10:28:11
系统认为 苦逼 是负面评价,加上数据总量(8930 mentions)不够,所以就构成低谷了

法克

好在,这个问题数据量大了以后应该自行纠正。希望与内容商的谈判早日定局,数据量一大遮百丑。

 

 

 

 
 

MD 这么一条就左右主导了曲线两个月低谷??

所有数据量需要一个阈值才靠谱。这个经验值还在探索中。

系统本身绝不是 garbage in n out,苦逼 平时确实更多贬义,但也有调侃同情的可能。

大数据的要点是 大。Lesson learned

RE:应该是5-7月曝光少,噪声起作用了。之前是两会,之后是公益等。

 

小崔这期间共8930 mentions,其中褒贬词量1164,而小崔负面评价总数686,其中苦逼610次
日期: 01/05/2014 11:20:50
问题是这样的帖子,de-dup 也对付不了,因为帖子本身是 不同的,但是短语 苦逼小崔 只是帖子的一个组成成分

还是一句话,大数据重在大,一大遮百丑,一大就靠谱。

不过,数据量不足也有好处,可以更加容易暴露系统的bugs,而数据量一大,噪音和 bugs 就自然退居幕后,浮不上台面了。

 

google 了一下,原来 苦逼小崔 真地不是崔永元???
作者: 立委 (*)
日期: 01/05/2014 16:01:20
那是谁呢?

笑话闹大了。

在小崔民调中,我可以(应该)过滤掉“苦逼小崔”的干扰。

 

  1. 苦逼小崔。 – 豆瓣

    www.douban.com/people/55978871/

    Translate this page

     

    老孙谁都不是。 不是前任,不是现任,不是同学,不是同事,甚至称他为朋友都有点牵强,他是同学介绍给我的适合结婚的对象,这个定义听起来有点残忍,但事实就是 

  2. 苦逼小崔。的豆瓣小组

    www.douban.com/group/people/55978871/

    Translate this page

     

    小组、话题. 苦逼小崔。的豆瓣小组. 小组主页 · 加入的小组(22) · 喜欢(0) · 推荐(1). 加入的小组(22). 太原一家人. (9297). 掀起你的内幕来┃青草公益活动月. (254349).

  3. 苦逼小崔。的相册 – 豆瓣

    www.douban.com/people/55978871/photos

    Translate this page

     

    有了这个相册,我就知道明年什么时候该穿什么衣服了。 11张照片 2013-07-16更新. Wish you were here. I’m here. 11张照片 2013-07-15更新. 西安西安. 75张照片 

  4. 我刚才看到了一个苦逼小崔的自爆…… – 豆瓣

    www.douban.com/group/topic/41545991/

    Translate this page

     

    Jul 19, 2013 – 成功勾引母猪 (Feel so close) 2013-07-19 23:42:27. 我操,我操,蛋大的事也值得你开个帖? 我操,我操,蛋大的事也值得你开个帖? 苦逼小崔。

  5. 苦逼小崔。的相册-夏 – 豆瓣

    www.douban.com/photos/album/106664416/

    Translate this page

     

    Jul 15, 2013 – alay : 。。要我当面指给你看么 09-24 14:23; 苦逼小崔。 : 胸部在哪? 09-24 14:23; alay : 胸部不错啊 09-24 13:38; 苦逼小崔。 : 蓬荜生辉有木有!

  6. 北京,北京- 苦逼小崔- 面包旅行

    breadtrip.com/trips/2387782532/

    Translate this page

     

    Oct 2, 2013 – 坐缆车准备爬山了。 喜欢(0) 评论(0). 2013-10-02 11:43:00. 北京. 苦逼小崔-北京,北京-2400515001. 到顶。 喜欢(0) 评论(0). 2013-10-02 12:57:00.

  7. 苦逼- 小崔seo_崔长河的个人博客

    seo-oo.com/?tag=苦逼

    Translate this page

     

    小崔seo,是一个致力于关注互联网技术、网络营销、搜索引擎优化(SEO)的博客。博客内容包括SEO,但不限于SEO。

Page 2 of 20 results (0.13 seconds)
 
 
 
 
 
 

转基因问题
http://blog.sciencenet.cn/blog-362400-756279.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

5  王秀玉 武夷山 孙根年 陈筝 bridgeneer

发表评论评论 (5 个评论)

删除 |赞[3]laohe41   2014-9-3 10:02
崔绝对不是苦逼,逗逼还差不多。

删除 |赞[2]何小阳   2014-1-6 17:43
没有“阀值”这个词,只有“阈值”,threshold
 回复  : thanks

2014-1-6 21:591 楼(回复楼主)赞|

删除 |赞[1]戎可   2014-1-6 06:50
2013?
 回复  : thanks

2014-1-6 08:331 楼(回复楼主)赞|

【大数据挖掘:转基因一年回顾】(屏蔽留存)

【大数据挖掘:转基因一年回顾】

屏蔽已有 3140 次阅读 2014-1-6 05:42 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 挖掘, 社会媒体

转基因大战提升还是损害了转基因的网络形象?
日期: 01/05/2014 15:12:11

我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03),下面我们进一步做转基因最近一年的网络形象趋势的调查,看看到底转基因在网民中的形象是提升还是损害了?

转基因确实是去年的热门话题,在我们够得着处理(indexed)的中文社会媒体一年档案中,转基因被提及55万多次,其中两万九千多次为正面,两万七千多次为负面,挺转反转可谓旗鼓相当,平均褒贬指数为 4 度,挺转呼声略强。

 

下面看一年的褒贬热议趋势图。蓝色曲线表示热议度(mentions),紫色曲线为褒贬指数(net sentiment),下列第一张趋势图记录每日的热议和褒贬的跌宕起伏。

 

下图是每周的热议和褒贬的趋势图。

 

下图是每月的热议和褒贬的趋势图,展示显得更加粗线条,但展示发展趋势也更为明显。热议度一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。不过全年看下来,转基因的网络形象实际上变得更加正面了。

 

补充不同区间的对比图

日期: 01/05/2014 15:30:03

半年趋势图:

 

 

三个月趋势图:

 

 
 
一个月的趋势图:

 

 

老友脑子好,帮助看看是提升了还是损害了形象
日期: 01/05/2014 15:32:15

隐约感觉是提升了,但是期间跌宕很大。

最近三个月的某个转基因热议期间(去年十 月底),转基因形象却走低,后来又逐渐恢复了。

是不是?

我自己已经糊涂了

下面是过去一年有关转基因的各类云图。

 
Download
 
比如上图 “转基因技术”,褒贬图中有红有绿(绿大红小),表示有人说好有人说坏,但褒大于贬。

 
Download
 
Download
 
Download

 
Download

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756294.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

2  孙根年 王秀玉

发表评论评论 (4 个评论)

删除 |赞[2]蔡小宁   2014-1-7 23:13
承蒙李老师的热情,我只能做点猜测。上半年支反双方没有特别大的行动,但是下半年就不同了,支转方开展了多次转基因大米品尝科普活动是有效果的,而且五家专业学会等单位联合开办了《基因农业网》,加强了转基因科普的力量,累积至9月中旬达支转方的支持度到高点。也就是9月初,崔永元突然杀出,以其实话实说建立的超高人气,使得支转方遭到重大打击,随后崔永元进一步宣布自费赴美、日调查转基因,使反转方赢得了大量的赞誉,崔永元再次建立起直言不讳的负责任的英雄形象,导致了支转方在10、11月落到低谷。然而,支转方不甘落后,不断组织反击,方舟子多次发文批驳崔永元,由于方舟子的文章往往有理有据,而崔永元没有实质内容、脏话连篇,导致少量崔粉放弃对其的支持,加上农业部发言人出面说话,俄罗斯又批准了转基因作物的种植,支转方逐步收复失地,于是12月中旬达到高点。年终,双方都忙于年终工作总结、过节等,热度都有所下降。
 回复  : 很好的分析,比我盲人说象强太多了。

2014-1-8 03:181 楼(回复楼主)赞|

删除 |赞[1]王秀玉   2014-1-6 20:10
李老师再试一下选“转基因主粮”、“转基因安全”一定可以补充“转基因技术”这个无多大争议的tag 的不足。这是一点补充。沈阳
 回复  : 这个可以做。

2014-1-6 21:501 楼(回复楼主)赞|
 

【大数据挖掘:方崔大战一年回顾】(更正版)(屏蔽留存)

【大数据挖掘:方崔大战一年回顾】(更正版)

屏蔽已有 8527 次阅读 2014-1-6 09:12 |个人分类:社媒挖掘|系统分类:博客资讯| 方舟子, 崔永元, 挖掘, 社会媒体

对博文【大数据挖掘:方崔大战一年回顾】 2014-01-05 的更正是:去了“苦逼小崔”(白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude),加了中文繁体。(调查时间比前一次也后了一天。)

 

本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twitter 等处会用繁体热议崔和方,其实没有增加多少。Twitter 和 Facebook 的 data 一直比 较稳定,不会像微博那样可能有缺漏。

有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。

以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。

据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。

挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。

挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。

两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。

看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。

 

 
 

以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。

小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。

上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。

 

由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。

(1)共现主题词:(字体大小与热议成正比)

 

 

(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)

 

 

(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)

 

 

(4) 喜欢自有喜欢的理由:

 

(5)厌恶亦有厌恶的理由:

 

(6)所调查的数据来源种类:
 

(7)所调查的数据分布:
 

 

社交媒体样本:

 

 

 

DIsclaimer: still in beta, use at your own risk.  bug report is welcome.

 

【相关的大数据挖掘博文】

 

【大数据挖掘:方崔大战一年回顾】(更正版) 2014-01-06

【大数据挖掘:转基因一年回顾】 2014-01-06
【大数据挖掘:方崔大战一年回顾】 2014-01-05
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03
【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03
只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转基因问题
http://blog.sciencenet.cn/blog-362400-756334.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

13  陈辉 徐英祺 陈筝 薛宇 赵斌 董全 李宇斌 孙根年 王秀玉 麻庭光 ncepuztf tuner bridgeneer

发表评论评论 (31 个评论)

删除 |赞[20]dangping   2014-1-7 18:44
“数据挖掘的意义在于帮助了解舆情网情民情。”
有一个词叫做“制造舆论”,在有计划的宣传下,舆情网情民情都是可以制造出来的。
 回复  : 当然,舆情都是人为制造出来的,不是上帝或者自然的现象。没有制造,就没有挖掘。在媒体学中,对企业或政府有组织的制造舆情与个体自然流露的民情,是严格区分的,叫 push media and pull media。企业有公关部也有游说为其利益服务。政府(特别是赤色政府或白色政府)专门设置庞大的宣传部,目的就是制造和牵引舆论,为稳定或洗脑用。两类舆情有相互渗透的时候,但本质上代表了完全不同的诉求。现在网络普及了,各显神通,开始有僵尸和水军,也是为了制造舆论,或者搅混水。这些都应该在挖掘和测量中予以分别处理和对待。这条路很漫长,但曙光就在前面。

2014-1-8 03:281 楼(回复楼主)赞|

删除 |赞[19]mitbbs   2014-1-7 10:25
两次网上掐架,从头关注到尾,没在任何人微薄上留过言。在我看来,韩寒和崔永元完败,虽然以前还蛮喜欢他们。

删除 |赞[18]gusij   2014-1-7 09:47
我不知道“mirrorliwei”是谁,但愿不像之前有人所说,是您的“镜像帐号”。。。
针对他(或您)的评论,我的回复是,一篇好的研究,或者好的文章,当然要有点意义。就算没有,你做这个工作总给有个目的吧。。。如果您的研究就是为了展示一个“网络舆情”。我前边说了,至少在“转基因”问题的争论上,意义不大。而且你这篇文章展示出来的内容,很多其实就是水军互掐和个人攻击,对于没看过方微博,不了解转基因的人只会误导。

———————————————————————————–
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[17]杜昌文   2014-1-7 09:16
这种数据分析很有意义, 但对于科学问题, 其结果也许只能说明广大民众科学素养的低下.  例如, 小崔, 无论现在有多少人支持他, 他在我心中的良好形象已完全崩溃, 已骂街泼皮几无差异.

删除 |赞[16]金拓   2014-1-7 04:36
一年前的方韩大战可不是两败俱伤,而是韩寒完败。韩寒不仅再也不是天才作家和意见领袖了,而且语文差生的水平也暴露无疑了。
 回复  : 那是你或一批人的看法。
数据挖掘出来的结果不是如此。

2014-1-7 05:281 楼(回复楼主)赞|

删除 |赞[15]麻庭光   2014-1-7 04:34
有意思的研究,我最关心的是,你能够从社交媒体中预报某一免费活动的参与者人数么?比如波士顿马拉松,我想提前知道人数,就可以做人流规划了。有没有这方面的前期工作?给个Citation,我正在写计划。谢谢
 回复  : 不能。没研究过这种预测。目前只是反映和回顾。

2014-1-7 05:271 楼(回复楼主)赞|

删除 |赞[14]蔡小宁   2014-1-6 21:08
努力猜测一下。实际上方崔大战是从9月份开始的,崔永元在9月初首次发起进攻对方舟子的打击很有力,曲线急剧下降,应该说崔永元实话实说节目积累的威望使众多粉丝齐心协力痛骂方舟子。但是后来,崔永元不能依据科学证据说话,说话带脏字,原先的崔粉有少量叛逃,改为支持方舟子,所以方舟子开始上升,崔永元开始下降了。如果崔永元不能像方舟子那样说话有理有据,败下阵来的日子指日可待。现在崔永元是在吃“实话实说节目”的老本,能永远吃下去吗?
 回复  : 蔡老师去看看【转基因一年回顾】的调查,也许可以从曲线图上,看到九月前的趋势与九月后趋势的不同及其解读。我对此事件没有追踪过,看不大明白。

2014-1-6 22:141 楼(回复楼主)赞|
 回复  : 转基因中文媒体一年趋势调查的网址在 http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=756294

2014-1-6 22:362 楼(回复楼主)赞|

删除 |赞[13]蔡小宁   2014-1-6 20:47
刚刚发现博主又搞了个新版的,里面变化很大呀!怎么搞的?
 回复  : 都在文中交待了,发现了一个 bug:苦逼小崔 不是指的 小崔(永元),必须剔除(exclude)。

原调查的来源限制为简体中文社会媒体,现调查加入了繁体中文的来源,不加限制,可以增加数据量,也可以反映海外中文世界的声音。

2014-1-6 21:491 楼(回复楼主)赞|

删除 |赞[12]mirrorliwei   2014-1-6 20:25
to 某些评论者:镜某不能理解为何有些人的视野就那么窄! 
【不知道这种所谓的“数据挖掘”有什么现实的意义】?挖出来了就是“现实的意义”了。
TV的收视率是做什么的?不是评价节目的内容,也不是评估百姓是否可以听懂、接受。而是评估百姓是否喜欢看。喜欢看就是意义了,对广告商和电视台而言。

删除 |赞[11]王秀玉   2014-1-6 20:00
更正客观一些。
 回复  : 降噪。

主要是原来的那个苦逼小崔的低谷,实际上与小崔的公关形象无关。

我至今也不知道这个苦逼小崔是谁。总之是噪音。

2014-1-6 22:171 楼(回复楼主)赞|

删除 |赞[10]lmnnml   2014-1-6 18:10
本人多次指出了你经常输入假数据, 伪数据, 然后得出假结论, 伪结论。 你从来不敢回答我的质疑,采取把我的质疑删除, 不让大家看到。
 回复  : 你拉皮糖,好,就开恩把你这条谣言立此存照。

1. 同样的评论,你反复贴,你匿名骚扰。
2. 你不匿名,我可以不删你的任何帖子(重复除外),ok?
3. 我自家的菜园子,当然仍保留不给理由删任何帖子的权利。

科学网的防匿名骚扰功能有待加强。

2014-1-6 21:561 楼(回复楼主)赞|

删除 |赞[9]周春雷   2014-1-6 16:47
水军的意见咋处理的?

删除 |赞[8]gusij   2014-1-6 15:19
同意。但是个人感觉在这个问题上的“民情”真的不是那么重要或者有严重误导性(具体原因不是评论一两句里能说清的)简单说,就是很多人是在无厘头的反对。
赞同:yakgg的观点。如果说这种数据还有意义,那么它的意义可能在于:“说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。”

删除 |赞[7]陈军   2014-1-6 15:03
同意【1】楼

删除 |赞[6]dangping   2014-1-6 14:46
赞同[1]gusij
能否面向专业期刊来做数据挖掘?
 回复  : 我没有数据,也没有时间。

这个调查系列是作为一种大数据科普和展示来做的试验,旨在引发对大数据领域的了解,以及发现挖掘中的bugs和盲点。

2014-1-6 22:091 楼(回复楼主)赞|

删除 |赞[5]bridgeneer   2014-1-6 14:39
突然发现,科学奴才真不少。

删除 |赞[4]jiareng   2014-1-6 13:09
大数据不是万能的!
 回复  : 放之四海而皆准。
谁给你灌输大数据万能,那人一定是片子。

2014-1-6 14:371 楼(回复楼主)赞|

删除 |赞[3]yakgg   2014-1-6 12:30
很有意义的, 说明科学界对转基因的安全性、什么是正确的科学研究等等宣传的还不够。 毕竟转基因食物还是需要大众消费的。如何建立起科学家和老百姓之间的信任关系更多的是学术界的责任。

删除 |赞[2]liyouxi   2014-1-6 11:37
可以提供给农民起义领袖们把握“民意”时使用:http://user.qzone.qq.com/11454399/blog/1388906053

删除 |赞[1]gusij   2014-1-6 11:29
坦率讲,不知道这种所谓的“数据挖掘”有什么现实的意义。对于转基因这样专业的问题,我们不可能凭臆想和公众舆论做判断。需要真正了解诶转基因的生物学家做解读,这方面美国权威机构已基本给出答案,那就是目前批准的转基因作物是安全的!
您的这种数据挖掘不如面向专业的学术期刊,而不是社交网络。
 回复  : 数据挖掘的意义在于帮助了解舆情网情民情。不在解决任何专业问题。专业问题找专家,不要找普罗百姓。

2014-1-6 14:391 楼(回复楼主)

【大数据解读:方崔大战对转基因形象的影响】(屏蔽留存)

【大数据解读:方崔大战对转基因形象的影响】

屏蔽已有 2589 次阅读 2014-1-7 06:29 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 反转, 挺转

据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。

下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度(mentions)一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度(net sentiment)在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。

 

不过全年看下来,转基因的网络形象实际上变得更加正面了因为褒贬指数平均值从全年的4%,上升为半年的8%(近三个月为6%, 最近一个月的指数陡升为 19%)。总的趋势应该是挺转占了上风,东风压倒西风。

半年趋势图:

 

三个月趋势图:

近三个月(从去年十月五号到今年元月五号)的趋势图是大战最酣的时期,值得仔细研究。从热议度和褒贬度两条曲线的对比看,十月下旬到十一月上旬是热议高峰期,估计也是挺反两派斗争最激烈的阶段,但这个阶段转基因的媒体形象反而略为走低,至 11月18号的谷底(-22%),说明反转呼声占了上风。

但是此后的发展是,热议度基本持平,直到12月底开始有些消停(斗累了?过年了?),但挺转的走势明显上升直到12月16日全年最高点(41%)。但此后又开始下滑。

这些拉锯还在继续,近一个月的跌宕图示是否预示着,这场斗争还远远没有结束?不过最近两周确实有些疲软了。

 

一个月的趋势图:

 

一鼓作气,二鼓衰而不竭。挺/反尚未成功,同志仍需努力。

【附:蔡老师精彩点评】

 

[2]蔡小宁  2014-1-7 23:13承蒙李老师的热情,我只能做点猜测。上半年支反双方没有特别大的行动,但是下半年就不同了,支转方开展了多次转基因大米品尝科普活动是有效果的,而且五家专业学会等单位联合开办了《基因农业网》,加强了转基因科普的力量,累积至9月中旬达支转方的支持度到高点。也就是9月初,崔永元突然杀出,以其实话实说建立的超高人气,使得支转方遭到重大打击,随后崔永元进一步宣布自费赴美、日调查转基因,使反转方赢得了大量的赞誉,崔永元再次建立起直言不讳的负责任的英雄形象,导致了支转方在10、11月落到低谷。然而,支转方不甘落后,不断组织反击,方舟子多次发文批驳崔永元,由于方舟子的文章往往有理有据,而崔永元没有实质内容、脏话连篇,导致少量崔粉放弃对其的支持,加上农业部发言人出面说话,俄罗斯又批准了转基因作物的种植,支转方逐步收复失地,于是12月中旬达到高点。年终,双方都忙于年终工作总结、过节等,热度都有所下降。博主回复(2014-1-8 03:18):很好的分析,比我盲人说象强太多了。

更多数据在:

【大数据挖掘:转基因一年回顾】 2014-01-06

http://blog.sciencenet.cn/blog-362400-756627.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

3  蔡小宁 bridgeneer dchlin

发表评论评论 (4 个评论)

删除 回复 |赞[3]王秀玉   2014-1-9 13:52
选择评论:实名用户 就可以禁止匿名骚扰 

删除 回复 |赞[2]zhiyanliao   2014-1-7 10:04
科学网网管;李维无休无止的发些毫无意义的大数据烂文, 是否请网管适当控制, 不要让科学网变成李维推销他软件的自由市场
 回复  : 喂喂,匿名网友,同样的留言你不要重复骚扰好勿好?
你跑到我后院,匿名呼吁网管禁我的言,不滑稽可笑么?
我帮你呼吁一下吧:网管MM,请不要加精立委大数据的烂文。

顺便也问一下网管MM:按哪个按钮可以禁止匿名骚扰呢?

2014-1-7 10:111 楼(回复楼主)赞|回复

删除 回复 |赞[1]陈安   2014-1-7 07:57
大家继续掐
 

“大数据与认识论”研讨会的书面发言(屏蔽留存)

“大数据与认识论”研讨会的书面发言

屏蔽已有 12 次阅读 2014-1-11 19:27 |个人分类:社媒挖掘|系统分类:论文交流| 大数据, 挖掘

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级的大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂里面的人物大多是科学殿堂让人高山仰止的大科学家,而在下不过是一介匠人)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会也征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也早邀请立委在其创新频道做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

(1) 大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 、云计算(cloud computing),移动互联网(mobile web)和大数据(big data)情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

2011年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前才刚起步。然而中文网络信息的增长速度却是扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

 

有问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

 
20多年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么?
 
Big data intelligence (大数据情报挖掘)
 

很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

 

(2)什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社会媒体火热以后的专指,是已经与施事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社会媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社会媒体以及施事背景密切相关以外,大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力,为大数据时代的到来提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

(3)大数据挖掘技术及其挑战

   社会媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

   面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析; 2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

   社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth),则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

   在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据 更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

 

(5)自动民调: 社媒大数据挖掘的重要应用

 
社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终 取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

 

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。

       对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

 

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

先说它的不宜和禁忌。

1 这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2  这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3  大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的吹鼓手。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-758135.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

【喋喋不休论大数据(立委博文汇总)】(屏蔽留存)

【喋喋不休论大数据(立委博文汇总)】

屏蔽已有 6090 次阅读 2014-1-12 01:47 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 立委

【立委按】为准备一个大数据的书面发言,今天把自己过去两年在科学网【立委科普】和【社媒挖掘】专栏里发的有关大数据及其挖掘的博文扫了一遍,计104篇,洋洋洒洒m万言,总量远远超过彭德怀元帅1958年“为人民鼓与呼”的万言上书。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。

“大数据与认识论”研讨会的书面发言(草稿) 2014-02-10

【立委论大数据挖掘(博文汇总)】

 

分享【1】为什么做大数据的吹鼓手?热度 2 李维 2013-7-28 01:14王婆卖瓜是一种解释,虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜,毕竟是自己辛辛苦苦栽培,一把水一把肥看着它长大的,恰好赶上了百年不遇的高温干旱,这鲜美的瓜不吆喝都对不起它。 主要的原因是上帝。哦,我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了,当 …个人分类: 立委科普|667 次阅读|2 个评论

 

分享【2】 大数据NLP论热度 5 李维 2013-7-27 20:50由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套 查准率 (precision)和 查全率 (recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指 …个人分类: 立委科普|3090 次阅读|6 个评论

 

分享【3】On Big Data NLP热度 1 李维 2013-7-27 20:43Admittedly, it is not easy to develop an NLP ( Natural Language Processing ) system with both high precision and high recall (i.e. high F-score) due to the ambiguity and complexity of natural language phenomena. Social media is even more challenging, full of misspellings, irregularities, and …个人分类: 立委科普|766 次阅读|2 个评论

 

分享

 

分享【4】 作为公开课的大数据演讲热度 16 李维 2013-5-23 18:34【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【 科学网公开课 】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯 …个人分类: 立委科普|6654 次阅读|17 个评论

【5】社媒是个大染缸,大数据挖掘有啥价值?李维 2014-1-7 09:56社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义? 无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口,尤其在东土。 水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事 …个人分类: 立委科普|190 次阅读|没有评论

 

分享【6】大数据挖掘问答2:会哭的孩子有奶吃热度 2 李维 2013-12-27 15:44RE: 有人在网上叫得最凶,所以这种大数据分析很容易受网上的vocal minority影响,不是么? 叫得最响用处不大,要叫得多。叫得响可以影响情绪烈度指标(passion index),但不影响最关键的褒贬指数(net sentiment)。叫得多也不能靠水军和僵尸,因为容易当作噪音被剔除,所以必须要叫得多种多样。 作者: 立委 …个人分类: 立委科普|556 次阅读|2 个评论

 

分享【7】大数据挖掘问答1:所谓数据完整性热度 3 李维 2013-12-27 11:12到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了 作者: 立委 (*) 日期: 12/26/2013 18:54:07 关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意 …个人分类: 立委科普|395 次阅读|3 个评论

【8】科研围脖:提上来,再谈查全率和大海捞针热度 1 李维 2013-7-29 00:38白图格吉扎布 2013-7-28 22:58 文章标题: 大数据NLP论 有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。 博主回复(2013-7-29 00:35) : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许 …个人分类: 立委科普|1223 次阅读|1 个评论

分享

【9】【立委科普:所谓大数据(BIG DATA)】热度 3 李维 2013-3-21 04:58Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users’ background and social …个人分类: 立委科普|1175 次阅读|3 个评论

【10】广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘热度 11 李维 2013-3-20 19:57UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It’ …个人分类: 立委科普|1283 次阅读|13 个评论

分享【11】Coarse-grained vs. fine-grained sentiment extraction李维 2013-3-12 06:51As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w …个人分类: 立委科普|671 次阅读|没有评论

 

分享【12】【“剩女”的去向和出路(1)】热度 2 李维 2013-3-8 20:03在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 …个人分类: 立委科普|1035 次阅读|2 个评论

 

分享【13】 【立委科普:基于关键词的舆情分类系统面临挑战】热度 1 李维 2013-2-15 22:47

 

Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based …个人分类: 立委科普|1372 次阅读|1 个评论

 

分享【14】曙光在眼前,轻松过个年热度 1 李维 2013-2-9 04:34

曙光在眼前,轻松过个年

QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 …个人分类: 立委科普|626 次阅读|3 个评论

 

分享【15】 围脖提上来:大数据时代的生活策略热度 2 李维 2013-2-5 07:33RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can’t live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 …个人分类: 立委科普|1294 次阅读|2 个评论

 

分享【16】 【立委科普:舆情挖掘的背后】热度 2 李维 2013-2-4 10:22

【立委科普:舆情挖掘的背后】

中文版 ” 品牌舆情图 “设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 …个人分类: 立委科普|1815 次阅读|3 个评论

【17】【科研笔记:big data NLP, how big is big?】热度 1 李维 2012-10-31 19:03Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo …个人分类: 立委科普|967 次阅读|1 个评论

【18】 【立委科普:自动民调】热度 3 李维 2012-10-19 02:33

Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 …个人分类: 立委科普|1530 次阅读|3 个评论

分享【19】 【研发笔记:粤语文句的情报挖掘】热度 4 李维 2012-9-28 07:50

【研发笔记:粤语文句的情报挖掘】

在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 …个人分类: 立委科普|2167 次阅读|4 个评论

【20】2011 信息产业的两大关键词:社交媒体和云计算李维 2012-2-1 16:45我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, …个人分类: 立委科普|1170 次阅读|没有评论

【21】社会媒体比烂,但国骂隐含舆情热度 3 李维 2012-3-20 03:59本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 …个人分类: 立委科普|978 次阅读|3 个评论

【22】立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷热度 3 李维 2012-5-1 13:59词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 …个人分类: 立委科普|1585 次阅读|4 个评论

 

分享【23】比起英语,汉语感情更外露还是更炽烈?李维 2012-4-28 04:29Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 …个人分类: 立委科普|1158 次阅读|没有评论

【24】社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?热度 1 李维 2011-11-22 14:23“三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 …个人分类: 立委科普|1630 次阅读|1 个评论

 

分享【25】科研笔记:开天辟地的感觉真好李维 2011-10-30 01:40刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 …个人分类: 立委科普|1262 次阅读|没有评论

【26】《科普随笔:机器八卦》李维 2011-10-14 17:09机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 …个人分类: 立委科普|863 次阅读|没有评论

【27】言多必露,文本挖掘可以揭示背景信息热度 1 李维 2011-7-11 01:03言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X — X (student, t …个人分类: 立委科普|939 次阅读

分享【28】《立委科普:机器八卦》李维 2009-12-23 06:45机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 …个人分类: 立委科普|5095 次阅读|没有评论

【29】《朝华午拾:信息抽取笔记》热度 1 李维 2009-12-12 08:33《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 …个人分类: 立委科普|2071 次阅读|

【30】【立委科普:信息抽取】热度 1 李维 2009-12-12 08:35【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 …个人分类: 立委科普|3013 次阅读|4 个评论

分享【31】【立委论大数据博文汇总】草稿李维 2014-1-12 01:28为准备一个大数据的书面发言,今天把自己过去两年在科学网【 立委科普 】和【 社媒挖掘 】专栏里发的有关大数据的博文扫了一遍,共计篇,洋洋洒洒 言。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。 【立委论大数据博文汇总】 立委科普 | 编辑 …个人分类: 社媒挖掘|没有评论

 

分享【32】“大数据与认识论”研讨会的书面发言草稿李维 2014-1-11 19:27【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。上次愚人节应中文信息学会邀请在软件所做了一个题为【】的演讲,科学网编辑还特 …个人分类: 社媒挖掘|没有评论

 

分享【33】【大数据挖掘:微信(WeChat)】热度 1 李维 2014-1-8 19:26上帝给人类的礼物,一软一硬两个。硬的叫 iPhone(爱疯) ,软的叫 微信(英文品牌叫 WeChat) 。 都是颠覆世界,改变我们生活的移动互联网杀手产品,一旦用上,就让人离不开。 即便是上帝的礼物,也仍然会有人抱怨。因为有抱怨,才会有进步和升级。有朋友在微信团队,都是特别精明虎虎生气的年轻人,说,你给我们 …个人分类: 社媒挖掘|541 次阅读|1 个评论

 

分享【34】【大数据解读:方崔大战对转基因形象的影响】热度 3 李维 2014-1-7 06:29据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。 下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度 (mentions) 一年的趋势 …个人分类: 社媒挖掘|327 次阅读|3 个评论

 

分享【35】 【大数据挖掘:方崔大战一年回顾】(更正版)热度 17 李维 2014-1-6 09:12对博文 【大数据挖掘:方崔大战一年回顾】 2014-01-05 的 更正是: 去了“苦逼小崔” (白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude) ,加了中文 繁体 。 (调查时间比前一次也后了一天。) 本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twit …个人分类: 社媒挖掘|2300 次阅读|20 个评论

 

分享【36】【大数据挖掘:转基因一年回顾】热度 2 李维 2014-1-6 05:42转基因大战提升还是损害了转基因的网络形象? 日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 ),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 …个人分类: 社媒挖掘|439 次阅读|2 个评论

 

分享【37】【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】热度 2 李维 2014-1-6 00:54Re: 你的软件有bug。 5-7月,崔永元主要在忙公益基金的事情。 当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。 上篇挖掘 崔方大战一年的形象变化曲线 ,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in …个人分类: 社媒挖掘|454 次阅读|2 个评论

 

分享【38】【大数据挖掘:方崔大战一年回顾】热度 4 李维 2014-1-5 18:11以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。 据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。 挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与 …个人分类: 社媒挖掘|439 次阅读|9 个评论

 

分享【39】【大数据挖掘:中国红十字会的社会媒体形象】热度 1 李维 2014-1-4 20:27在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往 …个人分类: 社媒挖掘|325 次阅读|1 个评论

 

分享【40】 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】热度 6 李维 2014-1-3 20:12中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢? 终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。 这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面 …个人分类: 社媒挖掘|1235 次阅读|7 个评论

 

分享【41】【大数据挖掘:转基因英文网络的自动民调和分析】热度 3 李维 2014-1-3 18:23前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。 …个人分类: 社媒挖掘|485 次阅读|3 个评论

 

分享【42】预告:转基因过去一年社会媒体口碑的自动民调正在进行中李维 2014-1-3 06:21将公布细节,先把 summary 发布如下:个人分类: 社媒挖掘|262 次阅读|没有评论

 

分享【43】 只认数据不认人:IRT 的鼓噪左右美国民情了么?热度 3 李维 2013-12-30 06:27套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》 当然,还有上帝: In God We Trust. In everyone else we need data. 大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也 …个人分类: 社媒挖掘|918 次阅读|10 个评论

 

分享【44】 大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》热度 7 李维 2013-12-26 22:30走进“大数据”——洗衣机寻购记(上) 长城战略咨询 2013-04-05 阅读次数:529 分享到: 前 言 当我们准备购买一件商品的时候,品牌、功能和价格等都是我们需要考虑的因素。然而,当我们面对琳琅满目的货架,众多的品牌和多种多样的功能组合时,又让我 …个人分类: 社媒挖掘|949 次阅读|7 个评论

 

分享【45】 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么热度 13 李维 2013-12-26 02:25既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。 这次挖掘仍然是最近一个月的英文社会媒体,区间为: GM food, 11/25/2013 – 12/25/2013 Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?): GM food genetically modified transgenic transgene geneti …个人分类: 社媒挖掘|1827 次阅读|11 个评论

 

分享【46】 关于转基因及其社会媒体大数据挖掘的种种问题热度 12 李维 2013-12-25 07:55没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】 ),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意 …个人分类: 社媒挖掘|1264 次阅读|13 个评论

 

分享【47】 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】热度 48 李维 2013-12-24 06:47从英文社会媒体对 转基因食品 大数据 调查 显示,其 评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。 但褒贬双方的激烈程度(passion 指标为零)远不如国内。 这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。 …个人分类: 社媒挖掘|11191 次阅读|66 个评论

 

分享【48】Social media mining: Teens and Issues李维 2013-9-9 21:36As is well known, the teenager years are a special and important period of growth for children, or young adults, to be more precise. It is growing pain, mixed with joy. It is often a rebellious phase when both parents and teens find it difficult to communicate with each other. Thi …个人分类: 社媒挖掘|542 次阅读|没有评论

 

分享【49】【微博自动民调:薄熙来、薛蛮子和李天一】热度 2 李维 2013-8-30 09:33Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and w …个人分类: 社媒挖掘|898 次阅读|2 个评论

 

分享【50】池鱼失火,殃及城门:USC 足球队拖累 USC热度 2 李维 2013-8-16 23:27写了两篇舆情挖掘博文,言之凿凿说 USC (南加大) 口碑不好,因为民间舆论认定它 overrated,名不副实。有网友指出: USC跟UCLA的mentions大部分都是在講football, 譬如說overrated大部分是指football team從preseason no.1掉到unranked這件事….. 我老外了不是?从来不懂不看美式足球,于是向女儿求证,女儿看了 …个人分类: 社媒挖掘|927 次阅读|3 个评论

 

分享【51】【社媒挖掘:加州大学舆情详析 UCLA/UCSD vs USC】热度 1 李维 2013-8-16 17:17加大(UCs)是美国有名的公立大学系统,尤其以加大伯克利(UC Berkeley)最为国内所称道。其实,加大洛杉矶分校(UCLA)也很有名,几乎与伯克利比肩。而加大圣地亚哥(UCSD)一般认为是加大的老三,据说学生过得蛮开心轻松,不象伯克利洛杉矶那么紧张,周末就驱车去墨西哥喝酒派对。最有意思的是,加大圣地亚哥在上次社交 …个人分类: 社媒挖掘|790 次阅读|1 个评论

 

分享【52】 【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】热度 3 李维 2013-8-14 07:40今天一到办公室就被我们开发的舆情挖掘系统告知(alert),最近两天必胜客热议度急升(八月9日开始,今天为最)。是不是有什么特别事件发生? 前一阵子,他们出过一次“虾球广告”的公关危机,系统也及时发现了(参见 【社媒挖掘:大数据时代的危机管理】 ),幸亏他们处理及时,道歉诚恳,把事态平息了。今 …个人分类: 社媒挖掘|2619 次阅读|3 个评论

 

分享【53】【自动民调:美国五所超级牛校(俗称 Magic 5)人气排名】热度 3 李维 2013-8-13 20:12接着练,看一看英文社交媒体与中文社交媒体对这五所超级牛校的人气排名是怎样的: 有意思的是,中文社交媒体的口碑普林斯顿最末;而英文媒体 普林斯顿(Princeton) 却高高在上,明显高过其他四所,虽然这所学校的中英文热议度都不如其他学校。而哈佛排名英文最末,中文也倒数第二,没想到啊。 中文口碑排名: 1 …个人分类: 社媒挖掘|935 次阅读|3 个评论

 

分享【54】【自动民调:美国名牌大学人气排名】热度 1 李维 2013-8-12 16:46For the first time, the automatic survey of social media 1-year archive on some US brand name universities shows the rankings as follows, which are quite different from official ranking (Harvard and Caltech accidentally not included): 1. UCSD; 2.Chicago; 3. UPenn; 4. Carnegie Mellon …个人分类: 社媒挖掘|794 次阅读|1 个评论

 

分享【55】 【社媒挖掘:大数据时代的危机管理】热度 2 李维 2013-6-28 19:46写下标题,突然意识到,这怎么看上去像是科学网超级名博陈安博士的卖瓜课题。陈博士,对不起了,不是抢您的风头,也不是砸您的饭碗,是纯粹撞车了。不是冤家不撞车,一来二去,保不定您就成了我的客户呢,也未可知。 Anyway,话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话 …个人分类: 社媒挖掘|2555 次阅读|2 个评论

 

分享【56】 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀热度 4 李维 2013-6-21 03:18【研发笔记:粤语文句的情报挖掘】 实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。 首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人 …个人分类: 社媒挖掘|2144 次阅读|7 个评论

 

分享【57】舆情挖掘用于股市房市预测靠谱么?热度 1 李维 2013-4-18 21:24Can social media sentiment mining be used for predicting stock/property market? I tried our Chinese system for that and it proved to be right. Is that pure luck or there is some value in using public opinions and sentiments to assist prediction of markets? 作为技术展示,曾经用中文社交媒体的舆 …个人分类: 社媒挖掘|605 次阅读|1 个评论

 

分享【58】【舆情挖掘:房市总体看好】李维 2013-4-17 16:44回国期间我现场展示系统,问热点话题,有人说查查“房市”吧 于是我搜索了房市,无论是简体还是繁体的社交媒体,发现舆情指向都是“看好”两个大字主宰,就跟我上回查询A股类似(见 【『科学』预测:A-股 看好】 )。 因此目前似乎仍然是投资房市的好时机。 国内形势也很不错 …个人分类: 社媒挖掘|735 次阅读|没有评论

 

分享【59】愚人节大数据演讲 无片无真 移山愚人热度 10 李维 2013-4-2 05:42就是累 累滩了 作者: 立委 (*) 日期: 04/01/2013 15:26:05 昨晚没怎么睡觉 准备 slides 讲演的 还有会谈的 再加工 讲演还好 时间是卡住了 qa 也有时间了 就是我本来是希望轻松搞笑一些的 结果还是自我感觉太严肃枯燥了些 感谢软件所孙教授,还有各位的光临 科学网四剑客,包括女侠迟菲等前来捧 …个人分类: 社媒挖掘|957 次阅读|10 个评论

 

分享【60】【社媒挖掘:第一夫人光彩夺目赞誉有加】热度 2 李维 2013-3-25 21:03也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞 …个人分类: 社媒挖掘|1066 次阅读|2 个评论

 

分享【61】 【社媒挖掘:“剩女”问题】热度 9 李维 2013-3-4 16:00

【社媒挖掘:“剩女”问题】

今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女 …个人分类: 社媒挖掘|4061 次阅读|10 个评论

 

分享【62】《大数据时代的购物策略:洗衣机寻购记(3)完结篇》热度 1 李维 2013-3-3 05:30

 

Maytag Maxima 4.3 cu. ft. High-Efficiency Front Load Washer with Steam in Granite, ENERGY STAR Model # MHW7000XG 989.10/EAEachWAS989.10/EA−EachWAS1,399.0 0 LG Electronics 4.0 cu.ft. High-Efficiency Front Load Washer in Graphite Steel, ENE …个人分类: 社媒挖掘|943 次阅读|2 个评论

 

分享【63】《大数据时代的购物策略:洗衣机寻购记(2)》热度 3 李维 2013-2-25 22:41洗衣机的选择:top loading 抑或 front loading? 作者: 立委 日期: 02/24/2013 23:35:39 本来我们是要放弃 front loading (镜先生考证,国内叫滚筒式)洗衣机,去选更容易清洁的 top loading (国内称作 波轮式 )的。可是如今大数据了,领导还是要看看二者的优劣,听听用户都怎么选择的。 于是挖掘 …个人分类: 社媒挖掘|1067 次阅读|4 个评论

 

分享【64】 《大数据时代的购物策略:洗衣机寻购记(1)》热度 8 李维 2013-2-25 21:07ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With …个人分类: 社媒挖掘|1996 次阅读|10 个评论

 

分享【65】【社媒挖掘:社会媒体眼中的陳水扁】草稿李维 2013-2-24 07:09系列最后个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【66】【社媒挖掘:社会媒体眼中的李登輝】草稿李维 2013-2-24 07:08个人分类: 社媒挖掘|2 次阅读|没有评论

 

分享【67】【社媒挖掘:社会媒体眼中的臺灣綠營大佬】草稿李维 2013-2-24 06:33除了在民眾輿論已經貶出局的在押阿扁外,民進黨大佬主要包括蔡蔡謝蘇(蔡英文、謝長廷、蘇貞昌),下面就看看社會媒體對這三位綠營大佬毀譽如何。 Cai COns CaiXieSuLEE LikesDislikes contr …个人分类: 社媒挖掘|1 次阅读|没有评论

 

分享【68】【社媒挖掘:馬英九施政一年來輿情晴雨表】热度 2 李维 2013-2-23 20:07【 馬英九施政一年來輿情晴雨表 】 看點及分析: (1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會 …个人分类: 社媒挖掘|567 次阅读|2 个评论

 

分享【69】【社媒挖掘:臺灣政壇輿情圖】热度 2 李维 2013-2-23 08:58今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他 …个人分类: 社媒挖掘|691 次阅读|2 个评论

 

分享【70】【社媒挖掘:社会媒体眼中的米拉先生】热度 2 李维 2013-2-20 19:42

【社媒挖掘:社会媒体眼中的米拉先生】

免责声明:此片纯属戏作,敬请对号入座。 江湖上盛传的米拉先生生活素颜照 (1)先看概览,总体得分不坏嘛,20有1,是正能量,不独跌入 18层冰窖的小方 没法 望其项背 ,比 零度以下的开复老师 和韩少也强远啦: (2)网虫对镜子的情绪呢? &nbs …个人分类: 社媒挖掘|630 次阅读|2 个评论

 

分享【71】【社媒挖掘:社会媒体眼中的李开复老师】热度 5 李维 2013-2-19 17:55

【社媒挖掘:社会媒体眼中的李开复老师】

据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公 …个人分类: 社媒挖掘|1026 次阅读|5 个评论

 

分享【72】 【舆情挖掘:2013央视春晚播后】热度 3 李维 2013-2-15 04:50

【舆情挖掘:2013央视春晚播后】

春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从 …个人分类: 社媒挖掘|1632 次阅读|4 个评论

 

分享【73】【舆情挖掘:年三十挖一挖央视春晚】热度 3 李维 2013-2-11 01:32【舆情挖掘:年三十挖一挖央视春晚】 日期: 02/09/2013 20:25:02 说不完道不尽的央视春晚。 一台节目三十多年来一直成为亿万人民过 年的大餐兼热门话题,这是人类历史上少有的文化现象。众口难调,央视春晚遭到批评指摘与其受到的赞扬和热议一样多。今年有了自己制造的工具,决定挖掘一下社会媒体对于春晚的舆论。 …个人分类: 社媒挖掘|671 次阅读|3 个评论

 

分享【74】 【社媒挖掘:美国的枪支管制任重道远】热度 9 李维 2013-2-6 09:39

【社媒挖掘:美国的枪支管制任重道远】

美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥 …个人分类: 社媒挖掘|1392 次阅读|13 个评论

 

分享【75】【社媒挖掘:《品牌舆情图》的设计问题】热度 3 李维 2013-2-3 00:57

【社媒挖掘:《品牌舆情图》的设计问题】

镜子先生在我的【社媒挖掘】专栏留言道: 褒贬度可以用别的颜色。 博主回复(2013-2-2 23:45) : 什么颜色好呢? 烈度用红色没问题。 褒贬在我们其他的图示中,是绿褒红贬。 不知道红色和绿色混合的颜色是什么(后注:黄色嘛,真是老糊涂了),可不可以用? 于 …个人分类: 社媒挖掘|594 次阅读|9 个评论

 

分享【76】 【社媒挖掘:外来快餐店风光不再】热度 7 李维 2013-2-2 08:57

【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald’s, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald’s …个人分类: 社媒挖掘|1858 次阅读|9 个评论

 

分享【77】【社媒挖掘:中国手机市场仍处于战国争雄的阶段】热度 1 李维 2013-1-31 15:51

Chinese mobile phone market is found to be still in the stage of multiple vendors competing with each other with no single one clearly ahead of others. Even Apple iPhone is on a par, in terms of net sentiments and consumer passion, with HTC, Samsung, Nokia and Chinese brand Xiaomi d …个人分类: 社媒挖掘|810 次阅读|1 个评论

 

分享【78】【社媒挖掘:糟糕透顶的方韩社会形象】热度 1 李维 2013-1-31 05:35

【社媒挖掘:糟糕透顶的方韩社会形象】

刚刚学会用图示来表达社会情绪(passion index),看看方韩一年来的总体社会形象吧,非常糟糕。 takeaways 1. 两人社会形象都相当负面,接近底线,小方更是过了冰点。事实上,小方的负面评价是如此之多,与其正面评价完全不成比例,以至于如果严格按照净情绪(net-sentiment,即正面减去负面的一个情绪指标,作为 …个人分类: 社媒挖掘|587 次阅读|1 个评论

 

分享【79】【社会媒体:现代婚姻推背图】李维 2013-1-11 05:23

【社会媒体:现代婚姻推背图】

立委按:哈,【 爱情推背图 】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【 社会媒体:现代婚姻推背图 】。 【大众心理探究:婚姻】 日期: 01/09/2013 16:39: …个人分类: 社媒挖掘|903 次阅读|没有评论

 

分享【80】 【社会媒体:现代爱情推背图】热度 8 李维 2013-1-10 08:31

【社会媒体:现代爱情推背图】

【大众心理探究:爱情】 日期: 01/09/2013 16:39:34 所挖掘的数据源:社会媒体过往一年(博客、论坛等) 爱情(简体)被提及三千万多次;繁体被提及 50多万次 繁简体的分别调查可以透露出大陆社区与台湾社区对待永恒话题“爱情”的有所不同的社会认知。 1. 爱情的关系概念 要点: …个人分类: 社媒挖掘|3793 次阅读|9 个评论

 

分享【81】【微博不进门,真地急死人:关于南周事件】李维 2013-1-8 10:32不行不行,data 不够,最近一周提及南周才1万多次,没多少褒贬 什么时候微薄进来了,我就可以追踪任何热点了。 如今国内南周闹得沸沸 扬扬,我们系统中从海外 twitter 等及时更新的数据看,还没多少讨论 从这最近一周(元旦到一月八号)的数据挖掘看,主题事件(theme)倒是可以看出了 我的 中国梦& …个人分类: 社媒挖掘|991 次阅读|没有评论

 

分享【82】【社媒挖掘:社会媒体眼中的财政悬崖】李维 2013-1-2 11:00

RE: What do these tell us more than we’ve known already? very good question: however, if it is known info, it confirms its validity 日期: 01/01/2013 11:11:49 it builds the users’ (and developers’) confidence in the automatic summerization of the computer processing of t …个人分类: 社媒挖掘|644 次阅读|没有评论

 

分享【83】Social media mining: 2013 vs. 2012李维 2013-1-1 16:08

Let us have a look at the past year 2012, which is more associated with the hardest year in people’s mind than a good/best year.个人分类: 社媒挖掘|838 次阅读|没有评论

 

分享【84】新年新打算:【社媒挖掘】专栏开张大吉热度 2 李维 2012-12-30 04:37

 

社会媒体印象(词云) 【立委按】我有一位很谈得来 …个人分类: 社媒挖掘|747 次阅读|2 个评论

 

分享【85】【科学技术之云】李维 2012-12-29 17:55

【科学技术之云】

老朋友来函: “ 李维老师您好。社会媒体测试很有意思,我是科盲不太了解其机理,能否测试一下科学、技术等关键词,我想会有很有启发性的。谢谢。 ” 其实,我们做社会舆情自动监测挖掘的,主要是服务于企业客户对品牌形象的情报需求,着重了解客户对于品牌/产品的褒贬评价。延伸下来,也可用于热点话题的追踪以及公众人 …个人分类: 社媒挖掘|746 次阅读|没有评论

 

分享【86】新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】热度 1 李维 2012-12-29 16:22

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【五】 方舟子和韩寒,谁的名声更臭? 关于方韩,以前做过较小规模的社会媒体测试 ( 方寒大战高频情绪性词的词频分析 ; 方韩大战的舆情自动分析:小方的评价比韩少差太多了 ), 年终了,该是扩大规模给这两位互联网枭雄盘点一下社会形象的时机了。 需要说明的是,这次的测试规模虽然较大,但是社会 …个人分类: 社媒挖掘|863 次阅读|1 个评论

 

分享【87】新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】热度 1 李维 2012-12-29 15:11

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国 …个人分类: 社媒挖掘|952 次阅读|1 个评论

 

分享【88】新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】热度 1 李维 2012-12-29 13:25

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

【三】 舌尖上的中国 美食纪录片《舌尖上的中国》把国人的食物和文化唱红到全世界。中国美食很火、很美。 最大的特点你猜猜是什么?不是辣,不是甜,而是 酥!个人分类: 社媒挖掘|613 次阅读|1 个评论

 

分享【89】新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】李维 2012-12-29 13:12

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

【二】 林书豪 / 林書豪 林书豪刮起的林旋风是2012一大热点,受到无数粉丝的相信、喜欢、支持和欣赏。 华人世界虽然以他的华裔背景而骄傲,他的最突出的特点却是美国人。 林书豪的伤病及恢复引起了广泛的关注。个人分类: 社媒挖掘|669 次阅读|没有评论

 

分享【90】新鲜出炉:2012 热点话题五大盘点之一【吊丝】李维 2012-12-29 12:57

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

【一】 吊丝/屌丝 吊丝男们向往的是 白富美 的 女神 ,嫉妒的是 高富帅 ; 女吊丝则向往的是 高富帅 ,嫉妒的是 白富美 。 吊丝的情绪最 为难 , 伤不起 。吊丝的印记是 注定孤独 , 哭 ,且 撸 。( 撸 何?how why? …个人分类: 社媒挖掘|732 次阅读|没有评论

 

分享【91】WordClouds: Season’s sentiments, pros & cons of Xmas热度 1 李维 2012-12-26 15:35

Most every hot topic coming to my mind these days, I will check our social media system to see how social media reflects it. Word clouds are intriguing vehicles to present the common social image. Most word clouds generated by other systems are based on statistics of keywords mentioned …个人分类: 社媒挖掘|804 次阅读|1 个评论

 

分享【92】圣诞社媒印象: 简体世界狂欢,繁體世界分享。李维 2012-12-26 05:27

圣诞社媒印象:简体世界狂欢,繁體世界分享。

狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折!个人分类: 社媒挖掘|687 次阅读|没有评论

 

分享【93】尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?李维 2012-12-14 15:41

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有 …个人分类: 社媒挖掘|1518 次阅读|没有评论

 

分享【94】社会媒体测试知名品牌百度,有惊人发现热度 2 李维 2012-12-13 08:54

社会媒体测试知名品牌百度,有惊人发现

今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post a …个人分类: 社媒挖掘|888 次阅读|3 个评论

 

分享【95】【凡事不决问 social:切糕是神马?】热度 1 李维 2012-12-5 03:14

【凡事不决问 social:切糕是神马?】

鼓捣出个中文系统,尽管只是个 alpha 版,处理对象也还很有限(微薄还没进来),但也自动分析了数不清的帖子,大体的舆论情绪还是可以客观反映吧。 于是,如今遇到任何事或物,不去维基,不去百度,先去问问自家的系统,看看此物(事)在公众中的 形象/印象 如何。 这不,最近流行【切糕】,不懂这个貌似家常食品的词 …个人分类: 社媒挖掘|815 次阅读|1 个评论

 

分享【96】【『科学』预测:A-股 看好】热度 1 李维 2012-12-4 13:37

【『科学』预测:A-股 看好】

有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续 …个人分类: 社媒挖掘|748 次阅读|1 个评论

 

分享【97】【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】热度 1 李维 2012-11-14 07:24

【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】

哈哈,终于把 fonts 弄对了,今天测试中文系统,iPhone/爱疯 的词云满漂亮嘛 日期: 11/13/2012 17:17:43 褒贬情绪词大体都抓对了啊,是不是? 同事看到我手舞足蹈,说:香槟呢?快上香槟! 放大一点儿看仔细:这是客户对iPhone的情绪 (绿色为褒,红色为贬,社会媒体的用语果然有特色哎 …个人分类: 社媒挖掘|720 次阅读|1 个评论

 

分享【98】奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。热度 1 李维 2012-10-18 15:54

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence 民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人 气曲线表明他几乎在所有议题上领先罗梅尼。 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经 济表现(6:55pm);二是批判他对中国不够强硬 …个人分类: 社媒挖掘|1209 次阅读|1 个评论

 

分享【99】社会媒体舆情自动分析:马英九 vs 陈水扁李维 2012-9-29 16:51Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对 …个人分类: 社媒挖掘|830 次阅读|没有评论

 

分享【100】方韩大战高频情绪性词的词频分析热度 3 李维 2012-9-21 06:49方 韩 大战高频情绪性词的词频分析 作者: 立委 (*) 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2% …个人分类: 社媒挖掘|1107 次阅读|3 个评论

 

分享【101】舆情自动分析表明,谷歌的社会评价度高出百度一倍李维 2012-9-8 20:32拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a …个人分类: 社媒挖掘|987 次阅读|没有评论

 

分享【102】方韩大战的舆情自动分析:小方的评价比韩少差太多了热度 1 李维 2012-9-8 20:11非常初步的有限范围试验表明,方韩大战(其实也没有真大战过,基本是小方的单方面攻击,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动, …个人分类: 社媒挖掘|1552 次阅读|1 个评论

 

分享【103】研究发现,国人爱说反话:夸奖的背后藏着嘲讽热度 1 李维 2012-9-8 19:45

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In thi …个人分类: 社媒挖掘|892 次阅读|1 个评论

 

分享【104】立委统计发现,人是几乎无可救药的情绪性动物热度 1 李维 2012-7-28 15:28立委跨语言统计发现,人是几乎无可救药的情绪性动物 作者: 立委 (*) 日期: 07/27/2012 12:58:29 最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要 …个人分类: 社媒挖掘|1152 次阅读|1 个评论

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-758230.html

上一篇:毛巾冻冰会断,为什么地上长的草冻冰不会断?
下一篇:留学资讯:美国牛排榜

 

3  曹聪 陈辉 tuner

发表评论评论 (1 个评论)

删除 回复 |赞[1]mirrorliwei   2014-1-12 08:03
有这样的汇总好。毕业时老师在祝词中说:竹子结实、长得快,都靠结点的功劳。这样的分类也是结点。各学会也可以把流行的话题汇总为会员们提供科研的方便。

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过(屏蔽留存)

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

屏蔽已有 4784 次阅读 2014-6-16 14:57 |个人分类:社媒挖掘|系统分类:科研笔记| 跨国公司, 沃尔玛, 挖掘, 社会媒体, Walmart

最近用自家产品做了一次关于沃尔玛的自动调查,总体来看,沃尔玛这个品牌似乎蛮受欢迎的,正面评价为主,褒贬指数达到正48,是相当不错了。指责抱怨也有,主要针对一些负面事件(狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等)。进一步挖掘(drill down)发现了令人惊奇的现象:好话大多是网民自发的评价,而挖掘出来的负面信息几乎一律出自国家新闻机构(CCTV等)的报道。社会媒体挖掘的本意是自动民调,了解客户对于品牌和产品的意见,正式新闻有机构或国家宣传的因素在,是应该加以区分的。可是目前,这种区分还做得不好,很多有影响的传统媒体的新闻被反复在社会媒体中转发传播,与民意混杂在一起。

Some further analysis and findings:

 

1.       The existing data are not very large (400k mentions a year), but the results make sense with decent data quality

2.       From geos stats, we know most data on Walmart come from China (dark color) instead of overseas sources

3.       From domains stats, the data actually include data from Sina Weibo (weibo.com) and Tencent Weibo (t.qq.com) although the data flow from these two important Microblog sources is not stable at this point.  Also the domains stats show that the major domains are all from China.  I know that Walmart is a very influential brand in China and has many stores in cities of China.

4.       The net sentiment 48% is fairly high, which is reflected in the emotions stats (data quality very good): big green fonts emotional terms include  放心 (piece of mind),喜欢 (like),乐 (happy),支持/推 (support),很好 (very good), 不错(not bad),成功 (success) etc.  The negative emotional words (in small red font) are not many, including  差劲 (bad),抱怨 (complain),不喜欢 (dislike),垃圾 (garbage),很一般 (very so-so: meaning not as good as expected).

5.       In the proscons word cloud, the likes include money-saving (省钱/便宜)and first-class service(服务一流); more interesting insights come from the dislikes, including (1) fake beef (using fox meat 狐狸肉事件); (2) recall (召回some product?); (3) cheating(欺诈);  (4) scandal(丑闻) etc.

6.       In order to drill down to see what negative incidents led to the above dislikes, the Walmart_con_sample shows some related sound bites which look like negative news on some incidents:  1st sound bite reports CCTV news on Walmart’s fake alcohol and fake meat (using fox meat) incidents;  2nd sound bite reports using fox meat to fake beef and donkey meat and using chicken to fake beef in the sold burgers at its Sam’s Club;  the third sound bite reports three incidents of Walmart at different times and its apologies, including using cheap frozen meat to fake organic green food; using cheap fox meat to fake beef; and its lack of quality control in importing low quality products for sale, having issued 200 permits within 7 years for disqualified products to be on shelf.

7.       Note that the above sound bites are selectively collected to show that our system can indeed capture detailed negative incidents of the brand in the media.  When I drill down, there are quite some duplicates in our sound bites (one bad news gets re-posted everywhere);  another thing is that the negative comments are not mainly from social media users, but from news (state-run news which get posted in social media too).

8.       Unlike the overwhelming positive terms in emotions word cloud and the summary, the behavior word cloud shows more or bigger negative behavior terms than the positive terms.  This is understandable because of the heavily reported incidents as shown above in the sample sound bites.    Eye-catching negative behavior terms include “revealed”(被曝), “take to court”/”being sued”(告上法庭); “closed”(关闭); “have to take off shelf” (下架)etc.

9.       From the above negative behavior terms, I drilled down to see more details in the sample sound bites below,  which is similar to the sample discussed in 6.  These two sound bites both come from negative news of Walmart, which originated from traditional news and got spread all over Internet.  

 

中国新闻媒体对美国的跨国公司的负面报道跟民意没什么关系,倒往往由某种国际关系的大气候所致。当年为了打压谷歌,硬是给谷歌搜索按上了黄色监管不力的莫须有的大帽子,无视国内的搜索、视频和很多其他网站黄色泛滥到令人发指的露骨程度。欲加之罪,何患无辞。

不仅如此,最近还听说,由于中美相互指责对方利用网络偷窃情报,IT 业关系恶化,以至于谷歌和苹果等公司在中国遭到进一步打压,连做学问的信息利器 Google Scholar 都被封杀了。造孽啊,城门失火,殃及池鱼。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-803837.html

上一篇:世界杯是全世界的热点,纵不懂也有义务挖掘一哈
下一篇:《李老夫子遗墨》主要编纂者何秀柏后人网上留言存录

 

10  武夷山 李世春 章成志 孙平 陈筝 周云圣 强涛 高建国 fumingxu bridgeneer

发表评论评论 (13 个评论)

删除 回复 |赞[10]davidli91   2014-6-17 13:17
唠叨几句个人意见,仅供参考:

博主回复(2014-6-17 02:07):对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音,技术手段终究可以对付。
……五毛因为只拿五毛,急工出糙活,应该有迹可寻的。反过来看,一个“有实质内容”的帖子,出自五毛的可能性极低。……
……一般而言,认证客户至少要顾及自己的信誉。 ……
=====================
“凡是程序自动做的噪音,技术手段终究可以对付。”—完全同意。
而后两点,有待商榷:
因为简单粗糙的五毛评论(读者还是可以区分一点的)给”雇主”带来的不是”美誉度”而是”毁誉度”,故此,做新媒体推广的广告公司中的招商文稿中往往会特别声明是“有实质内容”的,或由“大V”推广!当然,要价也高出了很多很多。
还有就是往往不是一次性集中发多少评论,而是一段时间内发多少篇等等,“定价规则”很灵活。

感觉做民调,要特别注意“沉默的大多数”,才不会走偏。

大数据<>高准确性(高可信)!

科学的做法应该是考虑样本群体与对象群体的差异才有意义,特别是在差异巨大时。
就拿大型超市而言,相信绝大多数顾客不会因为买到了一件低价的商品而去某个网络媒体给个好评(潜意识中大型超市应该低价?),只有有了矛盾,才会感到“店大欺客”,想去找个地方“说理”。因此,排除“官方噪声”,差评>>好评似乎应该是正常现象。
再拿所谓的“淘宝信用”来说,用真实的快递单(最有实质内容了)来刷淘宝店信誉已成了公开的“行业秘密”;因此,又有了“天猫”,“1号店”等等的诞生。

删除 回复 |赞[9]刘灵通   2014-6-16 17:09
李维老师,恕我愚钝,找不到线索… 最小线索都找不到。。。 
 回复  : 这就对了。这是科学网,探讨科学技术的地方。我只管技术,力求做全世界最好的技术。技术做出啥产品,产品卖得如何,无需我操心,更不用我广告。再说了,科学网这地儿,都是书生,能用得起高技术产品的,寥若晨星。

2014-6-17 01:461 楼(回复楼主)赞|回复

删除 回复 |赞[8]刘灵通   2014-6-16 15:59
“最近用自家产品做了一次” 请问李维老师,“世界杯是全世界的热点,纵不懂也有义务挖掘一哈”也是“自家产品”的杰作么? 那么这个“自家产品”能否给个线索让我了解了解.  
 回复  : 有意不做品牌宣传。不想让人觉得在做广告。
别处可以查到的。

2014-6-16 16:141 楼(回复楼主)赞|回复

删除 回复 |赞[7]davidli91   2014-6-16 15:42
[6]李世春  2014-6-16 15:36   
尖端课题,如何从大数据中剔除五毛的贡献?
=====================
确实不易,再多说一点点:
“单纯好评”的”单价”和”短文好评”的”单价”要差10倍左右。”雇主”也知道要”优质优价”的。 
 回复  : 对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音,技术手段终究可以对付。

而五毛则麻烦多了。如果人都区分不了谁是五毛,谁是良民,那么也别指望机器了。不过,五毛因为只拿五毛,急工出糙活,应该有迹可寻的。反过来看,一个“有实质内容”的帖子,出自五毛的可能性极低。怎么裁定“有实质内容”呢,信息论的指导可以帮助分类识别内容的丰富程度。这也是一条思路。

再一点,五毛由于工作的本性,是不可能成为认证用户的。在大数据条件下,也可以只采样认证客户的帖子,以确保不受水军五毛的影响。一般而言,认证客户至少要顾及自己的信誉。

2014-6-17 02:071 楼(回复楼主)赞|回复

删除 回复 |赞[6]李世春   2014-6-16 15:36
尖端课题,如何从大数据中剔除五毛的贡献?

删除 回复 |赞[5]davidli91   2014-6-16 15:30
[4]李世春  2014-6-16 15:26    楼下?
大公司也雇佣五毛?
============
五毛的主力“雇主”是财大气粗的主。不然,这个行业早死了。 
当然,“雇主”会和一个广告公司签一个XXX形象推广合同。 

删除 回复 |赞[4]李世春   2014-6-16 15:26
楼下?

大公司也雇佣五毛?

删除 回复 |赞[3]davidli91   2014-6-16 15:23
“好话大多是网民自发的评价”,  您知道发一个好评多少钱吗?大公司有公关部的。 

删除 回复 |赞[2]李世春   2014-6-16 15:21
这个吗?

天知地知你知!’

删除 回复 |赞[1]fumingxu   2014-6-16 15:13
怎么挖掘的?不明觉厉!

[转载]ZT:牛津大学王宁博士:大数据与有限理性(屏蔽留存)

[转载]ZT:牛津大学王宁博士:大数据与有限理性

屏蔽已有 3069 次阅读 2014-8-16 23:10 |个人分类:社媒挖掘|系统分类:人文社科| 大数据, 牛津大学, 股市预测, 有限理性, 王宁博士 |文章来源:转载

  • 大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。

  • 云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“信息孤岛”的问题?

  • 大数据又将如何提高我们决策的准确性,帮助我们更准确地预测未来?

牛津大学互联网研究院研究员王宁博士分享了《大数据与有限理性》。

大数据与有限理性

要生存还是要毁灭,这是个值得思考的问题,它道出了我们所有人一个共同的难题,就是选择,很多人都惧怕选择,有些人有选择恐惧症,特别是面对一些关于人生、事业、爱情这种重大选择的时候,我们往往看不清楚未来,算不清楚得失,不知道该怎么选,有时候非常纠结。上至一个国家的领导人,大政方针的制定者,再至很多公司的管理层,最后到普通的老百姓,选择可能都是每天需要面对的一个问题。

人类是如何进行选择的呢?早期的经济学家认为人类是理性的,这也就是亚当·斯密在《国富论》中论述的,市场是一只看不见的手,每个人在他个体利益最大化的同时也达到整个群体的利益最大化。然而经济学家可能往往都生活在理性的乌托邦中,当我们的脑科学家在解剖,打开人的大脑后,发现人的大脑是一个异常复杂的系统,是一个复杂性网络,它可能有上亿个节点,可能是迄今为止最复杂的一个系统,正是因为它的复杂性导致了人类很多的行动都是不可知的,也是不可预测的。所以,从另一个方面讲是非理性的。

我们今天讨论的可能是一个有限理性的理论,行为经济学理论,介于理性和非理性之间,人类的理性受制于很多外部条件的限制,最重要的外部条件就是信息,你获取到什么样的信息将直接影响到你所做的选择。

2013年4月23号黑客给Twitter发布了一条虚假信息,白宫有两次爆炸,奥巴马受伤,我们可以看到美国道琼斯指数在相同的时间段应声下跌近140点,这也可能是人类历史上第一次通过社交媒体影响到整个股市行情的崩盘。

信息会影响股市的走向。波士顿大学的一个研究团队分析了从2004年到2011年道琼斯指数走势跟谷歌趋势的相关性,每次股市剧烈的变化伴随而来的都是搜索量急剧的增加。

利用这个策略,他们设计了一个基于谷歌搜索引擎的交易策略,这个策略使用的一个关键词就是“负债”。这个交易策略很简单,当搜索引擎的数据量减少的时候,我们就可以买进下一个星期的道琼斯指数,当搜索量增加的时候,我们卖出下一星期的道琼斯指数。

我们可以很明显地看到蓝色的线是谷歌的交易模型创造的,如果套用这个交易模型,最终它的投资收益率是300%,你投资一块钱,最后能够收回三块钱。红色的线就是你买了这个指数之后一直放在那儿,实际上收益是非常低的。这证明搜索引擎,包括社交媒体的很多东西能够帮助人类做很多决定,也就是今天汤道生先生谈到的怎么利用大数据帮助人类做一些决定。

相同的研究还包括一篇发表在《自然》杂志的文章,关于面向未来的指数,它做的方式是利用搜索量,比如今年的搜索量,明年的搜索量和前年的搜索量。它用明年的搜索量除以前年的搜索量,未来的数据除以过去的数据,这个数据就是基于未来的指数。

通过相关的模型,我们可以发现这个基于未来的指数跟每个国家的GDP有很好的正相关性,从另一个方面讲,当一个国家的国民或者网民更加的偏向于搜索未来的东西,那这个国家的经济情况往往是比较好的。

2012年我跟牛津大学互联网研究院(OII)的一个同事马克一起做了一个基于英国洪水的可视化分析,可以看到在大家左手边的这个是英国官方气象局的一个降雨量的分析,而右边是我们把所有的相关时段内在Twitter里跟洪水相关的信息下载了之后分布到地图上。我们可以看到在一些洪水特别泛滥的地区,我们的图形跟英国的官方的图形有很好的吻合,但是有很多地方也是没有的,可能网上没有这种信息。但是好处是我们数据是实时的,能实时分析出洪水分布的情况,官方的数据可能要等到好几个星期以后。所以,社交媒体的很多数据能帮我们做一些自然灾害预防的决策。

2012年我们做过一个关于美国大选的分析方案,当时美国有两个候选人,罗姆尼跟奥巴马,我们把所有大选之前一个月的跟罗姆尼和奥巴马相关的Twitter上的信息都下载之后,按美国每个区的分布做成了一个可视化图。大家都知道美国的总统选举是选举人制度,就是根据每个州的投票所决定的,我们在美国大选之前已经明显的可以看出网上讨论奥巴马的要远远大于讨论罗姆尼的,基于此我们预言奥巴马的胜算更大一点儿,我们把提到奥巴马的数据和罗姆尼的数据进行对比,52.4%有关于奥巴马,47.6%有关于罗姆尼。下面是大选之后官方的数据,两个数据有很大的相似性。

当时我们这个结果发布出来以后,很多政治评论家都怀疑,说罗姆尼不可能赢得马萨诸塞州的选举。而且奥巴马赢得得克萨斯州的选举也是很多人预测不到的,但是最后结果证明我们的数据对这两个州的分析都是正确的。

Facebook做了一个关于社交网络中人的行为传播的实验,号称是迄今为止最大的一个实验,分析了六千万人的样本,也是美国大选期间,每个人投过票之后可以在Facebook上发布一个消息,Facebook的分析员把人的亲疏关系分成十等,数据越大证明你跟这个人越亲密,10就代表人跟人的关系非常亲密,我们可以通过这个图看到当亲疏关系增加,人跟人的影响力也是在增长的,越亲密它的传播跟影响就会越大。这样我们每个人做的决定,不但影响到你,有可能你这个决定还会影响到别人。比如我更加倾向于投奥巴马,有可能周边的人也更加倾向于投奥巴马。

之前谈了很多大数据的应用,都是很正面的东西,这里我想提两点,大数据研究的风险。

首先,第一个风险是数据的误读,谷歌流感的分析提的很多了,特别是牛津互联网研究院维克多教授《大数据时代》的开篇就以这个案例作为大数据成功应用的典型,但是我们仔细地看这个大数据分析,2012年和2013年之间这一根红色的线就是谷歌流感的数据,绿色的是美国官方疾病控制中心的数据。在2012年至2013年的6、7月份,谷歌流感的数据远远大于疾病控制中心的数据,所以,我们如果基于谷歌的数据做一些预判、风险的预防,有可能导致预判错误,有些网上的数据有可能是夸张地显示出了实际生活的一些情况。

另外一个例子,我们进行大数据研究时,很多学者都忽略了一个最根本的问题就是偏差的问题,这是我们今年发表的一篇文章,我们研究了三个不同的数据库,针对同一种关键词用不同的方法提取,最后我们得到三种不同的数据库。我们把这三个不同的数据进行比较,然后计算各个数据跟各个数据之间的相关性,我们发现这种相关性随着时间的流逝是有变化的,也就是说从另一个方面理解,当三个不同的学者在做一个同样的研究,有可能你用不同的方法,不同的数据采集方式,最后提取的数据不同。你再基于这种数据做出很多的结论,有可能这个结论到最后是有偏差的,而这个偏差是基于数据的,有可能蕴藏于你原始的数据之中。

我们人类在很长一段时间,因为互联网到现在也就几十年的时间,针对人类上千年的历史,人类在很长的时间处于信息稀缺的时代,我们很多决定的时候可能没有信息或者信息不够,就像今天汤道生讲的是一种近似于赌博式的方法,就像中国古代早期很多占卜的方式,没有什么好选择就去占卜、抽签或者利用龟壳的方式。大数据实际上对于人类做决定最重要的影响可能就是改变了这个现状。现在我们不是在一个信息稀缺的时代,而是在一个信息过剩的时代,我们每个人所有的行为模式、方法都会被映射到网上,不但你的,还有你朋友的,社交媒体的行为模式都被映射到网上,这个数据是源源不断的,我们不再担心数据不够,而更需要担心数据过剩的问题。

在传统的人类决策模型中,每个人做一个决定,这个决定转化为信息,它转化的方式更多的通过口传心授,比如你朋友买了一个什么东西,他告诉你,然后你去买,影响到你做决定。或者通过书本的方式,我们通过读书摄取之后转化成自己的知识,通过这个方式做决定,最后形成了一个反馈回路。但是大数据时代这个反馈回路可能要进行扩展。我们有了第二层外环的反馈回路,人类做决定之后,这些所有的决定都会被转化为数据,这就是我们所说的大数据时代,所有人的行为模式,各种各样的东西通过手机、无线互联网都会被转化为数据,这些数据通过大数据分析转化为信息,然后信息给相关的决策者,决策者通过这些信息做判断,这样形成另外一层的反馈回路,通过这种反馈回路的信息数据不停地循环,最后达到一个终极目的:会不会有可能通过机器取代人的位置,人类最大的一个难题可能就解决了,不是人去做,让机器去做很多决定。

谈到机器决定,现在用数据的模式让机器做决定也是非常热的一个话题,我们觉得机器做决定可能有三步走的方式。首先,第一步很明显,人自己做决定。而现在在大数据时代,更多的是人跟机器交互做决定,比如一些常规的决定,一些比较重复性的决定,都是通过机器来做,而人去做一些机器所不能做的决定。最简单的一个例子,你去信用卡公司买东西,你地址换了,信用卡公司会发现有可能是有人盗用你的信用卡,通过数据判断出之后他把这个信息转给一个接线生或者公司员工,这个员工会给你打电话,这就是一个典型的人机交互做决定的模式,人跟你谈完话以后决定到底是不是有人盗用你的信用卡,最后会不会有可能所有的决定都会让机器来做,今天时间有限,我可以在最后再跟大家讨论。

最后我想以一句话结束我今天的演讲,“数据是一种知识源,但是除非数据进行很好的组织加工,并按照正确的方式提供给正确的人进行决策,否则它就是一种负担,不是一种收益”。

==关于我们==

大数据实验室公众平台【ID:bigdata-lab】由资深大数据方向专业人士管理运营,观点聚焦于大数据领域,大数据实验室和顶尖的研究机构和诸多企业建立合作,并 汇聚了学界、商界、业界顶尖的智囊,为开拓者指点迷津。我们将精选大数据行业内最精华的文章或报告,汇聚专业精英,促进学习交流,互相提升思维的深度、广 度和高度。

大数据实验室致力于国内大数据领域投资,凡入选的初创企业将获得大数据实验室孵化基金提供的种子资金,将会有导师协助完善他们的商业模式,建立一个完整的核心团队,并进行初步的客户反馈和验证。感兴趣的创业团队或初创企业,可以通过以下方式与我们取得**。

感谢关注公众微信:bigdata-lab

也请推荐更多的朋友关注或添加!

**方式:

邮箱:contact@bigdata-lab.com

QQ:361993695

微信:shangjingfu_nus

网址:www.bigdata-lab.com

新浪微博:大数据实验室

也可直接在对话框内给我们留言并留下您的**方式。

来源:http://chuansongme.com/n/588516 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-820065.html

上一篇:是家具?还是家俱?这是个问题
下一篇:到底社媒曲线与股市曲线有没有、有多少相关度?

 

1  张云

两年来中国红十字会的社会媒体形象调查(屏蔽留存)

两年来中国红十字会的社会媒体形象调查

屏蔽已有 3948 次阅读 2014-9-21 18:27 |个人分类:社媒挖掘|系统分类:科研笔记| 形象, 中国红十字会, 社会媒体

让数据说话,让专家解读。这里提供的是数据的各个侧面,是全自动对社会媒体调查的结果,没有人工参与。

调查的是2012年七月至今两年多(27个月)社会媒体样本对中国红十字会的评价(因为微博数据的 cost 很大,不能选择全样本)。虽然其间出了很多负面新闻,但总体形象分 net-sentiment 41% 显得相当正面,这一方面说明其公关危机处理可能有成效,另一方面很可能是得益于红十字会本身的慈善任务及其天生光环(下面有分析)。

148,889           Mentions
45,866,471      Potential Impressions
41%                  Net Sentiment
16,454              Positive
6,831                Negative
47,405             Unique Authors

从话题热度看,2013年五月是个大高峰,今年八月是个小高峰。从舆情看,去年七月跌得很惨,九月到谷底,另一个低点是今年七月。

我们先把调查聚焦在前后两个高峰区段,看看前后舆情的变化。

第一个区间选在去年四月到九月。

第二个区间是 7/7/2014 – 9/13/2014

现在我们回到过去27个月的总体调查数据上来,下列的信息挖掘都是过去两年多的数据基础上,有别于上面的两个时间区间。

2 相关关键词和话题:

3 网民情绪

舆情分析的指标之一是网民情绪,从下图看,情绪方面很激愤,中国红十字会受到很多“谴责”和“质疑”,骂他们“狗血”和“太臭”。

4 行为方面的挖掘也很不利,这个组织的慈善体系被郭美美等一干事件“摧毁”了。那个看上去正面的“接受(最大量的捐款)” 行为,drill down 看在语境中也是负面的,讽刺这个慈善组织的老大得钱最多,可做得很差。

行为这项指标也不及格。那么为什么总体评价还是正面多于反面呢?那是因为下面的优劣指标的比例造成的。

5 优劣指标抓取的是喜欢或厌恶的具体理由,这一方面是东风压倒西风,绿多于红:

需要说明的是,红十字会作为慈善组织,从本性和使命上说,它有天生的光环。提到红十字会,最多报道的是他们的“救灾”、“捐赠”等善举。加上一些媒体公关的正面宣传,这就把批评意见压倒了。

仔细看正反优劣的舆情评价,发现表扬的都是它的日常工作和套话,而批评的却辛辣得多,“饱受争议”、“侵吞”、“渎职”、“一落千丈” 等等。这样看来,前面的总体形象指数是偏高了。

6 这次调查的网民地理分布:自然是国内为主,但世界各地的华人都有不同程度的议论参与

7 此话题网民的男女比例:还是男网友吐槽多得多

8 关于数据来源和分布:

其中主要论坛:

主要的部落格是

主要的新闻类网站

前面说过,最重要的来源微博由于数据代价的问题,无法加入,这是一个相当的遗憾。另外,新闻类比重过大,可能冲淡了来自草根网民的舆情。前者只要有钱就可以弥补,不是系统能力的问题,而是研究项目谁买单的问题。后者在数据量大的时候,可以很容易排除掉,或分别考察对比。其实还有一个地理区分的角度,海外与国内舆情应该分开,这个也容易。业余做这个调查,懒得花更多时间了。

9. 吐槽样本

索性再花点时间把郭美美事件及其对红十字会的影响的民意舆情调查一下吧:

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-829629.html

上一篇:Social media mining on credit industry in China
下一篇:全球社交媒体热议阿里巴巴上市

 

5  周健 武夷山 王秀玉 XuexingLu bridgeneer

发表评论评论 (5 个评论)

删除 回复 |赞[4]王秀玉   2014-9-30 12:25
这个报告用了大量数据,说明中国红会在这27个月来的努力是有数据可查的!

删除 回复 |赞[3]王秀玉   2014-9-30 12:17
   太好了!

删除 回复 |赞[2]XuexingLu   2014-9-21 19:57
官方不说实话, 你猜也是白猜

删除 回复 |赞[1]周健   2014-9-21 19:12
李老师的软件很牛啊,赞!什么地方可以了解你的软件的更多信息?
 回复  : 谢赞。官网不做广告,不谈生意。总之是不便宜,目前这个模式知识分子一般使不起(零散的小生意不做)。

2014-9-21 20:171 楼(回复楼主)赞|回复

社媒挖掘:央视的老毕(屏蔽留存)

社媒挖掘:央视的老毕

屏蔽已有 3138 次阅读 2015-4-9 16:57 |个人分类:社媒挖掘|系统分类:人文社科| 毕福剑

Chinese TV star Bi Fujian caught on tape privately insulting Mao, which triggered a huge political debate in social media between the leftist and the rightist.  China is presently stuck between post-Mao era entering modern society with limited speech freedom (at least on private occastions) and the totalitarian government inheriting Mao’s legacy, hence the regulatory pressure to the star himself suspending his job for 4 days. Bi’s speech would have made him sentenced to death or life in prison in Mao’s time.

这两天微信老有提到他,今晚美国中文电视也报道了,据说社会媒体闹翻天了,于是想到做个舆情自动调查。

本来是私底下对毛时代和毛本人的打趣开涮,没想到闹到了网上,加上这个话题对于左右两派的敏感性,一下成了热点。

下面是针对内容商给我们提供的一周简体中文社会媒体(可惜,不含微信:万能的微信,你什么时候在不侵犯隐私的情况下开放哪怕部分数据,好让民情上达周知?)的自动调查结果,用的是咱独家自然语言挖掘技术。

负面多于正面,老毕形象严重受损:

wow 够上纲上线的,倒退四十年,老毕有十个头也不够杀的:

一周的媒体热议曲线:

看一周褒贬度的图示如下,毕姥爷的社会媒体形象陡然下跌:

下面是一周的情绪烈度图,可见正反吐槽越演越烈:符合咱老中爱吵架的习惯

吐槽样本:

旗帜鲜明支持毕福剑!

你们可以继续喜欢毕福剑。

[哈哈] 毕福剑老好人?

旗帜鲜明支持毕福剑!

毕福剑没错

毕福剑快去死吧!

毕福剑, 骂的客观!

十分认真地支持毕福剑先生

立场坚定支持毕福剑!

毕福剑无罪

不喜欢毕福剑, 老流氓架势

鄙视毕福剑

毕福剑该死

毕福剑作死啊

支持毕福剑

毕福剑, 变化多端.

毕福剑火了!

毕福剑该出来道歉

感谢毕福剑敢于捅破了窗户纸

狗操的毕福剑, 去死吧

毕姥爷瞎说什么大实话

毕福剑交友不慎啊。

毕福剑为什么辱骂毛泽东?

毕姥爷叛国了·

毕福剑明天就死。

毕姥爷作死啊!

毕姥爷瞎说啥实话

应该引起重视, 坚决批判毕福剑。

支持毕福剑!

支持毕姥爷

央视的毕姥爷这下更火了。

毕姥爷威武

特别讨厌毕福剑

cctv就是仃办也不能再用毕福剑这样的流氓主持。

毕福剑此事定义准确!

毕福剑是民族英雄, 不畏强暴。

严惩辱骂毛主席的毕福剑

难道毕福剑真能一手遮天?

毕姥爷还是很有才的

毕福剑真的死了吗。

毕姥爷是在嫖娼吗

毕姥爷又火了一把

[哈哈] 毕福剑现象, 中央应该反思!

毕福剑言论不雅视频竟口无遮拦公然骂毛泽东

网上舆论因此哗然, 纷纷指责毕福剑当面一套, 背后一套。

毕福剑是真正男子汉, 正直中国人全支持他.

[哈哈] 毕福剑这样的党员在为谁歌唱!

毕福剑诋毁伟人和先烈必须严惩

[哈哈] 毕福剑的酒桌表演为什么不能容忍?

只怪毕福剑交友不慎, 好事者用心不良。”

这是毕福剑作死的节奏。

毕姥爷叛国了···

毕福剑并非第一次”惹事”。

不作死就不会死毕福剑原形毕露, 就是老兵里的垃圾。

毕福剑言论不雅视频, 竟口无遮拦公然骂毛泽东。

狗操的毕福剑, 被车撞死了。

我喜欢老毕

东北人支持毕福剑

开始支持毕福剑了

强烈要求央视开除侮辱谩骂毛主席的坏蛋毕福剑!

很喜欢毕福剑。

赞毕姥爷!

毕姥爷威武!

从此鄙视毕福剑……

从此鄙视毕福剑!

看来毕姥爷央视的饭碗堪忧。

[哈哈] 有人说毕福剑是酒后吹牛逼不必上纲上线。

毕福剑骂的太好了, 比我骂的有影响力。

喜欢这条评论毕福剑诋毁伟人和先烈必须严惩

话糙理不糙, 支持“毕姥爷”!

我还是觉得毕姥爷厉害来自QQ浏览器快速回帖

谁敢处分毕福剑必无好下场.

毕福剑的酒桌表演为什么不能容忍?

毕福剑嫖娼的日子不远了。

毕福剑公开侮辱人不用负责任吗?

面对公众人物毕福剑的信口开河你怎么看

毕福剑是媒体人的光辉榜样。

毕福剑侮辱领袖必遭鞭刑。

毕姥爷的形象瞬间伟岸起来。

毕福剑无罪, 发视频的应该重判

毕福剑, 死啦死啦的。

你毕福剑应该向全国人民谢罪…

毕福剑毕姥爷交友不慎遇人不淑, 被人陷害于不仁不义。

官媒: 毕福剑侮辱开国领袖应受公众的谴责图

央视大腕不能人模狗样毕福剑是媒体人的光辉榜样。

央视对毕福剑处理的越严重, 毕福剑的声誉就会越高;

毕福剑万岁, 万万岁.

 

资料来源:

【相关】

社媒挖掘:老毕私下辱毛事件再挖掘 2015-04-12

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-881109.html

上一篇:吐槽系列:企业的良心,消费者的鉴赏水平
下一篇:下周二在哈佛医学院应邀给个大数据挖掘talk

 

5  刘全慧 戴德昌 陈辉 yangb919 bridgeneer

发表评论评论 (4 个评论)

删除 回复 |赞[2]yangb919   2015-4-10 09:22
现在看来,此事很不简单 

删除 回复 |赞[1]yangb919   2015-4-9 17:08
倒退四十年,老毕成了老毙 
 回复  : 对于文明社会,这种私下调侃无论怎么过激根本就不是事儿。偷拍并散布的人才是别有用心的小人(据传有敌情?)。当然,这些调侃的确会触犯不少思想或感情停留在毛时代的人,引起反弹是必然的。

2015-4-10 07:241 楼(回复楼主)赞|回复
 回复  : 做个不甚恰当也不离谱的比较,当年璩美凤的性爱光碟也是如此,璩美凤本人的私生活被偷拍,本来不是事的璩小姐的私生活被不良记者刊物广为渲染传播。

2015-4-10 07:342 楼(回复楼主)赞|回复
 

社媒挖掘:老毕私下辱毛事件再挖掘(屏蔽留存)

社媒挖掘:老毕私下辱毛事件再挖掘

屏蔽已有 3570 次阅读 2015-4-12 00:22 |个人分类:社媒挖掘|系统分类:人文社科| 央视, 主持人, 毕福剑, 开涮

毕福剑事件持续发酵,今早起来再做一次中文简体社会媒体的自动民调,发现有些微妙的变化。

我把两天前的调查曲线图(区间是四月二号到四月九号)拷贝在下与现在做的(区间是四月四号到四月11号)做个比较。

(1)热度:

四月二号到四月九号媒体热度曲线图

四月四号到四11号媒体热度曲线图

(2) 媒体形象趋向:

褒贬曲线(net sentiment)对比发现毕姥爷形象大损后,四月九号到低谷,这两天又开始显著回升

怎么回事?公关道歉开始收效,还是右派群众(挺毕派)开始有效反击?

四月二号到四月九号媒体褒贬曲线图

四月四号到四月11号媒体褒贬曲线图

(3)情绪烈度变化图:最奇怪的是吐槽情绪本来越演越烈,两派互骂炽热化,居然从四月九号开始明显收敛,是网众重归理性,还是过激帖子被批量删除?

四月二号到四月九号媒体情绪烈度曲线图

四月四号到四月11号媒体情绪烈度曲线图

相关:

社媒挖掘:央视的老毕 2015-04-09

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-881701.html

上一篇:吐槽系列:企业的良心,消费者的鉴赏水平
下一篇:下周二在哈佛医学院应邀给个大数据挖掘talk

 

2  武夷山 bridgeneer

发表评论评论 (3 个评论)

删除 回复 |赞[3]huangnigang1   2015-4-12 04:01
史上第一个告密者:商纣王时代的崇侯虎

http://news.ifeng.com/history/minjianshuoshi/hemufeng/detail_2009_12/16/320005_0.shtml

删除 回复 |赞[2]huangnigang1   2015-4-12 03:14
武则天有一阵子禁止屠宰牲口。有个叫张德的右拾遗,因为喜得贵子,便违禁宰了头羊,宴请朋友同事。同事中有个叫杜肃的,吃了一顿之后就跑去向武则天告密。第二天朝会,女皇将杜肃的告密信交给张德,然后告诉他:卿今后请客,还是小心一点,那种前头吃了好酒菜一转身就去告密的小人,就不要请了。

删除 回复 |赞[1]eat   2015-4-12 01:56
还来啊,外松内紧,这阶段骟贴疯狂您没看到?那个当心小王爷暴怒了出去抓人杀了炖。