分类： 杂类

from：http://www.chenwangdesign.com/blog/2009/05/joe-wongs-letterman-show-script.html

当前推荐数：3 推荐人：庄世宇 yangb919 bridgeneer

发表评论评论 (2 个评论)

删除 |赞[1]wzx777 2016-5-5 14:35: 看了你很多博文，可惜依然不知道你的工作内容是啥？感觉非常复杂，和相对论有一比。巴菲特曾说【一句话说不清楚利润来源的公司】最好不碰。; 李维回复 wzx777 ：那就别碰。

2016-5-5 15:071 楼（回复楼主）

[转载]《旧文翻新：三伯父跨世纪的生死之恋》屏蔽

[转载]《旧文翻新：三伯父跨世纪的生死之恋》

屏蔽已有 1965 次阅读 2014-6-17 15:29 |个人分类:旧文翻新|系统分类:人物纪事| 世纪恋 |文章来源:转载

【立委按】这是一则感人至深的真实爱情故事，由张诗群以报告文学手法撰写，发表在《芜湖日报：真情版》（2009年八月18日）。张诗群文笔细腻流畅，值得欣赏。故事的主人翁是立委的三伯父及其初恋爱人。那是上个世纪40年代抗战之际，出身书香之家的三伯李敏生正值弱冠之年，英俊倜傥，才气过人。虽然那时李大家族日渐衰落，敏生的书生意气不减，是胸怀理想的热血青年。敏生由父母包办，与当地的名门望族谢家订了一门亲，未婚妻谢邦宁知书达理惠中秀外。自古以来，包办婚姻的当事人往往没有机会品尝爱情的甜蜜，更少有轰轰烈烈的爱情故事。可李敏生与谢邦宁的爱情则是异数。这对恋人情投意合，诗文唱和，生死两茫，爱情不朽，演绎了一场跨世纪的生死之恋，阅之令人动容。

共同的理想是他们爱情的基石。国难当头，李敏生决定加入了新四军抗日。谢邦宁对心上人的果敢行为又是自豪又是担忧，写道：“独自倚闺楼，怵欢心内揪。喜将雪国恨，痛定报民仇。勇猛为夫性，安全是妾忧。盼来年获胜，抵去夜常愁。” 三伯回信说：“儿女缠绵须要缓，江山美丽不能丢。他年高唱凯歌返，永抵春闺独怵愁。”

在信息爆炸快餐文化盛行的今天，这样的篇幅较长的真情文字很容易淹没在互联网大海里。因特别转载于此，与更多的朋友分享。希望将来某一天，有导演慧眼识珠，把这样凄美动人的爱情故事搬上银幕。

～～～～～～～～～～～

魂牵一世生死情

张诗群/文

2009年清明节是个阴雨天，繁昌县繁阳镇范冲村西边的一片山岗地浸润在连绵的细雨中。此时，一位高大儒雅的老人在一座新修不久的墓前久久站立，墓碑上方镶嵌着一张精致的烤瓷遗照，年仅17岁便已病逝的谢邦宁在相片上绽开美丽淡然的微笑。老人用感伤的眼神一遍一遍缓缓打量自己为她拟定的碑文：故妻李谢邦宁之墓。然而陪伴他的当地亲友们都知道，相片上的秀丽女子并非他真正意义上的妻子，老人却深情怀念了一辈子……

== 1、不曾见面的订婚 ==

1927年秋，李敏生出生于繁昌县旧县镇（今新港镇）小磕山一户书香门第，其父李应文曾留学日本明治大学，毕业归国后因时局动乱回乡办学，培养了一批知识青年，在当地是名噪一时的教育楷模和爱国名士。在严谨的家风和得天独厚学习环境的熏陶下，李敏生渐渐成长为聪慧灵敏又充满正义感的俊逸少年，李应文对他疼爱有加，期待李敏生早日成家立业，光耀门庭。
抗日战争爆发后，小磕山沦为敌占区，日军得悉李应文在当地的影响便对他进行抓捕，逼迫他出任繁昌县长，以配合日军对繁的统治。一天深夜，李应文乘机逃脱，连夜携家带口迁往他乡，继续在无为黑沙洲、横山等地设馆办学，这期间，李敏生跟随父亲一起过着动乱不宁的生活。

李敏生的姐夫佘之涛是父亲的得意门生，此时在范冲给一个姓谢的大户人家当私塾先生。谢家是繁昌有名的开明地主家庭，抗战初期为新四军供应过粮食和日用品，三支队副司令员谭震林和妻子葛慧敏当年曾在谢家的小洋楼里结婚居住。谢家的学生中，老二谢葆初家的长女谢邦宁最为优秀，不仅容貌出众，知书达理，而且多才多艺，思想进步。姐夫佘之涛特别喜欢这位活泼可爱的女学生，回家与岳父李应文商量，眼下战乱不停，祸福难测，不如给李敏生订门亲也算是早日了却一桩心事，如果谢家答应联姻，对两家来说都是锦上添花的事情。李应文对谢家的开明威望早有耳闻，加上佘之涛对谢邦宁的百般赞赏，自然十分高兴，催促佘之涛出面说合。

1940年春节，在姐夫和父亲的张罗下，双方家长互换了谢邦宁和李敏生的庚贴，按照当时的礼仪，给一对不曾见面的小儿女订下了终生。此时，李敏生刚刚14岁，谢邦宁也只有13岁，两人都懵懂年少，情窦未开，对订婚这件事并没有太多感受。

（年轻时的李敏生）

（李敏生与父亲女儿合影）

== 2、初相见，情意难舍 ==

1942年，谢邦宁以优异成绩考进了设在泾县的皖南名校安徽省第十二临时中学。因一直跟随父亲四处奔波而几次中断学业，1943年春，李敏生在姐夫佘之涛的建议下，被父亲送到繁昌县原马仁乡中心小学读五年级，这时，李敏生和谢邦宁带着几分神秘与好奇，开始了书信往来。两人虽然年幼，却都聪明伶俐，又受过很好的教育，书信格式都是诗词短章，文辞华美，情真意切。他们在信中互致问候，相互了解和鼓励，谈论理想和人生，很快，两颗年轻的心充满了对彼此的好感和对未来生活的美好向往，情感的幼芽开始萌动。

1943年，为抵制日伪办学，谢家与当时繁昌县的另两户名门望族共同出资，在中分村创办繁昌县初级中学，李敏生以名列前矛的成绩连跳两级，考入繁昌中学直接上初二。李敏生把这个好消息在信中告诉了谢邦宁，谢邦宁也非常激动，两人约定，利用暑假期间谢邦宁回家时在中分村见面。

这次相会是李谢二人一生中仅有的会面，它的美好和珍贵谱成了一曲凄美的绝唱，让李敏生一生都难以忘怀，一生为之心心念念。任凭时间消逝得多么久远，这份情感也从未在李敏生心中褪色消减。

7月的中分村绿野平畴，清风拂面，夏日山林的宁静柔美让两个青春无限的年轻人沉浸在纯真浪漫的情怀中。这是李谢二人的初次见面，此时的李敏生已长成一个挺拔英俊的小伙，谢邦宁也已出落成温婉美丽的女孩，乍一相见彼此都被对方的谈吐气质深深吸引。此刻他们才感觉到他们之间的婚约是多么幸福而美好的一件事，带着深深的喜欢和爱意，他们穿过中分村的山林田野，沐浴着阳光清风，聆听蝉噪鸟语，他们谈学习谈友情谈抱负，一切都如梦境般美好，一切都像天地未开般纯粹，眼中一切都是彼此的影子，两颗青藤一样年轻的心，盛满了幸福和爱情。

一连四天，从太阳还未露脸开始，谢邦宁就悄悄从家里出门，步行五里山路赶到中分村与李敏生相见，直到太阳落山一天星光，两人才依依不舍作别。四天中，在树下，在林荫道旁，爱情的甜美盈满了相会的分分秒秒。有一天，他们觉得言语再也无法表达彼此的情意，于是一路跑到县城，找到一家照相馆，肩并肩靠在一起照了一张合影作为爱情的见证（后来，这张合影也在行军途中遗失）。他们商定，等到抗日战争结束和大学毕业，他们将用婚礼来庆祝胜利，然后，要永远生活在一起。

分别时刻，两人都情不自禁泪流满面。1943年8月29日，李敏生在繁昌中学写下了离别时的情景：“伸手互拂泪不净，无言只有咽噎音。唯期早日清秋去，但愿及时腊月临。”他希望秋天早早过去，寒假快快来临。

但是，这一分别，竟是永别。后来李敏生才知道，这次相见也许只是老天爷的怜悯：在这个曾是自己未婚妻的女孩离开人世前，老天爷准许他见她一面，与她相识。他和她的缘分，只有四天。

（李敏生近照）

== 3、把她的牌位娶回家 ==

战争局势越来越严峻，学校已无法正常开课。日军的侵略激起了繁昌人的愤恨，1944年1月，在取得谢邦宁的同意后，李敏生加入了新四军皖南支队繁昌大队。谢邦宁在给李敏生的信中说：“独自倚闺楼，怵欢心内揪。喜将雪国恨，痛定报民仇。勇猛为夫性，安全是妾忧。盼来年获胜，抵去夜常愁。”李敏生深感谢邦宁喜忧参半的复杂心情，回信说：“儿女缠绵须要缓，江山美丽不能丢。他年高唱凯歌返，永抵春闺独怵愁。”充满了革命的理想主义和高昂的激情。

1944年4月，国民党川军144师投降日寇，繁昌成了敌占区。这年秋季开学，谢邦宁带着弟妹们去泾县第十二临时中学报名，但此时十二临中已满员，为了和弟妹们在一起，谢邦宁又带着弟妹去了附近的黄田培风中学就读。1944年12月，谢邦宁突患伤寒，同学将她辗转运送回家后，因为当时繁昌沦陷无法延医，经乡村郎中治疗无效后于发病的第二天去世。这一年，她刚刚17岁，正是花朵初开的年纪。一个对爱情充满遐想和憧憬的女孩，未及盛放便已凋零。

噩耗传来，仿佛惊雷击顶，李敏生彻底呆了。他不敢相信，也不愿相信，那么美丽那么纯洁那么让他深爱的谢邦宁居然已经永离了人世！他写道：“遥知卿病逝，山岳似崩倾。吾笨竟后殁，汝聪何早行？顿脚如锣响，捶胸若鼓鸣。断肠观遗照，洒泪忆昔卿。”声声血泪字字悲情，刚刚品尝到爱情甘醇的李敏生瞬间跌进了苦痛的深渊。

父亲李应文与李敏生商量，既然已经订婚，那么谢邦宁就是谢家的人，生不能作李家的儿媳，死也要进李家的祠堂。李敏生对父亲的仁厚充满了感激，他含泪采纳了父亲的建议。1944年底，李家的花轿吹吹打打地抬到了谢家，李敏生将谢邦宁的牌位虔诚地放置在花轿中，像迎娶新娘一样，将谢邦宁的牌位接回家，安放在李家的祠堂。面对着她的牌位，李敏生心潮翻滚，他深深地鞠躬，在心底一遍一遍诉说着他的思念和哀伤。仿佛，他所有的青春梦想都随着谢邦宁的离去而消逝了。

（永远青春的谢邦宁）

== 4、思念陪伴他转战南北 ==

谢邦宁去世后，李敏生一度异常消沉，为了离开这片伤心地，1945年，在父亲的建议下，他改名李若非，先后进入狮子山第二联立中学和无为县中国人民抗日军政大学第十分校学习，抗大毕业后，他被分到新四军七师政治部，之后，李敏生跟随部队戎马倥偬，转战南北。日本投降后，解放战争期间，李敏生一直在部队从事训练改造国民党被俘军官工作。军中征战艰苦卓绝，他先后经历过鲁南战役、莱芜战役、孟良崮战役、淮海战役、京沪杭战役等许多生死攸关的大战役。

战争的紧张激烈是可以让人忘却缠绵的回忆的，但是每当夜深人静，谢邦宁的身影就会在李敏生的眼前浮现，四天的相会场景无数次在他心头回放，他生命中最美丽的四天已成为李敏生一生永久的怀念，他写诗词纪念她，他一次次在梦里和她对话，醒来却是泪洒枕畔，惆怅满怀。1949年5月上海解放的第二天，李敏生站在原国民党上海港口司令部的大楼窗口，他看着马路上正在游行庆祝解放的大学生，不禁热泪盈眶。他想，如果谢邦宁还活着，以她的成绩一定考进了大学，她应该也会在他们的行列中，穿着学生裙，梳着齐耳发，挥舞着拳头高喊着口号，也许，她会回头向他展开甜蜜的微笑。想到此，李敏生悲伤得无法自持。

1950年6月，朝鲜战争爆发，11月，他随部跨过鸭绿江进入朝鲜，参加抗美援朝战争，27日，他和战友们在补给不畅、粮弹不足的情况下，冒着零下三四十度的严寒血战长津湖，以伤亡一万多人的代价歼敌近一万四千人，扭转了朝鲜战局。

1952年底，李敏生从朝鲜轮换回国，1953年2月，奉命与经亲友介绍并订婚的戈国秀完婚。戈国秀是李敏生的同乡，家境富裕，曾和李敏生一起在父亲的学馆里读过书，容貌俊美，温良贤淑，当时在县委组织部工作。戈国秀早就知道李敏生和谢邦宁的婚约，她十分同情两人的遭遇，也非常理解李敏生时常表露的忧伤心情。

婚后，李敏生和戈国秀育有三女一子，虽然长期两地分居，但彼此相敬如宾，产生了深厚的感情。1956年，戈国秀调到杭州市轻工业局任职，结束了夫妻两地分居的生活。1957年次女出生前，夫妻俩商定孩子出生后取名为“宁”，以纪念已经离逝13年之久的谢邦宁，后来，因李家亲属中有人同名，戈国秀对李敏生说：“敏”这个字是你与邦宁订婚和上学交往时用的名字，女儿就叫“敏”吧，对邦宁也是一种纪念。李敏生非常感动，妻子知道谢邦宁一直是他心中的隐痛，这么多年来，谢邦宁活在丈夫心中，也在她心中播下了种子。

1965年冬，李敏生转至合肥，在国防光学研究院从事激光反导弹工程的大气传输研究工作，从办公室副主任职务升至研究室主任、书记，直到1987年离休。

离休后，南征北战漂泊了半辈子的李敏生终于清闲了下来，他开始愈发思念起家乡。戈国秀提醒他说，打听一下邦宁的墓还在不在，回家后也好去看看。

掐指算来，离谢邦宁去世已近半个世纪。中间经历过文化大革命等许多波折，当年地主小姐的墓有没有遭毁，能不能找到，对此，李敏生已不抱太大希望。但是，几年后，反馈来的消息让李敏生激动难眠，谢邦宁的墓，居然还在。

（李敏生与妻子戈国秀及女儿合影）

== 5、她是他永远的妻 ==

2001年8月，戈国秀突发脑溢血去世，享年74岁。李敏生怀着沉痛的心情在繁昌老家为老伴选址安葬。而隔山相望的范冲村西，则安眠着自己的另一个亲人谢邦宁。生死两茫茫啊，回首这一生的际遇，想到爱人们此时长眠青山泉下，与他阴阳两隔，李敏生悲从中来。

祭拜完老伴，他又来到谢邦宁的墓前，看着那荒芜的坟茔，墓碑上是一串谢家侄儿的姓名，李敏生内心酸楚，想想自己儿孙满堂，谢邦宁却是玉殒香消，孤寒凄冷地长眠地下。几十年前那四天的场景又不断地浮现眼前，他仿佛又看见她清秀的面容，又听到她清脆的笑声。李敏生五味杂陈：她曾是他的未婚妻啊！他必须要为她做点什么，就算自己大限来临，也不会再有遗憾。

回家后，他找出他一直珍存的谢邦宁唯一的一张照片，拜访了合肥所有能做烤瓷照片的地方，但大多数都是与公墓捆绑订做，最后终于有一家馆所愿意单独给他做。不久，一张放大的烤瓷相片被镌刻在墓碑上方，墓碑正中是一行干净有力的行楷：故妻李谢邦宁之墓，落款是李敏生携子孙的名字。李敏生想，哪怕只是美好的愿望，他也要给她一个归宿。

2005年清明节，李敏生来到他给谢邦宁新修的墓前，他打开随身携带的一个包裹，在众人不解的目光中，取出一堆烤瓷碎片，他说那是之前烤瓷相馆给做坏了的毛坯，这都是邦宁的东西，我带来要一起埋在这里。他又取出一个小包，那是他自己的一缕白发，他说身体发肤受之父母，既然生不能陪伴她，那就剪下自己的头发寄托心意吧。

李敏生又来到当年和谢邦宁约会的地方，回首往事，往事如烟。中分村，北山岗，六十多年前，一个是青葱年少的英俊少年，一个是情窦初开的如花美眷，那四天的美丽，让李敏生用尽了一生的怀念去交换……

【采访手记】

从合肥采访归来，细读李老赠阅的诗词，不觉得竟落下泪来。李老与谢邦宁的故事，我恨自己没有能力写得更加贴近我的感动。一位半生征战跑马沙场的老军人，他本身的故事就是一部传奇，他的人生，甚至他的爱情，都与中国大半个世纪以来宏大的背景有关，所以，他的故事是凝重的。

走进李老的家刚说明来意，老人便说，我和她，只有四天。采访结束后我在想，四天和一生，这是多么奇异的一组时间概念。那四天，该有怎样刻骨铭心的心灵体验，该有怎样美好得无法忘怀的记忆？是的，现今的人们似乎越来越浮躁而功利，但是，看过李老的故事后请你相信，真情，其实一直在人间。

转载自《张诗群新浪博客》：[blog.sina.com.cn]

From sanbai

原载立委推荐：张诗群 - 魂牵一世生死情

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-804117.html

上一篇：世界杯是全世界的热点，纵不懂也有义务挖掘一哈
下一篇：《李老夫子遗墨》主要编纂者何秀柏后人网上留言存录

《旧文翻新：拿美国总统寻开心的华裔笑星黄西》屏蔽留存

《旧文翻新：拿美国总统寻开心的华裔笑星黄西》

屏蔽已有 3649 次阅读 2014-6-22 14:33 |个人分类:旧文翻新|系统分类:海外观察| 娱乐圈, 华裔笑星, 黄西

这位长相有些滑稽的人叫黄西（Joe Wong），在美国娱乐圈走红，他一上场，随便一句话，一个表情，甚至一个停顿，也会引起阵阵掌声笑声。他算是进入美国喜剧界的主流了，甚至被请到白宫去讲笑话。另一位北京侃爷出身的北美崔哥（Brother Sway）虽然也用英文讲过喜剧小品，譬如去咖啡馆讲中国功夫或者星巴克的笑话。但是崔哥比起黄西来，显得边缘化多了，主要还是在华人社区有些名气。黄西的演出有过非常宏大的场面，现场几千上万人，也曾出现在美国亿万观众的当红电视节目里，听众总是被逗得前仰后合。

黄西显然潜心研究过西方喜剧的路子，他的一鸣惊人是个异数。黄西的英语不纯正，但他深谙西方文化的幽默要素和喜好。除了东方面孔给人以新鲜感外，他非常懂得怎样向主流靠拢，譬如，美国人热衷谈性，有点类似于中国的成人笑话。黄西第一次上全美电视夜间节目 Letterman Show 的一开始就讲了个带色的笑话迎合他们的趣味，说他读到一个研究报告表明，性成熟的巅峰是18岁。他说，可我到了25岁才得知这一点（他是24岁从中国来美的）。他故意顿了一下，一脸茫然的样子，说，在我蜜桃最成熟多汁的时候，怎么就无缘被人咬一口呢？

"I read a report saying that a man reached their sexual peak at the age of 18, but I did not know this until I was 25. So the world would never know what a stud I was. Nobody took a bite out of this peach when I was ripe."

这个笑话暗喻东方的保守文化使得很多人生理成熟以后很久还不懂“人事”，比较西方的性早熟性开放，对比很强烈。引得老外笑到捧腹。

他接着以移民生活为题材讲笑话，说是为了公民入籍考试，他必须学习美国历史，其中一个问题是：谁是本杰明-富兰克林？

"Who's Benjamin Franklin?"

I was like; ahh... The reason our convenience stores get robbed?

And the second one was:

"What's the 2nd Amendment?"

I was like; ahh... The reason our convenience stores get robbed?

因为美钞百元大票上印有富兰克林的头像，他于是调侃说：富兰克林不就是我们商店被抢的诱因么？第二个问题：什么是宪法第二修正案？第二修正案保障的是公民持枪自卫的权利。他接着用完全一样的答案和语气调侃第二修正案，暗讽该案具有很强的副作用，使得美国枪支管制松散，暴力案件加剧。这类笑话没有深厚的文化背景是讲不出来的，很多涉及敏感话题。虽然美国是言论自由的大国，面对亿万观众，尤其是面对上层社会比如白宫的时候，其中的分寸拿捏也很重要。黄西做得非常好。当然名气到了他这个层次，后面的高参估计也少不了。

这是黄西在白宫的经典段子，值得反复咀嚼品味

黄西最出色的段子，我以为就是上面这则在白宫讲美国政治的段子。为此他精心准备了很久，非常经典，相信会作为保留节目流传下去。美国副总统拜登笑得很开心，奥巴马因故没有出席，也被黄西调侃了一番，暗示奥巴马因为害怕被他开涮吓得不敢来了。精彩之处比比皆是，比如下面几段就让人拍案叫绝，这是怎样的天才！

他先是当面拿副总统拜登开涮。他说，我来前就看过了副总的自传，现在当面见到了他本人。他看了一眼拜登，然后转向观众说，我不得不说，书上的拜登比他本人好太多了。这是讽刺他写自传过分美化和宣传自己。这种无伤大雅的玩笑，贵为美国第二号人物，也只能报以掌声。

话题也说到移民后代为什么要学双语。其实第一代移民由于深厚的祖国情结，尽管自己生活在两种文化的夹缝中难以进入西方文化的主流，却也不愿意看到自己的孩子完全“香蕉”化，于是特别强调对中国语言的学习（也因此全美各地的周末中文学校越办越红火），怕孩子失去中华文化的根儿在西方社会迷失自己。黄西却故意把双语学习的原因指向另一面，调侃美国。当儿子不喜欢学习繁琐的中文，问父亲为什么要他学中文？黄西的回答是：孩子，将来你如果做美国总统，你当然需要用英文来签署法令，可你也要用中文与你最大的债主中国谈判不是？

奥巴马不在场，黄西也不放过，一样开涮这位美国新总统。拿总统开玩笑是谐星到白宫表演的一个传统了。总统与演艺界明星一样，都是供大众娱乐的。黄西的诺贝尔和平奖的玩笑我开始觉得有些过分，但似乎并没越线，满场的政客名流一样欢声笑语。他说大家都批评奥巴马太过软弱，但是奥巴马还在同时指挥着两场战争啊，他们居然还授予他诺贝尔“和平”奖！没有比这个更操蛋的事了吧。他停顿片刻，说，唯一可以想到的比这个更操蛋的事就是，如果你拿了诺贝尔和平奖，你却转赠给军方（满堂大笑）。

后来他又开总统和副总统的玩笑，讽刺他们人浮于事，没有效率。他说，如果我当总统，我要用降低生产率的方式彻底解决失业问题，这样，一个人的活就让两个人来做，这就好比我们现在总统和副总统两人做同一份工作一样。他接着说在奥巴马当选总统前，他一直是个悲观主义者，感觉自己如此渺小，对社会毫无影响（does not make a difference，雁过不能留声的痛苦）。对他来说，人生就好象在黑暗冬夜的雪上撒了一泡尿，也许是有点儿影响，可是很难说有什么影响（ I felt that life is kind of like, pee into the snow in a dark winter night, you probably make a difference, but it's really hard to tell. (laughter)）。黑白混血背景的奥巴马的成功给了他这个新移民以希望。既然半白半黑 (half black half white) 都可以登上权力颠峰，自己是半不白半不黑（half not black half not white）的少数族裔新移民，也应该一样可以竞选总统。

最后黄西开始 mock 自己的总统竞选纲领，讲的都是政治热门话题，一样嬉笑拉扯皆成幽默。首先讽刺竞选口号往往都是华而不实的空架子，他说自己的竞选口号是 Who cares （爱咋咋，谁管你？其双关在他此前交代过自己的昵称就是 Hu，Hu cares，就是对选民保证他急大家所急）。请看这个段子的上下文：

You may be saying "Hey, what would be your campaign slogan?" You see, I spent ten years in the past decade (laughter) [20] oh you too? okay. (laughter) So I understand that American people are suffering, so my campaign slogan would be "Who Cares". (laughter)

他先说的是同义重复的废话 I spent ten years in the past decade，然后故意面对观众的反应说，哦，原来你跟我一样啊，一个 decade 中花费了十年，来观察美国的社会问题，因而深知美国人民饱受经济不景气的煎熬。然后转到这个 Who/Hu cares 的双关语口号来：表面上是我才不在乎美国人民死活呢，实际是突出自己救民于水火的的亲民形象。

几乎所有竞选中的热门话题都成为他的笑料。他说，为了争取先锋派年轻人的选票，他保证当选以后，不仅要使同性恋合法化，而且成为合法婚姻的必需形式（即，要让异性婚姻非法化）。他讽刺美国高达50%的离婚率，也故意反着说：我现在是结婚了，可婚前我犹豫了很久，我想，哇，多么可怕，有50%的婚姻会一直持续到老，挣脱不了。他说他有解决地球暖化的方案，就是把华氏改成摄氏，原来100度高温，眨眼间就降到了40度了。

黄西在表演过程中，非常注意细节。比如，他说成为公民以后，他立马把选票投给了奥巴马和拜登。然后转身看拜登，没等拜登反应，他抢先说了声不用谢（you are welcome）。这是给拜登一个措手不及，凸显拜登反应迟缓。因为西方的习惯是无论何时你受惠于人，你都要表达谢意。黄西说投票选了拜登，理所当然要领受拜登的谢意，所以他故作脱口而出，说了一声不用谢。可是拜登还愣在那里呢。我们的副总统大人显得多么迟钝啊。

黄西讲喜剧小品，不徐不疾，张弛有度。他对西方观众心理的把握很到位。他自我设计的形象是不露锋芒，故作木纳，甚至有点机器人似的一脸茫然，其幽默机智隐含其中。他的风格受到西方传统的影响，远胜于中国的相声和小品。他的笑话在国人中据说不很讨好。他自己在访谈中也说，他初出道在同胞人圈子里讲过，虽然精心准备了，会心而笑的却不多，这使得他开始很丧气，甚至怀疑自己是否是喜剧演员的材料。后来慧眼识才的还是老外。
他在美国成为华裔谐星而广为人知以后，他对记者说自己还不能算完全成功，一个成功的喜剧艺人不能仅仅局限于到俱乐部甚至电视上，表演几个零星的段子，至少要演几部电视情景喜剧（Sit-com）。他正在朝这个方向努力，最大的难关当然还是情景剧的剧本的创作。
黄西是一个从我们这代留学生新移民中成长出来的值得关注和期待的喜剧艺术家。他的出现有助于改善我们东方人过于拘谨，被主流社会和文化边缘化的形象。

===================

为帮助读者/听众了解这几个段子，我在网络上搜到了热心粉丝的两个帖子，转载如下：

【附1】 Letterman Show transcript：

Hi everybody. So... I'm Irish. I read a report recently that a man reaches his sexual peak at age 18 but I didn't know this... until I was twenty five. So the world will never know what a stud I was. No one took a bite out of this peach when it was ripe.

I'm not good at sports, but I love parallel parking... because unlike sports, when you are parallel parking, the worse you are, the more people that are rooting for you.

I'm an immigrant and I used to drive an old car with a lot of bumper stickers that are impossible to peel off. And one of them said, "if you don't speak English, go home!" I didn't notice it for two years.

I worked really hard to become a U.S. citizen and I have to take these American History lessons where they asked us questions like:

"Who's Benjamin Franklin?"

I was like; ahh... The reason our convenience stores get robbed?

And the second one was:

"What's the 2nd Amendment?"

I was like; ahh... The reason our convenience stores get robbed?

"What is Roe vs. Wade?"

I was like ahh... Two ways of coming to the United States?

I have a family now, but I used to be scared of marriage. I was like wow... 50 percent of all marriages end up lasting on forever!

I just had my first child last year. I was really amazed at it. I was in the delivery room, holding up my son, thinking to myself, "Wow... He was just born... And he's already a U.S citizen."

So I said to him, "DO you even know who is Benjamin Franklin?"

Now I have a sign in my car that says ”Baby On board.”

This sign is basically a threat. It just says that I have a screaming baby and a nagging wife and that I am not afraid of dying anymore.

Thank you very much!

==========================

Implicit explanations to audience with culture difference:

1. Ben Franklin's picture is on the US $100 bill.

2. Second Amendment refers to the US Constitution for the right to keep and bear arms.

"Roe vs. Wade" is a famous court case that you'll learn about in history class that deals with abortion.

Joe Wong used this case in a form of a question: What is Roe vs. Wade? To which he cleverly delivered the punchline "Two ways of coming to the United States".

Roe is used as a play on words to describe "row", as in using a boat to "row" to the US.

The denotation of wade was used, the definition meaning "to walk in water".

【附2】

某网友：

这几天我很迷黄西/Joe Wong 3月17号在RTCA Dinner (The Radio and Television Correspondents Association Dinner，全美电台电视记者协会年会晚宴）上的表演。这个晚餐会是当天在C-SPAN 和C-SPAN2 频道上现场直播的，但我直到几天后才在youtube上看到的。实在太迷了，而且网上好像也没见他的表演全文，我就决定把它的全文听写下来并集中注释一下。听写中有个别词不确定用"(??)" 标出来了。注释（理解他的包袱是什么意思）是靠的众多的youtube、mitbbs上的留言，以及自己查字典和google。

--------------------------------------------------------

Transcript for Joe Wong at RTCA Dinner, aired on C-SPAN 3/17/2010

Transcribed by PB

-----------

Good evening, everyone. My name is Joe Wong, but to most people, I'm known as "who?!" (laughter) which is actually my mother's maiden name, (laughter) and the answer to my credit card security question. (laughter) [1]

But joking aside, I just want to reassure everybody that I am invited here tonight. (laughter) [2]

I grew up in China, who didn't? (laughter) [3] And my childhood memories are totally ruined by my childhood. (laughter) When I was in elementary school, as part of the curriculum, I had to work at a rice paddy right next to a xxxxx quarry where they use explosives to break rocks, and that is where I learned that light travels faster than sound. (laughter) which is almost as slow as a flying rock. (laughter) [4]

My dad was a grumpy guy, but occasionally he would try to cheer me up with jokes, but he doesn't do it right. When I was seven, one day he said to me, "hey son, why is tofu better than centralized socialist economy?" (laughter) so five minutes later I said "why?" (laughter) He said "because I said so!" (laughter) [5]

I came to the United States when I was 24, to study at Rice University in Texas. (some applaud cheers and some laughter) that wasn't a joke (laughter) until now. (laughter) And I was driving this used car with a lot of bumper stickers that's impossible to peel off. And one of them said "If you don't speak English, go home". And I didn't notice it for two years. (laughter)

Like many other immigrants, we want our son to become the president of this country and we try to make him bilingual, you know, Chinese at home and English in public, which is really tough to do, because many times I have to say to him in public "Hey listen, if you don't speak English, go home" (laughter) And he would say to me, "Hey dad, why do I have to learn two languages?" I said "son, once you become the president of the United States, you are going to have sign legislative bills in English, and talk to debt collectors in Chinese" (laughter) [6]

When I graduated from Rice, I decided to stay in the United States, because in China, I can't do the thing I do best here, being ethnic. (laughter) And in order for me to become a U.S. citizen, I have to take this American history lessons, where they ask us questions like "Who is Benjamin Franklin?", where I was like "ah, the reason our convenience store gets robbed?" (laughter) [7] "What's the Second Amendament?", where I was like "ah, the reason our convenience store gets robbed?" (laughter) [8] "What is roe vs. wade?", where I was like "ah, two ways of coming to the United States?" (laughter) [9]

Later on I read so much about the American history that I started to harbor white guilt. (laughter) [10] In the America they say that all men are created equal, but after birth, it kind of depends on the parents' income, or early education and health care. (laughter) I read in the Max House Men's Health Magazine that President Obama every week has two cardio days and four weight lifting days. You see, I don't have to exercise, because I have health insurance. (laughter) I live in Massachusetts now, where we have universal health care; then we elected Scott Brown (laughter) - talk about mixed messages. (laughter) [11] I think there was a movie about him - it's called "Kill Bill" (laughter) [12]

I'm honored to meet vice president Joe Biden here tonight, (Joe turned to face Biden) I actually read your autobiography, and today I see you. (Joe turned back to face audience) I think the book is much better. (laughter) They should've get guest cast Brad Pitt, or even Angelina Jolie. (laughter)

So to be honest, I was really honored to be here tonight, and I prepared for months for tonight's show, and I showed the white house my jokes about President Obama, and that is when he decided not to come. (laughter)[13] And he started to talk about immigration reforms, (laughter) Take that, Stephen Colbert (laughter) [14] And president Obama has always been accused of being too soft, but he was conducting two wars. and they still gave him the Nobel Peace Prize, and he accepted it. (laughter) You can't be more bad ass than that. (laughter) where actually, I'm thinking the only way you can be more bad ass than that is if you take the Nobel Prize money and give it to the military. (laughter)

We have many distinguished journalists here tonight, whom I consider as my peers. (laughter) because I used to write for campus newspaper. (laughter) I think journalism is the last refugee for puns. [15] Only on the newspaper can you say things like "I was born in the year of horse and that is why I'm a naysayer" (laughter) [16] my point exactly.

And tonight is my first time on C-SPAN, which is a channel I obviously always watch, when I couldn't stand the sensationalism and demagoguery of PBS? and QVC. (laughter) If I still couldn't fall asleep after watching C-SPAN, there's C-SPAN2 and C-SPAN3. (laughter) [17] Thank you very much. (laughter)

So I became a U.S. citizen in 2008, which I'm really happy about. (applause) thank you very much. American is number one, (laughter) that's true, 'cause we won the world series every year. (laughter) [18]

After becoming the U.S. citizen, I immediately registered to vote for Obama and Biden. (Joe turned to face Biden) you're welcome. (laughter) You handed me a had me at "Yes We Can" (laughter) (Joe turned back to audience) that was the their slogan. (laughter)

So after getting Obama and Biden elected, I felt this power trip. (laughter) And I start to think maybe I should run for president myself. Where, I have to take a step back and explain a little bit, you know, because I have always been a morose and pessimist guy. I felt that life is kind of like, pee into the snow in a dark winter night, you probably make a difference, but it's really hard to tell. (laughter) [19] But now, we have a president who's half black half white, it just gives me a lot of hope, because I'm half not black half not white. (laughter) Two negatives make a positive. (laughter)

If elected, I would make same-sex marriage not only legal but required, (laughter) that will get me the youth vote.(laughter) You see I'm married now, but I used to be really scared about marriage, I was like "wow, 50% of all marriages end up lasting forever" (laughter)

And I will eliminate unemployment in this country, by reducing the productivity of the American workforce. (laughter) so two people will have to do the work of one, just like the President and the Vice President,(laughter) or the Olsen twins. (laughter) [22]

And despite heart disease and cancer, most Americans die of natural causes. So if elected, I will find a cure for natural causes. (laughter) You seem to like that one. (laughter) but you won't be covered by health insurance though, (laughter) because of pre-existing conditions. (laughter)

And I have a quick solution for global warming. I will switch from Fahrenheit to Celsius, (laughter) It was 100 degrees, now it's 40. (laughter) You're very welcome. (laughter)

And I'm great with foreign policy. Because I am from China, and I can see Russia from my backyard. (laughter) I believe that Unilateralism is too expensive, and open dialog is too slow. So if elected, I will go with text messaging. (laughter) I will text our allies just to say hi, (laughter) and text our enemies when they are driving. (laughter) "OMG you're building a nuclear weapon?" (laughter), "but you're doing it wrong LOL" (laughter)

I just want to thank Video TV correspondence xx xx for having me here tonight. This is the first time I wish my son knew what I was doing. Thank you so much and have a very good night. Thank you Linda Scott.

-------

注解: based on comments from youtube and mitbbs, dictionary look-up, and google

-------

[1] 他妈妈姓“Hu”，刚好跟"Who"同音。 maiden name ：大部分老美婚后改跟丈夫姓(所以夫妻俩同姓)；女性结婚前的姓就叫maiden name

[2] 黄西这儿强调说“我是被邀请的”，mitbbs上有人指出这是指去年年底两次白宫安全问题--11月份、12月份各有一对夫妇没有邀请函但通过了层层安检进到了白宫宴会并到奥巴马身边。

[3] youtube留言：he said he grew up in china... it's a joke about the over population of china and how? many people there are there。

还是youtube留言，但解释不同：If you related to "I grew? up in US, who wasn't?" You got to be smart to understand him。（Mitbbs上有人同意这一个，说这是讽刺美国redneck动不动就说I grew up in US。）

[4] 黄西说他小学时（劳动课）在水稻田（rice paddy）干活，旁边就有一个采石场，用炸药炸石头。因为经常看到爆炸光亮听到爆炸声（还可能有碎石飞过来），后面黄西接着说“我学到了光传播的速度比声音快，而声音传播的速度大概跟飞溅的石头差不多”。

[5] youtube留言：tofu and centralize economic joke: you got? understand that China is a Communist country, there is only one party in power, everything is like his dad said "because I said so"

还是youtube留言，稍微有点不同：it's sort of non-sense talk said by his dad, then his dad went 'because I? said so'.... his farther == the centralized social system. the nonsense == whatever enforced by the centralized social system.

[6] youtube留言：it is "debt collector"..Because of the huge current account deficit? US owes to China.

还是youtube留言，稍微有点不同：China is the country that holds the most US treasure bonds now.

[7] youtube留言：Benjamin Franklin - 100 dollar bills. Convenience stores have 100 dollars bills. （100美元币上是美国总统本杰明-弗兰克林的头像；便利店/社区小超市当然有100刀币；所以被抢劫了）

[8] youtube留言：Second Amendment: is the freedom to carry gun. - It gives the robbers guns to rob convenience stores.? （因为民众能自由持枪，所以小店被抢劫了）

黄西这个笑话之前在别的地方也讲过。我google的一个中文网站的解释：什么是美国宪法第二修正案（允许公民拥有枪支）？黄西接着说：这是不是我们杂货店被抢的原因？

[9] youtube留言：Roe vs Wade, famous? court case on abortion. Joe thought two ways of coming to US, on boat or swim

我找的别的地方的：In 1973, the US Supreme Court had prohibited states from making laws that interfered with a woman's right to an abortion during the early months of pregnancy. Joe 把 roe vs. wade 转换成 row (rowing the boat) & wade (swimming ) to USA. (划船和游泳偷渡到美国)

[10] youtube留言：He studies America history. It talks a lot of white Americans kill Indians, slavery, kills, etc. Basically, white American were guilty of many things, i.e. white guilt. He starts to harbor (to feel inside)? white guilt (as if he were white).

[11] youtube留言：Obama does exercise, but Joe himself doesn't need to because he has health insurance. MA has universal health care which is viewed as the result of Democratic dominance in MA. But they recently voted a Republic senator Scott Brown, mixed message. （MA就是Massachusetts，常说的麻省）

[12] youtube留言：Scott Brown is a? Republican and their motto on health care reform seemed to be "Kill (the health care reform) Bill"

[13] 新浪北美网上报道说，这个年会历来是“上至总统下到各大媒体负责人都会出席”。本来奥巴马已应邀出席，但因为health insurance reform bill最后投票是3月21日，他“亲自四处催票拉票，频上媒体呼吁支持。临时排定当晚6点上保守倾向的Fox电视台的访谈，所以无法出席”；白宫于是请副总统Biden代为出席。“黄西说，当然有点失望，不过没问题，听说‘副总统人也挺幽默的’ ”。（我想这样他一定临时修改了讲稿，而他开的副总统的那个玩笑效果很好，考虑到他有限的修改时间，可见他的功底！）

[14] 黄西说“Stephen Colbert，把这个表演出来”。Stephen Colbert 是一个美国喜剧演员，因他的讽刺和扑克脸式的喜剧表演风格在美国广为人知。2006年4月29日，科拜尔受邀在白宫新闻记者协会晚餐会上进行表演。科拜尔用他一贯的风格当面挖苦了当时的美国总统小布什。（“历史”的相似性）

[15] pun: a humorous use of a word or phrase which has several meanings or which sounds like another word （以转意或谐音的方法达到诙谐的效果）

[16] youtube留言："Nay-SAYER". Horses go “Nay" . It was a joke on a bad pun.
neigh: a long, loud, high call that is produced by a horse when it is excited or frightened. （马嘶叫声）

[17] C-SPAN, C-SPAN2, C-SPAN3 是美国的有线电视频道（一家三个）新闻频道，创办于1979年，节目内容主要探讨政府及公共事务议题，也有转播国情咨文、共和党全民大会、民主党全民大会。所以黄西说用它来催眠。

[18] youtube留言：Because the World? Series is not for the world...only 2 countries play in the World Series. America and Canada. （World Series 指棒球比赛，说是国际/World，其实就美国和加拿大两国的球队。大部分时候都是美国赢）

[19] youtube留言：actually it means pee in snow will melt it, as pee is warmer. but since? it is a dark winter night, so it is hard to tell

[20] "I spent ten years in the past decade" -- ten years 是十年，decade也表示十年。

[21]我的理解 “Who cares” 有两层意思：1。"Who"指黄西自己（表演开始的时候黄西说大部分老美不知道他，指代他为"Who"），这个竞选口号是“我关心你们”；2。“Who cares”直接的意思是“谁在乎呢？！” 因这双重意思而逗笑。

[22] “Olsen twins” 好莱坞最红双胞胎姐妹花奥尔森姐妹。看你认不认得出这张她们小时候的图片及她们演的那部电视剧（我很喜欢那部电视剧）

【相关信息：美国深夜节目收视率冠军的「大卫赖特曼秀」，上月（Apr. 2009）17日晚上破天荒邀请中国口音极重的黄西（Joe Wong）亮相，以英语讲美式笑话，近六分钟的演出，观众反应热烈。...

--------------

from http://hi.baidu.com/%B3%C9%B2%C5%B0%FC/blog/item/dbded0f59724d429bd3109bb.html

原载侪入美国娱乐圈主流的华裔笑星 Joe Wong

【相关】

联合国福音，祝各位54青年节快乐

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-805576.html

上一篇：检索字库，发现一桩很奇怪的事情
下一篇：《旧文翻新：我发表的第一篇 Book Chapter》

当前推荐数：1 推荐人：秦承志

《旧文翻新: 王一千起死回生记》屏蔽留存

《旧文翻新: 王一千起死回生记》

屏蔽已有 2825 次阅读 2014-7-12 20:25 |个人分类:旧文翻新|系统分类:人物纪事| 外科, 麻醉机, 积血回输

中国绝无仅有的一次手术

1968年，在皖南深山乡镇何湾，一个13岁男孩从牛背上摔下。老爸出诊，发现该小孩右肝破裂，腹内大出血，要开胸、开腹才能完成手术。需要大量血液，当时无法在本地获得。

病人不宜搬动，时间又不容耽误；一要麻醉机，二要血源。时间就是生命。开车回县城，拉麻醉机和输血员。这简陋山路70多里，是时正值山区大雾，一来一去要四到六个小时。如何度过这漫长时间？是一道难解的课题。

不得已，老爸急中生智，大胆决定，从腹腔抽取积血回输，首创混有胆汁的腹血回输。

临床上自血回输，有脾血、肝血、血管破裂积血及宫外孕积血等。老爸有脾血及宫外孕积血回输经验。宫外孕混有羊水和肝破裂混有胆汁，与积血所占比例甚微，少至人体可以耐受。而肝血回输，当时医学上尚极少论及，因有胆汁污染。10年后，文献才有报道：混有胆汁的血亦能安全回输，并在后来的文献上陆续得到肯定。

那一夜，老爸立在病人身旁，“车水战术”，从腹内把积血抽出来，过滤后再静脉输入，共回输1700毫升，赢得了时间，维持血液动力学运转，终于等来了输血员和麻醉机。

接着就在汽油灯下，老爸在山村卫生院，就地全麻开胸、开腹。初战告捷，顺利完成肝修补手术。在一个小山村，没有电，缺乏助手，在设备简陋、药品奇缺、无血源的情况下，老爸成功完成他外科生涯中第一例肝脏手术，这应算是一个奇迹。术后恢复倒也算“顺利”，但术后9天，本拟翌日出院，可是肝内胆道大出血并发症来了。很典型，一阵胆绞痛，血压下来，面色苍白、贫血、休克，反复发作。经一天观察，保守治疗无效。

让其转来县医院，老爸再进腹，作肝固有动脉结扎加胆总管外引流，手术成功。这手术很经典，术中扪得肝动脉震颤，显示在出血，扎后震颤立马消失，胆总管出血表现延缓、停止。终于救回患者一命。在那个时代，那样条件，这技术，是个了不起的成绩。这是当时中国的县级医院外科水平的高峰。

而在山村小镇完成的手术，在中国乃至世界也是绝无仅有的。

这位病人前后两次手术，医药费一千多元，坊间戏称他叫“王一千”。当时老爸月薪才不到50元，是老爸工资二十倍。农家哪能付得起这天文数目。好在那个时代，病人出身贫下中农，又是当时当地最大手术，老爸出面为其申请，政府以民政救济，把费用一笔勾销。这在社会上传为美谈，是毛时代的一曲社会主义赞歌。

（根据老爸《我的外科生涯》节选改编）

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-811160.html

上一篇：没有语言学的 CL 走不远
下一篇：《旧文翻新: 骨科三奇例》

当前推荐数：5 推荐人：武夷山 姬扬 张珑 ddsers Vetaren11

发表评论评论 (1 个评论)

删除 |赞[1]张珑 2014-7-13 07:11: 这个应该就算是死马当活马医。现代中国应该没有医生敢做这个手术了。

《旧文翻新：曾祖父李老夫子傳》屏蔽留存

《旧文翻新：曾祖父李老夫子傳》

屏蔽已有 1666 次阅读 2014-6-3 07:13 |个人分类:旧文翻新|系统分类:人物纪事| 文史, 遗墨, 家史

【立委按】《夫子遺墨》專欄源自我的曾祖父的作品《李老夫子遺墨》，民國二十五年（一九三六年）八月編印，內部發行。家傳孤本掃描上網。歡迎轉載，請註明出處。

==============

任圖南 - 李先生傳

李先生（諱）咸昇，號學香，清歲貢生香齋翁之長子也。世居本邑北鄉之永保圩，旋以地勢低窪，頻遭水患，獻計於香齋翁。擇仁於小磕山大衝口而處焉，置田產，營住宅，皆先生贊助之力也。香齋翁品性端方，學問淵博，遠近之負笈請益者，皆以獲坐春風為幸。凡列門墻者，莫不因熏陶而為成德達材之彥。學香受過庭之訓，讀等身之書，鑽仰高深，獲卓爾之效。群疑其有異聞焉。先生兄弟三人，仲季均早世，香齋翁鐘特甚，先生亦能仰體先志，愈加奮勉，朝夕披吟，於書無所不讀。是以早歲即游泮宮，繼遂食於廩祿。年三十三以明經而蒙國恩，爰貢於鄉焉。先生晚年酷好昌黎文集，揣摩諷誦，終日把玩，未嘗釋手，故下筆即有古大家風範。遠近之人，得先生之片紙只字，均珍如拱璧。即偶有吟哦，朝脫稿而夕傳抄矣。所惜底稿不存，後人不獲梓其專集，以為後進之楷模。香齋翁作古後，陶太孺人效敬姜之無逸，親紡績之劬勞。先生乘歡色喜，甘旨罔缺。

及陶太孺人病卧床褥，先生親嘗湯藥，朝夕侍奉，未嘗廢離。迨至疾革，先生則擗踴號泣，哀毀骨立。其篤於孝養有如是也。先生性情渾樸，淡於名利。國體變更後，遂無意進取。惟以裁成狂簡，傳道來世為務。辦理族學，誘掖家族之俊義。督促諸子留學東洋，使之吸收新鮮文化。及諸子學成回國後，促之於家中辦理崇實學校，以啓迪後進。邑令操震聞其善而降臨之，大加奬勵。先生之勤於勸學有如是也。先生宅傍均系高壠，不宜稼禾，多半荒棄。先生乃審視而竊嘆曰，此大利所在，何久使貨之棄於地也。乃價買而墾藝之，樹以李桃果實之屬。每值春晚，群芳競秀，幾疑董奉之杏林，潘岳之花縣也。夏晚果熟，販夫麇集，獲利頗豐。鄰近居民羡而效之，於是荒山瘠土，悉化為沃壤矣。民國二十年，巨浸為虐，餓殍盈途。此鄉獨免飢寒之慘者，皆食先生樹藝之報也。先生舉子三。長曰應文，畢業於日本明治大學，得法學士歸國後，服務於省立第八師範，繼復應安徽公立法政專門學校之聘。次曰應期，高小畢業後，遂經理家務。三曰應會，畢業於日本明治大學，得政學士位後，與長兄應文於皖城創辦成城中學。繼遵父命回裡與乃兄辦理崇實小學。孫五人，幼即聰穎可愛，可謂後起之秀也。先生享年六十有四而終。贊曰，鯉艇受業，鳳毛濟美，文章壽世，化雨被裡，盈砌芝蘭，滿門桃李。興學校而作育英材，課樹藝而利洽桑梓。倘死者猶可作，實吾黨所矜式。

民國二十五年歲次丙子仲秋月上浣世愚弟任圖南拜撰。

==============

姚學銘 - 序一

余自弱冠時，始識李翁香齋先生，以前輩禮見之。睹其面溫恭儉讓，洵洵如也。先生觀余文藝亦欣賞之。其子學香長余一歲，嘗同考試，嘖嘖有聲，遂與為友。自後心心相契，文字交深。因以長女士偉配學兄季子應會而聯姻焉。學兄亦弱冠游庠，旋食餼，家居教授，以先翁之學紹後生。其為文宏深而淵博，其為詩幽遠而清逸。邑之北區凡有名於學者，皆先翁與學兄父子之徒也。是以鄉之人每敬稱之。余嘗想儒者讀書，本以窮經致用，取科名，策清時，以顯揚於國家，蔚為事功，名彪史冊。至不得志以經生終，雖文如韓愈，詩如杜老，亦幸中之不幸也。以學兄之學，行學兄之志，夫豈不足以展市，胡竟以教授老其身耶。惜哉夫子，今者學兄休矣，享年六四，以壽考終，殆所謂耳順而欲不從心歟。學兄之友門，示不忘先生，爰集學兄之詩文遺稿而付梓，問序於余。余應之曰，人生有三不朽，其亦可矣。因綴數語而弁之。

民國二十五年歲次丙子仲秋月上浣姻愚弟姚學銘拜識

==============

編者: 序二

清恩貢生候補江蘇直隸州州判，李公學香夫子，即清歲貢生太老夫子香齋公之長子也。太老夫子為清末經師，門下由科名發達者遍鄰邑。儒林山鬥，望重一時。夫子承鯉庭之訓，得衣鉢之傳。幼有文名，弱冠入泮，旋食餼。每逢歲科兩試，幾有譽滿江南，群空驥北之慨。無如萼薦屢邀，一售難獲，以恩貢終，非其志也。改革後，無心名利，提倡實業，興辦學校，每欲佑啓後人。暇時則對於古書常加溫習，嘗謂文為載道之器。孔孟而後，惟韓愈其庶幾乎。以故益粹。每有所作，氣盛言宜，置之昌黎集中，幾無以辦。晚年來，淡泊自甘。蒔花種竹，課子課孫。道愈高，文愈精。問字之車，門無虛日。夫子偶一吟哦，執筆立就。諷誦之間，他人不能移易一字。此非僅天分之高，抑亦學力之充有以致之耳。小子等先後受業有年，欲效步趨，望塵莫及。惜乎夫子休矣，天喪斯文，不獲憗遺一老，享年六旬有四。小子等傷音容之莫睹，幸手澤之猶存，爰集其平生所作若干篇，付之梓人，以餉後學雲。夫子之子三，孫五，皆卓卓有聲，聰穎可愛。次子應期世兄由高等學校畢業，經理家務，問事公益，頗得地方信仰。而長子應文三子應會二世兄，留學日本得學士位歸國，辦黨興學，多歷年所。應會雖早世，而文字亦有父風。因各採若干篇，附之冊末，以見師門多賢，經學相傳，歷數代而未有替也。

民國二十五年歲次丙子仲秋月上浣　編者謹識

==============

《李老夫子遗墨》影印件及编者名录

中华民国二十五年八月印

非卖品

编者后学：

高德芬王继铠
余明牧邦盛
何秀柏孙嗣续
方銮陈瑶琨
胡义生尚显义

原载《夫子遺墨：李先生傳》

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-799909.html

上一篇：【旧文翻新：我的世界语国（2）】
下一篇：【旧文翻新：《李老夫子遗墨》简介】

当前推荐数：1 推荐人：徐晓

《旧文翻新：我的世界语国（5）》屏蔽留存

《旧文翻新：我的世界语国（5）》

屏蔽已有 1831 次阅读 2014-5-30 15:48 |个人分类:旧文翻新|系统分类:海外观察| 阿姆斯特丹, 世界语, 红灯街

1989年夏天，我和导师去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前，我跟荷兰BSO（Buro voor Systeemontwikkeling BV）公司的机器翻译研究组一直有联络，应约为他们的以世界语作为媒介语的多语机器翻译系统 DLT，编写了一部现代汉语依从关系的形式句法。他们听说我们要来欧洲，就邀请我和我的导师，还有中国机器翻译界知名人物董老师，会后顺道访问他们的实验室一周，做学术交流，共同讨论汉语句法里的一些疑难问题。这次活动，他们称作 Chinese Week.

我们是应慕尼黑机器翻译峰会的召集人，西门子公司的S先生特邀，提交论文，介绍我们的JFY英汉系统。这是我第一次出国，一切陌生而新鲜。大会在大酒店的拱圆形讲演大厅举行，气派豪华。我的导师是俄语出身，所以派我上台宣讲论文。初生牛犊不怯场，我报告完后，回答了两个问题下场，正赶上中场休息时间。大概东方面孔的报告人很少，慕尼黑电台的记者现场采访了我，询问我的观感，还好没有涉及64的问题（当时64刚过，风声很紧，我们办到一半的出国手续，又重新审查一遍，险些泡汤）。

大会以后，我们乘火车沿莱茵河往阿姆斯特丹，一路风景如画，赏心悦目。河岸高地上屹立着一座座中世纪古城堡，引人遐想。我们在大学城 Karlsruhe 停留两天，访问两个刚认识的电脑专业的留学生。德国小城的整洁优美、绿地成片和德国人的彬彬有礼给我留下很好的印象。当时感到不解的是，为什么这样一个小城也有一条红灯街，而且就在大学生宿舍楼门前。后来到了号称世界“性都”的阿姆斯特丹才明白，这是小巫见大巫了。当时，本室同事傅大姐正在阿姆斯特丹进修，她请了一位留学生带领我们参观举世闻名的红灯区。这是来阿姆斯特丹的人必游项目之一，对荷兰旅游业很重要（几个月前，报载争议已久的阿姆斯特丹红灯区终于关门大吉）。

运河边的红灯区好像台北的夜市和北京的庙会，熙熙攘攘，热闹非凡。见到有导游打着小旗，带领一队队游客。不时有骑着摩托的警察穿过。红灯区占据了运河边纵横七八条大街，沿街的房子，有一串串布置得很讲究的橱窗，每个橱窗里面有身着三点式的小姐坐台亮相。妓女有各种肤色和体态，有的小巧，有的肥硕，大部分都不好看，甚至倒胃口，但一律打扮得光鲜妖艳。第一次来参观的游客，不大敢正眼看妓女，因为她们总盯着游客频抛媚眼。我们的导游同学显然是老油条了，一路跟这些妓女打招呼，送飞吻，你来我往，但并不进门。看到一位日本人好像在门口讨价还价，等再回头时，这位买春客已经登堂入室，橱窗的帘子也拉上了，表示正在营业。不过，多数橱窗是没有业务的，毕竟众目睽睽之下招徕买春客似乎不是好的商业模式。我怀疑她们也许有政府旅游局的补贴，否则怎么可能经营下去。红灯区还有很多性商店和录象馆。走进一家商店，满目都是各式各色的硕大的性器官模型，吓得我赶紧逃离。

游览阿姆斯特丹后，我们按计划去Utrecht的BSO公司访问一周。DLT 项目研究组十几个人，一半是语言学家，一半是工程师，看得出来，这是个气氛融洽的团队。德国世界语者 Klaus Schubert 博士是系统枢纽“依存关系句法”（dependency grammar）的设计人，在项目第二阶段继 Witkam 成为项目组长。71届大会后招进来的美国世界语者 Dan Maxwell 博士，负责东方语言的句法项目的承包、质询和验收，是我的直接领导（十年河东，十年河西，后来我成为他的 boss，这是后话，见《朝华午拾 - 水牛风云》）。Dan一看就是老实人，照顾我们客人殷勤有加。我看到他早上骑自行车来上班，笑着跟他说：“我在北京上班跟你一样”。

研究组的骨干还有国际世界语协会的财务总监，知名英国籍世界语者 Victor Sadler 博士，我在71届国际世界语大会上跟他认识。作为高级研究员，他刚刚完成一项研究，利用 parsed （自动语法分析）过的双语对照的语料库 (BKB, or Bilingual Knowledge Base) 的统计信息，匹配大小各异的翻译单位（translation unit）进行自动翻译，这一项原创性研究比后来流行的同类研究早了5－10年。显然，大家都看好这一新的进展，作为重点向我们推介。整个访问的中心主题，仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人，预备下一步大规模的商业开发，汉语作为不同语系的重要语言，其可行性研究对于寻找投资意义重大。

期间，Victor以世界语朋友身份，请我到他家吃晚饭。他住在离公司不远的一栋公寓里，太太来开门，先跟丈夫轻吻，然后招呼我进来。太太也是世界语者，忘了哪国人了，总之是个典型的世界语之家，家庭用语是世界语。Victor告诉我，太太实际上会一些英语，但是用英语对她不公平啊。太太很和善，跟我说，他们俩非常平等，她做饭，Victor洗碗。我说，这跟我家的分工一样，我最爱洗碗这种简单劳动。她笑着说，“Victor, vi havas helpanton hodiau (你今天有帮手了)”。饭后Victor洗碗，并没有让我插手，我站在旁边陪他聊天，一边看他倒进大把的洗涤液，满是泡沫把餐具拿出来，用干布擦干。我告诉他们，这跟我的做法不同，我们总是怀疑化学制品有毒或副作用，最后必须用清水涮净才好。太太不解地问：“洗涤液如果有毒，厂家怎么能生产呢？” 这倒把我问住了。Victor夫妇和蔼可亲，我感觉在老朋友家一样，饭后一边吃甜点和水果，一边闲聊，尽兴而归。

记于2006年6月21日

立委《我的世界语国》系列入《世运人物志》

原载《朝华午拾：欧洲之行》

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-799006.html

上一篇：【旧文翻新：我的世界语国（4）】
下一篇：《旧文翻新：一小时学会世界语语法》

原载《夫子遺墨：附載應會世兄遺著－游戲類（四則）》

当前推荐数：1 推荐人：徐晓

发表评论评论 (1 个评论)

删除 |赞[1]icgwang 2015-10-11 11:41: 观感之魅力语感和暴力欲感！

《旧文翻新：叔祖父遗作选－游戲類（四則）》屏蔽留存

《旧文翻新：叔祖父遗作选－游戲類（四則）》

屏蔽已有 1208 次阅读 2014-6-1 07:53 |个人分类:旧文翻新|系统分类:诗词雅集| 遗墨, 时文

【立委按】叔祖父李應會思想开明，关注时事。名曰游戏文字，抗日保国之心可鉴，汪洋恣肆，情系笔端。天妒其才，不幸早逝，呜呼。

應會世兄 (立委叔祖父)

附載應會世兄遺著－游戲類

附載應會世兄遺著－游戲類(150-156)；
抗日會宣言（仿討武曌檄）(150)；
戲擬討日軍檄（仿北山移文）(152)；
戲擬某軍長報孫傳芳書（仿楊惲報孫會宗書）(154)；

================

抗日會宣言（仿討武曌檄）

為強暴日本者，地非廣大，人亦不多，昔為蓬萊荒野，曾以維新統治，洎乎晚近，跋扈東鄰，潛隱帝國之私，陰圖侵略之計，處心好利，絲毫不肯讓人，積慮嗜貪，涓滴都是為己。並朝鮮為內廄，吞台灣為外府。加以虺蜴為心，豺狼成性，勾通姦賊，蹂躪中華，殺人掠地，奪利侵權，人類之所同嫉，國際之所不容。猶復妄逞奢欲，窺竊中土，清之遜帝，挾之以重來，我之命官，驅之而遠去。嗚呼，熱河區之已失，喜峰口之又亡。直搗天津，痛華北之全喪，長驅關內，懼華中之頻危。本會抗日先鋒，人民領導，奉良心之使命，受海內之推崇。蔡公時之割鼻，良有道也。張作霖之炸腦，豈無故哉。是用疾首痛心，出生入死，因國聯之失望，順輿論之推心，爰樹漢旗，以驅倭寇。化除私見，摒棄黨爭。眾志成城，同心御侮。九萬方裡，大漢之土地無窮，四兆黎民，黃帝之苗裔靡盡。馬聲嘶而北風起，民氣奮而南鬥平。圍攻則受睏垓心，散擊則竄回海外。以次御侮，何侮能來，以次清妖，何妖不去。同胞或居內地，或寄外邦，或親橫行於目見，或聆殘暴於耳聞。既同一本，豈可貳心。三省之土未回，方寸之地難服，倘能撥亂誅暴，逐寇安民，共立恢復之功，毋負本會之望。凡我華胄，莫不歡迎，若其居家偷生，臨陣怕死，構成滅亡之兆，必遭殺戮之誅。請看今日之滿洲，竟是誰家之領土。

================

戲擬討日軍檄（仿北山移文）

大漢之英，黃帝之靈，馳文郵路，宣言漢人，夫以禮讓為國之標，和平待人之想，以刑威為非是，以德柔為崇尚，吾方知之矣。若其巍巍世錶，昂昂海外，救災厄而不吝，恤睏窮而不迫，聞虎踞西半球，見龍盤北寒帶，固亦有焉。豈期倭小猖狂，心志毒酷，淚人類之悲，慟國際之哭。常行險以僥幸，亦兵窮而武黷，何其謬哉！嗚呼，軒轅不存，總理既往，山河破碎，文物誰賞。世有日本，負隅自恃，既陰既狠，亦蛇亦豕。然而，學彼英暴，習夫德虐，竊壞盟條，濫毀公約，侵我權利，填彼欲壑。雖假口於護僑，乃專心於大陸。其始至也，竟而割台灣，占琉球，屬朝鮮，蹂福州，貪情張日，殺氣橫秋。似干畦之蚯蚓，似涸澗之泥鰍，如汪汪之瞎狗，若蠢蠢之蠻牛。沐猴適可比，小丑真堪儔。及其既望入蜀，故先赴隴。炮轟彈炸，機飛艦動，而乃占據東省，侵掠滬上，蔡廷楷禦敵有方，張學良守土無狀。海上凄其帶憤，華北咽而下愴。痛遼吉之已失，哀人民而如喪。至其陷熱河，下冷口，奪長城之雄，搗北平之首。擊秦皇之島嶼，攻天津之左右。公道長擯，公理久埋，蜂蠆有毒真堪慮，國聯無用弗可懷。滿洲已失，清帝又續，謀寸節之進攻，托傀儡而侮辱，殺越人而於貨，淫婦女以肆欲。希吞三江水，圖並九州域，使猶悠忽無憂，衰頹不舉，印度之伴，朝鮮之侶。國亡家破無所歸，自由幸福徒空佇。至於同舟共濟，眾志成城，奮神武兮我膽壯，殺妖魔兮寇心驚。曾聞投筆以入伍，未見有路不請纓。於是辭別家園，荷負槍炮，鼓我智勇，用我玄妙，聽中國之獅吼，聆漢族之虎嘯。使其狡窮詐盡，聲嘶力竭，還我失土，歸彼本國。處東海以朝貢，來中原稱臣妾。今正水深火熱，一發千鈞，縱國亡之不顧，矧家破而不驚。豈可使黃帝無顏，總理蒙恥，受宰割辱，遭奴隸鄙，睹瘡痍於滿目，聽呼號於充耳，宜塞口岸，堵隘關，輕財命，毋吝慳，截劣貨於海口，抗倭軍於郊端。於是人人瞋膽，個個怒魄，或械鬥以靳元，乍肉搏而滅跡，請回扶桑去，免我寶刀割。

矧拼音:shěn，况且。亦。much more, still more; the gums：http://www.zdic.net/zd/zi/ZdicE7Zdic9FZdicA7.htm

================

戲擬某軍長報孫傳芳書（仿楊惲報孫會宗書）

某才疏學淺，軍政無所能，幸賴老友拔擢，得長皖省，適逢時變，以獲司令，終非其任，卒與黨會，鈞座非其行，蒙賜書指責以所背負，言詞深刻，然竊恨鈞座不深維其時勢，而猥偏見之責備也，言鄙陋之苦衷，似巧言而脫罪，默而息乎，恐遭道遠傳言失實之冤，固敢詳陳其情，惟鈞座察焉。某家當貧賤時，游江湖者數年，身為皂隸，職備小兵，侍奉主人，以給衣食，曾不能於早年有所做作，以獲爵位，又不能效同伴相機乘時，籠絡當局之顯宦，已受奚落輕視之氣久矣。懷祿慕勢，不忍終屈，遂值革命，獲取軍官，身頗顯貴，妻子麗都，回思昔日，自分老死不可以得志，豈意獲得富貴，而榮先人之丘墓乎。深維人生有命，不可輕量，君子安分，不事強求，小人得意，定要再往。竊自思念官未高也，祿未厚也，冀享榮華以歿世也。是故身率妻子戮力拍馬，脋肩諂笑，以要鈞座，不意竟爾用以為司令也。夫時勢所不可為者，忠死無益，故鈞座於清室，官其官也，有時而背，某之境遇，亦猶是也。黨軍北伐，大兵偪近，攻城奪地，烈焰莫嚮，官此皖也，能不皖衛，職司令也，理應死戰，而士卒歌者數千人，飯後臂袒，仰天鼓腹而呼嗚呼，其歌曰，上打鼕鼕鼓，下打鼓鼕鼕，兩頭一齊打，當中翦芙蓉。軍心已變矣，思輓救不能。是日也，賚印而出。膝行匍匐，頓首百拜。誠卑污無狀，不知其不可也，某幸有官運，方卸甲投降，除軍長之任，此二品之官，簡任之職，某獲得之，同流之人，眾慕所歸，咸欲效法，而雅知某者，獨昧時而貴，究何損譽之有。俗語不雲乎，明明求貞節，尚恐不能報主者，忠臣之志也。明明順實務，常恐不識者，俊傑之意也。故道不同，不相為謀。今鈞座安得以忠臣之志而責僕哉。夫蔣公黨魁，中山之徒，有李宗仁唐生智之健將，凜然皆有本領。知攻守之機，頃者鈞座離皖垣。臨金陵，金陵岩險之區，逸仙舊壞，民黨羅列，豈保守之天塹哉。而今乃圖子之時也，方當軍務之急，願勉旃，毋多談。

賚拼音:lài，同“賚”。賜予，給予：～賞。～賜。give, present, confer; surname：http://www.zdic.net/zd/zi/ZdicE8ZdicB3Zdic9A.htm

《夫子遗墨：附载应会世兄遗著－游戏类》影印件:

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-799410.html

上一篇：【旧文翻新：我的世界语国（2）】
下一篇：【旧文翻新：《李老夫子遗墨》简介】

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

当前推荐数：2 推荐人：尤明庆 武夷山

【社煤挖掘：大数据告诉我们，希拉里选情告急】屏蔽留存

【社煤挖掘：大数据告诉我们，希拉里选情告急】

屏蔽已有 2948 次阅读 2016-11-1 07:22 |个人分类:社媒挖掘|系统分类:科研笔记| 希拉里, 美国大选, 自然语言理解, 克林顿, 社煤挖掘

这是最近最近一周的对比图：

的确显得不妙，川大叔领先了。是不是因为FBI重启调查造成的结果？
这是过去24小时的图：

这是一个月的涨跌对比：

timeline-comparison-25

至此局势基本清晰了：希拉里的确选情告急。MD 这大选真是瞬息万变啊，不久前还是喜妈领先或胶着，如今川大叔居然翻身了，选情的变化无常真是让人惊心动魄。

这是last week：

timeline-comparison-26

这一周喜婆，很被动很不利。过去24小时一直在零下20上下，而老川在零上10左右，有30点（note：不是传统的 percentage points）的差距 NND：

timeline-comparison-27

看看更大的背景，过去三个月的选情对比：

timeline-comparison-28

原来是, 喜大妈好容易领先了，此前一直落后，直到九月底。九月底到十月中是喜妈的极盛期，是川普的麻烦期。

至于热议度，从来都没有变过，总是川普压倒：

timeline-comparison-31

眼球数也是一样：

timeline-comparison-32

一年来的狂热度（passion intensity）基本上也是川普领先，但喜婆也有不有不少强烈粉她或恨她的，所以曲线有交叉：

timeline-comparison-33

这个 passion intensity 与所谓 engagement 应该有强烈的正相关，因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来。这家伙那么多年，难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet，可是这家伙太狡猾，可能一辈子做商人太过精明，连染有液体的内裤也不曾留下过？是时候从 closet 拿出来了。反正这次大选已经 low 得不能再 low 了，索性 low 到底。不过如果要是有，不会等到今天，大选只剩下一周、先期投票已经开始。

这么看来，作为 data scientist，我不敢不尊重 data 一厢情愿宣传喜妈的赢面大了。赶巧我一周前调查的那个月是克林顿选情的黄金月，结果令人鼓舞。

我们有 27 种 filters，用我们的大数据平台可以把数据任意组合切割，要是在会玩的分析师手中，可以做出很漂亮的各种角度的分析报告和图表出来。地理、时间只是其中两项。

邮电门是摧毁性的。FBI 选在大选前一周重启，这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了，虽然对于数据的分析能力和角度，远不如我们的平台的丰富灵活。他们基本只有一个 engagement 的度量。无论怎么说，希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票，还需要研究。

朋友提醒所谓社会媒体，其实是 pull 和 push 两种信息的交融，其来源也包含了不少news等，这些自上而下的贴子反映的是两党宣传部门的调子，高音量，影响也大，但并非真正的普罗网虫自下而上的好恶和呼声，最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图，我们只留下 twitter，FB，blog 和 microblog 四种社会媒体，剔除了 news 和其他的社会媒体：

timeline-comparison-49

下面是推特 only，大同小异：

timeline-comparison-50

对比一下所有的社会媒体，包括 news 网站，似乎对于这次大选，pull 和 push的确是混杂的，而且并没有大的冲突和鸿沟：

timeline-comparison-51

希拉里为什么选情告急？看看近一个月的希拉里云图，开始红多绿少了：

sentiment-drivers-43

sentiment-drivers-44

对比一下川普的云图，是红绿相当，趋向是绿有变多的趋势，尤其是第二张情绪（emotion）性云图：

sentiment-drivers-45

sentiment-drivers-46

再看看近一周的云图对比, 舆论和选情的确在发生微妙的变化。这是川普最近一周的sentiment 云图：

sentiment-drivers-47

sentiment-drivers-48
对比喜婆婆的一周云图：

sentiment-drivers-49

sentiment-drivers-50

下面是网民的针对希拉里来的正负行为表述的云图：

sentiment-drivers-51

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普最近一周的呼声：

sentiment-drivers-52
vote 的呼声超过 not vote for him

这是最近一周关于克林顿流传最广的posts：

clinton_trouble

FBI 重启调查显然被川普利用到了极致，影响深远。

Most popular posts last week by engagement:

clinton_trouble1

Most popular posts last week on Clinton by replies and comments:

clinton_trouble2

Some random sample posts:

clinton_tposts_random
negative comments are rampant on Clinton recently:

clinton_tposts

如果这次希拉里输了，the FBI director 居功至伟。因为自从录音丑闻以后，选情对希拉里极为有利，选情的大幅度下滑与FBI重启调查紧密相关。媒体的特点是打摆子，再热的话题随着时间也会冷却，被其他话题代替。这次的问题在，FBI 重启电邮门调查的话题还没等到冷却，大选就结束了，媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期，已经冷却，被 FBI 话题代替了。从爆料的角度，录音丑闻略微早了一些，可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看最近一周的#Hashtags，也可以了解一点社会媒体话题的热度：

word-cloud-23

与事件有关的有： #fbi #hillarysemails #hillarysemail #podestaemails19 #podestaemails20
Negative ones include: #wikileaks #neverhillary #crookedhillary #votetrump

Look at the buzz around Hillary below: the biggest is "FBI" in the brands cloud mentioned with her in the last week's data:

word-cloud-24

The overall buzz last week:

word-cloud-26

这是最近一周有关希拉里话题的emoji图：

hullery1weekemoji

虽然说笑比哭还，希拉里及其阵营和粉丝却笑不起来，一周内用到这个话题的emoji总数高达 12,894,243 。这也是社会媒体的特点吧，用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

现在的纠结是，【大数据告诉我们，希拉里选情告急】，到底发还是不发？为了党派利益和反川立场，不能发。长老川志气，灭吾党威风。为了 data scientist 的职业精神，应该发。一切从数据和事实出发，是信息时代之基。中和的办法是，先发一篇批驳那篇流传甚广的所谓印度AI公司预测川普要赢，因为那一篇的调查区间与我此前做的调查区间基本相同，那是希拉里选情最好的一个月，他们居然根据 engagement alone 大嘴巴预测川普的胜选，根本就没有深度数据的精神，就是赌一把而已。也许等批完了伪AI，宣扬了真NLU，然后再发这篇【大数据告诉我们，希拉里选情告急】

FBI director 说这次重启调查，需要很长时间才能厘清。现在只是有了新线索需要重启，不能说明希拉里有罪无罪。没有结论前，先弄得满城风雨，客观上就是给选情带来变数。虽然在 prove 有罪前，都应该假定无罪，但是只要有风声，人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱，就更惊心动魄了。如果不是有背后的黑箱和势力，这个时间点的电邮门爆炸纯属与新线索的发现巧合，那就是希拉里的运气不佳，命无天子之福。一辈子强性格，卧薪尝胆，忍辱负重，功亏一篑，无功而返，保不准还有牢狱之灾。可以预测，大选失败就是她急剧衰老的开始。

一周前有个记者interview川普，川普一再说，希拉里这个犯罪的人，根本就不该被允许参加竞选。记者问，哪里犯罪了？川普说电邮门泄密，还有删除邮件隐瞒罪恶。当时这个重启调查还没有。记者问，这个案子不是有结论了吗，难到你不相信FBI的结论？川普说，他们弄错了，把罪犯轻易放了。这是一个腐烂的机构，blah blah。可是，同样这个组织，老川现在是赞誉有加。这就是一个无法无天满嘴跑火车的老狐狸。法律对他是儿戏，顺着他的就对，不顺着他心意的就是 corrupt，rigged，这种人怎么可以放心让他当总统？

中间选民的数量在这种拉锯战中至关重要，据说不少。中间选民如果决定投票，其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的，如今满世界说一方不好，合理的推断就是去投另一方了。现在看来，这场竞赛的确是拉锯战，很胶着，不是一方远远超过另一方。一个月前，当录音丑闻爆料的时候，那个时间点，希拉里远远超过川普，毫无悬念。一个月不到，选情大变，就不好说了，迹象是，仍然胶着。

不过，反过来看，川普的 popularity 的确是民意的反映。不管这个人怎么让人厌恶，他所批判的问题的确长久存在。某种意义上，Sanders 这样的极端社会主义者今年能有不俗的表现，成为很多年轻一代的偶像，也是基于类似的对现状不满、对establishment的反叛的民意。而希拉里显然是体系内的老旧派，让人看不到变革的希望。人心思变的时候，一个体系外的怪物也可以被寄托希望。至少他敢于做不同事情，没有瓶瓶罐罐的牵扯。

上台就上台吧，看看他造出一个什么世界。

老闻100年前就说过：
这是一沟绝望的死水，清风吹不起半点漪沦。不如多扔些破铜烂铁，爽性泼你的剩菜残羹。
。。。。。。
这是一沟绝望的死水，这里断不是美的所在，不如让给丑恶来开垦，看它造出个什么世界。

【社煤挖掘：川普的葛底斯堡演讲使支持率飙升了吗？】

【社煤挖掘：为什么要选ta而不是ta做总统？】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘：川大叔喜大妈谁长出了总统样？】

欧阳峰：论保守派该投票克林顿

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1012046.html

上一篇：Trump sucks in social media big data in Spanish
下一篇：【大数据跟踪美大选，希拉里成功反击，拉川普下水】

DONALD J. TRUMP DELIVERS GROUNDBREAKING CONTRACT FOR THE AMERICAN VOTER IN GETTYSBURG

当前推荐数：3 推荐人：许培扬 蔡小宁 强涛

发表评论评论 (3 个评论)

删除 |赞[3]蔡小宁 2016-11-1 13:01: 其实川大叔上台对美国发展更有利，喜婆政治正确不能当饭吃，还是追求实惠为好。

删除 |赞[2]高典 2016-11-1 10:18: 邮件门事件，放在尼克松时代，早就没戏了。希拉里就是一个liar,不知道楼主为何支持她。民主党上台，对美国华裔更坏。

删除 |赞[1]ljxm 2016-11-1 07:57: 希拉里干过总统，还想干总统

【社煤挖掘：川普的葛底斯堡演讲使支持率飙升了吗？】屏蔽留存

【社煤挖掘：川普的葛底斯堡演讲使支持率飙升了吗？】

屏蔽已有 3425 次阅读 2016-10-29 04:30 |个人分类:社媒挖掘|系统分类:海外观察| 希拉里, 美国大选, 克林顿, 川普, 自动民调

反正日夜颠倒了，那就较真一下，看看大数据大知识，对于川普的葛底斯堡演说的所谓舆情飙升到底是怎么回事。先给几个links：

报道的是本月22日川大叔的历史性演说，旨在振奋人心，做竞选的最后冲刺，大意：
寡人与美国人民有个约定，看我的，believe me

中文舆论中，这篇似乎流传最广：【川普重磅演讲致支持率飙升全球股市将暴跌?】。

因为川普演说是22日，为了看舆情的飙升对比，可以以22日为中心取前后几天的社会媒体大数据做分析，看个究竟。至少比传统民调打五百、一千个电话来调查，自动民调的大数据（millions 的数据点）还是靠谱一些吧。

timeline-comparison-14
这张趋势图怎么看？

1 川普在这个时间区间总体的确是上升。飙升之说，不完全是无中生有（准确地说，其实是捕风捉影，见下）。

2 但是，仔细看舆情（net sentiment）图可以发现，川普这段时间基本上还是一直没有摆脱负面舆情多于正面舆情的局面，舆情曲线除了22号当天短暂超越冰点，总体一直是零下。

3. 飙升之说经不起推敲，因为凡飙升，必须是事件后比事件前的舆情，有明显的飞跃，其实不然。

4. 事实是，川大叔近期舆情的谷底是本月18号（零下20+），从18号到22号他 deliver speech 前，他的舆情已经有比较明显的提升（从 -20 到 0），而从 22 号到 25 号，舆情不升反略降，飙升从何谈起？

5. 虽然没有飙升，但川大叔这次表演还是及格的。至少 speech 后，舆情没有大跌，基本保持了接近零度的基本面。

6 由此可见，媒体造势是多么地捕风捉影。以后各位看到这种明显是宣传（propaganda）的帖子，可以多一个心眼了：通常的宣传造势的帖子都在夸大其词（如果不公然颠倒黑白或歪曲事实的话），从所谓“舆情飙升”到预计“股市暴跌”，都是要显示川普演说的重量级。基本是无稽之言，不能当真的。

下图是这个调查区间的数据小结：

trump1

这个区间的平均舆情指数是 -9%，2.7 million 的正面评价，3.2 million 的负面评价。

-9% 是一个什么概念，根据我们以往对政治人物的多次舆情调查来看，这不是一个好的舆情，但也不是特别糟糕，属于平均线下。但是，与川普自己的总体舆情比较，这个区间表现良好，有 13 点的提升，但这个提升并非所谓演说飙升带来的。

这是社煤数据源的统计：

trump2

从比例看，推特永远是最 dynamic，量也最大，总热议度 34.5 mentions，推特占了 23.9 million。不少社煤的分析 apps 干脆扔掉其他的数据源，只做推特，作为社会媒体的代表，也基本上可以了。但是，感觉上还是，只做推特，虽然大数据之量可以保证，但可能偏差会大一些，因为喜欢上推特跟踪政治人物和话题，吐槽或粉丝的人，只是社会阶层中的一部分，往往是比较狂热的一批。推特这个公共平台，本来就长于偶像和followers（粉丝或“黑”）互动。其他的社会媒体可能更平实一些，譬如 Facebook 上的发言基本是说给朋友圈的。Facebook 也有 1.7 million 的热议。

好，我们把区间放大，看 last 30 days 的趋势，作为这次演说前后趋势的一个背景。

timeline-comparison-15
这是 9/28-10/28 的川普与克林顿舆情趋势对比图，by days；仔细解读前，总体印象是够纠缠的。这两位老头老太也真是，剪不断理还乱，不是冤家不碰头，呵呵。两位都那么多丑闻缠身，性格都很tough倔强。看看一个月来 by weeks 的曲线也许更明朗：

timeline-comparison-16

不管我多么厌恶川普，也不管我为了厌恶川普而决定选举并不喜欢的克林顿，作为 data scientist，不得不说，希拉里最近的情势不是很乐观：川普居然开始有点儿领先克林顿的趋势了，NND。

timeline-comparison-17

上图是热议度（mentions）的对比。这个没的说，川普天生的话题大王，克林顿无论如何也赶不上。

timeline-comparison-18

这是舆情烈度的对比：喜欢或厌恶川普的还是更加狂热，虽然印象中希拉里克林顿比起其他政治人物所引起的情绪已经要更趋于激烈了。可是川普是个政治异数，还是更容易引起狂热或争议。

川普在演说中特别强调选举被操纵的危险，他显然在夸大这种危险，为将来的不承认选举结果做铺垫。挺恶心人的。现在的情况是，如果克林顿大幅度领先，川大叔再流氓也没辙。如果是拉锯接近，就麻烦了，老川和川粉几乎肯定要闹事。可现在的选情显得有些胶着拉锯，这也是为什么很多人包括保守派开始有倡议，说为了川普，请投票克林顿。本来我是要投第三党的，或者弃权不投，但是这次选举不同，危险太大，川老是个定时炸弹，而且不可预测。为了防止他撒泼，还是投给克林顿好。至少让他看看，马戏团的表演是上不了台面的，由不得他胡来。沐猴而冠变不成林肯。

对比我一周前做的自动民调 Big data mining shows clear social rating decline of Trump last month，下面这个品牌对比图似乎更加拉锯，克林顿最近选情不是很佳。

最近30天，克林顿是 -17%，川普是 -19%，略领先于川普。所幸，川普的这次演讲并没有真正扭转两人的差距，从下面这张历史趋势品牌对比看，克林顿从开始的舆情落后，变为领先的趋势还在：

不过最近克林顿的选情是原地踏步，并没有明显进展。比较克林顿的三个圈可知，最淡的圈是过去30天的前10天，明显落后于川普，后两个圈是最近20天，基本原地，只是圈子变大了，说明竞选的投入和力度加大了，但效益并不明显。而从川普方面的三个圈圈看趋势，这老头儿实际的总体趋势是下跌，过去三十天，中间的十天舆情有改观，但最近的十天又倒回去了，虽然热议度有增长。（MD，这个分析没法细做，越做越惊心动魄，很难保持平和的心态，可咱是 data scientist 啊。朋友说，“就是要挖点惊心动魄的”，真心唯恐天下不乱啊。）看看川普的30天社煤的褒贬云图（Word Cloud for pros and cons）和情绪云图（Word Cloud for emotions）吧：

sentiment-drivers-38

sentiment-drivers-37
朋友一眼看中了那红红的 fuck 舆情，问：“fuck”的主语和宾语是谁？

主语一般不出现，默认是普罗网虫，fuck 的宾语当然是川普，否则上不来他的负面情绪云图：

trumpfuck

trumpfuck2
天，fuck mentions 占据了数据的 5%，老川在一个月里被社煤普罗 fuck 了近40万次，可见这家伙如果上台会有多少与他不共戴天的子民。看上面怎么吐槽 fuck 的：

fucking moron
fucking idiot
asshole
shithead

you name it，甚至疑似共和党人也fuck他：
Trump is a fucking idiot. Thank you for ruining the Republican Party you shithead.

看 popular media，貌似流传最广的大多是视频：

trumpmedia

Tumblr 超越 Facebook 成为社煤老二？

domains-6

从来没用过 Tumblr 这名字也拗口怎么这么 popular？

西方媒体吐槽的，男女比较均衡：male 52% female 48%，对比中文社媒，明显是女人少谈政治的：才占25%。这次调查的种族背景分布：

trumpethinics

还是白大哥占压倒多数。族裔信息占社煤帖子中的近一半，所以这个社煤族裔分布的情报应该是靠谱的。黑大哥第二，占 13%，亚裔才 6%。墨大哥 8%，与其人口比例不相称吧（？）：由于语言或文化障碍，under-represented here？？

这个有点意思，喜欢到社煤吐槽的人，集中在周三和周日的晚上，晚九点达到高峰, 譬如关于川普话题的社煤，在周日晚上九点高达 1,357,766, 一个小时就有一百三十五万帖啊，够大数据吧。

trumpdayhour

这还才是 sampling 的 data, 推特sampling占总量大约十分之一吧，如果是 data hose （要额外付钱的）一网打尽的话，数据量又要增加一个量级。不过，对于大数据情报挖掘，再增加一个量级已经没有什么意义了，不会实质上改变调查的结果的。说明一下，那个周日的统计量应该是过去一个月的调查中的周日的总和，一个月有四个周日，那个数据应该除以4，然后乘以10，才是川普数据周日九点的那是时间区间的真实量。总之是地地道道的大数据。相比之下，传统民调，不管怎么抽样，感觉都是儿戏，有点胡闹：
500 个电话，说是代表了两亿人的民意舆情，不是儿戏是什么。不过，前大数据时代，那是没办法的办法。自动民调是大势所趋。

下图是影响最大 followers 最多的 authors：

trumpmedia2

Most mentioned authors below：

trumpauthors

什么时代有过如此丰富的信息与如此强大的数据挖掘能力？

RW:
@wei 你实际上可以好好搞一个大选预测引擎，利用你现在的methodology, finetune 一下，可以吸引很多眼球。效果好，下次就可以收费了。一炮而红，还有什么是更有效的marketing?

我:
我要是有微信数据的话，不打炮也会红。什么都不用变，就是现在的引擎，现在的app，只要有微信，什么情报专家也难比拟。为什么现在发布中文舆情挖掘不如英文挖掘那么有底气？不是我中文不行，而是数据源太 crappy 了。闹来闹去也就是新浪微博、天涯论坛、中文推特或脸书。至少全球华人大陆背景的，这个压倒多数，都在用微信，而数据够不着，得不到反映。

李:
@wei 我公司有团队做着类似的事情

我:
你能染指微信数据？

李:
微信个人数据只有腾讯有。

看看流传最广的社煤帖子都是什么？

trumppopularposts

从 total engagement 指标看，无疑是川普自己的推特账号，以及 Fox ：这大概是唯一的主流媒体中仅存的共和党的声音了。也不怪，老川在竞选造势中，不断指着鼻子骂主流媒体，甚至刻薄主持人的偏袒。历史上似乎还没有一个候选人与主流媒体如此对着干，也没有一个人被主流媒体如此地厌恶。

展示到这里，朋友转来一个最新的帖子，说是用人工智能预测美国大选，川普会赢：Trump will win the election and is more popular than Obama in 2008, AI system finds，quote：

"But the entrepreneur admitted that there were limitations to the data in that sentiment around social media posts is difficult for the system to analyze. Just because somebody engages with a Trump tweet, it doesn't mean that they support him. Also there are currently more people on social media than there were in the three previous presidential elections."

haha，同行是冤家，他的AI能比我自然语言deep parsing支持的 I 吗？从文中看，他着重 engagement，这玩意儿的本质就是话题性、热议度吧。早就说了，川普是话题大王，热议度绝对领先。（就跟冰冰一样，话题女王最后在舆情上还是败给了舆情青睐的圆圆，不是？）不是码农相轻，他这个很大程度上是博眼球，大家都说川普要输，我偏说他必赢。两周后即便错了，这个名已经传出去了。川普团队也会不遗余力帮助宣传转发这个。

Xi:
那个印度鬼子也有点瞎扯了。
知道ip地址跟知道ssl加密后的搜索的内容是两码事儿啊！
不知道是记者不懂呢，还是这小子就是在瞎胡弄了。

洪:
印度ai公司预测美国大选，有50%以上测准概率，中国ai公司也别放过这个机会

毛:
伟哥为什么认为川普必赢？不是说希拉莉的赢率是 95% 吗？

南山/邓保军: 不是wei说的

我:
这叫横插一杠子。川普要赢，我去跳河。。。

毛:
哦，伟哥是在转述。

我:
跳河是玩笑了，我移民回加拿大总是可以吧。

李:
韩国这个料就爆得好。希拉里在关键时刻，也有可能爆大料

我:
问题是谁爆谁的料。两人都到了最后的时刻，似乎能找到的爆料也都差不多用了。再不用就不赶趟了。很多地方的提早投票都已经开始了，有杀手锏最多再等两三天是极限了，要给媒体和普罗一个消化和咀嚼的时间。

毛:
@wei 但是老印的那个系统并非专为本届大选而开发，并且说是已经连续报准了三届呀？

我:
我的也不是专为大选开发的呀。而且上次奥巴马决定用我们，你看他就赢了，我们也助了一臂之力呢。

毛:
你们两家的配方不同？

我:
奥巴马团队拥抱新技术，用舆情挖掘帮助监测调整竞选策略，这个比预测牛一点点吧。预测是作为 outsider 来赌概率。我这个是 engage in the process、技术提供助力呵呵。当时不允许说的。

李:
奥巴马有可能会去硅谷打工唉

毛:
是否在舆情之外还有什么因素？

李:
原来你那个奥巴马照片不是蜡像呀

我：
假做真时真亦假呀。

002_510_image

【相关】

【社煤挖掘：为什么要选ta而不是ta做总统？】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘：川大叔喜大妈谁长出了总统样？】

欧阳峰：论保守派该投票克林顿

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1011526.html

上一篇：为了川普，我选克林顿。
下一篇：Did Trump's Gettysburg speech enable support rate to soar?

Big data mining shows clear social rating decline of Trump last month

当前推荐数：3 推荐人：冯国平 史晓雷 bridgeneer

【社煤挖掘：为什么要选ta而不是ta做总统？】屏蔽留存

【社煤挖掘：为什么要选ta而不是ta做总统？】

屏蔽已有 2971 次阅读 2016-10-27 01:09 |个人分类:社媒挖掘|系统分类:科普集锦| 希拉里, 克林顿, 舆情挖掘, 自动民调, 总统大选

中文社煤挖掘美国大选的华人舆情，接着练。

Why and why not Clinton/Trump?

Why 喜大妈？Why 川大叔？Why not Clinton？ Why not Trump？这是大选的首要问题，也是我们舆情挖掘想要探究的重点。Why???

First, why Clinton and why not Clinton? 看看喜大妈在舆情中的优劣对比图（pros and cons）。

sentiment-drivers-33

why Clinton？剔除竞选表现优秀等等与总统辩论和 campaign 有关的好话（“领先”、“获胜”、“占上风”、“赢得”等）外，主要理由有：

1. 老练强硬; 2. 乐观; 2. 清楚; 4 换发活力谈笑风生; 5. 梦想共同市场

拿着放大镜，除了政治套话和谀辞外也没看到什么真正的亮点。舆情领先，只能说对手太差了吧。四年前与奥巴马竞争被甩出一条街去，那是遇到了真正的强手。

OK，why not Clinton？

1. 性侵性骚扰威胁（她丈夫做的好事，她来背黑锅，呵呵。照常理她是受害者，可以同情的，不料给同样管不住下半身的川普一抹黑，她倒成了性侵的帮凶，说是威胁被性侵的女性。最滑稽的是，川普自己的丑闻曝光，他却一本正经带了一帮前总统克林顿的绯闻女士开记者会，来抹黑自己的对手克林顿夫人。滑稽逆天了。）

2. 邮件门曝光泄密

3 竞选团队的不轨行为操纵大选作弊

4. 克林顿基金会的问题

5. 华尔街收费

6 健康问题

7 撒谎、可耻

8. 缺乏判断力

这些都不是新鲜事儿，大选以来已经炒了很久了，但比起她的长处（经验老练等少数几条），喜妈被抓住的辫子还真不少。再看网民的情绪性吐槽, 说好话都是相似的，坏话却各有不同：轻的是，“乏善可陈”、“不喜欢”、“不信任”; 重的是：“妖婆”，“婊子”、“灾难”、“无耻”、“邪恶”。

sentiment-drivers-34
作为对比，来看川大叔，why or why not Trump?

sentiment-drivers-35

pros：1. 减税；2. 承诺崛起（America great again）；3. 真实；4. 擅长 business
cons:
1. 曝光的视频丑闻性骚扰
2. 偷税漏税
3. 吹嘘
4 咄咄逼人喜怒无常
5 粗鄙、威胁
6 撒谎

情绪性吐槽，轻的是 “不靠谱”、“出言不逊”，重的是 “恶心”、“愚蠢”、“卑劣”、“众叛亲离”。

sentiment-drivers-36
上篇中文社煤自动民调博文发了以后有朋友问，为什么不见大名鼎鼎的脸书。（微信不见可以理解，人家数据不对外开放，对隐私性特别敏感，比脸书严多了。不过，地球人都知道，反映我大唐舆情最及时精准的大数据宝库，非微信莫属）。查对了一下，上次做的中文舆情调查，不知何故 Facebook 不在 top 10，只占调查数据的 0.1%：

sources-9

记得以前的英语社煤调查，通常的比例是 70% twitter，20% Facebook, 其他所有论坛和社交媒体只占 10%。最近加了 instagram、Tumblr 等，格局似有变。但是中文在海外，除了推特，Facebook 本来应该有比重的，特别是我台湾同胞，用 Facebook 跟东土用微信一样普遍。

再看看这次调查的网民背景分类。

1. 职业是科技为主（大概不少是咱码农），其次才是新闻界和教育界。这些人喜欢到网上嚷嚷。

professions

这是他们的兴趣（interests），有意思的关联似乎是，喜欢谈政治的与喜欢谈宗教和美食的有相当大交集。

interests

这是年龄分组，分布比较均匀，但还是中青年为主。

age

性别不用说，男多女少。男人谈政治与女人谈shopping一样热心。

gender

最后看看地理分布，社煤的地理来源：
geo-regions

【相关】

【社媒挖掘：川大叔喜大妈谁长出了总统样？】

【更多美国大选舆情的自动调查还在进行整理中，stay tuned】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1011077.html

上一篇：为了川普，我选克林顿。
下一篇：Did Trump's Gettysburg speech enable support rate to soar?

【社媒挖掘：川大叔喜大妈谁长出了总统样？】屏蔽留存

【社媒挖掘：川大叔喜大妈谁长出了总统样？】

屏蔽已有 4780 次阅读 2016-10-26 02:29 |个人分类:社媒挖掘|系统分类:海外观察| 特朗普, 美国大选, 川普, 社煤挖掘, 自动民调

眼看决战时刻快到了，调查一下华人怎么看美国大选，最近一个月的舆情趋势。中文社会媒体对于美国总统候选人的自动调查。

aaa

先看喜大妈，是过去三十天的调查（时间区间：9/26-10/25）
summary-metrics-new-3
mentions 是热议度，net sentiment 是褒贬指数，反映的网民心目中的形象。

summary-metrics-6
很自然，二者并不总是吻合：譬如，在十月10日到11日的时候，希拉里被热议，而她的褒贬指数则跌入谷底。那天有喜大妈的什么丑闻吗？咱们把时间按周（by weeks）而不是按日来看 trends，粗线条看趋势也许更明显一些：

summary-metrics-7
Anyway，过去30天的总社煤形象分（net sentiment）是 11%，比起英语世界的冰点之下（-18%）好太多了，似乎华语世界远不如英语世界对老政客喜大妈的吐槽刻薄。

作为对比，我们看看川普（特朗普）在同一个时期的社会形象的消长趋势：川普过去30天的总社煤形象分（net sentiment）是 -12%，比希拉里的+11%成鲜明对比。

summary-metrics-8

看上面的趋势图（by weeks），川普的热议度一直居高不下，话题之王名副其实，但他的社会评价却一直在冰点之下，十月初更是跌入万丈深渊。同时期的希拉里，热议度与社会评价却时有交叉。趋势 by days：

summary-metrics-9

这样看来，虽然有所谓华人挺川的民间鼓噪，总体来看，川大叔在华人的网上口水战中，与喜大妈完全不是一个量级的对手。川普很臭，真地很臭。在英语社煤中，川普也很臭（-20%），但希拉里也不香，民间厌恶她诅咒她的说法随处可见，得分 -18%，略好于川普。譬如电邮门事件，很多老美对此深恶痛绝，不少华人（包括在下）心里难免觉得是小题大作。为什么华人世界对希拉里没有那么反感呢？居然给希拉里 +11% 的高评价。朋友说，希拉里更符合华人主流价值观吧。

这是我们的品牌对比图，三维直观地对比两位候选人在社煤的形象位置：

希拉里领先太多，虽然热议度略逊。

总有人质疑社煤挖掘的情报价值，说也许NLU不过关，挖掘有误呢。更多的质疑是，也许某党的人士更愿意搅浑水呢（譬如利用水军或机器人bots）。凡此总总，都给社会媒体舆情挖掘在多大程度上反映民意，提出了疑问和挑战。其实，对于传统的民调，不同的机构有不同的结果，加上手工民调的取样不可能大，error margin 也大。各机构结果也颇不同，所以大家也都是一肚子怀疑。不断有怀疑，还是不断有民调在进行。这是大选年的信息“刚需”吧。

所有的自动的或人工的民调，都可能有偏差，都只能做民意的参考。但是我要强调的是：

1. 现在的深度 NLU 支持的舆情挖掘，已经今非昔比，加上大数据信息冗余度的支撑，精准度在宏观上是可以保障的；

2. 全自动的社煤民调，其大数据的特性，是人工民调无法比的（时效以及costs也无法比，见【立委科普：自动民调】）;

3. 虽然社煤上的口水、噪音以及不同党派或群体在其上的反映都可能有很大差异，但是社煤民调的消长趋势的情报以及不同候选人（或品牌）的对比情报，是相对可靠的。怎么讲？因为自动系统具有与生俱来的一视同仁性。

时间维度上的舆情消长，具有相对的比较价值，它基本不受噪音或其他因素的影响。也不大受系统数据质量的影响（当然，太臭的舆情系统也还是糊不上墙，跟抛硬币差不了太多的一袋子词这样的“主流”舆情分类，在短消息压倒多数的社会媒体面前，还是不要提了吧，见一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑）。

我们目前的系统，是 deep parsing 支持，本性是 precision 优于 recall（precision 不降低，recall 也可以慢慢爬上来，譬如我们的英语舆情系统就有相当好的recall，recall在符号逻辑路线里面，本质上就是开发时间的函数）。Given big data 这样的场景，recall 的某种缺失，其实并不影响舆情的相对意义，因为决定 recall 的是规则量，缺少的是一些长尾 pattern rules，而语言学的 rules 不会因为时间或候选人的不同，而有所不同。同理，因为系统的编制是独立于千变万化的候选人、品牌或话题，因此数据质量对于候选人之间的比较，是靠谱的。这样看，舆情趋势和候选人对比的情报挖掘，的确真实地反映了民意的消长和相对评价。下面是这次自动民调的 Top 10 数据来源（可惜没有“她”，我是说 wechat），还是最动态反映舆情的推特中文帖子占多数（其中 66% 简体，30% 繁体，4% 粤语）。

domains-5

看一下popular的帖子，居然小方的也在其列。倒也不怪，方在中文社煤还是有影响力的。

chuanpupopularposts

小方总结得不错啊，难得同意他：满嘴跑火车的川大叔是“谎言大王”。其实川普与其说是谎话连篇，不如说是他根本不care 或不屑去核对事实。就跟北京出租司机信口开河成为习惯一样，话说到这里，转一篇我的老友刚写的博文（论保守派该投票克林顿），quote：

川普说话不顾事实是众所周知的。只要他一开口，就忙坏了各种事实核查 fact check ......
更重要的是，川普不仅犯了大大小小众多的事实错误，而且对事实抱着强烈的轻蔑和鄙视。

总结一下这次民调的结果可以说，如果是华人投票，川普不仅是 lose 而是要死得很惨，很难看。（当然，不管华人与否，川普都没有啥胜算。）

timeline-comparison-12

这是 by days 的趋势对比，这种持续的舆情领先在大选前很难改变吧：

timeline-comparison-13

【相关】

【社煤挖掘：为什么要选ta而不是ta做总统？】

Big data mining shows clear social rating decline of Trump last month

一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1010878.html

上一篇：Big data mining shows clear social rating decline of Trump
下一篇：为了川普，我选克林顿。

《利用大数据高科技，实时监测美国总统大选舆情变化》

当前推荐数：6 推荐人：陈辉 文克玲 强涛 xlsd bridgeneer LongLeeLu

发表评论评论 (4 个评论)

删除 |赞[4]朱志敏 2016-10-26 22:40: 刚看了篇文章，说美帝华人精英多支持川普？你这貌似不支持啊

删除 |赞[3]李家亮 2016-10-26 14:06: 看见川大我就进来了，结果发现是川大叔

删除 |赞[2]张珑 2016-10-26 09:02: 国内应该也有类似的调查吧。呵呵。

删除 |赞[1]crossludo 2016-10-26 04:16: 以论文为导向严肃党内政治生活建设研究型学者型政府公务队伍
http://news.sciencenet.cn/htmlnews/2016/10/359155.shtm

【关于舆情挖掘】屏蔽留存

【关于舆情挖掘】

屏蔽已有 3088 次阅读 2016-7-2 07:00 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 社交媒体, sentiment, 舆情挖掘

世人皆错nlp不错，民调错大数据也不会错

社媒大数据的困境：微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘：社会媒体疯传柴静调查，毁誉参半，争议趋于情绪化

【奥巴马赢了昨晚辩论吗？舆情自动检测告诉你】

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测：A-股看好】

舆情挖掘用于股市房市预测靠谱么？

大数据帮助决策实例：《走进“大数据”——洗衣机寻购记》

【社媒挖掘：外来快餐店风光不再】

【社媒挖掘：中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点，纵不懂也有义务挖掘一哈

【大数据挖掘：方崔大战一年回顾】（更正版）

【大数据挖掘：转基因一年回顾】

【大数据挖掘：“苦逼”小崔2013年5-7月为什么跌入谷底？】

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】

【大数据挖掘：转基因英文网络的自动民调和分析】

只认数据不认人：IRT 的鼓噪左右美国民情了么？

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】

【社媒挖掘：必胜客是七夕节情侣聚餐的首选之地？】

【社媒挖掘：大数据时代的危机管理】

测试粤语舆情挖掘：拿娱乐界名人阿娇和陈冠希开刀

大数据淹没下的冰美人（之三）: 喜欢的理由

大数据淹没下的冰美人（之四）: 流言蜚语篇（慎入）

大数据淹没下的冰美人（之五）: 星光灿烂谁为最？

【社媒挖掘：成都暴打事件中的男司机和女司机】

舆情挖掘：九合一國民黨慘敗馬英九時代行將結束？

社会媒体舆情自动分析：马英九 vs 陈水扁

社媒挖掘：争议人物方博士被逐，提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析：小方的评价比韩少差太多了

社媒挖掘：苹果CEO库克公开承认同志身份，媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么？

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上，给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart，挖掘发现跨国公司在中国的日子不好过

【社媒挖掘：“剩女”问题】

【舆情挖掘：2013央视春晚播后】

【舆情挖掘：年三十挖一挖央视春晚】

新浪微博下周要大跌？舆情指数不看好，负面评价太多（疑似虚惊）

【大数据挖掘：微信（WeChat）】

【大数据解读：方崔大战对转基因形象的影响】

【微博自动民调：薄熙来、薛蛮子和李天一】

【社媒挖掘：第一夫人光彩夺目赞誉有加】

Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘：中国红十字会的社会媒体形象】

新鲜出炉：2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social：切糕是神马？】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度，有惊人发现

尝试揭秘百度的“哪里有小姐”：小姐年年讲、月月讲、天天讲？

舆情自动分析表明，谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢，繁體世界分享

WordClouds: Season's sentiments, pros & cons of Xmas

新鲜出炉：2012 热点话题五大盘点之一【吊丝】

新鲜出炉：2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉：2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉：2012 热点话题五大盘点之四【三星vs苹果】

【关于 NLP 以及杂谈】

【关于 parsing】

【置顶：立委NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-988103.html

上一篇：【关于NLP掌故】
下一篇：【关于中文NLP】

【社煤挖掘：雷同学之死】屏蔽留存

【社煤挖掘：雷同学之死】

屏蔽已有 10098 次阅读 2016-5-14 08:54 |个人分类:社媒挖掘|系统分类:观点评述| 舆情挖掘

这是最近的热点新闻，舆情鼎沸，有蔓延之势。值得挖掘和跟踪。

社煤选样：

雷洋遗体外伤严重

质疑雷洋案件十大疑点

雷洋妻报案：有充分证据警察涉故意伤害致死罪(图)

雷洋事件解决不好，非正常死亡可能成为常态【时局深度】-

蔡慎坤：血与泪的控诉还原雷洋遇害真相

对比家属报案书和警方通报再看雷洋致死案

转发雷洋案刑事报案书：描述死亡过程(真相即将到来)-衡阳

雷洋案件之疑点-第11页-

血与泪的控诉还原雷洋遇害真相-

网传'大学生屁股被警察叔叔打开花'，警方：属实！图_中华论坛_中华网社区-

雷洋死亡当晚到底发生了什么？央视专访当事警察

雷洋家属向北京市检报案要求侦查涉事民警-

'他沒有嫖娼時間' 家屬報案指雷洋被無辜毆死

吴文萃(雷洋妻子)：关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋死有余辜！

雷某的家人实在太不要脸了！

“刑事报案书”描述雷洋之死【李鸣生】-常德

雷洋妻子报案，事件最新爆料！嫖娼是栽赃，雷洋被打死-休闲侃吧-

[原创]雷洋遗孀之报案书等于官媒的死刑判决书

雷洋父母看完遗体后，为何当场给尸检证人下跪？

雷洋最新情报：“刑事报案书”描述雷洋之死经历

关于要求北京市检察院立案侦查雷洋被害案的刑事报案书(转载)

我们为什么要关注雷洋之死？

雷洋案刑事报案书，警方涉嫌故意伤害（致人死亡）罪、滥用职权罪、帮助伪造证据罪-

转帖：雷洋妻子向北京市检察院报案：嫖娼是栽赃，雷洋被打死

1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3）尸检结果延迟到60天出结果

一个昌平“嫖娼者”为何引燃了全国公众的怒火？（转）

陈有西律师曝雷洋案发现最新一个重要疑问

吴文萃(雷洋妻子)：关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

雷洋家属向北京市检报案，要求侦查涉事民警

【时评】雷洋之死，疑云重重

人大学生会秘书长郝鹏程说，雷洋嫖娼不是第一次。

作为正在人大读书的研究僧，分析雷案可能的结果吧-

七律读微信圈雷洋数帖激愤有咏一气呵成重字不改也

何新：悼雷洋

哀悼环保烈士雷洋

血的事实告诉我，雷洋事件很快就平静下来！

警察滥用国家暴力必须予以遏制

雷洋事件解决不好，非正常死亡可能成为常态【时局深度】-

雷洋之死纯属咎由自取_中华论坛_中华网社区-

人大硕士雷洋真的嫖娼了吗？十三省

朝吉：足疗送命记

雷洋之死击碎了中产阶级的优越感！

昌平的一个“嫖娼者”为什么会引发公众的怒火

雷洋案：尽管真相还在路上，三种共识可以先到

北京公安回應雷洋案:決不護短

北京市检察院：已将雷某家属报案材料移送昌平检方

北京市公安局公开回应雷洋案：高度重视绝不护短

横河：雷洋案为什么应该怀疑警方

关于雷阳事件的随想

警察蜀黍为何喜欢抓嫖？-

“雷洋事件”终于开了个好头

雷洋用牺牲捍卫一个公务员的尊严 _网上谈兵_中华网社区-

从目击者证言和记者调查的报道看被忽略的雷洋事件关键点

雷洋被强押致死案，槽点多多，警方说辞漏洞百出

雷洋事件：中国人民大学88级部分校友向公安部门下战书

雷洋家属联系第三方鉴定机构将第二次与检方沟通-

雷洋事件，显示了老百姓的焦虑，不安全和无助感_网罗天下_天涯论坛

雷洋的家属成了大输家！！！

雷洋案真相不难搞清，但很多人打死也不愿相信

解密雷洋之死的根本原因!-常德

有见过抓嫖不在店里抓现行而在马路上盘查的吗

【视点】比雷某嫖娼事件真相更可怕的，是“相信”尽失！

【时评】雷洋事件，送环球时报两字无耻

中国人民大学88级部分校友就雷洋同学意外身亡的声明

[原创]雷洋之死：给你真相又何妨？

雷洋遗体外伤严重尸检后家属控告警方涉嫌犯罪 - 中国禁闻网

呼格案律师谈雷洋之死:涉事警察是嫌犯警方无权再接触证人-常德

民众为什么关注雷洋的案子？

转载：雷洋妻子正式报案：嫖娼是栽赃，雷洋致命处睾丸异常肿大系被打死

妻子坚决捍卫老公嫖娼有理正义吗。打飞机不算嫖娼吗_中华论坛_中华网社区-

雷洋之死的九大谜团，谁能告诉我们真相？

雷洋案：守住私德的底线，恢复人性的的良知

一周新闻聚焦：雷洋之死掀起舆论风暴，各方谴责警方滥权

雷洋案：守住私德的底线，恢复人性的的良知

人大学生会秘书长郝鹏程说，雷洋嫖娼不是第一次。

雷洋案真相不难搞清，可怕的是有人就是打死也不愿相信

网友热议：雷洋的事，恐怖在哪儿？(图) - 看中国 secretchina.com

雷洋尸检报告未出，但问题已显现：(第3页)_天涯杂谈_天涯论坛

[原创]嫖娼案拒谈嫖娼，雷洋老婆居心叵测，图谋不轨

雷洋死亡案铁证如山，雷洋没有白死

雷洋案新证据浮现：警察有问题

快讯！雷洋家属正式控告警方涉嫌犯罪

雷某嫖娼案最终结果的终极预测-第2页-

雷洋怎么死的，我来分析下。

[原创]雷洋死因的逻辑分析

[原创]雷洋怎么死的？【猫眼看人】-

雷洋嫖娼，谁又在嫖中国法律_天涯杂谈_天涯论坛

警方回应雷洋案热点问题昌平检方介入调查

【转帖】中国人民大学88级部分校友就雷洋同学意外身亡的声明-

橫河：雷洋案為什麼應該懷疑警方

最新消息：从警方提供及其他方面提供的证据看，雷洋涉嫌“嫖娼”的疑问太多！【铁证】 - 有啥说啥

我们为什么要关注雷洋之死？(第4页)_关天茶舍_天涯论坛

雷阳嫖娼就可以打死吗？转_网罗天下_天涯论坛

我服了雷洋家人了，到底要闹哪样？没见过这么无赖的(第5页)_天涯杂谈_天涯论坛

[原创]草根今日谈：依法治国请从雷洋事件开始

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文 - 中国禁闻网

中国人民大学77、78级校友关于雷洋的声明

大陸雷洋離奇死亡聯合國貼文關注

雷洋尸检超过12个小时北京昌平警方回避不

热帖：为什么我们应该感谢雷洋的妻子(图)

雷洋死有余辜！

[原创]由雷洋事件看恶警李乐斌杀人未受惩罚的危害性

[原创]支持雷洋遗孀依法起诉诬陷其亡夫的媒体

雷洋之死的真相究竟是什么？

[原创]雷洋，愿你的名字叫做公正与法治【猫眼看人】-

雷洋事件，显示了老百姓的焦虑，不安全和无助感_网罗天下_天涯论坛

'嫖娼者'雷洋的安全感要不要保护

亦忱：简评陈有西代理雷洋案的前景

雷洋案新证据浮现：警察有问题

雷洋之死的两个最重要真相！ - 云中茶社

[原创]由雷洋事件看恶警李乐斌杀人未受惩罚的危害性

雷洋家属发表声明：警方的做法是在混淆视听

昌平警方的行为完全合法！

周小平：酷吏以法杀人，奸生以文灭口-真相为何败给愤怒？-第6页-

雷洋案：守住私德的底线，恢复人性的的良知

[原创]三点详析雷洋事件严重亏空损耗了XX公信力！

雷洋有没有嫖娼，有一个绝招，立刻就能见分晓！

风云洞评劣等民族情商高？(图)

周小平：酷吏以法杀人，奸生以文灭口-真相为何败给愤怒？-第6页-

雷洋有没有嫖娼，有一个绝招，立刻就能见分晓！

雷洋案：守住私德的底线，恢复人性的的良知

涉案警方擅自检验死者DNA是否涉嫌违法犯罪？

贾冀豫__北京出租车司机说雷洋是打死的

【风青杨专栏】对不起，我并不想知道雷洋如何嫖娼(第8页)_天涯杂谈_天涯论坛

雷洋之死让普通人感到无比恐惧

雷洋之死或可推动社会三大进步

雷洋之死让普通人感到无比恐惧

这不是两个人死亡的问题_社会热点_中华网社区-

解密雷洋之死的根本原因!-常德

性价比。。。。_上海汽车论坛_XCAR

有见过抓嫖不在店里抓现行而在马路上盘查的吗

雷洋嫖娼离奇死亡案。

重大消息！国资委官员嫖娼被抓猝死（组图）

这不是两个人死亡的问题

张鸣：雷洋之死

雷洋案，网友如何“推波助澜”？全民一起破案，真相越来越近了吗？-

人大硕士求救帖，几乎每一段都充斥着谎言！

中国人民大学77、78级校友关于雷洋的声明

2016年05月13日

人大的校友别再发声了，77，78，84，88级的

女人天天被杀都激不起水花，雷洋死就激起千层浪！

《雷洋案》引起北京公安局领导高度重视

雷洋是不是嫖娼不重要？扯淡！笔者用十点给某些人普法

快讯！雷洋家属正式控告警方涉嫌犯罪

雷洋案：守住私德的底线，恢复人性的的良知

雷洋事件也许将有助中国执法部门的公正、警醒？

那些声嘶力竭认为雷洋嫖娼该死的人，他们是些啥人？

雷洋事件也许将有助中国执法部门的公正、警醒？

关注小人物的命运!就是关注自个命运!小人物之死网友理应关注

雷洋案：守住私德的底线，恢复人性的的良知

“欺负死人不能说话”乃世间首恶

拿雷洋殒命事件大肆鼓噪的那些人，可把死者一家人害惨了

“欺负死人不能说话”乃世间首恶

[原创]“欺负死人不能说话”乃世间首恶

力瑾：還有多少國人在意雷洋案的真相？

雷阳嫖娼就可以打死吗？转_网罗天下_天涯论坛

【野渡专栏】草根今日谈：依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

雷洋案：守住私德的底线，恢复人性的的良知

警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 - 第2页 - 警务探讨

[原创]草根今日谈：依法治国请从雷洋事件开始

【野渡专栏】草根今日谈：依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

雷洋案：为何警方信息发布总显得很被动？

【视点】比雷某嫖娼事件真相更可怕的，是“相信”尽失！

【时评】雷洋事件，送环球时报两字无耻

中国人民大学88级部分校友就雷洋同学意外身亡的声明

'嫖娼者'雷洋的安全感要不要保护

打飞机为何没有改变雷洋案的舆情走向？

一个昌平“嫖娼者”为何引燃了全国公众的怒火？（转）

十族沦为下一个魏则西比雷洋尤恐怖 - 有图有真相 - 中豫爆料

十日谈；我想说几句了，关于何新的两篇文章_中华论坛_中华网社区-

女人天天被杀都激不起水花，雷洋死就激起千层浪！

喝我这七星茶听他摆龙门阵再饮三盅

【今言野语】副省长私访被警察殴打的社会问题？_新闻众评_天涯论坛

[原创]雷洋死亡案铁证如山，雷洋没有白死

雷洋死亡案铁证如山，雷洋没有白死

说雷阳打飞机我的看法不成立！_中华论坛_中华网社区-

陈中华；警察威严不容丧尽，法律遵严不容侵犯_中华论坛_中华网社区-

为违法警察洗地，无耻！_中华论坛_中华网社区-

雷洋事件，某些人已经玩过火了！

雷洋父母看完遗体后，为何当场给尸检证人下跪？

雷洋事件：雷洋律师团调集近20位律师参案

雷洋案：守住私德的底线，恢复人性的的良知

转载：一个昌平“嫖娼者”为何引燃了全国公众的怒火？|洛阳城事

一周新闻聚焦：雷洋之死掀起舆论风暴，各方谴责警方滥权

雷洋之死第二季

规范警务活动：从雷洋案开始

雷洋之死击碎了中产阶级的优越感！

人大学生会秘书长郝鹏程说，雷洋嫖娼不是第一次。

雷洋案：守住私德的底线，恢复人性的的良知

人大学生会秘书长郝鹏程说，雷洋嫖娼不是第一次。

李悔之：比雷洋之死更可怕的是龙兴伟

从雷洋案看科学研究思维在生活中的应用

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文 - 中国禁闻网

民主到底能不能当饭吃？

对警察说两句，你们不感到愧疚吗

涉嫌嫖娼男突发死亡，你怎么看？-

雷洋事件，让我想起那些年采访过的奇葩嫖娼案_三秦网

雷洋被嫖被死案，急呼性合法化_京味悠长_天涯论坛

贪官雷洋嫖娼被抓,畏罪拘捕逃跑未遂身亡

雷洋父母看完遗体后，为何当场给尸检证人下跪？

[原创]我又不嫖娼，我为什么会成为下一个雷洋

我们追问雷洋是怎么死的，他们却要证明他是怎么嫖的！

雷洋怎么死的，我来分析下。

一周新闻聚焦：雷洋之死掀起舆论风暴，各方谴责警方滥权

雷洋妻儿父母岳父母的今后生活北京警方必须承担-

雷洋案件之疑点-第5页-

投票赢取《狄仁杰之神都龙王》..

《意外的恋爱时光》都市剩男&..

为您梦想中的“土豪人生”投票..

雷洋事件需要真相而非真像

雷洋案件之疑点-第3页-

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

拍案尖笑（集锦）

雷阳事件现场群众偷拍视频

雷洋疑案：史上效率最高最变态最廉价的嫖娼

雷洋事件解决不好，非正常死亡可能成为常态【时局深度】-

雷洋事件解决不好，非正常死亡可能成为常态

老徐：雷洋事件需要真相而非真像

雷洋事件，让我想起那些年采访过的嫖娼案

雷洋案：守住私德的底线，恢复人性的的良知

警察能让处女嫖娼，何况男士乎？

雷洋事件解决不好，非正常死亡可能成为常态_中华论坛_中华网社区-

人大学生会秘书长郝鹏程说，雷洋嫖娼不是第一次。

雷洋之死击碎了中产阶级的优越感！

贾冀豫__北京出租车司机说雷洋是打死的

”这份“公平正义”，雷洋听不到了，但我们必须感受到！(第2页)_重庆_天涯论坛

警察能让处女嫖娼，何况男士乎？

让子弹飞一会：人大硕士涉嫖身亡(集中讨论)(第2页)_国际观察_天涯论坛

雷阳嫖娼就可以打死吗？转_网罗天下_天涯论坛

这些事发生在啥国度？！

德媒：雷洋之死公信力缺失之下人人自危(图)

德媒：雷洋之死公信力缺失之下人人自危(图) - 中国禁闻网

德媒：雷洋之死公信力缺失之下人人自危(图)

女人天天被杀都激不起水花，雷洋死就激起千层浪！

对不起，我并不想知道雷洋如何嫖娼-邵阳

中国人民大学77、78级校友关于雷洋的声明

罗竖一：检方应尽快就雷洋一案启动侦查程序

雷洋死亡案，我持消极看法

[原创]草根今日谈：依法治国请从雷洋事件开始

【野渡专栏】草根今日谈：依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

张鸣：雷洋之死

说服公众

【话题】常识变为异端的社会

下一个“雷洋”不会太远，或是你我，或在身边-

被雷洋案击中的那根弦

雷洋案与毒地案有关？网传因特殊身份致死(组图)

警方：已證實雷洋有嫖娼行為

喝我这七星茶听他摆龙门阵再饮三盅

雷洋嫖娼案的所有证据都是事后补上？

雷洋嫖娼案的所有证据都是事后补上？(图)

雷洋嫖娼案的所有证据都是事后补上？(图) - 中国禁闻网

重要质疑：就雷洋案请教昌平警方几个问题-常德

雷洋嫖娼案的所有证据都是事后补上？(图)

关注雷洋，也关注人民警察

[原创]就雷洋案请教昌平警方几个问题

没有嫖娼动机的说法很可笑

[原创]雷洋死亡原因的最简单分析

雷洋案新证据浮现：警察有问题

三个字道破宇宙真理，破解《道德经》三千年谜团。

雷洋家属状告公安局全体民警，称雷洋没嫖娼，一切都是警方伪造，故意杀人后伪造事实

[原创]凯迪何公然支持传谣？！有关“雷阳视频”的真相

[原创]十年一觉京华梦赢得娼平嫖客名

雷洋“嫖资收据”铁证如山_胜利社区_东营论坛_油城茶座

985各校新闻量排行

张鸣：雷洋之死..............

尸检结论获一致认可前雷洋遗体不会被火化

[原创]洗脚女，昌平警察提供了雷洋没有进入洗脚店的证据

民主到底能不能当饭吃？

识不足则多虑，不要因个别负面事件过于恐慌 - 我说深圳事

谁在妖魔化中国人

中国人开始追求免于恐惧的自由

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

致人“屁股开花”的警察有兽性无人性

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

雷洋事件，某些人已经玩过火了！

中国人开始追求免于恐惧的自由(转载)_邯郸_天涯论坛

[原创]雷洋案：“我上车，我必死”

公知们，不要搬起石头砸了自己的脚(转载)_时尚资讯_天涯论坛

质疑雷洋案件十大疑点

雷洋父母看完遗体后，为何当场给尸检证人下跪？

雷洋妻报案：有充分证据警察涉故意伤害致死罪(图)

[原创]雷洋案：“我上车，我必死”

欲追究警方刑責雷洋家屬向北京市檢報案 | 暴力執法 | 大紀元

欲追究警方刑责雷洋家属向北京市检报案

[原创]雷洋家属及代理律师已提出刑事起诉

雷洋事件，某些人已经玩过火了！

欲追究警方刑事责任雷洋家属向北京市检报案 - 中国禁闻网

四川省纪委与厅纪委过去有结论吗？王书记上任后又是什么结论？-

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

每日大盘走势预判和盘中分时高低点的实时分析

各国《宪法》中几种《权利法案》之比较

除了移民我们还有什么更好的选蔡慎坤

家属最大的交代和安慰

雷某嫖娼案最终结果的终极预测-第2页-

很奇怪，没抓现行，雷洋已死，警方是怎么锁定雷洋所嫖失足女的？

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

民主到底能不能当饭吃？

[原创]雷洋死亡案，已经形成死结

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃？

雷洋事件引发更深刻的社会问题

蔡慎坤：雷洋之死真相早己大白于天下

民主到底能不能当饭吃？

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃？

蔡慎坤：雷洋之死真相早己大白于天下

民主到底能不能当饭吃？

[原创]三点详析雷洋事件严重亏空损耗了XX公信力！

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃？

蔡慎坤：我們為什麼恐懼為什麼憤怒？

童大焕：中国人开始追求免于恐惧的自由|洛阳城事

蔡慎坤：我们为什么恐惧为什么愤怒？

雷洋是否嫖娼和怎么死亡证据链暴光

童大煥：中国人开始追求免于恐惧的自由-

喝我这七星茶听他摆龙门阵再饮三盅

转发：我们追问雷洋是怎么死的，警方却非要证明他是怎么嫖的？

赏析《还原雷洋之死》（续）

一周新闻聚焦：雷洋之死掀起舆论风暴，各方谴责警方滥权

雷剧大反转之二：让子弹飞一会儿（ZT）

国资委官员嫖娼死的“春秋笔法”-

程序正义高于实质正义的理念，规则重于道德的理念，生命高于一切的理念_胜利社区_东营论坛_油城茶座

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

雷洋事件需要真相而非真像

雷洋之死真相早己大白于天下

几乎所有关注雷洋之死的舆论和公

雷洋，你能否为暴力执法敲一个警钟？_新浪杂谈_历史论坛_新浪网

童大焕：中国人开始追求免于恐惧的自由

雷洋之死真相早已大白于天下【猫眼看人】-

[原创]雷洋家属有责任立即单方面公布解剖真相

雷洋案：守住私德的底线，恢复人性的的良知

转发：我们追问雷洋是怎么死的，警方却非要证明他是怎么嫖的？

童大焕：中国人开始追求免于恐惧的自由

老徐：雷洋事件需要真相而非真像

转发：我们追问雷洋是怎么死的，警方却非要证明他是怎么嫖的？

下一个雷洋是谁？

律师从法律角度看雷洋案：警方认定嫖娼的事实不能成立_中华论坛_中华网社区-

转发：我们追问雷洋是怎么死的，警方却非要证明他是怎么嫖的？

力瑾：還有多少國人在意雷洋案的真相？

国资委官员嫖娼死的“春秋笔法”——雷洋事件再反转_中华论坛_中华网社区-

“友邦人士，莫名惊诧，长此以往，国将不国”：是不是鲁讯的文章？！_汽车时代_天涯论坛

“友邦人士，莫名惊诧，长此以往，国将不国”：是不是鲁讯的文章？！

雷洋“嫖资收据”铁证如山_胜利社区_东营论坛_油城茶座

让子弹飞一会：人大硕士涉嫖身亡(集中讨论)(第2页)_国际观察_天涯论坛

雷阳嫖娼就可以打死吗？转_网罗天下_天涯论坛

人大硕士雷洋真的嫖娼了吗？十三省

下一个'雷洋'是谁？

雷洋之死击碎了中产阶级的优越感！

雷洋嫖娼，谁嫖了法治？

为北京警方的“嫖资收据管理”叫好

通过雷洋案，都要洗干净自己的灵魂，多一份正能量，就少一份阴暗

我服了雷洋家人了，到底要闹哪样？没见过这么无赖的(第5页)_天涯杂谈_天涯论坛

雷洋之后谁会成为替补

蔡慎坤：雷洋之死真相早己大白于天下

【普欣夜话】拿嫖娼说事，最终谁会被嫖娼？(第3页)_天涯杂谈_天涯论坛

雷洋猝死政府忙公关：雇水军、删贴、掉包视频

[原创]雷洋嫖娼，谁嫖了法治？【猫眼看人】-

昌平警方说明其实暗示了真相宽带山KDS-宽带山社区-第一城市消费门户

[原创]雷洋嫖娼，谁嫖了法治？【猫眼看人】-

[原创]草根今日谈：依法治国请从雷洋事件开始

【野渡专栏】草根今日谈：依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

端宏斌：国资委官员嫖娼死的“春秋笔法” - 警务探讨

雷洋案：检方已出手，“涉嫖死”真相，在这

讨论：雷洋案应抓重点，不然就被人给误导了

汪剛強：從鄧玉嬌到雷洋

昌平警方说明其实暗示了真相

'嫖娼者'雷洋的安全感要不要保护

成年男子安全路过洗脚屋行动指南

妻子不关心嫖娼 '雷洋之死'还存疑点真相究竟是什么妻子不关心嫖娼，'雷洋之死'还存疑点。硕士雷洋死亡之夜到底发生了什么？雷洋死了，意外地死在一起嫖娼事件当中，揪住全社会的心。今日，有协调处理此事的警员感叹舆论发酵到这般程度，受到伤害最大的是家人……

雷洋案中警方存在'钓鱼'抓嫖的可能

人大硕士雷洋之死

对“如果雷洋没有死”的一些推论

端宏斌：国资委官员嫖娼死的“春秋笔法”_上海汽车论坛_XCAR

再次重复：雷洋死后谁是下一个?

中国人民大学77、78级校友关于雷洋的声明

国资委官员嫖娼死的“春秋笔法”-

雷洋事件引发更深刻的社会问题

童大煥：中国人开始追求免于恐惧的自由-

中国人开始追求免于恐惧的自由

女人天天被杀都激不起水花，雷洋死就激起千层浪！

童大焕：中国人开始追求免于恐惧的自由

新华社连发两篇评论追问

童大焕：中国人开始追求免于恐惧的自由

人大学生会秘书长郝鹏程说，雷洋嫖娼不是第一次。

人大法学院就雷洋案举行研讨会案情惊动联

昌平警方的行为完全合法！

嫖娼釣魚執法，坐地分贓

深度剖析雷某嫖娼案…

姜杰律师：雷洋案件管辖权的法律分析

雷洋案件之疑点-第4页-

雷洋案：守住私德的底线，恢复人性的的良知

嫖就嫖了，何必美其名——“被嫖娼”？|【新鲜茶馆】

雷洋案真相不难搞清，但很多人打死也不愿相信

央视：足疗女帮雷洋打飞机，帮助他射精你怎么看？

看“嫖资收据”雷洋嫖娼铁证！(图)

雷洋之死背后的阴谋论-

雷洋案真相不难搞清，可怕的是有人就是打死也不愿相信

雷洋之死背后的阴谋论

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文

不成为下一个雷洋：就要围观不悲观

蔡慎坤：血与泪的控诉还原雷洋遇害真相

对比家属报案书和警方通报再看雷洋致死案

雷洋惊天大推论——喊假警察居然为报信

觀察：徹查雷洋案誰是獨立方？

对比家属报案书和警方通报再看雷洋致死案

雷洋妻子正式报案：嫖娼是栽赃，致命处睾丸异常肿大_中华论坛_中华网社区-

转发雷洋案刑事报案书：描述死亡过程(真相即将到来)-衡阳

血与泪的控诉还原雷洋遇害真相-

雷洋事件：有百姓的信任危机，或许也有被利用！_中华论坛_中华网社区-

雷洋死亡当晚到底发生了什么？央视专访当事警察

雷洋妻子正式报案：嫖娼是栽赃，致命处睾丸异常肿大

雷洋家属向北京市检报案要求侦查涉事民警湖南人在北京-常德

雷洋家属向北京市检报案要求侦查涉事民警-

雷洋案「刑事報案書」細述雷洋之死經歷 | 刑訊逼供 | 暴力執法 | 大紀元

'他沒有嫖娼時間' 家屬報案指雷洋被無辜毆死

吴文萃(雷洋妻子)：关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋事件：有百姓的信任危机，或许也有被利用！

'刑事报案书'细述雷洋之死：外力伤害所致

雷洋是不是嫖娼不重要？扯淡！笔者用十点给某些人普法

雷洋死有余辜！

雷某的家人实在太不要脸了！

吴文萃(雷洋妻子)：关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋妻子报案，事件最新爆料！嫖娼是栽赃，雷洋被打死-休闲侃吧-

质疑雷洋案件十大疑点

[原创]雷洋遗孀之报案书等于官媒的死刑判决书

雷洋父母看完遗体后，为何当场给尸检证人下跪？

雷洋最新情报：“刑事报案书”描述雷洋之死经历

关于要求北京市检察院立案侦查雷洋被害案的刑事报案书(转载)

我们为什么要关注雷洋之死？

雷洋案刑事报案书-

雷洋案刑事报案书，警方涉嫌故意伤害（致人死亡）罪、滥用职权罪、帮助伪造证据罪-

转帖：雷洋妻子向北京市检察院报案：嫖娼是栽赃，雷洋被打死

雷洋死有余辜！

1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3）尸检结果延迟到60天出结果

一个昌平“嫖娼者”为何引燃了全国公众的怒火？（转）

陈有西律师曝雷洋案发现最新一个重要疑问

吴文萃(雷洋妻子)：关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

别忘了雷洋案中被抓的另五名嫌疑人

雷洋父母看完遗体向专家证人痛哭下跪

四川省纪委与厅纪委过去有结论吗？王书记上任后又是什么结论？-

求助帖：别忘了雷洋案中被抓的另五名嫌疑人 - 有啥说啥

那些声嘶力竭认为雷洋嫖娼该死的人，他们是些啥人？

雷洋事件昌平警方两份通报比较出的问题

别忘了雷洋案中另五名被抓的嫌疑人

父母看完遗体向专家证人痛哭下跪-常德

[原创]雷洋死亡案，已经形成死结

[原创]警察蜀黍为何喜欢抓嫖？

崔家楠律师认为：确定雷洋死亡的时间，比确定死亡的原因更重要！

歐陽南山：下一個雷洋是誰？

童大煥：中国人开始追求免于恐惧的自由-

[原创]雷洋，愿你的名字叫做公正与法治【猫眼看人】-

我们追问雷洋是怎么死的，他们却要证明他是怎么嫖的！

雷洋没有抗拒执法，铁证如山！证据就在此

一周新闻聚焦：雷洋之死掀起舆论风暴，各方谴责警方滥权

哀悼环保烈士雷洋|龙虎文苑

雷洋案：守住私德的底线，恢复人性的的良知

雷洋案：守住私德的底线，恢复人性的的良知(第7页)_关天茶舍_天涯论坛

雷洋案件的焦点应该回归到如何死亡的问题上_文学论坛_中华网社区-

雷洋案件的焦点应该回归到如何死亡的问题上_社会热点_中华网社区-

小区内现蛇窝:5条大蛇吓得消防员直冒汗(图)

程序正义高于实质正义的理念，规则重于道德的理念，生命高于一切的理念_胜利社区_东营论坛_油城茶座

雷洋的父母下跪为哪般？（原创）

明天就是5.16，大家还是说点什么吧

[原创]雷阳事件肯定不是跨区执法

雷洋案中，当事警察说谎了没有？

天啊——这位律师是在为雷洋鸣不平吗？！_中华论坛_中华网社区-

童大焕：中国人开始追求免于恐惧的自由-

女人天天被杀都激不起水花，雷洋死就激起千层浪！

雷洋案件的焦点应该回归到如何死亡的问题上

关注小人物的命运!就是关注自个命运!小人物之死网友理应关注

童大焕：中国人开始追求免于恐惧的自由

律师：事后搜集卖淫女的供词根本不能作为证据！

童大焕：中国人开始追求免于恐惧的自由

天啊——这位律师真是在为雷洋鸣不平吗？！

中国人开始追求免于恐惧的自由

雷洋案：守住私德的底线，恢复人性的的良知

我们关注雷某事件的重点：执法人员滥用职权、非法拘禁致人死亡_娱乐八卦_天涯论坛

律师从法律角度看雷洋案：警方认定嫖娼的事实不能成立-常德

雷洋案：守住私德的底线，恢复人性的的良知

雷洋之死击碎了中产阶级的优越感！

力瑾：还有多少国人在意雷洋案的真相？

人大硕士之死果然反转了，这小脸，抽得啪啪的响！(转载)(第35页)_娱乐八卦_天涯论坛

雷洋之死击碎了中产阶级的优越感！

致人民大学88级部分校友：看了你们的声明我很无语(转载)(第2页)_网罗天下_天涯论坛

律师从法律角度看雷洋案：警方认定嫖娼的事实不能成立_中华论坛_中华网社区-

雷洋案中案和常州毒地案有關係 ??

雷洋死于无知

雷洋嫖娼，谁嫖了法治？

【话题】关于垒洋之死的问答

通过雷洋案，都要洗干净自己的灵魂，多一份正能量，就少一份阴暗

如果雷洋案发生在美国

再次重复：雷洋死后谁是下一个?

人大法学院就雷洋案举行研讨会案情惊动联合国

狗哥评论雷洋事件!_天涯杂谈_天涯论坛

中国人民大学77、78级校友关于雷洋的声明

朋友圈骂交警“擦亮狗眼”被拘2日是执法滥权

雷洋之死或可推动社会三大进步

议雷洋之死

看了这么多人关心雷阳事件，我感觉警察存在钓鱼执法行为。_新闻众评_天涯论坛

雷洋屍檢釐清死因　校友發聲明轟警違法瀆職 - 東網即時

再次重复：雷洋死后谁是下一个?

戴套打飞机

雷洋怎么死的？

女人天天被杀都激不起水花，雷洋死就激起千层浪！

雷洋这事，关键看标题

雷洋之死牵动人大校友上百人联署声明要真相

雷洋案中案神秘便衣牵出常州毒地案

雷洋家属指警方误导公众

雷洋案新证据浮现：警察有问题

一周新闻聚焦：雷洋之死掀起舆论风暴，各方谴责警方滥权

“雷洋嫖娼”案惊动联合国

立此存照：雷阳的事情经过

BBC:雷洋之死背后中国人对中国没信心(图)

雷洋死后的人血馒头，不知道网上各位公知吃的好不好？

张鸣：雷洋之死

观察：雷洋事件舆论风暴眼中的盲点

朱征夫：卖淫嫖娼收容制度违宪，早该废

雷洋嫖娼案的所有证据都是事后补上？

为什么雷洋案这么高的社会关注度能持续一周时间？

重要质疑：就雷洋案请教昌平警方几个问题-常德

雷洋嫖娼案的所有证据都是事后补上？(图)

人大校友声明是粗暴干涉司法的恶劣行为

关注雷洋，也关注人民警察

”这份“公平正义”，雷洋听不到了，但我们必须感受到！

[原创]细思极恐，雷洋之死或有更深内幕

[原创]就雷洋案请教昌平警方几个问题

对比家属报案书和警方通报再看雷洋致死案

对雷洋家属说几句话

橫河：雷洋案為什麼應該懷疑警方

贪官雷洋嫖娼被抓,畏罪拘捕逃跑未遂身亡

雷洋死亡案铁证如山，雷洋没有白死

雷洋父母看完遗体向专家证人痛哭下跪

雷洋是不是嫖娼不重要？扯淡！笔者用十点给某些人普法_中华论坛_中华网社区-

【江西卫视】北京昌平的警方

雷洋尸体应严加监控，以防M帝下手

童大焕：必须全面还原并公开雷洋案执法过程

对不起，我并不想知道雷洋如何嫖娼-邵阳

大反转：目击者详述雷洋事发过程：警察没打人！请火速扩散！ (转载)_婆媳关系_天涯论坛

[原创]警方塑造出神一般的雷洋

雷洋案尸检初步结果出炉：等待病理结果警方回避不在现场

雷洋之死的看法_北京_天涯论坛

【调查】探访雷洋案'神秘'专家证人张惠芹

雷洋用牺牲捍卫一个公务员的尊严！！！！！

雷洋尸检超12小时家属请她全程监督

“雷洋事件”终于开了个好头

雷洋之死真相早己大白于天下(转帖)-

雷洋之死击碎了中产阶级的优越感！

滨州刑警支队原副支队长张惠芹，作全程见证雷洋尸

雷洋案：尽管真相还在路上，三种共识可以先到

雷洋没有抗拒执法，铁证如山！证据就在此

雷洋尸检超12小时警方回避家属坚持请她全程监

雷洋嫖娼案的所有证据都是事后补上？(图)

下一个雷洋是谁？

“雷洋嫖娼”案惊动联合国

十日谈；我想说几句了，关于何新的两篇文章_中华论坛_中华网社区-

雷洋案蹊跷中国官方的处理手段令人心寒

郭宝胜呼吁海内外人大校友都来关注雷洋案, 为雷洋讨取公道

[原创]雷洋没有抗拒执法，特证就在此。

雷洋是否嫖娼不重要？怎么就不重要了？！很重要好吗！_天涯杂谈_天涯论坛

中国人民大学77、78级校友关于雷洋的声明

看“嫖资收据”雷洋嫖娼铁证！(图)

警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 - 第2页 - 警务探讨

【麻辣舆情】人大硕士雷洋非正常死亡舆情分析-麻辣棱镜舆情通-

从目击者证言和记者调查的报道看被忽略的雷洋事件关键点

人大硕士涉嫖身亡死因蹊跷背后真相》给人民一个交代

应当理直气壮的为“暴力执法”正名！

他嫖不嫖娼关我屁事，我只关心他到底是怎么死的

雷洋“打飞机”能把自己打死吗？

家属澄清雷洋调查常州毒地等三传言

雷洋被强押致死案，槽点多多，警方说辞漏洞百出

时代尖兵：雷洋的官方背景值得关注！

雷洋案的焦点就是有没有受到粗暴对待？

雷洋真嫖娼了吗？ - 第2页

【相关】

《朝华午拾》总目录

相关专题：韩春雨事件
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-977111.html

上一篇：【deep parsing：“对医闹和对大夫使用暴力者，应该依法严惩"】
下一篇：【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】

http://www.netbase.com//democraticdebates2016/candidates_competitive_view.html

当前推荐数：12 推荐人：许培扬 武夷山 蔡小宁 魏焱明 黄永义 汤伯杞 徐晓 苏德辰 张阳阳 侯成亚 gaoshannankai aliala

发表评论评论 (14 个评论)

删除 |赞[12]liudongshen 2016-6-5 17:25: 警察为什么热衷这项事业？因为这项事业在中国首先具有道德制高点。违法不违法只是技术问题。莫须有的道德污点却在中国更具备杀伤力

删除 |赞[11]张阳阳 2016-5-15 09:57: 和某个教授一下，是恶法杀人。
这个嫖娼条例，压榨了失足妇女（她们都要直接或变相的缴纳保护费或罚款），恐吓了嫖娼者（如解决生理需求的雷洋同学），肥了某些部分的腰包，增加了社会的不安定因素（如强奸）。这样的恶法，还不能废除，大抵是披着道德的外衣吧。; 李维回复张阳阳：恶法杀人。不从根子上解决问题，悲剧不绝。

2016-5-15 11:421 楼（回复楼主）赞|

删除 |赞[10]dafwlg 2016-5-14 23:25: 围观此事件人群有各种心态：
1、哇！嫖娼！看看有图没？看看真正的嫖娼现场什么样的！满足一下猎奇心理，我还没嫖过呢！
2、哼！硕士也嫖娼吧！学习好怎么了，我当年一直学不好，一直被你们排挤，很自卑！
3、嫖娼被打死也活该！
4、嫖娼也不应该打死啊！

删除 |赞[9]gaoshannankai 2016-5-14 16:50: 雷洋一案-嫖娼问题是关键问题
http://blog.sciencenet.cn/blog-907017-976650.html
核心是嫖娼

删除 |赞[8]柳竹浠 2016-5-14 13:10: 让人想起2003年被活活打死的大学生孙志刚，从孙志刚到雷洋，不服从的代价就是死?
看看这次这么大的舆论事件怎么平息？

删除 |赞[7]yao101yao 2016-5-14 12:33: 这篇的分析真的很有意思。这可以从很多角度来分析这个问题。心理上的社会上的逻辑上的数据挖掘统计的

删除 |赞[6]赵锐 2016-5-14 11:45: https://www.youtube.com/watch?v=E2ZcdociKZI

删除 |赞[5]赵锐 2016-5-14 11:45: https://www.youtube.com/watch?v=CerUrdH1J5Y

删除 |赞[4]姚小鸥 2016-5-14 11:27: 圆饼如何读啊，不会。

删除 |赞[3]junkscience 2016-5-14 10:29: 当最后的结论与大数据不符合时，就是对大数据最不可靠，最不科学的审判

删除 |赞[2]魏焱明 2016-5-14 10:21: 我刚刚写了一个呼吁，欢迎好友及时推荐。
《“雷洋事件”是催生文明徭役抵罚和发展慈善机构的大好契机！》http://blog.sciencenet.cn/blog-2339914-977077.html

删除 |赞[1]蔡小宁 2016-5-14 10:21: 能不能对这些图做点解读？; 李维回复蔡小宁：那个没法自动化，要仔细研究数据。虽然工具很好用，可以从不同角度追踪、展示舆情和信息，但解读还是需要分析师的去粗存精、去伪存真。

2016-5-14 12:021 楼（回复楼主）

【社媒挖掘：美国大选候选人大战（1）：川普很臭】屏蔽留存

【社媒挖掘：美国大选候选人大战（1）：川普很臭】

屏蔽已有 6 次阅读 2016-3-18 04:11 |个人分类:社媒挖掘|系统分类:海外观察| 大数据, 美国大选, 川普, 挖掘, 社会媒体

这阵子一直忙于调试系统，好久没顾上做热点话题的舆情调查了。老友一直催我用大数据追踪一下美国总统大选。今年的美国大选，情势诡异，尤其是杀出一个不按常理出牌的共和党的川普，不少追随者粉他，恨他的人也很多。

这是几天前（周二前）做的美国大选半年以来的英文社会媒体的大数据调查，直到今天才得空整理上网分享。先给一个一个过去半年的大数据总结图。

人气评价（Net Sentiment）最高的是民主党的 Bernie，褒贬指数高达正45%，把其他对手远远抛在后面，第二名 Marco 21%，Beinie 的一半还不到，评价最差的是川普 6%.

难怪我女儿是 Beinie 的铁杆粉丝，不断催促我们给 Beinie 投票，不要让希拉里出线。我:

而话题大王，则非川普莫属，一亿五千多万的 mentions，23兆860多亿的眼球数，瑶瑶领先。

第二名的 Ted （眼球数8兆）只有眼球大王川普的三分之一

可见川普这个美国政坛的怪物掀起了怎样的一个风暴

普这个美国政坛的怪物掀起了怎样的一个风暴

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-963290.html

上一篇：【NLP笔记：人工智能神话的背后是汗水】
下一篇：【新智元笔记：强弱人工智能之辩】

《利用大数据高科技，实时监测美国总统大选舆情变化》屏蔽留存

《利用大数据高科技，实时监测美国总统大选舆情变化》

屏蔽已有 4209 次阅读 2015-10-14 08:42 |个人分类:社媒挖掘|系统分类:海外观察| 大数据, 美国, 舆情, 大选, 社会媒体

活生生的大数据，活生生的实时展示。

特别是两党内部总统候选人提名的政策辩论，以及两党候选人的几场总统竞选辩论，来自社会媒体（主要是推特）大数据的舆情实时监测，比传统民调高明许多：反映民情及时、准确、客观，数据点高出传统民调好几个量级。

下面的链接中，点击头像可以立马实时监测舆情的瞬时变化：http://bit.ly/1LiSXrg #NBDebate

This is our live social media monitoring for the debate. We did it before during the last election, and it is ridiculously making sense.

奥巴马赢了昨晚辩论吗？舆情自动检测告诉你:http://blog.sciencenet.cn/blog-362400-623922.html

如今，至少过去一个小时的实时舆情显示，喜大妈远落后于其他两位民主党候选人。点击三位候选人的头像可以立马看到各自的舆情指数 net-sentiment，反映的是他们的 popularity。

过去一个小时的舆情指数是： 10/13 2015 5pm

喜大妈：-22

http://www.netbase.com//democraticdebates2016/hillaryclinton_livepulse.html

Joe Biden：+39

http://www.netbase.com//democraticdebates2016/joebiden_livepulse.html

Bernie Sanders： +53

http://www.netbase.com//democraticdebates2016/berniesanders_livepulse.html

零下 22 度啊，怎么这么惨呢。我本来还指望她成为历史第一任美国女总，把社会主义的全民健康医保推向深入，并且推进移民改革，让技术移民更容易。

【相关博文】

奥巴马赢了昨晚辩论吗？舆情自动检测告诉你

世人皆错nlp不错，民调错大数据也不会错 2015-10-15

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-927997.html

上一篇：《立委科普：关键词外传》
下一篇：世人皆错nlp不错，民调错大数据也不会错

大数据淹没下的冰美人（之四）: 流言蜚语篇（慎入）

当前推荐数：2 推荐人：陈辉 陆泽橼

发表评论评论 (1 个评论)

删除 |赞[1]snofox 2015-10-23 11:37: 强大

大数据淹没下的冰美人（之二）屏蔽留存

大数据淹没下的冰美人（之二）

屏蔽已有 3216 次阅读 2015-5-13 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 范冰冰, 挖掘, 社会媒体

女神 or 妖精，总之不似人类

好，我们开始范冰冰的社媒深度挖掘，看看网友都怎么说她。

先看网友的赞美（绿字体）和吐槽（红字体）等情绪化评语的词云分布，显然是东风压倒西风：

分类总结前五类情绪评语如下。

先看赞誉，毫无悬念，迷恋她、惊艳其美和粉丝的溢美之词占绝大多数，见（1）（2）（3）：

(1) 喜欢, 爱,迷恋, 羡慕, 中意, 享受, 怀念, 惊喜,飞吻,?,相中, 看中

(2) QQ, 粉丝,给力,成功,最强,很火,不错,很好,最佳,可爱,受欢迎

(3) 美, 美爆, 绝美, 女神, 传奇, 完美,逆天，耀眼, 精彩, 更胜一筹

(4) 倾国倾城,性感,威武,强大,厉害,独特, 优雅, 经典, 华丽

(5) 支持, 欣赏, 赞, 夸赞, 看好, 期待, 关注

有意思的是（4）中系列形容词所发出的信息：把倾国倾城、性感厉害、优雅华丽与威武强大等集合起来，在当今华裔女星中是不多见的，她反映冰小姐的御姐女皇范儿给观众留下的印象，她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。

各花入各眼，萝卜青菜各有所爱，她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物，在排山倒海的网友和粉丝的赞誉中，自然也不免被吐槽，也分五类如下：

(1) 不喜欢, 吐槽, 讨厌, 抱怨，烦, 骂, 恨, 气，不爱, 不欣赏, 不羡慕，失望, 无语, 受不了，无法忍受，
大跌眼镜，大失所望

(2) 质疑, 怀疑, 鄙视, 讽刺, 嘲讽, 不接受, 批评, 不关注, 抵制, 看不上, 看不惯，不看好，看不起

(3) 不美, 不好, 差, 破, 不怎么样,不完美, 不行, 没多美,没有我美，算不上一流,一无是处, 不给力

(4) 低能儿蠢货, 不要脸，我操，垃圾，变态，傻逼，坑爹，这么狗血，最不要脸, 恶心，鸡肋，操, 吓人,
美个屁,挖鼻屎,白痴，二货

(5) 还不如现在的张馨予,还不如穆婷婷可爱,太胖,臃肿，

第一类表达各种程度的不喜欢不欣赏，第二类是各种鄙视看不惯，第三类酸溜溜的多少带有嫉妒的不屑，这些大多是口味问题，或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了，这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映，你美了就骂你蠢，你急智就骂你丑，总之是无冤无仇也要骂娘，特别是要骂名人。倒是第五类的负面信息最为具体，说她不如张美人穆美人（张穆都是啥妖精，怎么从来没听说过，演过啥，没有一丝印象），说她太胖臃肿，虽然明显有偏见，却也不是空穴来风。

为了过来看看

@素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱...

路人乙

@OMGrz

人总是健忘的 RT @zmt0516: 记得当年范冰冰的名声还不如现在的张馨予，现在已经被公关团队刷成女神之神了。。。

大中华合众国

@greatzhonghua

#freedom #民主范冰冰黄裙现身体态臃肿群众爬墙头睹芳容组图 http://t.co/xprlcS1RdE

总体来看，情绪化用语无论正面负面，大都当不得真，只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由，为什么喜欢或者不喜欢她？这类细线条的深度舆情挖掘，我们留待下一篇博文给您提供。

【大数据淹没下的冰美人】的系列博文链接：

大数据淹没下的冰美人（之一）

大数据淹没下的冰美人（之三）: 喜欢的理由

大数据淹没下的冰美人（之五）: 星光灿烂谁为最？

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-889610.html

上一篇：大数据淹没下的冰美人（之一）
下一篇：吐槽：电话回访

Peng Liyuan, China's glamorous new First Lady - CNN.com

当前推荐数：2 推荐人：刘淼 bridgeneer

Chinese First Lady in Social Media 屏蔽留存

Chinese First Lady in Social Media

屏蔽已有 3139 次阅读 2015-6-14 14:40 |个人分类:社媒挖掘|系统分类:科研笔记| first, Lady, Peng, Liyuan

I showed the First Lady's news pictures to my daughter. She was so intrigued, "Dad, Mom told me that you used to teach First Lady many years ago, is that true?" "It is true, but that was only a short time, one or two semesters, and it was not her major course. As a part-time lecturer, I was teaching Advanced English to graduate students in the music conservatory and she happened to be one in my class. She was already famous then as a new star for folk songs." Tanya got excited, "Well, you never know, maybe her English training in graduate school helps her in state visits today. My Dad is cool." She continued, "Dad, Mom also told me that you were interpreter for foreign minister when she dated you, is that true?" "Well, that was largely an accident, only happened once when I substituted some professor to act as interpreter for the former foreign minister and former Chinese congress vice-chairman Mr. Huang Hua. Your Mom agreed to date me partially because of her seeing a picture of me interporeting for the VIP Mr. Huang. So I guess I benefited from that 'accident'." Tanya was amused and felt very proud, "I have the coolest Dad in the world. He was so successful even when he was young, teaching future first lady and interpreting for the then foreign minister. Wow."

The personal story aside, Chinese social media are never short of coverage and fans of Chinese First Lady Mrs Peng Liyuan in the last few years. For too long China watched the western media covering first ladies in the US and other countries without being able to brag about its own. Since Mrs. Peng went on the spotlight and accompanied Chinese President Xi Jinping on world trips, the Chinese netters have been overjoyed to follow her all the way with compliments and amazement in her gracefulness. Mrs. Peng has been a star in the Chinese music industry for decades and knows how to present herself in the public. A more recent story came from APEC last year when the Russian president Putin was seen to stand up, gracefully placing a blanket around the shoulders of Chinese First Lady, too gentleman an act that triggered waves of online comments.

Using our own text mining tool, we collected one year Chinese social media data to see what the public image looks like for the First Lady. Overwhelming praises and admiration, on her grace, intelligence and personality, with almost no negative comments. The only eye-catching criticism that was uncovered involves early days of Peng Liyuan "wearing fat army trousers (穿肥大的军裤)", which seems not to be something that agrees with first lady's image in people's mind. (It turned out that this was a story about the First Lady's dating the president long ago when she wanted to test the present if he was only attracted to her appearance by wearing not as nice on purpose.

The story got spread all over the net.) But look at the Photo News today, First Lady is now leading the fashion trend of China.

科学网—【社媒挖掘：第一夫人光彩夺目赞誉有加】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-897928.html

上一篇：说“多层剃刀”
下一篇：Automated survey based on social media

社媒挖掘：央视的老毕屏蔽留存

社媒挖掘：央视的老毕

屏蔽已有 3138 次阅读 2015-4-9 16:57 |个人分类:社媒挖掘|系统分类:人文社科| 毕福剑

Chinese TV star Bi Fujian caught on tape privately insulting Mao, which triggered a huge political debate in social media between the leftist and the rightist. China is presently stuck between post-Mao era entering modern society with limited speech freedom (at least on private occastions) and the totalitarian government inheriting Mao's legacy, hence the regulatory pressure to the star himself suspending his job for 4 days. Bi's speech would have made him sentenced to death or life in prison in Mao's time.

这两天微信老有提到他，今晚美国中文电视也报道了，据说社会媒体闹翻天了，于是想到做个舆情自动调查。

本来是私底下对毛时代和毛本人的打趣开涮，没想到闹到了网上，加上这个话题对于左右两派的敏感性，一下成了热点。

下面是针对内容商给我们提供的一周简体中文社会媒体（可惜，不含微信：万能的微信，你什么时候在不侵犯隐私的情况下开放哪怕部分数据，好让民情上达周知？）的自动调查结果，用的是咱独家自然语言挖掘技术。

负面多于正面，老毕形象严重受损：

wow 够上纲上线的，倒退四十年，老毕有十个头也不够杀的：

一周的媒体热议曲线：

看一周褒贬度的图示如下，毕姥爷的社会媒体形象陡然下跌：

下面是一周的情绪烈度图，可见正反吐槽越演越烈：符合咱老中爱吵架的习惯

吐槽样本：

旗帜鲜明支持毕福剑!

你们可以继续喜欢毕福剑。

[哈哈] 毕福剑老好人?

旗帜鲜明支持毕福剑!

毕福剑没错

毕福剑快去死吧!

毕福剑, 骂的客观!

十分认真地支持毕福剑先生

立场坚定支持毕福剑!

毕福剑无罪

不喜欢毕福剑, 老流氓架势

鄙视毕福剑

毕福剑该死

毕福剑作死啊

支持毕福剑

毕福剑, 变化多端.

毕福剑火了!

毕福剑该出来道歉

感谢毕福剑敢于捅破了窗户纸

狗操的毕福剑, 去死吧

毕姥爷瞎说什么大实话

毕福剑交友不慎啊。

毕福剑为什么辱骂毛泽东?

毕姥爷叛国了·

毕福剑明天就死。

毕姥爷作死啊!

毕姥爷瞎说啥实话

应该引起重视, 坚决批判毕福剑。

支持毕福剑!

支持毕姥爷

央视的毕姥爷这下更火了。

毕姥爷威武

特别讨厌毕福剑

cctv就是仃办也不能再用毕福剑这样的流氓主持。

毕福剑此事定义准确!

毕福剑是民族英雄, 不畏强暴。

严惩辱骂毛主席的毕福剑

难道毕福剑真能一手遮天?

毕姥爷还是很有才的

毕福剑真的死了吗。

毕姥爷是在嫖娼吗

毕姥爷又火了一把

[哈哈] 毕福剑现象, 中央应该反思!

毕福剑言论不雅视频竟口无遮拦公然骂毛泽东

网上舆论因此哗然, 纷纷指责毕福剑当面一套, 背后一套。

毕福剑是真正男子汉, 正直中国人全支持他.

[哈哈] 毕福剑这样的党员在为谁歌唱!

毕福剑诋毁伟人和先烈必须严惩

[哈哈] 毕福剑的酒桌表演为什么不能容忍?

只怪毕福剑交友不慎, 好事者用心不良。"

这是毕福剑作死的节奏。

毕姥爷叛国了···

毕福剑并非第一次"惹事"。

不作死就不会死毕福剑原形毕露, 就是老兵里的垃圾。

毕福剑言论不雅视频, 竟口无遮拦公然骂毛泽东。

狗操的毕福剑, 被车撞死了。

我喜欢老毕

东北人支持毕福剑

开始支持毕福剑了

强烈要求央视开除侮辱谩骂毛主席的坏蛋毕福剑!

很喜欢毕福剑。

赞毕姥爷!

毕姥爷威武!

从此鄙视毕福剑......

从此鄙视毕福剑!

看来毕姥爷央视的饭碗堪忧。

[哈哈] 有人说毕福剑是酒后吹牛逼不必上纲上线。

毕福剑骂的太好了, 比我骂的有影响力。

喜欢这条评论毕福剑诋毁伟人和先烈必须严惩

话糙理不糙, 支持“毕姥爷”!

我还是觉得毕姥爷厉害来自QQ浏览器快速回帖

谁敢处分毕福剑必无好下场.

毕福剑的酒桌表演为什么不能容忍?

毕福剑嫖娼的日子不远了。

毕福剑公开侮辱人不用负责任吗?

面对公众人物毕福剑的信口开河你怎么看

毕福剑是媒体人的光辉榜样。

毕福剑侮辱领袖必遭鞭刑。

毕姥爷的形象瞬间伟岸起来。

毕福剑无罪, 发视频的应该重判

毕福剑, 死啦死啦的。

你毕福剑应该向全国人民谢罪...

毕福剑毕姥爷交友不慎遇人不淑, 被人陷害于不仁不义。

官媒: 毕福剑侮辱开国领袖应受公众的谴责图

央视大腕不能人模狗样毕福剑是媒体人的光辉榜样。

央视对毕福剑处理的越严重, 毕福剑的声誉就会越高;

毕福剑万岁, 万万岁.

资料来源：

【相关】

社媒挖掘：老毕私下辱毛事件再挖掘 2015-04-12

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-881109.html

上一篇：吐槽系列：企业的良心，消费者的鉴赏水平
下一篇：下周二在哈佛医学院应邀给个大数据挖掘talk

http://news.ifeng.com/history/minjianshuoshi/hemufeng/detail_2009_12/16/320005_0.shtml

当前推荐数：5 推荐人：刘全慧 戴德昌 陈辉 yangb919 bridgeneer

发表评论评论 (6 个评论)

删除 |赞[3]王恺 2015-4-12 09:30: 老毕说啥是他的自由，尤其是在私底下。但是我同意网上有篇评论说的，老毕若不喜欢毛，不喜欢共产党解放军，你完全可以不入党，老毕你不能享受着体制和执政党地位给你个人带来的实惠，还来反党。现在党内充斥着这样的人，各种大大小小贪官在下台前，甚至就在被抓得前一天都还人模狗样的站在主席台上说着自己心里都不相信的话。; 李维回复王恺：此话有理，心口如一是基本的私德。不过，这种现象在东土甚多，大概不仅仅是私德的问题。有多少环境使然的因素值得社会学家研究，并逐步推动道德改良。

2015-4-12 21:351 楼（回复楼主）赞|

删除 |赞[2]yangb919 2015-4-10 09:22: 现在看来,此事很不简单

删除 |赞[1]yangb919 2015-4-9 17:08: 倒退四十年,老毕成了老毙; 李维回复杨波：对于文明社会，这种私下调侃无论怎么过激根本就不是事儿。偷拍并散布的人才是别有用心的小人（据传有敌情？）。当然，这些调侃的确会触犯不少思想或感情停留在毛时代的人，引起反弹是必然的。

2015-4-10 07:241 楼（回复楼主）赞|; 李维回复杨波：做个不甚恰当也不离谱的比较，当年璩美凤的性爱光碟也是如此，璩美凤本人的私生活被偷拍，本来不是事的璩小姐的私生活被不良记者刊物广为渲染传播。

2015-4-10 07:342 楼（回复楼主）

社媒挖掘：老毕私下辱毛事件再挖掘屏蔽留存

社媒挖掘：老毕私下辱毛事件再挖掘

屏蔽已有 3570 次阅读 2015-4-12 00:22 |个人分类:社媒挖掘|系统分类:人文社科| 央视, 主持人, 毕福剑, 开涮

毕福剑事件持续发酵，今早起来再做一次中文简体社会媒体的自动民调，发现有些微妙的变化。

我把两天前的调查曲线图（区间是四月二号到四月九号）拷贝在下与现在做的（区间是四月四号到四月11号）做个比较。

（1）热度：

四月二号到四月九号媒体热度曲线图

四月四号到四11号媒体热度曲线图

(2) 媒体形象趋向：

褒贬曲线（net sentiment）对比发现毕姥爷形象大损后，四月九号到低谷，这两天又开始显著回升

怎么回事？公关道歉开始收效，还是右派群众（挺毕派）开始有效反击？

四月二号到四月九号媒体褒贬曲线图

四月四号到四月11号媒体褒贬曲线图

（3）情绪烈度变化图：最奇怪的是吐槽情绪本来越演越烈，两派互骂炽热化，居然从四月九号开始明显收敛，是网众重归理性，还是过激帖子被批量删除？

四月二号到四月九号媒体情绪烈度曲线图

四月四号到四月11号媒体情绪烈度曲线图

当前推荐数：2 推荐人：武夷山 bridgeneer

发表评论评论 (7 个评论)

删除 |[7]用户名 2015-4-12 08:19: 评论已经被科学网删除

删除 |赞[6]huangnigang1 2015-4-12 04:01

史上第一个告密者：商纣王时代的崇侯虎

删除 |[5]用户名 2015-4-12 03:41: 评论已经被科学网删除

删除 |赞[4]huangnigang1 2015-4-12 03:24

五月，丙寅，禁天下屠杀及捕鱼虾。江淮旱，饥，民不得采鱼虾，饿死者甚众。右拾遗张德，生男三日，私杀羊会同僚，补阙杜肃怀一啖，上表告之。明日，太后对仗，谓德曰：“闻卿生男，甚喜。”德拜谢。太后曰：“何丛得肉？”德叩头服罪。太后曰：“朕禁屠宰，吉凶不预。然卿自今招客，亦须择人。”出肃表示之。肃大惭，举朝欲唾其面。

译文
五月初一，国家下令禁止天下宰杀牲畜和捕捉鱼虾。江淮地区天旱，粮食不收，人民又不能捕鱼捉虾，饿死人很多。
右拾遗张德，家里生个男孩儿，办喜事，私下宰了只羊请同事，补阙杜肃藏起个肉饼，事后上书告发。第二天，太后在朝堂上跟张德说：“听说你生个男孩儿，挺高兴。”张德跪拜致谢。太后说：“你从哪儿弄来的肉？”张德实说了，叩头服罪。太后说：“我禁止屠宰，而喜事丧事不受干预。不过你以后召请客人，也应该有所选择。”拿出杜肃的奏表让他看。弄得杜肃无地自容，整个朝廷的官员们都要啐他的脸。

《资治通鉴》第二百零五卷长寿元年（壬辰，公元六九二年）

删除 |赞[3]huangnigang1 2015-4-12 03:18

　　中国古代帝王中，不少人颇有佛缘，女皇武则天便是其中一位。武则天推崇佛教的目的，是想把佛教当作自己登上权力顶峰的思想武器。她一当上皇帝，便宣布“释教开革命之阶，升于道教之上”。除划拨专款大修寺庙，大造佛像，大量翻译佛经外，还多次用行政手段掀起全民崇佛的热潮。在强制性的全民崇佛运动中，有一道禁杀牲畜、禁捕鱼虾的命令，曾闹出了不少趣闻。

　　不杀生是佛教五戒之一，是佛门弟子基本的行为准则。但不准普通老百姓吃肉，实施起来无疑有很大难度。为了查验禁屠令的执行效果，武则天特命宰相娄师德下基层巡视。宰相视察工作，基层官吏自然要设宴接待。宴席上，首先送上来的是一盆羊肉。基层官吏解释说：这羊不是我们杀的，是狼咬死的。既然是狼咬死的，吃了当然不算犯禁。接着送上来的是一盘鱼。基层官吏又声明：这鱼也是狼咬死的。娄师德一听喷饭大笑：你咋这么笨呢，应该说这鱼是水獭咬死的才对。欢笑声中，美味佳肴很快成了腹中之物。

　　由于“上有政策，下有对策”，武则天的禁屠令在基层的执行状况估计不会太理想。事实上，古往今来的任何一项政令，如果不得人心，最终结局必定是草草收场。后来，武则天大约也觉得这个禁令有点过分，因而在处理违禁案例时，对当事人十分宽容。

　　左拾遗张德的妻子生了一个男孩，便偷偷地杀了一头羊宴请宾客。其中有个叫杜肃的人，饱吃一顿羊肉之后，居然写了一纸状文向皇帝告发张德。

　　第二天上朝时，武则天对张德说：“你妻子生了一个男孩，可喜可贺啊。”张德向武则天拜谢。武则天又道：“可是羊肉从哪里弄到的呢？”张德赶紧叩头连称死罪。武则天道：“我禁止宰杀牲畜，是吉是凶难以预测。可是你邀请客人，也该有选择地交往。无赖之人，不能一起聚会。”然后拿出杜肃的状文给他看。杜肃卖友求功不成，反遭奚落，吓得直冒冷汗。武则天显然认为杜肃出卖朋友事大，而张德违犯禁屠令事小。由此可见，连武则天自己后来都不把禁屠令当回事了。

　　还有一桩趣事。一天，洛阳定鼎门外翻了一辆草车，藏在草车上的两只被杀的羊顿时露了馅。这无疑犯了禁屠令。目睹此事的护门人立即将线索报告御史彭先觉。彭先觉可能晚来了一步，没能抓到拉草车的人，便想把责任推到别人身上。他上书给皇帝说：“合宫尉刘缅专门管理屠宰之事，他没有觉察到这件事，应罚他吃一顿棍棒，羊肉则可送给尚书省的官员们吃。”刘缅听说后很是害怕，赶紧做了一条加厚的裤子等着打屁股。没想到，第二天武则天在彭先觉的奏疏上批示：“御史彭先觉奏请杖打刘缅的意见不妥。羊肉应给刘缅吃。”消息传开，满朝官员皆拍手称快，只有彭先觉羞惭不已。

删除 |赞[2]huangnigang1 2015-4-12 03:14: 武则天有一阵子禁止屠宰牲口。有个叫张德的右拾遗，因为喜得贵子，便违禁宰了头羊，宴请朋友同事。同事中有个叫杜肃的，吃了一顿之后就跑去向武则天告密。第二天朝会，女皇将杜肃的告密信交给张德，然后告诉他：卿今后请客，还是小心一点，那种前头吃了好酒菜一转身就去告密的小人，就不要请了。

删除 |赞[1]eat 2015-4-12 01:56: 还来啊，外松内紧，这阶段骟贴疯狂您没看到？那个当心小王爷暴怒了出去抓人杀了炖。

自动民调Walmart，挖掘发现跨国公司在中国的日子不好过屏蔽留存

自动民调Walmart，挖掘发现跨国公司在中国的日子不好过

屏蔽已有 4784 次阅读 2014-6-16 14:57 |个人分类:社媒挖掘|系统分类:科研笔记| 跨国公司, 沃尔玛, 挖掘, 社会媒体, Walmart

最近用自家产品做了一次关于沃尔玛的自动调查，总体来看，沃尔玛这个品牌似乎蛮受欢迎的，正面评价为主，褒贬指数达到正48，是相当不错了。指责抱怨也有，主要针对一些负面事件（狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等）。进一步挖掘（drill down）发现了令人惊奇的现象：好话大多是网民自发的评价，而挖掘出来的负面信息几乎一律出自国家新闻机构（CCTV等）的报道。社会媒体挖掘的本意是自动民调，了解客户对于品牌和产品的意见，正式新闻有机构或国家宣传的因素在，是应该加以区分的。可是目前，这种区分还做得不好，很多有影响的传统媒体的新闻被反复在社会媒体中转发传播，与民意混杂在一起。

Some further analysis and findings:

1. The existing data are not very large (400k mentions a year), but the results make sense with decent data quality

2. From geos stats, we know most data on Walmart come from China (dark color) instead of overseas sources

3. From domains stats, the data actually include data from Sina Weibo (weibo.com) and Tencent Weibo (t.qq.com) although the data flow from these two important Microblog sources is not stable at this point. Also the domains stats show that the major domains are all from China. I know that Walmart is a very influential brand in China and has many stores in cities of China.

4. The net sentiment 48% is fairly high, which is reflected in the emotions stats （data quality very good）: big green fonts emotional terms include 放心 (piece of mind)，喜欢 (like)，乐 (happy)，支持/推 (support)，很好 (very good), 不错(not bad)，成功 (success) etc. The negative emotional words (in small red font) are not many, including 差劲 (bad)，抱怨 (complain)，不喜欢 (dislike)，垃圾 (garbage)，很一般 (very so-so: meaning not as good as expected).

5. In the proscons word cloud, the likes include money-saving （省钱/便宜）and first-class service（服务一流）; more interesting insights come from the dislikes, including (1) fake beef (using fox meat 狐狸肉事件); (2) recall (召回some product?); (3) cheating（欺诈）; (4) scandal（丑闻） etc.

6. In order to drill down to see what negative incidents led to the above dislikes, the Walmart_con_sample shows some related sound bites which look like negative news on some incidents: 1^st sound bite reports CCTV news on Walmart’s fake alcohol and fake meat (using fox meat) incidents; 2^nd sound bite reports using fox meat to fake beef and donkey meat and using chicken to fake beef in the sold burgers at its Sam’s Club; the third sound bite reports three incidents of Walmart at different times and its apologies, including using cheap frozen meat to fake organic green food; using cheap fox meat to fake beef; and its lack of quality control in importing low quality products for sale, having issued 200 permits within 7 years for disqualified products to be on shelf.

7. Note that the above sound bites are selectively collected to show that our system can indeed capture detailed negative incidents of the brand in the media. When I drill down, there are quite some duplicates in our sound bites (one bad news gets re-posted everywhere); another thing is that the negative comments are not mainly from social media users, but from news (state-run news which get posted in social media too).

8. Unlike the overwhelming positive terms in emotions word cloud and the summary, the behavior word cloud shows more or bigger negative behavior terms than the positive terms. This is understandable because of the heavily reported incidents as shown above in the sample sound bites. Eye-catching negative behavior terms include “revealed”（被曝）, “take to court”/”being sued”（告上法庭）; “closed”（关闭）; “have to take off shelf” （下架）etc.

9. From the above negative behavior terms, I drilled down to see more details in the sample sound bites below, which is similar to the sample discussed in 6. These two sound bites both come from negative news of Walmart, which originated from traditional news and got spread all over Internet.

中国新闻媒体对美国的跨国公司的负面报道跟民意没什么关系，倒往往由某种国际关系的大气候所致。当年为了打压谷歌，硬是给谷歌搜索按上了黄色监管不力的莫须有的大帽子，无视国内的搜索、视频和很多其他网站黄色泛滥到令人发指的露骨程度。欲加之罪，何患无辞。

不仅如此，最近还听说，由于中美相互指责对方利用网络偷窃情报，IT 业关系恶化，以至于谷歌和苹果等公司在中国遭到进一步打压，连做学问的信息利器 Google Scholar 都被封杀了。造孽啊，城门失火，殃及池鱼。

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-803837.html

上一篇：世界杯是全世界的热点，纵不懂也有义务挖掘一哈
下一篇：《李老夫子遗墨》主要编纂者何秀柏后人网上留言存录

当前推荐数：10 推荐人：武夷山 李世春 章成志 孙平 陈筝 周云圣 强涛 高建国 fumingxu bridgeneer

发表评论评论 (13 个评论)

删除 |赞[10]davidli91 2014-6-17 13:17

唠叨几句个人意见，仅供参考：

博主回复(2014-6-17 02:07)：对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音，技术手段终究可以对付。
......五毛因为只拿五毛，急工出糙活，应该有迹可寻的。反过来看，一个“有实质内容”的帖子，出自五毛的可能性极低。......
......一般而言，认证客户至少要顾及自己的信誉。 ......
=====================
"凡是程序自动做的噪音，技术手段终究可以对付。"---完全同意。
而后两点，有待商榷：
因为简单粗糙的五毛评论(读者还是可以区分一点的)给"雇主"带来的不是"美誉度"而是"毁誉度"，故此，做新媒体推广的广告公司中的招商文稿中往往会特别声明是“有实质内容”的，或由“大V”推广！当然，要价也高出了很多很多。
还有就是往往不是一次性集中发多少评论，而是一段时间内发多少篇等等，“定价规则”很灵活。

感觉做民调，要特别注意“沉默的大多数”，才不会走偏。

大数据<>高准确性(高可信)！

科学的做法应该是考虑样本群体与对象群体的差异才有意义，特别是在差异巨大时。
就拿大型超市而言，相信绝大多数顾客不会因为买到了一件低价的商品而去某个网络媒体给个好评（潜意识中大型超市应该低价？），只有有了矛盾，才会感到“店大欺客”，想去找个地方“说理”。因此，排除“官方噪声”，差评>>好评似乎应该是正常现象。
再拿所谓的“淘宝信用”来说，用真实的快递单(最有实质内容了)来刷淘宝店信誉已成了公开的“行业秘密”；因此，又有了“天猫”，“1号店”等等的诞生。

删除 |赞[9]刘灵通 2014-6-16 17:09: 李维老师，恕我愚钝，找不到线索... 最小线索都找不到。。。; 李维回复刘灵通：这就对了。这是科学网，探讨科学技术的地方。我只管技术，力求做全世界最好的技术。技术做出啥产品，产品卖得如何，无需我操心，更不用我广告。再说了，科学网这地儿，都是书生，能用得起高技术产品的，寥若晨星。

2014-6-17 01:461 楼（回复楼主）赞|

删除 |赞[8]刘灵通 2014-6-16 15:59: "最近用自家产品做了一次" 请问李维老师，“世界杯是全世界的热点，纵不懂也有义务挖掘一哈”也是“自家产品”的杰作么？那么这个“自家产品”能否给个线索让我了解了解.; 李维回复刘灵通：有意不做品牌宣传。不想让人觉得在做广告。
别处可以查到的。

2014-6-16 16:141 楼（回复楼主）赞|

删除 |赞[7]davidli91 2014-6-16 15:42: [6]李世春 2014-6-16 15:36
尖端课题，如何从大数据中剔除五毛的贡献？
=====================
确实不易，再多说一点点：
"单纯好评"的"单价"和"短文好评"的"单价"要差10倍左右。"雇主"也知道要"优质优价"的。; 李维回复李斌：对付水军和五毛确实是中国社会媒体自动处理的一个关卡。
凡是程序自动做的噪音，技术手段终究可以对付。

而五毛则麻烦多了。如果人都区分不了谁是五毛，谁是良民，那么也别指望机器了。不过，五毛因为只拿五毛，急工出糙活，应该有迹可寻的。反过来看，一个“有实质内容”的帖子，出自五毛的可能性极低。怎么裁定“有实质内容”呢，信息论的指导可以帮助分类识别内容的丰富程度。这也是一条思路。

再一点，五毛由于工作的本性，是不可能成为认证用户的。在大数据条件下，也可以只采样认证客户的帖子，以确保不受水军五毛的影响。一般而言，认证客户至少要顾及自己的信誉。

2014-6-17 02:071 楼（回复楼主）赞|

删除 |赞[6]李世春 2014-6-16 15:36: 尖端课题，如何从大数据中剔除五毛的贡献？

删除 |赞[5]davidli91 2014-6-16 15:30: [4]李世春 2014-6-16 15:26 楼下？
大公司也雇佣五毛？
============
五毛的主力“雇主”是财大气粗的主。不然，这个行业早死了。
当然，“雇主”会和一个广告公司签一个XXX形象推广合同。

删除 |赞[4]李世春 2014-6-16 15:26

楼下？

大公司也雇佣五毛？

删除 |赞[3]davidli91 2014-6-16 15:23: "好话大多是网民自发的评价", 您知道发一个好评多少钱吗？大公司有公关部的。

删除 |赞[2]李世春 2014-6-16 15:21

这个吗？

天知地知你知！'

删除 |赞[1]fumingxu 2014-6-16 15:13: 怎么挖掘的？不明觉厉！

[转载]ZT：牛津大学王宁博士：大数据与有限理性屏蔽留存

[转载]ZT：牛津大学王宁博士：大数据与有限理性

屏蔽已有 3069 次阅读 2014-8-16 23:10 |个人分类:社媒挖掘|系统分类:人文社科| 大数据, 牛津大学, 股市预测, 有限理性, 王宁博士 |文章来源:转载

大数据似乎在一夜之间迅速走红，它势不可挡地冲击着金融、零售等各个行业。
云计算将如何改变计算的世界？未来将有怎样的应用前景？如何解决“信息孤岛”的问题？
大数据又将如何提高我们决策的准确性，帮助我们更准确地预测未来？

牛津大学互联网研究院研究员王宁博士分享了《大数据与有限理性》。

大数据与有限理性

要生存还是要毁灭，这是个值得思考的问题，它道出了我们所有人一个共同的难题，就是选择，很多人都惧怕选择，有些人有选择恐惧症，特别是面对一些关于人生、事业、爱情这种重大选择的时候，我们往往看不清楚未来，算不清楚得失，不知道该怎么选，有时候非常纠结。上至一个国家的领导人，大政方针的制定者，再至很多公司的管理层，最后到普通的老百姓，选择可能都是每天需要面对的一个问题。

人类是如何进行选择的呢？早期的经济学家认为人类是理性的，这也就是亚当·斯密在《国富论》中论述的，市场是一只看不见的手，每个人在他个体利益最大化的同时也达到整个群体的利益最大化。然而经济学家可能往往都生活在理性的乌托邦中，当我们的脑科学家在解剖，打开人的大脑后，发现人的大脑是一个异常复杂的系统，是一个复杂性网络，它可能有上亿个节点，可能是迄今为止最复杂的一个系统，正是因为它的复杂性导致了人类很多的行动都是不可知的，也是不可预测的。所以，从另一个方面讲是非理性的。

我们今天讨论的可能是一个有限理性的理论，行为经济学理论，介于理性和非理性之间，人类的理性受制于很多外部条件的限制，最重要的外部条件就是信息，你获取到什么样的信息将直接影响到你所做的选择。

2013年4月23号黑客给Twitter发布了一条虚假信息，白宫有两次爆炸，奥巴马受伤，我们可以看到美国道琼斯指数在相同的时间段应声下跌近140点，这也可能是人类历史上第一次通过社交媒体影响到整个股市行情的崩盘。

信息会影响股市的走向。波士顿大学的一个研究团队分析了从2004年到2011年道琼斯指数走势跟谷歌趋势的相关性，每次股市剧烈的变化伴随而来的都是搜索量急剧的增加。

利用这个策略，他们设计了一个基于谷歌搜索引擎的交易策略，这个策略使用的一个关键词就是“负债”。这个交易策略很简单，当搜索引擎的数据量减少的时候，我们就可以买进下一个星期的道琼斯指数，当搜索量增加的时候，我们卖出下一星期的道琼斯指数。

我们可以很明显地看到蓝色的线是谷歌的交易模型创造的，如果套用这个交易模型，最终它的投资收益率是300%,你投资一块钱，最后能够收回三块钱。红色的线就是你买了这个指数之后一直放在那儿，实际上收益是非常低的。这证明搜索引擎，包括社交媒体的很多东西能够帮助人类做很多决定，也就是今天汤道生先生谈到的怎么利用大数据帮助人类做一些决定。

相同的研究还包括一篇发表在《自然》杂志的文章，关于面向未来的指数，它做的方式是利用搜索量，比如今年的搜索量，明年的搜索量和前年的搜索量。它用明年的搜索量除以前年的搜索量，未来的数据除以过去的数据，这个数据就是基于未来的指数。

通过相关的模型，我们可以发现这个基于未来的指数跟每个国家的GDP有很好的正相关性，从另一个方面讲，当一个国家的国民或者网民更加的偏向于搜索未来的东西，那这个国家的经济情况往往是比较好的。

2012年我跟牛津大学互联网研究院（OII）的一个同事马克一起做了一个基于英国洪水的可视化分析，可以看到在大家左手边的这个是英国官方气象局的一个降雨量的分析，而右边是我们把所有的相关时段内在Twitter里跟洪水相关的信息下载了之后分布到地图上。我们可以看到在一些洪水特别泛滥的地区，我们的图形跟英国的官方的图形有很好的吻合，但是有很多地方也是没有的，可能网上没有这种信息。但是好处是我们数据是实时的，能实时分析出洪水分布的情况，官方的数据可能要等到好几个星期以后。所以，社交媒体的很多数据能帮我们做一些自然灾害预防的决策。

2012年我们做过一个关于美国大选的分析方案，当时美国有两个候选人，罗姆尼跟奥巴马，我们把所有大选之前一个月的跟罗姆尼和奥巴马相关的Twitter上的信息都下载之后，按美国每个区的分布做成了一个可视化图。大家都知道美国的总统选举是选举人制度，就是根据每个州的投票所决定的，我们在美国大选之前已经明显的可以看出网上讨论奥巴马的要远远大于讨论罗姆尼的，基于此我们预言奥巴马的胜算更大一点儿，我们把提到奥巴马的数据和罗姆尼的数据进行对比，52.4%有关于奥巴马，47.6%有关于罗姆尼。下面是大选之后官方的数据，两个数据有很大的相似性。

当时我们这个结果发布出来以后，很多政治评论家都怀疑，说罗姆尼不可能赢得马萨诸塞州的选举。而且奥巴马赢得得克萨斯州的选举也是很多人预测不到的，但是最后结果证明我们的数据对这两个州的分析都是正确的。

Facebook做了一个关于社交网络中人的行为传播的实验，号称是迄今为止最大的一个实验，分析了六千万人的样本，也是美国大选期间，每个人投过票之后可以在Facebook上发布一个消息，Facebook的分析员把人的亲疏关系分成十等，数据越大证明你跟这个人越亲密，10就代表人跟人的关系非常亲密，我们可以通过这个图看到当亲疏关系增加，人跟人的影响力也是在增长的，越亲密它的传播跟影响就会越大。这样我们每个人做的决定，不但影响到你，有可能你这个决定还会影响到别人。比如我更加倾向于投奥巴马，有可能周边的人也更加倾向于投奥巴马。

之前谈了很多大数据的应用，都是很正面的东西，这里我想提两点，大数据研究的风险。

首先，第一个风险是数据的误读，谷歌流感的分析提的很多了，特别是牛津互联网研究院维克多教授《大数据时代》的开篇就以这个案例作为大数据成功应用的典型，但是我们仔细地看这个大数据分析，2012年和2013年之间这一根红色的线就是谷歌流感的数据，绿色的是美国官方疾病控制中心的数据。在2012年至2013年的6、7月份，谷歌流感的数据远远大于疾病控制中心的数据，所以，我们如果基于谷歌的数据做一些预判、风险的预防，有可能导致预判错误，有些网上的数据有可能是夸张地显示出了实际生活的一些情况。

另外一个例子，我们进行大数据研究时，很多学者都忽略了一个最根本的问题就是偏差的问题，这是我们今年发表的一篇文章，我们研究了三个不同的数据库，针对同一种关键词用不同的方法提取，最后我们得到三种不同的数据库。我们把这三个不同的数据进行比较，然后计算各个数据跟各个数据之间的相关性，我们发现这种相关性随着时间的流逝是有变化的，也就是说从另一个方面理解，当三个不同的学者在做一个同样的研究，有可能你用不同的方法，不同的数据采集方式，最后提取的数据不同。你再基于这种数据做出很多的结论，有可能这个结论到最后是有偏差的，而这个偏差是基于数据的，有可能蕴藏于你原始的数据之中。

我们人类在很长一段时间，因为互联网到现在也就几十年的时间，针对人类上千年的历史，人类在很长的时间处于信息稀缺的时代，我们很多决定的时候可能没有信息或者信息不够，就像今天汤道生讲的是一种近似于赌博式的方法，就像中国古代早期很多占卜的方式，没有什么好选择就去占卜、抽签或者利用龟壳的方式。大数据实际上对于人类做决定最重要的影响可能就是改变了这个现状。现在我们不是在一个信息稀缺的时代，而是在一个信息过剩的时代，我们每个人所有的行为模式、方法都会被映射到网上，不但你的，还有你朋友的，社交媒体的行为模式都被映射到网上，这个数据是源源不断的，我们不再担心数据不够，而更需要担心数据过剩的问题。

在传统的人类决策模型中，每个人做一个决定，这个决定转化为信息，它转化的方式更多的通过口传心授，比如你朋友买了一个什么东西，他告诉你，然后你去买，影响到你做决定。或者通过书本的方式，我们通过读书摄取之后转化成自己的知识，通过这个方式做决定，最后形成了一个反馈回路。但是大数据时代这个反馈回路可能要进行扩展。我们有了第二层外环的反馈回路，人类做决定之后，这些所有的决定都会被转化为数据，这就是我们所说的大数据时代，所有人的行为模式，各种各样的东西通过手机、无线互联网都会被转化为数据，这些数据通过大数据分析转化为信息，然后信息给相关的决策者，决策者通过这些信息做判断，这样形成另外一层的反馈回路，通过这种反馈回路的信息数据不停地循环，最后达到一个终极目的：会不会有可能通过机器取代人的位置，人类最大的一个难题可能就解决了，不是人去做，让机器去做很多决定。

谈到机器决定，现在用数据的模式让机器做决定也是非常热的一个话题，我们觉得机器做决定可能有三步走的方式。首先，第一步很明显，人自己做决定。而现在在大数据时代，更多的是人跟机器交互做决定，比如一些常规的决定，一些比较重复性的决定，都是通过机器来做，而人去做一些机器所不能做的决定。最简单的一个例子，你去信用卡公司买东西，你地址换了，信用卡公司会发现有可能是有人盗用你的信用卡，通过数据判断出之后他把这个信息转给一个接线生或者公司员工，这个员工会给你打电话，这就是一个典型的人机交互做决定的模式，人跟你谈完话以后决定到底是不是有人盗用你的信用卡，最后会不会有可能所有的决定都会让机器来做，今天时间有限，我可以在最后再跟大家讨论。

最后我想以一句话结束我今天的演讲，“数据是一种知识源，但是除非数据进行很好的组织加工，并按照正确的方式提供给正确的人进行决策，否则它就是一种负担，不是一种收益”。

==关于我们==

大数据实验室公众平台【ID：bigdata-lab】由资深大数据方向专业人士管理运营，观点聚焦于大数据领域，大数据实验室和顶尖的研究机构和诸多企业建立合作，并汇聚了学界、商界、业界顶尖的智囊，为开拓者指点迷津。我们将精选大数据行业内最精华的文章或报告，汇聚专业精英，促进学习交流，互相提升思维的深度、广度和高度。

大数据实验室致力于国内“大数据”领域投资，凡入选的初创企业将获得大数据实验室孵化基金提供的“种子资金”，将会有导师协助完善他们的商业模式，建立一个完整的核心团队，并进行初步的客户反馈和验证。感兴趣的创业团队或初创企业，可以通过以下方式与我们取得**。

感谢关注公众微信：bigdata-lab

也请推荐更多的朋友关注或添加！

**方式：

邮箱：[email protected]

QQ：361993695

微信：shangjingfu_nus

网址：www.bigdata-lab.com

新浪微博：大数据实验室

也可直接在对话框内给我们留言并留下您的**方式。

来源：http://chuansongme.com/n/588516

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-820065.html

上一篇：是家具？还是家俱？这是个问题
下一篇：到底社媒曲线与股市曲线有没有、有多少相关度?

当前推荐数：1 推荐人：张云

两年来中国红十字会的社会媒体形象调查屏蔽留存

两年来中国红十字会的社会媒体形象调查

屏蔽已有 3948 次阅读 2014-9-21 18:27 |个人分类:社媒挖掘|系统分类:科研笔记| 形象, 中国红十字会, 社会媒体

让数据说话，让专家解读。这里提供的是数据的各个侧面，是全自动对社会媒体调查的结果，没有人工参与。

调查的是2012年七月至今两年多（27个月）社会媒体样本对中国红十字会的评价（因为微博数据的 cost 很大，不能选择全样本）。虽然其间出了很多负面新闻，但总体形象分 net-sentiment 41% 显得相当正面，这一方面说明其公关危机处理可能有成效，另一方面很可能是得益于红十字会本身的慈善任务及其天生光环（下面有分析）。

148,889

Mentions

45,866,471

Potential Impressions

41%

Net Sentiment

16,454

Positive

6,831

Negative

47,405

Unique Authors

从话题热度看，2013年五月是个大高峰，今年八月是个小高峰。从舆情看，去年七月跌得很惨，九月到谷底，另一个低点是今年七月。

我们先把调查聚焦在前后两个高峰区段，看看前后舆情的变化。

第一个区间选在去年四月到九月。

第二个区间是 7/7/2014 - 9/13/2014

现在我们回到过去27个月的总体调查数据上来，下列的信息挖掘都是过去两年多的数据基础上，有别于上面的两个时间区间。

2 相关关键词和话题：

3 网民情绪

舆情分析的指标之一是网民情绪，从下图看，情绪方面很激愤，中国红十字会受到很多“谴责”和“质疑”，骂他们“狗血”和“太臭”。

4 行为方面的挖掘也很不利，这个组织的慈善体系被郭美美等一干事件“摧毁”了。那个看上去正面的“接受（最大量的捐款）” 行为，drill down 看在语境中也是负面的，讽刺这个慈善组织的老大得钱最多，可做得很差。

行为这项指标也不及格。那么为什么总体评价还是正面多于反面呢？那是因为下面的优劣指标的比例造成的。

5 优劣指标抓取的是喜欢或厌恶的具体理由，这一方面是东风压倒西风，绿多于红：

需要说明的是，红十字会作为慈善组织，从本性和使命上说，它有天生的光环。提到红十字会，最多报道的是他们的“救灾”、“捐赠”等善举。加上一些媒体公关的正面宣传，这就把批评意见压倒了。

仔细看正反优劣的舆情评价，发现表扬的都是它的日常工作和套话，而批评的却辛辣得多，“饱受争议”、“侵吞”、“渎职”、“一落千丈” 等等。这样看来，前面的总体形象指数是偏高了。

6 这次调查的网民地理分布：自然是国内为主，但世界各地的华人都有不同程度的议论参与

7 此话题网民的男女比例：还是男网友吐槽多得多

8 关于数据来源和分布：

其中主要论坛：

主要的部落格是

主要的新闻类网站

前面说过，最重要的来源微博由于数据代价的问题，无法加入，这是一个相当的遗憾。另外，新闻类比重过大，可能冲淡了来自草根网民的舆情。前者只要有钱就可以弥补，不是系统能力的问题，而是研究项目谁买单的问题。后者在数据量大的时候，可以很容易排除掉，或分别考察对比。其实还有一个地理区分的角度，海外与国内舆情应该分开，这个也容易。业余做这个调查，懒得花更多时间了。

9. 吐槽样本

索性再花点时间把郭美美事件及其对红十字会的影响的民意舆情调查一下吧：

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-829629.html

上一篇：Social media mining on credit industry in China
下一篇：全球社交媒体热议阿里巴巴上市

当前推荐数：5 推荐人：周健 武夷山 王秀玉 XuexingLu bridgeneer

发表评论评论 (5 个评论)

删除 |赞[4]王秀玉 2014-9-30 12:25: 这个报告用了大量数据，说明中国红会在这27个月来的努力是有数据可查的!

删除 |赞[3]王秀玉 2014-9-30 12:17: 太好了！

删除 |赞[2]XuexingLu 2014-9-21 19:57: 官方不说实话，你猜也是白猜

删除 |赞[1]周健 2014-9-21 19:12: 李老师的软件很牛啊，赞！什么地方可以了解你的软件的更多信息？; 李维回复周健：谢赞。官网不做广告，不谈生意。总之是不便宜，目前这个模式知识分子一般使不起（零散的小生意不做）。

2014-9-21 20:171 楼（回复楼主）

【大数据解读：方崔大战对转基因形象的影响】屏蔽留存

【大数据解读：方崔大战对转基因形象的影响】

屏蔽已有 2589 次阅读 2014-1-7 06:29 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 反转, 挺转

据说大战是去年九月开始，现在尚未结束。下面的分析是对挖掘结果的一种解读，旨在抛砖引玉。好的解读需要对 domain 熟悉，平时一直在追踪，相信这样的人大有人在，可以做出更合理的解读。

下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果，按照每月的热议和褒贬结果展示其趋势图。热议度（mentions）一年的趋势是在慢慢增长，高点在去年十一月。褒贬度（net sentiment）在去年九月前是缓慢上升。随着九月开始的方崔大战，挺转反转打得不可开交，使得过去三四个月，转基因褒贬呈现大起大伏态势。具体说来，九月中挺转呼声达到高峰，但很快从十月到十一月跌下来，11月初跌入谷底。此后挺转再占上风，到十二月中达到第二个高峰。从趋势上看，挺转反转的争辩仍呈胶着状态，难分胜负。

不过全年看下来，转基因的网络形象实际上变得更加正面了因为褒贬指数平均值从全年的4%，上升为半年的8%（近三个月为6%，最近一个月的指数陡升为 19%）。总的趋势应该是挺转占了上风，东风压倒西风。

半年趋势图：

三个月趋势图：

近三个月（从去年十月五号到今年元月五号）的趋势图是大战最酣的时期，值得仔细研究。从热议度和褒贬度两条曲线的对比看，十月下旬到十一月上旬是热议高峰期，估计也是挺反两派斗争最激烈的阶段，但这个阶段转基因的媒体形象反而略为走低，至 11月18号的谷底（-22%），说明反转呼声占了上风。

但是此后的发展是，热议度基本持平，直到12月底开始有些消停（斗累了？过年了？），但挺转的走势明显上升直到12月16日全年最高点（41%）。但此后又开始下滑。

这些拉锯还在继续，近一个月的跌宕图示是否预示着，这场斗争还远远没有结束？不过最近两周确实有些疲软了。

一个月的趋势图：

一鼓作气，二鼓衰而不竭。挺/反尚未成功，同志仍需努力。

【附：蔡老师精彩点评】

[2]蔡小宁 2014-1-7 23:13承蒙李老师的热情，我只能做点猜测。上半年支反双方没有特别大的行动，但是下半年就不同了，支转方开展了多次转基因大米品尝科普活动是有效果的，而且五家专业学会等单位联合开办了《基因农业网》，加强了转基因科普的力量，累积至9月中旬达支转方的支持度到高点。也就是9月初，崔永元突然杀出，以其实话实说建立的超高人气，使得支转方遭到重大打击，随后崔永元进一步宣布自费赴美、日调查转基因，使反转方赢得了大量的赞誉，崔永元再次建立起直言不讳的负责任的英雄形象，导致了支转方在10、11月落到低谷。然而，支转方不甘落后，不断组织反击，方舟子多次发文批驳崔永元，由于方舟子的文章往往有理有据，而崔永元没有实质内容、脏话连篇，导致少量崔粉放弃对其的支持，加上农业部发言人出面说话，俄罗斯又批准了转基因作物的种植，支转方逐步收复失地，于是12月中旬达到高点。年终，双方都忙于年终工作总结、过节等，热度都有所下降。博主回复(2014-1-8 03:18)：很好的分析，比我盲人说象强太多了。

更多数据在：

【大数据挖掘：转基因一年回顾】 2014-01-06

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-756627.html

上一篇：【大数据挖掘：方崔大战一年回顾】（更正版）
下一篇：社媒是个大染缸，大数据挖掘有啥价值？

当前推荐数：3 推荐人：蔡小宁 bridgeneer dchlin

发表评论评论 (4 个评论)

删除 |赞[3]王秀玉 2014-1-9 13:52: 选择评论：实名用户就可以禁止匿名骚扰

删除 |赞[2]zhiyanliao 2014-1-7 10:04: 科学网网管；李维无休无止的发些毫无意义的大数据烂文，是否请网管适当控制，不要让科学网变成李维推销他软件的自由市场; 李维回复 zhiyanliao ：喂喂，匿名网友，同样的留言你不要重复骚扰好勿好？
你跑到我后院，匿名呼吁网管禁我的言，不滑稽可笑么？
我帮你呼吁一下吧：网管MM，请不要加精立委大数据的烂文。

顺便也问一下网管MM：按哪个按钮可以禁止匿名骚扰呢？

2014-1-7 10:111 楼（回复楼主）赞|

删除 |赞[1]陈安 2014-1-7 07:57: 大家继续掐

【大数据挖掘：转基因一年回顾】屏蔽留存

【大数据挖掘：转基因一年回顾】

屏蔽已有 3140 次阅读 2014-1-6 05:42 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 挖掘, 社会媒体

转基因大战提升还是损害了转基因的网络形象？

日期: 01/05/2014 15:12:11

我们的大数据自动民调做过英文社会媒体的转基因一年调查（见【大数据挖掘：转基因英文网络的自动民调和分析】 2014-01-03），也做过中文社会媒体最近一个月的调查（见【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】 2014-01-03），下面我们进一步做转基因最近一年的网络形象趋势的调查，看看到底转基因在网民中的形象是提升还是损害了？

转基因确实是去年的热门话题，在我们够得着处理（indexed）的中文社会媒体一年档案中，转基因被提及55万多次，其中两万九千多次为正面，两万七千多次为负面，挺转反转可谓旗鼓相当，平均褒贬指数为 4 度，挺转呼声略强。

下面看一年的褒贬热议趋势图。蓝色曲线表示热议度（mentions），紫色曲线为褒贬指数（net sentiment），下列第一张趋势图记录每日的热议和褒贬的跌宕起伏。

下图是每周的热议和褒贬的趋势图。

下图是每月的热议和褒贬的趋势图，展示显得更加粗线条，但展示发展趋势也更为明显。热议度一年的趋势是在慢慢增长，高点在去年十一月。褒贬度在去年九月前是缓慢上升。随着九月开始的方崔大战，挺转反转打得不可开交，使得过去三四个月，转基因褒贬呈现大起大伏态势。具体说来，九月中挺转呼声达到高峰，但很快从十月到十一月跌下来，11月初跌入谷底。此后挺转再占上风，到十二月中达到第二个高峰。从趋势上看，挺转反转的争辩仍呈胶着状态，难分胜负。不过全年看下来，转基因的网络形象实际上变得更加正面了。

补充不同区间的对比图

日期: 01/05/2014 15:30:03

半年趋势图：

三个月趋势图：

一个月的趋势图：

老友脑子好，帮助看看是提升了还是损害了形象

日期: 01/05/2014 15:32:15

隐约感觉是提升了，但是期间跌宕很大。

最近三个月的某个转基因热议期间（去年十月底），转基因形象却走低，后来又逐渐恢复了。

是不是？

我自己已经糊涂了

下面是过去一年有关转基因的各类云图。

Download

比如上图 “转基因技术”，褒贬图中有红有绿（绿大红小），表示有人说好有人说坏，但褒大于贬。

Download

Download

Download

Download

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-756294.html

上一篇：【大数据挖掘：“苦逼”小崔2013年5-7月为什么跌入谷底？】
下一篇：【大数据挖掘：方崔大战一年回顾】（更正版）

当前推荐数：2 推荐人：孙根年 王秀玉

发表评论评论 (4 个评论)

删除 |赞[2]蔡小宁 2014-1-7 23:13: 承蒙李老师的热情，我只能做点猜测。上半年支反双方没有特别大的行动，但是下半年就不同了，支转方开展了多次转基因大米品尝科普活动是有效果的，而且五家专业学会等单位联合开办了《基因农业网》，加强了转基因科普的力量，累积至9月中旬达支转方的支持度到高点。也就是9月初，崔永元突然杀出，以其实话实说建立的超高人气，使得支转方遭到重大打击，随后崔永元进一步宣布自费赴美、日调查转基因，使反转方赢得了大量的赞誉，崔永元再次建立起直言不讳的负责任的英雄形象，导致了支转方在10、11月落到低谷。然而，支转方不甘落后，不断组织反击，方舟子多次发文批驳崔永元，由于方舟子的文章往往有理有据，而崔永元没有实质内容、脏话连篇，导致少量崔粉放弃对其的支持，加上农业部发言人出面说话，俄罗斯又批准了转基因作物的种植，支转方逐步收复失地，于是12月中旬达到高点。年终，双方都忙于年终工作总结、过节等，热度都有所下降。; 李维回复蔡小宁：很好的分析，比我盲人说象强太多了。

2014-1-8 03:181 楼（回复楼主）赞|

删除 |赞[1]王秀玉 2014-1-6 20:10: 李老师再试一下选“转基因主粮”、“转基因安全”一定可以补充“转基因技术”这个无多大争议的tag 的不足。这是一点补充。沈阳; 李维回复王秀玉：这个可以做。

2014-1-6 21:501 楼（回复楼主）

“大数据与认识论”研讨会的书面发言屏蔽留存

“大数据与认识论”研讨会的书面发言

屏蔽已有 12 次阅读 2014-1-11 19:27 |个人分类:社媒挖掘|系统分类:论文交流| 大数据, 挖掘

【立委按】刘钢老师来函，邀请我从我的大数据博文系列选辑一篇书面发言，参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却，更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外，学界业界，“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲，科学网编辑还特地录了像，高挂在【科学网公开课】里，与那些世界级的大师的讲座并列，与有荣焉，不胜惶恐（倒不是要自我矮化，说自己的大数据工作不在世界水平之列，但科学大讲堂里面的人物大多是科学殿堂让人高山仰止的大科学家，而在下不过是一介匠人）。无独有偶，去年流行大数据，硅谷科学家和工程师举行一系列关于大数据的讨论会，被邀请作为 panelist 参加了两个大数据研讨会，现场问答热烈，气氛很活跃。旅美华人科学家协会也征集出版了一期大数据专刊，也发表了几篇论文。硅谷的【丁丁电视】也早邀请立委在其创新频道做一个大数据的科技访谈，一直抽不开身准备，推迟到三月左右。一来二去，俨然是大数据专家了。其实，立委所长不过是大数据之一部，即自然语言的文本挖掘这块儿。而对于大数据的非文本形式（譬如语音、图片、录像、数字记录等），对于大数据的云处理手段及其工程架构等，所知十分有限。因此，本文仅仅就自然语言文本挖掘，特别是对近年火热的社会媒体的挖掘，谈一点一己之见，抛砖引玉，供各位参考。

(1) 大数据热的背景

我们现在正处在一个历史契机，近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体（social media）、云计算（cloud computing），移动互联网（mobile web）和大数据（big data）情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社会媒体尤其是微博持续升温，无论是用户还是其产生的内容，都以爆炸性速度增长，一场悄悄的社会媒体革命正在发生，它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式，正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻（无论是天灾人祸、名人掐架还是品牌褒贬）常常发端于处在现场的网民或当事人的微博，然后瞬间辐射到整个互联网，传统传媒往往紧随其后。在这样的形势下，企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上，视其为品牌和客户情报的重要来源。

2011年初，美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6，说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿（1.5 billion）. HP在逐渐放弃低利润的PC和平板等硬件产业的同时，开始加强企业软件的投资力度，以120亿天价购并了从事文本情报的英国公司Autonomy（12billion）。最后，接近2011年末的时候，全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors（3.4 billion），并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系，分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics，可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software，连续得到 Sequoia Capital 两轮投资 (２００７和２０１０)。Sequoia Capital 是“重中之重”的投资大鳄，曾是如下名牌企业的最早投资商，战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件，目前才刚起步。然而中文网络信息的增长速度却是扶摇直上，最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响，以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿，亟待开采。

有问，这一波热潮会不会是类似2000年的又一个巨大的泡沫？我的观察是，也是，也不是。的确，在大数据的市场还不成熟，发展和盈利模式还很不清晰的时候，大家一窝蜂拥上来创业、投资和冒险，其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而，这次热潮不是泡沫那么简单，里面蕴含了实实在在的内容和价值潜力，我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配，仍是一个巨大的问题。可以预见三五年之后的情景，涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧：

20多年前雅虎以门户网站（Yahoo portal）先领风骚，谷歌以搜索 (Google search) 后来居上，脸书推出的社交网络（Facebook social）与推特（Twitter）的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么？

Big data intelligence （大数据情报挖掘）

很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

（2）什么是大数据

顾名思义就是强调数据的量，但其实这个概念并不是那样简单。如果单纯论量，大数据不是今天才有的，而且数据的量也是一个积累渐变（当然可能是加速度增长）的过程。

所谓大数据，更多的是社会媒体火热以后的专指，是已经与施事背景相关联的数据，而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景，纯粹从量上看，“大数据”早就存在了，它催生了搜索产业。对于搜索引擎，big data 早已不是新的概念，面对互联网的汪洋大海，搜索巨头利用关键词索引（keyword indexing）为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者，很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word，如今的大数据与社会媒体密不可分。当然，数据挖掘领域把用户信息和消费习惯的数据结合起来，已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续，从术语上说就是，text mining （from social media big data）是 data mining 的自然延伸。对于语言技术，NLP 系统需要对语言做结构分析，理解其语义，这样的智能型工作比给关键词建立索引要复杂千万倍，也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、图片和录像等媒体。本文只谈文本大数据。

随着社会媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体（人、企业、政府等），信息过载（information overload）问题日益严重，利用 NLP 等高新技术来帮助处理抽取信息，势在必行。

除了与社会媒体以及施事背景密切相关以外，大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力，为大数据时代的到来提供了技术支撑平台。在此基础上，大数据的深度挖掘才有可能跳出实验室，在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单，在信息爆炸的时代，任何个人的精力、能力和阅历都是有限的，所看到听到的都是冰山一角。大V也如此，大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然，这不是说，大数据挖掘就是完美的解决方案。但是，正如一人一票的民主选举也不是人类社会完美的体制，而只是最少犯错误的机制一样，大数据挖掘比任何其他个人或利益集团的分析，较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么？吆喝多了，烂了，就跟转基因似的，本来是正经的研究，也要被人怀疑是忽悠，甚至骗局。要说忽悠，大数据有没有忽悠？当然有，应该说很多。所有的泡沫都是吹起来的，但特别大的泡沫其所以能被吹起来并且持续，就不仅仅是吹功可为。正如我演讲中说过的，大数据不仅仅是忽悠，一场革命也许在酝酿着。

（3）大数据挖掘技术及其挑战

社会媒体火了，信息爆炸式增长，也有了大数据支撑平台，挖掘技术跟上了么？

面对呈指数增长的海量信息，人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理（NLP），没有鲁棒高效的 NLP，电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧，每时每刻，无数用户的抱怨和推荐不断出现在网上，这些客户对产品的评价情报对于企业加强产品功能和研发新产品，具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢？出路就是：1 自动分析； 2. 自动抽取；3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社会媒体的特点是什么？概括来说，就是：1. 不断翻新的海量信息源；2. 满是不规范的字词和表达法。这就要求研发的系统，首先必须具有大数据处理能力（ scalability），实验室的玩具系统无论其数据分析多么精准深入也是不行的；同等重要的还有分析系统的鲁棒性（robustness）。在这两者的基础上，如果再能做到有深度（depth），则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大，不同的客户、不同的产品对于信息的关注点不同，所以抽取信息应该越灵活越好，最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的，要做到信息的灵活抽取，而不是根据事先预定的信息模板来抽取，那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability，robustness，还要有 depth，不是一件容易的事儿。

在处理海量数据的问题解决以后，查准率和查全率变得相对不重要了。换句话说，即便不是最优秀的系统，只有平平的查准率（譬如70%，抓100个，只有70个抓对了），平平的查全率（譬如30%，三个只能抓到一个），只要可以用于大数据，一样可以做出优秀的实用系统来。其根本原因在于两个因素：一是大数据时代的信息冗余度；二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补，这一点比较好理解。既然有价值的信息，有统计意义的信息，不可能是“孤本”，它一定是被许多人以许多不同的说法重复着，那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度，一个信息被抓住一千次，与被抓住900次，是没有本质区别的，信息还是那个信息，只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢？如果是70%的系统，100条抓到的信息就有30条是错的，这岂不是鱼龙混杂，让人无法辨别，这样的系统还有什么价值？沿着这个思路，别说70%，就是高达90%的系统也还是错误随处可见，不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选（sampling）与整合（fusion）的环节，因此夸大了系统的个案错误对最终结果的负面影响。实际上，典型的情景是，面对海量信息源，信息搜索者的几乎任何请求，都会有数不清的潜在答案。由于信息消费者是人，不是神，即便有一个完美无误的理想系统能够把所有结果，不分巨细都提供给他，他也无福消受（所谓 information overload）。因此，一个实用系统必须要做筛选整合，把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分，可以保证最终结果的质量远远高于系统的个案质量。总之，size matters，多了就不一样了。大数据改变了技术应用的条件和生态，大数据更能将就不完美的引擎。

（4）客户评价和民意舆论的抽取挖掘

舆情（舆论情绪/舆论情势）是什么？人民（或网民）的声音。

人民是由个体组成的，网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下，个体声音的过细分类没有太大意义，因为只要数据足够大，其最终舆情结果（结论）是不变的。举例来说，10万个正面呼声，100万个负面呼声，其综合舆情结果并不会因为这10万中有 1万crazy，1万love，8万like，负面中有10万fuck，10万hate，80万dislike 等等而有大的改变。无论如何计算，结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢？就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下，个体情报的引擎查全率的不足不是问题，因为在大数据整体挖掘的背景下，样本空间的问题消失了。个体的不足或遗漏，不过是等价于样本空间缩小了那么一点点儿，对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来，统计情报都是手工 survey 而来，其样本空间由于预算以及时效的制约，大多是几千个数据点（data points）而已，统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘，随便一个调查都有百万甚至千万的数据点支持，与手工调查完全不可同日而语，样本空间的些微变化因此不能对情报价值造成伤害。总之，与其追求引擎的查全率，不如把精力放在查准率上，然后着力于应对数据量的挑战（scale up）。

采样大就可以弥补个体颗粒度的粗疏，这在机器学习领域被一再证明，也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说，语言学可以退出舞台了？

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够，另外很多分析要求对数据进行切割，比如从时间维度的切割可以反映舆情的消长（trends），是制定决策时非常重要的情报，可是大数据一切隔往往就成了小数据，没有语言学上比较细致的分析来弥补，舆情分析就不靠谱，没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览，它本身并不是 actionable insights. 知道很多人喜欢或者不喜欢一个品牌，so what？企业还是不知道怎么办，最多是在广告宣传投资量的决策上有些参考价值，对于改进品牌产品，适应用户需求，褒贬舆情太过抽象，不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法，去发掘这些情绪的背后的动因（reasons/motivation），回答为什么网民喜欢（不喜欢）一个品牌的问题。譬如挖掘发现，原来喜欢麦当劳的主要原因是它发放优惠券，而不喜欢它的原因主要是嫌它热量太大，不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后，最渴望得到的 actionable 情报，因为他们可以据此调整产品方向（如增加绿色品种和花样，水果、色拉等），改变广告策略（如强调其绿色的部分）。

大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级，拜科学技术所赐。

（5）自动民调: 社媒大数据挖掘的重要应用

社媒大数据挖掘最重要的应用之一是自动民调，可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果，总统选情的检测，等等。

自动民调（Automatic Survey）指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论，其技术领域即所谓舆情挖掘（sentiment mining），通常需要自然语言（NLP）和机器学习（Machine Learning）等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天，民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来，为了检测、采集和吸收这些舆论，自动民调势在必行，因为手工挖掘面对大数据（big data）已经完全不堪负荷。

民意调查（poll）可以为政府、企业以及民众的决策提供量化情报，应用范围极其广泛。总统大选是一个突出的例子，对于总统候选人本人及其竞选团队，对于选民，民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子，譬如 iPhone 5 发布以后，民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者，民调的结果也有助于他们在购买、等待还是转向别家的决策时，不至于陷入盲目。

相对于传统的以问卷（questionnaire）调查为基础的民调，自动民调有以下几个突出特点。

及时性。传统民调需要经过一系列过程，设计问卷、派发问卷（通过电话采访、街头采访、有奖刺激等手段）、回收问卷，直到整合归纳，所有程序都须手工进行，因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题，使用自动民调系统就像利用搜索引擎一样方便，因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料（通常来自社会媒体）。

高性价。传统民调的手工性质使得只有舍得不菲的花费，才可以做一项有足够规模的民调（样本小误差就大，难以达到民调的目的）。自动民调是由系统自动完成，同一个系统可以服务不同客户不同话题的各种民调，因此可以做到非常廉价，花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级，是传统民调无法企及的。至于话费，通常的商业模式有两种，客户可以订阅（license）这样的系统的使用权，然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用，每个话题民调一次缴纳多少钱。

客观性。传统民调需要设计问卷，这就可能有意无意引入主观因素，因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析，用的是归纳整合的方法，因此更加具有客观性。为了达成调查，调查者有时不得不施行物质刺激，这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露（水军和恶意操纵另论），基数大，也有利于降噪，这就保障了情报的客观性。

对比性。这一点特别重要，因为几乎任何话题的民调，都需要竞争对手或行业的背景。正面反面的舆论，问题的严重性等等，只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益，离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务，离不开比较其竞争者 Verizon，等。很多品牌实际上需要与一系列同类品牌做对比，才好确定其在市场的地位（如上图所示）。这种对比民调，虽然在理论上也可以手工进行，但是由于手工民调耗时耗力耗钱，很多时候调查者不得不减少或者牺牲对于竞争对手的调查，利用有限的资源只做对本企业的品牌调查。可自动调查就不同了，多话题的调查和对比是这类产品设计的题中应有之义，可以轻易完成。

自动民调也有挑战，主要挑战在于人为噪音：面对混乱的社会媒体现实，五毛、水军以及恶意舆论的泛滥，一个有效的舆情系统必须不断与垃圾作战。好在这方面，搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类（所谓push/pull的媒体分野）。民意调查切忌混入“长官意志”，客户情报一定要与商家宣传分开：同是好话，商家是王婆卖瓜，客户才是上帝下旨。这种媒体分类可以结合来源（sources）、语气（宣传类材料常常是新闻官方语气，而客户评价则多用口语和网络语）来决定，是有迹可寻的。

总之，在互联网的时代，随着社会媒体的深入民间，民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此，民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟，大规模多语言的应用指日可待。

奥巴马赢了昨晚辩论吗？舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化，技术带领你自动检测舆情: 社会媒体twitter的自动检测表明，奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。

对奥巴马真正具有挑战性的议题有二：一是他在第一任总统期间的经济表现（6:55pm）；二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

（6）实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理（risk management）在进入社交媒体大数据时代，确实成为一个大问题。老话说，好话不出门，坏话传千里。在微博微信的时代，岂止千里，有时候一件事被疯狂推转，能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧，损失的就是企业的信誉，外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚，由于公关处理失当，发现和应对的不及时不诚恳不懂心理学，惹恼了一位叫做罗永浩的胖大哥。老罗是大 V，嗓子亮，因此一个简单的产品质量问题（好像是西门子冰箱的门不太容易关严实）演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象，成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子，百万还是千万，只有他们自己可以算清楚，打落牙齿自己吞，这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios，其中 risk management 最容易打动客户，他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾，里面可以调控的时间不长，他们希望电脑大数据监控能在第一时间发出预警，然后他们可以及时应对。

曾经测试中文系统一个月的微博数据（新浪微博和腾讯微博），想看看系统对于类似危机的监测效果如何，结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件，涉嫌侮辱视力残障人士。下面的挖掘抓取令人印象深刻，显然这次事件严重影响了企业的社会形象，是一个不折不扣的公关危机。

好在必胜客管理层应对迅速，及时道歉，逐渐平息了事态。

（7）大数据及其挖掘的局限性

先说它的不宜和禁忌。

1 这种挖掘不宜做预测，更适合做回顾。当然，历史是未来的镜子，回顾过去也未尝不能透出一点趋向的预测。

2 这种挖掘一般不提供问题的答案，特别是科学问题，答案在专家或上帝手中，不在网民的口水中。

3 大数据不是决策的唯一依据，只是依据之一。正确的决策必须综合各种信息来源。大事不提，看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据，就万事大吉，是不切实际的。值得注意的是，即便被认为是真实反映的同一组数据结果也完全可能有不同的解读（interpretations），人们就是在这种解读的争辩中逼近真相。一个好的大数据系统，必须创造条件，便于用户 drill down 去验证或否定一种解读，便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸，顽主比烂，僵尸横行，水军泛滥，大数据挖掘又有什么意义？无论是怎样大的染缸，它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度，它可能不是富矿，但肯定是金矿，就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确，大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的，而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上，无视大数据更容易被自己的局限所误导。害怕大数据，就好比蒙上眼睛，世界就不见了一样可笑。

应该指出的是，挖掘本身虽然可能有 bug ，数据本身也有不少噪音，但它们对所有搜索的话题是一视同仁的，是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景（reference frame）下来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。

特别是，我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不再成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。

这一点毛委员早就说过：有比较才有鉴别。

（8）大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中，在与用户的交互与市场的培育下，你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤，生逢其时，不早也不晚，而且有技术门槛（entry barrier）。

如果你做到了这一点，你会发现，你的客户不乏热情先行者（early adopters），他们不吝啬溢美之辞，为了现实需求中疑难的解决。也有客户大喜过望，把他们不理解的语言技术，视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案，而是每日在发生的时候，你不可能无动于衷，也不可能不加入客户成为创新的吹鼓手。

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-758135.html

上一篇：毛巾冻冰会断，为什么地上长的草冻冰不会断？
下一篇：留学资讯：美国牛排榜

【喋喋不休论大数据（立委博文汇总）】屏蔽留存

【喋喋不休论大数据（立委博文汇总）】

屏蔽已有 6090 次阅读 2014-1-12 01:47 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 立委

【立委按】为准备一个大数据的书面发言，今天把自己过去两年在科学网【立委科普】和【社媒挖掘】专栏里发的有关大数据及其挖掘的博文扫了一遍，计104篇，洋洋洒洒m万言，总量远远超过彭德怀元帅1958年“为人民鼓与呼”的万言上书。没有功劳有苦劳，严重建议科学网授予立委“大数据吹鼓手”荣誉奖章，表彰其对热门话题火上浇油的不懈努力。

“大数据与认识论”研讨会的书面发言（草稿） 2014-02-10

【立委论大数据挖掘（博文汇总）】

分享【1】为什么做大数据的吹鼓手？热度 2 李维 2013-7-28 01:14王婆卖瓜是一种解释，虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜，毕竟是自己辛辛苦苦栽培，一把水一把肥看着它长大的，恰好赶上了百年不遇的高温干旱，这鲜美的瓜不吆喝都对不起它。主要的原因是上帝。哦，我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了，当 ...个人分类: 立委科普|667 次阅读|2 个评论

分享【2】大数据NLP论热度 5 李维 2013-7-27 20:50由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范，要想编制一套查准率（precision）和查全率（recall）两项指标综合水平（所谓 F-score）都很高的NLP（Natural Language Processing）系统非常不容易。但是，研发实践发现，自然语言系统能否实用，很多时候并不是决定于上述两个指标。还有一个更重要的指 ...个人分类: 立委科普|3090 次阅读|6 个评论

分享【3】On Big Data NLP热度 1 李维 2013-7-27 20:43Admittedly, it is not easy to develop an NLP ( Natural Language Processing ) system with both high precision and high recall (i.e. high F-score) due to the ambiguity and complexity of natural language phenomena. Social media is even more challenging, full of misspellings, irregularities, and ...个人分类: 立委科普|766 次阅读|2 个评论

分享【4】作为公开课的大数据演讲热度 16 李维 2013-5-23 18:34【立委按】鬼子的进村，打枪的不要：立委的北京演讲在【科学网公开课】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网，这里面的辛苦只有伊人自己知道。MM来函，要先让讲员过目。说句大实话，除非你是演员出身，或者是久经沙场的 marketer，譬如饶教授、诺奖得主那类超级大牛，像立委这样的的8级码工，看自己的录像纯 ...个人分类: 立委科普|6654 次阅读|17 个评论

【5】社媒是个大染缸，大数据挖掘有啥价值？李维 2014-1-7 09:56社媒是个大染缸，顽主比烂，僵尸横行，水军泛滥，大数据挖掘又有什么意义？无论是怎样大的染缸，它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口，尤其在东土。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度，它可能不是富矿，但肯定是金矿，就看你有没有本事 ...个人分类: 立委科普|190 次阅读|没有评论

分享【6】大数据挖掘问答2：会哭的孩子有奶吃热度 2 李维 2013-12-27 15:44RE：有人在网上叫得最凶，所以这种大数据分析很容易受网上的vocal minority影响，不是么？叫得最响用处不大，要叫得多。叫得响可以影响情绪烈度指标（passion index），但不影响最关键的褒贬指数（net sentiment）。叫得多也不能靠水军和僵尸，因为容易当作噪音被剔除，所以必须要叫得多种多样。作者: 立委 ...个人分类: 立委科普|556 次阅读|2 个评论

分享【7】大数据挖掘问答1：所谓数据完整性热度 3 李维 2013-12-27 11:12到了一定尺度以后，你也不用迷信什么数据完整性，好像少了一块数据，就怎样怎样了作者: 立委 (*) 日期: 12/26/2013 18:54:07 关键是，不管何种原因数据不完整了，只要原则上保证这种数据损失不是针对特定话题即可（一视同仁）。而在大数据条件下，针对话题的损失事故几乎就不出现，因为话题不是预定的，想有意 ...个人分类: 立委科普|395 次阅读|3 个评论

享【8】科研围脖：提上来，再谈查全率和大海捞针热度 1 李维 2013-7-29 00:38白图格吉扎布 2013-7-28 22:58 文章标题：大数据NLP论有价值的信息，有统计意义的信息，不可能是“孤本”，它一定是被许多人以许多不同的说法重复着，那么查全率不高的系统总会抓住它也就没有疑问了。博主回复(2013-7-29 00:35) ：不是说“孤本”就没有价值，大海里面的那颗特定的针也许 ...个人分类: 立委科普|1223 次阅读|1 个评论

【9】【立委科普：所谓大数据（BIG DATA）】热度 3 李维 2013-3-21 04:58Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普|1175 次阅读|3 个评论

【10】广而告之：科学网“双百”博主立委四月一日在北京演讲大数据挖掘热度 11 李维 2013-3-20 19:57UPDATE：立委愚人节北京讲演时间地点已经确认，感谢中文信息学会孙教授的邀请和安排，也感谢董振东前辈教授的建议和推举： The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普|1283 次阅读|13 个评论

分享【11】Coarse-grained vs. fine-grained sentiment extraction 李维 2013-3-12 06:51As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普|671 次阅读|没有评论

分享【12】【“剩女”的去向和出路（1）】热度 2 李维 2013-3-8 20:03在面目可憎的新词“剩女”流行之前，大龄单身女青年的问题就存在，只是问题到如今愈加严重。前文说过，尤其是高学历大龄女青年这个群组，在她们可以选择的年龄段，合适的结婚对象比大熊猫还珍稀，因此成为比哥德巴赫还要难解的社会问题。那么从历史上看，她们的去向究竟怎样？今后的出路应该如何？我是搞语言处理和 ...个人分类: 立委科普|1035 次阅读|2 个评论

分享【13】【立委科普：基于关键词的舆情分类系统面临挑战】热度 1 李维 2013-2-15 22:47

Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普|1372 次阅读|1 个评论

分享【14】曙光在眼前，轻松过个年热度 1 李维 2013-2-9 04:34

QA（Quality Assurance 质量检测）表明，在下领导开发的中文系统质量优良日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统，QA 表明： precision （查准率）已经基本达到英文系统的查准率水平； recall （查全率）达到英文查全率的三分之二左右。要知道，英文系统 ...个人分类: 立委科普|626 次阅读|3 个评论

分享【15】围脖提上来：大数据时代的生活策略热度 2 李维 2013-2-5 07:33RE: 投票的时候，每个人只有一票，不管是like love crazy 还是 can't live without 都只有一票的用处。一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言，一个苹果饭可能会买n个iPhones，比如作为礼物给家人、朋友等，因此 intensity 加个权也许还 ...个人分类: 立委科普|1294 次阅读|2 个评论

分享【16】【立委科普：舆情挖掘的背后】热度 2 李维 2013-2-4 10:22

中文版 " 品牌舆情图 "设计方案展示后，有不少反馈，其中有朋友认为，四极二维（love／hate，like／dislike）的图示不自然，因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔，看看舆情自动挖掘以及舆情表达（representation）背后的设计思想。褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普|1815 次阅读|3 个评论

【17】【科研笔记：big data NLP, how big is big?】热度 1 李维 2012-10-31 19:03Big data 与云计算一样，成为当今 IT 的时髦词（buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花，big data 呈爆炸性增长。对于信息受体（人、企业、政府等），信息过载（information overlo ...个人分类: 立委科普|967 次阅读|1 个评论

【18】【立委科普：自动民调】热度 3 李维 2012-10-19 02:33

Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调（or 机器民调: Automatic Survey / Machine Survey）指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论，其技术 ...个人分类: 立委科普|1530 次阅读|3 个评论

分享【19】【研发笔记：粤语文句的情报挖掘】热度 4 李维 2012-9-28 07:50

在研发社会媒体舆情挖掘的中文系统过程中，遇到一些粤语的帖子，看上去似懂非懂的。从机器处理角度来看，方言与行业用语类似，算是一种子语言（sublanguage），可以看作是普通话的变体。其中绝大多数的区别在词汇层，句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法，然后再 feed 到普通话的主体系统 ...个人分类: 立委科普|2167 次阅读|4 个评论

【20】2011 信息产业的两大关键词：社交媒体和云计算李维 2012-2-1 16:45我们现在正处在一个难得的历史契机。去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体（social media）和云计算（cloud computing），而大数据（big data）情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。社会媒体尤其是微博持续升温，无论是用户还是其产生的内容， ...个人分类: 立委科普|1170 次阅读|没有评论

【21】社会媒体比烂，但国骂隐含舆情热度 3 李维 2012-3-20 03:59本池有几个是物理出身啊？以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地，不为别的，就为他学物理而且敢骂街。我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp，不知道能抓住它多少：国骂： 1. { ? ? }? /* 你妈了个逼的 */ ? 2 ? 3 ...个人分类: 立委科普|978 次阅读|3 个评论

【22】立委统计发现，汉语既适合吹嘘拍马亦长于恶意构陷热度 3 李维 2012-5-1 13:59词汇统计发现，汉语既适合吹嘘拍马亦长于恶意构陷作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词，更有意思的是，这些褒贬词汇中特别针对人的就多达约1/3（3809/11968）。由于1/3以外的褒贬词汇大多既可以用于物，也可以用 ...个人分类: 立委科普|1585 次阅读|4 个评论

分享【23】比起英语，汉语感情更外露还是更炽烈？李维 2012-4-28 04:29Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普|1158 次阅读|没有评论

【24】社会媒体（围脖啦）火了，信息泛滥成灾，技术跟上了么？热度 1 李维 2011-11-22 14:23“三好”立委要做“三有”系统面对呈指数增长的海量信息，人类面对信息获取的困境。唯一的出路是依靠电脑，其核心的技术是语言处理（NLP）。这不是王婆卖瓜，而是客观形势。就说社会媒体对产品和服务的评价吧，每时每刻，无数用户的抱怨和赞美不断出现在网上，这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普|1630 次阅读|1 个评论

分享【25】科研笔记：开天辟地的感觉真好李维 2011-10-30 01:40刚开始上系统的体验真好，有一点儿开天辟地的感觉。作者: 立委日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来，而我自己的感觉每一个挑战都有一条通天的大路，怪了。英语如此，其他欧洲语言（法、德、西、意等）如此，中文更如此。弄潮儿大海冲浪，不过如是吧。手里有一库的工具，遇到一个问题 ...个人分类: 立委科普|1262 次阅读|没有评论

【26】《科普随笔：机器八卦》李维 2011-10-14 17:09机器八卦：Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议，干脆用机器挖掘吧。我不想吓唬大家，但是，理论上说，除非你不冒泡，言多必失，机器八卦，比人工挖掘，可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普|863 次阅读|没有评论

【27】言多必露，文本挖掘可以揭示背景信息热度 1 李维 2011-7-11 01:03言多必露，挖掘有商用价值的背景信息文本挖掘（text mining）中，Demographic Profile Extraction 的任务是要给网虫自动分类，揭示其背景信息（年龄，性别，身份，族裔，人生阶段，家庭背景等）。一些简单的规则，查准率高（high precision），查全率并不高(moderate recall)，譬如： I am　X -- X (student, t ...个人分类: 立委科普|939 次阅读

分享【28】《立委科普：机器八卦》李维 2009-12-23 06:45机器八卦：Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议，干脆用机器挖掘吧。我不想吓唬大家，但是，理论上说，除非你不冒泡，言多必失，机器八卦，比人工挖掘，可能揭示出你的更多特征。好在该技术还不成熟。文本挖掘（text mining）是我这几年 ...个人分类: 立委科普|5095 次阅读|没有评论

【29】《朝华午拾：信息抽取笔记》热度 1 李维 2009-12-12 08:33《朝华午拾：信息抽取笔记 — Julian Hill Entity Profile 的形成》作者：立委在我的科研生涯中，有些插曲很有意思。关于 Julian Hill 的故事就是其一，这段故事成为我们研究组推介所谓实体概览（Entity Profile）的概念和功能的经典例证。那是七八年前，我涉入信息抽取领域不到两年，同时主持两个信息抽取 ...个人分类: 立委科普|2071 次阅读|

【30】【立委科普：信息抽取】热度 1 李维 2009-12-12 08:35【立委科普：信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者：立委前言信息这个词对大家都不陌生，因为我们处在一个信息爆炸时代。事实上，如今internet上信息是如此的泛滥，鱼龙混杂，以至于当我们搜寻资讯的时候，常常有大海捞针的感觉 ...个人分类: 立委科普|3013 次阅读|4 个评论

分享【31】【立委论大数据博文汇总】草稿李维 2014-1-12 01:28为准备一个大数据的书面发言，今天把自己过去两年在科学网【立委科普】和【社媒挖掘】专栏里发的有关大数据的博文扫了一遍，共计篇，洋洋洒洒言。没有功劳有苦劳，严重建议科学网授予立委“大数据吹鼓手”荣誉奖章，表彰其对热门话题火上浇油的不懈努力。【立委论大数据博文汇总】立委科普 | 编辑 ...个人分类: 社媒挖掘|没有评论

分享【32】“大数据与认识论”研讨会的书面发言草稿李维 2014-1-11 19:27【立委按】刘钢老师来函，邀请我从我的大数据博文系列选辑一篇书面发言，参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却，更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。上次愚人节应中文信息学会邀请在软件所做了一个题为【】的演讲，科学网编辑还特 ...个人分类: 社媒挖掘|没有评论

分享【33】【大数据挖掘：微信（WeChat）】热度 1 李维 2014-1-8 19:26上帝给人类的礼物，一软一硬两个。硬的叫 iPhone（爱疯），软的叫微信（英文品牌叫 WeChat）。都是颠覆世界，改变我们生活的移动互联网杀手产品，一旦用上，就让人离不开。即便是上帝的礼物，也仍然会有人抱怨。因为有抱怨，才会有进步和升级。有朋友在微信团队，都是特别精明虎虎生气的年轻人，说，你给我们 ...个人分类: 社媒挖掘|541 次阅读|1 个评论

分享【34】【大数据解读：方崔大战对转基因形象的影响】热度 3 李维 2014-1-7 06:29据说大战是去年九月开始，现在尚未结束。下面的分析是对挖掘结果的一种解读，旨在抛砖引玉。好的解读需要对 domain 熟悉，平时一直在追踪，相信这样的人大有人在，可以做出更合理的解读。下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果，按照每月的热议和褒贬结果展示其趋势图。热议度（mentions）一年的趋势 ...个人分类: 社媒挖掘|327 次阅读|3 个评论

分享【35】【大数据挖掘：方崔大战一年回顾】（更正版）热度 17 李维 2014-1-6 09:12对博文【大数据挖掘：方崔大战一年回顾】 2014-01-05 的更正是：去了“苦逼小崔” （白马非马，苦瓜非瓜，原来苦逼小崔不是小崔呢，小崔没那么苦逼，不该受伊的牵累，予以剔除 exclude），加了中文繁体。（调查时间比前一次也后了一天。）本来指望加繁体中文可以弥补数据量之不足，以为海外学人在 twit ...个人分类: 社媒挖掘|2300 次阅读|20 个评论

分享【36】【大数据挖掘：转基因一年回顾】热度 2 李维 2014-1-6 05:42转基因大战提升还是损害了转基因的网络形象？日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基因一年调查（见【大数据挖掘：转基因英文网络的自动民调和分析】 2014-01-03 ），也做过中文社会媒体最近一个月的调查（见【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】 ...个人分类: 社媒挖掘|439 次阅读|2 个评论

分享【37】【大数据挖掘：“苦逼”小崔2013年5-7月为什么跌入谷底？】热度 2 李维 2014-1-6 00:54Re：你的软件有bug。 5-7月，崔永元主要在忙公益基金的事情。当然有。beta 版。没有 bug，就没有工作了。具体苗头请指出。上篇挖掘崔方大战一年的形象变化曲线，其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底？朋友说，那时候大战还未开始，是不是系统的 bug，或混沌的社会媒体数据 garbage-in ...个人分类: 社媒挖掘|454 次阅读|2 个评论

分享【38】【大数据挖掘：方崔大战一年回顾】热度 4 李维 2014-1-5 18:11以前小方小韩掐架的时候，做过方韩大战的社会媒体挖掘，结果显示两败俱伤。据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件，因此以小崔和小方两个话题的自动挖掘对照，应该可以反映这场大战的一个概貌，至少是一个侧面。挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体（因与 ...个人分类: 社媒挖掘|439 次阅读|9 个评论

分享【39】【大数据挖掘：中国红十字会的社会媒体形象】热度 1 李维 2014-1-4 20:27在当今的信息社会，一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪，以便及时应对危机，调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据，人们往 ...个人分类: 社媒挖掘|325 次阅读|1 个评论

分享【40】【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】热度 6 李维 2014-1-3 20:12中文，中文社交媒体里的转基因。与英文民调迥然不同哎，挺转声音似乎很大，主要来源呢？终于，我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭，咱们这次只提供数据，不提供解读。爱挺爱反，请便，爱咋解读，听便。这次自动民调是最近一个月的中文社交媒体数据，具体来源和比例后面 ...个人分类: 社媒挖掘|1235 次阅读|7 个评论

分享【41】【大数据挖掘：转基因英文网络的自动民调和分析】热度 3 李维 2014-1-3 18:23前不久做过几个转基因在英文社交媒体的自动民调，引起广泛兴趣。不过，那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查，看看西方（主要是美国）社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用，因此甚至有热心网友提出愿意筹款资助这项调查。 ...个人分类: 社媒挖掘|485 次阅读|3 个评论

分享【42】预告：转基因过去一年社会媒体口碑的自动民调正在进行中李维 2014-1-3 06:21将公布细节，先把 summary 发布如下：个人分类: 社媒挖掘|262 次阅读|没有评论

分享【43】只认数据不认人：IRT 的鼓噪左右美国民情了么？热度 3 李维 2013-12-30 06:27套用北韩最近流行的歌颂红太阳金正恩的红歌，数据，数据，《除了它我们谁也不认！》当然，还有上帝： In God We Trust. In everyone else we need data. 大数据时代更是如此，只认数据不认人。道理很简单，在信息爆炸的时代，任何个人的精力、能力和阅历都是有限的，所看到听到的都是冰山一角。小崔如此，其他大V也 ...个人分类: 社媒挖掘|918 次阅读|10 个评论

分享【44】大数据帮助决策实例：《走进“大数据”——洗衣机寻购记》热度 7 李维 2013-12-26 22:30走进“大数据”——洗衣机寻购记（上）长城战略咨询 2013-04-05 阅读次数：529 分享到：前言当我们准备购买一件商品的时候，品牌、功能和价格等都是我们需要考虑的因素。然而，当我们面对琳琅满目的货架，众多的品牌和多种多样的功能组合时，又让我 ...个人分类: 社媒挖掘|949 次阅读|7 个评论

分享【45】继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么热度 13 李维 2013-12-26 02:25既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘。这次挖掘仍然是最近一个月的英文社会媒体，区间为： GM food, 11/25/2013 - 12/25/2013 Query 增加了一些同义词，GM Food 定义如下（漏掉重要的没有？）： GM food genetically modified transgenic transgene geneti ...个人分类: 社媒挖掘|1827 次阅读|11 个评论

分享【46】关于转基因及其社会媒体大数据挖掘的种种问题热度 12 李维 2013-12-25 07:55没想到转基因话题这么热，随手做了一个自动调查发在博客上（【西方怎么看转基因：英文社交媒体大数据调查告诉你】），一天多就达到 7000 点击，40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题你这个数据是有问题的，想想看，美国加州、华盛顿州的公民投票结果都是不同意 ...个人分类: 社媒挖掘|1264 次阅读|13 个评论

分享【47】【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】热度 48 李维 2013-12-24 06:47从英文社会媒体对转基因食品大数据调查显示，其评价度很低，至零下40度（评价度这么低的品牌或话题不常见，除非是遇到事故或公关灾难）。但褒贬双方的激烈程度（passion 指标为零）远不如国内。这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少，日均数据点近三千。 ...个人分类: 社媒挖掘|11191 次阅读|66 个评论

分享【48】Social media mining: Teens and Issues 李维 2013-9-9 21:36As is well known, the teenager years are a special and important period of growth for children, or young adults, to be more precise. It is growing pain, mixed with joy. It is often a rebellious phase when both parents and teens find it difficult to communicate with each other. Thi ...个人分类: 社媒挖掘|542 次阅读|没有评论

分享【49】【微博自动民调：薄熙来、薛蛮子和李天一】热度 2 李维 2013-8-30 09:33Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and w ...个人分类: 社媒挖掘|898 次阅读|2 个评论

分享【50】池鱼失火，殃及城门：USC 足球队拖累 USC热度 2 李维 2013-8-16 23:27写了两篇舆情挖掘博文，言之凿凿说 USC (南加大) 口碑不好，因为民间舆论认定它 overrated，名不副实。有网友指出： USC跟UCLA的mentions大部分都是在講football, 譬如說overrated大部分是指football team從preseason no.1掉到unranked這件事..... 我老外了不是？从来不懂不看美式足球，于是向女儿求证，女儿看了 ...个人分类: 社媒挖掘|927 次阅读|3 个评论

分享【51】【社媒挖掘：加州大学舆情详析 UCLA/UCSD vs USC】热度 1 李维 2013-8-16 17:17加大（UCs）是美国有名的公立大学系统，尤其以加大伯克利（UC Berkeley）最为国内所称道。其实，加大洛杉矶分校（UCLA）也很有名，几乎与伯克利比肩。而加大圣地亚哥（UCSD）一般认为是加大的老三，据说学生过得蛮开心轻松，不象伯克利洛杉矶那么紧张，周末就驱车去墨西哥喝酒派对。最有意思的是，加大圣地亚哥在上次社交 ...个人分类: 社媒挖掘|790 次阅读|1 个评论

分享【52】【社媒挖掘：必胜客是七夕节情侣聚餐的首选之地？】热度 3 李维 2013-8-14 07:40今天一到办公室就被我们开发的舆情挖掘系统告知（alert），最近两天必胜客热议度急升（八月9日开始，今天为最）。是不是有什么特别事件发生？前一阵子，他们出过一次“虾球广告”的公关危机，系统也及时发现了（参见【社媒挖掘：大数据时代的危机管理】），幸亏他们处理及时，道歉诚恳，把事态平息了。今 ...个人分类: 社媒挖掘|2619 次阅读|3 个评论

分享【53】【自动民调：美国五所超级牛校（俗称 Magic 5）人气排名】热度 3 李维 2013-8-13 20:12接着练，看一看英文社交媒体与中文社交媒体对这五所超级牛校的人气排名是怎样的：有意思的是，中文社交媒体的口碑普林斯顿最末；而英文媒体普林斯顿（Princeton）却高高在上，明显高过其他四所，虽然这所学校的中英文热议度都不如其他学校。而哈佛排名英文最末，中文也倒数第二，没想到啊。中文口碑排名： 1 ...个人分类: 社媒挖掘|935 次阅读|3 个评论

分享【54】【自动民调：美国名牌大学人气排名】热度 1 李维 2013-8-12 16:46For the first time, the automatic survey of social media 1-year archive on some US brand name universities shows the rankings as follows, which are quite different from official ranking (Harvard and Caltech accidentally not included): 1. UCSD; 2.Chicago; 3. UPenn; 4. Carnegie Mellon ...个人分类: 社媒挖掘|794 次阅读|1 个评论

分享【55】【社媒挖掘：大数据时代的危机管理】热度 2 李维 2013-6-28 19:46写下标题，突然意识到，这怎么看上去像是科学网超级名博陈安博士的卖瓜课题。陈博士，对不起了，不是抢您的风头，也不是砸您的饭碗，是纯粹撞车了。不是冤家不撞车，一来二去，保不定您就成了我的客户呢，也未可知。 Anyway，话说这危机管理（risk management）在进入社交媒体大数据时代，确实成为一个大问题。老话 ...个人分类: 社媒挖掘|2555 次阅读|2 个评论

分享【56】测试粤语舆情挖掘：拿娱乐界名人阿娇和陈冠希开刀热度 4 李维 2013-6-21 03:18【研发笔记：粤语文句的情报挖掘】实现之后，没顾上在应用层面做测试。前两天想要做测试，但对广东香港不熟，不知道什么是他们的热点话题。于是决定拿娱乐界名人开刀，他们的八卦永远是网民的兴奋点，不妨挖掘一下他们的网络形象。首先想到的是阿娇。做她准粉丝已经几年了，不为别的，只为她长相让人 ...个人分类: 社媒挖掘|2144 次阅读|7 个评论

分享【57】舆情挖掘用于股市房市预测靠谱么？热度 1 李维 2013-4-18 21:24Can social media sentiment mining be used for predicting stock/property market? I tried our Chinese system for that and it proved to be right. Is that pure luck or there is some value in using public opinions and sentiments to assist prediction of markets? 作为技术展示，曾经用中文社交媒体的舆 ...个人分类: 社媒挖掘|605 次阅读|1 个评论

分享【58】【舆情挖掘：房市总体看好】李维 2013-4-17 16:44回国期间我现场展示系统，问热点话题，有人说查查“房市”吧于是我搜索了房市，无论是简体还是繁体的社交媒体，发现舆情指向都是“看好”两个大字主宰，就跟我上回查询A股类似（见【『科学』预测：A-股看好】）。因此目前似乎仍然是投资房市的好时机。国内形势也很不错 ...个人分类: 社媒挖掘|735 次阅读|没有评论

分享【59】愚人节大数据演讲无片无真移山愚人热度 10 李维 2013-4-2 05:42就是累累滩了作者: 立委 (*) 日期: 04/01/2013 15:26:05 昨晚没怎么睡觉准备 slides 讲演的还有会谈的再加工讲演还好时间是卡住了 qa 也有时间了就是我本来是希望轻松搞笑一些的结果还是自我感觉太严肃枯燥了些感谢软件所孙教授，还有各位的光临科学网四剑客，包括女侠迟菲等前来捧 ...个人分类: 社媒挖掘|957 次阅读|10 个评论

分享【60】【社媒挖掘：第一夫人光彩夺目赞誉有加】热度 2 李维 2013-3-25 21:03也难怪，以前都是媒体热议西方第一夫人如何光彩照人，如今终于可以一睹一议新中国自产的第一夫人的风采了，网民的热情一浪高过一浪。自宋家姐妹以来，还没有一位中国女性受到如此多的赞 ...个人分类: 社媒挖掘|1066 次阅读|2 个评论

分享【61】【社媒挖掘：“剩女”问题】热度 9 李维 2013-3-4 16:00

今天科网的主题有点儿出乎预料（补记：其实也不奇怪，原来三八节眼看到了，真是老糊涂了），提到外电报道中国的所谓剩女问题。于是想到做一个自动社会调查，看看有什么新发现或启发。我很讨厌剩女这个词，不仅仅是对大龄女 ...个人分类: 社媒挖掘|4061 次阅读|10 个评论

分享【62】《大数据时代的购物策略：洗衣机寻购记（3）完结篇》热度 1 李维 2013-3-3 05:30

Maytag Maxima 4.3 cu. ft. High-Efficiency Front Load Washer with Steam in Granite, ENERGY STAR Model # MHW7000XG $989.10 / E A - E a c h W A S$ 1,399.0 0 LG Electronics 4.0 cu.ft. High-Efficiency Front Load Washer in Graphite Steel, ENE ...个人分类: 社媒挖掘|943 次阅读|2 个评论

分享【63】《大数据时代的购物策略：洗衣机寻购记（2）》热度 3 李维 2013-2-25 22:41洗衣机的选择：top loading 抑或 front loading？作者: 立委日期: 02/24/2013 23:35:39 本来我们是要放弃 front loading （镜先生考证，国内叫滚筒式）洗衣机，去选更容易清洁的 top loading （国内称作波轮式）的。可是如今大数据了，领导还是要看看二者的优劣，听听用户都怎么选择的。于是挖掘 ...个人分类: 社媒挖掘|1067 次阅读|4 个评论

分享【64】《大数据时代的购物策略：洗衣机寻购记（1）》热度 8 李维 2013-2-25 21:07ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With ...个人分类: 社媒挖掘|1996 次阅读|10 个评论

分享【65】【社媒挖掘：社会媒体眼中的陳水扁】草稿李维 2013-2-24 07:09系列最后个人分类: 社媒挖掘|2 次阅读|没有评论

分享【66】【社媒挖掘：社会媒体眼中的李登輝】草稿李维 2013-2-24 07:08个人分类: 社媒挖掘|2 次阅读|没有评论

分享【67】【社媒挖掘：社会媒体眼中的臺灣綠營大佬】草稿李维 2013-2-24 06:33除了在民眾輿論已經貶出局的在押阿扁外，民進黨大佬主要包括蔡蔡謝蘇（蔡英文、謝長廷、蘇貞昌），下面就看看社會媒體對這三位綠營大佬毀譽如何。 Cai COns CaiXieSuLEE LikesDislikes contr ...个人分类: 社媒挖掘|1 次阅读|没有评论

分享【68】【社媒挖掘：馬英九施政一年來輿情晴雨表】热度 2 李维 2013-2-23 20:07【馬英九施政一年來輿情晴雨表】看點及分析：（1）一年來馬英九的總體形象偏低，凈情緒指標在零度以下居多，他一直試圖改善形象，但總也不大成功。究其原因，凡臺上的政客，除非社會經濟出現奇跡般改善，作為常規，總是招致的批評遠多於贊揚。民眾總是憤怒的，而在野黨不會放過任何一個機會 ...个人分类: 社媒挖掘|567 次阅读|2 个评论

分享【69】【社媒挖掘：臺灣政壇輿情圖】热度 2 李维 2013-2-23 08:58今天測試我們中文輿情挖掘的繁體系統，想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會，並非老蔣時代，議論政客惹不了麻煩，也不會被禁聲。藍也好綠也好，不議白不議，就是剝掉皇帝的新衣，他 ...个人分类: 社媒挖掘|691 次阅读|2 个评论

分享【70】【社媒挖掘：社会媒体眼中的米拉先生】热度 2 李维 2013-2-20 19:42

免责声明：此片纯属戏作，敬请对号入座。江湖上盛传的米拉先生生活素颜照（1）先看概览，总体得分不坏嘛，20有1，是正能量，不独跌入 18层冰窖的小方没法望其项背，比零度以下的开复老师和韩少也强远啦：（2）网虫对镜子的情绪呢？ &nbs ...个人分类: 社媒挖掘|630 次阅读|2 个评论

分享【71】【社媒挖掘：社会媒体眼中的李开复老师】热度 5 李维 2013-2-19 17:55

据说李开复老师最近又成了社会媒体的热点，好象是发了什么帖子批评政府对企业的干涉，被禁声了，因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。我对这具体事件兴趣不大，但是对开复老师很仰慕，也在微博上一直追随关注他。于是想到去挖掘一下作为知名公 ...个人分类: 社媒挖掘|1026 次阅读|5 个评论

分享【72】【舆情挖掘：2013央视春晚播后】热度 3 李维 2013-2-15 04:50

春晚全球直播已经一周了，想到该做一次播放以后的舆情调查，看看今年的春晚到底效果如何。年三十播放之前，立委做过一次这样的自动调查，有兴趣的网友可以做个比照。总体而言，这次春晚反应似乎不错，网友的净情绪（net sentiment，即热度）从 ...个人分类: 社媒挖掘|1632 次阅读|4 个评论

分享【73】【舆情挖掘：年三十挖一挖央视春晚】热度 3 李维 2013-2-11 01:32【舆情挖掘：年三十挖一挖央视春晚】日期: 02/09/2013 20:25:02 说不完道不尽的央视春晚。一台节目三十多年来一直成为亿万人民过年的大餐兼热门话题，这是人类历史上少有的文化现象。众口难调，央视春晚遭到批评指摘与其受到的赞扬和热议一样多。今年有了自己制造的工具，决定挖掘一下社会媒体对于春晚的舆论。 ...个人分类: 社媒挖掘|671 次阅读|3 个评论

分享【74】【社媒挖掘：美国的枪支管制任重道远】热度 9 李维 2013-2-6 09:39

美国的枪支管制自从上次小学校园惨案以后，再度提上日程，也成为社会媒体的热门话题。有朋友要做这个课题，希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后，发现反对枪支管制的人还是多于支持管制的人，感觉很失望。就我个人而言，我是恨透了美国的枪支泛滥 ...个人分类: 社媒挖掘|1392 次阅读|13 个评论

分享【75】【社媒挖掘：《品牌舆情图》的设计问题】热度 3 李维 2013-2-3 00:57

镜子先生在我的【社媒挖掘】专栏留言道：褒贬度可以用别的颜色。博主回复(2013-2-2 23:45) ：什么颜色好呢？烈度用红色没问题。褒贬在我们其他的图示中，是绿褒红贬。不知道红色和绿色混合的颜色是什么（后注：黄色嘛，真是老糊涂了），可不可以用？于 ...个人分类: 社媒挖掘|594 次阅读|9 个评论

分享【76】【社媒挖掘：外来快餐店风光不再】热度 7 李维 2013-2-2 08:57

【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's ...个人分类: 社媒挖掘|1858 次阅读|9 个评论

分享【77】【社媒挖掘：中国手机市场仍处于战国争雄的阶段】热度 1 李维 2013-1-31 15:51

Chinese mobile phone market is found to be still in the stage of multiple vendors competing with each other with no single one clearly ahead of others. Even Apple iPhone is on a par, in terms of net sentiments and consumer passion, with HTC, Samsung, Nokia and Chinese brand Xiaomi d ...个人分类: 社媒挖掘|810 次阅读|1 个评论

分享【78】【社媒挖掘：糟糕透顶的方韩社会形象】热度 1 李维 2013-1-31 05:35

刚刚学会用图示来表达社会情绪（passion index），看看方韩一年来的总体社会形象吧，非常糟糕。 takeaways 1. 两人社会形象都相当负面，接近底线，小方更是过了冰点。事实上，小方的负面评价是如此之多，与其正面评价完全不成比例，以至于如果严格按照净情绪（net-sentiment，即正面减去负面的一个情绪指标，作为 ...个人分类: 社媒挖掘|587 次阅读|1 个评论

分享【79】【社会媒体：现代婚姻推背图】李维 2013-1-11 05:23

立委按：哈，【爱情推背图】甫问世，一个小时点击1000多次，编辑MM有立马加精，风助火势，风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火，对人性的探究兴趣一样盎然。好，再接再厉，来个姐妹篇【社会媒体：现代婚姻推背图】。【大众心理探究：婚姻】日期: 01/09/2013 16:39: ...个人分类: 社媒挖掘|903 次阅读|没有评论

分享【80】【社会媒体：现代爱情推背图】热度 8 李维 2013-1-10 08:31

【大众心理探究：爱情】日期: 01/09/2013 16:39:34 所挖掘的数据源：社会媒体过往一年（博客、论坛等）爱情（简体）被提及三千万多次；繁体被提及 50多万次繁简体的分别调查可以透露出大陆社区与台湾社区对待永恒话题“爱情”的有所不同的社会认知。 1. 爱情的关系概念要点： ...个人分类: 社媒挖掘|3793 次阅读|9 个评论

分享【81】【微博不进门，真地急死人：关于南周事件】李维 2013-1-8 10:32不行不行，data 不够，最近一周提及南周才1万多次，没多少褒贬什么时候微薄进来了，我就可以追踪任何热点了。如今国内南周闹得沸沸扬扬，我们系统中从海外 twitter 等及时更新的数据看，还没多少讨论从这最近一周（元旦到一月八号）的数据挖掘看，主题事件（theme）倒是可以看出了我的中国梦& ...个人分类: 社媒挖掘|991 次阅读|没有评论

分享【82】【社媒挖掘：社会媒体眼中的财政悬崖】李维 2013-1-2 11:00

RE: What do these tell us more than we've known already? very good question: however, if it is known info, it confirms its validity 日期: 01/01/2013 11:11:49 it builds the users' (and developers') confidence in the automatic summerization of the computer processing of t ...个人分类: 社媒挖掘|644 次阅读|没有评论

分享【83】Social media mining: 2013 vs. 2012 李维 2013-1-1 16:08

Let us have a look at the past year 2012, which is more associated with the hardest year in people's mind than a good/best year.个人分类: 社媒挖掘|838 次阅读|没有评论

分享【84】新年新打算：【社媒挖掘】专栏开张大吉热度 2 李维 2012-12-30 04:37

社会媒体印象（词云）【立委按】我有一位很谈得来 ...个人分类: 社媒挖掘|747 次阅读|2 个评论

分享【85】【科学技术之云】李维 2012-12-29 17:55

老朋友来函： “ 李维老师您好。社会媒体测试很有意思，我是科盲不太了解其机理，能否测试一下科学、技术等关键词，我想会有很有启发性的。谢谢。 ” 其实，我们做社会舆情自动监测挖掘的，主要是服务于企业客户对品牌形象的情报需求，着重了解客户对于品牌/产品的褒贬评价。延伸下来，也可用于热点话题的追踪以及公众人 ...个人分类: 社媒挖掘|746 次阅读|没有评论

分享【86】新鲜出炉：2012 热点话题五大盘点之五【小方vs韩2】热度 1 李维 2012-12-29 16:22

【五】方舟子和韩寒，谁的名声更臭？关于方韩，以前做过较小规模的社会媒体测试 ( 方寒大战高频情绪性词的词频分析 ; 方韩大战的舆情自动分析：小方的评价比韩少差太多了 ), 年终了，该是扩大规模给这两位互联网枭雄盘点一下社会形象的时机了。需要说明的是，这次的测试规模虽然较大，但是社会 ...个人分类: 社媒挖掘|863 次阅读|1 个评论

分享【87】新鲜出炉：2012 热点话题五大盘点之四【三星vs苹果】热度 1 李维 2012-12-29 15:11

【四】三星和苹果，谁主沉浮？做了N年的苹果饭，从乔布斯二进宫把苹果从几乎破产边缘挽救出来那时候就开始，不知道给苹果贡献了了多少银子，单 iPod 就买了一两打，自用送礼加更新。开始注意三星还是前不久的事情，苹果诉讼三星侵权的官司闹得沸沸扬扬，以苹果胜诉结束（于是它乘胜追击，企图在美国 ...个人分类: 社媒挖掘|952 次阅读|1 个评论

分享【88】新鲜出炉：2012 热点话题五大盘点之三【舌尖上的中国】热度 1 李维 2012-12-29 13:25

【三】舌尖上的中国美食纪录片《舌尖上的中国》把国人的食物和文化唱红到全世界。中国美食很火、很美。最大的特点你猜猜是什么？不是辣，不是甜，而是酥！个人分类: 社媒挖掘|613 次阅读|1 个评论

分享【89】新鲜出炉：2012 热点的社会媒体五大盘点之二【林书豪】李维 2012-12-29 13:12

【二】林书豪 / 林書豪林书豪刮起的林旋风是2012一大热点，受到无数粉丝的相信、喜欢、支持和欣赏。华人世界虽然以他的华裔背景而骄傲，他的最突出的特点却是美国人。林书豪的伤病及恢复引起了广泛的关注。个人分类: 社媒挖掘|669 次阅读|没有评论

分享【90】新鲜出炉：2012 热点话题五大盘点之一【吊丝】李维 2012-12-29 12:57

【一】吊丝/屌丝吊丝男们向往的是白富美的女神，嫉妒的是高富帅；女吊丝则向往的是高富帅，嫉妒的是白富美。吊丝的情绪最为难，伤不起。吊丝的印记是注定孤独，哭，且撸。（撸何？how why? ...个人分类: 社媒挖掘|732 次阅读|没有评论

分享【91】WordClouds: Season's sentiments, pros & cons of Xmas热度 1 李维 2012-12-26 15:35

Most every hot topic coming to my mind these days, I will check our social media system to see how social media reflects it. Word clouds are intriguing vehicles to present the common social image. Most word clouds generated by other systems are based on statistics of keywords mentioned ...个人分类: 社媒挖掘|804 次阅读|1 个评论

分享【92】圣诞社媒印象: 简体世界狂欢，繁體世界分享。李维 2012-12-26 05:27

狂欢 vs. 分享狂欢也应该，劳苦一年了。不过，当然是分享高出狂欢一头。狂欢没有问题，狂到找哪里有小姐就有些过了。大众心理里，圣诞节的 pros and cons 呢？商品社会嘛，离不开打折！个人分类: 社媒挖掘|687 次阅读|没有评论

分享【93】尝试揭秘百度的“哪里有小姐”：小姐年年讲、月月讲、天天讲？李维 2012-12-14 15:41

一个偶然的系统测试，暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波，有称妙的（way to go, u r onto sth），有调侃的（曰：百度本来就源自“众里寻她千百度”嘛），有怀疑的（ the results are not faked？）。阴谋论者伊妹儿我，指责此云有侮辱百度之嫌。我跟老友说：我没有结论。有 ...个人分类: 社媒挖掘|1518 次阅读|没有评论

分享【94】社会媒体测试知名品牌百度，有惊人发现热度 2 李维 2012-12-13 08:54

今天测试知名品牌百度的TagCloud，有惊人发现日期: 12/12/2012 18:51:14 在简体字的world里面，与百度最紧密关联的词语是：哪里有小姐在繁体字的 world，最关联的词是美元不知怎么就想起了 Google 被赶出中国前对谷歌的指责：说 Google 太黄了。黄得过百度么？ A follow-up post a ...个人分类: 社媒挖掘|888 次阅读|3 个评论

分享【95】【凡事不决问 social：切糕是神马？】热度 1 李维 2012-12-5 03:14

鼓捣出个中文系统，尽管只是个 alpha 版，处理对象也还很有限（微薄还没进来），但也自动分析了数不清的帖子，大体的舆论情绪还是可以客观反映吧。于是，如今遇到任何事或物，不去维基，不去百度，先去问问自家的系统，看看此物（事）在公众中的形象/印象如何。这不，最近流行【切糕】，不懂这个貌似家常食品的词 ...个人分类: 社媒挖掘|815 次阅读|1 个评论

分享【96】【『科学』预测：A-股看好】热度 1 李维 2012-12-4 13:37

有什么大众话题想要测试我的中文系统么？作者: 立委日期: 12/03/2012 17:40:25 RE: 老李，你这玩意儿能不能用来炒股啊？要是能预测股票走向，哪怕一点点，就牛大了。能啊。见图：自动舆情监测分析表明：A-股看好哎！！！那谁谁，还不进场！据说外资已经陆续 ...个人分类: 社媒挖掘|748 次阅读|1 个评论

分享【97】【号外，号外：中文系统的社会网络客户情报内部亮相，很性感嘛】热度 1 李维 2012-11-14 07:24

哈哈，终于把 fonts 弄对了，今天测试中文系统，iPhone/爱疯的词云满漂亮嘛日期: 11/13/2012 17:17:43 褒贬情绪词大体都抓对了啊，是不是？同事看到我手舞足蹈，说：香槟呢？快上香槟！放大一点儿看仔细：这是客户对iPhone的情绪 (绿色为褒，红色为贬，社会媒体的用语果然有特色哎 ...个人分类: 社媒挖掘|720 次阅读|1 个评论

分享【98】奥巴马赢了昨晚辩论吗？舆情自动检测告诉你。热度 1 李维 2012-10-18 15:54

Obama won the debate, see our evidence 民调自动化，技术带领你自动检测舆情: 社会媒体twitter的自动检测表明，奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。对奥巴马真正具有挑战性的议题有二：一是他在第一任总统期间的经济表现（6:55pm）；二是批判他对中国不够强硬 ...个人分类: 社媒挖掘|1209 次阅读|1 个评论

分享【99】社会媒体舆情自动分析：马英九 vs 陈水扁李维 2012-9-29 16:51Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价，截然不同的民间形象，台湾现总统马英九 vs 台湾前总统陈水扁，社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对 ...个人分类: 社媒挖掘|830 次阅读|没有评论

分享【100】方韩大战高频情绪性词的词频分析热度 3 李维 2012-9-21 06:49方韩大战高频情绪性词的词频分析作者: 立委 (*) 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位：（方）不正常（16.9%）不喜欢（方）（14.3%）反对（方）（13.0%）（方）更烂（9.1%）（方）讨厌（7.8%）难（6.5%）不支持（方）（5.2% ...个人分类: 社媒挖掘|1107 次阅读|3 个评论

分享【101】舆情自动分析表明，谷歌的社会评价度高出百度一倍李维 2012-9-8 20:32拖了这么久，中文系统的初步试验终于开始日期: 09/06/2012 21:04:35 本来核心系统的开发最难，最耗时间，结果在真实生活中，工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈，怪也不怪。这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据，但做出的分析也蛮有意思。 I did a ...个人分类: 社媒挖掘|987 次阅读|没有评论

分享【102】方韩大战的舆情自动分析：小方的评价比韩少差太多了热度 1 李维 2012-9-8 20:11非常初步的有限范围试验表明，方韩大战（其实也没有真大战过，基本是小方的单方面攻击，从代笔到身高，无所不用其极，加上双方粉丝的大打出手）的舆情自动分析结果是：小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter，天涯论坛、百度贴吧等，时间跨度大约半年，今年四月到九月。整个过程全自动， ...个人分类: 社媒挖掘|1552 次阅读|1 个评论

分享【103】研究发现，国人爱说反话：夸奖的背后藏着嘲讽热度 1 李维 2012-9-8 19:45

国人爱说反话：夸奖的背后藏着冷笑，社会媒体尤其如此作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词，这里不表。以台湾政客为例，譬如说陈水扁是“中国最清廉的总统”，就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In thi ...个人分类: 社媒挖掘|892 次阅读|1 个评论

分享【104】立委统计发现，人是几乎无可救药的情绪性动物热度 1 李维 2012-7-28 15:28立委跨语言统计发现，人是几乎无可救药的情绪性动物作者: 立委 (*) 日期: 07/27/2012 12:58:29 最近跨语言（英、法、意、西、日、汉）的实验表明，在对目标进行评判的语句中，人发表情绪性判断（如棒/糟极了，爱/恨死了，非常满意/讨厌）比起提供客观性描述（如便宜/昂贵，节能/耗能，易用/难用）要 ...个人分类: 社媒挖掘|1152 次阅读|1 个评论

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-758230.html

上一篇：毛巾冻冰会断，为什么地上长的草冻冰不会断？
下一篇：留学资讯：美国牛排榜

http://www.tudou.com/v/y1ikyMP7e3M/&rpid=56834216&resourceId=56834216_04_05_99/v.swf

当前推荐数：3 推荐人：曹聪 陈辉 tuner

发表评论评论 (1 个评论)

删除 |赞[1]mirrorliwei 2014-1-12 08:03: 有这样的汇总好。毕业时老师在祝词中说：竹子结实、长得快，都靠结点的功劳。这样的分类也是结点。各学会也可以把流行的话题汇总为会员们提供科研的方便。

立委元宵节大数据科技访谈土豆视频上网屏蔽留存

立委元宵节大数据科技访谈土豆视频上网

屏蔽已有 3244 次阅读 2014-2-17 23:34 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 访谈, interview

说来也巧，不上台面的人从幕后走到台前，似乎总要借着某个节日的由头。这不，上次在科学院软件所做的中文大数据讲演赶上的是愚人节，这次在硅谷做的英文访谈又赶上了中西双节。大家凑合着看吧。

丁丁电视元宵节立委访谈（英语）已上载土豆，国内网友不用翻墙可看了：

社交媒體大數據，是另一個泡沫嗎？

http://youtu.be/mGXkci8X4j0

主要的观点是表达了，作为大众科普（镜兄所谓 Pop science）也算可以了。可是我说话的节奏急促到不能忍受，当然还有一系列口语错误。没治了。

》》立委講得很好，深入淺出，讓一般人都聽得明白。-- 主持人丁丁

Some feedback and reflections：

两位老友大帅锅调侃先，有道是：

临江仙·元夜寄立委
熟极如流大数据，快言仿佛枪声。话题最热意纵横。宏图硅谷展，丘壑皖南青。
切记嘥史最matter，不时眄视丁丁。瓦伦泰日又花灯。老头衫换去，高管亦书生。

注：嘥史=size

临江仙寄立委
日期: 02/16/2014 20:07:37

滚滚数据如流水，硅谷淘金英雄。是非成败兜不空。白头依旧在，几度夕阳红。
白发半跷江渚上，惯看秋月春风。一池脚水喜相逢。网上多少事，都付笑谈中。

原文
临江仙
滚滚长江东逝水，浪花淘尽英雄。是非成败转头空。青山依旧在，几度夕阳红。
白发渔樵江渚上，惯看秋月春风。一壶浊酒喜相逢。古今多少事，都付笑谈中。

----------
南加州唐人街半瘸老伯

》》丁丁有主持人的风度，语速不急不缓。立委急得像在跟人辩论
一贯如此，我知道这个毛病，就是改不了（发现这有一定的地域影响，我的不少同乡也多有这个毛病，嗓门大，说话急促，讨论问题就好像吵架似的。别的地区就不一样，譬如北方人说话大多慢节奏，有板有眼。南方的苏州也很别致，和风细雨，还带点儿嗲。要不说，宁听苏州妞儿吵架，吴语细软，吵架也跟唱歌似的好听）。

》》立委像在推销大数据，其实他自己心里的把握没屏幕上表现得那么大
不算推销，我承认有 bubble，也说明了自己对大数据情有独钟的切身理由。
>>喜欢丁丁两相对比，立委这个interview让我看到了你坐backoffice的巨大潜力
不上台面哈哈 V节快乐 - 立委

>>千万别忘了白袜子黑鞋老头儿衫。这叫style, 叫fashion, 等大伙儿跟你学的时候，你就是新潮流鼻祖。
今天要以崭新的形象示人 - 立委

>> 眼睛看镜头！！！！！！！！！！！！！！
问题是："嘉宾"表情不专业，眼睛不知往哪里看，改不了说话的急躁 - 立委

形象分几何？丁丁为了我的高大形象特地把高跟鞋脱了。

丁丁安排了两个角度，一个是两人在一起的，一个是我的特写，说，在我眉飞色舞滔滔不绝的时候，还是特写一个人为好，因为两人的镜头她插不上话的时候，访谈就显得不自然。

只有对答的时候，多是两人镜头。不知后头小姑娘镜头切换是否恰到好处

>>难怪你不知道看哪儿，不是看红灯闪那台机器吗？你们俩互动时镜头特别凌乱. 另一点就是语速，要下意识放慢些，除非你是W前总理
不懂这，没经验，我大多看屏幕，那肯定不是直视镜头。对答时候不时侧头看丁丁，不很自然。唉 - 立委

>>视频色彩有问题，人脸发蓝. 为什么用英文采访？
中文讲大数据有科学网大讲堂的视频在所以 prefer 英文正好丁丁的英语管道视频量不足 - 立委

>>台上一秒钟，台下几年功，一点不错！立委多年的奋斗终于开花结果了！最后一段有点意犹未尽。关于大数据的局限，你指出了使用者的心态。但我更想知道你对于目前抽提技术的局限以及未来发展方向的看法。这个更符合你CTO的身份。

这也是记性的问题，我在博客文字中说的limitations三条，突然就忘记了前两条了

Quote

说说它的不宜和禁忌。

这种挖掘不宜做预测，更适合做回顾。当然，历史是未来的镜子，回顾过去也未尝不能透出一点趋向的预测。

这种挖掘一般不提供问题的答案，特别是科学问题，答案在专家或上帝手中，不在网民的口水里。

大数据不是决策的唯一依据，只是依据之一。

》》这样的访谈，应该能做到基本不看稿子的。
没有稿子啊，就是一张表格和一张白纸，表格填写了基本信息：题目之类。坏菜的是，我老低头给人一种似乎是在看提纲的样子。其实我根本啥也没看，拿笔和纸做样子而已。纸上就写了两个自我警告的大字：SLOW，CLEAR，但还是没用。说话的时候，啥也看不见，就是在急速找词，赶集似地往外说。因为赶，Broken English 就出来了。还有不少低级文法错误。

》》Whirlpool是美国产品，而把它说成是德国货。俺家的电器都是Maytag牌的，口碑比Whirlpool好多了。可恶的Whirlpool质量上竞争不过，就索性把Maytag给吞并了。

是 Maytag，问题是，到我这个岁数，很多很熟的东西突然就忘记了（人名也是如此），丁丁能圆场，我很感谢，也只能顺着说。好在 Maytag 如今也挂在 Whirlpool 名下了，技术上这样说也不算大错了。当然，我在大数据调查时候，两个牌子是分开的，消费者青睐的是 Maytag，远非 Whirlpool 可比。领导对 Maytag 满意极了。

》》罗姆尼与奥巴马辩论，最有可能的解释是social network的用户偏民主党（事实也是如此）。
这就没办法了。谁叫共和党、红脖子那么没文化呢
其实那场美国总统辩论，我们的实时监测技术特别显示我们的能力是真实的，不过没时间细说

我在博客中说过，我们的追踪能够反映每个话题的走势，到分秒的级别，而且完全 make sense

奥巴马有两个话题，民意陡然下滑，一是jobs的话题，一是对中国态度（不够强硬）的话题。了解美国政治和民情的人都知道，这是奥巴马的软肋，民意下滑很自然。

》》立委的英文没有美国味儿，大概在英国待的时间长的关系…
也没有英国味啊。倒是有点安徽丘陵地带的味。出国都20多年了，也没改了。没治了。

我说普通话也带皖南丘陵的味儿，比中国胃还顽固。

还有，虽然很多人都用 “that is a very good question” 这类套话来给自己留下一点思考和组织话语的时间，我两次用到这个技巧，虽然没大问题，但总觉得不太自然。

应个景，做一下东西双节的社媒挖掘的舆情对比：可见即便是过节，也并非普天同庆，几人欢乐几人愁。

【相关篇什】

科学网大讲堂：大数据时代中文社会媒体舆情挖掘

“大数据与认识论”研讨会的书面发言（草稿）

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-768432.html

上一篇：用“科普”还是用“科传”，“科学派”与“科学文化派”掐过架
下一篇：围脖：格语法创始人菲尔墨（Charles J. Fillmore）教授千古！

只认数据不认人：IRT 的鼓噪左右美国民情了么？屏蔽留存

只认数据不认人：IRT 的鼓噪左右美国民情了么？

屏蔽已有 4109 次阅读 2013-12-30 06:27 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 舆情, 挖掘

套用北韩最近流行的歌颂红太阳金正恩的红歌，数据，数据，《除了它我们谁也不认！》

当然，还有上帝：In God We Trust. In everyone else we need data.

大数据时代更是如此，只认数据不认人。道理很简单，在信息爆炸的时代，任何个人的精力、能力和阅历都是有限的，所看到听到的都是冰山一角。小崔如此，其他大V也如此，大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

不过，挖掘本身也有可能有 bug（但即便是 bug 或者其他不完善之处，它们对所有搜索的话题也是一视同仁的，是独立于话题的，因为系统的编制针对的是开放话题），挖掘的结果可以从不同角度验证或质疑。值得注意的是，即便被认为是真实反映的同一组数据结果也完全可能有不同的解读（interpretations），人们就是在这种解读的争辩中逼近真相。一个好的大数据系统，必须创造条件，便于用户 drill down 去验证或否定一种解读，便于用户通过不同的条件限制及其比较来探究真相。

上篇转载博文（[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28）就是老友在质疑和解读这方面做出的有意义的努力。老友指出，其所以造成 gluton intolerance 成为反对转基因的主要理由，是由于美国反转极端组织 IRT 的鼓噪的效应。从时间上看，IRT 确实在上个月的大数据调查区间内制造了反转新闻，似乎影响颇大（drill down 显示 twitter 在很短时间里对 cause gluten related illness “新闻”有 700 多条大同小异的微博或转发，下面是“鼓噪”及其社媒传播样品）。

RT | @tree_details http://t.co/i8PV0y3Ev2 Future Epidemic? Monsanto GM foods cause gluten-related illnesses. econ/food/soci- gmo.
Monsanto GM foods cause gluten-related illnesses (silveristhenew.com) [...]
GM foods cause gluten-related illnesses --
I added a video to a @YouTube playlist http://t.co/rywMnDKtlU Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses.
Future Epidemic Monsanto GM foods cause gluten related illnesses: Published on Dec 7, 2013 18 million of Ameri... http://t.co/86SnUlUmxv.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013 , RT.
Monsanto GM foods cause gluten-related illnesses http://www.youtube.com/watch?v=VyV001qX2i4 7 December 2013, RT.
Monsanto GM foods cause gluten-related illnesses • 'March of Millions': Ukraine braces for massive anti-govt rally • Spiritual Journey: Valaam monastery in Russia's far north (RT Documentary).
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/qceiGYiPWM. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/leNyyCI1G4. #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/kZlxQso6T4. #RT

.........

RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @LuminatedSlave: Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
Future Epidemic? Monsanto GM foods cause gluten-related illnesses https://t.co/purlWn3ztO.
RT @RT_com: Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/FbJhDufXzn. @portnayanyc
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/lknWlC2CP2

..........

Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/XOJYHwyci4 via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses: http://t.co/EUYyOsnFyV via. @youtube
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/mAPr2RkyLL. #FutureEpidemic #GM #GMO #RT
Future Epidemic? Monsanto GM foods cause gluten-related illnesses http://t.co/MwzyJkqjLI. #FutureEpidemic #GM #GMO #RT

.........

有了上述解读，我们有两个问题需要解答：（1）一小撮 IRT 分子的 “鼓噪” 可以左右舆情么？影响度如何？（2）反对转基因的理由除去 gluten intolerance 后是怎样分布的？

于是我们继续做转基因的大数据自动挖掘来寻求答案，以便看清西方当今舆情和民情的真相。根据老友们的建议，我们可以设置条件，做一个对照调查。下面就是这次对照调查的条件和结果。

（1） Baseline：为做到 apple to apple 式的 minimal pair 对照比较，我们先把最近一个月的自动调查重复一次（除去了原 query 中的害群之马歧义词 GMC，因为发现它绝大多数是与 GM 品牌汽车相关，而不是指转基因谷物），结果拷贝如下：

这是 baseline，没有加限制词的结果，似乎没有多大改变

作者: 立委 (*)

日期: 12/29/2013 02:08:05

Download

Download

Download

Download

（2）在上述自动挖掘中加入限制词 “cause gluten” 以屏蔽由于 IRT 鼓噪事件带来的反转中最大，据专家认证也最不靠谱的理由：

嗨，我加了一个限制词 ”cause gluten“，舆情面貌变了哎

日期: 12/29/2013 08:16:59

不过褒贬指数还是很低：零下 33 度（比零下 37 度稍微升温 5 度）。似乎说明网络舆情对转基因还是充满抱怨的情绪。

Download

Download

Download

Download

Download

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么 2013-12-26

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-754053.html

上一篇：与理发师的交谈
下一篇："科学里说法的‘短命性’不是好事情吗？"

当前推荐数：10 推荐人：武夷山 孙根年 郑小康 陈儒军 陈筝 鲍得海 李宇斌 bridgeneer liyouxi tuner

发表评论评论 (15 个评论)

删除 |赞[10]李维 2013-12-31 20:25

新年将至，打个戳：

已有 3507590 人来访过

积分: 670威望: --金币: 665活跃度: 44665好友: 548主题: 2博文: 3618相册: 6分享: 343

stamped

删除 |赞[9]lmnnml 2013-12-31 16:14: 再来指出你这个大数据统计的随意性。你可以说“据专家认证gluten也最不靠谱的理由”从而把gluten删除，从而提高了其它项目（例如致癌）的比例，请问你从几个专家的意见得出了gluten不靠谱？这不是跟你的标题“只认数据不认人”完全相反，变成了“只认专家不认数据”了吗。再反过来问你，现在的大多数专家都认为已经批准了的转基因食品与常规的一样，不致癌，你为什么在致癌问题上，不加一个限制词 ”cause cancer“，你这不是按照自己的意愿和观点，随意操作大数据，达到你自己的观点来误导舆论吗？如果你有理的话，请你不要删除我的观点，正面回答; 李维回复：匿名朋友，没工夫跟你缠，这是我自家的菜园子，懂不？
你要是精力旺盛，到别处玩去。
你要是不匿名，我又有时间和心情，就陪你玩。
新年保重。

2013-12-31 19:591 楼（回复楼主）赞|

删除 |赞[8]lmnnml 2013-12-31 15:44: 请问博主，你为何把因为glutin 过敏反对GMO食品的60%的民意删除了？你这不是不认数据只认人吗？; 李维回复：你睁开眼睛看仔细：那是做对照挖掘。删除前后的数据都在博文给出，难道你不读全文就指控？

朋友认为那个不是“民意”，而是某极端组织的“鼓噪”，因此做一个对比研究，看看该条“鼓噪”（或民意）对于整体褒贬指数的影响有多大，结果是5个点的影响。

大新年的。少点指控，多点快乐。祝新年好。

2013-12-31 19:551 楼（回复楼主）赞|

删除 |赞[7]liyouxi 2013-12-31 10:05

如果说的是我，我要说，我没有指出数据不可靠，只是说如何对待数据是个问题。

[8]lmnnml

删除 |赞[6]liyouxi 2013-12-31 00:42

博主能否利用大数据手段证明或者证伪下述的据报道？

＝＝＝＝
非营利性组织“国际食品信息委员会”（IFIC）在进行2013年《美国食品安全调查：消费者对食品安全、营养、健康的态度》调查时，依据2012年美国官方人口普查，以调查人群的性别、年龄分布、学历分布、族群分布和地区等变量配属统计权重，对1,006 名年龄18—80岁的美国人进行问卷采访。问卷结果显示，对于“你担心食品安全的哪些方面”这一问题，29%的消费者担心病菌和污染问题，21%的人担心制作过程，13%的人担心添加剂和化学品，只有2%的美国消费者表示担心转基因食品。当调查者进一步提问“你会避免哪些食品”时，消费者更多关注的是食品中“糖”和“脂肪”的含量，只有0.5%的人表示会避免转基因食品。对于现有的食品标签，仅有3%的消费者希望标注转基因信息。而在对消费者购买行为的调查中，87%的消费者表示生物技术（包括基因工程）不影响他们的购物选择。

李维回复 liyouxi ：没这个能力。

2013-12-31 13:061 楼（回复楼主）

赞|

删除 |赞[5]liyouxi 2013-12-30 20:37

删除 |赞[4]liyouxi 2013-12-30 12:48: 大数据能反映民意，这一点是没有太大问题的，只要收集数据的手段客观可靠即可。但是一个科技政策这样的专业判断问题，民意不能代表正确，且现代科学观念从来都是从少数人的探索开始的，社会大众事先不可能先行进行判断认定，即使成为科学知识之后，要一般老百姓（包含其他专业人士）来进行判断是强人所难。因此，我想博主可以做这样一个研究：美国民众在对待未知事物表达担忧的同时，是否主观想替代专业人士进行判断？或者在制定政策的层面上，是否对自己的非专业意见有足够的信心？还是，虽然有担忧，但是信任国家有关部门专家及科学共同体做出的决断和政策？他们老百姓有直接冲到最前线，推翻zf（FDA，AAAS等）的现有政策的意愿么？等等等等。; 李维回复 liyouxi ：看样子，我得向美国NSF或者国内杰出老年基金申请一个课题来研究这一系列问题，题目就叫【论社会媒体民意与公共政策之关系：以转基因为小白鼠的 case study】

2013-12-30 16:081 楼（回复楼主）赞|

删除 |赞[3]liyouxi 2013-12-30 09:58: 不过，摒除主观因素是一个重要方面，还有一个重要方面是样本空间是否足够客观、取样是否均匀？; 李维回复 liyouxi ：样本是最近一个月的英文社会媒体存档，以 twitter 为主，Facebook 为次，其它论坛等只占一个小的比例。这是当今社交媒体的自然分布，取样应该是均匀的。具体交待见以前的两篇博文。

2013-12-30 10:551 楼（回复楼主）赞|

删除 |赞[2]liyouxi 2013-12-30 09:54: 从某种意义上来说，人本身就是一架大数据处理机器，人就是在根据一辈子的所见所闻来下结论。不过，由于每个人处理数据的方式不一样，所以就一件客观的事情吵来吵去，难以得到共有的结论。因此，名义上，科学界不会以人的嗜好来作为判断标准，以尽量客观，虽然实质上还是会受影响。那么李老师，你所说的大数据处理方法摒除主观因素的能力是否在行业中得到公认？

删除 |赞[1]孙根年 2013-12-30 07:17: "数据，数据，除了它，我们谁也不认！"这话好，是情报分析的关键。

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么屏蔽留存

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么

屏蔽已有 5486 次阅读 2013-12-26 02:25 |个人分类:社媒挖掘|系统分类:科普集锦| 大数据, 转基因, 社交媒体, 挖掘, 语言技术

既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘。

这次挖掘仍然是最近一个月的英文社会媒体，区间为：

GM food, 11/25/2013 - 12/25/2013

Query 增加了一些同义词，GM Food 定义如下（漏掉重要的没有？）：

GM food
genetically modified
transgenic
transgene
genetically engineered food
GMC
GMO
GMF
Franken-food

从下述共现主题词发现，GMC （for GM crop）有严重歧义，它更多用来作为 GM 汽车品牌:

因此加了以下限制词：

{ car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }

(也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)

Anyway，在上述定义的 query 下，搜索挖掘的结果如下。

共现主题：

总览：

上图科学网上显示不够清晰，可以下载下列文件在本地屏幕看仔细：

2GM_overview.png

值得注意的是，与上次初步的调查的褒贬指数零下40度不同，这次更加 refined 的调查显示其褒贬指标为零下29 度，转基因食品形象仍然很不佳，老百姓仍然很多疑虑和抱怨，但是不像 -40% 那样恐怖。这次调查做得更加细致，query defined 更周全，个人认为应该更加真实可靠。

喜欢和厌恶转基因的理由云图如下：

社交媒体的地理分布：

从数据分布看，确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问，究竟是美国人民（网民）还是西方英文世界网民的民意。（我从善如流，为保险起见把前一篇博客的题目从“美国人民”改为“西方”，现在看来，我有依据再把标题改回去了。无需地理过滤，最近一个月英文社会媒体谈论 GM food 的话题，几乎全部集中在美国。）

美国国内的分布呢？

从颜色的深浅可以看出，这些议论主要集中在加洲（15%）和纽约州（9%），其次是德克萨斯（5%）和佛罗里达（5%）等。

其他信息图示：

网友一定奇怪，为什么挺转人士把 poison （毒药）列为理由呢？我也很好奇，就 drill down 到数据里面看，原来是这样的样例：

我们英文分析器当然知道 poison 是强贬义词，但是议论中的 poison 有否定词 no，因此处理器就转贬为褒。但是，遗憾的是，还是错了，可以算是一个质量的 bug，我这就去修改系统。错误在于，这不是简单的否定式，而是祈使否定句（NO 也用了大写），意思是“坚决不要孟山都的转基因毒药”，显然应该归入反转人士的意见去，现在弄反了。自然语言蛮复杂，除了否定，否定之否定，还有祈使，以及它们的混杂，这就是一个活生生的例证。再举一例，请看下面的 minimal pair：

（1） GM food is safer

（2） Be safer，GM food

同样是 “be safer”，（1）是褒义描述，而（2）是祈使句，带有贬义（义为 “拜托，你能安全一点，成不？”）

对这些 tricky 复杂的自然语言现象，我们做了不少工作，但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的，社会媒体的表达又很不规范。好在我们有不间断的质量检测（QA）流程， benchmarks 利用第三方 crowd-source 人工监测，四个判官，至少三个判官一致才作为标准。统计下来，英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用（以前我有几篇科普专文谈论这个），因此有信心说，总体结论是靠谱的，反映了社会媒体真实面貌的。

最后给一些社会媒体的samples

下载看上列样本的大图：

2GM_sample2.png

2GM_sample1.png

【相关篇什】

小数据和个案分析：个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘 2013-12-26
关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-752915.html

上一篇：米拉围脖：“窝心”
下一篇：大数据持续升温，是忽悠还是黑马？转薛老师赞大数据的quote

当前推荐数：27 推荐人：陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu

发表评论评论 (18 个评论)

删除 |赞[11]tuner 2013-12-26 20:54

今年美国通过了转基因食品强制标识法案的州有3个：Vermont, Connecticut, 和Maine。都是东北部的州，看来孟山都等转基因公司想用金钱左右所有的民意，还是不可能的。

明年应该有更多的州会对转基因食品强制标识法案进行公投，看结果吧。博主也许可以再做一下同比，即前几年同一个月在这个话题上的民意，看变化情况，应该能进一步说明问题。

删除 |赞[10]崔小云 2013-12-26 17:05: 大数据的方法真好。我慢慢学习李老师的博文吧。

删除 |赞[9]谢龙 2013-12-26 16:50: 博主你应该增加一个关键词 biotech

删除 |赞[8]范丁丁 2013-12-26 15:17: 李老师，你做这个的方法可否分享下，感觉很牛; 李维回复范丁丁：我的博客有100多则科普类分享，你有空慢慢挑着看吧

2013-12-26 15:241 楼（回复楼主）赞|; 李维回复范丁丁：在两个专栏里：《社媒挖掘》和《立委科普》

2013-12-26 15:252 楼（回复楼主）赞|

删除 |赞[7]lmnnml 2013-12-26 15:02

26楼点中要害

大数据能代表美国人民吗？我看8楼的评论
zhiyanliao说大数据代表不了真理

李维回复：谁说大数据代表真理，谁就不是 human！

2013-12-26 15:341 楼（回复楼主）

赞|

删除 |赞[6]文克玲 2013-12-26 14:44: 可以比较一下大数据与全民公决的结果（加州，转基因标识问题）。; 李维回复文克玲：这个工作就指望您啦

2013-12-26 15:351 楼（回复楼主）赞|

删除 |赞[5]zhiyanliao 2013-12-26 14:25: 用你这种大数据的方法，调查民意，我保证你的结论是：全世界的舆论都是反共，反中国政府的，中华人民共和国是专制的国家，钓鱼岛是属于日本的，台湾是一个独立的国家，毛泽东是暴君， ....... 。
为何？因为你输入的数据是带偏见的。你说你是没有输入自己的数据，是网上已经有的数据，请问科学家的数据跟民工中学毕业生的数据那个可靠。; 李维回复 zhiyanliao ：如果是那样，我无法改变，他反映了一种民意。

2013-12-26 15:091 楼（回复楼主）赞|

删除 |赞[4]dangping 2013-12-26 14:05: 民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见，媒体也有可能更倾向于转载一些负面的报道和意见，所以这些分析结果能不能代表人民的意见还很难说。; 李维回复：其他网友也有这个看法。有一定道理。但这个否定不了大数据的挖掘价值。

2013-12-26 15:291 楼（回复楼主）赞|

删除 |赞[3]husselfist 2013-12-26 13:07: 有点意思。

删除 |赞[2]薛宇 2013-12-26 11:27: 您这个词频分析真是个好东西，另外，啥叫“共现主题”，能解释一下吗？还有，您这个用到热图了，这个我们好几年前就关注了，跟胖子还合作了一个工具。挺好，赞！; 李维回复薛宇：就是共现关键词，主要是实体名词

2013-12-26 15:071 楼（回复楼主）赞|

删除 |赞[1]张能立 2013-12-26 10:36: 中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。

关于转基因及其社会媒体大数据挖掘的种种问题屏蔽留存

关于转基因及其社会媒体大数据挖掘的种种问题

屏蔽已有 4859 次阅读 2013-12-25 07:55 |个人分类:社媒挖掘|系统分类:科普集锦| 挖掘, 社会媒体, 语言技术

没想到转基因话题这么热，随手做了一个自动调查发在博客上（【西方怎么看转基因：英文社交媒体大数据调查告诉你】），一天多就达到 7000 点击，40 多评论。先把我对问题的回应整理如下。

1. 关于数据问题

你这个数据是有问题的，想想看，美国加州、华盛顿州的公民投票结果都是不同意转基因标识，大多数民意连转基因标识都不要了，对转基因食品安全性的担心能有多少呢？这个样本比你那个说明问题吧？

博主回复(2013-12-24 10:04)：这个数据是没有问题的，因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的，是普适的。对于一个月之上的数据，可以根据 GM Food 这样的主题词去筛选也可以一网打尽，但是有数据成本的问题。至于数据挖掘有没有偏差？文本挖掘技术当然不可能是完美的，但是统计上没有问题，因为第三方多次测试精确度都是接近90%。

2. 关于结论的对错

转基因的安全性靠调查研究难以给出正确评价。

博主回复(2013-12-24 12:47)：两码事。

安全性是科学问题，假以时间应该由科学解答，或者有些已经回答并得到权威部门认证。

舆情调查反映的是普罗百姓对事物的方方面面（包括安全性）的看法而已。

还有一点，博文中说的Gluten引起的各种那个过敏症。我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要？因为gluten就是我们中国人飞铲喜欢吃的面筋，各位都喜欢吃油面筋塞肉，北方人吃面要“筋”，都是gluten含量很高的食品，跟转基因毫无关系。

而且超市中真正gluten-free的食品货架上很少的，现在美国飞机航班上不提供花生，只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏，所以航班不供应花生了。

博主回复(2013-12-24 17:55)：听我的专家朋友说，Gluten 确实与转基因无关，是有公认的科学结论的。

那为什么舆情中，这一项作为转基因的主要问题呢？

没办法，这就是舆情，我不能改变它，只能反映它。

也许这正说明，科普还没做到家，还没能让老百姓了解和信服。任重道远。

3. 关于阴谋论

菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html，说：“李维先生说，该英文社交媒体大数据调查反映了民间的真实态度，这个观点看来要打个问号了。” 这个“该”字从何谈起，我们对社交媒体是一网打尽（因为企业用户要求如此），其组成和来源都在文中有交待。他下面的推测充满了细节，实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢，描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的，其调查的人群经过了特异的选择，或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”，又有什么意义呢？”（下划线是立委加的）

蔡老师哎，你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件，用的是未经任何人控制的原始数据（英文叫做 firehose，就是直接从社交网站流出来的），没有人工干预，靠的是自然语言挖掘技术自动生成的。这样说，应该够清楚了吧。我的本行就是舆情自动调查，这只是针对热点问题，从系统输出结果而已，供大家做舆情分析时候一个参考。

说明一下，所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index （库存）里面，我们包括所有够得着的社交媒体，英文社交媒体从比重上看，twitter 为主，Facebook 其次，其他论坛上百万个来源只占少数，这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人，所以不时用系统挖掘热点话题，一来可以看看系统还有什么可以改良的地方，而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。

蔡老师(2013-12-24 16:24)：我的推测是否正确，不是关键。关键是你的舆情分析软件结果与公民的投票结果相反，必须做出解释，否则这样的舆情分析只会造成更大的认识混乱；如果领导据此决策了，更加有误导嫌疑。

(2013-12-24 16:15)：我不怀疑你的数学分析能力，你的数学模型包括软件应该是不错的。但是，出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面，还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你，让我们共勉吧：数学模型应当建立在具有生物学意义的基础上，离开了这个基础，哪怕数据再充分、模型再漂亮，也是没有意义的。

博主回复(2013-12-24 18:07)：您的思维很怪异：说什么领导据此决策错误，我就更加有误导嫌疑。

这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源，依然决策错误，那就是狗屁领导，没有领导能力、决策能力，领导应该下台，这个决策错误与信息提供者有一毛钱的干系？

又：说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学，我做语言文本调查要什么生物学的基础？我的对象是自然语言（社交媒体），不是生物啥的。我的模型建立在语言学（语言分析，parsing）基础上，这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。

博主回复(2013-12-24 16:44)：喂，喂，我为什么要为我的自动调查与公民投票的差异做出解释？

我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合，可能有一千个因素，我有什么责任和义务解释？

我也从来没关心过那次投票。

博主回复(2013-12-24 16:38)：

您如果质疑“调查反映了民间的真实态度”，完全没有问题，因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差，也还不算离谱。

可您凭空从头脑想出来并描述了我的数据被操纵的过程和细节，就让人跌破眼镜了。

4. 关于噪音处理

至于博主和蔡晓宁先生说的大数据处理的技术我不会，还得在学习了。不过google或百度上的绝大多数数据是垃圾数据。如果要使用大数据处理来统计，我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理，看看你能得出一个什么结论。这些可就是科学的结论了。

至于垃圾过滤，这是任何大数据系统都必须要做的工作，我们也有这个过滤，经过几年的不断改进，测试证明英文大数据的垃圾已经不再是大问题了。

不过中文媒体的垃圾过滤还有很多工作要做，有国内微博水军和僵尸的问题。不过对于热点话题，可以只选取带 V 的样本，也就杜绝了水军和僵尸。但对于冷门话题就不好办了。

另外一个工作是避免过量重复（de-dup），英文也已经做得很好。

对于大数据处理，我完全是外行，现在说几句外行的话，不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性，不分青红皂白的把所有数据输入，输入的数据就没有科学性，可靠性，由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V，用定贴机为某一个题目专门不断发帖顶贴，所以不分青红皂白的输入这种数据，实际上是被其他人所误导。
3. 所以要用大数据，必须界定你的大数据来源。否则同一事物，被不同人选择来源，完全就有不同的结论。
以上是外行的话。

博主回复(2013-12-24 18:35)：当然你的担心是有理由的。做大数据的人当然要过滤垃圾（包括无处不渗入的色情），而且要 detect 僵尸、水军和数据的过分重复（机器人发贴）等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度，可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是，由于大数据的存在以及大数据处理能力的不断完善，舆情挖掘提供了一个难以取代的情报源，在决策中有参考价值。这是可以基本肯定的。

5. 有比较才有鉴别

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。

这一点毛委员早就说过：有比较才有鉴别。

有比较才有鉴别，这是铁律。任何指标单看，其意义就很悬。包括我说转基因不受美国人民喜欢（零下29度），也是因为有过往的褒贬指标平均值作为 reference frame 才说的。

6. 大数据是忽悠么？

是的，有很多忽悠。但是立委论大数据不是忽悠。

》》这篇博文充分说明，“大数据”并不是神仙，完全可能得出错误的结论，“大数据”只是一种工具，要看使用者如何使用它了。

博主回复(2013-12-25 00:30)：说大数据是神仙的，多半是忽悠。

今天忽悠大数据，明天其他东西流行了，就忽悠其他东西。

但是大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级。拜科学技术所赐。

7. 关于系统可靠性

任何一门新的方法的建立，都需要首先用对照验证其有效性。这种抓取网络关键词，有没有与大样本的问卷调查等传统方法进行对比，验证过有效性？看到fear，就下结论说是人民害怕，也许是有人说不用fear呢？至于英文网络的数据，为什么下结论时认为只是美国人的意见，把欧洲人等排除掉了？

博主回复(2013-12-25 07:09)：你提到“抓取关键词”，怀疑系统不能处理否定式（“也许是有人说不用 fear 了”），那是你不了解我的背景，虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之，我们的舆情挖掘不是通常的关键词技术，而是建立在高级得多的深度语法分析（deep parsing）之上的信息抽取和挖掘。不仅可以对付否定式，否定之否定等更复杂的语言现象也能处理。

博主回复(2013-12-25 00:59)：至于意见中是不是只有美国？

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看，美国网民比重很大，但这个世界是地球村了，当可能包括西方其他国家的舆情夹在里面了。

其实很好解决，系统有地理过滤器，我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘，有成本的。今后高兴了，再做吧。博主回复(2013-12-25 00:53)：有没有与问卷调查以及用其他方式验证过这个系统的有效性？

有过。很多次。而且还在不断定期进行中。为什么要这样做？因为质量是系统的生命线，否则怎么取信于客户。

大数据挖掘热点话题（冷门话题数据量少，就不好说了）作为舆情的反映，基本可信，至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息，权当 raise awareness 和科普。

我的论点，您可能只看到了其中一部分。我再多说一点，人们的用词习惯在这个比较里面没有被考虑到。比如，说一个人很丑可能多数人用单词A，而说她美可能会有十种表达方式。假定认为美的有十个人，用词个不一样，说她丑的只有三个人，但看起来是显然的高频词。这不是误导吗？这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。

博主回复(2013-12-24 17:45)：要想做这种矫正，你先得研究清楚这种现象在真实语料中确实存在，严重程度，分布如何。听上去，这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外，一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小（其实即便在那里，我们对比较严格的同义词还是做了合并处理的，因此问题没有想像的严重），但并不影响最重要的 net sentiment （褒贬度）的指标，因为后者是根据褒贬两大类来计算，而不问具体的用词。

很多事情都是这样的：赞成的人不怎么发声，而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结，这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此，所谓相对客观的大数据，也许本身就已经预设了立场。博主回复(2013-12-25 11:08)：这种情况是可能的。所以我说，同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如，指数为零表面上似乎是褒贬民意旗鼓相当，你可以打个折扣，理解成其实是褒多于贬，只不过很多满意的人不言声而已。

这个折扣怎么打，可以根据经验法则，多一些实验也许慢慢可以显现出来。

8. 我只做民意，不介入转基因的争论

老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.

博主回复(2013-12-25 00:39)：我只做民意。别的你们做，或谁爱做谁做。

我不反对转基因，也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度，我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导，不能强迫人们吃转基因，或任何东西。在民意有很多顾虑的时候，给民众选择的权利是合理的（除非标识成本太高：其实高成本只要转嫁给要求标识的消费群体就合理了）。

题外话：我的转基因立场

我其实没有什么立场，也没有相关的生物知识背景，转基因从来不是我关注的对象（因为是热点话题才选它当小白鼠做舆情挖掘的试验，而不是对其感兴趣）。通过朋友的争论和综述，觉得两边的极端派掐架很难看，都有误导和蛊惑。（By the way，我觉得挺转人士当年犯了致命错误，他们不该把 GM 翻译成转基因，要是翻译成生物高科技最新改良食品伍的，就会减少很多阻力和疑虑。名不正则言不顺，言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的，你说说这个术语翻译是不是害死人。后来金大米起的名字就很好，无奈受转基因的牵累，还是遭到很多人的排斥。）

我本人不介意吃转基因食品，因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此，转基因就不单是科学的问题了。要上老百姓餐桌的话，老百姓的感受不能不顾及。作为一种过渡，我觉得在中国有必要给转基因食品做标识（或给非转食品做标识，one way or the other），给人民选择的权利。这个不必要循美国不标识的例，原因是国情不同，老百姓为食品安全困扰太久，井绳之忧是自然的反应。转基因的最终胜出，应该靠自己的实力，譬如价格的低廉，日益显示出来的安全性等。标识以后，科学人士和我等无所谓（畏）人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子，就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。

最后来点 fun，转发老友的一个评论。

浅谈立委大数据利用的局限性

作者: 田牛

1。没法评估和预测股市，黄金走势
2。看不出钓鱼岛的归属依据
3。比较不出社会主义或资本主义的优越性
4。对国际贸易的趋势做不出专家评论
5。完全忽视不上网不用手机的（或上网用手机但不进入他搜索网络）人群的话语权，比重
6。对测量（不是影响）湾区华人选票的帮助不大
7。依然无法用大数据得出吃一顿简单中餐得到的卡路里

暂时想到现在，希望立委有突破，我们LBC可以近水楼台先得月。

【相关篇什】

小数据和个案分析：个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘 2013-12-26

关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-752623.html

上一篇：米拉围脖：“窝心”
下一篇：大数据持续升温，是忽悠还是黑马？转薛老师赞大数据的quote