【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】(屏蔽留存)

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

屏蔽已有 4589 次阅读 2014-1-6 00:54 |个人分类:社媒挖掘|系统分类:博客资讯| 小崔

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Re:你的软件有bug。5-7月,崔永元主要在忙公益基金的事情。

当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。

上篇挖掘崔方大战一年的形象变化曲线,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in garbage-out 造成的?

于是 narrow down 到那个区间做进一步调查,看来不是小方也不是月亮,而是“苦逼” 惹的祸。

初步查了一下,可能的原因是“苦逼”。那段时期称他为苦逼小崔的较多
日期: 01/05/2014 10:28:11
系统认为 苦逼 是负面评价,加上数据总量(8930 mentions)不够,所以就构成低谷了

法克

好在,这个问题数据量大了以后应该自行纠正。希望与内容商的谈判早日定局,数据量一大遮百丑。

 

 

 

 
 

MD 这么一条就左右主导了曲线两个月低谷??

所有数据量需要一个阈值才靠谱。这个经验值还在探索中。

系统本身绝不是 garbage in n out,苦逼 平时确实更多贬义,但也有调侃同情的可能。

大数据的要点是 大。Lesson learned

RE:应该是5-7月曝光少,噪声起作用了。之前是两会,之后是公益等。

 

小崔这期间共8930 mentions,其中褒贬词量1164,而小崔负面评价总数686,其中苦逼610次
日期: 01/05/2014 11:20:50
问题是这样的帖子,de-dup 也对付不了,因为帖子本身是 不同的,但是短语 苦逼小崔 只是帖子的一个组成成分

还是一句话,大数据重在大,一大遮百丑,一大就靠谱。

不过,数据量不足也有好处,可以更加容易暴露系统的bugs,而数据量一大,噪音和 bugs 就自然退居幕后,浮不上台面了。

 

google 了一下,原来 苦逼小崔 真地不是崔永元???
作者: 立委 (*)
日期: 01/05/2014 16:01:20
那是谁呢?

笑话闹大了。

在小崔民调中,我可以(应该)过滤掉“苦逼小崔”的干扰。

 

  1. 苦逼小崔。 – 豆瓣

    www.douban.com/people/55978871/

    Translate this page

     

    老孙谁都不是。 不是前任,不是现任,不是同学,不是同事,甚至称他为朋友都有点牵强,他是同学介绍给我的适合结婚的对象,这个定义听起来有点残忍,但事实就是 

  2. 苦逼小崔。的豆瓣小组

    www.douban.com/group/people/55978871/

    Translate this page

     

    小组、话题. 苦逼小崔。的豆瓣小组. 小组主页 · 加入的小组(22) · 喜欢(0) · 推荐(1). 加入的小组(22). 太原一家人. (9297). 掀起你的内幕来┃青草公益活动月. (254349).

  3. 苦逼小崔。的相册 – 豆瓣

    www.douban.com/people/55978871/photos

    Translate this page

     

    有了这个相册,我就知道明年什么时候该穿什么衣服了。 11张照片 2013-07-16更新. Wish you were here. I’m here. 11张照片 2013-07-15更新. 西安西安. 75张照片 

  4. 我刚才看到了一个苦逼小崔的自爆…… – 豆瓣

    www.douban.com/group/topic/41545991/

    Translate this page

     

    Jul 19, 2013 – 成功勾引母猪 (Feel so close) 2013-07-19 23:42:27. 我操,我操,蛋大的事也值得你开个帖? 我操,我操,蛋大的事也值得你开个帖? 苦逼小崔。

  5. 苦逼小崔。的相册-夏 – 豆瓣

    www.douban.com/photos/album/106664416/

    Translate this page

     

    Jul 15, 2013 – alay : 。。要我当面指给你看么 09-24 14:23; 苦逼小崔。 : 胸部在哪? 09-24 14:23; alay : 胸部不错啊 09-24 13:38; 苦逼小崔。 : 蓬荜生辉有木有!

  6. 北京,北京- 苦逼小崔- 面包旅行

    breadtrip.com/trips/2387782532/

    Translate this page

     

    Oct 2, 2013 – 坐缆车准备爬山了。 喜欢(0) 评论(0). 2013-10-02 11:43:00. 北京. 苦逼小崔-北京,北京-2400515001. 到顶。 喜欢(0) 评论(0). 2013-10-02 12:57:00.

  7. 苦逼- 小崔seo_崔长河的个人博客

    seo-oo.com/?tag=苦逼

    Translate this page

     

    小崔seo,是一个致力于关注互联网技术、网络营销、搜索引擎优化(SEO)的博客。博客内容包括SEO,但不限于SEO。

Page 2 of 20 results (0.13 seconds)
 
 
 
 
 
 

转基因问题
http://blog.sciencenet.cn/blog-362400-756279.html

上一篇:【大数据挖掘:方崔大战一年回顾】
下一篇:社媒是个大染缸,大数据挖掘有啥价值?

 

5  王秀玉 武夷山 孙根年 陈筝 bridgeneer

发表评论评论 (5 个评论)

删除 |赞[3]laohe41   2014-9-3 10:02
崔绝对不是苦逼,逗逼还差不多。

删除 |赞[2]何小阳   2014-1-6 17:43
没有“阀值”这个词,只有“阈值”,threshold
 回复  : thanks

2014-1-6 21:591 楼(回复楼主)赞|

删除 |赞[1]戎可   2014-1-6 06:50
2013?
 回复  : thanks

2014-1-6 08:331 楼(回复楼主)赞|

发布者

liweinlp

立委博士,弘玑首席科学家,自然语言处理(NLP)资深架构师。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据