[转载]转载论大数据的文章:何帆 - 大数据时代正聚集改变的能量
屏蔽 ||| |
【立委按】见过能侃的,这么能侃的还真不多见。显然作者读书涉猎很广,也比较善于思考,表达能力更了得。他对大数据前景的描述还是有参阅价值的,虽然有些事例显然是张冠李戴。比如关于“开除一个语言学家,则系统质量就提高几个百分点”是一个NLP历史上著名的掌故,讲的是近20年前 IBM 实验室的语音系统(见【立委随笔:文傻和理呆的世纪悲剧】),却被按到现代的 Google Translate 项目上。
以下内容来自社科院世界经济与政治研究所副所长何帆的一次讲座。
大数据时代需要重视统计学
我们现在要开始重视大数据,要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。统计学学好了,你再去学别的都战无不胜,因为一切社会现象到最后都是一个统计规律。
为什么要强调统计学呢,因为我们的认知能力中最差的是统计思维。人的大脑有一些功能优良得超过我们的想象,比如我们的语言能力。著名的语言学家乔姆斯基曾说,其实语言不是你学来的,语言是你天生就会的,因为语言太复杂了,要是从出生再学语言根本学不会,等你出生的时候,你的大脑里头已经预装了一套操作系统,语言的操作系统。所以语言我们是天生就会的。还有,比如我们察言观色的能力,也是天生就会的。但有,一些是我们不会的。一位得诺贝尔经济学的心理学家写过一本书,《思考快与慢》。里面就讲到,我们有很多思维是靠直觉的快思维,这是我们几万年、几十万年、几百万年的自然演化,然后给我们留下来的,就是第六感觉。当你觉得可能有危险的时候,你就会跑掉。但是呢,我们另外一套操作系统是用来做逻辑推理以及进行统计分析的,装得很烂,所以我们天生缺的是逻辑推理能力和统计思维能力。
所以,在大数据的时代,我们最需要补的,其实是我们认知能力中最差的统计思维。如果有在学校的学生,我建议统计学这门课要好好地上。
“大数据”何以成为热门词汇?
为什么突然之间,大数据变成了一个最热门的词汇?
首先是由于IT革命。IT革命之后,我们有了很多处理数据的能力,对计算机数据的处理能力、存储的能力和计算的能力不断的提高。人类储存信息量的增长速度比世界经济增长的速度要快4倍,而且这还是在金融危机爆发之前的世界经济增长的速度。而计算机数据处理能力的增长速度,比世界经济增长的速度要快9倍。
其次,能够被数据化的东西越来越多。最早的时候是数字可以被数据化,所以我们有了阿拉伯的计数,后来又出现了二进位,再后来我们发现文字也可以处理成数据,然后我们发现又图像也可以处理成数据。我不知道欧美同学会《时代大讲堂》位置在哪里,我就赶紧上网查一查地图,方位也可以被数据化;你用微信、微博,跟朋友在网上交流,说明你的社会关系也会被数据化。
所以这就是为什么现在要谈大数据,因为可处理的东西太多了。而当你能够被数据化的东西越来越多。当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断的进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。所以这个时候,有很多原来想都不能想的事情,现在你可以去做。
大数据时代的三个规律
规律一:知其然而不必知其所以然 外行打败内行
我先讲一个案例就是葡萄酒。葡萄酒怎么品酒?过去是靠品酒方面的专家。他会先闻一闻,什么味道、什么香味,然后看看是不是挂杯,最后告诉你,这个酒大概是什么庄园的,什么年份的。但是,当品酒师在品新酒时,因为葡萄酒真正的品质还没有形成,所以这个时候,他的鉴定是永远靠不住的。另外,当一个品酒师的声誉越来越高时,由于要照顾到自己声誉,他不敢做大胆的判断。普林斯顿大学有一个经济学家也很喜欢收藏葡萄酒,他就想能不能自己预测出这一年这个地方的葡萄酒的品质如何?然后他就开始去找来很多数据,最后得到了一个秘诀。葡萄酒的品质跟跟冬天的降雨量、生长期的平均气温、收获季节的降雨量、土壤的成分等等这些因素有关。1989年,葡萄酒刚刚下来,他说今年的葡萄酒是世纪佳酿,1990年他又做出预测,说今年的葡萄酒比1989年的更好。连续两年说是世纪佳酿,一般的品酒师都不敢这么评,但是最后事实证明他说的完全正确。
第二个案例,怎么寻找潜在的棒球球星?著名的财经作家麦克刘易斯写的书《Moneyball》,后来拍成电影叫《点球成金》,讲到一个球队教练遇到了一个经济学家,他们用很另类的办法,实际上就是用数据,把每一个选手的场上记录拿过来,用数据去找,看谁是好的球星,这跟传统的行规完全不一样,但是后来非常成功。
我们原来讲,要知其然,还要知其所以然。但是现在大数据时代,你可以知其然,不一定非要知其所以然。如果你去问普林斯顿大学的教授,为什么这个酒好?到底是什么香味?酒回甘是什么?他也不知道。但是他能够知其然,他能够做出来判断。为什么呢,很可能是我们原来的认知里头,我们执意去要寻找一些线性的、双边的直接因果关系。但是很可能万物之间的联系比我们想象中的要复杂,他可能是非线性的,可能是多元的。所以出问题的不是数据,出问题的是我们原来的认知模式。怎么办?一个办法,退而求其次,你可能要先去寻找相关关系,然后再去找是否有因果关系。
规律二:彻底的价格歧视 商家比你更了解你自己
有一个机构,专门做信用卡的刷卡记录。他们攒了大量的数据之后,拿这些数据做分析,最后找到很多很奇怪的规律。比如,你是否离婚与你信用卡上的还款记录和你驾驶车辆出车祸的概率有关系。比如在大数据时代大家可能会听到的一个比较有名的例子,就是沃尔马最早的时候发现很多奇怪的规律,比如尿布和啤酒的销售量是有相关关系的。这俩东西怎么会联在一起?市场调查人员最后发现,往往当有新生的小孩之后,买尿布的任务就给新爸爸。尽管新生的宝贝的出来他的贡献也没有多少,但是他有一种自豪感,他去买了尿布时,为了庆祝,他会顺手去买啤酒。如果你在尿布的旁边就直接摆上啤酒,啤酒的销量就会提高。还有一个店,专门卖母婴用品的部门搜集顾客的信息去研究。比如说研究什么时候你可能会怀孕,你可能会买更多的母婴用品,而营养品会增加,或者一些没有香味的洗发剂,最后就可以预测潜在的客户到底是谁。
所以大数据时代,动摇了我们原来的方法论。
有一个赌场,进去之后会刷卡,而你的基本信息全都在这个磁卡上面。包括国籍、性别、年龄等等全就掌握。他有一个庞大的数据库,可以算出每个人的痛苦点,即如果输钱超过了这个痛苦点,从此之后再也不来这个赌场。而赌场最好的办法是在你快要达到痛苦点之前叫你住手。所以当你快要到达那个痛苦点的时候,你的旁边就会突然出现一个年轻貌美的公关经理,说先生玩得很累了吧,要不要休息一下,我们这个赌场刚请了一个法国大厨会做非常好的法国大餐,你很幸运,你被选我们的幸运顾客,请你和太太一起去享用免费的法国大餐!很好,但你不要忘了,当你享受到你觉得物超所值的服务时,往往就是你的最后一分钱被别人榨完了!包括信用卡调整额度,很可能也是在大数据的基础之上自动调整额度。
那这个带来了一个变化。原来经济学讲到,商家不能搞价格歧视,不是因为道义上不能,而是由于在过去商家很难对不同的顾客,进行价格歧视,你必须要定统一的价格。但这是过去的规律,在大数据的时代,这个规律被彻底颠覆。在大数据的时代,商家可以精准的针对每一个个体的消费者定价,把你最后的一分钱全部榨干,因为他比你自己更了解你的行为。你都不知道你的车可能要去保养了,他就已经给你发消息;你自己都不知道,身体已经处于亚健康状态需要去旅游放松,旅行社马上就会给你打电话。你说它怎么会这么了解我的心,大数据在帮他的忙。会用大数据的商家都是偷心者,都会把你的心偷走,他可以精准的定价。
规律三:打破专家的信息优势 病人给医生解惑
那我们接着再讲一个案例,电视连续剧《豪斯医生》的医学顾问是纽约时报的一个专栏作家。他是倡导寻证医学的一个代表人物。寻证医学就是根据证据来治病。过去看病时,要先研究病理学,然后再研究治疗办法,而且有很多是一代一代口传下来的。老师告诉,维生素B12口服的效果不好,必须打针。为什么?不知道,反正是老师的老师就这么告诉老师的。所以你的老师也这么告诉你,你就这么再告诉你的学生。但是后来发现,这里头有很多问题。
为什么现在医患之间的纠纷这么多?实际上医院的误诊比例非常高。美国有一份研究称美国医院误诊比例大概是1/3,有20%的重大疾病的死亡原因是由于误诊。为什么?因为过去完全靠经验,有很多都是主观的。到现在来说,医学不是科学,医学研究的是复杂的生命体,所以它还没有到能够精准治病的程度。后来,大夫开始另辟蹊径,他通过数据最后找出规律。19世纪一个医生发现,如果医生先去了停尸房再回来给妇女接生,产妇的死亡率明显提高,而洗手之后死亡率下降,那个时候还不知道细菌和病菌。所以当时每一个医生都要洗手。没有哪个病理学能够告诉你洗手跟降低死亡率有关系,但是后来死亡率就大幅度下降。所以这就是寻证依据的思路,减少医生的自主权利,也有道理。就如坐飞机时,飞行员能不能想停就停、想起飞就起飞?不行。飞行员其实没有多少自主权,需要严格的按照操作程序一步一步去做。当这些所谓的专业人士的自主权被剥夺之后,你就会发现越来越安全。
所以按照大数据,医生最后发现他自己被边缘化了。因为有了互联网,有了大数据之后,病人有时候比医生还要精。美国有一个报道,有一个病人被推到病房里头,他有多种免疫功能紊乱,一群大夫会诊,最后都不知道到底这个病是什么。最后,主治医生问这个病人,你觉得这个病大概是什么。病人说我知道,我这个病就是IPEX。你怎么知道的,他说很简单,我把症状在谷歌里一搜,马上就诊断出来了。
原来医生能够治病,是因为他的专业比你强,他信息比你多,而现在你的信息跟他一样多。你可以拿着谷歌上打印出来的资料跟他说,“你的诊断错了,按照我在谷歌上,我应该是这个病,不是你那个病”,完全颠覆了原来信息不对称的情况,所以大数据时代的第三个规律就是打败、打破了专家的信息优势。为什么我要一开始就跟大家讲不要信专家,因为在大数据的时代没有专家。
大数据的时代,专家可能反而会误事。比如谷歌有一个机器翻译,一开始可能翻译的很差,但是慢慢发现他的翻译水平越来越好。为什么?谷歌机器团队里头总结出来一个经验,说凡事当小组里解雇了一个语言学家,我们翻译的精确程度就提高了,因为语言学家老在挑毛病,最后剩下来的全部是不懂语言计算机专家和数学家的时候,没有专家在那里指手划脚。
最后的启示就是我们不能相信,我们也不能相信我们内心中的专家。
往往我们的认识模式里,对自己的能力盲目信任,往往会过分夸大自己的能力。所以,现在有一个投资的方法,叫量化投资。原来是价值投资:这个东西是不是物有所值,如果说它被价值低估了,你赶紧去买它,以后它价格会起来。现在讲的是,你不用管它到底有价值没有价值,我只看它是涨还是跌。那看什么?看量化投资。量化投资靠什么?靠大数据。但是量化投资到最后是谁来执行,不是靠数学天才。数学天才的贡献是发现了一套投资方法,然后由电脑来执行。为什么要让计算机来执行而不让人?因为一个人哪怕你心理素质再高,哪怕你智商再高,总有无知和贪婪的时候。所以最好的办法就是,放弃自己的主动性。
大数据带来的风险:用你的隐私去赚钱
大数据给我们带来的各式各样的好处,但是这里头也有很多风险。你害怕不害怕你的隐私被别人拿走?大数据的前提就是你必须把你的隐私要全部贡献出来。你如果想享受到手机给你带来的好处,那你手机马上会知道你在哪、你干了什么、你每天的生活都是什么,然后当你这些数据被人家拿走之后,人家就会拿你这些数据,去分析你害怕不害怕。有一个电影叫《少数派报告》,有点科幻性质,最后到什么程度,我根据你的数据,我判断你今天出门杀人的概率有90%,所以你出门之前我先把你拘留起来行不行,有很多涉及到法律、伦理的层面,涉及到隐私的层面不太好解决,这种数据时代,这种IT革命并不是高歌猛进的,它已经出现了有一些回潮,就是其实你想想在最早的时候,其实整个互联网的世界都是开放的,但是那个时候很奇怪,那个时候实际上每一个电脑的用户,等于他的房门都是敞开的,但是居然没有黑客进去,因为大家都是黑客,那时候只有技术人员才会用电脑,大家居然互相之间都不侵犯,但是现在你想想网上这种偷你的信息,拿你的数据,对不对,接到很多电话那都是大数据时代,“哥你想买房吗”,你怎么会知道我要买房,我大数据研究出来的,这个时候你为了隐私,为了保护自己的隐私,有很多时候你放弃了这个系统的开放性。
现在你觉得用苹果的产品很爽、很酷,但是苹果的产品是严重封闭的,你没有办法改它,跟你原来用Windows实际上理念是不一样的,你喜欢你就用,你不喜欢你就不用,你说我有意见,有意见白提,没有用,苹果的整个操作系统是完全封闭的,你爱用不用,不用拉倒。然后还有,你最近发现,原来的时候影响美国政治的往往都是一些金融家,但华尔街现在不行了,在金融危机之后华尔街不行了,现在新崛起的一代富豪,都不住在纽约,他住在加利福尼亚或者住在华盛顿州,他住在西雅图,这些是新崛起的数据资本家,那你如果这些数据资本家到最后对政治的影响力越来越大,你可以想象他想要的是什么,他想要的更多是要求把数据公开,让他能够自由的拿你的隐私去赚他的钱,想想也是蛮可怕的,那还有一个更深层次的原因,就是大数据有可能会给我们带来一个盲目的乐观,我们认为什么东西我只要有数据,我都能够预测出来。你能够预测出来的东西,其实是很少的,就是我们刚刚举的那些例子,为什么能预测出来,因为它不断的发生,它是常态情况下出现的,所以它经过几万个消费者、几十万个消费者、几千万个人到最后总结出来你个人的行为,你总觉得跟别人不一样,大数据告诉你,歇了吧,你跟别人一样。凡是当你认为你自己跟别人不一样的时候,其实是你很幼稚的时候,你想一想你初恋的时候,你都觉得跟别人不一样,那都是很世俗的,我这个是刻骨铭心的,现在呢,都结婚了,孩子都有了,你再回头想一想,有什么不一样的,都一样。
所以大数据时代,它是能够看出来,当你是在这种用统计学的术语讲,当你是在正态分布的时候,当你是在正常状态的时候,正常的世界是一个像钟一样的,就是它的概率发生的程度,极端的情况下概率发生的程度是小的,就是你是天才的概率是很小的,你是麦兜的概率也是很小的,大部分人其实都是在中等智力水平、中等道德水平,所以我能够预测出来,你能够大概怎么样。但是如果我们的分布不是正态分布呢,那就不一样了,对不对,原来我们很多统计学基本上的方法论,我们的前提假设都是标准状态分布,所以为什么金融学理论错得一塌糊涂,按照标准的金融学理论,像2007年、2008年那样的金融危机,大概250亿年会发生一次,地球都不知道死了几回了,就是这学问还能得今年的诺贝尔经济学奖,他还好意思拿,所以原来的理论里头其实有严重的缺陷,所以有一本书叫《黑天鹅》,黑天鹅是什么,黑天鹅就是看起来不可能发生的事情,因为原来欧洲人不知道有黑天鹅,在欧洲看到的都是白天鹅,所以有一个说法说,你说的这个事情不可能发生,不然你给我找到黑天鹅。结果后来航海技术发达了,到了澳大利亚,发现一群黑天鹅,就是你认为不可能发生的事情发生的概率是很大的,你天天打开电视就是,百年不遇的洪水,50年不遇到的旱灾,天天都遇到,因为你认为不可能发生的事情,其实发生的概率比你想象的是要大,说明什么,说明它不遵循标准的正态分布,所以这个书里面一句让我感触很深的话说,你不知道的事情比你知道的事情要更重要。
大数据时代 通过承受小风险来避免大风险
大数据给我们带来的福音和带来的风险是交织在一起的,我们有很多风险也是现在大数据给你带来的,因为你没有办法找到到底哪条线索,线索太多了,所以回到最后一个概念,就是恢复力,就是你一定要向好。到最后我能不能回来,我们讲投资,投资最高的理念不是赚钱,是第一不赔钱,第二不赔钱,第三不赔钱,你能不能有恢复力,因为什么呢,第一个如果我们现在讲究效益,我们把自己和整个世界,全球市场联起来,联起来效率是很高,但是会带来一个问题,一旦互联就会有风险,而且会有传染的系统性风险,那么另外一个你得想清楚你很可能会失败,不会的,别人会失败,我不会的,我告诉你,从地球诞生以来,地球上的物种99%都已经绝种了,原来有一本书叫《从优秀到卓越》,你们父母当圣经,天天都在看,你今天再看看从优越到卓越,你去看第一版,他列出来的那些公司,现在有一半都去哪了,不知道,对不对,所以失败是必然的,成功是偶然的,所以你想好到最后不是你想好如何成功,是如何避免失败,尤其第一个必须保证你的核心业务在遇见危机的时候,还能够正常的运转;第二,要有安全岛的意识,要把它一个一个分开,然后要保持适当的冗余,你看起来不是核心竞争力的战后重建部,它很有用,看起来它是累赘,但是它很有用,所以别减肥了,你看起来脂肪不好,但是它很有用,它到时候,真发生饥荒的时候,它会让你比别人活得更久;最后,就是要不断保持创新,那什么叫安全岛,举个案例,在2003年北美出现了一个非常严重的断电事故,很简单,就是因为天气太热了,所以电线慢慢慢慢就垂下来了,垂下来了以后然后就挂在树上,一挂在树上然后就短路了,短路了之后按道理来说,这个时候马上就会自动的报警,但是报警的线路也断掉了,结果突然一下子在北美有4000多万人一下子没有电了,从来没有出现过这个事情,所以后来智能电网就开始在设计,设计里头有很多,实时监控、提高效率,但是里头最重要的概念,就是去偶合,就是什么意思,就是一旦出现断电的事件之后我不会让它蔓延得那么快,我把它马上断掉,断掉之后那个停电了,但是我这边还能够正常的运营,我从原来的全不连起来的大电网,现在我要把它变成微型电网,最后这个安全很受军方欢迎,因为部队里头最喜欢的是这个,部队里头作战的时候,往往是为了送补给,伤亡就会很多,如果我不需要往前头去背这些能源什么的,我能够带着太阳能电池的帽子,然后我自己就能供能源多好,能够减少大量的伤亡,所以现在的慢慢你会发现从大的系统开始转变到小的系统,小分队作战,大决战到最后成功,也是小分队作战,我们看到大决战,第一场大决战,解放战争第一场大决战辽沈战役,那其实是小分队作战,团自卫战、营自卫战、连自卫战,最后不知道怎么着就把敌人的司令部给端了,我一直有一个很荒谬的见解,为什么国民党打不赢共产党,因为国民党有飞机,他一有飞机一打仗,蒋介石坐着飞机到前线去指挥了,一指挥肯定错,共产党这都没有飞机,你毛主席不着急,着急,林彪也着急,到最后的结果,你反而是在小分队作战的时候,能更好的发挥作用,你有一个大的顶层设计,但是底下有群众创新,这是一个最好的组合。
如何防范风险,我们必须要主动的去承受一些风险,再有一个案例,就是在黄石公园曾经有一次出现了严重的森林火灾,基本上从夏天一直烧,烧到最后实在没有办法等到冬天第一场雪才把这个火灾扑灭,所以最后痛定思痛说哪有火灾我们马上就去把它扑灭,发现越扑火灾越多,为什么,最后发现你不容忍风险,最后会带来大的风险,因为你一有火灾就把它扑灭,所以森林老化的速度就比原来快了,到处都是死掉的树横七竖八的,如果出现火灾的话蔓延的速度会更快,所以防止森林火灾最好的办法是什么,是主动的先放一把火,烧出来一个隔离带,然后如果真的有火灾的话,不会蔓延得那么多。所以我们过去的时候总是说要零容忍,其实我们需要的要容忍更多的风险,因为你去承受小的风险,到最后你是为了防止能出现致命的大的风险。
大数据并非万能 重在改变固有思维模式
我前面尽管讲了大数据很神很神,但是我要提醒大家,大数据并不是什么事情都能够预测,它不能够预知未来,它不能够预测整个复杂的体系,那怎么办,你只能是靠我们自己,就是原来的有很多理论都错到离谱的程度。那你说那我们找一个英明的领袖来帮我们指引航向,对不起,没用,这个是真的没用。
2007年、2008年发生百年不遇的金融危机,美联储主席格力斯潘在美国国会,有一个国会议员问,为什么会爆发金融危机,格林斯潘说我发现了一个缺陷,但是不知道它有多么严重,也不知道他会持续多久,但是这件事情使我深感苦恼,在那说,然后议员马上打断他,格林斯潘先生,你的意思是,你根本就不知道,为什么会出现这个金融危机,格林斯潘愣了一下说,是,因为在过去40多年,甚至更长的时间里,我都有非常雄辩的证据,证据我过去的做法都会如愿所想,从无失算。这么大的一场金融危机爆发了,你问美联储的掌舵人为什么会出现金融危机,他说我不知道,要你干嘛。苏联解体,一夜之间一个不可一世的帝国灰飞烟灭,你问戈尔巴乔夫,戈尔巴乔夫同志苏联为什么会解体,他说不知道,没人通知我。911袭击出现的时候,小布什发表电视讲话,说谁打我们,我们坚决饶不了他,但是他在发表电视讲话的时候,他不知道谁打的,他连谁打他,他都不知道,你靠这些,就是这都是我们顶级的全球领袖人物,这都是达沃斯世界经济论坛上看到的,你去问他们,我们到底发生了什么,不知道,他跟你一样不知道,为什么,因为有时候我们真的是没有办法知道。推荐一本书叫《信号与噪音》,也是讲大数据,但是比那些完全歌颂大数据的要更清晰,这个书里头讲到有一些我们其实能够预测,而且预测得很好,比如现在,原来我们认为天气预测我们觉得老是失误,其实现在天气预测比原来要准确很多了,美国现在可以非常准确的预测飓风,到底会到哪里去,然后会变得多大,但是有一些还预测不了,地震预测不了,火山爆发预测不了,金融危机预测不了,革命预测不了,这些都预测不了。那为什么预测不了,为什么不能靠大数据来预测,它这里头讲,它说OK,信息增长的速度快不快,很快,但是信息增长的速度这么快,那你有没有想过,真理增长的速度是不是和信息增长的速度一样快呢,没有,颠扑不灭的可能也就那几条。
那如果真理增长的速度没有信息增长的速度快,你推论是什么,就是在你的信息中噪音的比重,所占的比重越来越高,对不对,所以当我们拿到的数据越来越多,我们拿到信息越来越多的时候,有时候反而会妨碍我们做出准确的判断,为什么,为什么会出现这种情况,为什么,还要回到科学最新的发展,就是原来的时候,我们认为科学是牛顿力学体系,其实现在科学早就已经认识到,真正的这个世界是一个复杂体系,而复杂体系是没有办法预测的,生态系统是没有办法预测的,金融体系是没有办法预测的,社会体系是没有办法预测的,从本质上就是不可预测的。你说我还不信了,我试试看,我去预测,最后看我能不能拿一个诺贝尔奖,有人已经试过了,最简单的复杂系统,就是沙堆,就是你在海边堆一个沙堆,金字塔一样,那你有没有想过你能不能一直往上堆,一直把这沙堆堆到月亮上去,不可能,你肯定堆到一定程度的时候,这个沙堆就不稳定,你再往上放一粒沙子,原来的沙堆可能就更雪崩一样就塌了,一定会发生的。那你能预测出来,再往上放一粒沙子会倒塌,还是放1000颗沙子它会倒塌,也预测不出来,你说我还不信邪了,这儿简单的事情我还预测不出来,我到中科院去,用计算机调出来,过来预测,有物理学家还真干过这个事,预测沙堆到底什么时候出现不稳定性,最后发现预测不出来,为什么,你比如说你开始有100粒沙子,然后你再往上放一颗沙子,你看起来是简单的是往上放了一颗沙子,但是原来的100颗沙子会跟有人指挥一样自动的调整位置,这个时候系统会达到一个叫自组织超稳定的一个结果,当过了一个阈值之后整个系统就变得不稳定,但是你这个时候你知道它变得不稳定,但是你不知道它再往上放多少颗沙子,会引爆整个沙堆,就跟股市,我原来有炒股票的朋友,在股市3000点的时候他们就已经先知先觉的知道,说这个肯定要破,3500点的时候他们全都杀出来了,坐在那等,反正你就不信,你等着看,肯定得破,马上就要崩盘,高3500点涨到4000点,4000涨到4500点,4500点涨点5000点,5000点涨到5500点,到5500点的时候,他们突然醒悟过来,说这次好像跟上次不一样,又进去,所以你能够准确的知道,这里头有泡沫,但是你不知道什么时候破,都说中国楼市有泡沫,但是你不知道它什么时候如何方式会引爆这个泡沫,你没有办法预测,凡是那些能告诉说未来几年房价会涨多少的,跌多少的那都是骗人的,真正的这个是没有办法预测的,那怎么办,算了,既然没有办法预测,那我们还听什么《时代大讲堂》,还学什么,就回去,该是什么就是什么。不是,没有办法预测,并不等于我们不能接近真理,但是我们必须要改变你原来的思维模式,就是你不去追求准确的预测而是去把握万物之间可能存在的联系。
大数据的启示东方思维的优势不能丢
以色列有一个情报部门,这个工作我估计除了中国的铁道部,可能是世界上最难干的工作,因为它复杂的程度非常厉害,以色列的周围全部都是潜在的敌人,情报部门现在有很多高科技,他能够有很多窃听的技术,你比如我们在这个房间里头说话,他都不用安窃听器,你说话的声音传到玻璃上面,他在外面然后弄一个仪器从玻璃的振动他就能知道你在说什么,然后卫星拍的照片越来越精准,现在情报部门都是在搜集这个,能看得见、听得到的这些东西。但是后来主管很不按常理出牌,他老是布置一些很奇怪的任务,他让手下去看看叙利亚的首都大马士革今天晚上演什么戏,去看看黎巴嫩菜场上现在卖菜卖得贵不贵,雇个保姆现在多少钱,雇个月嫂多少钱,有人说你是情报部门的主管,你管人家演什么戏呢,你管什么雇保姆多少钱,但是看起来没有联系的事物之间是有联系的,黎巴嫩在中东号称中东小巴黎,相对来说是很繁荣的,所以有很多叙利亚的劳工到黎巴嫩去打工,如果你看到黎巴嫩雇个保姆很强手、经济很繁荣,那就会有更多的叙利亚的劳工到黎巴嫩打工,打工完了之后就会把他们赚的钱汇回去,大马士革就会歌舞升平,晚上就会演戏,那好了,那你就可以高枕无忧了,天下太平,但是如果你发现黎巴嫩经济形势不好,叙利亚能够来打工的人就少,那叙利亚他依靠这些打工的人,会不会失业,它经济不景气,不景气老百姓就会有怨言,然后叙利亚的领导就可能会说了,我知道你们有怨言,我知道你们过得不舒服,谁叫我们过得不爽,万恶的以色列人,走我带你们打他去,这个时候那你可能风险就会高了,所以你看起来没有联系的事物之间,是有联系的。
在硅谷有一个很有名的红杉资本,创始人叫莫里斯,他跟别的风险投资家不太一样,他既不是在什么哈佛商学院、沃顿商学院毕业,也不是IT工程师,他上大学的时候本科是学英美文学的,本来想当诗人,想当剧作家,后来发现当不了,改行当风险投资家,你说他懂专业吗,他肯定懂,但是他肯定不是专家,有一天有人告诉他,说有一个小伙子想来跟你聊天,行,来,聊,小伙子你想干什么,小伙子说我想搞一个搜索引擎,搜索引擎当时已经是红海了,我们讲蓝海红海,已经是红海了,是一个烧钱的,而且那个时候包括AOL,还有雅虎都已经开始在做搜索引擎,这个年轻人,就是斯坦福一个还没有毕业的大学生,又没有钱,又没有经验,莫里斯说小伙子你很有想法,我投了,他就投了,这个公司现在变成啥了,变成谷歌了!
读诗读得多了还是有用的,莫里斯说我能跟别人形成共鸣,他说如果我没有办法感受到,这个人想干什么,他说的再好项目可行性起来再好,我心里很慌,他说我不敢投资,我一定要找到,就是我能跟他有共鸣我才敢去投资,所以这个东西也很悬,跟我们原来想的也不一样,所以这个就是带来一个什么,你得调整你原来的想法,调整你原来的思路,《信号与噪音》,就是我刚刚推荐的那本书里头,用了一个,也是引用,用了一个很有趣的比喻,他说,个体专家比你行,拿出来单个挑,一个专家一个你,你不如专家;但是专家和群众作为一个整体来比,专家的智商比群众是要低的。就是如果现在比如说,你去参加王小丫的什么开心辞典,问你一些古怪的题,然后问你,你肯定吗,你心里不肯定,那你怎么办,你有两个选择,一个选择打电话问亲友团,你的选择,问现场的观众,我教你一招,问现场的观众,你越拿不准就问现场的观众,当现场的观众每个人都在独立的情况下做初选择,最后平均得到的结果一定比专家准确的程度会更高,群众的智慧,所以我们为什么现在要搞群众路线学习,群众的智慧比专家的智慧是要高的。但是专家里头,又有不同,他说有两类不同的专家,一类的专家叫刺猬,一类的专家叫狐狸,刺猬是什么,是知道一件事,但是知道的是一件大事,狐狸是什么,是知道很多事,但是知道的都是小事,原来大家觉得刺猬是好的,他能够坚持一个大事,但是这个最后这个《信息与噪音》里面,它举了一个研究,就是有一个研究说为什么专家老犯错,最后你发现有的专家比有的专家犯错要少,为什么这些专家犯错比别的专家犯错少,最后发现这些专家都是狐狸,如果狐狸跟刺猬比的话,狐狸往往能够预测得更准,但是狐狸成不了大家,因为你能在电视里头当明星,能够当大V,基本上是刺猬,你坚持一个,打死也不松口,市场经济就是好,政府就是什么都不能干,你就能成大V,但是你要去问狐狸,狐狸说这个不肯定,有时候是好的,有时候是不好的,取决于你要讨论的是什么问题,这看着真没劲,从哪找来的这个专家,真没劲,给一个痛快点的,到底是支持还是反对,但是真正的态度是狐狸,狐狸随时愿意根据情况发生的变化调整自己原来的认知结构。
所以你要真想,你不想去当大V,不想去当明星,你真想能跟真理更亲近一点的话,你应该当一个狐狸。所以我就是立志当一个小狐狸,大数据的时代跟我有什么关系,其实是有关系的,看起来没有关系的事物之间,是有普遍联系的。所以鼓励大家,要努力的去寻找这种普遍的东西,尤其是中国人,我们本身就有这个长项,你不要把你这个长项最后都浪费了,中国人有不擅长的,中国人不擅长进行逻辑思维,进行逻辑推理,有时候看起来好象不如人家,但是我们思维很发散,我们善于寻找到普遍联系,有一个实验心理学家做了一个实验,什么,把学生里头来自东方背景的中国、日本这些留学生分成一组,然后欧美背景的分成一组,西方的分成一组,然后把他们领到实验室里头,给他们放一张一张图片,他旁边有一个仪器,能够记录下来你看这个图片的时候你眼神运行的轨迹,就是你在看哪。然后最后他发现,西方的学生,看东西的时候,你比如你给他看一张森林,森林里头有一个老虎,他是这么看的,先扫一下,完了之后一看说这个画的主题是森林中的老虎,然后他就死盯着老虎看,因为你画的主题是森林中的老虎,他就死盯着老虎看,但是他发现东方的学生不是这样的,东方的学生是他先看老虎,然后他看森林,回过头来看老虎尾巴,然后他去看画矿,眼神是散乱的,西方人不能理解,你一看就知道这个画的主题是森林中的老虎,你看画框干什么,他解释是什么,他说东方人一生下来他的环境很复杂,所以他本能的他要把所有能够搜集到的背景的信息全部搜集到了,他才敢下判断。
你不信你去找一个当官的朋友你问他,今天过得好吗,他会等半个小时,什么意思,然后他才敢回答你,因为他本能的他要把所有可能背景的信息,他都搜集到他才敢回答,所以东方的思维和西方的思维影响就很多看法都不一样,比如西方人战争的经典著作《战争论》里头讲的战争怎么打,集中你的优势兵力攻击敌人的薄弱环节,你要打仗,你先看敌人是左翼不行,还是右翼不行,然后集中我的优势兵力攻击别人的弱势,打仗不就这么打吗?中国人他不这么考虑,该打仗了,他琢磨点别的,派一个美女过去行不行?搞一个离间计行不行?把他爸爸弄过来威胁他熬一锅汤不知道行不行?找几个小孩教一个儿歌弄点谣言,网上发一个帖子不知道行不行?他就想这个,哪儿挖个水淹他一下行不行?放一把火烧他一下行不行?所以到最后的时候,西方人认为,常胜将军叫百战百胜,像巴顿那样的,那真是打仗每次都打赢了,你真打过,那你叫常胜将军。而东方人讲究的最高境界,叫“不战而屈人之兵”。你说这东西跟我们有什么关系,有关系,比如我们有很多企业,学了很多西方的管理的思想学坏了,现在都知道,我们企业要有核心竞争力,但是你很难判断什么叫你的核心竞争力,什么不是你的核心竞争力。像黎巴嫩真主党游击队,他的核心竞争力不就是打仗么?但是它还干点跟他的核心竞争力没有关系的事,在黎巴嫩南部真主党游击队有一个叫战后重建部,它负责干什么,负责盖房,就是你这个炮火把人的民宅给炸了,然后他就去再修,那你说修这个干什么,修房修得速度赶快赶不上人家炸你的速度,他修的不亦乐乎,而且修完之后比我们开发商都还好,他不是修完就不管了,修完之后你说下水道不通了,没关系,打一个电话,真主党游击队派一个游击队员帮你清理下水道,你说这个孩子不学习,不读书,没有关系,打一个电话真主党游击队派个游击队员过来辅导功课,辅导孩子读可兰经,为什么,看起来不是它的核心竞争力,但是实际上你想一想,这都是跟我们学的,原来我们讲究居民鱼水情,正是由于有了战后重建部,真主党游击队在黎巴嫩南部那真是如鱼得水。你看起来没有联系的事情,实际上是有联系的。
从大数据的角度看 房价一定会下跌
大家在关注这种瞬息万变的大数据、IT革命时,还要把心慢慢地沉下来,除了关注快变量,我们还要关注慢变量,什么叫慢变量,慢变量就是看起来跟你没有联系,但是实际上是背后深刻的影响力,你比如说我问你为什么海上会有波浪,那你要信奉快变量,那你回答的可快了,因为天气预报说今天有风,无风不起浪,当海上有波浪,最根本的原因是因为月亮,越来离你越远,月亮挂在那挂了几十亿年没有变过,但是月亮带来了潮汐现象,海上有波浪,所以我们为了更好的去了解这个世界,除了尽可能的去找到大数据,你还得找到哪些是藏在后面的慢变量,我们往往忽视了慢变量,现在都关心房价,房价到底涨还是低,到底会怎么样,不知道,这些东西重要吗,都不重要,真正决定房价变化的因素,是什么,从长期来看,是人口的因素,你觉得说房价只会上涨,不会下跌,因为我看来看去都是只会上涨不会下跌,那我们过去十几年经历了的一个极其特殊的时期,其中非常关键的一个因素,是独生子女第一代开始成家立业,开始买房,购买者的年龄越来越小,但是买房子的购买力越来越强,因为双方的父母在帮他买房。我们的房价上涨是极其特殊的人口年龄结构导致的,那你不用问了,你说中国的房价以后会怎么走,随着中国人口老龄化,中国房价一定会出现下跌的,这跟什么政府调控不调控,流动性到底多不多没有关系,到最后决定房价的这些慢变量,我们现在有很多同志,手边有好多套房,你问他干什么,他既不出租也不出售,留着将来给儿子,留给而女儿,等我们儿子、女儿长大的时候,他们根本就不缺房,自己买一套,爸爸妈妈给他买一套,岳父岳母给他买一套,爷爷奶奶给他留一套,外公外婆给他留一套,五套,多好,自己住一套,把剩下的四套卖了,还找什么工作,问题你卖给谁,你去问亲戚、朋友、邻居、同学,他还等着把他那四套卖给你呢,所以到最后你去看影响到我们的房价的变化是这个慢变量。
from: 何帆 - 大数据时代正聚集改变的能量
http://blog.sciencenet.cn/blog-362400-750162.html
上一篇:漏看了一个说“逆淘汰”的文章
下一篇:千呼万唤链出来:博客征文大赛获奖链接