[转载]ZT: 2013突破性科学技术之“深度学习”
屏蔽 ||| |
【立委按】深度学习(deep learning)目前在机器学习界最热,整个领域随着它在转,说是革命性突破,值得关注。报道说在语音识别、图形识别等传统机器学习领域,深度学习使得精准度大幅度提高,已经投入应用。本篇提到深度学习在自然语言理解上的前景,听上去太过乐观,几乎就是当年日本高唱第五代人工智能电脑高调的翻版。当时所仰仗的技术革命基础是 Prolog 语言及其预备在其上建立的类似于 cyc 的人工智能系统。五代机可以说是完败。这次的调子虽然耳熟,但其技术基础是几十年来在不同方面(如语音、机器翻译等)显示了实力的机器学习。值得谨慎期待。
即日起,小编将为各位读者带来麻省理工学院TechnologyReview(《科技评论》)杂志评选出的“2013突破性科学技术”系列文章,本篇为全系列第一篇。
2012年7月,雷·库兹韦尔与Google总裁拉里·佩奇会面,那时他不是来求职的。库兹韦尔,鼎鼎大名的机械智能学家,他告诉佩奇自己对打造全智能计算机颇有研究,已经有了初步的计划,准备开始设立公司打造这样的计算机。他所述的全智能计算机指的是能够自己理解语言,自己进行推论,自己做决定的计算机。
要完成这项工作,自然要用到Google的数据和计算能力。“我可给帮你弄到数据和服务器,但是要靠一家公司完成,太难了,”佩奇对他说,于是建议从来没有为别人打过工的库兹韦尔加入Google公司。经过6个月的挣扎,库兹韦尔最后还是选择了以工程总监的身份加入Google。他说:“这是我50多年来研究人工智能的顶峰。”
吸引库兹韦尔加入Google的不仅仅是Google独有的数据和强大的超级计算机,而是Google公司内部一个正在闪闪发光的人工智能分支部门“深度学习”。Google公司的深度学习软件尝试模仿人的大脑皮层中的神经层活动(该区域负责人脑80%的思维)。这个软件可以识别数字化的声音、图片和其他数据片段。
神经网络这一基本思想已经出现了几十年,但是却没有取得多少突破。不过,借助算法的改进和计算机性能的猛增,科学家现在可以模拟更多的神经层神经活动。
借助深度学习,他们在语音识别、图像识别领域取得了突飞猛进的进步。2012年6月,Google公司的深度学习系统在识别物体的精确度上比上一代系统提高了一倍,并且大幅度削减了Android系统语音识别系统的错误率。2012年12月,微软亚洲研究院展示了中英即时口译系统,错误率仅为7%,而且发音十分顺畅。(点此观看视频和文章)同样在12月,一群大学生和两名教授组成的团队利用深度学习软件完成分子识别,可用于发现治病新药。
Google目前正成为一块写着“深度学习”的吸铁石,吸引着来自全世界的高端、专业人士。2013年3月,Google公司收购了一家深度学习企业。这家企业由多伦多大学计算机科学教授杰弗里·希顿(Geoffrey Hinton)创立,曾获默克大奖。希顿目前已经把自己的时间一分为二,一半给了大学,一半给了Google。他的计划是“将大学中的理论拿出来,应用在现实问题上”,比如说 图像识别、搜索、自然语言理解等有关人工智能。
上面提到的应用领域时刻在提醒着人工智能研究者:科幻电影里智能机器很有希望出现在现实生活中。确实,机器智能的应用领域正从交流、计算转向医疗、制造业和运输。比如,IBM公司的深度学习技术正用于训练医师,帮助他们做出正确的选择;微软的深度学习技术则应用于Windows Phone和Bing语音搜索中。
然而,要将深度学习应用领域从图像和语音识别扩大到其他领域需要在概念和软件上做更大的突破,而且还需要计算机的计算能力进一步提高。也许几年之内,我们还见不到全智能计算机,但是几十年内出现这样的计算机是没有问题的。微软美国研究院的院长Peter Lee说:“深度学习激起了人工智能领域新的挑战。”
建造大脑
有挑战,就有解决方法。首先是软件编程需要大量人力,其次是混乱的数据结构,再就是应用领域的短缺。
紧跟人工智能思想的出现,上世纪50年代的神经网络也进入了人们视野,神经网络尝试以简单的形式来模拟人脑的运行。今天的一些人工神经网络已经可以训练自己来识别复杂的物体。但是早期的神经网络智能模拟有限的神经元,物体或者模块以复杂,就无法识别。逐渐在上世纪70年代末落。到了80年代中期,希顿和同事开发出了名为“深层”的模型来更好地利用软件模拟的多层神经网络。但因为那时计算机性能的限制,依旧需要大量人力介入,比如数据需要程序员人工标注等。
直到本世纪头十年,有关深度学习的理论终于取得了突破性的进展。2006年,希顿开发出一种更有效地训练单层神经员的新方法。即,第一层网络学习主要特征,用来识别图像边缘或声音最小单位,确认之后进入第二层去学习更负责的特征,比如说边缘角度和声音单位的组合等。这一过程将持续进行下去,直到系统可以准确识别图像和声音未知。
去年6月,Google演示了有史以来最大的神经网络,这一网络上拥有超过10亿个节点,并成功从YouTube视频中提取了1000万张画面上带猫的图片。如果没有深层学习,也就没有这么强大的功能。
深度学习让人工智能专家震惊的是其在图像识别上的进步。深度学习系统可以准确的将物体分类并添加主题,使YouTube视频分类达到16%的准确度。这个数字虽然看起来很小,但是已经比上一代系统提高了70%。需要注意的是,YouTube的系统所用的深度学习是将视频分到22000个分类中,许多分类连常人无法区分。而当把分类缩小到1000个时,系统识别的准确率瞬间提高到了50%。
大数据
为了训练深度学习的多层虚拟神经元系统,Google公司动用了16000个计算机处理器,这样的规模只在开发搜索引擎时才能用到。业内专业表示,最近几年人工智能领域取得的成就有80%要归功于计算机能力的上升。
这就要感谢Google公司强大的数据中心。真是借助强大的计算机性能和智能的任务分配机制,才加速了深度学习神经网络的研发步伐,
深度学习已经提高了智能手机的语音搜索功能。2012年,Google的Android操作系统中的语音识别突飞猛进,正是因为深度学习的关系。因为深度学习神经网络允许对语音做更精确的训练,所以使语音识别的成功率大大提高,尤其是在嘈杂的环境中,语音搜索结果也有了不小的改善。一夜之间,智能手机语音识别系统的错误率就下降到了25%,这让不少评论人士觉得Android手鸡的语音搜索要比苹果的Siri更智能。
尽管有了实质性的突破,人们还是认为深度学习的人工智能不能超越人脑。有人认为机器无法超越人脑的计算能力。
未来路向何方?
Google对深度学习的态度是坚定的。首先,可以为YouTube提供更好的图像识别功能,为语音搜索提供更快更精准的识别,为自驾驶汽车提供更复杂的图像识别系统,以及优化搜索和广告投放等等。
文章开头的库兹韦尔算是一个奇人,他发明了计算机历史上的多个第一:第一个可以识别打印文字并阅读的机器,第一个可以扫描文质并保存文本的软件,第一个音乐合成器,第一个具备大型词典的对话识别系统。
库兹韦尔当前的目标就是帮助计算机理解自然语言并以自然语源与用户对话。他希望将深度学习算法用到解决自然语言的问题上,让计算机能够发现语言的问题,解决语言的问题。虽然库兹韦尔的目标还要很多年才能实现,但是深度学习的其他应用领域,如图像、声音识别已经越来越成熟。
在模拟人脑的科学尝试中,没有一种方法可以解决所有问题。但是就现在来讲,深度学习是研究人工智能最先进的方法。
文章来源:Technology Review
【相关篇什】