是特斯拉的自驾AI牛还是马斯克牛?

说到马斯克,全世界做AI的谁有他这个门外汉牛?

他可以让自己的上帝,特斯拉车主们,争先恐后地付巨款,不惜生命危险做小白鼠,给他免费地源源不断地标注数据。他拿着数据训练他的AI 所谓的“全自动驾驶”(FSD,Full Self Driving)。FSD 能力提高以后,他就不断加价,剥削新的上帝。

FSD 根本还没影子的事儿,他就从 5000 美金一套开始预售,一路加价到现在的 7000,据说不久还要加 1000 美金。最近开始发布他的过了n次自设死期的红绿灯自动停车功能,这是走向 city driving 的前提。注意,不管红绿,一律停车。除了电脑视觉(CV)外其实没有任何路口智能,说得赤裸裸:就是要顾客教会它如何过十字路口。万一出车祸了,对不起,责任自负。

红灯停,绿灯也停,见灯就停。甚至有车友说路过一个穿绿毛衣的女孩,它误以为是信号灯,也停了。他丫是完全没有智能,放出来就是让小白鼠们免费教会AI何时不停。见灯就停是默认,何时学会不停,完全等小白鼠义勇军(fleet)的反馈:你踩油们就表示你发现(1)这是绿灯;(2)路面上也安全(无阻碍),你觉得应该穿行。这就给特斯拉做了标注。带标数据反馈给神经网络去训练,机器就慢慢学会了。识别红灯绿灯路口 STOP 招牌,据我自己的多次测试,这个能力已经很成熟了。现在就等过路口的数据了。

从用户角度,即便没有智能,也愿意尝试啊。除了新鲜感以外,有时候也的确省了力气。第一,是绝不会冒大意闯红灯受罚的危险了。第二,遇到绿灯且无阻碍,点一下油门也不过就是举脚之劳,总比自己开车省力。也就是说,你上街开车,除了路口,你完全不用操心了。即便到了路口,遇到红灯、黄灯,你也不必操心,它很保守,总是乖乖给你停下来。只是遇到绿灯,你才需要举手之劳地点一下脚。这样算下来,90% 的 city driving 你是可以交给机器了,10% 的时候动动脚(点一下油门)或动动手(点一下操纵杆也可以)。这样的小白鼠,哪个热爱新科技的人不愿意做呢?何况咱还是AI背景的技术爱好者。10% 之内还有路口转弯,这个是更高级的功能,还没进入特斯拉的机器学习的视野。

这阵子读了一些他们的材料。从各种CV子任务,到建立“鸟瞰”view,到测算3D depth,到综合这些信息决定操作,总共上百个模型一起协作。也是一团乱麻,谈不上端到端。非端到端的好处是透明性和模块化。AI的透明性表现在对这100个模型的细分定义中,可是这些模型之间的协调落地,其实基本是个黑箱子。常出现的问题就是,有的模型 overfitting,与其他模型难以 sync好。不同模块对最终的驾驶控制(输出 x,y:x 是速度,y是方向)有不同的影响,协调不好的后果就是争抢“控制权”,表现在自动驾驶能力的不稳定或退步(regressions)上。

几乎所有其他家的自动驾驶都用激光雷达(LIDAR)主导。马斯克说,这是死路,我就不用,我只用摄像头,靠CV。有啥道理?其实没啥道理,马斯克不是AI专家,他就是个有技术背景的商人而已。他算过一笔账,激光雷达的成本高昂(好像是最基本的LIDAR至少6000美金以上,一辆车通常至少要部署两台,这就是一万多),它没有办法用到量产的特斯拉车上,而不失去顾客和市场。就是为了这么个非科学的理由,他就硬说人家用LIDAR是死路。

LIDAR最大的好处是精确测量障碍物与车的距离,而这是自动驾驶安全性的最重要的信息。特斯拉不用LIDAR,但绕不过这个三维(3D)景深(depth)的计算呀,否则如何避免碰撞呢。特斯拉只好通过多个摄像头从不同角度得来的视觉信息,做所谓信息融合(info fusion)在线建立3D模型,来逼近距离的测算,这需要海量的数据训练以及巨大的即时计算能力。最近的报告说,他们与LIDAR的鸿沟已经越来越小了。事实上,他们是用软件的办法实现了一个LIDAR的模拟结果。据称,模拟LIDAR的好处是,很多利用LIDAR发展起来的驾驶算法和技术就可以拿来主义地用了,补足单一依赖视觉的不足。

这叫什么?明修栈道,暗度陈仓。一面宣告竞争对手依赖LIDAR硬件是死路,一面台下模拟LIDAR的软件效果(等价于复制了一个粗糙的LIDAR)。这样也好,等到未来某一天硬件价格下降,特斯拉量产也装配得起LIDAR了,整个算法路线无需大的改变即可实现平滑升级。马斯克的“死路说”,只有一种解释可以站得住,就是:你丫选择用LIDAR,因此成本大到无法量产,因此也就无法交付给成千上万的客户(特斯拉迄今已经交付了100多万辆,形成了一个可以自动海量汇集驾驶数据的车队,叫 fleet,这个 fleet 每天在路上跑着,源源不断给特斯拉输送数据)。这样一来,你的实际训练数据的收集,无法与特斯拉比,相差太多了。在数据为王的AI年代,自动驾驶的最终规模化和适应性,很大程度上取决于数据的采集量和训练量。从这一点看,特斯拉显然把对手远远抛在后面。

关于踢开LIDAR闹AI革命,可以打个比方。弹钢琴是个手艺活儿,各种大赛,各路选手可以把钢琴弹得让人眼花缭乱。这时候你说,我出一个选手,把双手剁了,也来参加钢琴赛,可以不可以?当然可以,没有手,可以用脚呀。不知道各位见没见过用双脚把钢琴弹得让人掉眼泪那种。

这就是补偿作用。当你把一条路堵死,虽然那是一条公认的光明大道,甚至是很多人确认为“唯一”的路径,你其实还可以把另一条暗道无限发挥到极致,最后也常常可以达到目的。这就是马斯克的算盘,虽然费老鼻子的力气了,现在看来他是在成功的道路上,开始逼近对手的自驾能力。我看过竞争对手Zoox的自动驾驶展示,利用LIDAR和高精地图,在旧金山市区繁忙地带穿行自如,性能上比特斯拉要强得远。(顺便插一句,AI 中很多任务,其实主流的深度学习和更传统的符号逻辑,其实都可以做。当你把某个路线堵死,把所有资源排山倒海般注入其中一条路线,奇迹是可以发生的。但这并不说明,那个被堵死的路线,如果有了类似的资源投入,就不可行。很多时候,另一路根本就不在雷达上,完全被忽略了而已,没有施展的舞台和需要的资源而已。)

回到特斯拉的自动驾驶(auto pilot)的设计思想。马斯克说,现代的交通系统(各种路标、红绿灯,以及驾驶规则等)就是设计给人用的。人与蝙蝠不同,没有雷达,主要就是靠双眼来采集信息,靠大脑消化信息来指挥驾驶。既然人可以驾驶,那么机器凭着眼睛(摄像头)也就一样可以。说得倒也有道理,但那是最低标准的道理。没有任何理由要求自动驾驶仅仅跟着人后面去学。人每天都在出事故,难道机器也应如此?人的双眼其实很差劲,为此不知道坑进去多少条人命,伤胳臂丢腿的更是无数。好在特斯拉不止双眼,它配备了10多个摄像头,也配了普通雷达,只是没有激光雷达而已。(特斯拉其实走了一条难得多的道路,他自愿砍掉了自己的两条腿,除了LIDAR这条腿外,他还坚持不用高清地图。砍掉第二条腿的动机是增强系统的鲁棒性和动态适应性,因为高清地图不仅制作和维护成本很大,而且也难于对地面情况的变动做及时的更新反映。但在人口密集地区,譬如交通复杂的都市中心,没有预制的高清地图的结构化知识支持,单靠现场的视觉计算是很难把控交通形势做出合理决策的。相信,最终特斯拉还是会在特别的地区,譬如旧金山市中心,添加高清地图,来优化它的一般驾驶算法的场景性能。)

“跟人学”,这是特斯拉自动驾驶的设计哲学。这也是它的 AI 具有一定程度的透明性、可解释性以及模块化 practice 的指路灯。从工程上看这是最好实施的方案之一。但理性来想,其实很难证明这是最佳的自动驾驶途径。红绿灯识别这类子任务,定义起来很有道理,也很清晰,它直接与驾驶操作有关。其他的一些子任务就难说了,譬如识别垃圾桶。垃圾桶与其他障碍物,在驾驶操作的决策中到底有没有特别的意义,不大能说清楚。本着“跟人学”的指导思想,他们自底而上去定义任务,哪个任务似乎常引起驾驶者的注意,就先定义了,先假设它对驾驶决策有区别性影响。对每个定义的任务,首先收集和标注训练集,做一个模型出来。这样每个模型/模块,就可以独立训练独立测试,开发起来很有章法。至于一下子整了这么多同时在开发、因素杂乱(heterogeneous)、训练集大小不一、拟合程度不一的模型,如何把它们整合到大系统去协调总体驾驶决策,这其实依然是个很大的挑战。他们自己也承认这是一个很大的问题。目前还有相当程度的瞎撞的成分。这就是为什么不少特斯拉车主发现有些功能,新版突然不如旧版了。有时候,过了几个版本又回来了。但也有一些能力曾经在某个版本表现很好,后来再训练新版本后就一直回不到以前的最佳状态。

总之是,模块化、透明化、跟人学智能而不是跟最高理性加最好配置学智能决策,这一套设计哲学对于工程化落地部署有好处,也接地气,但是在 regressions 的掌控上,仍然有很大欠缺。

说了这么多,最后还是沦为马斯克的小白鼠。你都想象不出特斯拉车主的宽容博爱精神多么宏大:对于特斯拉任何一点不起眼的进步,他们从来不吝赞誉;对于马斯克如超人般尊崇;对于失误(包括车祸死人这种人命关天的大事),他们总是冲上去卫护特斯拉,常常指责同是车主的 victims 的不专心或违规操作;对于免费标注、免费做广告、每个季度末忙碌的时候免费义务去 Fremont 帮助交付特斯拉新车,等等,热心无比。这种现象超过了当年的乔布斯粉丝。以至于网上传言,特斯拉车主都是一帮爱好技术的单纯的人。以前孩子迷路了,家长教育孩子,除了找警察叔叔,就去找带着孩子的阿姨。现在的教育据说是,迷路了就去找特斯拉车主,他们都是好人。

盼星星盼月亮,可惜前阵子 beta,只给 early access 的小团伙试用,咱想当小白鼠,无门可入。终于昨天夜里得到了空中更新(OTA:over-the-air),今天有点迫不及待了。

有道是:"... just tell me what you want" (歌词)

 

【相关】

购买特斯拉,请用我的推荐,你我均可得到免费超级充电的奖励:https://www.tesla.com/referral/wei29218 

精彩绝伦的旧金山市区自动驾驶演示:

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据