类星频道

类星频道

2021-08-21

特斯拉是一家人工智能机器人公司?

作者:Chris Zheng

特斯拉是一家什么公司?

第一层,2003 年,特斯拉以新造车公司的身份亮相;

第二层,2016 年,收购了 Solarcity 的特斯拉是一家能源公司;

第三层,2019 年,特斯拉推出自主研发的 FSD 芯片,成为一家自动驾驶公司;

第四层,2020 年,特斯拉介入电池的设计和研发,进阶到一家动力电池公司;

Elon Musk 在第五层。今天,特斯拉通过自主研发的大规模深度神经网络训练集群 Dojo 和人工智能机器人 Tesla Bot 佐证了 Elon 说的那句话:「从长远来看,人们会将特斯拉视为一家人工智能机器人公司,就像今天被视为汽车或能源公司那样」。

美东时间 8 月 19 日下午 5 点,特斯拉举办了 AI Day 人工智能日,整场发布会分为三大节:

特斯拉 AI 和视觉高级总监 Andrej Karpathy、Autopilot 全栈算法总监 Ashok Elluswamy 和 Autopilot 工程总监 Milan Kovac 介绍的 FSD 完全自动驾驶最新进展。

特斯拉 Project Dojo 项目高级总监 Ganesh Venkataramanan 介绍特斯拉大规模深度神经网络训练集群。

Elon Musk 发布特斯拉机器人 Tesla Bot。

关于 Elon 之外的特斯拉高管们,这张组织架构图可以作为参考:

FSD 的最新进展

相比全新的 Dojo D1 芯片和 Tesla Bot 机器人,已经在 2019 年自动驾驶日做过部分阐述的 FSD 更像是一个阶段性更新,我们选择几个值得关注的部分来谈谈。

首先是 HydraNets 九头蛇多任务学习网络更为简化的变更。众所周知,在特斯拉 FSD 的研发走到「智能召唤」阶段时,基于图像级别的架构在向量空间中被证明是不起作用的,于是特斯拉从零开始完全重写了整个深度神经网络栈。

这里 Andrej 提到了 FSD 推倒重来的核心思想,就是极限简化(extremely simplified)。从摄像头校准、缓存、车队管理以及优化和简化所有的任务架构。

这种「极限简化」是 Elon 在工程设计上最重要的思想之一,他此前多次谈到解决问题前要质疑问题的合理性,天才工程师们最容易陷入的陷阱是,试图给一个错误的问题提供解决方案,却很少质疑问题本身的合理性。

「极限简化」无疑会对 FSD 的发展产生广泛的影响。Andrej 最后总结说,今天 FSD 的架构比以往任何时候都结合得更紧密。Andrej 展示了 FSD 的最新架构,长这样。

从当下来看,基于时间序列的多摄像头视频架构显然取得了巨大的收益。除了相比 Beta 8 表现取得显著改进的 Beta 9,特斯拉通过新的架构更好地测量深度和速度信息,用 3 个月时间完全抛弃了前向雷达,开始基于纯视觉来运行 Autopilot 和 FSD。

新的架构下车辆在通过复杂的交叉路口时,FSD 会通过特别的 RNN 循环神经网络来进行预测,如果沿着同一条路口有多辆特斯拉经过或一辆车多次经过,深度神经网络通过交叉路口时的预测会更「聪明」,最终,FSD 将学会在场景类似但从未去过的路口自动驾驶。

其次是数据标注。在这之前,特斯拉曾经通过和第三方标注公司合作来获得标注数据集,以训练深度神经网络——这是业内通行的做法。但基于垂直整合的原则,特斯拉的数据标注全面转向了内部自主推进,特斯拉目前拥有 1000 人规模的标注团队。

在具体形式上,特斯拉的标注数据集最初是基于图片的 2D 标注,但当整个感知架构转向 4D 后,在向量空间中进行 2D 标注并不高效,数据标注也随之过渡到了 4D 标注。Ashok 指出,有太多的标注需要进行,基于手动标注是难以为继的,因此,特斯拉最终开发了自动标注工具。

根据 Ashok 的说法,目前特斯拉的车队可以在一周内完成 10,000 个视频的采集和自动标注。特斯拉已经完成了超过 100 亿次标注。

最后是仿真模拟。在 2019 年的自动驾驶日上,Elon 对基于仿真模拟进行的自动驾驶算法的开发并不十分感冒。而今天的仿真模拟环节提到了仿真模拟的巨大价值。简单来说有三种情况。

场景过于罕见(例如在高速上跑步的人,即使基于全球的车队采集,这样的场景也很少);

难以标注(如视频里出现几十个人)

闭环中的依赖汽车行为的规划(人为设计效率更高)

值得一提的是,Elon 在 2019 年对模拟的评价是,没有什么模拟技术能媲美摄像头采集场景下的真实和复杂,除非人为设计一个 1:1 现实场景的仿真器,但那样的话成本会远高于从现实场景中采集数据。

那么,这是今天 Autopilot 的仿真器。

坦白说,除了车内的驾驶员,我们肉眼已经很难分辨什么是特斯拉仿真模拟的,什么是现实的场景。根据 Ashok 的说法,Autopilot 仿真器中建立了 2000 英里长的道路,已经有 3.71 亿张模拟图像和 4.8 亿个立方体。

通过对比 2019 年和 2021 年特斯拉对仿真模拟的态度,其实我们可以发现,特斯拉的 FSD 研发有点「改革进入深水区」的味道。到 2021 年,对于某些摄像头采集难以解决的极端场景,高精度的仿真模拟成了效率最高的策略。

当然,这与以 Waymo 为首(现实场景 2000 万英里,仿真超 100 亿英里)的仿真策略仍有本质的不同。

总体而言,即使基于当下的 HW 3.0 硬件,特斯拉 FSD 算法演进的瓶颈似乎还很遥远,结合 Elon 此前透露的 Beta 10 会涉及架构的重大变化,我们有理由相信,FSD 的潜力不止于此。

Dojo 超级计算机

Dojo 诞生的动机简单粗暴。Ganesh 说,几年前,Elon 想要一台超快的训练计算机来训练 Autopilot。现在,Dojo 来了。

下面是 Ganesh 的秀肌肉环节。Dojo 的目标是,实现最好的 AI 训练性能;使能更大更复杂的深度神经网络模型;高效率、低成本。

Dojo D1 芯片,基于 7nm 工艺打造,核心参数如下:

单芯片 FP32 算力 22.6 TFLOPs

BF 16 算力 362 TFLOPs

On-chip 带宽 10 TB/ 秒

Off-chip 带宽 4 TB/ 秒

这样的带宽是什么水平呢?远远超越 Google 的 TPU v3,遥遥领先英伟达最新的 GPU。

而发布会前邀请函中展示的,是通过 25 个 D1 芯片组成的训练模块,单模块算力 9 PFLOPs,带宽 36 TB/秒。

120 个训练模块、3000 个D1 芯片组成的 Dojo ExaPOD,总算力超过了 1.1 EFLOPs,超过日本富士富士通 0.415 EFLOPs 的算力,登顶全球第一。

最终,Dojo 将成为速度最快的 AI 训练计算机,与现有计算机相比,性能提升 4 倍,能效提升 1.3 倍,占地面积减小到原先的 1/5。

所以特斯拉是怎么做到的?

在特斯拉官方的话术里,Dojo 被称为是 Pure Learning Machine,纯学习机器。某种程度上,两年前 FSD 芯片是怎样炼成的,Dojo 就是怎样炼成的。

特斯拉硬件工程副总裁 Pete Bannon 说过,FSD 芯片最大的优势就是「只有一个客户特斯拉」。Dojo 也一样,Elon 在今天的 QA 环节表示,「Dojo是一种专为深度神经网络训练而生的计算机,CPU 和 GPU 都不是为训练而设计的,让我们全面的ASIC(Application Specific Integrated Circuit,为专门目的而设计的集成电路)化」。

关于 Dojo,我们还需要想得更多。

在此之前,超级计算机用来干什么?由专业的计算机设备制造商研发,各大国的国家级实验室持有,主要的用途无外乎中长期天气预报、油气勘探、物理模拟、量子力学、疫情防控科研等超大型计算应用场景。

那么特斯拉呢?一家年销量 50 万辆(以 2020 年计)的小型车企,如今一手缔造了全球算力最强的超级计算机。

整体而言,特斯拉推进自动驾驶研发的策略与 OpenAI 崇尚暴力美学推进 AI 算法迭代的方法论相一致,尽管该策略在业内充满争议,但特斯拉无疑在以真金白银的实际行动在验证超大规模数据的潜力。

这与当下所有自动驾驶公司的研发策略都有本质的不同。

Tesla Bot

全场唯一由 Elon 主持的部分是一个人工智能机器人,Tesla Bot。具体信息如下:

身高 5 英尺 8 英寸,约 172 cm;
体重 125 磅,约 56.7 kg;
承载能力 45 磅,约 20 kg;
最快行走速度 5 英里/小时,约 8 km/h

Tesla Bot 的脖子、胳膊、手、腿累计搭载了 40 个机电推杆。

Autopilot 摄像头会作为 Bot 的眼睛,胸腔内是特斯拉 FSD 芯片,此外,前文提到的多摄像头视觉架构的深度神经网络架构,包括规划、自动标注、仿真、Dojo 训练也都会用于开发 Bot。

Tesla Bot 创下了特斯拉产品贩卖「预期」的新高度。这个新产品的原型要到 2022 年才会亮相,发布会现场更是直接上演了真人扮演的戏码。

对于 Tesla Bot,Elon 在发布会后解释说「特斯拉几乎拥有类人机器人所需的所有部件,我们已经制造了带有轮子的机器人」。

这显然不能成为一个新产品立项的理由,很难降低的成本(基于硬件判断)加上相对羸弱的实用性(20 kg 的负重),今天的 Tesla Bot 既不能改变世界,也很难扮演特斯拉市值管理工具的角色。

所以特斯拉更本质的动机是什么?

在后续的 QA 环节,Elon 不意外地提到了「全民基本收入」(universal basic income)。

What happens when where there is no shortage of labor? That's why I think, long term, there will have to be universal basic income.But not right now because there bot doesn’t work yet. In the future physical work will be a choice.

当劳动力不再短缺(机器人取代)时会发生什么?这就是为什么我在想,从长远来看,必须有全民基本收入。但不是现在,因为机器人还不能工作。今后体力劳动将变成一个选项。

Elon 和他的好友们,包括 Google 创始人 Larry Page、Twitter CEO Jack Dorsey,以及 OpenAI CEO Sam Altman,一直在谈论后人工智能时代的社会经济的运行范式,机器人取代人类进行重复性劳动,政府主导实行「全民基本收入」会是其中的重要组成部分。

机器人取代人类进行重复性劳动的第一步是,制造一个机器人。

Tesla Bot 并不会在当下给我们的生产生活带来重大影响,相反,它十足的不完善,甚至没有原型。2022 年下定一个人工智能机器人比 2004 年花 10 万美元购买一辆纯电动的跑车更让人匪夷所思。但它是一个起点,特斯拉开始全新的扩张。

Tesla Bot 就像 2004 年 JB Straubel 手工打造的特斯拉 VIN 001 号 Roadster,「最终,人们会将特斯拉视为一家人工智能机器人公司」。

本文著作权归作者所有,并授权 42 号车库独家使用,未经 42 号车库许可,不得转载使用。
Comment · 0
Owner: 0
Sort by like

Upload
大胆发表你的想法~
Like
Comment