外行眼里的特斯拉 AI Day（四）：如何训练神经网络

作者：温斯罗普

继上一篇：

正文：

全文 1,244 字

预计阅读 7 分钟

我们在前面的章节里讲了特斯拉的神经网络如何感知这个世界，以及如何规划决策来实现自动驾驶的。那么，下面就来说一说特斯拉这套神经网络是如何训练出来的。

就像在第一章节（外行眼里的特斯拉 AI Day（一）：神经网络）里面说的一样，特斯拉需要用上百万张经过标注的图像「喂」给神经网络来教会它识别物体。

特斯拉一开始和行业内所有公司一样都是用人工一幅幅地标注图像中的物体（所以有时候业内会把「人工智能」里密集人力劳动的环节，戏称为「人工」智能）。

但是特斯拉意识到这种方法完全没法规模化，于是特斯拉设计了一套可以在融合了 8 个摄像头后的 3D 矢量世界里实现半自动化标注的工具。例如：当人工在这套经过视觉融合后的工具里标注了马路的边缘，那么工具就会自动地把这个标注同步到车子摄像头分别拍摄的图像里去。

通过使用这种更加符合人对空间理解的视觉增强标注工具，可以大大地加速人工标注的速度。

接着，特斯拉又意识到当车子数量上了规模以后，特斯拉的车子会不止一次经过同一个路口，而且是在不同的时间、天气和光照条件下经过同一个路口。这时特斯拉利用 GPS 把这些图像都关联到一起，然后只需人工标注一次这个 3D 矢量空间内的物体，剩下的相关联的数千张同一个路口的图像就可以自动地完成标注了。

比如：当特斯拉车子经过一个路口的时候，在这个路口的 3D 矢量空间里，人工通过这套系统标注了这里面的某一个物体是交通灯。那么，未来任何时候其他特斯拉在经过同一个路口时拍摄下来的图像，不管是什么方向驶来、天气和光照条件如何，这个交通灯的标注都可以无须人工参与，自动地完成。

最后，特斯拉打造了一套全自动化的标注系统。我们知道单个 AI 芯片因为算力有限，所以标注的速度并不快。但是当特斯拉把 1000 个 GPU 串联在一起之后的 GPU 集群就完全不一样了，这个 GPU 集群可以大大地加快新图像的自动化标注。

2021 年上半年，特斯拉在美国仅仅用了 3 个月的时间就发布了去掉毫米波雷达的纯视觉自动辅助驾驶版本。之所以能在如此之短的时间内，让纯视觉的版本媲美视觉 + 毫米波雷达的版本，就是这套全自动化的标注系统的功劳。

当时在纯视觉的版本运行时遇到了一些技术问题，举一个不常见但现实中确实可能发生的例子：当车子跟在一辆积雪转运车后面时，一堆雪从前方积雪转运车上掉落下来遮挡住了车子摄像头，这时周围摄像头视线内的能见度都会变得很差。

这时特斯拉意识到需要改善在视觉能见度很差的情况下车子的表现，这就需要这套系统自动标注一些能见度很差的情况下的图像。于是让全世界正在行驶的特斯拉车队提供类似的「低能见度」的视频。接下来，这套系统在不到一周的时间里，自动完成了将近 10,000 个低能见度视频的标注。

特斯拉的工程师说类似的工作如果采用人工的方式可能需要将近几个月才能完成。

在重新对低能见度的场景进行大规模的标注和神经网络训练之后，特斯拉就能够在遇到低能见度的情况时，知道和预测周围物体的位置和移动的轨迹。这就像人类驾驶员在处理类似的场景时一样。

接下来的章节，我们会具体地讲一讲特斯拉的模拟仿真。

（未完待续）

本文原作者 @cosmacelf 是一位 reddit 技术作者，原文标题及链接：

《Layman's Explanation of Tesla AI Day》

https://www.reddit.com/r/teslamotors/comments/pcgz6d/laymans_explanation_of_tesla_ai_day