Lucas.Liu

Lucas.Liu

2021-09-17

Subscription

一篇看懂特斯拉的纯视觉野心

  1. 特斯拉
1,343

作者:温斯罗普

正文

全文 1,992 字

预计阅读 10 分钟

特斯拉一直是视觉人工智能技术的鼓吹者,而且一直以纯视觉实现自动驾驶作为最终目标。理解完特斯拉 AI Day 之后我更加确信它的这一野心,而且认为特斯拉是以百分之两百的努力朝着这个方向前行。

下面我们来一一解读,看看特斯拉到底是怎么用百分之两百的努力来实现这个目标的。

众所周知,特斯拉车子上安装的传感器可以用 「少得可怜」 来形容,除了摄像头、毫米波雷达之外,就是几乎所有车都配备的超声波雷达了。而最近在美国工厂下线的新版 Model Y 把毫米波雷达也去掉了,未来特斯拉会陆续取消所有车型上的毫米波雷达,这回特斯拉是真的做到了 「极(kou)致(men)」。

然而,仅仅利用车身周围的 8 个摄像头,特斯拉最近发布的 FSD Beta V10 的自动驾驶效果,网传却比之前带毫米波雷达的版本都要好不少。

那么这个 「减配」 之后的版本为什么能够比之前的版本更好呢?下面我们就来揭开特斯拉的纯视觉野心。

特斯拉车身周围这 8 个摄像头拍摄的世界,通过神经网络和逻辑处理,最终输出了一个代表周围环境的三维矢量空间。而下图中的右侧,车子屏幕里显示的图像就是这个三维矢量空间经过可视化渲染后的样子。

摄像头把看到的东西最终转化成三维矢量空间,这个点子的 「原型」 就是人类的眼睛和大脑。人类的 「眼睛」看到东西之后,经过 「大脑」 不同区域的神经元处理,最后成为 「信息」。

在这里,摄像头就是 「眼睛」,摄像头通过感光元件来感知光信号,形成一个个像素。

接着,神经网络就会像 「大脑」 的神经元一样去处理这些像素。特斯拉举了些例子,如下图左侧,在输入的图像中设置不同的像素块尺寸,通过 RegNet 神经网络不同深度的卷积操作,就可以提取出图像从全局到局部许多不同的特征。

然后特斯拉通过 BiFPN 神经网络把刚刚提取出来的全局到局部的特征进行关联比对,以此来理解图像中的有用信息。比如:从 RegNet 神经网络提取出来了许多特征信息,其中局部特征中有两个光点,全局的特征中有一条路,而这两个光点是在这条路上,那么 BiFPN 神经网络就可以大致推断出这是车子的尾灯,从而认为这是一台车。

可以简单地这样理解,RegNet 神经网络主要用来提取不同的特征信息,接着再用 BiFPN 神经网络把这些特征信息融合在一起寻找有用的线索,来推断图像的内容。

这些融合后的特征信息接下来会分到不同的子任务里去做解码和微调,比如:物体、交通灯、道路等子任务。

一顿操作猛如虎之后,特斯拉却发现摄像头 「先识别后融合」 的效果不太尽如人意。就像下图,离车子稍远一些的道路边缘在三维矢量空间里就已经几乎没法看了。因为依靠摄像头的单个像素点去预测距离实在是太难了。

不止这个,当车子经过一辆卡车的时候,一辆卡车的各个部位分别在 6 个摄像头里,如果每个摄像头单独先识别后融合,可以想像一下,识别的效果肯定会很差。

这种先识别后融合的模式给特斯拉带来了那么大一个 「bug」,那肯定杀无赦啊。于是特斯拉想出了一个解决方案,就是在做完 RegNet 和 BiFPN 神经网络提取和融合预测之后,加了一层用于多个摄像头特征信息库融合的转换网络。

在这个操作里,特斯拉把所有摄像头的图像作了鸟瞰拼接,完成了多摄像头融合。

相比融合前(下图左侧),摄像头融合后(下图右侧)特斯拉的三维矢量空间输出质量有了巨大的跃进。

实现了多摄像头融合后还带来了很多优势,如下图,融合后对周围车辆的姿态和位置的识别,明显要比单摄像头要更加稳定。

接下来特斯拉又遇到了 「记不住事儿」 这个大难题。识别仅仅基于单帧图像而不是连续的多帧图像,会带来很多问题。

想象一下,如果车子在等红绿灯时,前方出现出现了遮挡,特斯拉就会短暂地失去对对面车辆的跟踪和轨迹预测。一旦失去对这些关键交通参与者的跟踪和轨迹预测,就很可能对特斯拉自己后续的轨迹规划造成影响。

于是为了解决这个短暂的 「失忆」,特斯拉做了基于视频的识别,这样可以记住被遮挡前这些车辆的位置和速度等,做出对应的轨迹规划。

还有,当车子选择车道的时候,往往是通过地面上的标记来确认车道的。但这些路标并不是时时刻刻都在视线范围内的,那么就有必要在见到这些路标的时候就记住它们,后面才不会忘记车子是不是在正确的车道上。

而且,特斯拉不但加入了 「时长」 作为路标等关键线索留存多久的衡量标准,还加入了行驶过的 「路程」 作为衡量留存多久的标准。主要因为有可能遇到堵车或者等红灯的情况,如果只设定了时长,那么很可能因为等得太久而 「忘记」 了这些关键线索。

特斯拉在 「记得住事儿」 之后,这套纯视觉技术对物体距离和速度的预测准确性都有了很大的提升,基本达到了带毫米波版本的水平。

这就是特斯拉目前完整的一套视觉神经网络架构了:多摄像头融合 + 三维矢量空间转换 + 基于时长 / 路程的关键线索库 + 视频序列。

这就是特斯拉纯视觉野心的底气所在。

在当今的时代,真正的领先并不是看谁拥有技术,而是看谁能够不断更快地迭代技术。而特斯拉在 AI DAY 上几乎毫无保留地把系统架构展现出来,或许恰恰表明了特斯拉对自己技术迭代速度的自信。

本文著作权归作者所有,并授权 42 号车库独家使用,未经 42 号车库许可,不得转载使用。
Comment · 0
Owner: 0
Sort by like

Upload
大胆发表你的想法~
4
Comment