埃隆・马斯克继续豪赌纯视觉

作者：刘洪

导读

大多数人都认为，特斯拉的传感器融合是做得最好的，尽管它对激光雷达不屑一顾。可是，4 月 9 日，特斯拉首席执行官埃隆・马斯克（Elon Musk）在社交媒体上透露，最近对其自动驾驶 Autopilot 和全自动驾驶套件 FSD Beta V9.0 的升级已渐进尾声。特斯拉希望最终将使其系统称为完全基于摄像头 —— 纯视觉方法的系统。这意味着，未来特斯拉的全电动汽车将在不使用雷达等部件的情况下自行导航并执行驾驶员辅助功能。

特斯拉的 FSD Beta V9.0 一直备受市场关注，本来预计是在 2020 年年底上市，不过，到目前为止该系统仍处于测试阶段。马斯克理由是，推迟 FSD 的发布是为了完善其系统，以便给用户充分的使用信心。

纯粹的视觉，没有雷达

马斯克对特斯拉车主和 FSD Beta 用户 @WholeMarsBlog 一篇帖子的回应表达了上述观点，后者分享了他的 Model 3 从停车场驶向目的地的片段，其间没有司机的介入。马斯克在回应中透露，被电动车界寄予厚望的 FSD Beta V9.0 已经基本就绪。

FSD Beta V9.0 即将推出。步进变化的改善是巨大的，特别是对怪异的极端情况和恶劣的天气。纯粹的视觉，没有雷达。

—— 埃隆・马斯克（@elonmusk）2021 年 4 月 9 日

马斯克进一步解释说，V9.0 的更新将提高 FSD 测试版在极端情况下和恶劣天气条件下的适应性，同时改善了车辆的转弯能力。他承认，这些仍然是今天先进的驾驶辅助系统的挑战。但这并不是全部，因为马斯克指出，更新将是「纯视觉的，没有雷达。」谈到进一步的发展，马斯克承认，特斯拉最终计划在其未来的车辆中完全摆脱雷达。这可不是猜测，马斯克亲口证实特斯拉连毫米波雷达都不用！

不出所料，马斯克有关特斯拉即将摒弃雷达的言论也招致了相当一部分人士的抨击，其中许多人认为，纯视觉方法是一种倒退。这一点尤其值得注意，因为与通用汽车自动驾驶汽车部门 Cruise 和韦莫（Waymo），还有蔚来、小鹏等竞争对手相比，特斯拉在驾驶辅助系统上使用的传感器已经很少了，这两家公司都依赖一些激光雷达和高清地图进行导航。

马斯克回应了这些担忧，他强调，最终视觉有可能远远优于雷达。他曾表示：「当雷达和视觉不一致时，你相信哪一个？视觉具有更高的精度，所以在视觉上加倍比传感器融合更好。」

传感器是一种比特流，而摄像头的比特 / 秒比雷达（或激光雷达）多几个数量级。

雷达必须有目的地增加比特流的信噪比，使其遇到了集成的复杂性。

随着视觉处理的能力越来越好，它正在将雷达远远地甩在身后。

—— 埃隆・马斯克（@elonmusk）2021 年 4 月 10 日

视觉「很有可能」有用

特斯拉实现全自动驾驶的方法部分基于这样一种理念，即人类 100% 的驾驶都是通过视觉完成的，没有使用任何雷达或激光雷达。自 2019 年的特斯拉 Autonomy Day 以来，特斯拉的高管们就强调了这一点，当时该公司推出了定制的 FSD 电脑。至于摄像头能否提供与雷达相同的安全级别来检测前方几辆车的情况，马斯克指出，视觉很有可能也能发挥同样的作用。

最好把这些看作是概率。有 5 个前向摄像头。其中至少有一个极有可能看到前方有多辆车。

—— 埃隆・马斯克（@elonmusk）2021 年 4 月 10 日

「这些事情最好被认为是概率。有 5 个前向摄像头。他们中至少有一个很有可能看到前方有多辆车，」马斯克说。

特斯拉并非唯一

事实上，特斯拉并不是市场上唯一一家寻求视觉唯一方法的公司。2020 年 5 月，英特尔公司发布了一段视频，显示 MobileEye 的一辆自动驾驶汽车在耶路撒冷道路上行驶了大约 20 分钟。与其他自动驾驶车辆不同，MobileEye 的车只配备了一套摄像头，其他什么都没有。这段简短的视频给人留下了深刻的印象，显示了 MobileEye 自动驾驶汽车在没有红绿灯的情况下通过了四个路口，而这需要车辆在市内车道上避开行人和其他车辆。

自动驾驶安全靠什么保障？

上述有一些「可能」、「概率」的说法，对于驾驶安全能不能这么赌，这么玩儿？是要画一个问号的。纯视觉方法是不是一种倒退可能是「公说公有理，婆说婆有理」，但算力的问题，冗余的问题还要不要考虑？即使人类 100% 的驾驶都是通过视觉完成的，没有使用任何雷达或激光雷达，并不代表不应该用机器代替人类或人类所不及的能力。

智能驾驶专家郭继舜博士就在评论 MobileEye 纯视觉方案时表示：「摄像头视觉方案虽然能够通过车规，但是对视觉算法的要求更高，开发难度很大，失效可能性较高。所以，一个考虑可前装量产的好的 L4 自动驾驶技术感知方案，最好是考虑使用车规级的多传感器融合的感知套件（固态或混合固态激光雷达 + 视觉 + 毫米波等）。」

他认为，在多传感器融合的感知套件的支持下，L4 自动驾驶需要具备更加智能的感知认知能力。而现在的感知算法实际上更多是实现「目标识别」的感知智能，也就是只能够获得感知场景中的物体的类别、方位、速度、大小等等浅层认知属性。

而对于目标所关联的更加抽象的语义信息，多个目标互相作用可能造成的场景事件信息，都只能做到有限的认知，如红绿灯、交通标志、学校标记等，更加深层抽象的事件意义的认知就无能为力了，比如交警的手势、小学生过马路等等。这些需要更多的社会常识与交通规则数据库的支持，才能够实现真正的「认知智能」。

既然是纯视觉，为什么不用双目？

现在，一些豪华车都搭载了双目摄像头，而作为一些人心目中「豪车」的特斯拉并未量产搭载。单目摄像头要获得距离信息，必须先识别目标；而双目摄像头不仅能精确测量距离，还可以识别刹车灯、车道线、路旁交通标志等。不过，双目摄像头是对每一个像素点进行立体匹配，需要超大运算量。特斯拉有自研芯片，在算力方面应该不输他人。

保隆科技视觉产品总监孙路认为：「单目自身存在的问题在于，穷举法不可能完全覆盖所有场景，仍然会出现一些操控失误风险；而双目具有一定技术门槛，不易实现高性能指标，行业还没有专用芯片，目前普遍采用 FPGA，工艺难度高。此外，结构精度要求高，耐久性、一致性、温度适应性要求也高。需要自动校准（AA）算法、静态标定算法保存内参等，投入很大。」

毫米波雷达和激光雷达的拥趸认为，目前主流摄像头只能提供 2D 图像信息，缺少深度。使用摄像头作主传感器的主要难点就在于深度恢复。而自动驾驶的路径规划需要有 3D 道路信息和 3D 障碍物信息。如果摄像头想成为主传感器，就必须能够提供准确的深度感知。

从特斯拉公开的资料看，其深度恢复做的相当好，为感知、定位和规划提供了坚实的基础。不过，这样做必须让系统训练有素，虽然它有海量数据可以用来训练深度模型，但实际上仍无法保证能正确处理所有场景，也就是马斯克说的「怪异的极端情况」。所以，一旦出现深度预测失准，出现训练的「漏网之鱼」（比如颜色识别），就会错误估计道路环境和障碍物位置，可能车毁人亡。

只能等待

我们是不是应该期待，不用激光雷达，甚至也将不用其他雷达的特斯拉，这回是不是会搭载双目（不要期盼三目，三目成本高）摄像头呢？也让驾驶者获得额外的安全保障，宽慰一下投资者的心？

导读