干掉 ISP，特斯拉「纯视觉路线」的关键一跃

作者：苏清涛

对特斯拉死磕的「纯视觉路线」，笔者一直是持质疑态度的。质疑的点在于：算法的进步，能弥补摄像头物理性能的局限性吗？比如，视觉算法足够牛逼时，摄像头就有测距能力了？晚上就能看见了？

前一个疑问，在 2021 年 7 月份被打消 —— 当时，特斯拉被曝已开发出「纯视觉测距」技术。而后一个疑问，则持续存在。

笔者甚至一度认为，如果把摄像头类比为人眼、把视觉算法类比为人的大脑中「跟眼睛配合的那一部分功能」，那么，「视觉算法足够牛逼时，就可以不需要激光雷达」这种观点就相当于说「只要我的脑子足够聪明，眼睛高度近视也没关系」。

但前段时间，马斯克提到的 HW 4.0 将「干掉 ISP」的计划，却颠覆了笔者的认知。在接受 Lex 采访时，马斯克说，接下来特斯拉全车摄像头的原始数据不会再经过 ISP 的处理，而直接输入 FSD Beta 的 NN 推理，这将让摄像头变得超紧急强大。

带着这一话题，笔者跟地平线 BPU 算法负责人罗恒、于万智驾 CTO 刘煜、均联智行首席架构师汪浩伟、挚途科技首席科学家黄浴、车右智能联合创始人等诸多业内专家都做了一系列交流，然后明白，自己先前的那些质疑，纯属「自作聪明」。

视觉算法的进步，确实在一步步拓展着摄像头物理物理性能的边界。

何为 ISP？

ISP 的全称 Image Signal Processor，即图像信号处理器，是车载摄像头的重要构成组件，主要作用是对前端图像传感器 CMOS 输出的信号进行运算处理，把原始数据「翻译」成人眼可以看懂的图像。

通俗地说，只有依赖于 ISP，驾驶员才能借助摄像头「看」到现场细节。

基于第一性原理，自动驾驶公司也用 ISP，主要是根据周围环境的实际情况对摄像头数据进行白平衡、动态范围调整、滤波等操作，以获得最佳质量的图像。例如，调节曝光以适应明暗变化，调节焦距以专注在不同距离的物体等等，尽量地让相机性能接近人眼。

不过，让相机「尽量接近人眼」显然还无法满足自动驾驶的需求 —— 算法需要摄像头在强光及弱光等人眼也「失灵」的场合下也能正常工作。为了实现这一目标，有的自动驾驶公司不得不专门定制能增强摄像头在强光、弱光及干扰情况下性能的 ISP。

2020 年 4 月 8 日，阿里达摩院宣布依托其独有的 3D 降噪和图像增强算法自主研发出用于车载摄像头的 ISP，保障自动驾驶车辆在夜间拥有更好的「视力」，「看」得更清晰。

据达摩院自动驾驶实验室的路测结果显示，使用该 ISP，车载摄像头在夜间这个最富有挑战的场景下，图像物体检测识别能力相比业内主流处理器有 10% 以上的提升，原本模糊不清的标注物也得以清晰识别。

干掉 ISP 的动机及「可行性」

然而，ISP 的设计初衷是为了在多变的外部环境下获得一张「好看」的图片，但这究竟是不是自动驾驶最需要的图片形式，业界尚无定论。按马斯克 Elon 的说法，神经网络不需要漂亮的图片，它需要的是传感器直接获取的原始数据、是原始光子计数（Raw photon counts）。

在马斯克看来，无论 ISP 采用何种处理方法，总有一部分原始光子在通过镜头到达 CMOS、转换成可见光子的过程中会被丢失。

关于原始光子丢失与未丢失的差别，挚途首席科学家黄浴说：「光子转化成电子信号时候，确实有噪声被抑制了，更不用说 ISP 对原来的电信号做了很多处理。」

车右智能联合创始人在《From photon to control—— 从光子到控制，Tesla 的技术口味越来越重》一文中拿人眼对感知信息的处理做类比，做了比较详尽的解释，在此摘要如下：

如上图所示，人类的视觉系统和电子成像系统在逻辑上是完全一致的。视网膜颜色和像素矩阵其实是更可以代表外部客观世界的信息，而真正的人类感知颜色，是需要大脑（等同于 ISP 和更高层的后端处理）的参与的。

上图左侧是一幅标准的带有饱和度渐变和强度渐变的颜色图，右侧是其对应的带元颜色的原始图幅。对比可见，以人类视觉感官为核心而设计的成像系统会给我们提供愉悦和符合人类主观的图像信息，却未必全真反映客观的真实世界。

马斯克认为，为了做得「更好看」、更适合「给人看」，很多原本很有用的数据却在 ISP 负责的「后期处理」环节被处理掉了。但如果只是为了给机器看，这些被处理掉了的数据其实也是有用的，因此，如果「后期处理」这一步可以被省略，则有效信息量便会增加。

按于万 CTO 刘煜的解释，马斯克的逻辑是：

由于有了更丰富的原始数据，未来，相机的探测范围可能比人眼大，即光照强度很低或者很高的时候，我们人眼可能就看不见了（因为太黑或者太亮），但机器仍然可以测光子数量，因而仍然能有图像输出；
相机对光照强度的分辨率可能更高，即看上去很类似的两个光点，人眼可能分辨不出那么细小的亮度或者颜色差别，但是机器或许可以。

某 AI 四小龙工程师的解释是：好的摄像头的动态范围比人眼大很多（在相对静止状态下），即摄像头能观测到的「从最亮到最暗」的范围，比人眼所能观测的更宽。在极暗的条件下，人眼看不到什么东西（几乎没有光子），但是摄像头的 CMOS 可以接收到很多光子，因而能看到黑暗状态下的事物。

多位专家在接受《九章智驾》采访时均表述认可马斯克的逻辑。

地平线 BPU 算法负责人罗恒解释道：「特斯拉现在的数据标注有人工标注和机器自动标注两种，其中，人工标注其实并不全是基于当前的图像信息，也包含了人类对世界的知识，这种情况下，机器同样有概率利用信息更丰富的原始数据；而机器自动标注是结合事后观测、结合大量几何分析一致性得出的，如果使用原始数据，机器有很大概率找到更多的相关性，做出更准确的预测。」

除此之外，均联智行首席架构师汪浩伟解释道：「特斯拉在原始图像数据进入 DNN 网络前就对其做了拼合，因此，就不需要对每个摄像头的感知结果做后处理。」

通过干掉 ISP 来提升摄像头在夜间的识别能力，这看起来跟阿里达摩院自研 ISP 的思路是相反的啊。那么，这两者矛盾吗？

据曾某自动驾驶公司视觉算法专家解释：两家的诉求其实是相同的。在本质上，无论阿里达摩院还是特斯拉，都是希望通过芯片和算法的配合来提升摄像头的能力。

但两者的区别在于，阿里达摩院的思路是，为了人眼能看到，对原始数据进行了各类算法处理和增强；而特斯拉则是去除了算法中为了「照顾」人眼所做的那部分数据处理，转而开发了用于增加摄像头在弱光下及强光等环境下的算法所需的数据及相应能力。

除此之外，马斯克还说，不经 ISP 处理可以实现 13 毫秒的延迟下降，因为有 8 个摄像头，每个摄像头 ISP 处理会产生 1.5 - 1.6 毫秒的延迟。

一旦马斯克这一设想经过实践验证是可行的，其他芯片厂商应该也会「跟进」。甚至，有的芯片厂商已经在这么做了。

如安霸中国区总经理冯羽涛 1 月份在接受焉知采访时就提到：「如果客户想把原始数据直接喂进神经网络进行处理，CV3 完全可以支持这种方法」。

摄像头的「物理性能」也需要提升

并非所有人都完全相信马斯克这一计划。

某头部 Robotaxi 公司技术 VP 说：「特斯拉说的也没错，但我觉得算法的开发难度会非常大、周期会很长，然后开发的时间可能会非常久。如果加个激光雷达，首先可以直接把三维的问题解决了，拿纯视觉去构建三维当然也可以，但要消耗很多算力。」

车右智能联合创始人认为，马斯克是个「煽动大师」，「他的宣传方式是把你搞晕，让你不由自主地产生技术崇拜」。

他说：「有的图像学专家认为放弃所有 ISP 级别的后处理是不现实的，比如获取强度和颜色的 debayer 图像，会给后续的 NN 识别 head 造成很多困难。」

在《车右智能》最近的一篇文章中提到，原始数据染过 ISP 直接进入神经网络的方案在哪种场景下可行？是可以兼容特斯拉现有的摄像头还是需要更好的视觉传感器？是否存在于 FSD beta 全部的 NN head 任务还是局部 NN head 任务？这都是不确定的答案。

我们再回头笔者开头提出的那个问题：视觉算法的提升，能突破摄像头的物理性能本身的瓶颈吗？

某视觉算法背景的 Robotaxi 公司 CEO 说：「逆光或者是车辆从隧道里出来突然面对强光时的感知，人眼很难解决，摄像头也不行，这个时候，就必须要有激光雷达了。」

刘煜认为，理论上，如果你不计成本，可以造一个摄像头，性能是可以超过人眼的，「但我们现在这些车上用的这种低成本的摄像头，似乎还远没有达到这个性能级别。」

言外之意，解决摄像头在弱光或强光下的感知，并不能仅靠视觉算法的提升，还得围绕着摄像头的物理性能「做文章」。

如摄像头若要在夜间探测目标，就无法通过可见光成像，而是得基于红外热成像原理来做（夜视摄像头）。

某「AI 四小龙」工程师认为，photon to control 非常有可能意味着特斯拉跟 HW 4.0 芯片搭配的摄像头会升级成多光谱。

这位工程师说：当前，行车摄像头都将非可见光部分滤去，但现实中，物体发出的光线光谱非常广泛，可以用来进一步区分物体特征。比如白色的货车和白云，在红外波段可以被轻易区分；有行人或者大型动物防撞，用红外摄像头会比较容易，因为恒温动物身体发出的红外线是很容易区分的。

《车右智能》在文章中也提到了这样一个问题：Tesla 是否会针对 photon to control 的概念而更新相机硬件，推出真正的光量子相机，或者还是基于现有的 camera 进行 ISP 旁路？与此同时，作者也指出，如果摄像头硬件也要升级，「那特斯拉将不得不从头开始完全重新训练其神经网络算法，因为输入是如此的不同」。

此外，无论摄像头技术如何进步，可能都无法摆脱鸟屎、泥水等脏污的影响。

激光雷达采用的是主动光源，先发光、再接收光，像素点很大，一般的脏污很难将其完全遮挡掉。据某激光雷达厂商提供的数据，在表面有脏污的情况下，其激光雷达的探测距离只衰减 15% 以内；而且，有脏污的时候，系统会自动发出警报。但摄像头是被动传感器，每个像素点很小，很小的灰尘技能挡住几十个像素，因此，在表面有脏污的时候就直接「瞎了」。

如果不能解决这个问题，那试图通过视觉算法的进步来省掉激光雷达的成本，岂不是个妄想？

几点补充：

芯片厂商怎么设计只是问题的一个方面，但客户如果没能力充分利用好原始数据，他们也无法绕过 ISP。
哪怕芯片厂商和客户都有能力绕过 ISP，在今后相当长一段时间里，多数厂商仍然会保留 ISP，一个关键原因在于，在 L2 阶段，驾驶责任主体依然是人，而 ISP 处理后的信息显示到屏幕上，方便交互，也可以给驾驶员「安全感」。
要不要绕过 ISP，仍然是「纯视觉派」与「激光雷达派」两种技术路线之争的延续，对此，上文提到的 Robotaxi 公司技术 VP 的观点很有启发性：

其实纯视觉方案跟激光雷达方案并不是拼「谁行谁不行」，真正拼的就是纯视觉方案算法开发能开发到激光雷达方案这种水平要多长时间，以及激光雷达的成本降到跟纯视觉方案成本差不多的时候需要多长时间。简言之，是前者的技术进步快，还是后者的成本降得更快。

当然，若日后纯视觉派需要增加传感器，而激光雷达派需要减少传传感器，算法受到的影响有多大、修改算法需要多长时间、成本如何，这些都是有待进一步观察的问题。

参考文章：

马斯克最新访谈：自动驾驶最难的是建立向量空间，特斯拉 FSD 或年底达到 L4 | 阿尔法讲故事

https://mp.weixin.qq.com/s/rSrN6FV3W4GRSSkfF9K_kg

特斯拉选择纯视觉：摄像头测距已成熟，雷达缺陷不可弥补

https://m.ithome.com/html/564840.htm

何为 ISP？

干掉 ISP 的动机及 「可行性」

摄像头的 「物理性能」 也需要提升

请截图后在微信扫码参与互动

干掉 ISP 的动机及「可行性」

摄像头的「物理性能」也需要提升