近两年，在自动驾驶领域有哪些技术进展？

谈到自动驾驶的技术进展，应该会有不少的讨论核心是在芯片上，从去年年中开始国内新造车的算力堆砌战争、到国产自动驾驶芯片供应商开始崭露头角，自动驾驶芯片的话题突然多了许多谈资；

去年几家新造车带起的算力堆砌战争中，有人提出了质疑，算力高是否就代表自动驾驶能力先进？评估自动驾驶能力是否先进除了用最终的实际效果来验证，是否也可以先比较一下作为问题讨论核心的 AI 芯片，到底应该如何设计才能满足自动驾驶技术高速发展的实际需求。

芯片算力与算法优化路线之争的大背景

芯片算力与算法优化路线之争表面上并没有特别显山露水，其中最主要的原因还是当前市面上主要的算法「大魔王」特斯拉，纯粹在用隔三岔五推送的 beta 测试版直接给内测用户秀肌肉；

144 TOPS 的双冗余芯片配上纯视觉感知，特斯拉 FSD beta 测试版实则是在给去年的算力堆砌战争拱火，算力能翻几倍的朋友们，实际表现可能及得上这套测试版？

而特斯拉目前所使用的 Autopilot HW 3.0，144 TOPS 双冗余算力（单芯片 72 TOPS）在三年前发布时也许技压群芳，放在去年动不动 400+、500+、乃至 1000+ TOPS 的算力堆砌战争中，似乎都有些过于落后了；

喊出「TOPS IS THE NEW HORSEPOWER」的朋友们尚在赶来的路上

这个路线之争，从某些层面的激烈程度来说根本不亚于激光雷达有没有意义的讨论，纯视觉路线的特斯拉与高举 LiDAR 大旗的 L4 Robotaxi 公司们的对线，在过去几年间早已成了肥皂剧；

在地平线罗恒博士最近的公开课中，就讲述了芯片算力提升与算法优化路线之争的大背景；

说到芯片比较普及的观点应该就是摩尔定律，大家都相信芯片算力在一定时间内总能获得翻倍提升，但其实这一面向通用计算（CPU）的「规律」已经在 2015 年之后被打破；

在摩尔定律发挥作用时，最快每一年半计算性能提升一倍，2015 年后，已经放缓至每 20 年翻一倍（来源：地平线罗恒博士公开课材料）

自动驾驶任务实际上是 AI 计算中的一种，而 AI 计算整体的需求在近些年增长也非常迅速，随之而来的是大量专有架构芯片，这些芯片与以往的 CPU 有显著差别，但即使是专有架构的 AI 芯片，对于能否满足 AI 计算迅速增长的需求，也有巨大的挑战；

上图中以横轴为年份、纵轴为训练 AI 模型所需的时间，可以看到在短短 7 年间 AI 计算对算力的需求呈现出了数量级的增长（来源：地平线罗恒博士公开课材料）

AI 计算对算力数量级增长的需求，与 CPU 算力的提升严重不匹配，于是大家纷纷开始寻找其他解决方案，朝着 AI 专用加速器的方向发展，以 Google 为例，从最初使用 CPU 到切换 GPU 再到为自有数据中心自研高度定制化 AI 推理芯片 TPU，算法优化对于计算能力的提升在数据中心需求中，已经被证明更为重要；

在自动驾驶任务中，虽然与数据中心任务有不少区别，但其特征更为需要 AI 加速提升性能，算法优化对于自动驾驶性能提升的重要性自不必说；

自动驾驶与数据中心对于 AI 任务的需求有所不同，但其特征更为需要 AI 加速提升性能，算法优化对于自动驾驶性能提升的重要性自不必说（来源：地平线罗恒博士公开课材料）

AI 计算任务在这些不同任务、场景中，就存在不同的性能评估目标，在基于芯片物理实现的成本与功耗等背景条件基础上，还需要结合考虑 AI 算法的计算速度与准确率问题，算力发展与算法优化在 AI 计算任务的需求上形成了相辅相成的绑定关系；

可以说，算力制霸的硬件与算法优化的软件方案能力都是实现最终 AI 计算任务优化的必备能力，在实现智能辅助驾驶的征途上与其吵上一架路线之争，不如寻找一块两者兼得、真正面向自动驾驶任务的 AI 芯片。

如何做出一块真正面向自动驾驶任务的 AI 芯片

如何做出一块真正面向自动驾驶任务的 AI 芯片这个问题可以先缩小到一个子问题，如何找到一个客观评估 AI 芯片性能的指标？

芯片的峰值算力当然是无法绕开的一个重要指标，但就像上图中的两个峰值算力相差几倍的 AI 加速器，不同模型的实际运行结果还会出现差不多的表现，那么评估 AI 芯片性能，就更应该针对最终所面向的模型来进行评估；

自动驾驶的核心负载实际在于高分辨率的物体检测，对于这一核心负载，地平线罗恒博士在公开课中提到了地平线所认为的自动驾驶芯片评估指标 —— 目标检测的平均帧率（MAPS，Mean Accuracy-guaranteed Processing Speed），并展示了以同一目标模型计算，地平线 J5 与 Xavier 实际运行、Orin-X 预测结果的比较；

在同精度下，J5 帧率显著高于 Xavier，而对应 Orin-X 的预测结果也有明显提升，如果再考虑到功耗差异（J5 功耗 20w、Orin-X 功耗 65w），能效比较地平线 J5 也有 6 倍多的提升；

在地平线所进行的 COCO 数据集算法评估中，横轴代表帧率，纵轴代表精度，实际运行了 Xavier、地平线 J5，并估计了 Orin-X 的结果（来源：地平线罗恒博士公开课材料）

为何能有这样的效果？地平线罗恒博士提到了芯片设计层面重视算法导向的优势，面向算法需求去做专用芯片设计，同时软硬结合构建完整的算法验证、协同优化，再回到自动驾驶场景；

这个解题思路也不会仅仅局限于模拟运算的数据集算法评估，在最终的实际自动驾驶场景中，也会带来整体解决方案从目标识别帧率到最终功能实现成功率的优势。

结语

总的来说，芯片算力高确实有利于自动驾驶领域的高速发展，但针对自动驾驶任务的算法优化同样重要，而能够提供与算法优化、芯片软硬件设计整合的完整工具链就更加适合最终开发出优秀高效的自动驾驶算法与实际效果；

而这个前后链路打通的解决方案，应该也会是最有利于在智能辅助驾驶竞争愈演愈烈的今天，帮助踟蹰彷徨的车企们找到前进门路的加速密钥。

芯片算力与算法优化路线之争的大背景

如何做出一块真正面向自动驾驶任务的 AI 芯片

结语

请截图后在微信扫码参与互动