成立 1,000 天后，毫末发现了重大难题

刚刚结束的第六届毫末 AI DAY 上，毫末智行 CEO 顾维灏再次对外分享了一系列最新成果、感想以及新发现。成立才刚刚超过 1,000 天的毫末，取得了什么样的成果？接下来路怎么走？下面，我们就来回顾归纳本届毫末 AI DAY。

大模型

首先，顾维灏在开场时便再次强调了基于 Attention 机制的 Transformer 网络在处理大规模二维图像上的领先性。在这里我们可以简单回顾一下 Transformer 网络模型架构，毫末智行在去年底曾以很大篇幅介绍了该网络模型在图像处理领域的优势。

Transformer 最早是由谷歌团队提出，并用于 NLP （自然语言处理）领域，被用来处理序列文本数据。随即，这一网络模型架构被移植到了视觉处理任务上，并且有研究表明，数据量越大，Transformer 处理效果越好，这与当前自动驾驶路线的发展不谋而合。

而 Transformer 正是一种基于 Attention 机制的网络模型，Transformer 用 Attention 代替了原本的 RNN。

Attention 是什么？简单地说，Attention 的本质就是在不同的环境、背景下，让系统 focusing 重点信息，本质逻辑是从关注全局到关注重点。

2020 年起， Attention 机制在计算机视觉领域取得了显著突破，从谷歌的 VIT 到 MSRA 的 SwinTransformer，轻松刷爆各大排行榜。大家开始注意到，基于 Attention 机制的 Transformer 结构似乎能成为一种有效的通用 AI 模型范式。

毫末于两年前开展了基于 Attention 机制的 Transformer 大模型在自动驾驶领域的研发，但同时发现，一般 Transformer 所需算力是 CNN 所需算力的 100 倍，但是在这算力下平均 6.9% 的算力贡献了 94% 的价值，还有大量的弱关联、低价值的运算在乘加操作和功耗上产生了很多浪费。

翻译一下就是，大模型对算力要求很高，但是利用率却非常低。毫末需要建设低碳的超算中心，来降低自动驾驶整体的成本；其次，这类模型架构部署在车端，需要做一些修和芯片设计来提高计算效率；大模型对数据量的要求很高，怎样组织利用数据，才能提升迭代速度。

新的模型对芯片提出了新的要求，研究界和工业界都在这一领域做了研究和实践，例如涌现了一批 CNN 和 Attention 融合的轻量级模型，以此来降低计算量。但是毫末并未对改进芯片、模型进行详解，更多是从数据展开。

在数据上，谷歌今日发布的 PaLM 是拥有 5,400 亿参数的 AI 自然语言处理模型，训练语料包括了 7,800 亿个 token，但是所谓的高质量数据只占了 5%。毫末认为，在自动驾驶领域，如果想要广泛地应用 Attention，至少需要 1 亿公里的自动驾驶里程数据，同时不同类型、像素、角度对于大模型都有很大的价值。

由此，毫末得出推论，辅助驾驶是通向自动驾驶的必由之路。

因为只有辅助驾驶，才有能力收集到足够规模和多样化的数据。

数据驱动的时代来了？

数据方面，目前毫末辅助驾驶产品所产生的真实里程为 1,700 万公里，MANA 数据智能体系学习时长超过了 31 万小时，末端物流自动配送车也为用户运送了近 9 万单物资。

顾维灏认为，智能驾驶现已进入了 3.0 时代，1.0 时代指的是硬件驱动时代；2.0 时代则是多数车企开展软件自研的时代；而 3.0 时代则是数据驱动的时代。

且自动驾驶想要进入城市，在很多场景下的处理能力就会变得至关重要。例如狭窄空间的自主通行能力、养护道路下的通行能力、大车密集、遮挡严重的环境下，系统的处理能力都是影响体验的重要因素。对于毫末而言，提升 MANA 数据智能体系的能力，就是在提升系统的整体表现。

感知方面，业界主流采用的是监督学习的方式，毫末虽然采用的是自动标注的手段，但是时间和金钱成本依然很高，且这种方式也很难把没有标注的数据全部消化掉。

针对这种情况，毫末研发了一套自监督学习方式。毫末会用大量的数据对模型做预训练，再根据具体的实际任务，用有监督数据进行微调，以此提升效果。

具体的方式是，大量的数据在图像到 BEV 的方式下提取 BEV 特征，同时毫末希望在 BEV 特征上重建三维场景，这套流程本身不需要标注，因为这种训练方式输入的是多模态的传感器信息，输出的是三维重建，然后根据三维重建信息推算后续场景。

训练完成后，毫末会根据具体场景任务，例如车道线、障碍物或车辆属性等等，放入模型内进行第二次微调。毫末称，以现有的监督方式进行训练，即便训练 70 轮也只能达到七八十分的水平。但是用新型的自监督方式训练之后再加数据，通过十几轮次就能达到比之前更高精度水准，效率至少提升了 3 倍。

另外现阶段辅助驾驶还有个老生常谈的安全问题，虽然已经发展多年，但是在一些特殊场景下，系统还是做不到百分百安全，例如静态物体。系统需要对这类问题进行「紧急修正」时，常常会碰到难题，例如系统已经积攒了巨量的信息，突然要求系统对一个 case 进行快速响应，那么会导致它为了适配这一新场景，削弱其他场景的表现。例如对系统对卡车的应对响应有急剧的提升，可能会导致对一般小轿车效果下降很多，在行业内这种现象叫做「灾难性遗忘」。

有一个方式是对所有数据进行再一次重复训练，虽然效果很好但是成本太高。所以毫末针对「灾难性遗忘」提出了新的增量式学习方式，例如当有新的问题、场景和 bad case 时，毫末会将它与旧的模型做耦合，当然最终目的仍是得到新的模型，但是毫末是将少量数据挑选出来做训练，之后新老模型同时输出，并进行对比。通过这样的方式，「定点」优化参数。

高精地图置信度低

毫末很早前就喊出了「重感知、轻地图」的口号，究其原因无非就是高精度地图更新频率低，顾维灏给出了一组数据，全国高速公路总里程为 30 万公里，普通公路更是超过了千万公里。指望测绘车进行更新维护，从而提供给智驾系统充当先验信息，顾维灏对此的观点是——不可能。

另外我们还听到了另一个有意思的观点，顾维灏称你可以把激光雷达看作是一个传感器，但是这个传感器由于经常进行「施工」，它的「感知数据」是非常不稳定的，它是不可信的，所以它的置信度当然就非常低了。

毫末更愿意依赖单车的实时感知能力，解决方案是用 Transformer 建立强感知的时空理解能力，实时建图技术中的综合长时间多帧信息消除抖动。

与特斯拉一样，毫末也基于时序 Transformer 模型在 BEV 环视空间上做了虚拟实时建图，通过这种方式让车道线的感知输出更加稳定和准确。

在谈到地图问题时，毫末自动驾驶技术副总裁艾锐称，高精地图一直受各种限制，开放速度较缓。毫末作为一家自动驾驶供应商，必须要打破地图的阻碍，这样才能上车，从而得到更多数据。

交互信息不能遗漏

Elon Musk 很早前就驳斥了激光雷达路线，称道路是为人类驾驶员设计的，我们人类没有顶着激光雷达开车。

毫末 CEO 顾维灏也称，车辆的交互信息也是人类设计的，从而让驾驶员与驾驶员之间更便利地进行信息交换。

当前车尾灯变亮时，我们知道驾驶者进行了刹车；当其他车辆转向灯点亮时，我们知道他会进行转向操作。这对于驾驶来说，是非常重要的信息。同样，这样的信息也可以让车辆系统获取。

在上半年的 AI DAY 上，毫末介绍了如何在城市环境中不依赖高精地图与 V2X，车辆自行获取信号灯信息。而本次 AI DAY 上，毫末称正在升级车上的感知系统，希望能够加入对车辆信号灯状态的专门识别，包括转向灯、刹车灯。甚至在后期，毫末还会考虑加入声音交互，其他车辆的喇叭声其实也是一种信息。

仿真还可以更真，驾驶还可以更「拟人」

在自动驾驶走入城市时，毫末团队在进行仿真模拟时遇到了非常棘手的场景——路口。高速场景时，只需要在场景下加 2—3 辆车即可模拟真实环境，但是在城市的路口会有大量的交通参与者在区域内活动，导致仿真效果不理想。

针对这种场景，毫末选择与阿里、德清政府进行合作，利用路端设备将路口处 24 小时的真实交通流记录下来，在通过 log2world 的方式导入到仿真引擎里，就获得了 24 小时真实交通流仿真。根据毫末的实测来看，真实环境导入后的对于整个算法的提升有着很大的帮助。

除了仿真以外，毫末为了让系统驾驶行为无限向人类贴近，还进行了认知问题的优化。

艾锐称，如果只考虑系统的安全性，不考虑舒适性，那其实很简答。但是不舒适的产品，用户是不接受的。

为了让驾驶行为更「拟人化」，毫末对覆盖全国海量人驾进行深度解读，构建了一个场景库，并且分别进行训练，通过与人类驾驶进行对比，来改善系统的细节表现。

超算中心

去年底，毫末对外透露计划建设自己的超算中心。

在今天的 AI DAY 上，顾维灏透露了超算中心的最新进展。毫末的目标是满足千亿参数大模型，同时数据规模 100 万 clips，整体训练成本降低 200 倍。

训练大模型需要消耗巨大的算力，以训练一个千亿参数、百万个 clips 的大模型为例，需要上千卡 GPU 训练几个月时间，时间成本相当高。

所以，如何提升训练效率降低训练成本是普及自动驾驶的重中之重。

值得一提的是，艾博称虽然英伟达对中国市场断供了 A100/H100 GPU，但是短期内影响不是很大。一是因为英伟达不太可能短期内放弃中国市场，二是因为建设超算中心，并非一定要采用英伟达方案。

城市 NOH 五大功能

在上半年 AI DAY 上，毫末公布了城市 NOH 十大典型场景，通过场景，毫末总结了 5 大功能。

五大功能包括了智能识别红绿灯、智能左右转、智能变道与智能躲避障碍物（分为动态、静态）。

这 5 大功能也是城市 NOH 的基础功能，顾维灏称，由于系统还存在于用户「磨合」的过程，所以在很多场景下还需要人类简单介入，例如虽然是红灯停绿灯行黄灯减速慢行，但是在绿灯亮起后，还需要用户轻点油门通过。

智能左右转逻辑是根据人类经验进行走线，在转向时遇到行人与非机动车会主动避让，但是遇到机动车时则会进行博弈。

智能变道融合了车辆周身感知，系统会按照导航既定路线进行行驶，在路口或寻求更高的通行效率时会主动变道，同时会观察后方交通参与者的行为轨迹。在变道空间发生变化时，也可以主动加减速。

当系统遇到障碍物时，系统会首先辨别障碍物类型进行减速或绕行，如果是静态障碍物，系统会判断空间是否满足绕行条件，不满足则会等待。

动态障碍物避让难度较大，城市里车道宽度不同，如果是较窄车道，且有前车压线时，系统还是会进行主动减速，进而判断绕行条件。

而上文提到的灯光交互，毫末也在计划接入。当前车转向灯、刹车灯点亮时，系统会判断意图，进行减速或超车，以此保证行车安全性和通勤效率。

写在最后

不同于特斯拉 AI DAY ，毫末 AI DAY 的举办是以季为单位的。

我们经常开玩笑称，以季为单位举办的 AI DAY 给我们从业者带来了成倍的工作量，但我们从心底里是乐意看到一家技术公司频频站出来分享成果的。

在这 1,000 天里，毫末完成了 NOH 的量产，而 1,000 对于毫末来说也是个新的起点，因为从城市 NOH，即城市领航辅助驾驶的角度来说，竞争才刚刚开始。

大模型