作者 | 朱世耘
编辑 | 邱锴俊
「我们有信心,在今年年内推出来的城市 NGP 效果,会相当程度上比 FSD 的效果要好。」3 月 26 日,何小鹏在百人会论坛的采访上向《电动汽车观察家》明确表示,小鹏汽车将于 2026 年开始向无人驾驶过渡的目标。
此时距离何小鹏喊话特斯拉创始人马斯克 ——「(要)在中国的自动驾驶领域打得(特斯拉)找不着东」 刚过去 16 个月。

当然特斯拉也没闲着。
4 月,马斯克表示可实现 「完全自动驾驶能力」 的 FSD 测试版已搭载在超 10 万辆特斯拉车型上。近日发布的特斯拉 2021 年影响力报告表示,美国所有汽车相比于使用 Autopilot 自动辅助驾驶的特斯拉汽车发生事故的概率要高 8 倍。马斯克表示,这项数据将趋向于超过 10 倍。
但在中国,由于开放功能过少,昂贵的 FSD 对特斯拉车主来说品牌标签的意义远大于使用价值。
2020 年的小鹏科技日上,一段小鹏 NPG / 特斯拉 NoA 导航领航驾驶辅助系统的对比实验中,小鹏 P7 表现稳定,特斯拉 Model3 则有了一系列无故、违规变道和错误驶出的情况发生。
这一表现也与中国媒体屡次的对比测试结果一致:在北美开始测试完全自动驾驶的特斯拉,在中国结构化道路上仍水土不服。
晚七年出发的小鹏,现在的自动驾驶能力能否与特斯拉一较高下?何小鹏说要赶超特斯拉,是在吹牛吗?
更重要的是,以特斯拉和小鹏为代表的纯视觉和感知融合两大技术路线,在量产自动驾驶这一目标下的差异怎样,前景又如何?
在中国,特斯拉比小鹏 「差」 在哪儿?
本质上,如今的纯视觉感知的特斯拉车型,和依靠多传感器融合的小鹏车型已是运行模式大相径庭的两种 「生物」,且 「栖息地」 也大为不同。
纯视觉 VS 多传感器融合
特斯拉 FSD 完全靠 「看」。车身四周的 8 枚摄像头,以每个摄像头 36 帧每秒的速率采集,分辨率为 1280×960、12-Bit 的 RAW 格式图像。
原始图像数据直接进入名为 「HydraNets(九头蛇)」 的单一纯视觉神经网络算法中,进行图像拼接、物体分类、目标跟踪、引入时间序列的在线标定、视觉 SLAM(定位与地图构建)等一系列能让机器明白 「我拍的是什么」,最终形成一段路况时空的 「向量空间」—— 对真实物理世界的虚拟映射。
「最困难的是建立一个准确的向量空间,」 马斯克表示,「一旦有了准确的向量空间,控制问题就类似于电子游戏。」

「向量空间」 是所有 L3 级及以上高阶驾驶辅助系统的必要条件,区别在于如何获取(感知)真实世界的数据。
从 P7 开始,XPILOT 智能驾驶辅助系统(下称 XPILOT)形成了 「小鹏风格」 的融合感知系统:前视三目摄像头 + 翼子板侧后视摄像头 + 反光镜前视摄像头 + 后视摄像头 + 五个毫米波雷达 + 四个环视摄像头 + 十二个超声波雷达 + 高精地图 + 高精定位。
从 P5 开始,XPILOT 又引入了激光雷达。

雷达提供直接的速度、深度、距离和部分材质信息,其中激光雷达能够直接对现实场景进行 3D 点云的虚拟建模;摄像头则对行人、交通标志标线等多细节进行感知。之后,通过融合算法模式,将不同传感器的原始数据或感知结果进行 4D 一致化的融合,由此建立向量空间。
两套方案各有优劣。
视觉方案具有极大的成本优势。单目摄像头成本仅在 150-600 元之间,较为复杂的三目摄像头成本也通常在 1000 元以内。
特斯拉的 8 个摄像头成本在 200 美元(1400 元)之内,加上自研的自动驾驶芯片,总成本不到 1 万元人民币。
多传感器融合方案在摄像头之外,毫米波雷达成本在 50 美元左右、半固态激光雷达普遍在几百美元,以及高精地图的费用。
2019 年,高德地图宣布 100 元 / 车 / 年的标准化高精地图合作价格。但头豹研究院在报告中认为,除基础服务外,高精地图图商还收取辅助自动驾驶服务费,行业价格或为 700-800 元 / 车 / 年。
成本是技术量产规模的决定性因素,但技术的可靠性和可实现性更加重要。
距离 / 深度 / 速度探测是视觉方案的劣势之一,要通过 2D 的图像来构建 3D + 时间的向量空间,中间不但存在 2D 「翻译」 到 3D 所带来的延迟问题,而且对图像处理算法、AI 学习所用的场景数量 / 质量,和硬件算力都要求极高。
例如,去年特斯拉取消毫米波雷达之后,FSD 测试版的自动转向功能设置了 75 英里 / 小时(120 公里 / 小时)的最高速度和最少三辆车的跟车距离。之后两个月,特斯拉将限速提高至 80 英里 / 小时(128 公里 / 小时),跟车距离降低到两个车身长度。
多传感器方案则拥有雷达直接提供的距离 / 深度 / 速度数据,以及高精地图提供超视距的先验信息,以及高精定位模块提供的分米甚至厘米级定位能力。
「(由此)帮助 AI 理解,决策和规划接下来的动作,为基于其他传感器的感知能力提供辅助和冗余的信息来源。」 小鹏汽车自动驾驶副总裁吴新宙向《电动汽车观察家》表示。

获得足够的冗余,是 L4 级自动驾驶公司和小鹏等公司,选择多传感器融合而非纯视觉路线的主要原因。
目前,由于纯视觉没有对速度、加速度的直接测量能力,幽灵刹车会是长期难以根治的问题。
未来,对高阶自动驾驶系统所需要的预期功能安全和功能安全来说,防止单一系统失效,收窄失效预期冗余是必须的,「目前纯视觉系统很难达到高阶自动驾驶所需的安全需求。」 一位自动驾驶领域专家向《电动汽车观察家》表示。
美国的特斯拉与中国的小鹏
「栖息地」 的不同进一步加大了两条技术路线的落地表现。
中国交通环境的复杂程度远超美国,需要大量视距之外的辅助信息提供给决策系统,才能顺利完成通行,也导致仅依赖实时、纯视觉感知系统,很难在中国落地。

例如,即使是属于简单场景的封闭高速路,中国相比美国路弯道更多、曲率更大,甚至有两圈叠套的路段,能 「一眼看到」 的路线非常短暂;中国的高速路还有更长的进出匝道,和更频繁变换的虚实车道线,甚至本不应出现在封闭路上的行人。
部分企业在实践中发现,由于交通参与者通行规范程度的差异,自动驾驶系统在美国过路口比中国 「容易」 近 10 倍。
不使用高精地图,缺乏先验信息,完全依靠视觉感知,神经网络占比超过 98% 的 FSD,需要海量的高质量、差异性数据来进化。
因此,在北美数据的 「喂养」 下,FSD 测试版实现了非结构化路段的部分自动驾驶能力,但特斯拉在中国还无法顺畅跑通高速路段 —— 目前缺乏使用中国场景数据的能力。
受国家数据安全要求,特斯拉在华数据不能 「出国」,这不仅意味着数据本身要存储在中国的服务器中,国外 IP 也不能通过网络访问,甚至在国内读取数据的人也有严格的国籍背景限制。
这意味着特斯拉要适配中国场景需要在中国 「重建」 组织。
首先是在中国的数据和研发中心。「负责数据采集和模型训练,以及产品经理等一系列配套组织,百人以上的团队。」一位新造车势力的大数据工程师向《电动汽车观察家》表示。
还需要重新构建工作流程。因为美国的数据同样不能进中国,所以只能从美国传递模型参数,而不能传递数据本身,「这对模型的训练工作会带来很大影响,需要重新在中国搭建训练用的 pipeline(data pipeline:数据的采集、处理、脱敏、清洗、标注、分类和训练流程)。」 上述大数据工程师表示,这又意味着数百甚至上千人的流程团队。
《电动汽车观察家》在采访中了解到,2021 年下半年,特斯拉已经开始在中国招聘自动驾驶研发的相关人员,但规模和用途仍不得而知。
而且,像所有跨国组织一样,海外分支机构从来不只是钱和人的问题。
「即使所有的研发导入,特斯拉中国和美国研发团队的融合也不一定那么顺利。」 Thoughtworks 物联网业务线总经理朱晨向《电动汽车观察家》表示:国际研发机构最痛苦的地方在于分支机构和总部的想法不一样。例如中国的研发团队根据中国国情做出一些特异化的判断,提交到总部后是否愿意批准。「到底用谁的代码,以及由此产生的一系列问题。小鹏则无需担心这些问题。」
XPILOT 诞生之初,便是为中国场景服务的。
小鹏采用以高精地图为纲的决策逻辑,利用高精地图和多传感器融合,在感知和决策算法难度相对较低的情况下实现了高速导航领航这一 L3 级的高级别智能驾驶辅助能力的落地。
而且中国团队还能够针对本地场景进行专门的优化,由此在体验端超越了特斯拉 NoA 的在华表现。
据悉,小鹏对识别加塞、大货车等 「中国特色」 场景都进行了感知方面的优化:调整传感器的布局和感知范围;向 XP 的感知模型导入更多针对性场景进行训练。
针对高精地图 「鲜度」 不够的劣势,小鹏进行了地图系统的增强:对视觉感知到与高精地图不符的新路况,建模补充进地图;通过增强算法提升高精地图的精确性,以更适应道路起伏非常大的场景;通过技术将高精地图未拍到的细节部补完等等。
值得注意的是,对高精地图进行增强并不只是一个技术问题。
2021 年,小鹏出资 2.5 亿元收购江苏智途科技有限公司,获得了稀缺的甲级地图资质。不仅使 「补完」 地图名正言顺,而且还获得了自建高精地图的入场券。
小鹏也是首家取得该资质的中国新造车势力。
算法分歧
「每一次硬件的大幅改变,也会带来软件算法的大幅改变。」 地平线创始人余凯在演讲中表示。
感知硬件方案带来的差异是小鹏与特斯拉现阶段 「分歧」 的表象,更深层次的差异来自于不同感知路线背后 「思维模式」 的差别 —— 在更远的未来决定量产自动驾驶这一目标能否最终落地。
「思维模式」 即自动驾驶系统的软件算法。主要分为感知、决策和控制三部分。
-
感知算法追求解决传感器 「感到」 的东西是什么的问题,通过对感知到的物体进行分类、标注、理解,最终在车端建立起与现实路况高度相似的向量空间;
-
决策算法则需要综合考虑导航路线、道路情况、其他交通参与者的动作意图,以及安全、效率、舒适等行驶标准,在向量空间中先求解出可行空间(凸空间),然后利用优化的方法在可行空间内优化求解,输出最终轨迹。
-
控制部分则负责高效协同底盘系统的各个执行件,以便忠实执行决策算法的 「决定」。
《电动汽车观察家》在采访中了解到,目前的高阶驾驶辅助及自动驾驶系统当中,感知算法绝大多数已采用 AI 神经网络进行感知,决策算法中也已在前端使用神经网络进行搜索和选项收敛,后端采用逻辑判断的算法。
那么,在纯视觉和多传感器的硬件方案背后,软件算法的分歧有多大?
感知算法对比
感知算法采用神经网络为主的 AI 模式已是当下的主流模式。
时间回退至 2020 年 8 月,马斯克首次表示特斯拉正在重写 FSD 的基础架构。一年之后的 AI DAY 上,特斯拉宣布感知算法模型中 CNN 卷积神经网络的计算量占比达到了 98%,并通过 RNN(循环神经网络)加入了时间序列。通过利用具备出色算法并行性的 Transformer 融合不同摄像头数据。
直观来看,就是特斯拉车上 8 个摄像头的原始数据进入感知算法模型,模型输出时已是时空一致的结果。最近马斯克接受采访时表示,特斯拉已经完成了从视觉到向量空间的完整映射。
目前公开的信息中,特斯拉的感知算法模型包含至少 48 个具体的神经网络结构,可同时执行超过 1000 个不同的识别、预测任务,进行一次充分训练所需要的周期是 7 万 GPU 小时。
相比之下,采用多传感器融合的小鹏则要在完成视觉感知算法的基础上,再走一步。
目前,小鹏 P5 搭载摄像头、毫米波雷达、超声波雷达、激光雷达和高精地图构成的传感器方案。其中,雷达的感知算法相对简单,高精地图可提供超时空的先验信息。

真正的难度在于通过算法模型,将视觉、雷达和高精地图的信息进行融合建立向量空间。
由于不同传感器的探测频率、信息类型和精度都各有不同,融合算法模型接收到的是时间不一致、信息不一致、甚至 「样子」 都不一致的传感器信息,要将其整合成为时空一致的向量空间,难度可想而知。
而且,相比于只靠 「看」、信息一致的纯视觉算法,多传感器加高精地图的方案还存在 「信谁」 这样的选择题 ——「置信」 问题。
有专家向《电动汽车观察家》表示,感知融合系统的 「置信」 问题,目前也主要依靠在仿真和真实路况中的第三方数据进行验证。
小鹏处理的 「置信」 问题,不是一概而论的。在高速 NGP 阶段,小鹏采用高精地图为纲的策略,进入城市 NGP 阶段,则将采用视觉感知为主的方案。
「在城市 NGP 中,高精地图仍是非常重要的输入。但是,由于激光雷达的存在和视觉感知能力的快速提升,我们对于各种场景能够处理得更加安全和自然,在地图的边界或是数据出现错漏的时候,能够具备更强大的容错能力。」 吴新宙向《电动汽车观察家》表示,「(随着体系能力的建设),我们有信心赶上甚至超越特斯拉的视觉能力。」
纯视觉的 「易」 与多传感器融合的 「难」
在视觉能力上追上特斯拉,从理论层面来看并不是一句大话。
基于图像识别的视觉感知神经网络拥有 「悠久」 的历史,也由此积累了众多简洁高效的开源算法。
这是特斯拉敢于公开其感知算法模型逻辑的原因所在,也成为小鹏要在视觉能力方面赶上,甚至超越特斯拉的基础。
从目前的结果来看,XPILOT 和 FSD 是目前量产自动驾驶系统中,唯二布局侧方(A 柱)视角摄像头的车企。原因便在于,将侧方图像与广角的前视摄像头的图像进行拼接融合的算法,有较高的门槛,尤其是在量产车型上。
做好视觉感知算法尤为重要。《电动汽车观察家》采访的专家普遍认为,视觉感知仍将是未来自动驾驶系统的核心感知方案。
但为何还要做多传感器融合路线?背后的核心是对反应速度和安全冗余的极致追求。
随着摄像头能力不断提升,视觉感知在应对恶劣天气和路况的能力方面不断进步。但由于始终存在 2D 到 3D 的 「翻译」 过程,以及由此带来的 1 秒左右的延迟,这对行驶中的汽车来说,有时是致命的。
特斯拉目前已经通过底层软件改写和系统整合,去掉了摄像头为适应人眼观看而进行的图像预处理(LSP)功能,直接将原始信息传递给模型,由此减少 8 个摄像头共计 13 毫秒的延迟。
雷达则能直接给出距离 / 深度 / 速度信息,而且多传感器的数据可以相互 「查漏补缺」。
在 P7 上形成了自己的感知架构之后,小鹏在 P5 上应用激光雷达,又在 G9 上将此前的前视线三目摄像头换成了双目摄像头 ——1 个窄视 + 1 个鱼眼。
「(随着)XPILOT 4.0 的能力更强,对摄像头分辨率的要求也在提升,因此该摄像头是在目前三目摄像头分辨率无法满足需求的背景下,实现更高分辨率的下一代产品。」 吴新宙对此解释道。
问题在于,目前 「市面」 上多传感器融合的开源算法较少。
因此,走多传感器融合路线,其融合算法将更依赖于各家自研、验证和迭代,期间必将形成各自不同的风格,但也缺少像视觉感知 「全世界多领域一起加速」 的优势。
而且,目前多传感器融合路线将导致车企与供应商强绑定。
与摄像头拥有标准的数据格式和通用数据接口不同,雷达和高精地图都还是 「非标品」。激光雷达还存在机械、固态、半固态的路线之争,数据格式和接口尚未形成业内统一的标准。高精地图也因各家图商不同,在数据标定方式、精度等方面有所差异。
由此,尽管车企普遍追求软硬解耦,但事实上在一些具有特殊性的传感器领域,换供应商便意味着对算法模型的改变。也导致多传感器融合路线的车企在供应商选择方面更为谨慎,不仅建立采购关系,甚至不少还建立了投资、共同研发的深度合作关系。
更难的在于决策算法
解决 「感到的是什么」,建立向量空间还只是开始。
AI 技术在深度学习的加持下感知能力不断增长,但仍欠缺 「思考」 能力:处理如条件概率、因果等复杂关系的能力,完成推理推断的任务。
这样的能力,在自动驾驶落地过程中,事关生死。
2018 年,Uber 的测试车辆出现了全球首例致死事故。美国官方报告显示,车辆在事故发生前 6 秒观察到了 「障碍物」,在前 1.3 秒判断出是自行车,需要采取紧急刹车。但 「为了降低汽车发生不稳定行为(舒适性不足)的可能性」,自动紧急刹车未启动,而采取缓慢刹车,加之安全员走神,最终导致事故发生。
这一案例充分显示了决策系统的重要性,尤其是在路况复杂,充满了博弈场景的城市路况中。
通用旗下面向 L4 级的自动驾驶技术公司 ——Cruise,在去年的技术日上给出了好决策系统的定义:及时性;交互决策(对其他交通参与者与车辆未来行动及产生的影响进行考虑);可靠性和可重复性(能够在相同场景做出相同的决策),由此输出安全、高效,老司机般的乘坐体验。
特斯拉在此前的 AI DAY 上明确了其决策系统的标准是安全、舒适、效率;
吴新宙向《电动汽车观察家》介绍,XPILOT 在难度更高的城市场景中的决策要素为:安全、可用性,以及好用性。
标准类似,但是要实现老司机般的操控表现却非易事。
在低速或简单场景下,决策算法会根据感知数据规划出一条无碰撞的安全路径,车辆按照指定路线运动。
但复杂的交通流和场景路况中,常会出现规划轨迹跳变、碰撞等问题。核心是由于决策算法对障碍物未来行为的预见性不足,算法仅依靠当前时刻的感知数据进行局部、而非全局路况求解导致。
因此,当车辆处于陌生又复杂的场景中时,往往会反复紧急制动或出现危险动作,「安全、高效、舒适」 的决策标准很难满足。
车辆进行自动驾驶时,一般一个交通场景中可能有上百个交通参与者与自动驾驶车辆发生交互,决策系统需要考虑场景中其他交通参与者未来的动作,投影预测的社会车各种行为,行成一个可行驶空间,然后搜索出轨迹。
其中,预测被认为是自动驾驶系统工程落地中最困难的一环。车辆不仅要了解自身与环境未来可能的各种动向,还要从无数可能中判断出最有可能的交通参与者行为。
为建立系统的预测能力,业内目前除不断地优化算法之外,还需要对 AI 在世界模型中进行自我监督学习。而特斯拉通过影子模式收集的、真实世界中海量的交通参与者行为,则成为 FSD 建立预测能力最好的教材。
去年的 AI DAY 上特斯拉展示过一个窄道会车的场景。自动驾驶车辆在开始时认为他车会继续行驶,因此靠右等待,发现他车也停下让行后,立刻前进了。

对此,一位自动驾驶规控工程师向《电动汽车观察家》表示,目前大多数自动驾驶公司无法处理这样的场景,往往会保守地选择停车让行,或与他车同起同停,造成碰撞风险。「但特斯拉可以很好的处理该场景,证明它的预测和决策配合非常好。」
即使有了 「预测」,「搜索」 也不容易。
自动驾驶车辆通常需要采样计算 5000 多条备选轨迹才能做出正确的决策。
但 「时间不等车」,决策规划算法通常运行频率在 10Hz-30Hz 左右,即每 30ms 到 100ms 就需要计算一次,而在这么短的时间做出正确的决策是一个巨大的挑战。
特斯拉 FSD 目可在 1.5ms 搜索 2500 次,通过对备选轨迹综合评价后选择最优轨迹。
但这样的做法在人车混流、道路结构复杂的城市路况中往往会导致超算(超出计算平台的算力能力)。
为此特斯拉引入了 MCTS 框架(蒙特卡罗树搜索),相较传统搜索方式效率提升了 100 倍以上。
MCTS 可较为有效地解决一些探索空间巨大的问题,例如一般的围棋算法都是基于 MCTS 实现的。苹果自动驾驶专利和谷歌的阿尔法狗都有采用该方法。

目前,小鹏尚未透露其决策算法所利用的模型类型。不过吴新宙向《电动汽车观察家》表示,在城市场景,由于交通参与者的不同和场景的复杂程度,对于预测、规划和控制有完全不一样的要求。所以,小鹏对定位、感知、融合能力是在高速场景的基础上做了大幅增强。
「对于决策部分,我们引入了一套全新的架构,来满足城市 NGP 更高的要求。这部分架构也有非常强的反向兼容性,所以我们也期待未来在 XPILOT 3.5 上,我们的高速和停车场场景也能受益于这套新的架构,给用户更好的体验。」
小鹏如何在全球追赶特斯拉
特斯拉 FSD 早晚在中国开放,而小鹏汽车智能驾驶也要走出中国。两方早晚正面对战。小鹏能否在东半球,乃至全球和特斯拉一战?
真正给何小鹏叫板特斯拉信心的,是小鹏汽车从 2020 年完成的端到端全栈自研体系能力。
打造自己的算法数据闭环
何为全栈自研?
吴新宙向《电动汽车观察家》表示:小鹏汽车的 「全栈自研」 不仅是自研车端的视觉感知、传感器融合、定位、规划、决策、控制等方面(的算法)。
还包括云端数据运营所需的一系列工具和流程。
即数据上传通道、前端数据上传实现、云端数据管理系统、分布式网络训练、数据采集工具开发、数据标注工具开发、软件部署等方面实现自研。
「由此形成数据和算法的全闭环,为快速的功能迭代打下坚实的技术基础。」
区别于逻辑判断算法模型依赖于工程师有多聪明,自动驾驶系统主要采用的神经网络算法模式具有 「基于数据成长」 的特性:算法是在前期数据收集、中间数据存储与迁移,后期核心数据的训练与管理,所形成的数据流中逐渐成熟的。
算法由数据推动迭代,迭代算法又带来新的数据,系统能力的提升本质上是在数据中循环往复的过程。
在这一成长闭环当中,任何一个环节加以他人之手,都将影响企业 「自己的」 自动驾驶系统迭代升级的速度和质量。
此前传统汽车产业中是没有 「自己的」 节奏的。主机厂虽然占据产业链的强势位置,但车型迭代周期更多受限于零部件供应商技术和商业的节奏。直到特斯拉打破了这一行业惯例。

2016 年 6 月发生的 Model S 死亡事故中,何时通过视觉方案实现 AEB(紧急制动)的时间分歧导致了特斯拉与 Mobileye 彻底 「分手」。
对于事故车辆没有启动紧急制动(AEB)功能,Mobileye 首席通信官 DanGalves 发表声明称:「目前(2016 年)AEB 被归入躲避追尾事故系统,(因而无法应对前方横向出现的车辆)。不过 Mobileye 将会从 2018 年开始带来道路侧向转弯 (LTAP) 检测功能。」
但特斯拉即不愿意等到 2018 年,也不愿意走 Mobileye 所擅长的传统视觉感知路线。
于是,才刚成立一年的特斯拉视觉感知自研软件算法小组 Autopilot Vision(TV)和机器学习小组,在 2016 年 10 月 「强行」 顶替了 Mobileye 的位置,并在年底确定了 AI 视觉感知的技术路线。
上线之初,TV 并未完成 AP 软件端所有的应用开发,包括 AEB、防碰撞预警、车道保持、自适应巡航等关键功能缺失数月之久,还用毫米波雷达干了一段时间 AEB 的 「活儿」,导致众多 「幽灵刹车」 的案例产生。
直到 2017 年 4 月,特斯拉推送 V8.1,自研的 AI 视觉算法能力追上了 Mobileye 为支撑的 HW1.0 时代,就此开启了汽车产业从未有过的迭代速度,并 「逼迫」 全行业 「追赶」 起了特斯拉的节奏。
小鹏是全行业第一个从全栈自研,而非仅仅是功能层面,追赶特斯拉节奏的车企。
2018 年,通过小鹏 G3,XPILOT 2.0 正式产品化落地,实现了端到端自研数据闭环的自动泊车系统量产;
2019 年在小鹏 G3i 上搭载的 XPILOT 2.5 系统在泊车之外,实现了 ALC 自动变道功能。其中,小鹏自主研发了最底层的线控、路径规划和控制部分算法,感知算法仍依赖于供应商提供;
2020 年,小鹏 P7 和 XPILOT 3.0 一同亮相,可实现 NGP 和停车场记忆泊车功能,至此小鹏第一次完成了深度的软件全栈自研,建立了自己的视觉感知能力、驱动感知进化的数据闭环体系、高阶辅助驾驶算法和软件架构的落地,成为全球第二家实现自动驾驶系统全栈自研,算法、数据闭环的车企。
「与非自研相比,采用‘全栈自研’模式在组织、人才、研发投入上肯定都更重,但是优势也是显而易见的。」 吴新宙表示。
掘金全栈自研
优势确实显而易见。
仅从高速导航领航功能来看,小鹏 NGP 于 2020 年落地;蔚来虽然略早几个月,但仍是基于 Mobileye 半自研产品;理想则在 2021 年 9 月升级后才将该功能落地。
而包括极氪 + Mobileye(ZAD)、极狐华为 HI 版(华为 ADS)、智己汽车 + Momenta(IM AD)、哪吒汽车(华为 + 地平线)、零跑汽车(Leap Pilot)等品牌虽然都有 L3 级高阶智能驾驶能力的计划,但仍与小鹏存在相当的时间差。
跟 「自己比」,小鹏也进步迅速。

2020 年,小鹏 P7 在自研方案之外,还采用了 1 个前置摄像头和一个英飞凌 Aurix MCU 2.0 为主的智能控制器作为冗余方案,其感知和决策算法也来自博世。到 2021 年的 P5 身上,这套来自第三方的冗余方案被取消了,P5 只了搭载英伟达 Xavie 平台,而且增加了激光雷达作为传感器。
按照计划,小鹏将在算力为 30TOPS 的英伟达 Xavie 平台上实现 XP3.5 最核心的城市 NGP 功能。同样实现这一高阶驾驶辅助功能的特斯拉 FSD 芯片算力则为 144TOPS。
「(全栈自研)锻炼了团队的极致工程能力,在有限的算力下实现了相对复杂的功能落地。」 吴新宙向《电动汽车观察家》表示:「从 XPILOT 3.0 到 3.5,再到未来的 4.0 和 5.0,小鹏的技术路线是非常有延续性的自然演进。」
效率竞争
殊途同归。小鹏虽然已经走上了与特斯拉颇有分歧的技术路线,但两者的路径和目标却是一致的:通过全栈自研,实现量产自动驾驶技术。
在吴新宙看来,面向这一目标的较量其一在于数据量,其二则在于正确的网络架构。
「特斯拉目前的网络架构,对于体系能力有很高的要求,无论从数据的获取,标注和训练来看,其它厂家在体系能力的建设和投入上和特斯拉有巨大的差距。」
数据量方面,特斯拉目前在全球范围内无人能敌。
特斯拉人工智能总监 Andrej 在 CVPR(IEEE 国际计算机视觉与模式识别会议)2021 上表示,截至 2021 年 6 月底,特斯拉拥有百万量级的车队,已经收集了 100 万个 36 帧 10 秒时长的高度差异化场景视频数据,约占用了 1.5PB 的存储空间。获得了 60 亿个包含精确深度、加速度的物体标注,共进行七轮影子模式迭代流程。
这一数据规模,不仅小鹏与特斯拉相去甚远,即使是一众自动驾驶公司也难望其项背。去年 10 月,Waymo 公布的最新数据中,累计路测里程达到 1000 万英里。特斯拉截至去年 6 月的数据则为近 1500 万英里,其中 170 万英里在 Autopilot 启动情况下收集。
数据是自动驾驶系统算法模型迭代成长的燃料。而特斯拉已建造了一套高效的数据闭环体系,将这些海量数据加工成 「无烟煤」。

在百万辆级的车队基础上,特斯拉通过 「影子模式」 有针对性地搜集海量 corner case(罕见特殊的长尾场景)场景数据,以及人类司机在该场景下的操作数据为神经网络提供质量更高的半监督学习或监督学习引导;
这些原数据需要被标记出各类特征之后,才能作为神经网络的学习素材。
此前,这类非结构化数据依赖大量人工标注,属于劳动密集型产业,各企业多将工作外包给第三方。但第三方标注具有效率低、反馈慢等痛点,导致标记、分析、处理训练数据的延迟较高。
特斯拉自建超过一千人的数据标注团队,分成人工数据标注、自动数据标注、模拟仿真、数据规模化四个团队,技术层面已经完成了从 2D 标注到 4D 标注和自动标注的进阶,自动标注工具可以通过一次标注就实现所有摄像头多视角、多帧画面同步标注,同时也能就时间维度进行标注。
自建数据标注体系之后,特斯拉还自建了数据的训练场—— 由 3000 个特斯拉自研 Dojo D1 芯片组成的算力高达 1.1EFLOP 的超算集群,与与谷歌(1 EFLOP)和商汤(1.1 EFLOPS)同为当下世界第一的算力梯队。
而且相比谷歌、商汤的通用性超算集群,Dojo 在设计上更专注于视频处理,对特斯拉自动驾驶系统模型训练更具有针对性,并由此有效降低算法成本。
「我们认为,体系的差距比数据的差距更重要,小鹏过去几年一直致力于自己的体系能力建设。复杂系统工程在终端呈现的结果也并不是单一变量决定的,还是要看整体设计与硬件匹配的程度。
后续,我们也会持续在算法优化和传感器选型或者变更上做好平衡,用合适的硬件做出更高阶的辅助驾驶能力,并持续向自动驾驶演进。」 吴新宙向《电动汽车观察家》表示。
小鹏的机会点
效率和成本,是任何产品能够成功实现大规模量产的决定性因素。而特斯拉建设这套增效降本的数据闭环体系不仅依仗自身的技术能力,而且也与其强大的资金实力息息相关。
2021 年,特斯拉的研发费用约为 168 亿元(25.91 亿美元,6.5 人民币 / 美元)。相比之下,小鹏为 41.14 亿元,长城为 90.7 亿元。
但这并不意味着小鹏在与特斯拉量产自动驾驶的下半场竞赛中全无胜算。
朱晨向《电动汽车观察家》表示,相比于特斯拉完全从技术公司的角度出发的产品思路,小鹏在推出产品功能时候,更多思考的是能否结合中国的适用场景,真正给车主的生活带来帮助。
而更适合中国用户需求的功能则有助于小鹏在中国销量的规模化,从而实现真正意义上,XPILOT 的量产落地,并帮助其建立起中国场景下的数据及体系优势。
2020 年,FSD(特斯拉完全自动驾驶系统)在华购买率只有 1-2%,低于北美 10%-15% 的比例(外媒测算)。2021 年 Q4,Model 3 车型上的 FSD 搭载率,在亚太地区为 0.9%,欧洲和北美则分别为 21.4% 和 24.2%。(长期关注特斯拉的博主 Troy Teslike 统计数据)

截至去年三季度末, 与特斯拉 Autopilot 加强版功能相似的 XPILOT 3.0 激活率近 60%。吴新宙未透露小鹏的数据获取模式,但表示 「世界的先进经验都会学习。」
在算力和道场方面,小鹏目前可借助的 「外力」 丝毫不弱。
小鹏 G9 将搭载 XPILOT 4.0,其上应用 508 TOPS 的 英伟达 Orin-X 芯片,和千兆以太的高度集成域控制器。而且英伟达今年发布的 AI 训练服务器 EOS 算力高达 18.4 EFLOPS。
而且小鹏相较于特斯拉对场景的把握能力已经开始显现。
今年 3 月,小鹏汽车推送了 Xmart OS 3.1.0 版本,实现了长达 2 公里的 VPA-L 跨楼层停车场记忆泊车功能。几乎是同期,坊间传言特斯拉正在研制 「Smart Park」:在有司机的前提下,车辆自动停在 「最接近门边」、「在购物车出口附近」、「停车场末端」 等指定位置。从功能描述上,Smart Park 与记忆泊车非常类似,领跑者与追赶者位置倒置。
在更远的海外,正如何小鹏此前所说:「我们会相遇的。」