最近小鹏CNGP【无图】城市导航辅助驾驶工程版落地测评引起了全网讨论,10点30加班完回到家,在这里我简单讲一下我对CNGP【无图】落地的理解,以QA的形式展开,讲的不对的地方请大家批评指正:
Q1:为什么要用【无图】,是单纯没有HD MAP还是连【先验信息】都没有?
A1:各家媒体测试的结果都指出,现阶段小鹏CNGP工程版确实可以不依赖高精度地图和先验信息去跑城市导航辅助驾驶,在北京城市核心区域确实也是没用高精地图,如果有高精度地图其实表现会更好——这里从在某些大路口、转弯(视觉感知受限情况下),路径规划的【试探性】行为可以直观证明,如果有【高精地图】完全不需要做这种【试探性】行为;
Q2:现阶段的CNGP感知距离远还是【人类老司机看得远看的准】?
A2:根据小鹏媒体信息指出,该版本CNGP感知距离纵向提升了150%,横向提升了200%,覆盖范围达到了1.8个足球场。

从媒体视频上可以看到,尽管感知范围大幅度提升,但是在视野受限场景、超复杂场景下的感知仍然有提升空间。在这里如果是一位人类老司机,在天气良好且无遮挡情况下,在城市内至少可以向前看到超过300米的感知范围,结合我们人类司机的【先验信息、道路记忆】,可以超提前对占道车辆、事故车辆进行绕行,乃至进行复杂的路径计划——这里也提出我先前提到的一点,仅靠我们的人眼感知和计算系统在陌生的城市道路因为没有【先验信息】并不能比现阶段的CNGP开的更好;但是人类感知系统有2个不足:1. 我们针对大量交通参与者并不能进行完全同等程度的移动预测,这也是我们经常会出现开着开着突然发现一个车可能会和本车碰撞后背吓一跳,我们一般同时只能对前方交通参与者数量不超过5个进行同时识别、追踪,而机器视觉感知可以通过算力的提升同时追踪远超过人类感知系统的上限【这里又要降到Working Memory的容量,不展开】;2. 因为我们只有一双眼睛,先天只能感知前方的交通参与者,对于两侧和后方需要后视镜/转头等方式去感知,因为相较于机器具有360度【上帝视角】,人类驾驶员这方面的先天缺陷急需例如(变道辅助、盲区显示、流媒体后视镜)等技术进行增强,这也是CNGP相较于人类驾驶员较大的优势
Q3:小鹏CNGP是否需要针对不同城市的道路结构规律进行提前学习?【无图】CNGP是否意味着可以无条件复制到所有城市?
A3:需要,因为不同城市道路特征规律是完全不一样的,即道路的拓扑结构规律不同。简单的理解,我们人也是在从新手驾驶转向老手驾驶,因为不经意之间可能存在违章、学习等方式,不断学习本地城市的道路拓扑结构特征规律。在用一个更简单的例子:杭州天目山路所有的左右转都是需要提前一个路口进辅道进行操作的,以前电子导航还不够发达的情况下,新手司机和外地司机进一次坑一次;而在这种情况下,仅仅靠BEV感知去做路径规划是不一定够的,因为提前进辅道可能意味着你需要在拥堵环境下感知到前方几百米的道路结构信息,而SD导航地图也只能给你信息需要进辅道再转,因此通过对于杭州城市道路结构拓扑信息的训练学习,CNGP可以跟高效的去【猜测、脑补】感知外部的道路信息,进而提升对于城市导航辅助驾驶在复杂道路结构情况下的表现。这也是【何小鹏在业绩会上表示,除了在第一批城市首次推送不依赖高精地图的XNGP外,10月将通过OTA给用户带来更多惊喜,无图XNGP预计年底落地50城。】需要通过不同城市的道路特征学习。在用一个更加形象的例子,杭州对于礼让行人的要求非常严格,很远的行人在那里你就必须减速等待行人通过,这种不同地域之间的交通细分规则也是CNGP需要去学习的重要组成部分,因此CNGP推送到更多城市的前提是小鹏智驾团队针对不同城市进行感知、规控、决策的特调——用人类驾驶员类比就是需要将现在这个在杭州还是新手司机的CNGP训练成一个已经在市区穿梭好几年的老手司机。

【无图意味着在实时感知过程中部分信息是很难感知/延后感知】
Q4:现在Max版带激光雷达的可以实现城市导航辅助驾驶,那Pro版是否可以实现?
A4:我个人理解,至少现阶段Pro版本硬件无法直接落地城市导航辅助驾驶。这里主要是因为机器视觉感知和人类视觉感知的还是存在很大差异,我们人类视觉感知具有更强大的语义识别和针对不同【威胁等级】交通参与者的精准识别。举个例子:开车在丛林中穿梭,尽管汽车可能经常会碰到一些小的树枝、树叶,但是人类司机并不会特异去躲避这些障碍物,因为我们的语义理解知道这些【不规则障碍物】的东西是相对柔软可以不需要躲避;而现阶段机器视觉感知对这类障碍物的识别还是不够精准,因此Max在这种情况下可以用激光雷达通过点云数据进行一个前方感知的兜底。此外回想我们在高速驾驶过程中,我们对左右侧的距离感知的绝对精度是不是远小于在低速泊车事后的绝对精度,这也是我们人在驾驶车辆过程中先天存在的针对不同场景情况下,感知精度的自动优化(当然这也是我们人类先天不足被动产生的一种策略优化)。
Q5:现阶段CNGP与人类老司机驾驶对比中最大的不足在哪里?
A5:我虽然没有机会参加北京的试驾【哭】,但是仔细看了所有试驾媒体的视频后自己的理解:1. 相较于经验丰富的老司机,CNGP主要不足在于没有像【出租车司机】一样对视线受限情况下道路结构的清晰了解,这也是现阶段【无图】CNGP的先天受限情况,针对这部分缺少的信息,导致机器找到正确道路情况下留给决策的时间就可能就比较少,导致出现不舒适的行为决策,这个可以在CNGP后期迭代过程中不断提升针对本地道路信息的学习来不断逼近人类的老司机;2. 在Q4中也讲到的,针对不规则交通参与者/障碍物的感知、归类和测距,例如【Rocky提及对低矮路研识别可能需要进一步优化】,对于比如说【打了一把大伞可能只露出下半身的行人的识别】,乃至对交通参与者的意图的理解【一边打手机一边横穿马路的行人肯定不怎么会关注其他汽车】,这方面的学习我认为就需要一个较长的过程了。
Q6:为什么CNGP在城市里驾驶要像人一样去驾驶?
A6:回过头来看城市导航辅助驾驶是为了降低、解放人类驾驶的辛苦,而现阶段最重要我们居住的城市的交通是基于【人类司机】而设计的,无论是标识不清楚的路线、红绿灯、转向标识等等都是服务于人类司机而并非服务于自动驾驶,很明显以前提及的【车路协同】这个线路并没有很大的进展,而且如果针对城市道路信息进行适应机器化改造成本是不可估量。这也就意味着,如果想做好一个好的城市导航辅助驾驶乃至自动驾驶,就必然需要去学习、理解其他交通参与者是如何在这个复杂的道路系统中良好/不良好的运行,也就是你需要理解城市交通系统中所有和交通相关的静态信息,和所有和本车辆驾驶相关的动态交通参与者的轨迹、意图,才能让导航辅助驾驶系统在城市交通中穿梭自如,才不会被人吐槽是一个【移动路障】。

【但是未来机器的上限将远比人类更高】