关于特斯拉的认知（二）- 自动驾驶技术

在朋友圈里我曾引用过一段话：「一个有长期价值的公司应该要长期投资随着时间的推移而越来越有价值的一些内核，这些内核可到达的理论瓶颈应该远在现有的解决方案之上，然后通过长期积累逐步追上和远超现状，从而产生巨大的价值。」

这一篇我们来聊一聊，在特斯拉的所有能力中，有几个比较大的核心点是值得长期投入的。

自动辅助驾驶技术

我在使用过 Model 3 的自动辅助驾驶功能之后，给我带来最大的震撼是自动驾驶技术离我们如此之近，真的近在手边。

我所在的行业就是自动驾驶行业，对于自动驾驶的技术的成熟度是有一定判断的，从纯技术的角度理性地判断是自动驾驶技术离我们实际应用还很远，要拿出一个 L4、L5 可以完全自动驾驶的方案，短期几乎是看不到任何希望的。

但从另一个用户体验的角度来说，如果实现不了 L4、L5 级别的自动驾驶，那么实现 L2、L3 级别的自动驾驶有没有价值呢？这也是颠覆了我之前认知的一点，我的答案是，有价值，而且带来的价值还不小。

很多时候判断一个产品好还是不好，只是泛泛看一眼和读文章是无法给出准确判断的，唯有亲身试一试才可能得出相对接近正确的答案。所以这里我抛开一切技术，只谈体验和感受，体会产品。

从用户体验角度而言，现在特斯拉的自动辅助驾驶技术基本可以做到在任何路段，随时开启使用，但是遇到路口需要转弯的时候，或者主辅道切换的时候，仍然需要人来接管驾驶。

我认真地观察过，路口转弯和主辅道切换，占实际驾驶时间大概不到 10%。那么是不是意味着其他时间都可以使用自动辅助驾驶呢？其实不是，因为在路上还有一些别的不可控因素，中间需要不断地人工干预，比如车道线不明晰、其他车道的车压线、距离太近自动超车用不了的时候。

理性主观地来看，城市驾驶自动辅助驾驶的使用率大概能达到 50%-70%；而如果是长途涉及高速，使用率就能达到 80%-90%。

下图是一段非专业不严谨仅从使用者体验角度出发记录的自动辅助驾驶功能实际使用情况：

全程 122 分钟/自动辅助驾驶开启了 105 分钟/人开了 17 分钟

高速上自动辅助驾驶使用率约为 86%

如此高的自动驾驶辅助使用率，就意味着这个技术的普遍适用性已经挺好的了。从实际使用中感受到特斯拉应该可以做得更好，比如现在正在优化的城市红绿灯识别和全新的 FSD Rewrite Beta 版都是这项技术未来会变得更好的信心。

如果要给予一个公正的评价，我认为特斯拉的自动辅助驾驶技术是可以解放司机的一大部分的精力的功能，由原来的全程连续高强度的集中精力主动驾驶，改为全程间续低强度集中精力轮替驾驶。

这项业务值得长期关注的核心在于，这是少数能真正决定特斯拉复购率的功能之一。有价值的系统实际上是让人在使用过程中越来越习惯于依赖这套系统的，自动辅助驾驶的体验让我感到他应该有这个潜力。现在让我开没有这套系统的车，我会有些不习惯。而且可以肯定的是，我绝对不愿意在没有这套系统的情况下开长途。

长期向 L5 自动驾驶演变的可能性

如果特斯拉自动辅助驾驶技术是一个核心，那么关于这个核心技术的长期演进问题也应该被关注起来，也就是这项技术的适用性和稳定性的提升空间大不大。

另外，随着这个技术的演进会给特斯拉带来另外一个更大的价值点，那就是向 L4、L5 级别自动驾驶演进的可能性。就像上面说到的，站在现在来说可能还无法判断 L4、L5 技术成熟的时间点，也不知道具体未来会以什么样的技术路线实现的。

所以这里不做定性的判断，还是回到特斯拉的实际动作来深入剖析其向 L4、L5 演进的可能性。

从传感器的设计上来看，特斯拉奉行的自动驾驶技术路线是纯视觉路线，与大部分其他自动驾驶技术公司的激光雷达混合视觉技术路线不一样。

准确地说，特斯拉的使用了摄像头、毫米波雷达和超声波雷达。其他自动驾驶技术公司使用的是激光雷达、摄像头、毫米波雷达和超声波雷达。

从定位技术上来看，特斯拉使用的是 GPS 结合实时生成局部地图的路线，而大部分其他自动驾驶公司使用的是 GPS 结合高精度地图的路线。两者的差别在于，高精度地图是需要提前采集录入的。

实际上特斯拉所坚持的技术路线是有一套他自己的说法的，特斯拉认为要实现自动驾驶只要按照人类开车的模式来做技术演进，最终就可以达到 L4、L5 级别的自动驾驶。所以，无论是传感器设计还是定位技术，特斯拉采用的都是类「人」的路线。

仔细想想，首先，人开车是依靠「睛」来看路的，所以特斯拉采用了「摄像头」来实现环境识别。再者，人开车从 A 点到 B 点，一般是用手机 GPS，然后临近路口的时候结合 GPS 的指示，再根据路牌来再次确认下一步该怎么走。

所以特斯拉也使用了 GPS，再利用摄像头在临近路口的时候生成局部地图来确定下一步的路径。特斯拉主打的技术本质上就是类「人」的路线。

那么特斯拉的这种技术路线是否有可能逐步到达 L4、L5 呢？在回答这个问题之前，我想再聊一下特斯拉是如何利用这套技术路线来改进自己的自动驾驶辅助技术的。

写接下来的内容心里还是比较忐忑的，主要鉴于我对人工智能的认知还在一个极为粗浅的水平上，很可能有不符合现实的描述或定义，也仍在不断补课学习以更新认知，错了的话还望各位海涵。

人工智能的发展历程主要经历了几个阶段，从最早的「符号主义」，主要是由人分析数据然后编写一段规则，由机器来负责执行。这就需要对问题进行人为的剖析，然后总结出一套规则写成代码。因为要对问题进行剖析，再写成代码，所以人工智能的应用范围很局限，于是这个阶段就遇到了瓶颈。

随着硬件计算能力的提升和方法论的进步迎来了下一个阶段，这一阶段的主流代表是「连接主义」，实际上指的就是机器学习，顾名思义是由机器自己用数据来学习其中的规则，然后自己再来执行规则。因为机器自己会总结规则，不再需要人为对问题进行深入剖析，到了这个阶段人工智能的应用范围就开始快速扩大了。

而「深度学习」则是延续机器学习的模式，但提高了这个模式的效率，将机器学习的层级数量提升上去，利用大量的数据来学习，可以解决更多的问题，也可以提高解决问题的准确性。

这个阶段人工智能的应用范围就可以扩展到一些更高难度的场景里了，比如，自动驾驶、自然语言理解等。

站在不那么严谨的角度来说，以上的人工智能技术演化路径中的核心是在于利用大量的数据来进行训练学习。

数据始终是技术进步不可或缺的一块，而无论是符号主义，机器学习，还是深度学习，本质上都是在提升利用数据的能力。

特斯拉如何利用数据进行学习

用摄像头数据进行训练

最新的特斯拉搭载了一个 Tesla FSD HW3.0 套件，由两套一模一样的芯片组组成，总算力是 144 Tops，而许多新造车势力上使用的 MobileEye Q4 方案的芯片算力为 2.5 Tops，特斯拉的算力是后者的 60 倍。

首先，可以判断 HW3.0 的算力很强大，再者，想想为什么要设计两套相同的芯片呢？按我的理解，一方面是作为运行芯片的热备份而设计，另一方面是为了在使用过程中能够记录分析数据而设计的。

记录和实时分析数据也应该非常消耗计算资源，为了不挤压运行芯片的资源所以用了一套平行系统来做分析运算。

基于摄像头为主的感知方案使特斯拉需要实时处理大量的连续图像，所以特斯拉的 HW 3.0 中的两颗主算力芯片是 NPU 芯片，NPU 是指嵌入式神经网络处理器，采用了「数据驱动并行计算」的架构，特别擅长处理视频、图像类的海量多媒体数据。

特斯拉收集摄像头数据来训练自己的系统。至于具体是在本地进行训练，还是上传回云端进行训练，我认为不太可能是本地训练，因为本地要进行深度学习训练一方面占用非常大量的运算资源，另一方面训练出来的数据也不可能不经过测试就融入到现有版本里去。所以，大概率还是传回云端进行训练，本地只做数据收集和做一些特征简化的工作以压缩传输数据的大小。

影子学习模式

由于特斯拉是世界各个地方真实跑在路上的车子，那么就可以用摄像头记录下在驾驶过程中人开车的轨迹，同时 HW 3.0 套件可以利用摄像头数据在现有的自动辅助驾驶版本下模拟出机器的规划轨迹，这样就可以实时对比「人」和「机」的决策。这就是特斯拉的影子学习模式。

Dojo 深度学习系统

Elon Musk 在去年首次提出了一个 Dojo 深度学习系统，这是特斯拉训练数据用的一套系统。但外界对其了解甚少，只能从 Elon Musk 的只言片语中了解到，这是一个超级计算机，专为深度学习而建的训练系统，建成后能够大幅提升现有的数据训练效率，能够加快自动辅助驾驶技术的演进。按我理解，这套系统就是前文说的云端训练系统。

而特斯拉现在面临一个更大的问题就是数据过载，虽然数据是改进技术最重要的一块，但是如果数据多到处理不过来了那也就会限制改进技术的速度。所以特斯拉也在为面临的大量数据过载问题开始想解决方案。

要理解为什么数据会过载，就需要了解一下机器学习的过程中数据是如何被应用的。现在的绝大部分深度学习系统中的数据，实际上是需要人工标注后再投喂给机器去学习的，这种人工标注的质量将影响机器学习的质量，而如果整个学习过程中必不可少地涉及到人工就意味着质量和速度的不确定性。

如果说人工标注在特斯拉车辆总行驶里程 1000 万英里的时候还勉强能够达到要求，那么在里程规模达到 1 亿英里的时候就几乎无法再使用人工标注完全部数据了，更不用说现在特斯拉每年累计的数据量大约是在 50-100 亿英里。

特斯拉现在的解决方案是开发一套 Operation Vacation（运营的假期，很形象）的自主标注技术，来实现大量数据的标注自动化。

同时，特斯拉目前也在数据训练量上做了一定限制，只上传异常数据做特殊训练。但 Operation Vacation 能否成功搭建出来，这个问题当前还无法回答，因为标注自动化应该非常困难，实现自动化的本质就是要这套标注算法达到「人」的标注水平，但这看起来是不是更像一个悖论？

就目前来看，特斯拉拥有如此庞大的数据资源给了他许多基础优势，在利用大量数据方面也应该是走在了很多公司前面的，但如何进一步更高效地利用奔涌的数据成了挡在特斯拉通往实现更流畅的自动辅助驾驶道路上的一块大石头。但以目前的自动驾驶辅助体验而言，已经能够给用户带来不错的价值了。

至于能不能用类「人」的技术路线演进，最终去掉方向盘达到 L4、L5 级别的自动驾驶就不容易判断了，不过，我认为如果能够通过不断学习来无限接近「人」的水平，那还有什么事是做不到的呢，所以我更倾向于认为通过这种技术路线达到 L4、L5 级别自动驾驶的可能性是存在的。而且，特斯拉在逐步接近 L4、L5 过程中的阶段成果也无疑是有助于 L2、L3 体验的进一步提升的，这些都将进一步增加特斯拉的壁垒和其长期价值。