百度 Apollo 汽车智能化专题分享会干货汇总

孙迅《Apollo-Lite：纯视觉智能驾驶技术》

面向高级别自动驾驶发展有两种不同路径：

以 Waymo 为代表的整车 Service。像 robotaxi 直逼限定区域 L4 级别的自动驾驶，这种方案的特点是重依赖激光雷达，同时高精地图的依赖也比较重。优势是快速搭建系统原型，对数据和专业性的依赖相对较弱。劣势是成本和扩展性。
以Tesla以视觉为主的智能驾驶方案，依托数据的积累，通过渐进式的方式，从辅助驾驶逐步切入到自动驾驶能力。从方案上以摄像头为主，传感器，对地图的依赖很轻。优势是成本及扩展性，劣势是难度，纯视觉自动驾驶天生有很多难度。

基于对传感器的认知判断，在高级别自动驾驶传感器选型上，激光雷达和摄像头不是排它的，也不是从属的，有各自不可替代的作用。

对百度激光雷达来说，选择做市场做的事情，拥抱合作伙伴是我们的态度。对摄像头来说，天生有着图像信息量大、信息挖掘难，对人才、算法、数据都有非常高的要求。

百度会持续地投入做基于视觉的智能驾驶技术，目标是攀升珠峰，助力智驾产品落地，储备低成本可量产的智能驾驶技术。

技术进展：

视觉感知—环境模型

建模包括环境里的元素，要感知环境里的障碍物，实现 360 度无死角 3D 障碍物估计，特殊障碍物检测冗余机制。场景语义，需要定义红绿灯、车道线、定位元素、可行驶区域等。场景几何建模，需要知道路面的模型、道路结构。

视觉感知—技术难题

1.计算量很高。图像的数据是 1080P，10 路相机每秒输入进来光是处理数据就是 1GB，相比雷达数据的扫描点是非常大的输入，需要设计并行度高、高效率的计算框架。

从图像获取 3D 障碍物有天然的被动测距难题，这是计算机视觉里的经典难题，签约数问题。
数据规模。针对视觉特点，表观信息非常有歧义性，不同的视角、光照、纹路、颜色都是新的样本进行学习，需要非常大的数据训练规模。

王阳《ACU：软硬兼备的自动驾驶量产方案》

自动驾驶都在不停地飙算力、飙硬件、堆规格。现在量产的方案有喊到上千 TOPS 的，看 robotaxi技术，新平台无论从传感器、计算单元是指数级的飙升。

在这种情况下不免提出一个问题，什么是算力的边界？如果算力不够的情况下能不能做出好的产品？

1983 年发售了两个很跨时代的产品：一个是任天堂的红白机，一个是乔布斯在苹果第一个任期里最明星的产品 Apple IIe，价格一个 100 多美元，一个是 1,000 多美元。

为什么 1,000 多美元的 Apple IIe (在游戏上)完全没有 100 多美元的任天堂的红白机好？为什么便宜的东西反而能打造出效果？在 30 年前计算的水平还能够给大家带来这么好的产品体验？相信现在大家也是愿意玩任天堂的，其实就是异构计算架构。

最近 DSA（Dynamic Site Accelerator）非常火，领域相关的计算加速，讲的就是这一点。

回到自动驾驶，如果你想把自动驾驶的算法加速好，用尽可能小的成本实现极致的体验，你首先要对它的算法有和清晰的分类。我大概简单分了几类:

神经网络、深度学习是最主要的。
是和图像处理相关的，比如说 ISP 画质图例、裁剪缩放、拼接融合等传统 GPO 的功能。
传统的计算机视觉处理.传统的 SLAM 不是深度学习的功能，但也是一种算法。
是没法分得太细的其他部分，总体都是依赖于数学的行数、矩阵归到这一类的。

ACU产品路线图，产品路线是五代产品，分为三个平台：五仁、四喜、三鲜。

第一代产品 Zu5，算力 1.5 TOPS，可以做算力领域泊车运算。
第二代平台单 TDA4，8 TOPS 算力，可以做以泊车为主的应用以及简单的ADAS功能。
第三代四喜 Plus，双 TDA4 VM 16 TOPS，可以做高速 ANP 算力，每代都是在前代基础上累加新的功能。第三代除了泊车外，可以做高速 ADAS 泊车功能。
第四代 Orin-X 平台，除了高速外还做城市工况自动驾驶功能，但受限算力，有些极致体验需要在第五代平台 2*Orin-X 500 TOPS 算力平台上实现，这一代平台叫做尊享版，会配最高的传感器，实现全部自动驾驶功能。

拓冰《小度助手汽车版—领先一代的车载智能助手》

「车载小程序」解决方案的核心亮点：

更灵活

所有产品更新是免 OTA，车企 OTA 对车企来说是一件成本非常高的事情，经常说车要常用常新、随时更新，但往往除了 Tesla 真正做到常用常新外，主流车企屈指可数。背后是什么？可能是一系列严禁的流程、规范、车企安全、打通交付团队、产研团队到销售团队的一系列通路。真正实现 OTA 一年超过两次的车企，一只手都能数得过来。
小程序的服务本质上需要围绕用户需求快速迭代的产品，一定是云端的服务和架构。

更轻量

不影响用户车机的内存，所有的服务都是基于云端的，不像产生应用多装一个就占几百兆的大型空间。像把《阴阳师》装到车里，就要占 2G 成本。

更快速

整体小程序通过服务生态的方式，前端展示生态由云端统一控制，不需要做端上的适配和更新，完美解决多车型、多屏幕尺寸搭载的效率问题。

更优惠

通过一系列工具化组件，帮助小程序开发者快速捕捉到车的关键信号和数据，同时基于包装好封装好的 SDK 打造一款AI化、AI 赋能的 CP/SP 的服务，更紧密地合完整语音助手衔接。

百度小程序相对竞品能做到全场景语音闭环的统一，除了传统的打开/关闭外，可以实现所有小程序的所见即可说、一语直达，需要和共创团队、第三方CP/SP一起建立语音能力，传统的CP/SP不具备语音开发的能力，而百度在背后积累了很多标准化语义开发空间，让开发者快速实现语义的一语直达。

多媒体场景，是传统意义上缺乏关注的点，但恰恰是急需要颠覆的点。更多用户觉得在车上就是听歌，但更多用户的行为并没有思考怎样进一步改善：

最简单的例子是车机的FM，传统的FM是纯单向的沟通渠道，播什么我听什么，对节目的选取、内容、互动性非常差，经常发现用户需要给电台发微信、短信互动，这是非常传统的方式，亟待需要决定。

今年核心升级了多媒体产品——小度随心APP。希望在听歌的场景下小度助手真正成为用户个性化的AI电台主播，完全基于用户一系列用户行为、喜好，从你上车开始到下车，主动地推荐你爱听的节目，同时你跟节目进行互动的同时还可以跟一起听节目的周围车主进行云端互动，真正建立社交的品种属性。

比如说大家早上上班的时候都在北京的五环后厂村路堵着。你可以说都在五环后厂村路堵着的干饭人都喜欢听什么音乐？

背后核心依赖的是百度的核心技术，归总引擎。手机百度的Feeds流、推荐、好看视频、爱奇艺背后都依赖着百度归宗引擎的核心能。本质上利用用户在手百的全网数据，对用户数据进行沉淀、个性和推荐。

语音肯定是逃不了的话题，目前百度在多媒体场景下能实现相对于行业竞品最优最自然的语音对话能力，这一点是目前的核心压箱底的优势。

商业化：

这是每个做车联网从业人避免不了的话题。我们需要拿着 To C 产品的思维、考核模型验证 To B 的产品，商业化无非就两条选择的路径，一条是基于流量变现的模式，一条是基于价值变现的模式。互联网角度更多是流量变现，无论是淘宝、百度、抖音，本质上都是做流量变现，做广告，做分发。

但目前看这条路在车载场景相对早期。更倾向于的核心模式是价值变现，找到功能带来的实际用户体验提升的价值点，包括特斯拉、经常性软件服务、OTA 升级都被纳入到维度下。在现阶段无论是流量变现、价值变现一定都是产品驱动、用户需求驱动的，而不是纯运营驱动、纯流量驱动的事情。

信息来源：Apollo

孙迅《Apollo-Lite：纯视觉智能驾驶技术》

王阳《ACU：软硬兼备的自动驾驶量产方案》

拓冰《小度助手汽车版—领先一代的车载智能助手》

请截图后在微信扫码参与互动