AutocarMax

AutocarMax

2021-10-29

Subscription

后摩尔时代,谁来撑起 「国产算力」?

  1. 芯片
1,500

出行百人会旗下媒体,关注汽车出行产业链进化

作者:郑文

在计算机领域,最近有一个非常振奋人心的消息公布。

中国科学技术大学宣布,我国量子计算原型机 「九章二号」 研制成功,在量子计算机之路上迈出重要一步。量子物理学家、加拿大卡尔加里大学教授巴里・桑德斯认为,这是 「令人激动的实验杰作」。

那么,这个国之重器到底有多厉害呢?这个成功构建 113 个光子、144 模式的量子计算原型机算力实现了巨大的提升,求解高斯玻色取样数学问题,比目前全球最快的超级计算机还要快 10~24 倍。

什么概念?亿亿亿倍!「九章二号」 1ms 可以算出的问题,全球最快超算需要 20 万亿年。

一时间,「算力」 这个名词,在 「九章二号」 面前迸发出了强大的威慑力。

当我们后知后觉地去品味 「算力」 一词时,事实上它早已经完全浸入到我们的日常生活中。此时你通过手机阅读这篇文章,算力也正在运作之中。

进入网络世界,算力更高的高配置 PC,能够运行配置需求更高的游戏,和更吃内存的 3D 类软件;算力低的低配置 PC,就很难带得动大型游戏,卡顿、延迟,掉帧,成了家常便饭。

从大型机到 PC,从智能手机到可穿戴设备,算力成了人类能力的延伸。于是,一些眼光前瞻的人开始喊出 「算力改变世界」、「算力驱动未来」,此时,就到了我们去认识它、正视它、并学着去应用它的时候了。

《2020 全球计算力指数评估报告》显示,计算力指数平均每增长一个百分点,数字经济和 GDP 将分别增长 3.3‰和 1.8‰,中国 2020 年的 GDP 超过 100 万亿元,1.8‰就差不多约为 1800 亿元。

去年 2 月华为发布的一份《泛在算力:智能社会的基石》报告测算,我国目前人均算力约在 553 GFLOPS(Giga Floating-point Operations Per Second,每秒所执行的浮点运算次数),而社会智能化成熟阶段的人均算力需达到 29000GFLOPS 以上。这意味着,我国的算力规模至少需要再翻 52 倍。

这也不难理解,为什么有人会高举 「算力就是生产力」 的旗帜。

「算力军备赛」 枪声响起

在很多经典的应用创新场景中,都显示出了对算力的强大需求。一个数据很直观地体现了算力在场景应用中的困窘。OpenAI 的研究显示,2012~2018 年,人工智能模型训练上的算力需求在 6 年内增长超过 30 万倍,但芯片算力按摩尔定律同期仅增长 7 倍。

在汽车行业,随着智能化的发展,也进入到了一个芯片算力紧缺的阶段。同样地,它也成了制约智能汽车发展的一个重要因素。

「决定未来智能驾驶的功能和性能的是芯片。」

黑芝麻智能科技 CMO 杨宇欣在第三届全球新能源与智能汽车供应链创新大会上表示,「所有电子行业的发展都是从硬件先开始的,因为芯片决定了整个自动驾驶性能和功能的边界,如果硬件上不能支持的东西,软件是怎么也实现不了的,这个是技术规律。」

汽车架构由分布走向集中,催生对更高集成度的 SoC 芯片的需求。车用计算类芯片主要可分为 MCU 和 SoC 芯片。传统汽车分布式架构使用 ECU 算法,各项功能相互独立,所需算力 MCU 芯片就可以满足。

但是,在汽车智能化浪潮下,控制集中化已是大势所趋。产业链上的企业均向域控制、集中式控制发展。域控制器集成之前诸多 ECU 的运算处理器功能,一方面对芯片算力的需求大幅提升,同时也需要域内各控制部分相互协调,相应催生了对 SoC 芯片的需求。

对比以 CPU 计算为主的 MCU,SoC 芯片一般集成了 CPU、图像处理 GPU、音频处理 DSP、深度学习加速单元 NPU + 内存 + 各种 I/O 接口,功能更加强大,目前主要应用于智能座舱与自动驾驶领域。

然而,现实是当下许多计算平台的算力还不如一部 iPhone 7,真正意义上的自动驾驶汽车,则需要超过 500 部 iPhone 7 的算力。

以智能座舱举例。

目前智能网联迅速进化,2015 年智能网联功能的新车装载率仅 4.6%,到 2020 年这个数字直接上升到了 48.8%。如此高的装载量,消费者却常常感到体验不佳。在相关汽车调研机构的数据显示,抱怨中控屏反应迟钝的用户达到 56.5%,反应系统卡顿的用户达到 50.95%。算力支撑力不够,带来了很深刻的用户问题。

计算平台对算力的需求,很大程度上取决于感知系统的巨大升级,包括激光雷达、800 万像素摄像头的搭载,另外复杂系统或者 SOA 架构的实施也对计算平台提出了更高算力需求。

「自动驾驶等级每提高一级,对于算力就增加一个数量级,一般认为,L2 需要的算力 < 10TOPS,L3 是 30-40TOPS,L4 是 100TOPS 以上,目前对于 L5 所需的算力行业还没有明确定义。」 岚图汽车科技有限公司自动驾驶算法研发总监刘会凯在盖世汽车域控制器论坛上指出,目前计算平台的算力只能支持部分 L3、L4 开发的需求。

英伟达的预测也显示出算力的重要性,L4 级别的无人驾驶汽车在无法完全依靠优化算法的情况下,对车载算力约有 50 倍的提升要求;而 L5 级别无人驾驶汽车相对于 L4 级别预计约有 10 倍的算力增长要求。

在行业的快速发展下,很快 「算力」 继 「马力」 之后,成为评价一辆车的重要指标。2019 年特斯拉推出 HW3.0 芯片时,144TOPS 的算力一时间轰动行业,也掀起了 SOC 芯片算力的军备竞赛。

算力常用的两个计量单位一个是 TOPS(Tera Operations Per Second),1TOPS 表示处理器每秒钟可进行一万亿次(10^12)操作;另一个是 FLOPS(Floating-point Operations Per Second),表示每秒浮点的运算次数。使用时,FLOPS 前会有个字母常量,比如 TFLOPS、PFLOPS,T、P 代表次数,TFLOPS 表示每秒一万亿次,PFLOPS 表示每秒一千万亿次。

从全球竞争格局看,国际上高端车规级 SoC 芯片玩家以传统芯片与科技巨头为主。

英特尔以收购 Mobileye 的方式切入车规级 SoC 市场;英伟达是全球 GPU 龙头,全球市占率在 70% 以上,基于自身在 GPU 方面的优势,不断推进产品在汽车智能座舱与自动驾驶方面的应用;特斯拉不断加大自身在智能驾驶方面的布局,旗下产品 FSD 功能不断丰富、性能不断加强。

已经推出的大算力车规级智能驾驶芯片主要有特斯拉 FSD、英伟达 Orin 和 Mobileye Eye Q4 等。英伟达会在 2024 年推出一个 1000TOPS 算力的 SoC…… 研发出强大算力的自动驾驶专用芯片,正成为芯片巨头们搏杀的新赛道。

新时代英雄

当竞争渐渐向高阶自动驾驶递进,国产芯片公司需要用更强悍的芯片实力,去和英伟达、高通这样的老牌芯片巨头展开正面战争。

华为作为国产科技引领者,以自动驾驶系统核心零部件及解决方案赋能车企,目前车载 SoC 方面主要有 Ascend 310 和 Ascend 910 芯片。更重要的是,在此赛道中,国内也崛起了不少亮眼企业。

比如,分别推出满足当前主流算力需求芯片 A1000、征程 5 的黑芝麻智能和地平线,黑芝麻发布的 A1000 Pro 甚至已经是面向下一代的高性能大算力芯片。不论是黑芝麻和地平线的起飞,寒武纪的跃出,对于突破英伟达、高通等芯片巨头的封锁线,有着举足轻重的意义。

作为车规级芯片的国产制造商,黑芝麻智能的实力不可小觑,也是值得一提的独角兽。为什么这么说?黑芝麻目前在这个领域的布局比较超前,在全球范围内,能够提供高规格芯片的,除了国际供应商英伟达,另一家就是黑芝麻。

作为一家成立于 2016 年的年轻公司,黑芝麻智能一开始给自己的角色定位,就是专注于大算力自动驾驶计算芯片和平台等技术领域的高科技研发。

这样的定位,是非常具有前瞻性的。

根据艾瑞咨询的报告,未来高级驾驶辅助系统将是汽车半导体收入增长最快的领域,其中车载 AI 芯片(SoC 芯片)将发挥关键作用。根据 Global Market Insights 的数据,车载 AI 芯片市场规模预计到 2026 年将增长至 120 亿美元。

成立以来,黑芝麻智能坚持自研核心 IP,深耕人工智能、车规级芯片及自动驾驶三大领域,目前已经拥有较为完整的技术产品体系。

2019 年 8 月,黑芝麻发布首款车规级智能驾驶芯片华山一号 A500,算力为 10TOPS。在第一款芯片发布之后,黑芝麻的进步非常迅速。

去年 6 月,华山二号 A1000 发布,算力就达到 116TOPS,支持 L3 级自动驾驶系统。A1000 功耗约 8W。值得一提的是,在算力接近特斯拉的前提下,功耗却减少了一半有余。

就在次月,A1000 就获得了 ISO 26262 功能安全产品 ASIL B 认证,这是国内第一款通过安全认证的自动驾驶计算芯片。

在行业标准中,ASIL 等级定义了对系统安全性的要求,共分为 A、B、C、D 四个等级,严格程度依次递增。ASIL 等级越高,对系统的安全性要求越高,也意味着等级越高,系统设计的复杂程度越高,开发周期越长,开发成本越高。

今年,黑芝麻算力再次升级,发布华山二号 A1000 Pro,算力最高可达 196TOPS。是当前国内算力最高、性能最强的车规级芯片之一。

A1000 Pro 基于上一代 A1000 核心进行设计优化和提升,采用业界创新先进封装工艺集成多个核心,解决了在 16nm 工艺下支持超大规模深度学习引擎的难题,开创了自动驾驶芯片的先河。内置高性能 GPU 能够支持高清 360 度 3D 全景影像渲染,覆盖 L3/L4 高级别自动驾驶功能。

目前,A1000 Pro 已经宣布流片成功,预计最快在 2022 年底实现车型量产上市。A1000 Pro 满足的 ISO 26262 功能安全产品认证,直接达到 ASIL D 级别。

以上的芯片介绍中,除了涉及到非常多的算力,还有两个重点信息:车规标准与性能。车规标准已经有了解释,而关于性能还需要重点提一下。

对于自动驾驶芯片来说,不能仅仅看算力,能效比也是一个重要的评价指标。高能效比不仅能够为汽车节约大量的电力,还能产生更少的热能,有助于芯片模组的散热与高性能稳定运行。也就是说,能效比高的芯片,算力就能有更极致的发挥余地。

它就是杨宇欣所指的核心算力,「关于芯片的核心算力,指的并不是 TOPS 算力,而是芯片的 CPU 算力。TOPS 是用来深度神经网络加速的,GPU 的计算会考验一个芯片综合的计算能力,如何把强大的性能带到在终端领域对性能需求最高的汽车上。」

黑芝麻的芯片性能是非常突出的。单颗 A1000 芯片适用于 L2 + 自动驾驶、双 A1000 芯片互联方式支持 L3 级自动驾驶(算力达 140TOPS)、四颗 A1000 芯片则可以支持 L4 甚至以上的自动驾驶需求。

保证高算力、高能效的原因,来自于黑芝麻智能自主开发的两大核心 IP:NeuralIQ ISP 图像信号处理器和深度神经网络算法平台 DyanmAI NN 引擎。杨宇欣形象地介绍:NeuralIQ ISP 图像信号处理器可以让汽车 「看得清」,DynamAI NN 引擎可以让汽车 「看得懂」。

杨宇欣是一个理智的乐观主义者,在他看来中国车规级芯片产业还处于发展初期,黑芝麻智能要面对的挑战是不断突破技术瓶颈,并且要不断提升产品的安全性和可靠性。但他依然认为,自动驾驶车规级芯片国产化的道路充满光明和希望。

像杨宇欣这样为国产高算力芯片努力并抱着强烈希望的人还有很多。「英伟达不是规则的制定者,它有的是大家围绕 CUDA 的使用惯性。」 燧原科技 CEO 赵立东一直呼吁,「高举高打,创业做最高端的芯片!」

黑芝麻等诸多初创公司筚路蓝缕的努力,对于国产芯片的发展难能可贵,更极其重要。正如国家最高领导人所说,新时代是需要英雄,并一定能够产生英雄的时代。在芯片领域开疆拓土的新时代,他们也将成为新的时代英雄。

本文著作权归作者所有,并授权 42 号车库独家使用,未经 42 号车库许可,不得转载使用。
Comment · 0
Owner: 0
Sort by like

Upload
大胆发表你的想法~
1
Comment