技术积累|自动驾驶芯片调研

算力概念TOPS操作亿次每秒Tera Operation per s=10^12 TOPS=10^12 Tera
GOPS=10^9 Giga
MOPS=10^6 million
TFLOPS=float OPS 浮点操作算力
PFLOPS=10^15 千亿
1 alexnet:1.4GOPS 也是0.0014TOPS
2 Resnet152:22.6GOPS 也是0.0226TOPS
自动驾驶L3,4激光算法0.27TOPS,加视觉2.5TOPS。 3090GPU:35.7TFLOPS 300W
Xavier最高算力为30Tops,功耗为30W,
NVIDIA最新发布的GPUA100相比Volta架构的640个Tensor Core,A100核心的TensorCore减少到了432个,但是性能大幅增强,支持全新的TF32运算,浮点性能156TFLOPS,同时INT8浮点性能624TOPS,FP16性能312TFLOPS,同时功耗也达到了400W。
cpu算力MIPS(million instruction per second)80386:5MIPS 51:1MIPS 现如今CPU的频率越来越高,又是流水线又是超标量计算又是双核多核的,单纯以时钟频率来衡量计算机的速度已经不再科学,用MIPS来衡量相对比较合理。以ARM7为内核的S3C44B0X的推荐最高工作频率为66MHz,按照ARM公司提供的技术资料,ARM7类CPU的运算速度可按如下公式计算:MIPS=0.9×MHz,由此可得出,S3C44B0X的最大运算速度大约为0.9×66MHz=59.4MIPS。6M的51单片机通常是12 或24个时钟周期才能完成1条指令,乘法和除法指令更需要48个时钟周期。这样,我初步估算6M的51单片机的运算速度应该在0.2~0.5MIPS之间。可见8位机与32位机的运算速度还是有巨大的差异的。
技术积累|自动驾驶芯片调研
文章图片

AI芯片对比
四中芯片的对比 CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。
GPU 作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性:
第一,应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU 在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理,并行度的优势不能完全发挥。
第二,硬件结构固定不具备可编程性。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU 无法像FPGA 一样可以灵活的配置硬件结构。
第三,运行深度学习算法能效远低于FPGA。学术界和产业界研究已经证明,运行深度学习算法中实现同样的性能,GPU 所需功耗远大于FPGA,例如国内初创企业深鉴科技基于FPGA 平台的人工智能芯片在同样开发周期内相对GPU 能效有一个数量级的提升。

  1. FPGA是ASIC专用集成电路Application Specific IntegratedCircuit的一种半定制电路,既解决 定制电路的不足,又 克服原有可编程器件门电路有限 生产厂商:Altera(Intel收购)、Xilinx
  • 优点:可以无限次编程,延迟低,拥有流水线并行和数据并行,实时性强灵活性高
  • 缺点:开发难度大,只适合定点运算,价格贵
  • FPGA,其设计初衷是为了实现半定制芯片的功能,即硬件结构可根据需要实时配置灵活改变。研究报告显示,目前的FPGA市场由Xilinx 和Altera 主导,两者共同占有85%的市场份额,其中Altera 在2015 年被intel以167 亿美元收购, Xilinx则选择与IBM进行深度合作,背后都体现了 FPGA 在人工智能时代的重要地位。尽管 FPGA 倍受看好,甚至百度大脑、地平线AI芯片也是基于FPGA 平台研发,但其毕竟不是专门为了适用深度学习算法而研发,实际仍然存在不少局限:第一,基本单元的计算能力有限。为了实现可重构特性,FPGA 内部有大量极细粒度的基本单元,但是每个单元的计算能力(主要依靠LUT 查找表)都远远低于CPU 和GPU中的ALU模块。第二,速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距。第三,FPGA 价格较为昂贵,在规模放量的情况下单块FPGA 的成本要远高于专用定制芯片。人工智能定制芯片是大趋势,从发展趋势上看,人工智能定制芯片将是计算芯片发展的大方向。
  1. ASIC
  • 优点:它作为集成电路技术与特定用户的整机或系统技术紧密结合的产物,与通用集成电路相比具有体积更小、重量更轻、 功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。
  • 缺点:灵活性不够,成本比FPGA贵
  • 主要性能指标:功耗、速度、成本
  • 生产厂商:谷歌、地平线、寒武纪等
ASIC(Application Specific IntegratedCircuit)在集成电路界被认为是一种为专门目的而设计的集成电路。是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求,ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。简单地讲,ASIC芯片就是通过台积电等代工厂流片的芯片。目前,基于ASIC的人工智能芯片有地平线BPU、谷歌的TPU。
基于ASIC开发人工智能芯片开发周期较长。基于ASIC开发人工智能芯片更像是电路设计,需要反复优化,需要经历较长的流片周期,故开发周期较长。
量产后ASIC人工智能芯片成本及价格较低。虽然相较于FPGA, ASIC人工智能芯片需要经历较长的开发周期,并且需要价格昂贵的流片投入,但是这些前期开发投入在量产后会被摊薄,所以量产后,ASIC人工智能芯片的成本和价格会低于FPGA人工智能芯片。
ASIC芯片性能功耗比较高。从性能功耗比来看,ASIC作为定制芯片,其性能要比基于通用芯片FPGA开发出的各种半定制人工智能芯片更具有优势。而且ASIC也并不是完全不具备可配置能力,只是没有FPGA那么灵活,只要在设计的时候把电路做成某些参数可调即可。
ASIC人工智能芯片主要面向消费电子市场。ASIC更高的性能,更低的量产成本以及有限可配置特性,使其主要面向消费电子市场,如寒武纪等公司。
  1. 类脑芯片
    类人脑芯片架构是一款基于神经形态的工程,旨在打破“冯·诺依曼”架构的束缚,模拟人脑处理过程,感知世界、处理问题。这种芯片的功能类似于大脑的神经突触,处理器类似于神经元,而其通讯系统类似于神经纤维,可以允许开发者为类人脑芯片设计应用程序。通过这种神经元网络系统,计算机可以感知、记忆和处理大量不同的信息。类脑芯片的两大突破:1、有望形成自主认知的新形式;2、突破传统计算机体系结构的限制,实现数据并行传送、分布式处理,能以极低功耗实时处理大量数据。
    技术积累|自动驾驶芯片调研
    文章图片
1 Mobileye 以色列 成立于1999年,是以色列提供基于视觉系统分析和数据处理研发高级驾驶辅助系统和自动驾驶解决方案的全球先行者,为全球27家OEM厂和Tier1厂商提供“芯片+算法”软硬一体化的ADAS视觉解决方案
技术积累|自动驾驶芯片调研
文章图片

中国造车新势力小鹏汽车曾短暂地用Mobileye的芯片做过测试后决定在P7上改用英伟达的Xavier,主要因为小鹏希望“把芯片和算法剥离开,采用可编程的芯片,在芯片上进行算法研发和定制化,跟场景结合”,因此选择了更开放的英伟达。
2 英伟达Xavier, 2020Orin-10到2000Tops可选,台积电12nm,也有5~7nm https://zhuanlan.zhihu.com/p/143564936
3 瑞萨日本半导体厂商 4tops前融合算法就是在原始层把数据融合在一起,融合好的数据就好比是一个超级传感器,而且这个传感器不仅有能力可以看到红外线,还有能力看到摄像头或者RGB,也有能力看到LiDAR的三维数据,就好比是一双超级眼睛,在这双超级眼睛上面,开发自己的感知算法,最后输出一个结果层的物体。
技术积累|自动驾驶芯片调研
文章图片

4 德州仪器Jacinto DRA829V处理器 TDA4VM芯片 技术积累|自动驾驶芯片调研
文章图片

技术积累|自动驾驶芯片调研
文章图片

4 地平线征程系列 Journey https://zhuanlan.zhihu.com/p/383705163
技术积累|自动驾驶芯片调研
文章图片

奥迪、博世、长安、比亚迪、上汽 、广汽
量产了中国首款边缘人工智能处理器–专注于智能驾驶的 “征程(Journey)”系列
2019年8月,地平线宣布量产中国首款车规级AI芯片——征程二代。Journey 2芯片搭载地平线自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),采用台积电 28nm 制程工艺,每TOPS算力可达同等算力GPU的10倍以上,视觉感知可以实现识别精度>99%,延迟<100 毫秒。征程二代主要面向ADAS市场感知方案,可提供超过4 TOPS的等效算力,典型功耗仅2W。主要用于自动驾驶中对车辆、行人和道路环境等目标的感知,类似MobileyeQ系列芯片。
特斯拉FSD芯片 特斯拉属于汽车行业内Bug一样的存在,汽车、火箭、芯片等等,什么都都可以搞,而且做的还不差,特斯拉早期也是和芯片供应商合作,专心做整车,但是陆续发现芯片供应商不给力之后,便“抛弃”了Mobileye和NVIDIA,开始自研AI芯片,特斯拉在2019年4月发布了首款自动驾驶芯片FSD(Full Self Driving全自动驾驶),并且是直接以量产的形式发布,FSD被马斯克称为“世界上最好的芯片”, 这款芯片除了常规的CPU和GPU之外,还配备了两个神经网络处理器(NNP),算力为144TOPS,功耗72W,能效比2TOPS/W,就目前来说,确实是量产车最好的自动驾驶芯片。
细节见下面地址
https://www.auto-testing.net/news/show-107509.html
12.NVIDIA Xavier & Orin & A100 NVIDIA GTC 2020因为疫情原因在黄教主的厨房进行,此次发布了NVIDIA第八代架构Ampere(安培)、以及基于安培架构的第一款GPU A100。A100绝对是目前全球最大的7nm芯片,540亿个晶体管,3D 堆叠技术,加上高达 826 平方毫米的芯片面积,同时支持 TF32 和 BF16 格式,拥有438 个第三代 Te那个nsor Core,支持虚拟成为 77 个 GPU 来执行不同的任务。算力达到2000TOPS,相比Volta架构提升了高达20倍的性能,可以同时满足AI训练和推理的需求。
2019年12月,NVIDIA推出了面向ADAS和自动驾驶领域的新一代SOC Orin,Orin SOC拥有170亿个晶体管,搭载NVDIA下一代GPU(即基于Ampere架构的GPU)和Arm Hercules CPU核心,可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍,功耗45W,2022年交付,面向L2+级自动驾驶场景。
NVIDIA在2018年CES上推出了Xavier平台,号称是是“世界上最强大的SoC(片上系统)”,目前Xavier也确实是自动驾驶AI芯片领域绝对的首选,Xavier可处理来自车辆雷达、摄像头、激光雷达和超声波系统的L5级自主驾驶数据,是目前自动驾驶领域应用最多的AI芯片,也是最早投入量产的AI芯片。
Xavier SoC基于台积电12nm工艺,集成90亿颗晶体管,芯片面积350平方毫米,CPU采用NVIDIA自研8核ARM64架构(代号Carmel),GPU采用512颗CUDA的Volta,支持FP32/FP16/INT8,20W功耗下单精度浮点性能1.3TFLOPS,Tensor核心性能20TOPs,解锁到30W后可达30TOPs。
Xavier 内有六种不同的处理器:Valta TensorCoreGPU,八核ARM64 CPU,双NVDLA 深度学习加速器,图像处理器,视觉处理器和视频处理器。这些处理器使其能够同时、且实时地处理数十种算法,以用于传感器处理、测距、定位和绘图、视觉和感知以及路径规划。
TüVSüD已确认NVIDIA Xavier 系统芯片符合ASIL C 等级的ISO 26262随机硬件完整性,并达到了ASIL D等级的系统处理能力要求(最严格的功能安全标准)。
谷歌TPU TPU,Tensor Processing Unit,全名为张量处理单元。是 Google 专为机器学习而定制的一款ASIC芯片。专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。Google 在 2016 年 5 月的开发者 I/O 大会上正式发布TPU1,并在2017年推出了 TPU2,又称Cloud TPU。TPU2 既可以用于 training,又可以用于 inference。每个 Cloud TPU 由四个定制的 ASIC 构成,单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops(万亿次每秒),内存宽带 64GB。
2018年TPU 3.0面世,性能相比TPU 2.0有8倍提升。并且2018年7月谷歌又发布了Edge TPU芯片抢攻边缘计算市场。
在2019年5月的谷歌I/O开发者大会上,Google以1000个TPUv3组成的TPUv3 Pod取代了本应出现在发布会上的第四代TPU,目前关于TPU的新的规划尚不得而知。
Arm 自动驾驶芯片Cortex-A76AE 自1996年,Arm生产的通用型、实时型处理器就开始被各大车辆制造商使用。现在Arm的半导体知识产权(IP)已广泛应用于ADAS系统(如防撞、巡航控制等)、连接、信息娱乐、动力总成控制和汽车其他组件。
2018年9月,Arm推出了“安全就绪”(Safety Ready)计划,旨在为自动驾驶汽车提供解决方案。并推出了代号为Cortex-A76AE的产品,作为第一款专为自动驾驶汽车打造的处理器。
Cortex-A76AE处理器允许芯片制造商设计具有安全功能的芯片,使自动驾驶汽车能够满足最严格的安全要求,能将自动躲避等特性应用到汽车上。AE,即“Automotive Enhanced(自动驾驶增强)”。该处理器采用台积电7nm工艺技术制造的16核Cortex-A76AE SoC具有超过250 KDMIPS的计算性能,功耗30W,足以满足当今应用需求。如果用户想要更高的性能,可以构建更多内核,甚至多个SoC。该内核具备Arm v8.2微体系结构的所有功能特性,包括可靠性、可用性和可维护性,并采用了分核-锁步(Split-Lock)模式来确保可靠性。
并且,基于Cortex-A76AE的SoC可扩展至最多64核。除了含有通用计算核外,Arm的自主计算复合体还集成了Mali-G76 GPU、ARM的ML处理器和其他必要的IP。此外,所有复合体支持Arm的内存虚拟化和保护技术,可以完美实现ML和NN加速器的运行。
Qualcomm高通Snapdragon Ride 高通公司此前在 2017 年披露了其研发自动驾驶汽车芯片的计划,2018 年,因为监管原因,高通公司收购荷兰恩智浦公司遭到失败。2020年1月5日,在美国拉斯维加斯举行的消费电子展(CES)上高通发布了全新的自动驾驶平台Snapdragon Ride,旨在处理从车道控制、自动泊车等自动驾驶所需的各项任务,高通预计其可在2023年上路。
Snapdragon Ride平台包含多个SOC(系统级芯片)选项,包括深度学习加速器和自动驾驶软件Stack,能够支持高级驾驶辅助系统ADAS功能,比如车道保持以及在自动驾驶出租车(Robotaxi)上的全自动驾驶的应用等功能。
根据高通介绍,Snapdragon Ride平台基于一系列不同的骁龙SoC和加速器建立,采用了可扩展且模块化的高性能异构多核CPU、高能效的AI与计算机视觉引擎,以及业界领先的GPU。基于不同的SoC和加速器的组合,平台能够根据自动驾驶的每个细分市场的需求进行匹配,并提供业界领先的散热效率,包括从面向L1/L2级别应用的30 TOPS等级的设备,到面向L4/L5级别驾驶、超过700 TOPS的功耗130瓦的设备。因此该平台可支持被动或风冷的散热设计,从而实现成本降低、可靠性提升,省去昂贵的液冷系统,并简化汽车设计以及延长电动汽车的行驶里程。Snapdragon Ride的一系列SoC和加速器专为功能安全ASIL-D级(汽车安全完整性等级D级)系统而设计。
中国芯片华为、地平线、寒武纪、西井科技、百度等,另有其他国产公司在人工智能、语音识别、视觉处理方面发力,如芯驰科技、黑芝麻、中星微电子、比特大陆、杭州中天微等等 总体来看,中国公司在AI芯片领域已经占据不少席位,中国自动驾驶芯片在性能和功耗上和外国芯片相比并不差,但是如果想要达到世界领先水平,甚至赶超NVIDIA、Tesla、TI、Xilinx等还有很长的路要走。而从研发设计到真正上车量产,更需要深度的测试验证和积累。
首先,国产芯片企业想要有所建树,必须要有长期研发投入的思想准备,也就是烧钱和时间,在没有积累的基础上做AI芯片研发,所要攻克的难关数不胜数。这种长期投入一方面是大笔资金投入和高产出的正向循环;另一方面则体现在芯片架构设计、底层软件和操作系统的设计能力上,需要不断的积累和高忍耐度。
其次,中国有句老说贪多嚼不烂,国内芯片企业如果想在AI芯片领域分食蛋糕甚至赶超国际对手,必须在一个垂直领域做精做深,真正的深耕进去,并且要真正做到全栈的方案和产品给到用户,提供的是一个可供量产化的产品而不是一个DEMO,必须要让它能真正应用。
【技术积累|自动驾驶芯片调研】第三,生态的建立,国外芯片企业基本上都有自己的一套体系和生态系统,华为基于自身多年ICT的积累可以快速推出麒麟、昇腾、鲲鹏等系列芯片,但是在生态方面依然欠缺,体现在软件、操作系统、体系架构、辅助件、工具链等等。因此国内芯片厂商必须进行AI芯片相关软硬件生态的建立,以及用户体系的培养。比如NXP、Intel在国内高校多年发展课程体系、认证体系等,华为在近几年也有意识的开展和高校和科研院所的战略性合作,这一举措绝对是影响深远的。

    推荐阅读