在过去的几年里,每个月都会发布新的机器学习加速器,用于语音识别、视频对象检测、辅助驾驶和许多数据中心应用。本文更新了过去两年人工智能加速器和处理器的调研。本文收集和总结了目前已公开发布的商业加速器的峰值性能和功耗数据。性能和功率值绘制在散点图上,从这个图上的趋势的一些维度和观察再次被讨论和分析。今年,我们还编制了一个基准性能结果列表,并计算了相对于峰值性能的计算效率。
引言
在过去几年里,初创公司和成熟的技术公司一直在宣布、发布和部署各种各样的人工智能(AI)和机器学习(ML)加速器。这些加速器的重点一直是加速深度神经网络(DNN)模型,应用空间跨度从非常低功耗的嵌入式语音识别到数据中心规模的训练。在过去的一年里,新加速器的发布速度有所放缓,但定义市场和应用领域的竞争仍在继续。这种开发和部署加速器的动力是现代计算领域更大的工业和技术变革的一部分。
人工智能生态系统整合了嵌入式计算(边缘计算)、传统高性能计算(HPC)和高性能数据分析(HPDA)的组件,这些组件必须协同工作,以有效地为决策者、作战人员和分析人员提供使用能力[1]。图1展示了这种端到端人工智能解决方案及其组件的架构概述。在图1的左侧,结构化和非结构化数据源提供了实体的不同视图。这些原始数据产品被输入数据调整步骤,在此步骤中,它们被融合、聚合、结构化、累积并转换为信息。由数据调整步骤生成的信息输入到一系列有监督和无监督的算法中,比如神经网络。神经网络可以提取模式、预测新事件、填补缺失的数据,或者在数据集中寻找相似点,从而将输入的信息转化为可操作的知识。然后,这些可操作的知识被传递给人类,用于人机合作阶段的决策过程。人机合作阶段为用户提供有用和相关的洞察力,将知识转化为可操作的智能或洞察力。速度有所放缓,但定义市场和应用领域的竞争仍在继续。这种开发和部署加速器的动力是现代计算领域更大的工业和技术变革的一部分。
现代计算机系统是这个系统的基础。摩尔定律的趋势已经结束了[2],还有一些相关的定律和趋势,包括德纳尔标度(功率密度)、时钟频率、核心计数、每个时钟周期的指令和每个焦耳的指令(库米定律)[3]。从最先出现在汽车和智能手机上的片上系统(SoC)趋势来看,为常用的操作内核、方法或功能开发和集成加速器仍在不断进步和创新。这些加速器的设计在性能和功能灵活性之间有不同的平衡。这包括深度机器学习处理器和加速器[4]-[8]的创新爆炸。了解这些技术的相对优势对于将人工智能应用于具有重大限制的领域(如大小、重量和功率)尤其重要,无论是在嵌入式应用还是在数据中心。
本文是对过去两年IEEE-HPEC论文[9],[10]的更新。和过去几年一样,我们将回顾一些与理解加速器功能相关的主题。
神经网络类型——虽然人工智能和机器学习包含了一系列广泛的基于统计的技术[1],但本文继续关注去年的重点,面向深度神经网络(DNNs)和卷积神经网络(CNN)的加速器和处理器,因为它们具有相当高的计算强度[11]。
神经网络训练与推理——正如前两次调研中所解释的那样,该调研侧重于用于推理的加速器和处理器,原因有很多,包括国防和国家安全AI/ML边缘应用依赖推理。
数值精度——我们将考虑加速器支持的所有数值精度类型,但对于大多数类型,它们的最佳推断性能是int8或fp16/bf16 (IEEE 16位浮点数或谷歌的16位脑浮点数)。但从图2中可以看出,许多不同的数值格式都报告了峰值性能。
神经形态计算和光子计算——在今年的调研没有发布峰值性能和峰值功率的数字。有一些神经形态处理器与传统加速器(如[12])的相对比较,但没有确切的数字。也许明年,我们将开始看到实际的性能数据,我们可以纳入这个调研。