【了不起的芯片2】盘点40+公司的深度学习处理器

2017 年 8 月 20 日 新智元

   新智元编译  

 来源:basicmi.github.io

作者:basicmi

编译:Neko


【新智元导读】本文列举并介绍了现有的几乎全部深度学习处理器,是值得收藏的超全资料。

 


Nvidia


GPU


  • 英伟达最新的 GPU NVIDIA TESLA V100 单精度浮点性能达到15 TFlops,在新的 Tensor core 架构达到 120 TFlops,是FP16乘法或FP32累加,或适应ML。

  • 英伟达将8个board包装在他们的 DGX-1 for 960 Tensor TFlops

  • Nvidia Volta - 架构看点 这篇文章对 Volta 架构做了一些分析


SoC


英伟达提供 NVIDIA DRIVE™PX,这是用于自动驾驶汽车的AI车载计算机和JETSON TX1 / TX2模块,一个“自动驾驶应用的嵌入式平台”


英伟达的开源DLA


英伟达在GTC2017上宣布 XAVIER DLA 开源。虽然我们现在仍没有看到有早期的可访问版本,希望如期在9月份发布。从Nvidia开源深度学习加速器说起这篇文章有更多分析。


AMD


GPU


即将推出的 AMD Radeon Instinct MI25 宣称 SP16 达到12.3 TFlop,或 FP16 达到 16.6 TFlops。如果你的计算适用Nvidia 的 Tensors,那么 AMD 可能无法与之抗衡。与 AMD 的 484 GB/s相比,Nvidia的带宽为900GB/s。


Intel


Nervana


英特尔收购的 Nervana Systems 除了 Nervana Engine ASIC 外还开发 GPU/software 方法。可比性能现在还不清楚。英特尔也计划通过 Knights Crest 项目整合到Phi平台。NextPlatform 的一篇文章指出Nervana 2017年在28nm上的目标可能是55 TOPS/s。英特尔计划在12月有一个NervanaCon,所以到时也许会公布第一批成果。


Mobileye EyeQ


Mobileye 目前正在开发第五代SoCEyeQ®5,作为视觉中央计算机执行完全自动驾驶(Level 5)车辆的传感器,将在2020年上路。为了满足功耗和性能目标,EyeQ®SoC的设计是最先进的VLSI处理技术,第5代降低到7nm FinFET。


Movidius


Movidius VPU 是一个向量处理器阵列。


FPGA


Intel FPGA OpenCL 以及解决方案。


Google TPU


谷歌的TPU在性能上领先GPU,是驱动DeepMind的AlphaGo在围棋比赛中赢了人类冠军的硬件。原来的700MHz TPU具有用于8位计算的95 TFlop或16位计算的23TFlop,而仅需40W。这比GPU快得多,但现在比英伟达的V100慢,但不是以每W为基础比较。新的TPU2被宣称具有四芯片的TPU,并且可以实现约180 TFlop。每个芯片的性能都翻了一番,达到16位的45 TFlops。你可以看到英伟达的V100正在缩小这一差距。TPU或TPU2都不是开放出售。谷歌正在使其在云端可用,TPU pod包含64个设备,最高可达11.5 PetaFlop的性能。


其他参考文章:

Google TPU 揭密

Google的神经网络处理器专利

脉动阵列 - 因Google TPU获得新生


Xilinx


Xilinx提供“从边缘到云”的机器学习推理解决方案,并在他们的白皮书中声称自己的FPGA最适用于INT8。


虽然FPGA的性能令人印象深刻,但是供应商的较大芯片长期以来价格较高。找到价格和性能之间的平衡是FPGA的主要挑战。


微软FPGA


微软将赌注放在FPGA,可以看这篇文章:“Microsoft Goes All in for FPGAs to Build Out AI Cloud”。


关于微软FPGA,《连线》发了一篇很好的特写:“Microsoft Bets Its Future on a Reprogrammable Computer Chip


关于 FPGA in cloud,有另一篇挺好的参考文章:Inside the Microsoft FPGA-based configurable cloud


Qualcomm


高通公司围绕ML已经有一段时间,发布了Zeroth SDK和Snapdragon神经处理引擎。高通在Hexagon DSP使用NPE是非常合理的。


Apple


彭博社的报道称苹果要做专用芯片,但没有透露更多细节。不管芯片是不是被苹果作为一个重要领域,这有助于苹果与高通竞争。


Core ML是苹果目前的机器学习应用程序。


ARM


DynamIQ是ARM给予AI时代的答案,虽然它可能不是革命性的设计,但确实是重要的。


ARM还提供了一个开源的Compute Library,其中包含为Arm Cortex-A系列CPU处理器和Arm Mali系列GPU实现软件函数的综合集成。


IBM TrueNorth


TrueNorth 是与 DARPA SyNAPSE 程序一起开发的 IBM 的 Neuromorphic CMOS ASIC。


HiSilicon(华为海思)


华为CEO余承东最近在2017年中国互联网大会上宣布,华为正在开发AI芯片。


麒麟 for 智能手机


麒麟970可能具有一个嵌入式深度学习加速器。


Mobile Camera SoC


根据 Hi3559A V100ESultra-HD Mobile Camera SoC的简要数据表,它具有双核CNN@700 MHz神经网络加速引擎


Cambricon(寒武纪)


寒武纪致力于IP License,芯片服务,Smart Card和智能平台。


Horizon Robotics(地平线机器人)


地平线机器人已公布一个嵌入式人工智能处理器架构 Brain Processing Unit(BPU)。


Deephi(深鉴科技)


DeePhi Tech在deep compression,编译工具链,深度学习处理单元(DPU)设计,FPGA开发和系统级的优化等方面拥有前沿技术。


Bitmain(比特大陆)


比特大陆正在为AI开发处理器。


Wave Computing


Wave Computing 的Compute Appliance可以在3RU设备上以2.9 PetaOPS/秒的速度运行TensorFlow。


Graphcore


Graphcore在去年年底获得3000万美元投资,以支持他们的智能处理单单元(Intelligence Processing Unit,IPU)。


参考:解密又一个xPU:Graphcore的IPU


PEZY Computing K.K.


Pezy-SC 和 Pezy-SC2 分别是 Pezy 开发的1024核和2048核处理器。


KnuEdge’s KnuPath



自2006年6月以来,该公司的产品页面消失了。不知道他们投入1亿美元的MIMD架构现在如何。当时该架构被描述为每个ASIC具有256个小型DSP或tDSP核,以及适用于35W envelope 的稀疏矩阵处理的ARM控制器。



更多:Tenstorrent、Cerebras、Thinci、Koniku、Adapteva、Knowm、Mythic、Kalray、Brainchip、Groq、Aimotive、Deep Vision、Deep Scale、REM、Leepmind、Krtkl、TeraDeep、KAIST DNPU、Synopsys Embedded Vision、CEVA XM6、VeriSilicon VIP8000、Cadence P5/P6/C5……


以及所有参考文章链接,请参看原文GitHub:https://basicmi.github.io/Deep-Learning-Processor-List/




【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位

点击阅读原文可查看职位详情,期待你的加入~


登录查看更多
0

相关内容

NVIDIA(全称NVIDIA Corporation,NASDAQ:NVDA,发音:IPA:/ɛnvɪdɪə/,台湾官方中文名为輝達),创立于1993年4月,是一家以设计显示芯片和芯片组为主的半导体公司。NVIDIA亦会设计游戏机核心,例如Xbox和PlayStation 3。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列,为专业工作站而设计的Quadro系列,以及为服务器和高效运算而设计的Tesla系列。 NVIDIA的总部设在美国加利福尼亚州的圣克拉拉。是一家无晶圆(Fabless)IC半导体设计公司。"NVIDIA"的读音与英文"video"相似,亦与西班牙文evidia(英文"envy")相似。现任总裁为黄仁勋。
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
MIT公开课-Vivienne Sze教授《深度学习硬件加速器》,86页ppt
【文献综述】边缘计算与深度学习的融合综述论文
专知会员服务
164+阅读 · 2019年12月26日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
人工智能产业链,是时候梳理一下了!
物联网智库
3+阅读 · 2018年1月19日
2017年四巨头的深度学习框架之战,你支持谁?
全球人工智能
6+阅读 · 2017年12月29日
【人工智能】人工智能在深度学习领域的前世今生
产业智能官
5+阅读 · 2017年11月24日
给DNN处理器跑个分 - 指标篇
StarryHeavensAbove
5+阅读 · 2017年7月9日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
4+阅读 · 2018年2月13日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
人工智能产业链,是时候梳理一下了!
物联网智库
3+阅读 · 2018年1月19日
2017年四巨头的深度学习框架之战,你支持谁?
全球人工智能
6+阅读 · 2017年12月29日
【人工智能】人工智能在深度学习领域的前世今生
产业智能官
5+阅读 · 2017年11月24日
给DNN处理器跑个分 - 指标篇
StarryHeavensAbove
5+阅读 · 2017年7月9日
相关论文
Top
微信扫码咨询专知VIP会员