IBM 取得内存计算新突破，AI 训练能耗降低 80 倍

会员服务 ·

IBM 取得内存计算新突破，AI 训练能耗降低 80 倍

2018 年 4 月 21 日 新智元

新智元推荐

来源：至顶网

【新智元导读】IBM Research 称，已经开发出了一种内存计算新方法，可以为微软和谷歌寻求的高性能和机器学习应用的硬件加速器提供答案。该方法被称为“混合精度内存计算”，论文发表在 Nature Electronics 期刊。

IBM Research 称，已经开发出了一种内存计算新方法，可以为微软和谷歌寻求的高性能和机器学习应用的硬件加速器提供答案。

在近日 Nature Electronics 期刊上发表的一篇论文中，IBM 研究人员描述了这种新的 “混合精度内存计算” 方法。

IBM 关注传统计算体系结构的不同看法，在这种体系结构中，软件需要在单独的 CPU 和 RAM 单元之间进行数据传输。

据 IBM 称，这种被称为 “冯·诺依曼” 的体系结构设计，为数据分析和机器学习应用制造了一个瓶颈，这些应用需要在处理单元和内存单元之间进行更大的数据传输。传输数据也是一个耗能的过程。

应对这一挑战，IBM 给出的一种方法是模拟相变内存（PCM）芯片，该芯片目前还处于原型阶段，500 万个纳米级 PCM 器件组成 500×2000 交叉阵列。

PCM 的一个关键优势是可以处理大多数密集型数据处理，而无需将数据传输到 CPU 或 GPU，这样以更低的能量开销实现更快速的处理。

IBM 的 PCM 单元将作为 CPU 加速器，就像微软用于加速 Bing 和加强机器学习的 FPGA 芯片一样。

据 IBM 称，研究表明在某些情况下，其 PCM 芯片能够以模拟的方式进行操作，执行计算任务，并提供与 4 位 FPGA 存储器芯片相当的准确度，但能耗降低了 80 倍。

模拟 PCM 硬件并不适合高精度计算。所幸的是，数字型 CPU 和 GPU 是适合的，IBM 认为混合架构可以实现更高性能、更高效率和更高精度的平衡。

这种设计将大部分处理留给内存，然后将较轻的负载交给 CPU 进行一系列的精度修正。

根据 IBM 苏黎世实验室的电气工程师、也是该论文的主要作者 Manuel Le Gallo 称，这种设计有助于云中的认知计算，有助于释放对高性能计算机的访问。

Le Gallo 表示：“凭借我们现在的精确度，我们可以将能耗降低到是使用高精度 GPU 和 CPU 的 1/6。”

“所以我们的想法是，为了应对模拟计算中的不精确性，我们将其与标准处理器结合起来。我们要做的是将大量计算任务转移到 PCM 中，但同时得到最终的结果是精确的。”

这种技术更适合于如数字图像识别等应用，其中误解少数像素并不会妨碍整体识别，此外还有一些医疗应用。

“你可以用低精度完成大量计算——以模拟的方式，PCM 会非常节能——然后使用传统处理器来提高精度。”

对于只有 1 兆字节大小的 IBM 原型内存芯片，现在还处于初期阶段。为了适用于现代数据中心的规模化应用，它需要达到千兆字节的内存量级，分布在数万亿个 PCM 中。

尽管如此，IBM 认为可以通过构建更大规模的 PCM 设备或使其中 PCM 并行运行来实现这一目标。

登录查看更多

相关内容

内存计算

关注 1

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

专知会员服务

126+阅读 · 2020年5月6日

【WF-IoT-普渡大学】低功耗深度学习和计算机视觉方法综述

专知会员服务

46+阅读 · 2020年3月26日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【2020必看书】TinyML-微型化机器学习，149页pdf，在超低功耗微控制器上用TensorFlow Lite实现机器学习

专知会员服务

143+阅读 · 2020年2月19日

最新《分布式机器学习》论文综述最新DML进展，33页pdf

专知会员服务

121+阅读 · 2019年12月26日

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

专知会员服务

18+阅读 · 2019年11月30日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

GAN生成式对抗网络

7+阅读 · 2019年6月7日

已删除

将门创投

4+阅读 · 2019年5月8日

【学界】完美代替传统卷积！Facebook等提出全新卷积操作OctConv，速度接近理论极限

GAN生成式对抗网络

14+阅读 · 2019年4月18日

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

资源 | TensorFlow推出模型优化工具包，可将模型压缩75%

机器之心

9+阅读 · 2018年9月24日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

微软人工智能系统联合中心亮相，讲述如何打造全栈AI平台

雷锋网

4+阅读 · 2018年6月28日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍

新智元

6+阅读 · 2017年9月12日

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

大数据技术

5+阅读 · 2017年7月28日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Survey on Edge Computing Systems and Tools

Arxiv

36+阅读 · 2019年11月7日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Learning When Not to Answer: A Ternary Reward Structure for Reinforcement Learning based Question Answering

Arxiv

6+阅读 · 2019年4月3日

Deep Learning for Image Denoising: A Survey

Arxiv

5+阅读 · 2018年10月11日

Transfer Learning with Neural AutoML

Arxiv

5+阅读 · 2018年9月11日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

Combination of Domain Knowledge and Deep Learning for Sentiment Analysis

Arxiv

3+阅读 · 2018年6月22日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员