面向人工智能的计算机体系结构

2019 年 6 月 6 日 人工智能学家

来源：计算机研究与发展

前言

近几年来人工智能技术的飞速发展使得其应用迅猛扩大，而传统的计算机体系结构对于面向人工智能的应用在处理速度、能耗、使用的方便性等方面有着诸多不足。随着人工智能应用的发展，面向人工智能的体系结构成为体系结构研究与发展中的一个重要方向。因此，本刊在“计算机体系结构前沿技术”主题系列中，出版“面向人工智能的计算机体系结构”主题。本主题既包含面向人工智能应用的体系结构技术、人工智能应用程序的行为分析及其对体系结构的要求、和面向人工智能应用及特定体系结构的优化技术等方面6篇文章。

类脑机的思想与体系结构综述

传统的冯·诺依曼体系结构对于面向人工智能应用的神经网络计算有诸多不适应。类脑机是一类典型的非冯·诺依曼体系结构。类脑机在处理人工智能问题的许多领域中比传统的冯·诺依曼结构具有速度、能耗等方面的优势，引起智能机器研究人员的高度兴趣和重视。黄铁军、余肇飞、刘怡俊的文章“类脑机的思想与体系结构综述”介绍类脑机的研究和发展概况。文章介绍了类脑机的基本概念、原理结构、典型的类脑机系统，也介绍了脉冲神经网络的工作原理及其信息处理能力，文章还预测了类脑机的发展前景，并给出类脑机研究中的重要问题。

黄铁军，余肇飞，刘怡俊. 类脑机的思想与体系结构综述[J]. 计算机研究与发展, 2019, 56(6): 1135-1148.
Huang Tiejun, Yu Zhaofei， Liu Yijun. Brain-like Machine: Thought and Architecture. Journal of Computer Research and Development, 2019, 56(6): 1135-1148.

基于３D 忆阻器阵列的神经网络内存计算架构

基于忆阻器的神经网络内存计算架构是一类获得计算机体系结构研究者高度关注的计算架构。此类架构在人工智能计算的大量应用中比传统的冯·诺依曼结构在性能、能耗效率等方面具有优越性。然而，基于忆阻器的内存计算硬件存在外围电路面积大、功能单元利用率低等问题。毛海宇和舒继武的文章“基于３D 忆阻器阵列的神经网络内存计算架构”提出一种基于３D忆阻器阵列的神经网络内存计算架构(FMC)，把实现功能单元的外围电路聚集而形成一个功能单元池，供多个堆叠于其上的忆阻器阵列共享。文章还提出一种数据映射策略,提高功能单元的利用率并减少忆阻器立方体之间的数据传输。实验结果表明文章所提出的技术可以提升功能单元利用率、减小空间占用、提升性能并降低能耗。

毛海宇，舒继武. 基于3D忆阻器阵列的神经网络内存计算架构[J]. 计算机研究与发展, 2019, 56(6): 1149-1160.
Mao Haiyu， Shu Jiwu. 3D Memristor Array Based Neural Network Processing in Memory Architecture. Journal of Computer Research and Development, 2019, 56(6): 1149-1160.

面向深度学习加速器的安全加密方法

深度学习是人工智能一类重要技术，在云计算、边缘计算等框架下均有广泛的应用。左鹏飞等的文章“面向深度学习加速器的安全加密方法”提出，部署在边缘计算设备上的深度学习加速器有泄露所存储的深度学习模型的风险。文章针对此问题提出一种深度学习加速器架构COSA。COSA利用计数器模式加密，提高加速器的安全性,并且把解密操作从内存访问的关键路径中移出以便提高加速器性能。实验结果表明文章所提出的技术的有效性。

左鹏飞，华宇，谢新锋，胡杏，谢源，冯丹. 面向深度学习加速器的安全加密方法[J]. 计算机研究与发展, 2019, 56(6): 1161-1169.
Zuo Pengfei, Hua Yu, Xie Xinfeng, Hu Xing, Xie Yuan， Feng Dan. A Secure Encryption Scheme for Deep Learning Accelerators. Journal of Computer Research and Development, 2019, 56(6): 1161-1169.

多层神经网络算法的计算特征建模方法

利用神经网络进行学习在不同的领域中获得广泛的应用。对于神经网络学习，如何不同的计算特征、根据不同的网络规模设计高能效的加速器？如何基于有限的硬件资源提高网络性能并最大化资源利用率？这些都是体系结构研究中的重要问题。面向这些问题，方荣强等的文章“多层神经网络算法的计算特征建模方法”提出一种基于计算特征的神经网络分析和优化方法。文章提出基于“层”的粒度解析神经网络模型并提取模型通用表达式,进而根据通用表达式和基本操作属性提取模型运算量和存储空间的需求等特征，并提出基于特征的最大值更替的运行调度算法,从而可以利用特征分析和资源状况优化运行调度方案。实验结果说明了文章所提的技术的有效性。

方荣强，王晶，姚治成，刘畅，张伟功. 多层神经网络算法的计算特征建模方法[J]. 计算机研究与发展, 2019, 56(6): 1170-1181.
Fang Rongqiang, Wang Jing, Yao Zhicheng, Liu Chang， Zhang Weigong. Modeling Computational Feature of Multi-Layer Neural Network. Journal of Computer Research and Development, 2019, 56(6): 1170-1181.

面向阻变存储器的长短期记忆网络加速器的训练和软件仿真

长短期记忆网络是人工智能领域中的一种重要的网络，有着广泛的应用；而利用阻变存储器交叉开关设计内存计算结构是一种高效处理长短期记忆网络的加速器结构。由于长短期记忆网络的计算特征和阻变存储器本身的物理性质，该种网络加速器的训练和软件仿真是加速器设计中的重要环节。刘鹤等的文章“面向阻变存储器的长短期记忆网络加速器的训练和软件仿真”提出一种针对阻变存储器特征的神经网络训练方法，可以获得符合阻变存储器约束的神经网络模型。同时，文章提出一种模拟器结构，可以用时钟驱动的形式模拟设计者提出的以阻变存储器交叉开关结构为核心的加速部件的长短期记忆加速器微体系结构，从而为设计者提供模拟工具。文章介绍了其模块结构和实现方法，并给对所提出的技术给出了试验评估结果。

刘鹤，季宇，韩建辉，张悠慧，郑纬民. 面向阻变存储器的长短期记忆网络加速器的训练和软件仿真[J]. 计算机研究与发展, 2019, 56(6): 1182-1191.
Liu He, Ji Yu, Han Jianhui, Zhang Youhui， Zheng Weimin. Training and Software Simulation for ReRAM-Based LSTM Neural Network Acceleration. Journal of Computer Research and Development, 2019, 56(6): 1182-1191.

基于细粒度数据流架构的稀疏神经网络全连接层加速

深度神经网络是当前人工智能计算最重要的技术之一，被广泛地应用于人工智能计算的各个领域。对于深度神经网络计算的硬件加速是体系结构研究中的一个重要领域。向陶然等的文章“基于细粒度数据流架构的稀疏神经网络全连接层加速”提出了一种在基于细粒度数据流体系结构的硬件加速器上加速稀疏的深度神经网络全连接层的方法，可以优化深度神经网络计算在细粒度数据流架构的加速器的实现。文章针对深度神经网络计算应用和加速器体系结构的特点提出相应的数据压缩格式及加速计算方案。实验结果显示，文章所提出的方法相较于原有稠密的全连接层运算可以大幅度减少峰值带宽需求，与一些CPU、GPU、mGPU等结构相比，可以大幅度提高其计算部件的利用率。

向陶然，叶笑春，李文明，冯煜晶，谭旭，张浩，范东睿. 基于细粒度数据流架构的稀疏神经网络全连接层加速[J]. 计算机研究与发展, 2019, 56(6): 1192-1204.
Xiang Taoran, Ye Xiaochun, Li Wenming, Feng Yujing, Tan Xu,Zhang Hao， Fan Dongrui. Accelerating Fully Connected Layers of Sparse Neural Networks with Fine-Grained Dataflow Architectures. Journal of Computer Research and Development, 2019, 56(6): 1192-1204.

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”