几十年来,不断增长的计算能力一直是许多技术革命背后的推动力,包括最近在人工智能方面的进步。然而,由于集成电路进程规模的放缓,对于系统架构师来说,要继续满足当今应用不断增长的计算需求,他们现在必须采用具有专门加速器的异构系统。

然而,建构这些加速器系统是极其昂贵和耗时的。首先,硬件的开发周期是出了名的长,这使得它很难跟上算法的快速发展。同时,现有的编译器无法导航由新型加速器架构暴露的棘手映射空间。最后算法的设计通常没有将硬件效率作为关键指标,因此,在设计高效硬件方面提出了额外的挑战。

本文解决了联合设计和优化算法、调度和加速硬件设计的重大挑战。我们的目标是通过三管齐下的方法来推进最先进的技术: 开发从高层抽象自动生成加速器系统的方法和工具,缩短硬件开发周期; 适应机器学习和其他优化技术,以改进加速器的设计和编译流程; 以及协同设计算法和加速器,以开发更多的优化机会。

本文的目标应用领域是深度学习,它在计算机视觉、神经语言处理等广泛的任务中取得了前所未有的成功。随着智能设备的普及,可以预见,深度学习将成为我们日常生活中的主要计算需求。因此,本文旨在通过硬件加速进行端到端系统优化,释放前沿深度学习算法的普遍采用,改变生活的各个方面。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html

成为VIP会员查看完整内容
0
23

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

在过去的几年中,深度学习和医学的交叉领域取得了快速的发展,特别是在医学图像的解译方面。在本文中,我描述了三个关键方向,为医学图像解释的深度学习技术的发展提出了挑战和机遇。首先,我讨论了专家级医学图像解译算法的发展,重点是用于低标记医学数据设置的迁移学习和自监督学习算法。其次,我讨论了高质量数据集的设计和管理以及它们在推进算法发展中的作用,重点是使用有限的手动注释的高质量标记。第三,我讨论了真实世界的评估医学图像算法的研究,系统地分析了在临床相关分布变化下的性能。总之,这篇论文总结了关键贡献和见解,在这些方向与关键应用跨医学专业。

https://searchworks.stanford.edu/view/13876519

成为VIP会员查看完整内容
0
33

摘要: 现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾性能和可靠性的前提下,提出以面向对象体系结构(object-oriented architecture, OOA)设计范式为基础的处理器敏捷设计方法.OOA设计方法旨在通过设计范式、语言与EDA工具,实现通用处理器CPU和专用处理器XPU体系结构细粒度对象的易分解、易组合和易扩展.详细梳理了OOA各技术领域的研究现状,并深入探讨了现有处理器设计方法向OOA设计目标转化存在的诸多挑战.

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20210232

成为VIP会员查看完整内容
0
12

很长一段时间以来,计算机架构和系统被优化,以使机器学习(ML)算法或模型的有效执行。现在,是时候重新考虑ML和系统之间的关系,并让ML改变计算机架构和系统的设计方式。这包含着双重意义:提高设计师的工作效率,完成良性循环。在本文中,我们对将ML应用于系统设计的工作进行了全面的回顾,这些工作可以分为两大类: 基于ML的建模,它涉及到性能指标的预测或其他一些感兴趣的标准,以及直接利用ML作为设计工具的基于ML的设计方法。对于基于ML的建模,我们讨论现有的研究基于它们的系统目标级别,从电路级别到架构/系统级别。对于基于ML的设计方法,我们遵循自底向上的路径来回顾当前的工作,包括(微)体系结构设计(内存、分支预测、NoC)、体系结构/系统和工作负载(资源分配和管理、数据中心管理和安全)之间的协调、编译器和设计自动化。我们进一步提供了未来的机遇和潜在的方向,并展望了将ML应用于计算机体系结构和系统将在社区中蓬勃发展。

https://www.zhuanzhi.ai/paper/73124e0addcfed8cc8f738faf5f8c398

机器学习(ML)已经在许多领域创造了奇迹,包括计算机视觉[81,207,213],语音识别[76,83],自然语言处理[38,146,210],药物发现[148,198],机器人[77,86,140],玩电子游戏[15,167,226],以及许多其他领域[103,128,195,206]。在某些情况下,ML能够达到或超过人类的性能。例如,在大规模ImageNet数据集上,ResNet[81]比human获得了更好的top-5错误率;AlphaGo Zero可以打败人类专业围棋选手[206];从单人游戏(如Atari[167])到多人游戏(如《星际争霸2》[226]和《Dota 2[15]》),训练人工代理玩电子游戏也取得了重大进展。

目前的ML模型大多是深度神经网络(DNNs)及其变体(如多层感知器、卷积神经网络、递归神经网络),对内存和计算资源的要求都很高。随着人们寻求更好的人工智能,有一种趋势是更大、更有表现力和更复杂的模型。随着摩尔定律带来的收益递减,这一趋势促使计算机体系结构/系统的进步,以更快、更节能的方式实现ML模型。针对ML工作负载,在不同层次的系统和体系结构设计上进行了改进。在算法层面,对ML模型进行剪枝、量化和压缩[79,92],以消除计算复杂度,提高硬件效率;在硬件层面,在内存中处理(PIM)的复兴和near-data处理(NDP)(73, 179),也出现专门的架构和加速器,从那些专门为卷积神经网络(CNN)优化(例如ShiDianNao [57], Eyeriss[31]和基本[178])那些为通用款设计加速度(例如DaDianNao [30], TPU[108],和DNPU [204]);在器件层面,将新兴的非易失性存储器技术应用于体系结构设计中,如电阻式随机存取存储器(ReRAM)[234]、相变存储器(PCM)[25]、自旋传递转矩磁性随机存取存储器(STT-MRAM)[85],将计算和内存结合在一起,提供了另一种有前景的选择(如PRIME[35]、ISAAC[200]和Resparc[7])。

在日益复杂的工作负载及其不同的性能、精度和功率目标的驱动下,设计体系结构/系统是一件不简单而费力的事情。通常,这些设计是由人类专家基于直觉和启发式做出的,这需要ML和体系结构/系统方面的专业知识,在这种情况下,特别是在更复杂的系统中,无法保证良好的可伸缩性和最佳结果。因此,对于体系结构和系统设计来说,朝着更加自动化和强大的方法发展似乎是很自然的,ML和系统设计之间的关系也正在被重新考虑。通常,架构和系统优化是为了加速ML模型的执行和提高性能,不可否认的是,ML的革命在一定程度上依赖于处理能力的提高,如更好地利用并行性、数据重用和稀疏性等。近年来,有迹象表明将ML应用于增强系统设计,具有很大的发展潜力。将ML应用于系统设计有两个意义: 1减轻人类专家手工设计系统的负担,提高设计者的工作效率; 2闭合正反馈回路,即:,架构/系统为ML,同时ML为架构/系统,形成一个良性循环,鼓励双方的改进。

一般来说,将ML应用于系统设计的现有工作分为两类。1 ML技术用于系统建模,它涉及性能指标或一些感兴趣的标准(例如功耗、延迟、吞吐量等)。在系统设计过程中,需要对系统行为进行快速、准确的预测。传统上,系统建模是通过周期精确或功能虚拟平台和指令集模拟器(ISSs)的形式来实现的(例如gem5 [18], Simics[150])。尽管这些方法可以提供准确的评估,但它们也带来了与性能建模相关的昂贵的计算成本,限制了对大规模和复杂系统的可伸缩性; 同时,长时间的模拟限制了设计师的才能,因为只能探索整个设计空间的一小部分。采用ML技术作为设计方法,直接加强架构/系统设计。ML擅长提取特性,在没有显式编程的情况下做出决策,并根据经验自动改进自身。因此,将ML技术作为设计工具,可以更主动、更智能地探索设计空间,通过更好地理解资源的复杂、非线性交互等来管理资源,从而提供真正的最优解决方案。

在本文中,我们概述了将ML应用于计算机体系结构/系统,并总结了ML技术可以解决哪些系统问题以及ML技术如何解决这些问题,如图4所示。本文还讨论了ML在系统设计中的应用所面临的挑战和前景。本文组织如下。第2节简要介绍了常用的ML技术;第3节回顾了使用ML技术进行系统建模的研究,从电路级到架构/系统级;第4节介绍了利用ML技术作为设计工具直接增强体系结构/系统设计的研究,包括(微)体系结构设计(内存、分支预测、NoC)、体系结构/系统和工作负载(资源分配和管理、数据中心管理和安全)之间的协调、编译器和设计自动化;第5节讨论了将ML应用于系统设计的挑战和未来前景,以传达设计考虑的见解;第六部分是本文的总结。

成为VIP会员查看完整内容
0
28

基于深度学习的图像处理算法研究

随着智能手机和微单相机的普及,拍照已经变成人们日常生活中不可缺少的一部分,图像也已成为人类社会的重要信息媒介。然而受到拍照环境、设备和技术的影响,图像中难免会出现退化现象,如何从图像处理的角度提升拍摄照片的质量具有重要的研究意义与应用价值。近年来,深度学习技术得到了巨大的发展,并广泛应用于图像处理领域。相对于许多传统算法,深度学习技术从海量的训练数据中学习到的先验知识具有更强的泛化能力和更复杂的参数化表达,且无需调节算法参数以适应不同的应用场景。得益于上述优势,深度学习技术已经广泛应用于图像处理领域,如何利用深度学习算法提升图像处理的效果也变成了一个重要的研究方向。

尽管深度学习技术显著促进了图像处理领域的发展,但是受限于其对训练数据的敏感性,在面对无标签、仅有弱标签或者合成伪标签的数据时,深度学习技术的优势难以充分体现。本学位论文针对以上挑战,重点研究了缺失完整数据标签的经典图像处理问题,包括图像平滑、反光去除和本征图像分解等。本文通过将上述问题抽象为对图像结构敏感的图像分解问题,将显著的目标边缘信息通过优化或者滤波的方式编码进深度学习的算法设计中。根据图像处理问题中数据标签的类型和数量不同,本文依次提出了基于无监督学习、弱监督学习和多标签联合训练的深度学习解决方案。本文的最后提出了解耦学习框架,通过对10种不同图像处理问题的联合训练,提炼出了图像处理问题的核心解空间。该算法对于理解深度学习技术在图像处理领域的应用有重要的研究价值和意义。本文的创新点和贡献包括以下几个方面:

(1) 一种基于无监督学习的空间自适应图像平滑算法

该算法通过使用卷积神经网络,以无监督的方式从无标签数据中学习图像平滑的优化过程,并实现可灵活调节的图像平滑效果。该算法提出了一个由边缘保持项和空间自适应平滑项构成的能量函数,前者用于保持重要但易破坏的图像结构,后者用于将多种形式的正则器(Lp范数)施加至图像的不同区域。由于缺乏平滑图像的真值数据,本文采用一个无监督学习的能量优化框架,用来实现多种基于图像平滑的视觉应用,譬如图像抽象化、铅笔素描、细节增强、纹理去除和基于内容的图像处理等。实验结果表明,该基于无监督学习的空间自适应图像平滑算法获得了更好的视觉结果。

(2) 一种基于弱监督学习的图像反光去除算法

该算法提出了一个多阶段卷积神经网络,用以解决图像分解领域中经典的反光去除问题。本算法框架由两个结构相似的卷积神经网络串联而成,前者预测目标图像的边缘结构,后者依据预测边缘信息的引导重建目标图像;整个过程既不需要任何人工设计,也不依赖于其他图像处理应用。通过从真实反光图像观察得到的图像亮度和结构先验,该算法设计了一种针对模糊强反光的反光图像合成算法;通过将合成数据以弱监督信号的形式融入到多阶段神经网络训练中,该算法获得了在真实反光图像上的良好泛化性能。实验结果表明,该基于弱监督学习的图像反光去除算法在不同程度的反光场景中均获得更优的视觉效果。

(3) 一种基于多标签联合训练的本征图像分解算法

本征图像分解往往存在数据集冗杂、数据标签不一致等问题。为解决该问题,本文提出了一个通用的核心神经网络,用以在不同类型的数据标签中共享本征图像形成过程的稀疏先验。该神经网络由三个不同的基础模块组成:直接本征图像估计网络、导向网络和域滤波器;其中,直接本征图像估计网络通过对本征图像的直接监督获得初始的预测结果,导向网络负责生成稀疏的反射结构先验,并引导域滤波器获得干净的反射估计。该算法设计了一个灵活的能量损失层以实现多标签数据联合训练的目的。实验结果表明,该本征图像分解算法在所有的主流基准数据集上都获得了更高的精确度。

(4) 一种基于解耦学习的实时参数化图像处理框架

传统的深度学习算法在面对不同的图像处理应用时,需要重复地训练神经网络。为了解决这个问题,该算法提出了由基础网络和权重学习网络组成的解耦学习框架,其中前者用来实现具体的图像处理应用,后者用来学习基础网络的权重。该算法通过对基础网络的结构和权重进行解耦,达到根据图像处理应用的变化实时动态调整基础网络权重的效果,并因此实现了利用单一神经网络融合多种图像处理应用的目的。实验结果表明,该解耦学习框架成功应用在10种不同的参数化图像算子中,并减少了网络参数的存储空间。

成为VIP会员查看完整内容
0
32

近年来,现场可编程逻辑门阵列(FPGA)在异构计算领域因其优异的可定制性和可重配置特点吸引了工业界和学术界广泛的关注.基于FPGA的硬件加速系统设计涉及到深度的软硬件协同开发,利用软硬件各自开发工具分别开发再集成的传统开发方式具有学习门槛高,集成、测试、部署耗时长等缺陷,开发人员难以利用FPGA可快速重配置的特点来实现系统开发过程中的快速原型和快速迭代.如何让硬件加速系统的开发利用到现代软件工程和程序语言领域的成果,研究者们已经经过了长期的探索,本文首先根据相关研究总结了硬件及硬件加速系统开发工具设计的历史教训和成功经验,然后介绍我们的设计实践,最后进行总结并提出对未来的展望.

成为VIP会员查看完整内容
0
32

摘要:随着日益剧增的海量数据信息的产生以及数据挖掘算法的广泛应用,人们已经进入了大数据时代.在数据规模飞速增长的前提下,如何高效稳定的存取数据信息以及加快数据挖掘算法的执行已经成为学术界和工业界急需解决的关键问题.机器学习算法作为数据挖掘应用的核心组成部分,吸引了越来越多研究者的关注,而利用新型的软硬件手段来加速机器学习算法已经成为了目前的研究热点之一.本文主要针对基于ASIC和FPGA等硬件平台设计的机器学习加速器进行了归纳与总结.首先,本文先介绍了机器学习算法,对代表性的算法进行了分析和归纳.接下来对加速器可能的着眼点进行了列举综述,以各种机器学习硬件加速器为主要实例介绍了目前主流的加速器设计和实现,并围绕加速器结构进行简单分类和总结.最后本文对机器学习算法硬件加速这个领域进行了分析,并对目前的发展趋势做出了展望.

成为VIP会员查看完整内容
0
36

最新的技术进步提高了交通运输的质量。新的数据驱动方法为所有基于控制的系统(如交通、机器人、物联网和电力系统)带来了新的研究方向。将数据驱动的应用与运输系统相结合在最近的运输应用程序中起着关键的作用。本文综述了基于深度强化学习(RL)的交通控制的最新应用。其中,详细讨论了基于深度RL的交通信号控制(TSC)的应用,这在文献中已经得到了广泛的研究。综合讨论了TSC的不同问题求解方法、RL参数和仿真环境。在文献中,也有一些基于深度RL模型的自主驾驶应用研究。我们的调查广泛地总结了这一领域的现有工作,并根据应用程序类型、控制模型和研究的算法对它们进行了分类。最后,我们讨论了基于深度可编程逻辑语言的交通应用所面临的挑战和有待解决的问题。

成为VIP会员查看完整内容
0
90

主题: Efficient Processing of Deep Neural Networks: from Algorithms to Hardware Architectures

简介: 本教程介绍了用于高效处理深度神经网络(DNN)的方法,这些方法已在许多AI应用程序中使用,包括计算机视觉,语音识别,机器人等。DNN以高计算复杂度为代价,提供了一流的准确性和结果质量。因此,为深度神经网络设计有效的算法和硬件架构是朝着在人工智能系统(例如,自动驾驶汽车,无人机,机器人,智能手机,可穿戴设备,物联网等)中广泛部署DNN迈出的重要一步。在速度,延迟,功耗/能耗和成本方面有严格的限制。 在本教程中,我们将简要概述DNN,讨论支持DNN的各种硬件平台的权衡,包括CPU,GPU,FPGA和ASIC,并重点介绍基准测试/比较指标和评估DNN效率的设计注意事项。然后,我们将从硬件体系结构和网络算法的角度描述降低DNN计算成本的最新技术。最后,我们还将讨论如何将这些技术应用于各种图像处理和计算机视觉任务。

嘉宾介绍: Vivienne Sze是麻省理工学院电气工程和计算机科学系的副教授。她的研究兴趣包括能量感知信号处理算法,便携式多媒体应用的低功耗电路和系统设计,包括计算机视觉,深度学习,自主导航和视频编码。在加入MIT之前,她是TI研发中心的技术人员,在那里她设计了用于视频编码的低功耗算法和体系结构。在高效视频编码(HEVC)的开发过程中,她还代表TI参加了ITU-T和ISO / IEC标准机构的JCT-VC委员会,该委员会获得了黄金时段工程艾美奖。她是《高效视频编码(HEVC):算法和体系结构》(Springer,2014年)的合编者,也是即将出版的《深度神经网络的高效处理》(Morgan&Claypool)的合著者。她是2020年机器学习和系统会议(MLSys)的计划共同主席,并教授MIT设计高效深度学习系统的专业教育课程。

成为VIP会员查看完整内容
0
36
小贴士
相关VIP内容
专知会员服务
12+阅读 · 6月29日
专知会员服务
32+阅读 · 2020年12月6日
专知会员服务
32+阅读 · 2020年6月24日
专知会员服务
36+阅读 · 2020年6月20日
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
15+阅读 · 2019年10月27日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
12+阅读 · 2019年2月8日
硬件加速神经网络综述
计算机研究与发展
13+阅读 · 2019年2月1日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
相关论文
Shauli Ravfogel,Grusha Prasad,Tal Linzen,Yoav Goldberg
0+阅读 · 9月15日
Tom Z. Jiahao,Lishuo Pan,M. Ani Hsieh
0+阅读 · 9月13日
Yufei Wang,Haoliang Li,Lap-Pui Chau,Alex C. Kot
0+阅读 · 9月13日
Xudong Lin,Gedas Bertasius,Jue Wang,Shih-Fu Chang,Devi Parikh,Lorenzo Torresani
3+阅读 · 1月29日
Adversarial Objects Against LiDAR-Based Autonomous Driving Systems
Yulong Cao,Chaowei Xiao,Dawei Yang,Jing Fang,Ruigang Yang,Mingyan Liu,Bo Li
5+阅读 · 2019年7月11日
S4Net: Single Stage Salient-Instance Segmentation
Ruochen Fan,Ming-Ming Cheng,Qibin Hou,Tai-Jiang Mu,Jingdong Wang,Shi-Min Hu
7+阅读 · 2019年4月10日
Multi-class Classification without Multi-class Labels
Yen-Chang Hsu,Zhaoyang Lv,Joel Schlosser,Phillip Odom,Zsolt Kira
4+阅读 · 2019年1月2日
He Huang,Changhu Wang,Philip S. Yu,Chang-Dong Wang
6+阅读 · 2018年11月12日
Nan Li,Tianli Liao
3+阅读 · 2018年2月13日
Clement Carbonnel,David A. Cohen,Martin C. Cooper,Stanislav Zivny
3+阅读 · 2017年12月22日
Top