随着时间的推移,更复杂、更强大的深度神经网络的设计不断推动各种任务的最新水平。在追求增加性能的过程中,计算复杂性常常受到严重阻碍,这体现在参数数量的显著增加、需要的浮点运算以及延迟。尽管深度神经网络的巨大进步增加了人们在下游应用(如机器人技术和增强现实)中使用它们的兴趣,但这些应用需要计算效率高的替代方案。这篇论文关注的是设计高效的深度神经网络,具体来说,是在给定的计算约束下提高性能,或者在性能下降不大的情况下降低复杂性。首先,我们介绍了一种新颖的卷积操作重参数化及其在多任务学习中的应用。通过重参数化卷积操作,我们可以以总参数数量的一部分实现与单任务模型相当的性能。其次,我们进行了广泛的研究,评估自我监督任务作为多任务学习框架中的辅助任务的效果。我们发现,与自我监督任务一起训练目标任务可以提高性能和鲁棒性,常常优于有标签的辅助任务,而且不需要修改部署时使用的架构。

第三,我们提出了一种新颖的用于高效单物体视觉跟踪的变换器层。我们证明了实时单物体追踪器的性能可以在不影响延迟的情况下显著提高,同时始终优于其他变换器层。最后,我们研究了适应利用点检测和描述神经网络用于计算能力有限的平台的有效性。我们发现,网络组件的混合精度量化,结合二元描述符归一化层,可以在性能稍有下降的同时,至少提高一个数量级的稀疏3D地图的大小、匹配速度和推理速度。总结来说,这篇论文关注的是在计算限制下设计深度神经网络。随着对高效深度网络的兴趣和需求的增加,我们预见所提出的工作将为更高效的方法铺平道路,弥合与性能更好的替代方案之间的差距。

1. 引言

通过计算机自动视觉感知和理解物理世界是计算机视觉研究的一个基本目标。受人类视觉系统的启发,计算机视觉研究旨在构建能利用视觉输入(如图像)的算法,使机器能对视觉输入内容有高级理解。在这个范围内,研究关注的是自动提取、分析和理解重要且有用的信息。早期的计算机视觉尝试可以追溯到Lawrence Roberts的工作[Rob63],但直到David Marr的开创性工作,该领域才有了显著的改进[Mar76; Mar82]。Marr的框架遵循自下而上的场景理解方法,利用低级线索,如角和边缘,作为获得高级信息目标的基础模块。这个框架最早和最突出的例子之一是将Canny边缘检测器[Can86]与Hough变换[Bal81]结合,以获取形状信息,如线和圆。在各种任务上,如立体匹配[Mor81]、运动跟踪[HS+88; Har93]、图像匹配[Zha+95]和图像检索[SM97],利用低级线索的持续成功激发了对更强大、更描述性的低级特征的兴趣。一些最知名的手工特征提取器包括SIFT[Low04]、HOG[DT05]和SURF[BTG06]。将这些特征与机器学习方法(如SVM[CV95])结合,使得更具挑战性的高级任务,如图像分类成为可能[Csu+04; SWP05]。然而,这种特性的手动设计性质使得它们在设计假设不成立时变得次优。

受到手工特征提取器限制的启发,深度神经网络(DNNs)旨在通过直接优化期望的行为来联合学习自下而上的特征提取器和预测头,如分类器[LBH15]。DNNs基于线性函数、非线性激活函数和池化操作的组合。这些模型使用捕获期望的输出行为的成本函数进行优化,例如分类的交叉熵,和大规模数据集。自从Krizhevsky等人[KSH12]赢得了ImageNet分类挑战[Rus+15],大幅超过了使用传统手工特征提取器的方法,计算机视觉社区就大量采用了DNNs,尤其是卷积神经网络(CNNs)[LeC+89]。自那时以来,CNNs不仅被用来改进图像分类[SZ15; Sze+15; Sze+16; He+16; ZK16],还被用来执行广泛的任务。这些任务包括但不限于语义分割[YK16a; Che+17; Zha+17; Yu+18; Che+18a]、人体姿态估计[NYD16; Cao+17; Sun+19; Cao+19]、单目深度估计[Zho+17; Fu+18; God+19]、物体检测[Gir+14; Gir15; Ren+15; Red+16]和视觉物体跟踪[Ber+16; Bha+19]。

为了提高CNNs的表示能力,网络变得更深[SZ15; He+16]、更宽[ZK16; Sun+19],甚至用更具描述性的替代品替换卷积操作[Dos+21; Tol+21]。我们在图1.1a中描绘了随着时间推移在ImageNet分类基准[Rus+15]上的进展。如图所示,虽然随着时间的推移,我们看到了持续的性能提高,但这些进步往往以增加的计算复杂性为代价,例如参数的数量(图1.2a)和FLOPs的数量(图1.2b)。在一定程度上,这些进步主要需要高端的图形处理单元(GPUs)和张量处理单元(TPUs),这些通常可以在云服务器上找到。

DNNs的巨大进步进一步激发了人们对其在机器人、增强现实(AR)、虚拟现实(VR)、自动驾驶汽车、物联网(IoT)和移动电话[Sar+22]中的应用的兴趣。然而,云计算的限制阻止了其在这些应用中进行推理的使用。首先,不稳定或丢失的网络连接使得使用云处理成为不可能。其次,根据数据保护规定,如通用数据保护规定(GDPR)[Cus+19],禁止处理和存储敏感数据。最后,随着任何设备或服务的用户数量的增加,云服务器需要处理增加的数据传输以及增加的处理需求,使得云计算不可行且成本效益低。为了缓解这些问题,上述应用依赖于在板上处理,也称为边缘计算。DNNs的在板处理解决了云计算的所有限制,并有可能提供确定的和实时的体验[DD17]。然而,与云服务器、大型机和工作站不同,嵌入式平台有限的存储、内存、计算能力、电池寿命,且通常需要更快和更小的软件更新。这些限制可以,部分地,通过结合以下方法来解决,具体取决于设备特定的约束:

拓扑优化:拓扑优化旨在通过改变网络的架构来提高每操作的精度或每参数的精度。值得注意的例子包括MobileNets [How+17; San+18; How+19],ShuffleNets [Zha+18a; Ma+18],EfficientNets [TL19; TL21],等等 [Gho+18; Hua+18; Zop+18; Liu+18a; LSY18; Rad+20]。

硬件感知优化:嵌入式平台通常对全精度(FP)运算提供有限的甚至没有支持。此外,它们通常被优化为执行SIMD(单指令,多数据)整数(Int)运算 [Ign+18]。尽管标准的深度学习库使用32位FP表示法 [Pas+19; Mar+15],但对Int表示法的需求呼唤量化神经网络(QNNs)。通过用Int操作数替换FP,QNNs减少了相对于等效DNNs的存储和内存需求,同时复杂的FP运算可以被更简单的Int运算所替代。由于这些性质,QNNs可以以更高的吞吐量(每周期的操作数)和算术强度(每内存事务的算术操作数)执行 [CBD15; KS15; Ras+16; LZP17; Zhu+17; Liu+18b; Jac18; Nag+19; LS20]。

知识蒸馏:从一个大模型(称为“教师”)开始,目标是将知识转移到一个更适合部署的小模型(称为“学生”) [HVD15]。具体来说,这可能包括同一架构家族的模型之间的知识转移,从ResNet-101 [He+16] 到 ResNet-50 [He+16],也可能是不同的架构,例如从ResNet-101 [He+16] 到 MobileNet [How+17]。知识蒸馏可以被看作是两个网络之间的函数匹配,并在实践中展示了优异的结果 [HVD15; Rom+15; TV17; MM18; CH19; SS20; Xie+20; Bey+22]。

模型剪枝和分解:由于DNNs的过度参数化,剪枝方法旨在识别并消除网络中的冗余操作。这可能包括剪枝独立的神经元 [Han+15; HMD16],但通常整个过滤器都用新的具有规则形状的内核 [Li+17; Gor+18; Yan+18]。与剪枝类似,分解方法用低秩近似替换现有的过滤器。这可能是在二维过滤器上 [Den+14; JV 多任务学习:到目前为止讨论的方法主要关注于每个任务学习一个网络。不同的是,多任务学习(MTL)专注于用单个网络学习多个任务。MTL最初是为了通过利用额外相关任务的训练信号作为归纳偏差来提高目标任务的性能而提出的 [Car97]。然而,神经网络的自下而上的方法使得不同任务之间可以共享参数和计算,使它们成为不仅可以提高任务性能 [Mis+16; Xu+18; Ran+19; Hoy+21; Bru+21] ,也可以减少总参数数量和FLOPs [Kok17; RBV17; BV17; RPC17; RBV18; MRK19; Bru+20; Sta+20]的优秀框架。

成为VIP会员查看完整内容
52

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】高效自然语言生成,203页pdf
专知会员服务
31+阅读 · 2023年2月17日
【普林斯顿博士论文】构建高效深度神经网络,195页pdf
专知会员服务
62+阅读 · 2023年2月8日
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
46+阅读 · 2022年11月24日
【伯克利博士论文】硬件感知的高效深度学习,154页pdf
专知会员服务
70+阅读 · 2022年10月20日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【伯克利Alvin Wan博士论文】高效设计深度神经网络
专知会员服务
57+阅读 · 2022年5月21日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
121+阅读 · 2022年1月16日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月17日
Arxiv
0+阅读 · 2023年7月13日
Arxiv
12+阅读 · 2021年10月22日
VIP会员
相关VIP内容
【CMU博士论文】高效自然语言生成,203页pdf
专知会员服务
31+阅读 · 2023年2月17日
【普林斯顿博士论文】构建高效深度神经网络,195页pdf
专知会员服务
62+阅读 · 2023年2月8日
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
46+阅读 · 2022年11月24日
【伯克利博士论文】硬件感知的高效深度学习,154页pdf
专知会员服务
70+阅读 · 2022年10月20日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【伯克利Alvin Wan博士论文】高效设计深度神经网络
专知会员服务
57+阅读 · 2022年5月21日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
121+阅读 · 2022年1月16日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员