CVPR 2017最佳论文得主刘壮博士论文:从另一视角看神经网络架构

2022 年 8 月 28 日 PaperWeekly


©作者 |  陈萍、杜伟
来源 | 机器之心



深度学习的基本原理可以追溯到几十年前,20 世纪 80 年代 Geoffrey Hinton 等人提出了基于梯度的反向传播学习算法,而 ConvNets 从早期就被应用于手写数字识别等计算机视觉任务。然而,深度学习的真正威力直到 2012 年才显露出来,那年 AlexNet 赢得了 ImageNet 大规模图像分类挑战赛。

之后数据可用性的提高、计算技术的进步和算法的改进使得深度学习持续取得成功。随着最近大型模型的兴起,这一领域的快速发展还没有显示出放缓的迹象。

深度学习不仅对我们的日常生活产生了显著的影响,还改变了机器学习从业者和研究人员的工作流程。新的设计原则不断被提出,例如 ResNet 引入残差连接、 Transformers 采用多头自注意力等。在算法不断发展的过程中,效率和可扩展性是两个不能忽视的概念,让视觉模型变得既小又大又成为另一需求。

怎样理解既小又大呢?小模型代表对效率的需求,因为视觉识别系统通常部署在边缘设备上;大型模型突出对可扩展性的需求,其可以利用日益丰富的计算和数据来实现更高的准确率。最近几年这两个方向的研究都取得了卓越成效,产生了许多有用的设计原则被后来的研究所采用。

本文中,来自 UC 伯克利的博士生刘壮(Zhuang Liu)在其博士论文《 Efficient and Scalable Neural Architectures for Visual Recognition 》中,从两个方面展开研究:1)开发直观的算法以实现高效灵活的 ConvNet 模型推理;2)研究基线方法以揭示扩展方法成功的原因。

具体而言,首先,本文介绍了关于密集预测的第一个随时算法研究。然后,该研究将模型剪枝算法与简单的基线方法进行比较来检查模型的有效性。最后研究者提出了这样一个问题,即通过采用 Transformer 中的设计技巧对传统的 ConvNet 进行现代化改造,来测试纯 ConvNet 所能达到的极限,并探索在视觉任务上自注意力机制在 Transformer 中的可扩展性上所起的作用。


论文标题:
Efficient and Scalable Neural Architectures for Visual Recognition

论文链接:

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.pdf

本文除了提出一个新架构外,该研究还从批判的角度对被认为是微不足道或老式基线的方法或模型进行实证研究,发现当提供正确的技术时,它们具有惊人的竞争力。

刘壮(Zhuang Liu)现在是 UC 伯克利 EECS(电气工程与计算机科学) 的博士生,由 Trevor Darrell 教授指导。此外,他还在 Meta AI Research(原 Facebook AI Research )担任兼职学生研究员。也曾在康奈尔大学、英特尔实验室和 Adobe Research 担任访问研究员或实习生。他于 2017 年在清华大学姚班获得学士学位。

刘壮的研究重点是准确和高效的深度学习架构 / 方法,他对开发简单的方法和研究基线方法特别感兴趣。他还是大名鼎鼎 DenseNet 的共同一作,凭借论文《Densely Connected Convolutional Networks》,摘得 CVPR 2017 最佳论文奖。






章节内容简介


第二章:基于置信的随时密集预测

本文介绍了一种随时密集视觉识别方法,它可以让神经网络推理更加灵活。随时推理需要一个模型对随时可能的停止进行一系列预测。先前关于随时视觉识别的研究主要集中在图像分类领域。作者提出了 首个用于随时密集预测的统一和端到端方法 。一连串的 exit 被附加到模型上以进行多个预测。作者重新设计了 exit,以考虑每个 exit 的特征的深度和空间分辨率。

为了减少总计算量并充分利用先前预测,作者开发了一种全新的空间自适应方法,以避免在早期预测已经足够置信的区域上进行进一步计算。这一方法被命名为基于置信的随时密集预测(anytime dense prediction with confidence, ADP-C),它达到了与基础模型相同的最终准确率水平,同时显著减少了总计算量。

ADP-C 方法概览。

作者在 Cityscapes 语义分割和 MPII 人体姿态估计数据集上评估了所提方法,结果表明,ADP-C 可以在不牺牲准确率的情况下随时进行推理,同时还将基础模型的总 FLOPs 减少 44.4% 和 59.1%。作者还与基于深度平衡网络和基于特征的随机采样进行的随时推理进行比较,表明 ADP-C 在准确率 - 计算曲线上始终占有优势。

本章目录如下:



第三章:重新思考网络剪枝的价值

与上章中的自适应计算随时推理方法相比,静态神经网络剪枝方法试图通过与输入无关的方式减少神经网络的计算量。由于自身具有的简单性、有效性以及有时更好的硬件兼容性,这类方法通常在实践中用于缩小模型。在本章中,作者试图 了解静态神经网络剪枝方法成功背后的底层机制

典型的剪枝算法是一个三段式的 pipeline,分别为训练(大模型)、剪枝和微调。在剪枝过程中,根据一定的标准对冗余权重进行剪枝,并保留重要的权重,以保持最佳准确率。在这项工作中,作者提出了一些与常见看法相悖的观察结果。对于其检查过的所有 SOTA 结构化修剪算法, 对修剪后的模型进行微调只能得到与使用随机初始化权重训练模型相当或更差的性能 。对于假设预定义目标网络架构的剪枝算法,则可以摆脱整个 pipeline 并直接从头开始训练目标网络。

作者的观察结果对于多个网络架构、数据集和任务是一致的,这意味着:1)通常不需要训练大型、过度参数化的模型来获得高效的最终模型;2)学得的大模型的「重要」权重通常对小型剪枝模型没有用处;3)对最终模型的效率更关键的是剪枝后的架构本身,而非一组继承的「重要」权重。这表明在某些情况下,剪枝可能作为架构搜索范式产生作用。 

结果表明,未来结构化剪枝方法的研究中需要进行更仔细的基线评估。作者还与「彩票假设」(Lottery Ticket Hypothesis)进行了比较,发现在最佳学习率下,彩票假设中使用的「中奖彩票」初始化并没有带来随机初始化的改进。

本章目录如下:




第四章:A ConvNet for the 2020s

剪枝是一种流行的缩小模型的方法。在上章中,作者通过实证研究证明了结构化剪枝的真正价值不是获得一组特定的权重值,而是识别出一个有用的子架构。在本章中,作者 将注意力转向扩展计算机视觉神经架构

一个经典的例子是 ResNets,它提出了残差连接。将没有残差连接的「普通」网络扩展到数十层会导致训练损失增加,更不用说测试准确率变差了。然而,一个具有残差连接的 ResNet 可以扩展到 100 多层,同时改进了训练损失和测试准确率。之后,Vision Transformers 开始显现出比基于卷积的 ResNet 更大的可扩展性。作者试图通过与现代化 ConvNet 的比较,来了解 Transformers 扩展成功的背后是什么。

作者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限,并逐渐将标准 ResNet「升级(modernize」为视觉 Transformer 的设计,在过程中发现了导致性能差异的几个关键组件。作者将一系列纯 ConvNet 模型命名为 ConvNeXt。 ConvNeXt 完全由标准 ConvNet 模块构建,并且在准确率和可扩展性方面,ConvNeXt 取得了媲美 Transformer 的结果 ,达到 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer,同时保持标准 ConvNet 的简单性和有效性。

本章目录如下:




更多详细内容请参阅原论文。




更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

登录查看更多
1

相关内容

【牛津大学博士论文】鲁棒神经网络:评估与构建
专知会员服务
34+阅读 · 2022年10月23日
【伯克利博士论文】硬件感知的高效深度学习,154页pdf
专知会员服务
73+阅读 · 2022年10月20日
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
专知会员服务
24+阅读 · 2021年7月11日
轻量级神经网络架构综述
专知会员服务
96+阅读 · 2020年4月29日
谷歌:一篇论文,让研究者吃我三份安利
夕小瑶的卖萌屋
8+阅读 · 2021年9月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月25日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
【牛津大学博士论文】鲁棒神经网络:评估与构建
专知会员服务
34+阅读 · 2022年10月23日
【伯克利博士论文】硬件感知的高效深度学习,154页pdf
专知会员服务
73+阅读 · 2022年10月20日
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
专知会员服务
24+阅读 · 2021年7月11日
轻量级神经网络架构综述
专知会员服务
96+阅读 · 2020年4月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员