ResNet才是YYDS!新研究:不用蒸馏、无额外数据,性能还能涨一波

2021 年 10 月 8 日 PaperWeekly


©作者 | 杜伟、张倩

来源 | 机器之心



基线:我要是用上最新的训练流程,性能还能涨一波。


在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network,深度残差网络)一直被视为经典架构,它解决了深度 CNN 模型难训练的问题,是 CNN 图像史上的一个里程碑之作。

自提出以来,ResNet 系列模型一直被用作研究中的默认架构,或者新模型提出时用来对比的基线。然而,在过去的几年里,神经网络训练方面的最佳实践已经取得了很大进展。新颖的优化、数据增强等方法提高了训练流程的有效性。

在这篇论文中,独立研究者 Ross Wightman 以及 Facebook AI、索邦大学的两位研究者重新评估了普通 ResNet-50 在加入上述训练进展之后所能达到的性能。


论文链接:
https://arxiv.org/pdf/2110.00476.pdf

具体而言,研究者重新评估了使用不同训练方法时普通 ResNet-50 的性能,并在 timm 开源库中分享了有竞争力的训练设置和预训练模型,希望它们可以成为未来研究工作的更好基线。例如,在 ImageNet-val 数据集上,使用研究者更高要求的训练设置,并在无额外数据或蒸馏的情况下,普通 ResNet-50 在分辨率 224×224 下实现了 80.4% 的 top-1 准确率。



此外,研究者还报告了其他流行模型使用他们的训练流程时取得的性能结果。

基线也需要与时俱进

在过去的十几年里,人们已经见证了图像分类领域的很多重大进展,这些反映在了 ILSVRC’2012 挑战赛或其他图像分类基准测试结果的改进上。从原理上来讲,性能的提升反映了社区对下面这个问题的最大化求解:


A 为架构设计,T 为训练设置和超参数,N 为测量噪声,其中还包括从大量超参数或方法中选择最大值时经常出现的过拟合。降低 N 的良好做法有几种,比如使用不同的 seed 测量标准差、使用单独的评估数据集或者在迁移任务上对模型进行评估。

暂且撇开 N 不谈,评估 A 或 T 上的进展也构成了一个挑战,这是因为它们的进展随时间推移而变化。当在 (A, T ) 上进行联合优化时,无法保证给定架构 A_1 的最优选择 T_1 依然是另一模型设计 A_2 的最佳选择。因此,即使是在同一训练流程下比较模型时,人们也可能隐式地偏爱某一个模型。

将训练流程与架构各自带来的改进分开的一个好处是确保基线包含来自文献的新「成分」,并在调整超参数方面付出合理的努力。理想状态下,如果没有资源和时间限制,人们可以为每个架构适配最佳的训练流程,如下公式(1)所示:


但在现实中,这种理想状态是不可能的。当比较架构时,大多数论文往往与以往发表论文中的结果进行比较,但被比较的这些架构使用的通常是相对较弱的训练流程,最好的情况下也仅仅是使用类似或相同的流程。

本文作者表示,他们还没有发现专门通过广泛的成分选择和超参数搜索来提升 ResNet-50 训练流程的研究努力。在以往的文献中,ImageNet-1k-val 上报告的针对 ResNet-50 架构的性能范围区间为 75.2% 到 79.5%,具体取决于论文本身。目前还不清楚是否已经投入足够的努力来进一步推动基线。因此,研究者想要填补这方面的研究空白。

研究者探究的是何恺明等人提出的普通 ResNet-50 架构。他们优化训练流程以最大化该模型在原始测试分辨率 224 × 224 下的性能。这里只考虑训练流程(training recipe)。因此,研究者排除了 ResNet-50 的所有变体,如 SE-ResNet-50 或 ResNet-50-D,这些变体通常会在相同的训练流程下提升准确率。

3 种不同的训练流程

研究者提出了 3 种具有不同成本和性能的训练流程,以覆盖不同的用例,下表 1 展示了 3 种训练流程的资源使用情况和 top-1 准确率结果。


这 3 种训练流程以实现测试分辨率 224 × 224 下 ResNet-50 的最佳性能为目标。研究者探索了很多使用不同优化器、正则化以及超参数合理网格搜索数量的变体。其中,他们主要关注以下三个不同的训练流程:

  • 流程 A1 旨在为 ResNet-50 提供最佳性能,因此 epoch 数量最多(600),训练时间最长(在一个配有 4 个 V100 32GB GPU 的节点上训练 4.6 天)

  • 流程 A2 的 epoch 数量为 300,可与 DeiT 等其他几个优秀训练流程媲美,但批大小更大(2048)。

  • 流程 A3 旨在通过 100 个 epoch 和 2048 的批大小超越普通 ResNet-50 的流程,它在 4 个 V100 16GB GPU 上训练了 15 个小时,并且可能是探索性研究的良好设置。


如下表 2 所示,研究者将用于训练普通 ResNet-50 的不同方法与他们的方法进行了比较,其中只考虑修改了未修改的 ResNet-50 架构(即不考虑其他变体)。此外,研究者不考虑使用蒸馏之类的高级训练设置,或者通过自监督或伪标签预训练的模型。


实验结果

上表 1 总结了文中提出的训练流程的主要特点。研究者表示,就他们所知,使用训练流程 A1 训练的一个普通 ResNet-50 架构在 224×224 分辨率的 ImageNet 图像测试中超越了 SOTA 模型。其他两个训练流程(A2、A3)虽然没有达到 A1 的水平,但也用较少的资源实现了较高的性能。

在下表 3 中,研究者记录了使用本文提出的训练流程训练其他架构时的效果,以测试这些训练流程在其他模型上的泛化能力。在某些情况下,研究者观察到 A2 要优于 A1,这表明超参数不适用于较长的 schedule(通常需要更多的正则化)。


在下表 4 中,研究者对表 3 中的结果进行了补充。


在下表 5 中,研究者记录了使用不同的预训练流程在 7 个细粒度数据集上得到的迁移学习性能数据,并与默认的 PyTorch 预训练进行了比较。总体来看,A1 在大多数下游任务中都达到了最好的性能。


更多细节请参见论文。



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

专知会员服务
16+阅读 · 2020年10月18日
深度神经网络模型压缩与加速综述
专知会员服务
127+阅读 · 2019年10月12日
通过 TensorFlow Similarity 自监督学习提高模型准确率
谷歌开发者
2+阅读 · 2022年3月3日
让PyTorch训练速度更快,你需要掌握这17种方法
机器之心
1+阅读 · 2021年1月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
25+阅读 · 2017年12月6日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员