CVPR 2022 | DyRep让重参数化机制动态调整，涨点同时还减少训练耗时 - 专知

会员服务 ·

0

CVPR 2022 | DyRep让重参数化机制动态调整，涨点同时还减少训练耗时

2022 年 3 月 28 日 极市平台

↑ 点击蓝字关注极市平台

作者丨happy

来源丨AIWalker

编辑丨极市平台

极市导读

已有的结构重参数方案均是对所有操作通过重参数机制进行结构增广，这种“静态”处理机制会导致了昂贵的训练代价。为解决该问题，本文设计了一种DyRep方案以最小代价引导训练，DyRep将重参数技术编码到训练过程中对网络结构进行动态进化。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

结构重参数(Structural Re-parameterization)已在多领域证实了其优秀的"涨点"优势，相关研究有如下几篇：

已有的方案均是对所有操作通过重参数机制进行结构增广，这种“静态”处理机制会导致了昂贵的训练代价。为解决该问题，本文设计了一种DyRep(Dynamic Re-parameterization)方案以最小代价引导训练，DyRep将重参数技术编码到训练过程中对网络结构进行动态进化。相比“静态”重参数机制，本文所提DyRep效率更高：它可以对给定网络平滑进化而非构建一个过参数化网络。DyRep可以提升ResNet18的性能达2.04%，同时训练耗时降低22%。

1 Method

关于结构重参数可行的指导准则可参考DBB一文中的描述，这里不再赘述，我们仅对DyRep的核心思想进行简单介绍。CVPR2021|“无痛涨点”的ACNet再进化，清华大学&旷视科技提出Inception类型的DBB

上述给出了本文所提DyRep方案示意图，它聚焦于在训练阶段对网络贡献最大的分支进行自适应增广，而非常规的训练前“静态”增广方式。

Minimizing Loss with Dynamic Structures

在DyRep中，不同分支的贡献通过其梯度信息评估，也就是说：小梯度对应低贡献，进而代表分支冗余。DyRep的评估方案是在_synflow_基础上扩展而来，表示如下：

注: 表示分支的参数。通过上述公式，我们逐渐对贡献最大的分支进行重参数扩展，这意味着：该方案可以进行递归重参数化以达成更丰富的表示形式。

上图给出了本文所用到的重参数流程：在定位到最重要的分支后，我们采用重参数技术将其从单一卷积扩展为DyRep模块，扩展分支的参数随机初始化。为确保扩展前后的等价性，对其参数进行如下处理：

注：表示增广分支的随机初始化参数。此外，为稳定训练，我们对所添加的BN层参数进行如下设置：。对于均值与标准差两个统计信息，我们进行20个batch的统计校正。

De-parameterizing for Better Efficiency

除了对最重要的分支进行重参数扩展外，我们还需要不重要的分支进行去冗余，称之为de-parameterization(Dep)。此时，我们将要移除的分支参数折叠到最重要分支中:

Progressive Training with Rep and Dep

上图给出了DyRep训练流程说明，通过组合Rep与Dep，网络结构可以进行更高效的增广。具体来说，DyRep每t个epoch重复一次Rep与Dep操作：

Rep：它包含最重要分支的选择、扩展以及参数修正；
Dep：它包含冗余分支定位、移除以及参数修正。

2 Experiments

上表给出了ImageNet+ResNet基线上DBB与DyRep的性能对比，从中可以看到：相比DBB，所提方案可以取得显著性能提升，同时需要训练耗时更短。

上表给出了所提方案与RepVGG以及RepNAS的性能对比，从中可以看到：相比RepVGG与RepNAS，DyRep取得了更高的精度。比如DyRep-B3取得了81.12%，比RepVGG-B3高0.6%，比RepNAS高0.15%。

上表给出了下游任务上的性能对比，从中可以看到：相比DBB方案，所提方案可以取得更高的性能提升。

公众号后台回复“数据集”获取100+深度学习数据集下载～

△点击卡片关注极市平台，获取最新CV干货

极市干货

数据集资源汇总： 10个开源工业检测数据集汇总｜ 21个深度学习开源数据集分类汇总

算法trick ：目标检测比赛中的tricks集锦｜从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

技术综述：一文弄懂各种loss function ｜工业图像异常检测最新研究总结（2019-2020）

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

2

相关内容

重参数化

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

【ICML2021】 One-shot 权重共享神经网络结构搜索算法

专知会员服务

18+阅读 · 2021年8月4日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

18+阅读 · 2020年8月23日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVer

1+阅读 · 2022年4月11日

CVPR 2022 | 超越Transformer！FAIR重新设计纯卷积架构：ConvNeXt

CVPR 2022 | 超越Transformer！FAIR重新设计纯卷积架构：ConvNeXt

CVer

1+阅读 · 2022年3月5日

性能大幅提升！消除图像复原中的“misalignment”

性能大幅提升！消除图像复原中的“misalignment”

极市平台

1+阅读 · 2021年12月29日

神操作！RM让ResNet等价转换为Plain架构

神操作！RM让ResNet等价转换为Plain架构

极市平台

0+阅读 · 2021年11月6日

反向 Dropout！韩松团队最新工作NetAug：提高Tiny神经网络性能的新训练方法

反向 Dropout！韩松团队最新工作NetAug：提高Tiny神经网络性能的新训练方法

极市平台

1+阅读 · 2021年10月22日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于模型检测的软件动态演化一致性保障机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

可变带宽交换光网络的自适应机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模计算网络并行任务调度模型及其参数方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

激光熔池同步送进混合元素粉末的合金化机理

国家自然科学基金

0+阅读 · 2008年12月31日

Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments

Arxiv

0+阅读 · 2022年4月20日

Rendering Nighttime Image Via Cascaded Color and Brightness Compensation

Arxiv

0+阅读 · 2022年4月19日

MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text Classification

Arxiv

0+阅读 · 2022年4月18日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

VIP会员

相关主题

北京旷视科技有限公司

相关VIP内容

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

【ICML2021】 One-shot 权重共享神经网络结构搜索算法

专知会员服务

18+阅读 · 2021年8月4日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

18+阅读 · 2020年8月23日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVer

1+阅读 · 2022年4月11日

CVPR 2022 | 超越Transformer！FAIR重新设计纯卷积架构：ConvNeXt

CVPR 2022 | 超越Transformer！FAIR重新设计纯卷积架构：ConvNeXt

CVer

1+阅读 · 2022年3月5日

性能大幅提升！消除图像复原中的“misalignment”

性能大幅提升！消除图像复原中的“misalignment”

极市平台

1+阅读 · 2021年12月29日

神操作！RM让ResNet等价转换为Plain架构

神操作！RM让ResNet等价转换为Plain架构

极市平台

0+阅读 · 2021年11月6日

反向 Dropout！韩松团队最新工作NetAug：提高Tiny神经网络性能的新训练方法

反向 Dropout！韩松团队最新工作NetAug：提高Tiny神经网络性能的新训练方法

极市平台

1+阅读 · 2021年10月22日

相关基金

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于模型检测的软件动态演化一致性保障机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

可变带宽交换光网络的自适应机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模计算网络并行任务调度模型及其参数方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

激光熔池同步送进混合元素粉末的合金化机理

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments

Arxiv

0+阅读 · 2022年4月20日

Rendering Nighttime Image Via Cascaded Color and Brightness Compensation

Arxiv

0+阅读 · 2022年4月19日

MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text Classification

Arxiv

0+阅读 · 2022年4月18日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员