Dynamic model pruning is a recent direction that allows for the inference of a different sub-network for each input sample during deployment. However, current dynamic methods rely on learning a continuous channel gating through regularization by inducing sparsity loss. This formulation introduces complexity in balancing different losses (e.g task loss, regularization loss). In addition, regularization-based methods lack transparent tradeoff hyperparameter selection to realize computational budget. Our contribution is twofold: 1) decoupled task and pruning training. 2) Simple hyperparameter selection that enables FLOPs reduction estimation before training. We propose to predict a mask to process k filters in a layer based on the activation of its previous layer. We pose the problem as a self-supervised binary classification problem. Each mask predictor module is trained to predict if the log-likelihood of each filter in the current layer belongs to the top-k activated filters. The value k is dynamically estimated for each input based on a novel criterion using the mass of heatmaps. We show experiments on several neural architectures, such as VGG, ResNet, and MobileNet on CIFAR and ImageNet datasets. On CIFAR, we reach similar accuracy to SOTA methods with 15% and 24% higher FLOPs reduction. Similarly in ImageNet, we achieve a lower drop in accuracy with up to 13% improvement in FLOPs reduction.


翻译:动态模型运行是一个最新方向,它允许在部署期间对每个输入样本进行不同的子网络子网络的推断。 然而,当前动态方法依赖于通过诱导夸大损失来学习一个连续的通道,通过随机化进行正规化。 这种配方在平衡不同损失(例如任务丢失、正规化损失)中引入了复杂性。 此外,基于正规化的方法缺乏透明的取舍超参数选择来实现计算预算。 我们的贡献是双重的:1) 拆解任务和运行培训。 2 简单的超参数选择,使得 FLOP 能够在培训前进行削减估计。 我们提议根据前一层的激活来预测一个层中处理 k 过滤器的遮罩。 我们作为自我监督的二进制分类问题提出这一问题。 每一个基于正规化方法( 如任务丢失、正规化、正规化), 每个基于正规化的过滤器的对当前层中每个过滤器的日志进行预测, 是否属于顶级的激活过滤器 。 我们用热测图的质量来动态估计每项输入的价值。 我们演示了几个神经结构结构, 如 VG、 ResONet 和移动网络 24 FARL 和图像网络 降低 的系统 15 的系统, 我们的精确 将达到 CIFAR 。

0
下载
关闭预览

相关内容

专知会员服务
19+阅读 · 2021年5月4日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
专知会员服务
49+阅读 · 2020年6月14日
专知会员服务
60+阅读 · 2020年3月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
YOLOv4 最强PyTorch复现来了!
CVer
3+阅读 · 2020年7月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
7+阅读 · 2021年10月12日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年5月16日
VIP会员
相关VIP内容
专知会员服务
19+阅读 · 2021年5月4日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
专知会员服务
49+阅读 · 2020年6月14日
专知会员服务
60+阅读 · 2020年3月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
相关资讯
YOLOv4 最强PyTorch复现来了!
CVer
3+阅读 · 2020年7月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员