ICLR 2020 | Deformable Kernels,创意满满的可变形卷积核

2020 年 4 月 21 日 AI科技评论

论文提出可变形卷积核(DK)来自适应有效感受域,每次进行卷积操作时都从原卷积中采样出新卷积,是一种新颖的可变形卷积的形式,从实验来看,是之前方法的一种有力的补充。

作者 | VincentLee

编辑 | 贾    伟


论文地址:https://arxiv.org/abs/1910.02940 
代码地址:https://github.com/hangg7/deformable-kernels


本文首发于公众号:晓飞的算法工程笔记
传统的卷积由于存在硬性的规则,在对于物体放大或旋转时,不能作出适应性的改变,而可变形卷积则通过改变输入的采样位置来进行适应性的改变,即改变理论感受域。但理论感受域并不能度量像素对输出的贡献,相比理论感受域,更重要的是有效感受域(ERF),通过计算输出对应输入的偏导获得(与卷积权重相关),改变理论感受域只是改变有效感受域的一种手段。
为此,论文提出可变形卷积核(Deformable Kernels, DK),用于进行可变形建模的新型卷积操作,在推理时根据输入直接生成新的卷积核来改变有效感受域。如图d,DK学习卷积核的偏移来对原卷积进行重新采样,而不改变输入数据。从实验结果来看,DK对分类任务和检测任务都十分有效,结合旧的可变形卷积方法能产生更好的结果。

1


方 法
对有效感受域概念不感兴趣的可以直奔后面对可变形卷积核的描述,前面有效感受域的介绍不影响后面内容。

1、深入研究卷积

2D Convolution
大小为 ,stride为1的二维卷积操作如公式1,输出为目标区域像素与卷积核乘积的和,
Theoretical Receptive Field
卷积层单个输出相对于上一层的输入的感受域大小为卷积核大小 ,当卷积层叠加起来时,单个输出的对应的隔层感受域也会因此而叠加,得到的叠加区域即理论感受域,与卷积核大小 和网络深度 线性相关。
Effective Receptive Field
由于卷积的叠加以及非线性激活的引入,理论感受域内的像素对输出的贡献各不相同,可以使用有效感受域(ERF)来度量区域内每个像素对输出的影响,通过计算输出对应像素值的偏导得到,具体可以看参考论文。
2、有效接受域分析
这里主要分析如何根据输入和一系列卷积来计算有效感受域,先分析线性卷积网络的情景,再拓展到非线性卷积网络。
对于线性卷积网络,给定 为输入图片以及stride为1的 卷积权重合集 ,公式1可以展开为公式2,特征图 和卷积权重 的上标以及卷积核位置 的下标为层数
根据ERF的定义,输出坐标 对应输入坐标 的有效感受域值计算为公式3, 为指示函数。公式3的意义为所有从 的路径的权重和,权重的计算为卷积核权重的累积,有效感受域值跟输出的采样位置 、卷积核位置 以及卷积核权重 有关。
假设将第 个卷积核 替换为 卷积核 ,ERF的计算会变为公式4, 即不包含 层,这里每条路径权重直接乘上 ,因为 层只有一个路径,符合指示函数的路径必定包含
卷积可以看成分散在矩形区域内的 卷积,因此,公式3可以改写成公式5,将 层的 卷积看成多个 卷积,相对的输出位置也要进行相应的修改(这里应该为 比较合适)。
对于复杂的非线性卷积,在公式1中加入ReLU激活得到公式6,即每层卷积都接激活函数。
非线性版本的有效感受域值计算为上式,因子 使得ERF值变成与数据相关,实际中的有效感受域是不规则的形状,包含许多不规则分布的零值。
需要注意,公式4和公式5的计算是线性的,使得有效感受域值计算能与内核的线性采样操作兼容,比如使用双线性插值获得小数位置的内核值,即可以认为内核采样等对数据进行线性ERF采样(ERF与输出的采样位置 、卷积核位置 以及卷积核权重 有关),这种兼容性也可以相似地推广到非线性的情况下。基于以上的分析,论文提出可变形卷积核(Deformable Kernels, DK)。
3、可变形核(DK)
DK添加了可学习的核偏移值,使得输出的计算从公式1变为公式7,ERF的计算也变成了与核偏移值相关的公式8。由于偏移值通常包含小数,使用双线性插值来计算偏移后的值。
原卷积核的大小称为score size,一般DK对scope size是没有约束的,即可以从大小为 的原卷积中采样出 的新卷积,然后用于大小为 区域上。这样网络能够尽可能使用更大的原卷积而不会带来太多的额外计算,论文最大的原卷积为
如图2,DK有两种实现形式,全局模式和局部模式, 为可学习的核偏移值生成器,将输入块转换为内核的偏移值:
  • 全局模式 的实现为global average pooling层+全连接层,分别用于降维以及输出 个偏移值。
  • 局部模式 的实现为与目标卷积大小一样的卷积操作,输出为 维,最终输出为
全局模式更关注整体图片,根据整图进行核偏移,而局部模式则更关注图片的局部区域,对于小物体,生成形状特别的核(值差异大),从而使得ERF更密集,而对于大物体,生成较扁平的核(值差异小),使得ERF更广阔。一般情况下,局部模式的自由度更高。
4、可变形核的计算流程
图5展示了局部DK的计算示意图,偏移值生成器根据输入生成偏移值,将目标卷积的点均匀平铺在原卷积中,然后根据偏移值进行偏移,使用双线性插值计算偏移后的权重更新目标卷积,最后使用目标卷积对输入进行卷积输出。
前向时,给予原卷积 和学习到的卷积核偏移 ,结合双线性插值 生成目标卷积 ,然后使用目标卷积对输入进行常规的卷积输出。
DK的反向传播需要生成3种梯度:
  • 前一层特征图的梯度
  • 当前层原生卷积的梯度
  • 当前层偏移值生成器的梯度
前两种的计算方法与普通的卷积一样,第三种则使用公式13结合双线性插值的计算方法。

5、可变形卷积连接

DK的核心是学习适应输入的偏移值来原卷积进行采样,从而达到可变形的目的,整体思想可能与可变形卷积类似。
可变形卷积的计算如公式9,主要是对数据进行偏移,而有效感受域则为公式10。如前面说到的,有效感受域与输出的采样位置以及卷积核位置有关,这在一定程度上了解释可变形卷积为何适用于学习形状多变的目标。
假设同时对数据和核进行偏移,输出的计算以及有效感受域的计算如公式11,尽管两种方法的目的是类似的,但在实际中发现,两种方法协作能够带来很好更好的效果。

2


实 验
实验主要针对深度卷积(depthwise convolutions)进行优化,内核偏移不能超过越过score size。基础模型为ResNet-50-DW和MobileNetV2,对比实验加入条件卷积(Conditional Convolutions)和可变形卷积(Deformable Convolutions)的对比。

1、图像分类

2、目标检测

3、可变形核学习什么?

将MobileNet-V2的最后一层卷积进行t-SNE降维得到可视化结果,点的颜色为类别(10类)或bbox尺寸(10等分),对比DK和条件卷积,条件卷积学习到语义相关的特征,而DK则学习到尺寸相关的特征,这解释了前面的实验两种方法同时使用效果更好。
对不同的卷积的有效感受域进行了可视化,可变形卷积与DK都能产生类似的适应ERF,但可变形卷积倾向于更广阔的响应,DK则倾向于集中在物体内部,两者结合效果最佳。
3


结 论

论文提出可变形卷积核(DK)来自适应有效感受域,每次进行卷积操作时都从原卷积中采样出新卷积,是一种新颖的可变形卷积的形式,从实验来看,是之前方法的一种有力的补充。


ICLR 2020 系列论文解读

0、ICLR 2020 会议动态报道


疫情严重,ICLR2020 将举办虚拟会议,非洲首次 AI 国际顶会就此泡汤

疫情影响,ICLR 突然改为线上模式,2020年将成为顶会变革之年吗?

火爆的图机器学习,ICLR 2020上有哪些研究趋势?


1、直播


回放 | 华为诺亚方舟ICLR满分论文:基于强化学习的因果发现



2、Oral
01. Oral | 一种镜像生成式机器翻译模型:MGNMT
02. Oral | 额外高斯先验目标,缓解负多样性无知
03. Oral | 引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL
04. Oral | 并行蒙卡树搜索,性能无损,线性加速,勇闯「消消乐」1000关!
05. Oral | 元强化学习迎来一盆冷水: 不比元Q学习好多少
06. Oral | 用群卷积建立深度、等变的胶囊网络
07. Oral | 谷歌推出分布式强化学习框架SEED,性能“完爆”IMPALA,可扩展数千台机器,还很便宜
08. Oral | Reformer ,一种高效的Transformer
09. Oral | 基于值函数的规划和强化学习的控制架构(视频直播)
10. Oral | 北大图灵班满分论文:基于计算约束下有用信息的信息论
11. Oral | 使用GAN进行高保真语音合成

3、Spotlight
01. Spotlight | 模型参数这么多,泛化能力为什么还能这么强?
02. Spotlight | 公平与精确同样重要!CMU提出学习公平表征方法,实现算法公平

03. Spotlight | 组合泛化能力太差?用深度学习融合组合求解器试试

04. Spotlight | 加速NAS,仅用0.1秒完成搜索

05. Spotlight | 华盛顿大学:图像分类中对可实现攻击的防御(视频解读)

06. Spotlight | 超越传统,基于图神经网络的归纳矩阵补全

07. Spotlight | 受启诺奖研究,利用格网细胞学习多尺度表达(视频解读)

08. Spotlight | 神经正切,5行代码打造无限宽的神经网络模型


4、Poster

01. Poster | 华为诺亚:巧妙思想,NAS与「对抗」结合,速率提高11倍

02. Poster | 抛开卷积,多头自注意力能够表达任何卷积操作
03. Poster | NAS 太难了,搜索结果堪比随机采样!华为给出 6 条建议
04.  Poster | 清华提 NExT 框架,用「神经元执行树」学习可解释性
05. Poster | 谷歌最新研究:用“复合散度”量化模型合成泛化能力
06. Poster | 完胜 BERT,谷歌最佳 NLP 预训练模型开源,单卡训练仅需 4 天
07. Poster |  FSNet:利用卷积核概要进行深度卷积神经网络的压缩
08. Poster | "同步平均教学"框架为无监督学习提供更鲁棒的伪标签
09. Poster | 快速神经网络自适应技术
10.  Poster | 引入随机扰动,提高智能体泛化能力


点击“ 阅读原文” 查看 CVPR 系列论文解读
登录查看更多
1

相关内容

【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
83+阅读 · 2020年6月21日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
57+阅读 · 2020年4月8日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
一文读懂图卷积GCN
计算机视觉life
21+阅读 · 2019年12月21日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
GCNet:当Non-local遇见SENet
极市平台
11+阅读 · 2019年5月9日
精选论文 | 图神经网络时间节点【附打包下载】
人工智能前沿讲习班
17+阅读 · 2019年5月6日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
CNN之卷积层
机器学习算法与Python学习
8+阅读 · 2017年7月2日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
3+阅读 · 2019年3月15日
Single-frame Regularization for Temporally Stable CNNs
Arxiv
24+阅读 · 2018年10月24日
Labeling Panoramas with Spherical Hourglass Networks
Arxiv
9+阅读 · 2018年5月24日
VIP会员
相关资讯
一文读懂图卷积GCN
计算机视觉life
21+阅读 · 2019年12月21日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
GCNet:当Non-local遇见SENet
极市平台
11+阅读 · 2019年5月9日
精选论文 | 图神经网络时间节点【附打包下载】
人工智能前沿讲习班
17+阅读 · 2019年5月6日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
CNN之卷积层
机器学习算法与Python学习
8+阅读 · 2017年7月2日
相关论文
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
3+阅读 · 2019年3月15日
Single-frame Regularization for Temporally Stable CNNs
Arxiv
24+阅读 · 2018年10月24日
Labeling Panoramas with Spherical Hourglass Networks
Arxiv
9+阅读 · 2018年5月24日
Top
微信扫码咨询专知VIP会员