图像/视频去噪中的Deformable Kernels

2019 年 8 月 14 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

作者:CV路上一名研究僧

https://zhuanlan.zhihu.com/p/76791923

本文已由作者授权,未经允许,不得二次转载


1. 简介

这是一篇源自商汤(SenseTime)的论文,文章题目"Learning Deformable Kernels for Image and Video Denoising"。与KPN、MKPN(传送门)相似,也是一种基于核预测的去噪模型,整体上,网络结构也比较相似,不同点在于,预测出的Kernels对于周围像素点的权重,以及周围像素点的选择方式。本文源码将会开源至Github,敬请期待~

https://github.com/z-bingo/Deformable-Kernels-For-Video-Denoising

从BM3D这类经典的传统图像去噪方式起,不同方法之间的最大区别就在于如何用一种有效的方式选择合适的像素点、以及如何定义这些像素点的权重,进而对这些像素点加权平均可得到近似“干净”的图像,也就达到了图像去噪的目的。

就KPN和MKPN而言,网络的输出是per-pixel的自适应卷积核,KPN仅预测单一尺寸的卷积核;而MKPN可以同时预测多个尺寸的卷积核,进而适应含噪图像中物体的不同尺度,达到既可以较好地保留细节、又可以平滑平坦区域的目的。这篇文章提出的DKPN(暂且称之为DKPN),亦是如此,预测出per-pixel的自适应卷积核,但是对于可变形卷积来说,不仅包含weights和bias两部分,还会包含offsets,用于指示“周围像素”是指哪些像素,打破了传统卷积运算对于方形领域的定义。通过这种方式,可以在采样点有限的情况下,尽可能地增大kernels的感受野,有利于高效地利用图像中的信息。Deformable Kernels和传统的Kernels异同可通过下图体现:

Deformable Kernels

2. Deformable Convolution

本节通过尽可能简短、简洁的语言来介绍2D以及3D可变形卷积的原理,以及工作方式。

2.1 2D Deformable Convolution

对于一个已知的图像X,在去噪任务中可认为是含噪声的图像,那么,卷积核在该图像上卷积可表示为

其中,  表示在图像中的坐标,  表示卷积核的个数,  表示卷积核的采样偏移点,对于传统的方形领域,由  构成的集合为(以  的卷积核为例):

基于传统卷积理论,可变形卷积在采样偏移点上额外叠加了一个可以学习的offsets参数,将规则采样问题变为了一个不规则采样问题,若将offests表示为  ,2D可变性卷积可表示为:

在此,有一个问题需要注意,由于offsets是学习得到的偏移量,因此,其一般不会是整数,而是小数,意味着要采样的点不处于规则的像素上。此时,就要通过双线性插值等插值算法根据规则的像素点进行插值,得到想要坐标点的像素值。

2.2 3D Deformable Convolution

与2D可变形卷积相似,3D可变性卷积就是3D卷积的拓展,在3D卷积的基础上添加三个可学习的offsets。传统3D卷积一般可用于Volume数据的处理中,对应于去噪领域,即多帧图像去噪或视频去噪,此时网络的输入可以看做  ,分别表示batch_size,输入图像的数量或视频的帧数,颜色通道数以及长和宽,3D卷积会作用于颜色通道、长和宽三个维度。那么,对于3D可变性卷积来说,除了长和宽两个维度的offsets之外,第三个offsets就成了帧与帧之间的偏移,这样就会更有利与网络在不同的帧之间提取有用的信息,对于充分利用连续的视频帧之间的冗余信息是非常有效的。3D可变形卷积可表示为:

对于非规则的采样点,在三维空间中通常通过三线性插值来实现。

3. DKPN网络结构

DKPN网络结构图

上图是DKPN网络结构图,其主干网络也是一个基于U-Net的Encoder-Decoder结构,由于可变性卷积多了额外的offsets参数需学习,与KPN不同,U-Net的输出不再是自适应卷积核的权重,可是offsets;offsets经过Sampler采样后,与输入的多帧含噪声图像concat到一起,再经过几个卷积层后可得到自适应卷积核的weights。此时,将刚刚采样得到的图像与weigths相乘便可得到去噪后图像。

需要注意的是,当去噪任务为单帧图像去噪时,每个像素点有两个需要需要的offset,而视频去噪时有三个offsets需要学习。

KPN中,作者采用了退火项作为Loss函数的一部分,单独为每帧输入图像预测去噪后的图像,这是为了防止网络很快收敛至一个局部极小值,使得参考帧之外的图像帧在输出去噪图像中几乎不起作用。相似的思想在DKPN中也得到了使用,对于输出的N个采样点,DKPN会将其分为s个组,每个组相互独立地预测去噪后的干净图像,并作为loss函数的退火项,这样就可以有效防止网络很快收敛至局部最小值。将输入图像序列经过Sampler后的图像分为s组,每组平均包含  个采样点,分别表示为  ,那么,相互独立的去噪后图像可以表示为:

loss函数可以表示为:

4. 实验结果

文中部分实验结果如下:


Reference

Learning Deformable Kernels for Image and Video Denoising

https://arxiv.org/abs/1904.06903


重磅!CVer-去噪学术交流群成立啦


扫码添加CVer助手,可申请加入CVer-去噪学术交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如去噪+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看

登录查看更多
3

相关内容

【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
CCNet--于"阡陌交通"处超越恺明 Non-local
极市平台
6+阅读 · 2019年2月17日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
模型汇总23 - 卷积神经网络中不同类型的卷积方式介绍
深度学习与NLP
5+阅读 · 2017年10月12日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
3+阅读 · 2017年10月1日
Arxiv
4+阅读 · 2017年7月25日
VIP会员
相关资讯
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
CCNet--于"阡陌交通"处超越恺明 Non-local
极市平台
6+阅读 · 2019年2月17日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
模型汇总23 - 卷积神经网络中不同类型的卷积方式介绍
深度学习与NLP
5+阅读 · 2017年10月12日
Top
微信扫码咨询专知VIP会员