【速览】ICCV 2021丨MVSS-Net: 基于多视角多尺度监督的图像篡改检测

2021 年 9 月 3 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

MVSS-Net: 基于多视角多尺度监督的图像篡改检测

陈欣茹

^{1*}

, 董程博

^{1*}

, 季家琦

^{1}

, 曹娟

^{2}

, 李锡荣

^{1+}

^{1}

中国人民大学信息学院，

^{2}

中科院计算所

ICCV 2021

撰稿人：陈欣茹，董程博

通讯作者：李锡荣（xirong@ruc.edu.cn）

推荐理事：林宙辰

原文标题：Image Manipulation Detection by Multi-View Multi-Scale Supervision

原文链接：https://arxiv.org/abs/2104.06832

原文代码链接: https://github.com/dong03/MVSS-Net

◆ ◆ ◆ ◆

摘要

近年来数字媒体已经成为我们日常生活的一部分，数字媒体内容真伪鉴别的重要性日渐凸显。针对图像篡改检测（image manipulation detection) 任务，本论文提出了一种新的基于多视角 (multi-view)、多尺度 (multi-scale) 监督的图像篡改检测模型 MVSS-Net。为了兼顾模型在篡改图像检测上的灵敏度和在真实未篡改图像上的特异度，MVSS-Net 一方面利用语义无关的图像噪声分布特征和边界特征实现篡改区域的准确定位，另一方面引入图像级分类损失使得模型可以直接在真实图像上进行学习。在五个公开数据集上的大量实验验证了 MVSS-Net 的有效性。

背景

学界通常将容易造成视觉误解的图像篡改划分为Copy-move（在同一张图内，复制并移动某一区域）, Splicing（从一个图像复制区域到另一图像）和 Inpainting（删除图片内不必要的元素）三种类型[1,7]。本文的目标是自动检测这些类型的操作图像，区分出真实和被篡改图像，并且在像素水平上精确地定位被篡改的区域。

注意到特定图像区域是否存在篡改与其语义内容并不存在必然联系。而现有的语义分割网络通常着力于捕获特定训练集所蕴含的语义信息，使得网络往往过度依赖数据集而降低其泛化能力。之前的研究[2]已经显示，在CASIAv2数据集[3]上训练的DeepLabv2分割网络，在与CASIAv2同源的CAISAv1数据集上表现良好，而在非同源的COVER数据集[4]上表现较差。此外，现有SOTA方法和评价指标仅关注篡改图像的像素级检测结果。这种评价机制并未考虑检测方法对于真实、未篡改图片的响应情况。事实上，现有方法均存在较为严重的误报现象，严重影响了它们在实际应用场景中的可用性。

因此，图像篡改检测的一个核心挑战是如何设计和训练一个深度神经网络，使其能够从篡改图像和真实图像中学习到既对篡改区域高度灵敏，又对非篡改区域高度特异的视觉特征。针对上述挑战，本文提出了名为MVSS-Net的基于多视角和多尺度监督的篡改检测网络。MVSS-Net 首次结合了篡改区域的边界特征和噪声特征以学习泛化性更强的语义无关特征，并使用多尺度监督方式提高对篡改区域的敏感度和对真图的特异度。最终，MVSS-Net在五个公共数据集上取得了出色的检测结果。

方法描述

图 1：MVSS-Net整体结构

如图1所示，MVSS-Net由两个以ResNet-50为主干的分支组成。上方的边缘监督分支（edge-supervision branch, ESB）用于捕捉篡改区域与未篡改区域在边界处的微小差异；下半部分的噪声敏感分支（noise sensitive branch, NSB）旨在捕获篡改区域和未篡改区域之间的噪声不一致性。边界差异和噪声不一致都是语义无关的特征。

ESB设计的关键构造一个合适的输入。最后一个残差块的深层特征不适合捕捉浅层的边缘信息，会影响篡改趋于分割的主干任务；而浅层特征中包含的细微边缘信息很容易在多次卷积后消失。因此，有必要共同使用浅层特征和深层特征。然而，我们认为先前的工作，如[2]中，使用的简单特征拼接不能保证深层次的特征从ESB中得到足够的指导，因此我们提出以浅到深的方式构造ESB的输入。如图1所示，我们将不同ResNet块的特征以渐进的方式组合在一起进行边缘检测。为了增强边缘相关的信息提取，我们引入了Sobel层。特征首先经过Sobel层，再经过边缘残差块，最后与下一层特征进行合并(求和)。图2是Resnet最后一个残差块的特征图可视化，对比可见，ESB在篡改区域附近产生了更集中的响应。

NSB的骨干是另一个与ESB并行的ResNet-50。我们采用BayarConv作为噪声提取器。此外，我们引入了可训练的双注意(DA)模块[5]来取代之前工作[6]使用的双线性池化来进行特征融合。

最后，我们考虑三个尺度的损失，分别为提高模型在像素级篡改检测中灵敏度的像素尺度损失，学习语义不可知特征的边缘损失，以及提高模型在图像级篡改检测中特异性的图像尺度损失，并引入超参数计算三者的加权和作为模型最终的损失。

图 2：ESB分支特征图可视化

实验结果

MVSS-Net 在 DEFACTO[7] 数据集上进行了消融实验，在 CASIA[3]，COVERAGE[4], COLUMBIA[8]，NIST16[9] 和 DEFACTO五个公开数据集上进行了实验验证。图3给出 MVSS-Net 和 SOTA方法在公开数据集上的部分检测结果，MVSS-Net在真实图片和篡改图片间取得了好的平衡。表1给出了MVSS-Net的消融实验结果，证明了篡改区域的边缘特征和噪声特征都有助于学习语义无关特征。表2和表3分别给出MVSS-Net和其他SOTA方法在公开数据集上的像素级/图片级指标对比。实验表明，MVSS-Net在图像级和像素级均达到了state-of-the-art，在获得对篡改区域高精度定位的同时兼顾了对真图少的误判，是贴合实际应用需求的图像篡改检测方法。

图 3：MVSS-Net和SOTA模型在公共数据集的部分结果。前三行依次为：copy-move，splicing，inpainting三类篡改，后三行为真实图片。

表 1：MVSS-Net消融实验，（DEFACTO-84k训练，DEFACTO-12k测试）

表 2：与SOTA方法对比像素级F1（CASIAv2训练，公共数据集测试）

表 3：与SOTA方法对比图像级分类指标（CASIAv2训练，公共数据集测试，阈值0.5）

参考文献

[1] L. Verdoliva. Media forensics and deepfakes: An overview. IEEE Journal of Selected Topics in Signal Processing,14(5):910–932, 2020.

[2] P.Zhou, B. Chen, X.Han, M. Najibi, and L.Davis. Generate, segment, and refine: Towards generic manipulation segmentation. In AAAI, 2020.

[3] J. Dong, W. Wang, and T. Tan. Casia image tampering detection evaluation database. In ChinaSIP, 2013.

[4] B. Wen, Y. Zhu, R. Subramanian, T. T. Ng, and S. Winkler. Coverage, a novel database for copy-move forgery detection. In ICIP, 2016.

[5] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, and H. Lu. Dual attention network for scene segmentation. In CVPR, 2019.

[6] P. Zhou, X. Han, VI. Morariu, and LS. Davis. Learning rich features for image manipulation detection. In CVPR, 2018.

[7] G. Mahfoudi, B. Tajini, F. Retraint, F. Morain-Nicolier, and M. Pic. Defacto: Image and face manipulation dataset. In EUSIPCO, 2019.

[8] J. Hsu. Columbia uncompressed image splicing detection evaluation dataset. https://www.ee.columbia.edu/ln/dvmm/downloads/AuthSplicedDataSet/AuthSplicedDataSet.htm, 2009.

[9] H. Guan, M. Kozak, E. Robertson, Y. Lee, A. N. Yates, A. Delgado, D. Zhou, T. Kheyrkhah, J. Smith, and J. Fiscus. Mfc datasets: Large-scale benchmark datasets for media forensic challenge evaluation. In WACV Workshop, 2019.