随着社交媒体和移动应用程序在日常生活中的使用越来越多，数字图像被篡改的方式也大大增加。事实上，由于数字化，图像被认为比文字更可靠，数字图像伪造可能是使用广泛的社交媒体和应用程序的人最熟悉的话题之一。随着便宜的手机/其他电子设备和应用程序的出现，图像可以很容易地被捕捉、存储或在社交媒体上传播，它们是广泛存在的。此外，随着软件编辑工具的出现，即使是新手也可以轻松地修改或编辑图像。另外，由于技术的进步，在伪造或篡改任何数字图像时，不需要专业知识，从而损害了图像的完整性和真实性。以前，此类任务需要专业知识，但随着复杂的编辑应用程序和软件的快速增长，修改数字图像的内容或伪造图像变得更加容易。此外，用我们的肉眼识别被篡改的图像是非常困难的，如果做得很巧妙，几乎不可能。伪造的痕迹不会留下。因此，媒体中的数字图像是不可信的，图像的篡改变得非常容易。在数字图像作为法庭事务、金融事务或医疗记录的证词的情况下，开发验证数字图像真实性的算法变得更加必要。因此，数字图像伪造检测成为数字图像取证和日常使用的首要目标，因为没有原始图像，就很难识别任何数字图像伪造的痕迹。此外，当图像的一部分被复制并粘贴在同一图像中，无论是否对复制的区域进行转换（俗称复制-移动伪造），检测伪造的部分变得非常困难，因为复制的区域可能具有与原始图像相同的特征。因此，如上所述，对数字伪造检测的需求是至关重要的。

在这项研究中，提出了复制和粘贴伪造算法，该算法考虑到了图像的各种特征，用于检测伪造的部分。基于关键点的方法，如SIFT、SURF等，在检测伪造部分在被粘贴前被缩放或旋转的情况下表现最好。而对于具有平坦区域、JPEG压缩或高斯噪声的图像的伪造检测，利用基于块的方法，如DWT、PCA和DCT算法效果最好。

最初，我们提出了一种混合算法，即使用尺度不变特征变换（SIFT）和伪Zernike矩（PZM）融合基于关键点和基于块的算法的算法。然而，据观察，标准的图像伪造检测方法，如基于块的算法，通常需要很长的时间才能从图像中提取，而基于关键点的方法有一个缺点，即检测图像中部分重复的对象。此外，所有这些方法都高度依赖于为特征匹配而通过实验计算的阈值。因此，这些算法的稳健性被降低了，因此整体的准确性也被降低了。

此外，实施这种经典的复制运动伪造检测方法需要大量的试验和错误，因为这种算法需要调整各种取决于数据的参数，例如，决定每幅图像要提取的关键点的数量，或要使用的块的大小等。此外，对于这些类型的方法，可能会发生对一种类型的图像效果好的参数集可能对另一种类型的图像无效。我们在特征提取中使用了SIFT和PZM特征，以及阈值=0.5的欧氏距离，但未能获得有希望的结果。因此，我们提出了深度学习的方法。

最后，我们在提议的工作中加入了长短期记忆和卷积神经网络（LSTM-CNN）的混合架构，用于检测数字图像中的被动伪造（复制-移动和拼接）。对于拟议的混合LSTM-CNN架构，我们在前端使用堆叠的LSTM层，然后是CNN层。通常，一个LSTM单元由一个单元、一个输入门、一个输出门和一个遗忘门组成。单元在任意的时间间隔内记忆数值，三个门调节信息进出单元的流量。作为处理的初始部分，我们首先获得图像的斑块--包括原始的和经过调整的。我们取两组补丁，一组是简单的补丁，另一组是旋转的补丁，然后我们用高通隐蔽分析丰富模型（SRM）过滤器过滤这些补丁。通过过滤，可以得到噪声特征，这对操纵分类很有帮助，因为回火的图像会产生回火的假象，如物体边缘的不寻常的高对比度。对于训练，我们使用LSTM-CNN混合架构。进一步的测试是在CoMoFoD数据集的不同类型的图像上进行的，这些图像包括不同类型的图像，如JPEG压缩图像、对比度调整图像、亮度变化图像等。此外，这个数据集还包含了使用缩放或旋转部分，然后将其粘贴在同一图像的不同位置，以及使用其他各种调和方法的图像。我们还利用了CASIA数据集，因为它既包括复制和粘贴的图像，也包括拼接的图像。对于分类，我们利用支持向量机（SVM）分类器并获得了结果。而利用所提出的混合模型，取得了良好的效果。仿真结果证明了控制方法的有效性。

第1章绪论

1.1 简介

在这个数字时代，图像被视为比文字更可靠。事实上，由于社交媒体的使用大量增加，数字图像伪造对人们来说可能并不新鲜。由于图像可以很容易地使用手机或数码相机捕捉、存储或在社交媒体上传播，因此它们很普遍。此外，软件编辑器的可用性很容易让新手也能轻松修改或编辑图像。而且，在伪造或篡改数字图像的数据方面不需要专业知识，随着技术的进步，导致图像的完整性受到影响。以前，这项任务只限于专家级人物，但随着复杂的编辑工具或图像处理软件的迅速发展，这些数字图像可以轻松地被修改或伪造，称为数字图像伪造。此外，如图1所示，用肉眼识别被篡改的图像（被操纵的图像）是几乎不可能的。因此，数字图像的可信度下降，篡改变得非常容易发生。考虑到图像可以作为法庭上的证词或一些金融以及医疗记录，开发能够验证数字图像真实性的算法是必要的。此外，随着社交媒体使用的增加，特别是在年轻人中，越来越多的篡改图像正在迅速传播。

因此，数字图像伪造检测成为数字图像取证和日常使用的首要目标。下面的图1.a和图1.b是一个数字图像伪造的例子，用肉眼很难识别。在图1.a中，描述的是原始图片。而在图1.b中，显示的是经过修改的图像。除非出示原始图片，否则人们无法真正识别其中的任何伪造痕迹。因此，如上所述，数字伪造检测的需求是至关重要的。

图1.1. 数字图像伪造

1.2 复制-移动伪造

如图1.a和图1.b所示，当我们复制图像的一部分并将其粘贴到同一图像中时，原始图像就不容易被识别，这就是俗称的复制-移动伪造。克隆图像的一部分很容易，但识别相同的图像却很困难。对于复制移动伪造的检测，有几个步骤，包括图像的预处理，从图像或图像斑块中提取特征，检查特征之间的相似性，并找出被篡改的部分，如图1.2所示。预处理可以包括将RGB图像转换为灰度图像。对于特征提取，可以利用两种不同的方法，将整个图像划分为重叠或不重叠的块，或者通过定位各种关键点从图像中提取特征。

1.2.1 复制-移动伪造检测方法

在第一种方法中，通常被称为基于块的方法，块可能是圆形的，也可能是方形的，而在基于关键点的方法中，关键点的数量或兴趣点的位置可能会有所不同，这取决于所使用的方法（例如，加速鲁棒特征（SURF）[1]，尺度不变特征转换（SIFT）[2]等）。第三个过程是检查这些提取的特征之间的相似性，常用的方法包括计算相邻存储向量之间的欧氏距离，对特征向量进行词法排序[3]；或者建立一个包含所有特征向量的k-d树。之后，为每个特征搜索所有的第二近似近邻（2ANN）[4]。

图1.2. CMFD的一般框架[14]

当图像的一部分或部分被复制并旋转、缩放或剪切，然后粘贴在同一图像上时，尽管它是该图像的一部分，但由于插值，它拥有不同的像素值/特征向量，这在匹配过程中可以考虑。为了完善这个主要的结果，应该通过过滤技术，如距离比标准法、双向匹配法和RANSAC，然后再进行后处理，来消除错误的匹配。例如，消除低于某个阈值的无关紧要的物体和/或任何大物体的填充孔，等等。基于区块的方法和基于关键点的方法在检测和计算成本上都有不同，相互比较。基于块的方法的优点是即使在图像的平坦区域也能更好地检测，而基于关键点的方法在图像的平坦区域会导致假阴性。同时，与基于块的方法相比，它们的计算复杂度低。

最近，深度学习算法被用于检测数字图像中被伪造的部分。基于人脑的想法，人工神经网络是由多个节点或神经元相互连接组成的。人工神经网络中的每个神经元接收一个或多个输入，通过加权求和并通过激活函数来产生最终输出。卷积神经网络（CNN）是神经网络的特定架构，在处理图像数据方面非常有效。与ANN一样，它们也是由具有可学习权重和偏差的神经元组成。两者的区别在于，在神经网络中，所有的数据在送入网络之前都被转换为一维阵列，而CNN考虑的是图像的二维结构。此外，通过对它们的处理，提取图像的特定属性，它们与典型的神经网络不同。另外，CNN的优势之一是它有一个或多个卷积层和池化层，这些是CNN的主要构建模块。与标准的多层神经网络一样，CNN的各层后面也有一个或多个全连接层，它可以被视为全连接网络的一个特例，用于检测数字图像中的伪造行为。

1.3 研究假设

基于关键点的方法，如SIFT、SURF等，对具有缩放或旋转篡改部分的数字图像的伪造检测效果最好。而对于具有平坦区域、JPEG压缩或高斯噪声的伪造图像的检测，我们可以利用基于块的方法，如DWT、PCA和DCT，因为这些算法对上述的伪造图像效果最好。
标准的图像伪造检测方法，如基于块的算法，通常需要很长的时间来从图像中提取。同样地，基于关键点的算法也有一个缺点，那就是无法检测到部分重复的对象。此外，所有这些方法都高度依赖于为特征匹配而通过实验计算的阈值。因此，这些算法的稳健性被降低了，因此整体的准确性也被降低了。
此外，要实现这种经典方法来检测复制-移动伪造，需要很多试验和错误，因为这种算法需要调整各种取决于数据的参数。例如，在特征表示的单元阶段，决定每幅图像要提取的关键点的数量，或要使用的块的大小，以及重叠块的比例。另外，可能需要在后期处理中调整参数。例如，如果使用综合方法进行匹配，可能需要指定匹配候选者之间的最小距离、最小对应数、面积阈值、将一个单元组分成两个或将两个单元组合并成一个的规则，以及填补漏洞的阈值等。[10]. 如果我们使用这类方法，对一种类型的图像有效的参数集可能对另一种类型的图像无效。而且，在试错的基础上选择对每个测试图像效果好的参数，只可能对少量的测试图像有效。最近，对于复制和粘贴的伪造检测，深度神经网络（DNN）已经被引入。
在这项研究工作中，我们提出了一个长短期记忆和卷积神经网络（LSTM - CNN）的混合架构，用于检测数字图像中的被动伪造（复制移动和拼接）。对于拟议的混合LSTM-CNN架构，我们在前端使用堆叠的LSTM层，然后是CNN层。通常，一个LSTM单元包括一个输入门、一个输出门、一个单元和一个遗忘门。单元以任意的时间间隔存储数值，三个门调节信息进出单元的流量。作为最初的处理过程，我们从获得图像的补丁开始--包括原始的和经过调整的。
其次，我们利用高通隐蔽分析丰富模型（SRM）过滤器来过滤RGB图像补丁。这就获得了有助于操纵分类的噪声特征，因为调和图像会产生调和假象，如物体边缘的不寻常的高对比度。然后，我们使用LSTM-CNN混合架构来训练拟议的模型。为了在不同类型的图像上测试该模型，我们使用CoMoFoD数据集，该数据集由不同类型的图像组成，如JPEG压缩图像、对比度调整图像、亮度变化图像等。此外，该数据集还包含使用缩放或旋转部分，然后将其粘贴在同一图像的不同位置的图像，以及其他各种调质方法。对于分类，我们使用了支持向量机（SVM）分类器，并得到了结果。