【干货】 2020年度图像图形学发展年度报告之七：数字媒体取证技术综述

会员服务 ·

【干货】 2020年度图像图形学发展年度报告之七：数字媒体取证技术综述

2021 年 9 月 13 日 中国图象图形学学会CSIG

2020年度图像图形学发展年度报告之七：《数字媒体取证技术综述》由数字媒体取证与安全专业委员会组织撰写

关注公众号，回复“数字媒体取证技术综述”，即可下载详版学科发展报告。

点击阅读原文，即可阅读精简版学科发展报告。

摘要

面对每天有数以百万计通过网络传播的多媒体数据，到底哪些内容是真实可信的，虚假内容的背后又经历了哪些篡改？数字取证技术将给出答案。该技术不预先嵌入水印，而是直接分析多媒体数据的内容，达到辨别真实性的目的。任何篡改和伪造都会在一定程度上破坏原始多媒体数据本身固有特征的完整性，由于其具有一致性和独特性，可作为自身的“固有指纹”，用于鉴别篡改文件。随着篡改媒体的数量与日俱增，社会稳定甚至国家安全受到了严重威胁。特别地，随着深度学习技术的快速发展，虚假媒体与真实媒体之间的感官差距越来越小，这对媒体取证研究提出了巨大挑战，并使得多媒体取证成为信息安全领域一个重要的研究方向。因此，目前迫切需要能够检测虚假多媒体内容和避免危险虚假信息传播的技术和工具。本文旨在对过去多媒体取证领域所提出的优秀检测取证算法进行总结。除了回顾传统的媒体取证方法，还将介绍基于深度学习的方法。本文针对当今主流的多媒体篡改对象：图像、视频和语音分别进行总结，并针对每种媒体形式，分别介绍传统篡改方法和基于AI（artificial intelligence）生成的篡改方法，并介绍了已公开的大规模数据集以及相关应用的情况，同时探讨了多媒体取证领域未来可能的发展方向。

视频伪造检测技术

视频篡改主要分为帧内篡改和帧间篡改。帧内篡改以视频帧为单位，删除画面中的某个物体，或是做“复制—移动”操作，如图2所示。随着硬件技术的发展，篡改者借助深度学习缩小了篡改后的视频与真实视频在视觉上的差距。最近备受关注的深度换脸技术（DeepFakes）就是利用深度学习将视频中的人脸替换为其他人脸，该技术的开源代码，包括详细的使用说明，都可在软件项目托管平台GitHub上获取。这样，深度换脸的学习成本和篡改成本极低，篡改者可通过简单的操作，或者借助深度生成网络，如生成对抗网络，直接生成人脸，或者修改人脸的表情和口型等属性信息。

图像伪造检测技术

数字图像取证技术对数字图像的完整性和真实性进行验证，方法总体可以分为主动式方法和被动式方法。主动式的图像取证要在数字图像中嵌入水印或签名。而被动式的盲取证（blind forensics）方法则不受这些因素的限制，它通过检测篡改图像中的操作痕迹来鉴别图像。常见的图像伪造和篡改包括增强、润饰、区域复制和拼接合成等。总体来说，图像篡改一般要经历4个操作步骤： 1）获取原始图像； 2）执行篡改操作； 3）后处理； 4）重编码、压缩操作。

各种操作都会留下篡改痕迹，图像取证技术则通过检测这些痕迹判断图像是否经过篡改，以及经历过何种篡改。数字图像取证可以分为设备指纹检测、区域复制篡改检测、图像处理指纹检测和重压缩指纹检测等几种。

音频伪造检测技术

音频伪造最初研究从文本到语音的转换。音频伪造技术主要包括：1）拼接法；2）参数法；3）混合法和4）基于人工智能的方法。拼接式语音合成方法主要将多个语音词典中的单个词或词组按照语法拼接。参数法首先从文本中提取声码器能够识别的特征，进而使用声码器生成音频。常见的参数法TTS技术是基于隐马尔可夫模型来实现音频合成。混合法是拼接法和参数法的结合。现在基于人工智能的音频伪造技术逐渐成为热点，研究人员通过分析各类媒体之间的共性，结合图像、视频处理领域的经验，提出了基于人工智能的语音合成方法，包含基于生成对抗网络、自编码器、自回归模型等音频伪造技术。

语音转换技术是指将一个人的声音变成另一个人的声音，同时保持说话内容不变。语音转换方法主要为声道谱转换方法。其中语音转换的研究主要集中在如何对声道谱进行建模和设计更有效的映射规则。目前，对声道谱转换模型的方法主要是先对语音进行统计分析，再通过参数映射的方式实现转换。声道谱转换方法包括基于码书映射的转换方法、基于高斯混合模型的转换方法、基于隐马尔可夫模型的转换方法、基于频率弯折的转换方法、基于神经网络的转换方法和基于波形生成的转换方法等6种转换技术。声道谱转换映射的研究突破了训练需要大量语音数据量、平行语音的限制，效率与质量也得到了提高，但是目前的转换技术仍有不足之处，所以声道谱转换是语音转换中需要重点解决的问题。

报告章节一览

1. 引言

2. 视频伪造检测技术

2.1 针对传统方法伪造视频的检测技术

2.2 针对基于AI生成的伪造视频的检测技术

2.3 基于伪造视频样本库

2.3.1 DFDC数据库

2.3.2 FaceForensics++

2.3.3 Celeb-DF

2.3.4 DeeperForensics-1.0

3. 图像伪造检测技术

3.1 针对局部替换图像的检测技术

3.1.1 区域复制篡改检测

3.1.2 图像处理指纹检测

3.1.3 重压指纹检测

3.2 针对伪造图像的溯源检测技术

3.3 针对AI整体生成图像的检测技术

3.4 主要伪造图像样本库

3.4.1 CoMoFoD

3.4.2 GRIP

4. 音频伪造检测技术

4.1 针对传统伪造语音的检测技术

4.2 针对AI生成语音的检测技术

4.3 主要伪造语音样本库

4.3.1 ASVspoof2019数据集

4.3.2 TIMIT数据集

4.3.3 RSR2015数据集

5. 结论

CSIG数字媒体取证与安全专委会介绍

习近平总书记指出“没有网络安全就没有国家安全”，网络安全已上升为国家战略。未来网络势必以数字内容为核心，而媒体内容作为网络数字内容的主体，在未来网络安全中，将占据非常重要的地位。在智能化、网络化的今天，数字取证与安全专业委员会致力于建立维持现代数字社会秩序的“数据警察”，确保数据的真实可信、安全可靠，维护国家安全，维持现代社会的公平和正义。

数字取证与安全专业委员会的宗旨是：团结、联合、组织数字取证与安全及相关领域的一流学者及学术新秀，开展学术/技术交流、发展战略研究、专业技术标准制定、专业培训等相关活动，提高相关领域的科研、教学、应用水平，促进研究成果的应用和向产品的转化，提升在国家科技活动和国际学术方面的影响力。

数字取证与安全专业委员会所涉及的主要专业内容包括：云计算取证技术，物联网取证，智能终端取证，社交网络取证，电子商务取证，网络金融取证技术，反取证技术，数据挖掘技术在计算机取证中的应用，人工智能技术在计算机取证中的应用，电子取证的法律和技术标准，电子证据鉴定技术和规范，声像资料鉴定技术和规范；数字媒体内容安全，数字媒体服务安全与隐私保护，数字媒体系统安全，数字媒体网络安全，人工智能相关的媒体内容安全技术，以及在数字媒体发展过程中出现的各类新兴安全技术。

组织结构

主任：

俞能海 中国科学技术大学

副主任：

丁丽萍 中国科学院软件研究所

黄继武 深圳大学

张新鹏 复旦大学

周琳娜 北京邮电大学

秘书长：

周琳娜 北京邮电大学

特别鸣谢

感谢CSIG咨询与评议工作委员会的大力支持。