商汤和电子科大提出F3-Net：利用频域特征"打假"Deepfake

商汤和电子科大提出F3-Net：利用频域特征"打假"Deepfake | ECCV 2020

2020 年 8 月 20 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：商汤泰坦公开课

摘要 · 看点

近年来，随着人工智能尤其是深度学习的发展，Face Forgery（人脸合成技术）和Deepfake（Deep Learning 和Fake的合成词，即利用机器学习技术进行“换脸”，伪造某人的图像和视频）技术也越来越成熟，可以生成、篡改出更加逼真的人脸。为了更加准确地识别出这些Deepfake图像视频，进行“打假”，商汤的研究者们在ECCV 2020上为我们带来了新的解决思路，即新颖的Frequency in Face Forgery Network（以下简称F3-Net）。

图1：Face Forgery和Deepfake技术可以伪造出逼真的图像，第一行为原始的真实图像，第二行为机器学习技术生成的伪造图像（来源：YouTube）。

Face Forgery和Deepfake技术一旦被人恶意利用，后果不堪设想：小到恶搞侵犯他人肖像权利，大到影响政治人物的形象。

更糟糕的是，在网络上流传的媒体文件往往是压缩过后的。而对于模糊的、低分辨率的图片/视频，这些篡改痕迹会更加难以分辨（如图2(a)所示）。

为了更加准确地识别出这些Deepfake图像视频，进行“打假“，商汤的研究者们为我们带来了新的解决思路，即新颖的Frequency in Face Forgery Network（以下简称F3-Net）。

和先前使用空间域特征（如RGB、HSV特征等）的技术不同，F3-Net更关注图像的频域特征——这是因为，在低分辨率图像视频中，小范围的人工篡改痕迹虽然在RGB空间中难以观察到，但是在频域中却能很容易地被识别出来（如图2(b)所示）。

图2：(a): 不同分辨率下的真/假图片对比，在LQ（Low Quality，低分辨率）情况下，篡改痕迹已经非常难以分辨。(b): 在RGB空间中难以发现的篡改痕迹，能很容易地在频域中被识别出来。

基于这一思路，商汤研究院提出了F3-Net，通过挖掘图像中的多种频域特征，更准确地识别出低分辨率图像的小范围篡改痕迹。

具体地，F3-Net首先提取了FAD (Frequency-Aware Decomposition)和LFS (Local Frequency Statistics) 两种频域特征，然后设计了MixBlock模块，利用cross-attention机制将二者融合并共同进行优化，最终输出结果。网络结构如图3所示。

图3：F3-Net的网络结构图

F3-Net从图片中提取得到的两种频域特征（FAD和LFS）是该工作的创新点与核心所在。在传统的方法中，人们使用手动设计的固定滤波器提取频域特征，而FAD使用可学滤波器，自适应地对图像频域特征进行分解，能够更准确地发现不同频段成分中的伪造痕迹；LFS提取出图像的局部频域统计信息，对细节处的异常更加敏感，且LFS使用滑窗DCT技术，保留了图像的结构信息，使其能够与CNN网络兼容。

图4：F3-Net的实验结果

实验结果表明，F3-Net在FaceForensics++（FF++）数据集上取得了较好的效果，识别准确率比之前的SOTA方法好了约4%。尤其是在经过压缩后的低分辨率（LQ）的图像视频中，取得了较大的提升。通过挖掘频域特征，F3-Net更准确地让难以分辨的图像视频得以“现形”。

论文链接

https://arxiv.org/abs/2007.09355

下载1：动手学深度学习

在CVer公众号后台回复：动手学深度学习，即可下载547页《动手学深度学习》电子书和源码。该书是面向中文读者的能运行、可讨论的深度学习教科书，它将文字、公式、图像、代码和运行结果结合在一起。本书将全面介绍深度学习从模型构造到模型训练，以及它们在计算机视觉和自然语言处理中的应用。

下载2：CVPR / ECCV 2020开源代码

在CVer公众号后台回复：CVPR2020，即可下载CVPR 2020代码开源的论文合集

在CVer公众号后台回复：ECCV2020，即可下载ECCV 2020代码开源的论文合集

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2000+人，旨在交流顶会（CVPR/ICCV/ECCV/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI等）、SCI、EI等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群