火眼金睛辨真假,造假图片露原形!为何P图检测大赛这么火?

2020 年 11 月 14 日 机器之心

全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛、中国最顶尖的安全 AI 挑战者计划 - 第五期火热进行中。



这是一场非常好玩的比赛!它的亮点如下:

1. 检测伪造证书类图像, 难上加难
2. 设计出 火眼金睛 的检测算法,把对手 挖坑的篡改区域 识别出来。
3. 任务是通过提供的训练集学习出有效的检测算法,对测试集的伪造图像进行篡改定位。
4、 奖励丰厚! 25 万现金、10 万奖品、阿里清华荣誉证书、联名款元气森林包年喝、顶会颁奖等!


1、造假泛滥引出的出题背景

随着各种 P 图工具的普及,篡改伪造出视觉无痕迹的假图门槛大幅降低,于是我们看到大量的假图用于散播谣言、编造虚假新闻等。图像取证正是用于检测篡改伪造图像的技术,经过十多年的发展,已经在新闻、司法、刑侦等领域广泛应用。但是随着各种反取证技术的出现,图像的真伪鉴定问题进入到了攻防双方博弈的阶段。

为了发现现有图像取证技术的不足,推进图像取证技术在更广泛领域的应用,清华阿里联手举办了 全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛 。该比赛由深圳大学、中国图象图形学学会、中国图象图形学学会数字媒体取证与安全专委会协办支持。

「安全 AI 挑战者计划」旨在打造全球最顶尖的安全 AI 赛事,面向未来培养更多新基建安全技术人才。2019 年 8 月至今,已经举办了五期比赛;最大的特色是,主打高难度、高创新、高趣味、高回报的题目任务和运营玩法,选手每一期都能够实现超预期的累加技术成就。


2、难上加难的赛道 2 简介

赛道一选手作为攻击方,需要对真实的证件文档类图像中的指定候选区域进行伪造篡改,使得篡改后的图像成功欺骗 4 种经典的图像篡改检测模型,同时还要骗过人眼。

然而到了赛道二,选手变成了防守方(检测篡改),提出 火眼金睛 的检测算法,定位出资质证件文档图像中提前埋好的(篡改区域)。

作为全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛,区别于以往图像取证比赛侧重于自然内容图像, 本次比赛需要检测的篡改图像是在数字经济领域频繁使用的资质证件文档图像。 比赛任务是通过提供的训练集学习出有效的检测算法,对测试集的伪造图像进行篡改定位。

左边是一张有若干处篡改的图像(红线框出具体篡改区域),右边是使用检测算法自动标记出篡改区域的效果图。

为了更好的评价选手的检测定位效果,比赛方设计了全面的得分计算准则(F1+IOU)。比赛数据包括训练集和测试集,训练集有 1500 张 JPEG 图像及对应 mask(分辨率与原图保持一致,像素值 0 表示该像素标识为未篡改,像素值 1 表示该像素标识为篡改),JPEG 图像的 EXIF 信息均被擦除,除部分无后处理外,其它可能经过裁边、平滑、下采样、社交工具传输;测试集有 1500 张 JPEG 图像,处理过程与训练集一致;允许使用集外数据进行训练学习。

3、为何称为史上最难资质证件图像篡改检测竞赛?

赛道二篡改检测比赛本质上可以看成一个 图像分割问题 ,但是 它比分割难的地方是不能依靠边缘轮廓,而且相对要分割出来的区域可能面积偏小 。所以刚开始解这个问题的选手,可以参照一下论坛的高分指南里面提到的一些以前经典算法,但不用局限于那些思路。也可以从纯 CV 的角度去考虑分析,重点找出可以区分篡改区域与非篡改区域的特征(手工设计或深度学习)。

图像分割可能偏向于强信号特征(可视的,跟内容特征强相关),而图像篡改定位更偏向于弱信号特征(不可视的,跟内容特征弱相关)。还有另外一种解法是利用未篡改区域是自然成像过程形成的,存在特定的模式噪声(PRNU 或者 Noiseprint),而篡改区域这些特性被破坏,从而定位出篡改的区域。但是这类方法的鲁棒性不够好,在经过一些后处理可能提取不是很精准。

虽然现在公榜的满分是 2000 分(1000 张图的 F1 和 IOU 得分),但是任何一张图像的 F1、IOU 得分都超过 0.4 是不容易的,IOU=0.4 意味着有篡改区域面积超过一半精准定位并且误定位的区域面积小于真正篡改面积的 1/5,(A 表示选手模型预测的 mask,B 表示 Groud Truth 的基准 mask),因此预估这个比赛公榜的 上限在 900 分左右 。同时看到有些选手在短短三周时间内能够突破 700 分,这是非常了不起的成绩。

与自然图像篡改定位相比, 证件文档类图像的篡改定位难度要更大 一些,其难度主要体现在三个方面。

首先,证件文档类图像的篡改的潜在面积可能非常小。 例如某些日期的关键数字的篡改,2020 变成 2022,3 改成 2,在图像上篡改的区域面积可能只有 16x16 的像素块。红线框出区域为篡改区域。


其次,当前的图像篡改鉴别大多利用图像生成过程内在特性,篡改区域的此类特性被破坏。然而,在资质文档类图像中,这种图像生成过程引入的特性没有自然图像那么显著,所以同样的篡改操作在资质文档图像比在自然图像中更难被发现。如下图所示,文档背景是纯白纸张,要定位篡改是非常困难的。红线框出区域为篡改区域。

 
最后,证件文档类图像篡改数据集所提供的篡改图像比较有限,目前还没有一个专门的大型数据集可以拿来训练,选手能利用的篡改证件类图像只有比赛提供的 1500 张带标注图像,这就给算法的提升带来了很大困难。

阿里表示,此次比赛形成的数据集将在后期开放给社会,以促进整个行业的发展。同时,他们也希望进一步推广这类技术在业界的应用,为业界培养更多媒体内容安全方面的人才。

4、丰厚奖励都有啥?

时间
报名及实名认证:2020.11.23 结束
正式赛:2020.11.25 结束

总奖励:除了基础奖励,比赛每 2 周有一轮双周榜,设置头部奖、进步奖、拉新奖。


详细奖励请参见:https://tianchi.aliyun.com/competition/entrance/531812/introduction

阿里安全首席架构师钱磊表示:「在阿里安全,基于复杂业务场景的攻防对抗几乎每天都在发生。当数字技术正在构建前所未有的新世界,阿里安全团队面对的是互联网企业中最丰富的业态和风险,毫无疑问,这是训练和提升人才专业能力最好的练兵场。」

清华大学著名教授朱军评价说:「安全 AI 挑战者计划是我们针对目前机器学习算法鲁棒性不足、容易受到恶意攻击的问题,主动地挖掘目前机器学习算法的安全漏洞,以期构建更加安全和可信的 AI 系统的一次尝试。我们希望通过这种努力,发展新的机器学习算法,并逐步将 AI 的安全问题体系化、标准化,逐渐形成一个优秀的线上社区,凝聚对抗样本乃至 AI 安全方面的研究者与开发者,通过大家的共同努力提升机器学习算法的安全性和可靠性。」

5、重磅预告


清华大学和阿里安全联合举办的第二届 AI 与安全研讨会,12 月 5 日将在北京红杉假日酒店举办。探讨人工智能基础前沿、人工智能与安全的相互融合促进、安全与伦理等议题。干货满满,敬请期待!
扫码进入对抗样本社区(钉钉群号:23301258),第一时间获取会议信息!


点击底部 阅读原文 ,直达报名
登录查看更多
0

相关内容

专知会员服务
71+阅读 · 2020年12月12日
小目标检测技术研究综述
专知会员服务
118+阅读 · 2020年12月7日
专知会员服务
26+阅读 · 2020年9月27日
专知会员服务
12+阅读 · 2020年9月19日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
换脸算什么?现在AI都能一键“脱衣”了
腾讯科技
10+阅读 · 2019年6月30日
【学界】带了个对抗图像块,YOLOv2竟然无法识别我是人……
GAN生成式对抗网络
4+阅读 · 2019年4月24日
AI换脸朱茵变杨幂,技术背后细思极恐
大数据技术
7+阅读 · 2019年3月1日
ICIP2018 | 图像鉴黄做得好,健康上网少烦恼
机器之心
5+阅读 · 2018年10月14日
微表情检测和识别的研究进展与趋势
中国计算机学会
15+阅读 · 2018年3月23日
Arxiv
0+阅读 · 2021年2月2日
Arxiv
0+阅读 · 2021年2月1日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
5+阅读 · 2019年1月16日
VIP会员
相关VIP内容
专知会员服务
71+阅读 · 2020年12月12日
小目标检测技术研究综述
专知会员服务
118+阅读 · 2020年12月7日
专知会员服务
26+阅读 · 2020年9月27日
专知会员服务
12+阅读 · 2020年9月19日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
Top
微信扫码咨询专知VIP会员