数据集发布 | 大规模计算机生成图像数据集NLPR-LSCGB,包含14万张图片!

2021 年 10 月 11 日 中国科学院自动化研究所




CASIA


解锁更多智能之美

由于计算机渲染技术和生成对抗网络(generative adversarial networks, GAN)的快速发展,计算机生成图像(Computer-generated, CG)的质量越来越高也越来越逼真,与相机拍摄获取的真实图像(Photographic, PG)之间的区别越来越小。高质量CG图像一旦被恶意使用,将会带来严重的信息安全隐患,例如,利用逼真的CG图像制造的虚假新闻可能会引起群众恐慌等。因此,研究计算机生成(CG)图像鉴别方法具有重要意义。

近期,中国科学院自动化研究所视频内容安全团队构建了一个包含14万张图片的大规模计算机生成图像数据集(Large-Scale CG images Benchmark, NLPR-LSCGB)并提出一种鲁棒的基于纹理感知的CG图像鉴别方法(Robust Texture-aware Computer-generated Image Forensic)

现有数据集存在数据量小、内容单一等问题,相较于此,NLPR-LSCGB图像数据集具有三方面优势:

1)规模大:数据集包含71168张生成图像和71168 张自然图像,比以往的数据集大两个数量级; 

2)多样性高:我们从245种不同的场景中收集不同的渲染技术生成的计算机图像;

3)偏差小:该数据集中生成图像和自然图像在颜色、亮度、色调和饱和度分布上都非常接近。图1展示了数据集中的部分CG图像。

图1:计算机生成图像(CG)

基于该数据集,团队通过大量实验发现,自然图像和计算机生成图像区别存在于图像的纹理细节中。基于该发现,团队进一步提出了一种多尺度纹理感知的计算机生成图像鉴别模型(图2)。该模型首先基于图像特征之间的相关性进行纹理增强,再通过GRAM矩阵进一步提取纹理特征,然后将多个纹理提取模块应用于特征提取网络的不同层以提取多尺度纹理特征。最后基于多尺度纹理特征进行计算机生成图像的判别。该方法在已有的数据库及NLPR-LSCGB大规模数据集中性能都超过了现有的方法,充分证明了算法的有效性。

图2:多尺度纹理感知模型

相关工作Robust Texture-aware Computer-generated Image Forensic: Benchmark and Algorithm于2021年10月发表于IEEE Transactions on Image Processing(TIP)期刊。本研究获得科技创新2030"新一代人工智能”重大项目、国家自然科学基金联合基金重点项目支持。


NLPR-LSCGB图像数据集现已公开,欢迎下载!



数据集链接:

https://github.com/wmbai/LSCGB

论文链接:

https://ieeexplore.ieee.org/document/9559870






欢迎后台留言、推荐您感兴趣的话题、内容或资讯!

如需转载或投稿,请后台私信。

登录查看更多
1

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
69+阅读 · 2021年3月29日
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
26+阅读 · 2021年1月26日
谷歌提出MaskGIT:掩码生成图像Transformer
CVer
2+阅读 · 2022年3月21日
Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!
夕小瑶的卖萌屋
2+阅读 · 2022年1月5日
史上最大多模态图文数据集发布!
夕小瑶的卖萌屋
2+阅读 · 2021年11月3日
ACL 2021 | PENS: 个性化新闻标题生成数据集
微软研究院AI头条
0+阅读 · 2021年8月4日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
SkiQL: A Unified Schema Query Language
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关资讯
谷歌提出MaskGIT:掩码生成图像Transformer
CVer
2+阅读 · 2022年3月21日
Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!
夕小瑶的卖萌屋
2+阅读 · 2022年1月5日
史上最大多模态图文数据集发布!
夕小瑶的卖萌屋
2+阅读 · 2021年11月3日
ACL 2021 | PENS: 个性化新闻标题生成数据集
微软研究院AI头条
0+阅读 · 2021年8月4日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员