数据集发布 | 大规模计算机生成图像数据集NLPR-LSCGB，包含14万张图片！

2021 年 10 月 11 日 中国科学院自动化研究所

CASIA

解锁更多智能之美

由于计算机渲染技术和生成对抗网络(generative adversarial networks, GAN)的快速发展，计算机生成图像（Computer-generated, CG）的质量越来越高也越来越逼真，与相机拍摄获取的真实图像（Photographic, PG）之间的区别越来越小。高质量CG图像一旦被恶意使用，将会带来严重的信息安全隐患，例如，利用逼真的CG图像制造的虚假新闻可能会引起群众恐慌等。因此，研究计算机生成（CG）图像鉴别方法具有重要意义。

近期，中国科学院自动化研究所视频内容安全团队构建了一个包含14万张图片的大规模计算机生成图像数据集（Large-Scale CG images Benchmark, NLPR-LSCGB）并提出一种鲁棒的基于纹理感知的CG图像鉴别方法（Robust Texture-aware Computer-generated Image Forensic）。

现有数据集存在数据量小、内容单一等问题，相较于此，NLPR-LSCGB图像数据集具有三方面优势:

1)规模大：数据集包含71168张生成图像和71168 张自然图像，比以往的数据集大两个数量级;

2)多样性高：我们从245种不同的场景中收集不同的渲染技术生成的计算机图像;

3)偏差小：该数据集中生成图像和自然图像在颜色、亮度、色调和饱和度分布上都非常接近。图1展示了数据集中的部分CG图像。

图1：计算机生成图像（CG）

基于该数据集，团队通过大量实验发现，自然图像和计算机生成图像区别存在于图像的纹理细节中。基于该发现，团队进一步提出了一种多尺度纹理感知的计算机生成图像鉴别模型（图2）。该模型首先基于图像特征之间的相关性进行纹理增强，再通过GRAM矩阵进一步提取纹理特征，然后将多个纹理提取模块应用于特征提取网络的不同层以提取多尺度纹理特征。最后基于多尺度纹理特征进行计算机生成图像的判别。该方法在已有的数据库及NLPR-LSCGB大规模数据集中性能都超过了现有的方法，充分证明了算法的有效性。

图2：多尺度纹理感知模型

相关工作Robust Texture-aware Computer-generated Image Forensic: Benchmark and Algorithm于2021年10月发表于IEEE Transactions on Image Processing（TIP）期刊。本研究获得科技创新2030"新一代人工智能”重大项目、国家自然科学基金联合基金重点项目支持。

NLPR-LSCGB图像数据集现已公开，欢迎下载！

数据集链接：

https://github.com/wmbai/LSCGB

论文链接：

https://ieeexplore.ieee.org/document/9559870

欢迎后台留言、推荐您感兴趣的话题、内容或资讯！

如需转载或投稿，请后台私信。

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【CVPR2022】任务相关解耦及可控伪样本生成的非生成式广义零样本模型

专知会员服务

21+阅读 · 2022年4月1日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【CVPR 2022】自由风格的文本-人脸合成和操作，AnyFace: Free-style Text-to-Face Synthesis and Manipulation

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】盲图像超分辨率退化分布的研究，Learning the Degradation Distribution for Blind Image Super-Resolution

专知会员服务

7+阅读 · 2022年3月12日