Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k


翻译:基于扩散的编辑技术能够对图像局部区域进行逼真修改,使得人工智能生成内容(AIGC)的检测更为困难。现有的AIGC检测基准主要关注整幅图像的分类,忽略了基于扩散的编辑操作的定位问题。本文提出了DiffSeg30k,一个包含3万张扩散编辑图像并带有像素级标注的公开数据集,旨在支持细粒度检测。DiffSeg30k具备以下特点:1)真实场景图像——我们从COCO数据集中收集图像或图像提示,以反映现实世界内容的多样性;2)多样化的扩散模型——使用八种最先进的扩散模型进行局部编辑;3)多轮编辑——每张图像最多经历三轮连续编辑,以模拟现实中的序列编辑过程;4)逼真的编辑场景——通过基于视觉语言模型(VLM)的流程自动识别有意义的区域,并生成涵盖添加、移除和属性修改的上下文感知提示。DiffSeg30k将AIGC检测从二元分类任务转向语义分割任务,实现了对编辑区域的同步定位及编辑模型的识别。我们评估了三种基线分割方法,揭示了语义分割任务面临的显著挑战,尤其是在图像畸变鲁棒性方面。实验还表明,尽管分割模型是为像素级定位而训练,其在扩散编辑的整图分类任务中表现出高度可靠性,超越了现有的伪造分类器,并在跨生成器泛化方面展现出巨大潜力。我们相信,通过展示基于分割方法的潜力与局限,DiffSeg30k将推动人工智能生成内容细粒度定位研究的发展。DiffSeg30k数据集发布于:https://huggingface.co/datasets/Chaos2629/Diffseg30k

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员