Images manipulated by image editing tools can mislead viewers and pose significant risks to social security. However, accurately localizing manipulated image regions remains challenging due to the severe scarcity of high-quality annotated data, which is laborious to create. To address this, we propose a novel approach that mitigates data scarcity by leveraging readily available web data. We utilize a large collection of manually forged images from the web, as well as automatically generated annotations derived from a simpler auxiliary task, constrained image manipulation localization.Specifically, we introduce CAAAv2, a novel auto-annotation framework that operates on a category-aware, prior-feature-denoising paradigm that notably reduces task complexity. To further ensure annotation reliability, we propose QES, a novel metric that filters out low-quality annotations. Combining CAAAv2 and QES, we construct MIMLv2, a large-scale, diverse, and high-quality dataset containing 246,212 manually forged images with pixel-level mask annotations. This is over 120 times larger than existing handcrafted datasets like IMD20. Additionally, we introduce Object Jitter, a technique that further enhances model training by generating high-quality manipulation artifacts. Building on these advances, we develop Web-IML, a new model designed to effectively leverage web-scale supervision for the task of image manipulation localization. Extensive experiments demonstrate that our approach substantially alleviates the data scarcity problem and significantly improves the performance of various models on multiple real-world forgery benchmarks. With the proposed web supervision, our Web-IML achieves a striking performance gain of 31% and surpasses the previous state-of-the-art SparseViT by 21.6 average IoU points. The dataset and code will be released at https://github.com/qcf-568/MIML.


翻译:通过图像编辑工具篡改的图像可能误导观众并对社会安全构成重大风险。然而,由于高质量标注数据严重匮乏且制作费力,精确定位篡改图像区域仍具挑战性。为解决此问题,我们提出一种新方法,通过利用易于获取的网络数据来缓解数据稀缺性。我们使用来自网络的大量人工伪造图像,以及从更简单的辅助任务(受限图像篡改定位)中自动生成的标注。具体而言,我们引入CAAAv2,这是一种基于类别感知、先验特征去噪范式的新型自动标注框架,显著降低了任务复杂度。为确保标注可靠性,我们进一步提出QES这一新指标来过滤低质量标注。结合CAAAv2和QES,我们构建了MIMLv2——一个包含246,212张带像素级掩码标注的人工伪造图像的大规模、多样化、高质量数据集。其规模超过IMD20等现有手工数据集的120倍。此外,我们提出目标抖动技术,通过生成高质量篡改伪影进一步增强模型训练。基于这些进展,我们开发了Web-IML,这是一个专为有效利用网络规模监督进行图像篡改定位任务而设计的新模型。大量实验表明,我们的方法显著缓解了数据稀缺问题,并在多个真实世界伪造基准测试中大幅提升了各类模型的性能。通过所提出的网络监督机制,我们的Web-IML实现了31%的显著性能提升,并以21.6的平均IoU点数超越先前最先进的SparseViT模型。数据集与代码将在https://github.com/qcf-568/MIML发布。

0
下载
关闭预览

相关内容

Polygon-RNN++图像分割数据集自动标注
论智
10+阅读 · 2018年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
LVLM-Aided Alignment of Task-Specific Vision Models
Arxiv
0+阅读 · 2025年12月26日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员