With the rise of easily accessible tools for generating and manipulating multimedia content, realistic synthetic alterations to digital media have become a widespread threat, often involving manipulations across multiple modalities simultaneously. Recently, such techniques have been increasingly employed to distort narratives of important events and to spread misinformation on social media, prompting the development of misinformation detectors. In the context of misinformation conveyed through image-text pairs, several detection methods have been proposed. However, these approaches typically rely on computationally intensive architectures or require large amounts of annotated data. In this work we introduce LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation, a model-soup initialized multimodal misinformation detector designed to operate under a limited annotation setup and constrained training resources. LADLE-MM is composed of two unimodal branches and a third multimodal one that enhances image and text representations with additional multimodal embeddings extracted from BLIP, serving as fixed reference space. Despite using 60.3% fewer trainable parameters than previous state-of-the-art models, LADLE-MM achieves competitive performance on both binary and multi-label classification tasks on the DGM4 benchmark, outperforming existing methods when trained without grounding annotations. Moreover, when evaluated on the VERITE dataset, LADLE-MM outperforms current state-of-the-art approaches that utilize more complex architectures involving Large Vision-Language-Models, demonstrating the effective generalization ability in an open-set setting and strong robustness to unimodal bias.


翻译:随着生成和操纵多媒体内容的工具日益普及,对数字媒体进行逼真的合成篡改已成为普遍威胁,通常涉及跨多个模态的同时操纵。近年来,此类技术越来越多地被用于扭曲重要事件的叙事并在社交媒体上传播虚假信息,从而推动了虚假信息检测器的发展。在通过图文对传播虚假信息的背景下,已有多种检测方法被提出。然而,这些方法通常依赖于计算密集型的架构或需要大量标注数据。本文中,我们提出了LADLE-MM:基于有限标注的学习集成多模态虚假信息检测器,这是一种通过模型集成初始化的多模态虚假信息检测器,旨在有限标注设置和受限训练资源下运行。LADLE-MM由两个单模态分支和一个多模态分支组成,该多模态分支利用从BLIP中提取的额外多模态嵌入来增强图像和文本表示,这些嵌入作为固定的参考空间。尽管相比先前最先进的模型减少了60.3%的可训练参数,LADLE-MM在DGM4基准测试的二元和多标签分类任务上均取得了具有竞争力的性能,在无需基础标注训练的情况下超越了现有方法。此外,在VERITE数据集上的评估表明,LADLE-MM优于当前采用涉及大型视觉-语言模型等更复杂架构的最先进方法,展现了在开放集环境下的有效泛化能力以及对单模态偏差的强鲁棒性。

0
下载
关闭预览

相关内容

深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员