Retrieval-Augmented Generation (RAG) has recently been extended to multimodal settings, connecting multimodal large language models (MLLMs) with vast corpora of external knowledge such as multimodal knowledge graphs (MMKGs). Despite their recent success, multimodal RAG in the audio-visual domain remains challenging due to 1) limited modality coverage and multi-hop connectivity of existing MMKGs, and 2) retrieval based solely on similarity in a shared multimodal embedding space, which fails to filter out off-topic or redundant knowledge. To address these limitations, we propose M$^3$KG-RAG, a Multi-hop Multimodal Knowledge Graph-enhanced RAG that retrieves query-aligned audio-visual knowledge from MMKGs, improving reasoning depth and answer faithfulness in MLLMs. Specifically, we devise a lightweight multi-agent pipeline to construct multi-hop MMKG (M$^3$KG), which contains context-enriched triplets of multimodal entities, enabling modality-wise retrieval based on input queries. Furthermore, we introduce GRASP (Grounded Retrieval And Selective Pruning), which ensures precise entity grounding to the query, evaluates answer-supporting relevance, and prunes redundant context to retain only knowledge essential for response generation. Extensive experiments across diverse multimodal benchmarks demonstrate that M$^3$KG-RAG significantly enhances MLLMs' multimodal reasoning and grounding over existing approaches.


翻译:检索增强生成(RAG)最近已扩展到多模态场景,将多模态大语言模型(MLLMs)与海量外部知识库(如多模态知识图谱,MMKGs)相连接。尽管近期取得了一些成功,但在视听领域的多模态RAG仍然面临挑战,这主要源于:1)现有MMKGs在模态覆盖和多跳连接性方面的局限;2)仅基于共享多模态嵌入空间相似性的检索方式,无法过滤掉离题或冗余的知识。为应对这些不足,我们提出了M$^3$KG-RAG,一种多跳多模态知识图谱增强的RAG方法,它从MMKGs中检索与查询对齐的视听知识,从而提升MLLMs的推理深度和答案忠实度。具体而言,我们设计了一个轻量级多智能体流程来构建多跳MMKG(M$^3$KG),其中包含上下文丰富的多模态实体三元组,支持基于输入查询的按模态检索。此外,我们引入了GRASP(基于接地的检索与选择性剪枝),该方法确保实体精确地接地于查询,评估答案支持相关性,并剪枝冗余上下文,仅保留对生成响应至关重要的知识。在多种多模态基准测试上进行的大量实验表明,M$^3$KG-RAG相较于现有方法,显著增强了MLLMs的多模态推理与接地能力。

0
下载
关闭预览

相关内容

【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员