Retrieval-Augmented Generation (RAG) has recently been extended to multimodal settings, connecting multimodal large language models (MLLMs) with vast corpora of external knowledge such as multimodal knowledge graphs (MMKGs). Despite their recent success, multimodal RAG in the audio-visual domain remains challenging due to 1) limited modality coverage and multi-hop connectivity of existing MMKGs, and 2) retrieval based solely on similarity in a shared multimodal embedding space, which fails to filter out off-topic or redundant knowledge. To address these limitations, we propose M$^3$KG-RAG, a Multi-hop Multimodal Knowledge Graph-enhanced RAG that retrieves query-aligned audio-visual knowledge from MMKGs, improving reasoning depth and answer faithfulness in MLLMs. Specifically, we devise a lightweight multi-agent pipeline to construct multi-hop MMKG (M$^3$KG), which contains context-enriched triplets of multimodal entities, enabling modality-wise retrieval based on input queries. Furthermore, we introduce GRASP (Grounded Retrieval And Selective Pruning), which ensures precise entity grounding to the query, evaluates answer-supporting relevance, and prunes redundant context to retain only knowledge essential for response generation. Extensive experiments across diverse multimodal benchmarks demonstrate that M$^3$KG-RAG significantly enhances MLLMs' multimodal reasoning and grounding over existing approaches.


翻译:检索增强生成(RAG)近期已被扩展至多模态场景,将多模态大语言模型(MLLMs)与外部海量知识库(如多模态知识图谱,MMKGs)相连接。尽管近期取得了一定成功,但视听领域的多模态RAG仍面临挑战,主要源于:1)现有MMKGs在模态覆盖和多跳连通性方面存在局限;2)仅基于共享多模态嵌入空间相似性的检索方法,无法有效过滤无关或冗余知识。为应对这些不足,本文提出M$^3$KG-RAG,一种基于多跳多模态知识图谱增强的检索增强生成框架,能够从MMKGs中检索与查询对齐的视听知识,从而提升MLLMs的推理深度与答案忠实度。具体而言,我们设计了一个轻量级多智能体流程来构建多跳MMKG(M$^3$KG),其中包含上下文丰富的多模态实体三元组,支持基于输入查询的按模态检索。此外,我们提出了GRASP(基于接地的检索与选择性剪枝)机制,该机制确保实体与查询的精确对齐,评估答案支持相关性,并剪枝冗余上下文,仅保留生成响应所必需的核心知识。在多种多模态基准上的大量实验表明,M$^3$KG-RAG相较于现有方法,显著提升了MLLMs的多模态推理与接地能力。

0
下载
关闭预览

相关内容

【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员