【剑桥大学博士论文】使用检索方法增强多模态问答系统

开发能够处理复杂任务的人工智能系统的需求推动了深度学习的快速发展，尤其是自 2016 年以来，神经网络模型已成为主流方法。这些模型的应用范围广泛，从推荐系统到语音识别，彻底变革了多个领域。然而，仍然存在一些挑战，特别是在融合大量特定领域知识和减少大语言模型固有的生成幻觉方面。本论文探索了将检索增强生成（RAG）集成到多模态问答（QA）系统中的方法，以应对这些挑战。通过利用外部知识源，RAG 提高了模型的准确性并增强了对特定领域信息的访问能力。研究按以下顺序展开：首先，为了高效利用外部知识回答知识密集型的视觉问题，我们提出了 RA-VQA（检索增强视觉问答）框架，该框架专为知识驱动的视觉问答（KB-VQA）设计。我们展示了检索器和生成器模型联合训练在最大化性能方面的效果。其次，FVQA（基于事实的视觉问答）2.0 引入了半自动标注的对抗样本，以解决数据分布不均衡问题并增强系统的鲁棒性，展示了在处理复杂场景方面的显著改进。第三，开发了 FLMR（细粒度后交互多模态检索器）及其扩展版本 PreFLMR（预训练 FLMR），突显了后交互模型在实现卓越多模态检索性能方面的重要性。我们证明了所提出的模型能够捕捉查询与上下文之间的细粒度交互，在广泛的多模态检索任务中实现了高效和准确的检索。随后，研究重点转向 TableQA 中的检索方法，引入了 ITR（内表检索器）用于封闭域场景，并提出了 LI-RAGE（带显式信号的后交互检索增强生成）用于开放域 TableQA 任务。两种框架在现有方法上表现出显著的性能提升。我们展示了在 TableQA 中整合检索方法显著推动了研究边界，提供了最先进的问答性能。通过细致的实验和创新，本论文不仅在多模态检索增强系统的理论理解上取得了进展，还提供了实用的框架和数据集，以应对不同领域问答中的关键挑战。在迈向有效 AI 系统的过程中，这些贡献为信息检索和多模态问答的未来发展奠定了坚实基础。创造能够处理复杂任务的人工智能（AI）一直是人工智能研究领域的目标。自 2016 年以来，深度学习已成为人工智能中的一种重要方法，其中通过构建和训练神经网络模型，使其逐渐成为开发人工智能的主流方法 [139]。近年来，这些神经网络模型也在各种实际场景中得到了广泛应用，包括推荐系统、对话代理、语音识别、情感分析和人机交互。人工智能模型因其在自动分析、逻辑推理和内容生成等复杂任务中的潜力而备受重视。2021 年，GPT-3（Generative Pre-trained Transformer 3）[23] 的发布以及一系列开源大型语言模型，证实了在数据驱动方法下扩展模型参数和训练数据的有效性，正式开启了以大模型为核心的研究浪潮。大型语言模型的出现标志着人工智能领域的新里程碑，并引起了人们对数据驱动方法的关注。这些在海量数据上训练的模型在各种语言任务中表现出色，从简单的语言理解到复杂的文本生成，展现出前所未有的能力。多模态是指整合来自不同来源的异构数据，通常包括语言、视觉和音频信息，广义上还延伸到图数据和表格（结构化）数据。自 2021 年以来，多模态任务的研究日益突出，特别是自然语言处理和计算机视觉领域的逐步融合。因此，学术界和工业界正在投入更多资源研究多模态大型模型。以 GPT-4 [232] 为代表的一系列多模态大型模型（如 LLaVA [198] 和 MiniGPT-4 [388]）的出现，意味着大型模型正逐渐获得强大的视觉-语言理解和推理能力，有望应用于处理更复杂的多模态任务。例如，强大的视觉-语言理解能力在医疗保健 [220, 329, 371]、教育 [18, 154] 和推荐系统 [203, 351] 等应用中至关重要，在这些领域中，对视觉和文本信息的准确解释和整合可以显著提升性能和结果。然而，各种研究 [219, 44] 表明，尽管大型模型可以基于自身知识处理各种复杂任务，但其能够存储和熟练应用的知识是有限的，特别是在复杂和特定领域的知识方面。当前的大型模型存在生成幻觉 [118, 196] 的问题，在回答问题时经常生成错误或模棱两可的内容，并且在需要专业知识或世界知识的场景中表现不佳。本章开头引用的苏格拉底名言：“真正的智慧在于知道自己一无所知”，完美地适用于我们对优秀 AI 系统的期望。只有当 AI 系统认识到自身的局限性，并且在缺乏相关信息时能够利用外部资源获取知识时，它才真正具备“真正的智慧”。在此背景下，在深度学习系统早期提出的检索增强生成（Retrieval-Augmented Generation，RAG）再次受到关注。RAG 是一种将信息检索系统整合到大型模型生成过程中的流程。它利用检索系统从知识库中提取必要的知识，并将这些信息提供给模型，从而使其能够基于外部检索的数据进行推理或回答问题。RAG 可以通过以下方式为大型模型的生成带来显著优势： * 通过明确呈现模型所需的知识，减少大型模型的幻觉，提供更准确的答案（例如，股票代码和产品信息）。 * 使模型能够访问更广泛的行业特定和世界知识。为模型配备特定领域的知识库，使其能够处理专业任务。 * 增强模型的时效性。虽然模型的训练和参数更新通常需要较长时间（甚至数月或数年），但信息更新的速度要快得多。模型从持续更新的数据库中提取最新信息进行问答，可以显著提高其相关性。然而，在本文研究的初始阶段（2021 年 10 月），多模态大型模型和多模态 RAG 系统的研究仍存在一些不足。知识密集型任务的多模态系统通常存在以下问题： * 模型结构复杂，参数规模庞大，但在需要知识的多模态任务上表现不佳。 * 所使用的多模态信息检索系统性能较弱，召回率（评估检索性能的指标）较低。 * 信息检索组件与检索增强生成模型之间的整合不佳，即使检索性能良好，回答性能也不理想。在下一节中，我们将提出本研究旨在解决的关键研究问题，以克服现有多模态 RAG 系统的局限性。