摘要—大型语言模型(LLMs)在广泛的任务中展现出了卓越的能力,但在专业领域的应用仍面临挑战,主要原因在于需要深厚的领域专业知识。检索增强生成(RAG)作为一种有前景的解决方案,通过无缝集成外部知识库,使大型语言模型能够在推理过程中实时访问领域特定的专业知识,从而实现定制化。然而,传统基于平面文本检索的RAG系统面临三个关键挑战:(i)专业领域中复杂的查询理解,(ii)跨分布式源的知识整合困难,和(iii)大规模下的系统效率瓶颈。本综述提出了一种系统性的分析,重点讨论了基于图的检索增强生成(GraphRAG),这是一种通过图结构革命性地改变领域特定大型语言模型应用的新范式。GraphRAG通过三项关键创新解决了传统RAG的局限性:(i)图结构的知识表示,显式捕捉实体关系和领域层次,(ii)高效的基于图的检索技术,支持多跳推理的上下文保持型知识检索,和(iii)结构感知的知识整合算法,通过利用检索到的知识进行准确且逻辑连贯的LLM生成。本文对GraphRAG的技术基础进行了系统分析,并考察了在多个专业领域中的现有实现,识别了关键的技术挑战和有前景的研究方向。所有与GraphRAG相关的资源,包括研究论文、开源数据和项目,已汇集在https://github.com/DEEP-PolyU/Awesome-GraphRAG供社区使用。
关键词—检索增强生成,知识图谱,大型语言模型,GraphRAG
I. 引言
大型语言模型(LLMs),如GPT系列 [1],凭借其在广泛任务中的卓越能力,令世界为之一惊,在文本理解 [2]、问答 [3] 和内容生成 [4]–[6] 等领域取得了突破性进展。然而,尽管LLMs在许多任务上表现出色,它们在处理需要领域专业知识的知识密集型任务时仍面临批评 [7]。具体而言,LLMs在专业领域中的应用仍然面临三大挑战: ❶ 知识局限性:LLMs的预训练知识广泛,但在专业领域中较为浅薄。它们的训练数据主要来自通用领域内容,导致在专业领域的知识深度不足,并且可能与当前的领域特定标准和实践存在不一致。 ❷ 推理复杂性:专业领域要求精确的多步骤推理,涉及领域特定的规则和约束。LLMs往往难以在扩展的推理链中保持逻辑一致性和专业准确性,尤其是在处理技术约束或领域特定协议时。 ❸ 上下文敏感性:专业领域通常涉及依赖于上下文的解释,相同的术语或概念在特定情况下可能具有不同的含义或影响。LLMs往往无法捕捉这些细微的上下文差异,导致潜在的误解或不当概括。 为了将LLMs适配到特定或私有领域,最初的策略是通过使用专业数据集对LLMs进行微调 [8]。这种方法通过增加有限的参数并固定预训练中学习到的参数来提高性能 [9]。然而,领域特定数据集与预训练语料库之间的显著分布差距使得LLMs在不妥协现有理解的情况下整合新知识变得困难 [10]。谷歌研究的一项最新研究进一步突出了使用监督微调更新知识的风险,特别是在新知识与已有信息冲突时;通过监督微调获取新知识可能导致模型生成新的幻觉,甚至遭遇严重的灾难性遗忘 [11]。 检索增强生成(RAG) 提供了一个有前景的解决方案来定制LLMs以适应特定领域 [12]。RAG并不是通过重新训练LLMs来整合更新,而是通过利用外部知识库增强这些模型,无需修改其架构或参数。这种方法使LLMs不仅能利用其预训练知识,还能实时检索领域特定信息,从而生成更加准确和可靠的回答。传统的RAG系统通过三个关键步骤进行操作:知识准备、检索和整合。在知识准备阶段,外部资源(如文档、数据库或网页)被分割成可管理的文本块,并转换为向量表示以便高效索引。在检索阶段,当用户提交查询时,系统通过关键词匹配或向量相似度度量来搜索相关的文本块。整合阶段将这些检索到的文本块与原始查询结合,以生成用于LLM响应的知情提示。近年来,一些先进的RAG系统已经超越了简单的文本块检索,提供了更为复杂的知识增强方法。这些方法包括:通过多级检索保持文档结构的层次化RAG [13][14],实施两阶段检索以提高召回率和精确度的重排序系统 [15][16],自动分解复杂查询的自查询RAG [17],以及根据查询类型动态调整检索策略的自适应RAG [18][19]。这些先进的RAG系统通过提升上下文感知能力、检索准确性,并更有效地处理复杂查询,旨在克服传统RAG方法的局限性。 RAG的出现为定制LLMs提供了一个有前景的方法,但尽管如此,RAG仍面临若干关键限制,影响其在实际应用中的效果。这些限制可大致分为四个主要挑战,显著影响RAG增强的LLMs的性能和实用性。主要挑战在于复杂查询理解。专业领域通常涉及复杂的术语和行业特定的行话,需要精确的解释 [20]。这些领域中的用户查询通常包含大量技术性术语和行业特有的表达,解决方案往往需要跨多个相关概念进行推理。传统的RAG方法依赖于简单的关键词匹配和向量相似度技术,这些方法无法有效捕捉准确和全面的深层语义差异和多步骤推理过程 [21]。例如,当询问概念A与概念D之间的关系时,这些系统通常只检索直接相关的信息,而忽略了可能桥接这一关系的关键中介概念,如B和C。这种狭隘的检索范围限制了RAG对广泛上下文理解和复杂推理的能力。 另一个关键挑战是从分布式来源整合领域知识。领域知识通常来自不同的资源,如教科书、研究论文、行业报告、技术手册和维护日志。这些文本文档可能具有不同的质量、准确性和完整性。检索到的知识通常是平坦的、广泛的且复杂的,而领域概念通常分散在多个文档中,且不同概念之间缺乏清晰的层次关系 [7][22][23]。尽管RAG系统通过将文档分割成较小的块以便高效索引来管理这种复杂性,但这种方法不经意间牺牲了重要的上下文信息,显著妥协了检索准确性和上下文理解能力。这一限制妨碍了在相关知识点之间建立稳固联系,导致理解片面,进而降低了领域专业知识的利用效果。 第三个限制来自LLMs固有的限制。尽管RAG系统可以从庞大的知识库中检索相关信息,但LLM处理这些信息的能力受限于其固定的上下文窗口(通常为2K-32K个token) [1][24]。复杂文档中的长程依赖关系无法完全捕捉,因为超出上下文窗口的内容必须被截断或总结,这会打断自然的语义单元和逻辑流程。在专业领域中,保持跨广泛知识背景的一致性变得更加棘手,因为在上下文窗口截断过程中,关键信息可能会丢失。这一固有限制直接影响了系统从大规模知识库中处理和综合信息的能力。 最后的挑战与系统效率和可扩展性有关。整个RAG管道——从初步的语料预处理和索引到实时检索和生成——面临显著的效率瓶颈 [25][26]。外部知识库中包含大量与领域无关的信息,而领域特定的术语通常在这些文档中分布稀疏。RAG系统计算成本高且耗时 [25],特别是在处理大规模知识源时,因为模型需要搜索大量未结构化的文本以寻找相关信息。此外,实时检索和跨文档推理可能引入相当大的延迟,影响用户体验。随着知识库规模的增长,RAG的可扩展性受到检索质量和准确性的下降限制 [26],这进一步限制了其在广泛且动态的专业环境中的实际部署。 为了应对这些限制,图检索增强生成(GraphRAG)作为一种新范式应运而生,旨在通过组织良好的背景知识和改进的上下文推理定制LLMs [25][27]–[29]。基于图结构,现有的GraphRAG模型可分为三大类:❶ 基于知识的GraphRAG,将图作为知识载体;❷ 基于索引的GraphRAG,使用图作为索引工具,从语料库中检索相关的原始文本;❸ 混合型GraphRAG,结合了基于知识和基于索引框架的优势,为复杂推理任务提供了更先进的解决方案。基于知识的GraphRAG和基于索引的GraphRAG代表了两种不同的增强LLMs的图结构方法。基于知识的GraphRAG侧重于将非结构化文本文档转化为明确且结构化的知识图谱,其中节点表示领域概念,边表示它们之间的语义关系,从而更好地表示层次关系和复杂的知识依赖性。相比之下,基于索引的GraphRAG保持原始文本形式,同时主要利用图结构作为索引机制来高效地组织和检索相关文本块。通过将图结构融入文本索引,基于索引的GraphRAG方法在文本块之间建立语义连接,便于高效的查找操作和检索。虽然基于知识的GraphRAG强调通过图转换明确建模领域知识和语义关系,而基于索引的GraphRAG则优先优化信息检索和通过图形索引策略提升文本信息的可访问性。这两种方法在目的上有所不同:基于知识的GraphRAG旨在通过图结构推理能力创建结构化的知识表示,帮助更好地理解复杂关系;而基于索引的GraphRAG则侧重于通过图结构索引策略优化相关文本信息的检索和可达性。 在本文中,我们系统地分析了GraphRAG的技术基础,并考察了在各个专业领域中的当前实现,识别了关键的技术挑战和有前景的研究方向。所有与GraphRAG相关的资源,包括研究论文、开源数据和项目,已汇集在https://github.com/DEEP-PolyU/Awesome-GraphRAG供社区使用。
本综述对GraphRAG进行了全面分析,详细介绍了其分类、机制、挑战和未来的研究方向,并将内容组织为七个主要部分,逐步从基础概念到实际应用展开。具体来说,我们在第二部分(Section 2 II)首先建立了基础框架,追溯了GraphRAG从传统RAG系统的演变,探讨了RAG在处理结构化知识时的局限性,并介绍了GraphRAG在复杂推理任务中的核心概念和优势。接下来的三部分系统地探讨了GraphRAG系统的关键组件:包括知识承载图和索引图(第三部分Section 3 IV)两种主要的结构化知识组织范式;从结构化知识库中提取与查询相关的事实信息的检索技术(第四部分Section 4 V);以及有效地将检索到的知识整合到LLM中的知识集成方法(第五部分Section 5 VI)。随着向实际应用的推进,第六部分(Section 6 VIII)通过提供详细的实施指南、回顾开源项目,并呈现由全面数据集和评估基准支持的领域特定案例研究,讨论了GraphRAG的实施方面。最后,第七部分(Section 7 VII)通过识别未来的研究方向,并讨论知识质量、检索效率、系统泛化能力和安全性等潜在挑战,结合实践指导,总结了构建领域特定GraphRAG系统的建议。 本综述在现有的综述 [28]–[30] 基础上进行了进一步扩展,采用了更加系统和全面的方法分析GraphRAG系统。尽管之前的综述提供了Graph基索引、图引导检索和图增强生成的基本工作流描述,我们引入了一个更为复杂且全面的分类法,将GraphRAG方法清晰地分为三类(基于知识的、基于索引的和混合型GraphRAG),从而提供了对该领域更加细致的理解。我们的综述采用了更为系统的六部分结构,逻辑地从理论基础到实践应用展开,详细探讨了每个组成部分,包括知识组织范式、检索技术和集成方法。
与之前的综述不同,我们通过详细回顾开源项目、领域特定案例研究以及提供全面的数据集和评估基准,提供了丰富的实践指导。我们还对多个维度的挑战和解决方案进行了更为深入的分析,包括知识质量、检索效率、系统泛化能力和安全性问题。最后,尽管现有综述广泛讨论了潜在应用,我们提供了更多基于实证证据和实施示例的可操作性见解,使我们的综述成为在生产环境中部署GraphRAG系统的实践者更具价值的资源。