本章讨论了现代生成式人工智能模型对信息访问(IA)系统的基础性影响。与传统的人工智能相比,生成式人工智能模型通过大规模训练和卓越的数据建模能力,能够生成高质量、类人化的响应,这为信息访问范式的发展带来了全新的机遇。在本章中,我们详细介绍了其中的两个关键方面:信息生成和信息综合。 信息生成使得人工智能能够创造量身定制的内容,直接满足用户需求,通过即时、相关的输出增强用户体验。信息综合则利用生成式人工智能整合和重组现有信息的能力,提供有依据的响应,并减少诸如模型幻觉等问题,这在需要精确性和外部知识的场景中尤为重要。 本章深入探讨了生成模型的基础性方面,包括架构、规模扩展和训练, 并讨论了它们在多模态场景中的应用。此外,还考察了检索增强生成(RAG)范式以及其他语料库建模和理解方法,展示了生成式人工智能如何增强信息访问系统。最后,本文总结了潜在的挑战和未来研究的有价值方向。 现代生成式模型与传统人工智能技术的主要区别在于,它们能够根据人类指令生成复杂且高质量的输出。正如许多研究所展示的[1-3],现代生成式人工智能模型具备生成与人类互动高度相似的回应的显著能力。一般来说,这种出色的表现源于其大规模的训练数据集和先进的数据建模算法。它们卓越的数据理解能力可以惠及现有信息访问系统的几乎每个组成部分,从文档编码和索引构建,到查询处理和相关性分析等。然而,当谈及生成式人工智能为信息访问带来的新机遇或新范式时,通常可以将其广泛分类为两个方向。第一个方向是生成直接满足用户信息需求的内容。通过理解并将用户查询作为输入指令,生成式人工智能模型能够生成针对个体请求的具体答案或产品。这种直接的信息生成方式可以通过提供即时且相关的回应,显著提升用户体验。第二个方向是利用生成式人工智能模型在遵循指令方面的高级能力,创新性地合成并重新组合现有信息。像大规模语言模型(LLMs)这样的生成式人工智能能够利用现有数据,将其转化为新的、一致的、之前可能没有明确阐述的信息。这种重新解释和组织信息的能力为信息检索系统的设计和应用开辟了新的可能性。因此,在本章中,我们从两个角度探讨生成式人工智能模型如何帮助信息访问,即信息生成和信息综合。
1. 信息生成
信息需求是多样的,通常具有长尾特性。传统的信息检索系统,如搜索引擎和推荐平台,旨在呈现已存在的信息。然而,这些系统在满足较为冷门的信息需求时往往力不从心。这在需要创造性创作的场景中尤为明显,用户不仅仅寻求信息,更需要灵感和新颖的想法。传统信息系统在应对这些独特需求时的局限性,为生成模型的出现铺平了道路,生成模型承诺能够创造与长尾信息需求高度契合的新信息。 近年来,生成模型取得了显著发展。例如,ChatGPT 可以回答用户问题,Bing 利用检索增强生成改进响应,Midjourney 根据用户提示生成图像,推荐系统为不同用户生成个性化内容。这一发展主要得益于强大的模型架构、计算资源以及大规模互联网数据。这些因素促使生成模型的性能达到新高度。随着这些元素的持续扩展,模型性能仍在迅速提升。如今,生成模型已经逐渐融入各种工作流程和日常生活活动中。 在本节中,我们介绍生成模型的基础。本节内容组织如下:第 1.1 节展示了为大规模语言模型设计模型架构的努力;第 1.2 节讨论了如何通过扩展促进生成模型的发展及其潜在未来;第 1.3 节介绍了大规模语言模型的不同训练阶段;最后,第 1.4 节介绍了大规模语言模型在多模态场景中的应用。2. 信息综合除了直接生成信息之外,另一个重要的研究和应用方向是利用生成式人工智能模型,特别是大规模语言模型(LLMs),将现有信息进行整合并生成基于事实的响应。为了简化表述,我们将这种范式称为信息综合。信息生成与信息综合的关键区别在于信息来源。信息生成依赖于生成式人工智能模型在训练过程中获取的内部知识和信息来创建模型输出,而信息综合则需要外部资源为模型提供信息,模型在这种情况下更多地充当整合者而非创造者。信息综合在许多信息访问(IA)场景中被认为比信息生成更可靠,原因有多个。以下我们讨论其中两个最为重要的原因:模型幻觉和外部知识。幻觉,指的是生成式人工智能模型创建没有事实依据或现有支持材料的响应和输出行为,是大多数现有生成式人工智能系统的根本问题。例如,大规模语言模型(LLMs)通过下一个令牌预测任务生成响应,这将语言生成作为一个概率过程,通过神经网络预测的概率分布(在词汇表上)生成下一个令牌[1, 3]。LLMs 的概率模型使它们能够高效、有效地捕捉大规模数据中的知识,但也引入了生成过程中的不可避免的变异性。换句话说,理论上不可能阻止 LLMs 生成在其训练过程中没有见过的数据[80]。尽管幻觉的能力是 LLMs(以及人类)创造力的源泉,但在实际应用中,这种能力并不总是可取,尤其是在需要结果精确性、可靠性和可解释性的任务中。因此,要求生成式人工智能模型整合人类创造的或事实依据的材料,而不是自己生成信息,通常被认为对幻觉敏感的应用更加有效和稳健。外部知识的需求是另一个使得我们在某些情况下倾向于选择信息综合而非信息生成的关键原因。尽管现代生成式人工智能模型已经通过从网络收集的大量数据进行训练,但仍然有许多场景需要我们从外部知识库中检索和获取支持,以完成特定任务。例如,使用私人数据集、需要特殊知识的垂直领域应用、涉及时效性数据的任务等。通过模型预训练或监督微调(SFT)[81-83]将任务相关的外部数据更新到大规模生成式人工智能模型(如 LLMs)中,通常效率低下或成本高昂。即使可以实现,这种范式也不太被优选,因为大多数生成式人工智能模型的内部知识结构仍然是一个谜(至少在今天是如此),并且无法保证模型会按照我们的预期行为并使用外部信息。相比之下,将生成式人工智能模型作为信息综合器使用,不仅为我们提供了更多的灵活性,还提供了更大的透明度和对系统输出的控制。在本节中,我们将讨论生成式人工智能模型,特别是 LLMs,如何作为有效的信息综合器来服务于信息访问(IA)。我们首先介绍一种最流行的信息综合范式——检索增强生成(RAG),然后讨论几种利用 LLMs 进行语料库建模和理解的其他方向。3. 总结与未来方向在本章中,我们介绍了生成式人工智能模型在信息访问中的基础和应用。与其分析像大规模语言模型(LLMs)这类生成式人工智能模型如何改进现有的搜索引擎和推荐系统模块,我们更关注它们如何通过新的方法论和系统设计彻底改变信息访问。特别地,我们讨论了生成式人工智能模型带来的两个新范式,即信息生成和信息综合。信息生成是指用户可以利用生成式人工智能模型创建直接满足其信息需求的信息的场景。在这一部分,我们深入探讨了生成模型的核心组件,包括模型架构(重点讨论变换器及其改进)、扩展法则和训练方法。我们还审视了关于持续模型扩展的争议,提示优化的重要性,以及这些模型在信息访问中的多模态应用扩展。信息综合是指利用大规模语言模型(LLMs)出色的指令跟随和逻辑推理能力,对现有信息进行聚合和综合的范式。我们广泛讨论了这一方向中最具代表性的技术——检索增强生成(RAG),并介绍了从简单实现到更复杂的模块化系统的多种方法。我们描述了在优化RAG系统时面临的挑战和机遇,强调了联合检索生成优化的必要性,以及多种相关研究方向的潜力,如具有规划的复合检索。此外,我们还讨论了使用生成式人工智能模型直接建模语料库知识的替代范式,例如生成式检索(旨在用基于神经网络的方法替代传统的索引方法)和领域特定模型训练(对LLMs进行继续预训练或在目标语料上进行微调)。我们讨论了这些方法的潜力和局限性,包括系统可控性和成本效益问题。总体而言,关于生成式人工智能模型如何重塑现代信息访问系统的研究仍处于早期阶段。如前所述,现有关于信息生成和信息综合的研究,要么聚焦于简单的信息任务(如写诗、回答事实性问题等),要么依赖于简单的系统设计(例如,将所有文档作为提示输入给LLMs),显然无法充分发挥现代检索和生成模型的强大能力。因此,我们认为在未来几年(至少)有两个主要方向值得探索。第一个方向是将简单的单一信息检索任务(如事实性问答)拓展到更复杂的信息任务,这些任务曾被认为是现代信息检索系统“无法完成”的。例子包括带有复合需求的检索(例如,“帮我策划一场在马萨诸塞州安哈斯特的婚礼”)或需要规划和多轮检索与生成的任务(例如,“写一篇关于RAG的调查”)。这些任务曾经需要人类专家来分解需求,进行检索、分析和结果聚合。现在,借助生成式人工智能,机器自动完成这些任务成为可能。第二个方向是探索更好的技术来沟通、协作,甚至统一检索和生成系统以进行信息访问。尽管RAG的研究已引起了相当大的关注,但现有的工作大多将检索系统作为LLMs的插件工具,而没有深入挖掘它们的内在联系和差异。例如,如何理解LLMs的信息需求,如何将检索结果传递给LLMs,以及如何优化生成器以进行检索、优化检索器以进行生成,都是重要但尚未深入探讨的研究课题。关于这些课题,有许多问题值得详细研究,包括新训练范式的设计、类代理系统框架的开发、联合系统中离策略和在策略训练可能引发的问题和偏差等。当ChatGPT首次出现时,信息检索(IR)社区的部分人士担心这种生成式人工智能模型可能会颠覆所有现有的IR系统,并摧毁该领域的一切[129],就像它几乎发生在自然语言处理(NLP)领域一样。有趣的是,在关于人类与人工智能竞赛的模拟社会实验中,Yao等人[153]发现,如果人类生产者不借助生成式人工智能扩展自身能力,他们最终将被人工智能“取代”。从这个角度来看,生成式人工智能时代信息检索研究的未来,在于如何利用生成式人工智能模型扩展信息检索的范围,以完成更复杂的信息任务,并开发更通用的系统架构,既不仅仅是检索文档列表,而是执行更复杂的信息处理和规划。