大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大型语言模型（LLMs）的出现代表了自然语言处理（NLP）领域的一个显著突破，为文本理解和生成方面的显著进展做出了贡献。然而，在这些进展中，值得注意的是，LLMs在上下文长度外推方面常常面临限制。理解并扩展LLMs的上下文长度对于提高它们在各种NLP应用中的性能至关重要。在这份调查报告中，我们深入探讨了为什么它是重要的多方面因素以及卓越技术可能为NLP应用带来的潜在变革。我们研究了与扩展上下文长度相关的固有挑战，并对研究人员采用的现有策略进行了有组织的概述。此外，我们讨论了评估上下文扩展技术的复杂性，并强调了研究人员在该领域面临的未解之谜。此外，我们探讨了研究社区是否就评估标准达成共识，并确定了需要进一步协商的领域。这份全面的调查旨在为研究人员提供有价值的资源，引导他们了解上下文长度扩展技术的细微之处，并促进对这一不断发展领域未来进展的讨论。

大型语言模型（LLMs）的成功案例随处可见，随着现代LLMs的出现，它们显著推动了众多自然语言处理（NLP）挑战的发展，达到了前所未有的高度。科学努力的自然进展是朝着新的和具有挑战性的领域前进。在雄心勃勃的倡议中，一个值得注意的努力是扩展LLMs的可理解性以包括非常长的上下文。OpenAI提出了128页上下文可理解性的概念，而Anthropic最近提出了超过200页的更长上下文。然而，这些商业发布和公告中存在显著的科学严谨不足。在这个背景下，引发了几个问题：(a) 有哪些应用需要理解如此扩展的上下文？(b) 当LLMs理解更长的上下文时，我们如何有效地衡量应用程序的改进性能？(c) 虽然注意力机制在NLP中得到了广泛研究，但是否需要设计一种专门针对更长上下文的新型注意力形式？

采用旨在处理长上下文的高级技术有望重塑语言模型的格局。改进的长上下文管理方法可以提高模型性能，从而实现更准确和细致入微的语言理解。这些进步有望增强模型捕捉长距离依赖性的能力，从而提高其在各种语言任务中的整体有效性，如：(接下来列举具体的任务)。

• 文档摘要：改进长上下文处理有助于更加连贯和简明地进行文档摘要，捕捉扩展文本段落中的关键信息，并提高生成摘要的质量。全面理解整个文档，同时识别关键词和主题，需要熟练管理广泛的上下文范围。在这种情况下使用较短的窗口将限制生成能力，可能导致关键细节的忽视。此外，使用较长的上下文窗口有助于减少歧义，因为它妨碍了没有对文档的复杂性进行全面把握的情况下利用微妙信息。这反过来使LLM能够以更高的洞察力和准确性进行摘要过程的导航。

• 问答系统：考虑长上下文的能力提高了模型对复杂的问答关系的理解，从而产生更准确和上下文相关的回答。此外，LLMs在处理问答任务方面表现出更高的熟练度，因为解决代词的共指问题与上下文实体密切相关。此外，在面对多轮对话时，扩展上下文窗口在促进连续对话中话题一致性跟踪方面发挥了关键作用。

• 语言翻译：在更大文本段落中改进上下文保留增强了模型提供准确翻译的能力，特别是在上下文微妙性起关键作用的情况下。多义词汇在翻译领域（Falkum和Vicente，2015）中构成了重要障碍，而扩展上下文窗口是在上下文中定位这种词汇的明显辅助。此外，在面对技术术语时，LLMs在拥有扩展的输入范围时表现出更高的效能，尤其是在容纳特定领域上下文微妙性方面。

• 指代消解：高级处理长上下文有助于解决扩展文本跨度内对实体的引用，从而提高了指代消解的准确性。指代消解过程涉及建立代词与其对应的先行词之间的联系。LLMs中上下文窗口的扩展有助于更全面地评估信息，因此通过包括远程引用和上下文相关的详细信息来协助精确的代词解析。

• 对话型人工智能：通过长上下文模型促进对扩展对话的更好跟踪和理解，可以在对话型人工智能系统中产生更具上下文适应性的回应。扩展上下文窗口在为LLMs定位幽默、讽刺或微妙表达在对话环境中的作用方面起到关键作用。这对于生成符合正在进行的对话中的语气和风格微妙之处的回应至关重要。

尽管持续的研究工作，仍然缺乏一份全面的涵盖了用于外推上下文长度的技术范围的概述。此外，LLMs的不断发展已经引入了用于外推上下文长度的创新方面，这给现有的扩展方法带来了挑战，并强调了需要全面、多样化的外推方法的必要性。本文标志着LLMs上下文长度扩展技术的第一次全面调查。如图1所示，我们深入研究了在微调期间可以实现的上下文长度扩展的现有工作。随后，我们探讨了LLMs上下文长度外推的潜在未来挑战。当代技术已经引入了多种方法来增强LLMs的上下文能力。为了进行系统分类和增强清晰度，我们提出了一个分类法，如图1所示。该分类法划分为两个主要类别：插值和外推技术。插值包括从不同的来源或上下文中融合信息以提高预测精度。这种技术适用于混合来自不同文本段落或包含不同上下文长度的不同模型的信息。相反，外推涉及对观察数据的范围之外的值进行预测，旨在扩展模型的理解能力超出其规定的训练上下文长度。然后，还有用于进一步分类的零样本（Rashid等人，2021）和微调技术。分类法中的其他小节将在随后的部分中讨论。

位置技术

与绝对位置嵌入不同，相对位置嵌入是基于键（keys）和查询（queries）之间的差异制定的（Shaw等人，2018）。相对位置嵌入的一种普遍变体在Transformer-XL中引入（Dai等人，2019b；Yang等人，2019）。计算键和查询之间的注意力得分已经改变，以集成与相对位置对应的可训练嵌入。与绝对位置嵌入相比，配备相对位置嵌入的Transformer展示了能够推广到超出训练中遇到的长度的序列的能力，表现出了外推的熟练性（Press等人，2021b）。与位置编码相关的一个重复约束是无法扩展到训练期间观察到的上下文窗口之外。已经进行了一些工作来克服这些限制。

外推在这次探索中，我们将其分类并深入探讨了两种主要策略：外推和插值。外推技术旨在扩展模型对超出其最初观察到的长度的序列的理解，采用创新策略来捕捉在扩展范围内的依赖关系。另一方面，插值技术集中于改进模型在观察范围内平滑扩展对上下文的理解能力，从而提高了在最初遇到的上下文长度内的序列性能。以下部分详细介绍了每个类别内的技术，提供了有关应对LLMs上下文长度动态特性所采用的多种方法的见解。

插值在上下文长度外推的背景下，插值技术专注于对模型进行微调或优化，以有效处理在训练期间遇到的上下文长度范围内的序列。重点是改进模型平滑扩展其对观察范围内上下文的理解能力，从而提高其在最初遇到的上下文长度内序列的性能。这些技术有助于更加微妙和改进的上下文理解，确保模型在训练期间接触到的上下文长度内表现最佳。

总结而言，本文全面审查了扩展LLMs上下文长度的多种技术和方法。所提供的分类法将这些方法分为两种广泛的策略 - 外推和插值。外推技术旨在扩展模型处理超出其最初训练上下文长度的序列的能力。这包括利用专门组件，如位置编码、注意机制和记忆增强来实现即时泛化的零样本方法。还探讨了微调策略，以使模型适应在预训练期间未遇到的更长上下文。插值技术专注于优化模型，以在观察训练长度内平滑扩展上下文理解。专门的注意机制和提示压缩有助于高效处理长上下文。微调插值适应模型以在序列开始超过训练长度时实现优雅过渡。本调查提供了有关技术的多样性的见解，涵盖提示工程、注意机制、位置编码和记忆增强等领域。它突出了模型体系结构和训练方法的创新，旨在解决上下文长度的限制。广泛的经验分析证实了这些多样化技术在基准测试和下游任务上的有效性。通过提供结构化分类法和对现有文献的综述，本文有助于更清晰地理解LLMs上下文长度扩展领域的不断演变。讨论确定了有前景的研究方向，强调了继续努力开发能够处理广泛上下文信息的模型的重要性。随着对长篇文本生成和对大型语料库进行推理的兴趣不断增加，改进的上下文处理将在未来几年继续是一个活跃的研究领域。

成为VIP会员查看完整内容