索引词—大型语言模型、词嵌入、上下文嵌入、多模态表示、自然语言处理 摘要—词嵌入和语言模型通过将语言元素表示在连续向量空间中,彻底改变了自然语言处理(NLP)。本综述回顾了分布假设和上下文相似性等基础概念,追溯了从稀疏表示(如one-hot编码)到密集嵌入(包括Word2Vec、GloVe和fastText)的演变。我们考察了静态嵌入和上下文嵌入的进展,重点介绍了ELMo、BERT和GPT等模型及其在跨语言和个性化应用中的适配。讨论还扩展到句子和文档嵌入,涵盖聚合方法和生成式主题模型,并探讨嵌入在多模态领域(如视觉、机器人和认知科学)的应用。高级主题如模型压缩、可解释性、数值编码和偏差消减也进行了分析,涉及技术挑战和伦理影响。此外,我们还确定了未来的研究方向,强调了对可扩展训练技术、增强解释性以及在非文本模态中稳健的语义基础的需求。通过综合当前方法和新兴趋势,本综述为研究人员和从业者提供了一个深入的资源,以推动基于嵌入的语言模型的发展边界。 https://arxiv.org/abs/2411.05036
I. 引言
大型语言模型(LLMs)通过提供先进的工具来理解和生成人类语言,彻底改变了自然语言处理(NLP)领域。这些模型的核心是词嵌入——密集的、连续的向量表示,用于捕捉单词之间的语义和句法关系。通过将单词映射到高维空间中,使语义相关的单词相互接近,词嵌入支持了细致的语言理解,已成为机器翻译、情感分析和信息检索等NLP应用的关键。词嵌入从早期的one-hot编码逐渐发展到更复杂的Word2Vec、GloVe和fastText,大大提升了语言模型的准确性和可扩展性,使其能够高精度地处理大量文本数据 [1]–[3]。 诸如ELMo、BERT和GPT之类的架构采用深度神经网络生成上下文相关的词嵌入,解决了多义词等复杂问题,并捕捉到语言中的长距离依赖关系。这些上下文表示不仅增强了NLP系统的准确性和稳健性,还支持了语言与其他模态(如视觉和机器人技术)的集成,使得更复杂的交互式应用成为可能。然而,尽管取得了这些进展,嵌入模型在效率、可解释性和伦理问题方面仍存在挑战。高计算成本、嵌入空间的不透明性以及训练数据中的偏差传播风险,都是亟待研究的领域 [4]–[6]。本文回顾了词嵌入的发展历程,探讨了基础原理、多种方法、跨模态应用以及关键挑战。
II. 词嵌入与语言模型
A. 基础概念
- 分布假设:分布假设是许多词嵌入技术的基石,认为在相似上下文中出现的词往往具有相似的含义 [7]。该假设允许将词表示为连续空间中的向量,其中语义相似性通过向量接近性反映出来 [8]。从符号表示到分布式表示的这一转变彻底改变了NLP,使信息检索、机器翻译和情感分析等任务得到了显著提升 [9]。然而,分布假设存在局限性,难以在不同上下文中捕捉词义的细微差别,特别是对于多义词的处理,这导致了对上下文依赖表示的需求 [34]。此外,基于分布假设的传统词嵌入在捕捉广泛的语义和句法关系方面虽有效,但计算代价高且容易出现维度灾难、词汇外(OOV)词问题和特定领域的过拟合 [15]。主要关注词属性而非词形也会导致在不同评估指标上的不一致表现 [13],因此激励了对包含子词信息的替代词嵌入模型的研究,特别是对于形态丰富的语言 [27]。
- 上下文相似性:上下文在消除词义歧义和提升语言模型性能中起着关键作用。不同的上下文定义为捕捉语义关系提供了独特的方式。局部上下文通常定义为相邻词的滑动窗口,被Word2Vec等模型用于通过预测邻近词来学习词嵌入 [10]。尽管高效,此方法在捕捉长距离依赖方面存在局限。句子级上下文考虑整个句子,允许LSTM-RNN等模型整合更全面的信息,产生更细致的句子嵌入 [11]。文档级上下文进一步扩展了范围,涵盖整个文档,这对于文档分类和表示顺序数据流中的文档间时间关系任务尤为有利 [12]。
由ELMo和BERT等模型生成的上下文化词嵌入直接将上下文信息整合到词表示中,使得同一个词可以根据其上下文具有不同的嵌入 [35]。这种上下文化在解决多义词和提升词义消歧(WSD)任务性能中至关重要。例如,利用字符序列表示单词并结合周围文本的上下文字符串嵌入在WSD中尤其有效,尤其是在命名实体识别任务中 [36]。此外,上下文的类型和范围可以显著影响语言模型的表现。例如,尽管为字符级模型添加社会情境信息可以略微提升性能,但可能会对基于词嵌入的模型产生不利影响,表明需要仔细评估上下文与嵌入类型的相互作用 [37]。这推动了对精细化上下文选择策略和数据增强技术的研究,以进一步增强语言模型的能力 [38]。
B. 从稀疏表示到密集表示
- One-Hot编码:One-Hot编码将词表示为稀疏的高维向量。词汇表中的每个词都分配一个唯一向量,其中仅有一个元素为1,其余为0。尽管简单,但此表示方式存在几个关键局限性。该向量的维数随着词汇表大小线性增长,对于大型词汇表来说维数极高 [13]。这导致极高的稀疏性,大部分元素为零,使得计算效率低且资源密集 [10]。此外,One-Hot编码无法捕捉词之间的语义关系。每个词独立表示,无法反映词间的相似性或关系。这是一个重大限制,因为捕捉语义和句法关系对于许多NLP任务至关重要 [39]。例如,正如 [14] 中讨论的,在n-gram语言模型中,预测序列中下一个词依赖于词共现。如果某些词从未共现,模型将无法推断它们之间的关系。因此,One-Hot编码未能捕捉有效语言建模和其他NLP任务(如语义搜索、知识库问答和机器翻译)所需的上下文相似性 [23], [40]。
- 词嵌入:词嵌入通过密集、低维的向量表示来解决One-Hot编码的局限性,这些向量通过大型语料库学习得到 [10]。这些向量捕捉语义和句法关系,将单词映射到连续的向量空间中,使相似词彼此接近 [8]。这种布置符合分布假设,即在相似上下文中出现的词具有相似的含义 [41]。上下文信息对于各种NLP任务(如词相似度测量 [13]、类比求解 [42]、文档检索 [11] 和机器翻译 [30])非常有价值。
连续向量空间表示还允许在词嵌入上进行代数运算。此特性在类比求解任务中尤为有用,其中词之间的关系可以通过向量运算表示 [43]。通过将单词嵌入潜在空间,这些模型捕捉到语言的内在语义和句法结构 [15]。这种潜在表示特别有利于下游任务(如问答、命名实体识别和神经机器翻译),因为它使模型能够超越特定单词出现的限制并识别更广泛的语义关系。与One-Hot编码不同,词嵌入缓解了高维度、稀疏性和缺乏语义表示的问题 [34], [39]。密集向量允许更高效的计算,使模型能够基于大规模文本语料库的分布特性学习复杂关系 [26]。词嵌入还超越了单词的范围,能够表示短语甚至整个文档,如 [44] 和 [45] 中所示。这种多功能性使得词嵌入成为广泛NLP应用中的强大且灵活的工具。 C. 上下文化词嵌入
- ELMo:ELMo [16] 通过训练在语言建模目标上的双向LSTM来生成上下文化的词表示。与静态词嵌入(如Word2Vec和GloVe)为每个词分配单一向量(不考虑上下文)不同,ELMo生成基于词周围文本的动态嵌入。此上下文敏感性使ELMo能够捕捉微妙的词义,并消除多义词的歧义。该架构由两个堆叠的LSTM层组成,每层在正向和反向上处理输入序列。在每个时间步,LSTM的内部状态通过加权平均组合以形成上下文化的词表示。双向LSTM的不同层捕捉不同的语言信息。较低层往往编码句法信息,而较高层聚焦于语义信息。不同的层合并方式可以在下游任务训练过程中学习,以优化每层对特定任务的贡献。
- BERT及其变体:BERT [17] 和其他基于Transformer的双向编码器使用Transformer编码器架构,并在两个目标上进行预训练:掩码语言建模(MLM)和下一个句子预测(NSP)。MLM在输入序列中随机掩码标记,并训练模型根据周围上下文预测被掩盖的词。NSP训练模型判断两句给定句子是否在原始文本中连续。这些目标使BERT能够有效地捕捉双向上下文,解决了之前模型依赖单向或浅双向表示的局限性。BERT用于特定下游任务的微调涉及在预训练编码器之上添加任务特定层,并在目标任务的标注数据上训练整个模型。
RoBERTa [18] 通过移除 NSP 目标、使用更大的批量和更多数据训练,并在训练过程中动态更改掩码模式来修改 BERT 的预训练过程。ALBERT [19] 引入了参数缩减技术,如因式分解的嵌入参数化和跨层参数共享,以减少模型大小并提高训练效率,同时保持性能。这些变体解决了与 BERT 相关的一些计算挑战,并在各种下游任务中表现出更好的性能。BERT 及其变体通过基于上下文生成不同的词嵌入来处理多义词。MLM 目标通过利用周围的上下文来帮助捕捉稀有词的含义。然而,由于 Transformer 架构中自注意力机制的二次复杂性,长序列仍然会带来挑战。将词向量与词分类器作为语言建模的损失框架绑定 [46] 也被探索过,以提高语言模型的性能。
- 其他上下文化嵌入:GPT、XLNet 和 XLM:GPT [20] 使用 Transformer 解码器架构并通过语言建模目标进行训练,预测序列中的下一个词。这种自回归方法捕捉了单向依赖,限制了其捕捉完整双向上下文的能力。XLNet [21] 通过使用置换语言建模目标解决了这一限制,该目标在训练过程中考虑输入序列的所有可能排列,从而允许它在保持自回归形式的同时捕捉双向上下文。XLM [22] 将 BERT 扩展以支持跨语言训练,利用翻译语言建模目标来学习跨语言捕捉单词关系的表示。这些模型的输入嵌入通常表示词级信息,而输出嵌入编码上下文化表示。绑定输入和输出嵌入 [46] 可用于减少参数数量,并可能提高性能。在不同的上下文中探索使用输出嵌入来改进语言模型,通常是通过将其整合到下游任务中或作为改进语言模型自身的方式。
D. 子词级词嵌入与泛化
- 处理稀有词和未见词的子词信息:标准词嵌入技术通常难以处理稀有词和未见词,从而导致词汇外(OOV)问题,阻碍了对新词汇的泛化。子词级信息(如字符n-gram和词素)通过将词表示为子词单元的组合,为解决此限制提供了一种方法。采用这种方法,子词嵌入模型即使对于训练中未见过的词也可以生成有意义的表示。文献[23] 考察了词嵌入如何通过语义相关词扩展查询,提升了查询语言模型在处理词汇不匹配方面的准确性和鲁棒性。在此基础上,文献[24] 提出了一种通用语言模型,利用词嵌入解决信息检索中的词汇不匹配问题。该模型将查询词的观测视为一个两步过程:从文档或集合中生成一个中间词并将其转换为观测的查询词,从而有效地捕捉词间关系并缓解词汇不匹配问题。
类似地,文献[25] 引入了一种子词级向量模型,将词视为字符n-gram的集合,使其能够为稀有或未见词生成有效的嵌入。该模型在计算上高效,易于训练,并在跨多种语言的词相似性和形态句法任务上展示了最先进的性能。文献[10] 提出了一个简化方法,用于在稀有或未见词上训练词嵌入,利用对数双线性模型的噪声对比估计。这种方法比之前的模型更快、更高效,并在嵌入质量和泛化方面表现出更佳的效果。此外,文献[26] 提供了对词嵌入模型的广泛回顾,包括子词级方法及其在各种NLP任务中的应用。
- 跨语言词嵌入和低资源语言:子词信息在推进跨语言词嵌入,特别是对训练数据有限的低资源语言方面发挥着重要作用。通过捕捉跨语言的形态相似性,子词级模型可以为形态相关的词学习共享表示,即使它们在表面形式上有所不同。文献[27] 探讨了词嵌入中的通用和语言特定属性,揭示了词形特征对屈折语言特别有益。类似地,文献[28] 研究了基于双语词典派生的跨语言词嵌入,以增强低资源语言的语言模型。该方法应用于永宁纳语,突显了低资源环境中的挑战和潜在解决方案。
此外,文献[29] 开发了一个支持100多种语言的语言无关 BERT 模型 LaBSE,在跨语言任务中设立了新的基准。LaBSE 利用多语种和单语数据,使用MLM和TLM等技术学习有效的跨语言句子嵌入。最后,文献[30] 基于一个大型未标注语料库和机器翻译词对齐引入了双语词嵌入,通过跨语言捕捉语义等价性,在机器翻译方面取得了显著改进。
E. 个性化词嵌入
- 建模个体语言差异:个性化词嵌入旨在捕捉个体在词语使用和语言偏好上的差异,超越了标准的通用表示。这些嵌入可以提升语言模型在定制到特定用户的任务中的表现。文献[31] 研究了个性化词嵌入在语言建模中的价值,发现将通用嵌入和个性化嵌入结合使用,能实现4.7%的困惑度相对降低,从而提升了模型性能。他们还观察到,与特定心理语言学类别相关的词在用户间表现出较大差异,表明个性化模型在预测此类词方面特别具有优势。此外,文献[32] 考察了句子嵌入中编码的属性,为词频和位置距离等因素在模型对内容和词序编码中的影响提供了见解。他们关于句子层次上个体语言差异的发现,为开发更具用户特定性的词嵌入和NLP系统提供了宝贵的指导。
- 个性化嵌入的应用:个性化词嵌入已在多种NLP任务中展现出效用。文献[31] 展示了个性化嵌入在作者归属上的潜力,表明其可以有效捕捉独特的写作风格。文献[11] 引入了基于用户点击数据训练的LSTM-RNN模型,用于句子嵌入,强调个性化嵌入在用户特定文档检索系统中的应用,这些系统可以提供更相关的搜索结果和量身定制的推荐。个性化嵌入还可以利用用户历史数据:文献[33] 提出了一种用户嵌入模块(UEM),将用户历史压缩为嵌入,作为提示嵌入到语言模型中。这种方法在个性化语言任务上带来了改进,表明个性化嵌入能有效捕捉用户偏好和兴趣,用于定制推荐和用户画像。
图1展示了本节讨论的词嵌入分类法。该分类法根据其基础技术和应用将嵌入划分为从传统的One-Hot编码和密集词嵌入到高级的上下文化和个性化嵌入。