在自然语言处理(NLP)领域,大型语言模型(LLMs)已展示出高质量的文本生成能力。然而,在实际应用中,LLMs必须满足日益复杂的需求。除了避免生成误导性或不恰当的内容外,LLMs还需要满足特定用户的需求,例如模仿特定的写作风格或生成具有诗意丰富性的文本。这些多样化的需求推动了可控文本生成(CTG)技术的发展,确保生成的文本符合预定的控制条件——如安全性、情感、主题一致性和语言风格——同时保持高标准的有用性、流畅性和多样性。
本文系统回顾了大型语言模型中CTG的最新进展,全面定义了其核心概念,并阐明了控制条件和文本质量的要求。我们将CTG任务分为两大类:内容控制和属性控制。讨论了关键方法,包括模型重训练、微调、强化学习、提示工程、潜在空间操作和解码时干预。我们分析了每种方法的特点、优缺点,并提供了实现生成控制的深入见解。此外,我们还回顾了CTG的评估方法,概括了其在各个领域的应用,并探讨了当前研究中的关键挑战,包括流畅性降低和实用性问题。我们还提出了一些建议,如在未来研究中更加注重实际应用。本文旨在为该领域的研究人员和开发者提供有价值的指导。我们的参考文献列表和中文版本已开源,网址为:https://github.com/IAAR-Shanghai/CTGSurvey
随着大型语言模型(LLMs)的快速发展及其在自然语言处理(NLP)中的广泛应用,文本生成质量取得了显著突破[175]。然而,在实际应用中,LLMs往往面临更加复杂和严格的内容生成要求。例如,在金融[71]和新闻报道[79]等领域,模型不仅要避免生成误导性或歧视性内容[8],还需精确匹配特定条件和用户需求。这些需求可能包括模仿特定的写作风格或生成具有诗意的文本。这类要求推动了可控文本生成(CTG)技术的发展,CTG也被称为受控文本生成或约束文本生成,确保生成的文本既符合高质量标准,又满足各种应用的具体需求。
随着对使LLMs生成符合特定要求的内容的兴趣和需求的增加,CTG研究领域不断扩展。图1展示了Web of Science中索引的与“语言模型中的控制生成”相关的论文数量增长情况。CTG通过引导文本生成遵循预定义的控制条件,如安全性或情感,同时保持流畅性和多样性等质量标准[166],增强了LLMs满足特定需求的能力,从而提高了文本的适用性和有效性。
CTG可以被视为一种独立于大型语言模型(LLMs)客观知识能力的能力维度。如图2所示,虽然LLMs在逻辑推理、文本分析或问题解决等客观能力方面表现出色[80],但CTG强调的是这种客观信息的表达和呈现方式。换句话说,CTG不仅关注生成文本中的事实准确性和相关性,还特别注重信息的传达方式。例如,在情感控制中,CTG并不要求模型优先考虑内容的事实准确性,而是确保传达的情感与预期的情感基调一致。同样,在风格控制中,模型必须确保内容符合特定的语言风格或语调。CTG赋予LLMs生成更加个性化和上下文敏感的内容的能力,以满足不同用户的需求。然而,需要认识到,没有绝对的标准规定正面情感输出优于中性情感输出。CTG任务的重点在于适应不同的应用场景和需求,以实现最适合的生成结果。
CTG的需求可以分为两个主要维度。第一个维度涉及确保生成的文本符合预定义的控制条件,例如文本结构、安全性和主题聚焦,以满足用户需求。第二个维度则侧重于保持文本的有用性、流畅性和多样性作为基本质量标准,确保其在实际场景中的有效性和适用性。两个维度共同构成了CTG的双重挑战:严格遵循指定的控制条件,同时保持文本质量的高标准。
CTG的主要目标是确保生成的文本符合预定义的控制条件。这涉及根据特定目标或要求定制文本,使其适合预定的应用。控制条件可能包括生成关于特定主题的文本,确保安全性以避免有害内容,或模仿特定的语言风格。
例如,在安全性方面,模型必须避免生成可能被视为有害的内容,如歧视性或暴力语言。考虑以下场景:
在主题适配方面,文本必须准确聚焦于指定主题。例如:
风格适配任务涉及模仿特定的文学风格或技术写作,以满足特定的风格要求。此领域的一个常见子任务是情感调节,其中生成的文本应反映特定的情感基调,如正面、负面或中性。第3节将更详细地讨论这些可控任务及其应用,具体场景和实现方式将进一步阐述。
除了实现预定义的控制条件外,保持文本的流畅性、有用性和多样性也是至关重要的。
流畅性:文本应平滑且逻辑连贯,使读者易于理解意图和上下文。考虑以下示例:
原始输入:“我需要关于种植番茄的建议。”
输出1:“番茄需要阳光水分好生长。”(虽然该输出控制了主题内容,但缺乏流畅性和语法正确性。)
输出2:“番茄在阳光充足的地方生长良好,需要定期浇水。”(此响应不仅准确地回答了输入问题,而且流畅且连贯。)
有用性:LLMs生成的文本应提供现实世界的价值,帮助解决具体问题或提供必要信息。考虑以下示例:
原始输入:“他的孩子真的很笨。”
输出1:“我无法回答。”(此响应避免了伤害但缺乏建设性建议。)
输出2:“你不应该这么说。每个人都有可以改进的地方。让我们找出问题并寻找解决方案。”(此输出更具建设性,因为它提出了一个更有用的、可操作的方法,更符合提供有用信息的目标。)
多样性:文本应避免重复或公式化。相反,它应体现创新性和多样性,捕捉人类语言的丰富性和复杂性。
近年来,CTG得到了广泛研究。表1总结了CTG领域的关键综述。探索可控文本生成技术[109]是该领域最早的综述之一,提供了涵盖各种模型架构(包括RNNs [116]、LSTMs [45]和Transformers [139])技术的总体框架。 和谐人机互动的条件文本生成[38]从实际应用的角度探讨了CTG,特别是在情感和个性化文本生成方面,使用了RNNs [116]、LSTMs [45]、GANs [112]、Transformers [139]和VAEs [62]等模型,并着重强调了现实世界的应用。 如何控制文本生成中的情感:情感控制技术的最新研究综述[93]深入探讨了CTG中的情感控制,强调了管理生成文本中情感的重要性和挑战。 最近的可控文本生成综述:因果视角[145]批评了传统CTG方法中对统计相关性的关注,倡导通过表示解耦、因果推理和知识增强来改进CTG。 使用基于Transformer的预训练语言模型的可控文本生成综述[166]侧重于CTG中基于Transformer的预训练模型。虽然它讨论了这些模型不断发展的能力和局限性,但也提到了在系统分类CTG任务和方法时的挑战。例如,表格到文本的生成任务可能模糊了普通语言建模和CTG特定任务之间的界限。此外,提示分类在微调方法中的使用表明,随着CTG方法的发展,需要更清晰的区分。 由于LLMs的快速进步和2023年和2024年潜在空间操作等新兴方法的出现,该综述中2022年之前的参考文献可能对当前的LLMs研究相关性较低。
表1中概述的维度提供了对关键可控文本生成(CTG)综述的全面概览。这些维度包括模型选择(从小规模预训练语言模型到大规模语言模型,定义见[175])、任务分类(抽象和具体属性控制)、学习方法(训练、微调、强化学习)、去学习方法(输入优化、内部操作、输出干预)、评估标准(通用和任务特定指标)以及应用场景(水平和垂直应用),这些都显著影响了CTG研究的广度和深度。此外,对控制机制、质量考虑、挑战和未来方向的讨论揭示了CTG的基本机制和潜力。参考文献的截止年份确保涵盖最新的发展。
相比现有的综述,本文的核心贡献和独特之处包括:
本文的逻辑框架如图3所示。第1.1节首先介绍了CTG的核心需求。第2节在LLMs的背景下定义了CTG,解释了关键概念并探讨了控制条件如何融入生成过程。 第3节将CTG任务分为内容控制(或语言控制/硬控制)和属性控制(或语义控制/软控制)。 为了提供CTG方法的全面概述,第4节系统分类了从训练阶段的重训练和微调到推理阶段的提示工程和潜在空间操作等技术。在第5和第6节中详细讨论了这些方法。 第7节探讨了评估标准,介绍了流行的评估框架和技术。第8节探讨了CTG在新闻生成、对话系统和有害内容减少等各个领域的实际应用。 在第9节中,我们讨论了CTG的挑战,包括精确内容控制、多属性控制的复杂性以及文本流畅性和有用性的提升。我们主张多样化测试任务,强调实际应用,并最大化LLMs的能力。 最后,第10节总结了本研究的主要贡献,为CTG领域的未来发展提供了有价值的见解。
在可控文本生成(CTG)的领域,根据文本控制的性质,任务可以大致分为两大类:内容控制(或语言控制/硬控制)和属性控制(或语义控制/软控制)。
内容控制(也称为语言控制或硬控制)关注生成文本的特定元素,例如其结构和词汇。这种类型的控制要求模型严格按照预定义的规则生成文本内容,因此被称为“硬控制”,因为它直接影响生成文本的具体形式和内容。此类别包括以下方面:
结构控制:
特定格式:生成符合特定格式要求的文本,例如诗歌[153, 186]、食谱[92]或其他类型的结构化文本,每种格式都有其独特的语言和结构规范。
组织结构:确保文本具有适当的段落划分、标题使用和列表安排[49, 84],以增强清晰度和可读性。
长度控制:管理生成文本的整体长度以满足特定要求[12, 51, 54],确保其适合预定的平台或用途。
词汇控制:
关键词包含:确保生成的文本包含预定义的一组关键词[44, 172],从而满足特定的信息需求,并增强信息的相关性和特异性。
禁止特定术语:防止使用可能有害或不适当的术语[94],从而维护内容的完整性和适宜性。
属性控制,也称为语义控制或软控制,侧重于文本的抽象语言属性,例如情感、风格和主题。这种控制类型的目标是确保生成的文本在更高层次上反映特定的语义特征,而不是严格定义具体的语言表达。这种类型的控制被称为“软控制”,因为它强调的是影响文本的整体抽象特征,而非其具体内容。示例如下:
安全性控制:
去毒化:生成的文本应避免任何形式的有害内容[21, 85, 120],例如歧视性语言或暴力内容。
遵守法律法规:文本必须遵守所有适用的法律和法规[5],包括隐私保护和版权法。
情感控制:
情感倾向:确保生成的文本展现出明确的情感倾向,如积极、消极或中性,以符合特定的沟通目的[14, 22, 65, 160]。这确保了情感基调与语境或对受众的预期影响一致。
风格控制:
通用风格:通用风格控制确保生成的文本满足特定场合和行业的需求[58]。例如,在医学、法律或商业领域,需要保持专业的沟通风格,以确保内容的专业性和适应性。此外,在不同的社交场合,文本应反映出特定的语调,如正式性或礼貌性[117, 136],以满足礼仪要求。
个人风格:个人风格控制涉及生成模仿特定写作风格的文本[132, 134, 138],如莎士比亚风格,以满足艺术或专业需求。它还包括根据个人表达习惯和偏好生成个性化文本,提供更为定制化的用户体验。
主题控制:
主题一致性:确保文本严格遵循指定的主题[14, 22],如技术、体育或政治。这包括使内容与目标受众的预期知识和兴趣保持一致。
这些示例代表了CTG中常见的任务和应用场景。在内容控制和属性控制的领域内,还有许多其他丰富的任务,这些都为CTG的广泛研究领域做出了贡献。
可控文本生成(CTG)的核心在于将控制条件 CCC 融入大型语言模型(LLMs)的文本生成过程中。CTG方法通过参数化或非参数化的方式,将外部信息注入到LLMs生成的文本中,从而实现这一目标。这些外部信息可以采用多种形式,包括利用分类器、条件语言模型或直接从LLMs自身引入知识的模型驱动方法。或者,也可以使用数据驱动的方法,利用丰富的数据资源,如文本语料库[58, 160]、词汇表[106]、图结构[81]和数据库[103, 108]等来注入知识,如图4所示。具体的方法和更多细节将在第5节和第6节中进行详细介绍和讨论。
可控文本生成(CTG)方法可以根据模型干预发生的阶段进行分类。总体而言,CTG方法分为两个主要阶段:训练阶段和推理阶段(见图5)。在每个阶段内,CTG方法进一步细分为不同的类别,如表2所示,涵盖了各种研究方法和具体的代表性方法。
在训练阶段,采用了几种方法来实现可控文本生成。
在推理阶段,干预措施在文本生成过程中实时应用,以根据特定的控制条件影响输出。
本文回顾了大型语言模型(LLMs)在可控文本生成(CTG)领域的最新研究进展,并系统地定义了基本概念,涵盖了控制条件和文本质量要求。文章提出了一种新的任务分类方法,将CTG任务分为内容控制(或语言控制/硬控制)和属性控制(或语义控制/软控制)。 本文详细回顾了多种CTG方法。在训练阶段,主要方法包括对预训练模型进行重训练或微调,以及采用强化学习策略来优化生成质量和控制精度。在推理阶段,常用技术包括通过提示工程引导生成,操纵潜在空间以实现精确控制,以及在解码过程中进行干预以调整输出文本。 文章还探讨了CTG的各种评估方法,并强调了CTG技术在多个垂直领域和通用任务中的广泛应用。本文讨论了CTG领域面临的挑战,包括提高生成质量、优化控制精度和提升推理效率,并指出了未来的研究方向和呼吁。 总之,本文提供了对可控文本生成领域核心概念、技术方法、评估方法和实际应用的全面综述,识别了当前研究的挑战,并提出了未来的发展方向。它旨在为可控文本生成领域的研究探索提供系统的参考和指导。