随着人工智能技术的飞速发展,大语言模型已在众多领域得到了广泛应用。然而,大语言模型可能 会生成不准确、有误导性甚至有害的内容,这引发了人们对大语言模型可靠性的担忧,采用对齐技术来确保 大语言模型的行为与人类价值观一致已经成为一个亟待解决的问题。对近年来大语言模型对齐技术的研究进 展进行综述。介绍了常用的指令数据收集方法和人类偏好数据集,概述了监督调整和对齐调整的相关研究, 讨论了模型评估常用的数据集和方法,总结并展望了未来的研究方向。
近年来,大语言模型(如 OpenAI 的 Chat‐ GPT)[1] 的迅猛发展引发了人们对人工智能的浓 厚兴趣和高度期望,同时也引发了人们的广泛探 讨。大语言模型不仅展现出卓越的自然语言处理 能力,还在数学、推理和编程等多个领域中接近 甚至超越普通人类的水平[2] 。这些成就主要得益于大语言模型在超大规模的文本语料库上的预训 练,这使它们积累了海量的世界知识,并能基于 这些知识生成连贯和流畅的文本输出。尽管大语 言模型已在众多领域得到了广泛应用,但它们在 生成内容时仍可能存在不准确、有误导性甚至包 含有害信息的风险,这引发了人们对大语言模型 可靠性的担忧。 当前,研究人员正在积极探索如何确保大语 言模型的行为与人类价值观一致。对齐是指通过 调整和优化大语言模型的决策过程,以确保其输 出不仅准确无误,而且遵循道德规范、没有偏 见,并且能反映出社会普遍认可的价值观和伦理 标准。对齐的目的在于创建一个既能理解和生成 人类语言的模型,又能在其决策中体现出对公 平、透明和责任的重视,减少可能产生的负面影 响,如传播虚假信息或有害内容。然而在对大语 言模型进行对齐调整及后续评估过程中仍面临着 以下挑战。 (1)数据质量和多样性问题 调整大语言模型需要大规模和高质量的指令 数据集,这可以确保模型在各种场景下都拥有良 好的表现。训练数据的质量和多样性会直接影响 大语言模型回复的准确性,但为模型调整阶段收 集高质量的训练数据十分困难且代价高昂。 (2)训练策略问题 在大语言模型的对齐调整阶段,为模型制定 合适的训练策略至关重要。这一阶段通常采用强 化学习算法来为模型注入人类偏好,但这类算法 常常会面临稳定性和可靠性方面的挑战,这可能 会导致模型在面对不同场景时的表现有所差异。 (3)缺乏评估标准和指标问题 由于大语言模型的多功能性和广泛的应用领 域,目前大语言模型缺乏通用的评估标准和指 标。大语言模型在不同任务和应用中可能需要不 同的指标,例如,对于语言生成类任务,模型的 流畅性、多样性和信息准确性可能是关键指标; 而对于文本分类任务,人们则更关注模型的准确 率、召回率等传统性能指标,这进一步增加了模 型评估的复杂性。此外,大语言模型在不同应用 场景下可能呈现出截然不同的表现,这也给评估 工作带来了挑战。 研究人员为解决这些问题进行了大量研究。 对于数据质量和多样性问题,研究人员提议利用 现有的自然语言处理(natural language process‐ ing,NLP)基准、人类标注和目前性能较先进的 大语言模型(如ChatGPT[1] 和GPT-4[3] )来生成大 规模和高质量的指令数据。对于训练策略问题, 目前的解决方案主要涉及优化训练方法,在注入 人类偏好时提高模型训练的效率和稳定性。目前 研究人员已经提出了基于强化学习和奖励模型的 训练方法,如人类反馈强化学习(reinforcement learning from human feedback,RLHF)[4] ,这可 以有效地将人类偏好与大语言模型整合。还有研 究将人类偏好视为基于排名的训练数据进一步增 强训练的稳定性和性能。对于缺乏评估标准和指 标的问题,目前研究人员已提出了针对大语言模 型的评估基准和专门用于评估大语言模型的大 模型。