大规模语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注. 然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤为重要. 因此,使用涵盖了9个常见NLP任务的15个数据集(约147,000个原始测试样本)和来自TextFlint的61种鲁棒的文本变形方法分析GPT-3和GPT-3.5系列模型在原始数据集上的性能,以及其在不同任务和文本变形级别(字符、词和句子)上的鲁棒性. 研究结果表明,GPT模型虽然在情感分析、语义匹配等分类任务和阅读理解任务中表现出良好的性能,但其处理信息抽取任务的能力仍较为欠缺,比如其对关系抽取任务中各种关系类型存在严重混淆,甚至出现“幻觉”现象. 在鲁棒性评估实验中,GPT模型在任务层面和变形层面的鲁棒性都较弱,其中,在分类任务和句子级别的变形中鲁棒性缺乏更为显著. 此外,探究了模型迭代过程中性能和鲁棒性的变化,以及提示中的演示数量和演示内容对模型性能和鲁棒性的影响. 结果表明,随着模型的迭代过程以及上下文学习的加入,模型的性能稳步提升,但是鲁棒性依然亟待提升. 这些发现从任务类型、变形种类、提示内容等方面揭示了GPT模型还无法完全胜任常见的NLP任务,并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决. 通过对gpt-3.5-turbo的更新版本、gpt-4模型,以及开源模型Llama2-7b和Llama2-13b的性能和鲁棒性表现进行对比,进一步验证了实验结论. 鉴于此,未来的大模型研究应当提升模型在信息提取以及语义理解等方面的能力,并且应当在模型训练或微调阶段考虑提升鲁棒性.
大规模语言模型,如FLAN[1]、GPT-3[2]、Llama[3]和PaLM2[4]等,在对话、理解和推理方面展示了惊人的能力[5]. 在不修改模型参数的情况下,大模型可以仅通过输入合适的提示来执行各种任务. 其中,GPT系列模型因其出色的能力备受关注. 为定量评估和探究大模型的能力,已有的工作集中于评估大模型在常识和逻辑推理[6]、多语言和多模态[7]、心智理论[8]和数学[9]等方面的能力. 尽管这些工作在基准测试集上取得了很好的效果,但大模型是否具备良好的鲁棒性仍然需要进一步研究.
鲁棒性衡量了模型在面对异常情况(如噪音、扰动或故意攻击)时的稳定性,这种能力在现实场景,尤其是在自动驾驶和医学诊断等安全场景下对于大模型至关重要. 鉴于此,现有工作对大模型的鲁棒性展开了探究:Wang等人[10]从对抗性和分布外(out of distribution,OOD)的角度出发,使用现有的AdvGLUE[11]和ANLI[12]对抗基准评估ChatGPT等大模型的对抗鲁棒性,使用DDXPlus[13]医学诊断数据集等评估分布外鲁棒性;Zhu等人[14]则从提示的角度出发,提出了基于对抗性提示的鲁棒性评测基准,并对大模型在对抗提示方面的鲁棒性进行了分析. 然而,已有的研究主要使用对抗攻击策略,这对于大规模评估来说需要消耗大量的算力和时间;并且对抗样本生成的目标是通过对特定模型或数据集的原始输入进行微小的扰动,以误导模型的分类或生成结果,但这些扰动并不总是代表真实世界中的威胁和攻击方式. 此外,现有研究大多针对ChatGPT及同时期的其他大模型,对GPT系列模型迭代过程中性能和鲁棒性的变化关注较少. 鉴于此,本文选择了图1所示的5个GPT-3和GPT-3.5系列模型作为大模型的代表,通过全面的实验分析其性能和鲁棒性,以解决以下问题:
问题1:GPT模型在NLP任务的原始数据集上有何性能缺陷? 为给后续的鲁棒性评估提供基础和参考点,本文首先评估模型在原始数据集上的性能. 本文选择15个数据集(超过147k个原始测试样本),涵盖了9个常见的NLP任务,如情感分析、阅读理解和命名实体识别等,评估了GPT模型在原始数据集上的性能以及迭代过程中的性能变化. 虽然这些任务没有直接对应具体的对话场景,但它们评估了模型的潜在能力,包括理解上下文、处理不同的语言结构和捕捉微小的信息等,这些能力对于语言理解和生成系统都非常重要. 问题2:GPT模型在NLP任务上面对输入文本扰动时的鲁棒性如何? 本文首先确定评估鲁棒性的方法. 为更加真实地模拟现实世界中可能存在的噪音、扰动和攻击,本文选择了TextFlint[15]作为对输入文本进行扰动的工具. 它提供了许多针对NLP任务特定的文本变形,这些变形均基于语言学进行设计,体现了实际使用语言过程中可能发生的情况,保持了变形后文本的语言合理性,能够模拟实际应用中的挑战. 本文使用了61种文本变形方法,这些变形按照变形的粒度可以分为句子级、词级和字符级. 本文通过实验分析了GPT模型在各种任务和各个变形级别上的鲁棒性,并探究了模型迭代过程中鲁棒性的变化.
问题3:提示对GPT模型的性能和鲁棒性有何影响? 在上述两个问题中,本文从测试文本出发,通过将不同的测试样本与任务特定的提示进行拼接,评估了模型的性能和鲁棒性. 这个问题中,本文从提示的角度出发,研究其对性能和鲁棒性的影响. 上下文学习[16](in-context learning,ICL)已经成为自然语言处理领域的新范式,语言模型可以仅基于少量示例执行复杂任务. 基于此,本文通过改变提示中演示(demonstration)的数量或内容,探究提示对GPT模型的性能和鲁棒性的影响. 本文的定量结果和定性分析表明: 1)GPT模型在情感分析、语义匹配等分类任务和阅读理解任务中表现出较优异的性能,但在信息抽取任务中性能较差. 例如,其严重混淆了关系抽取任务中的各种关系类型,甚至出现了“幻觉”现象. 2)在处理被扰动的输入文本时,GPT模型的鲁棒性较弱,它们在分类任务和句子级别变形中鲁棒性缺乏更为显著. 3)随着GPT系列模型的迭代,其在NLP任务上的性能稳步提升,但是鲁棒性并未增强. 除情感分析任务外,模型在其余任务上的鲁棒性均未明显提升,甚至出现显著波动. 4)随着提示中演示数量的增加,GPT模型的性能提升,但模型鲁棒性仍然亟待增强;演示内容的改变可以一定程度上增强模型的抗扰动能力,但未能从根本上解决鲁棒性问题. 同时,通过对gpt-3.5-turbo的更新版本、gpt-4、开源模型Llama2-7b和Llama2-13b的表现进行评估,本文进一步验证了上述实验结论的普适性和可持续性.