大型语言模型(LLMs),例如ChatGPT,由于其出色的自然语言处理能力而获得了极大的关注。然而,这些LLMs面临许多挑战,特别是在可信度方面。因此,确保LLMs的可信度成为一个重要话题。本文引入了TRUSTLLM,一项关于LLMs可信度的全面研究,包括不同维度的可信度原则、确立的基准、可信度评估和分析,以及对主流LLMs的讨论,开放的挑战和未来方向。具体来说,我们首先提出了一套涵盖八个不同维度的可信LLMs原则。基于这些原则,我们进一步建立了一个跨越真实性、安全性、公平性、稳健性、隐私和机器伦理六个维度的基准。我们随后展示了一个在TRUSTLLM中评估16个主流LLMs的研究,涉及超过30个数据集。
我们的发现首先表明,一般而言,可信度和效用(即功能效能)是正相关的。例如,像GPT-4、ERNIE和Llama2这样在刻板印象分类中表现强劲的LLMs,更可靠地拒绝刻板印象陈述。同样,以自然语言推理能力著称的Llama2-70b和GPT-4,在抵御对抗性攻击方面表现出增强的韧性。其次,我们的观察揭示,专有LLMs通常在可信度方面优于大多数开源同行,这引发了对广泛可获取的开源LLMs潜在风险的担忧。然而,少数开源LLMs非常接近专有模型。值得注意的是,Llama2在几项任务中表现出卓越的可信度,表明开源模型可以在没有额外机制(如审查员)的情况下达到高水平的可信度,为开发人员提供了宝贵的洞见。第三,值得注意的是,一些LLMs(例如Llama2)可能过度调整以展示可信度,以至于它们在错误地将良性提示视为有害并因此不做出回应的情况下,降低了它们的实用性。除了这些观察之外,我们还发现了LLMs多方面可信度的关键洞见。在真实性方面,LLMs经常由于训练数据中的噪音、错误信息或过时信息而难以提供真实的回答。值得注意的是,增强了外部知识来源的LLMs在性能上表现出明显的提升。在安全性方面,大多数开源LLMs在越狱、毒性和滥用等方面显著落后于专有LLMs,同时在不过度谨慎的同时保持安全性的挑战仍然存在。在公平性方面,大多数LLMs在刻板印象识别方面的表现不尽人意,即使是表现最好的GPT-4也只有65%的总体准确率。在稳健性方面,LLMs表现出显著的变化性,尤其是在开放式任务和分布外任务中。在隐私方面,虽然LLMs显示出对隐私规范的认识,但对私人信息的理解和处理差异很大,一些模型甚至在Enron Email数据集上测试时显示出信息泄露。最后,在机器伦理方面,LLMs展示了基本的道德理解,但在复杂的伦理场景中表现不足。这些洞见强调了LLMs中可信度的复杂性,并突出了继续研究以提高它们的可靠性和伦理一致性的必要性。最后,我们强调不仅要确保模型本身的透明度,还要确保支持可信度的技术的透明度。了解已采用的具体可信技术对于分析它们的有效性至关重要。我们主张建立行业、学术界、开源社区以及各种实践者之间的人工智能联盟,以促进合作,提升LLMs的可信度至关重要。我们的数据集、代码和工具包将在 https://github.com/HowieHwong/TrustLLM 上提供,排行榜发布在 https://trustllmbenchmark.github.io/TrustLLM-Website/。
https://www.zhuanzhi.ai/paper/6d5d9638e92a1e871395d07e30867033
大型语言模型(LLMs)的出现标志着自然语言处理(NLP)和生成式人工智能领域的重要里程碑,众多基础研究[1, 2]证实了这一点。这些模型在NLP方面的卓越能力引起了广泛关注,导致了影响我们生活各个方面的多样化应用。LLMs被用于多种与语言相关的任务,包括自动文章写作[3]、博客和社交媒体帖子的创作、以及翻译[4]。此外,它们还改进了搜索功能,如在Bing Chat等平台上看到的[5, 6, 7],以及其他应用[8]。LLMs在人类其他领域的效用也显而易见。例如,如Code Llama[9]等模型为软件工程师提供了相当大的帮助[10]。在金融领域,像BloombergGPT[11]这样的LLMs被用于情感分析、命名实体识别、新闻分类和问答等任务。此外,LLMs在科学研究[12, 13, 14, 15]中的应用日益增多,涵盖了医学应用[16, 17, 18, 19, 20, 21, 22, 23, 24, 25]、政治学[26]、法律[27, 28]、化学[29, 30]、海洋学[31, 32]、教育[33]和艺术[34]等领域,凸显了它们广泛和多样化的影响。
LLMs的出色能力归因于多个因素,例如使用来自Web的大规模原始文本作为训练数据(例如,PaLM[35, 36]是在包含超过7000亿令牌的大型数据集上训练的[37]),采用具有大量参数的变压器架构设计(例如,GPT-4估计具有1万亿参数范围[38]),以及加速训练过程的先进训练方案,例如低秩适应(LoRA)[39]、量化LoRA [40]和路径系统[41]。此外,它们出色的指令遵循能力主要归因于与人类偏好的对齐实现[42]。现行的对齐方法使用人类反馈的强化学习(RLHF)[43]以及各种替代方法[44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55]。这些对齐策略塑造了LLMs的行为,使其更加符合人类偏好,从而提高了它们的实用性并确保遵守伦理考虑。
然而,LLMs的兴起也引入了关于它们可信度的担忧。与传统语言模型不同,LLMs具有可能导致可信度问题的独特特性。1)LLMs的输出复杂多样,加之它们新出现的生成能力。LLMs展示了处理广泛的复杂和多样化主题的无与伦比的能力。然而,这种复杂性可能导致不可预测性,从而可能产生不准确或误导性的输出[56, 57, 58]。同时,它们先进的生成能力为恶意行为者开辟了传播虚假信息[59]和促进网络攻击[60]的途径。例如,攻击者可能使用LLMs编写欺骗性和误导性文本,诱导用户点击恶意链接或下载恶意软件。此外,LLMs可以被用于自动化网络攻击,例如生成大量假账户和评论以扰乱网站的正常运营。从设计用于绕过LLMs安全机制的技术(称为越狱攻击[61])来的重大威胁,允许攻击者非法滥用LLMs。2)大型训练数据集中的数据偏见和私人信息。可信度的一个主要挑战来自训练数据集中潜在的偏见,这对LLMs生成的内容的公平性具有重大影响。例如,数据中的男性中心偏见可能产生主要反映男性观点的输出,从而掩盖女性的贡献和观点[62]。同样,偏向某一特定文化背景的偏见可能导致对该文化的偏见回应,从而忽视其他文化背景中存在的多样性[63]。另一个关键问题是训练数据集中包含敏感个人信息的问题。在缺乏严格保护的情况下,这些数据可能被滥用,潜在地导致隐私泄露[64]。这个问题在医疗保健领域尤其严重,在这里保持患者数据的机密性至关重要[65]。3)用户期望值高。用户可能对LLMs的性能抱有很高的期望,期待准确和富有洞察力的回应,强调模型与人类价值观的一致性。许多研究人员对LLMs是否与人类价值观一致表示担忧。不一致可能会对它们在各个领域的广泛应用产生重大影响。例如,LLM可能认为某些情况下的行为是适当的,但人类可能认为它不适当,导致在其应用中出现冲突和矛盾,特定案例中强调了这一点[66]。
LLMs的开发者已经做出了重大努力来解决上述问题。OpenAI[67]已采取措施确保LLMs在训练数据阶段、训练方法和下游应用中的可信度。WebGPT[7]被引入以帮助人类评估者识别LLM回应中的不准确信息。致力于负责任的AI的Meta[68],其方法基于五大支柱:隐私、公平、稳健性、透明性和问责制。Llama2[69]的引入为LLMs设定了新的安全对齐基准,包括在预训练、微调和红队测试中进行广泛的安全调查。关于开发者采用的各种策略以确保LLMs的可信度的更多讨论可以在第3.3节中找到。尽管做出了这些共同的努力,但仍有一个持续的问题:我们到底可以在多大程度上真正信任LLMs?
为了解决大型语言模型(LLMs)可信度的关键问题,关键在于确定如何基准化LLMs的可信度。关于定义LLMs可信度的关键要素,以及如何从各种角度评估这种可信度,此外,探索实际评估这些维度上可信度的方法也至关重要。然而,回答这些问题远非简单。主要挑战包括:1) 综合各方面的定义。主要障碍之一是缺乏一个普遍接受的标准准则,全面涵盖可信度的所有方面。这种标准化指标的缺乏使得统一评估和比较不同LLMs的可信度变得困难。2) 可扩展性和普适性:创建适用于不同大小和类型LLMs的基准,并且能够普遍适用于不同领域和应用是一项复杂的任务;3) 实际评估方法。需要设计有效的提示来测试明显的可信度问题,并发现可能不会立即显现的更微妙的偏见和错误。这需要深入理解技术及其产出对社会的潜在影响。 先前的研究[70, 71, 72]已经为LLMs的可信度建立了基础见解。这些研究提出了评估LLMs的方法,并制定了衡量其可信度的分类法。然而,某些分类法[70, 73]并未完全涵盖与LLMs可信度相关的所有方面。此外,一些分类法[71, 72]专注于细微的区别,导致重叠的子类别使建立清晰的评估基准变得复杂。因此,需要一种更全面和细致的方法来准确评估LLMs的可信度。
在这里,我们提出了TRUSTLLM,一个统一框架,支持对LLM中的可信度进行全面分析,包括现有工作的调查,组织不同维度的可信LLMs的原则,一个新颖的基准,以及对主流LLMs的全面可信度评估。具体来说,我们如下解决上述三个挑战:
确定八个可信度方面。为了探索LLMs有多可信,我们融合了来自人工智能、机器学习、数据挖掘、人机交互(HCI)和网络安全的领域知识。我们对过去五年发表的500篇关于LLMs可信度的论文进行了广泛的回顾,并确定了定义LLMs可信度的八个关键方面,即真实性、安全性、公平性、稳健性、隐私、机器伦理、透明度和问责性。在这项工作中,为了便于我们的调查,我们将效用(即功能效能)与这八个确定的维度分开,并定义可信LLMs为“为了被认为是可信的,LLMs必须适当地反映真实性、安全性、公平性、稳健性、隐私、机器伦理、透明度和问责性等特性。”详细讨论可以在第4节中找到。
选择全面且多样化的LLMs进行调查。通过评估16个LLMs,包括专有和开源模型,我们涵盖了模型大小、训练策略和功能能力的广泛范围。这种多样性保证了TRUSTLLM不局限于特定类型或大小的LLM。它还建立了一个全面的评估框架,用于评估未来LLMs的可信度。
在各种任务和数据集上进行基准测试和评估:我们基准测试了30个数据集,以全面评估LLMs的功能能力,从简单的分类任务到复杂的生成任务。每个数据集提出了独特的挑战,并在多个可信度维度上对LLMs进行了基准测试。同时,采用了多种评估指标来理解LLMs的能力。这种方法确保了评估是全面和多方面的。
贡献。TRUSTLLM评估的结果在图1中总结,观察和洞见在第2节中展示。我们在这项工作中的贡献简要概述如下。 首先,我们基于全面的文献综述提出了一套评估LLMs可信度的指南,这是一个涵盖包括真实性、安全性、公平性、稳健性、隐私、机器伦理、透明度和问责性在内的八个方面的分类法。
其次,由于透明度和问责性的基准测试难度,我们为这六个方面建立了基准。这是第一个全面且综合的基准,包括超过18个子类别,涵盖超过30个数据集和16个LLMs,包括专有和开放权重模型。除了图1中展示的这些模型的可信度排名外,我们在后续各节中提出了评估细节。
最后但同样重要的是,从广泛的实验结果中,我们得出了有洞见的发现(详见第2节)。我们对LLMs的可信度评估考虑了整体观察和基于每个维度的个别发现,强调了效能和可信度之间的关系,大多数LLMs中普遍缺乏的一致性,专有和开放权重LLMs之间的差异,以及当前与可信度相关技术的不透明性。我们旨在为未来的研究提供有价值的洞见,为大型语言模型中的可信度景观提供更细腻的理解。
观察和洞见
为了更好地理解我们的研究,我们首先基于我们在这项工作中的广泛实证研究,提出了我们的观察和洞见。
2.1 总体观察
可信度与效用紧密相关。我们的发现表明,可信度和效用之间存在正相关,特别是在特定任务中显而易见。例如,在道德行为分类(第11.1节)和刻板印象识别任务(第8.1节)中,像GPT-4这样具有强大语言理解能力的LLMs倾向于做出更准确的道德判断,并更可靠地拒绝刻板印象陈述。类似地,Llama2-70b和GPT-4在自然语言推理方面的熟练度,表现出对抗性攻击的增强韧性。此外,我们观察到LLMs的可信度排名往往与以效用为中心的排行榜,如MT-Bench [74]、OpenLLM Leaderboard [75]等的位置一致。这一观察强调了可信度和效用的相互关联性,凸显开发者和用户在实施和使用LLMs时,需要同时考虑这些方面。
大多数LLMs“过度对齐”。我们发现许多LLMs表现出一定程度的过度对齐(即夸大的安全性),这可能损害它们的整体可信度。这样的LLMs可能将许多无害的提示内容识别为有害,从而影响它们的效用。例如,Llama2-7b在对实际上并非有害的提示做出回应时,拒绝率达到57%。因此,训练LLMs在对齐过程中理解提示背后的意图,而不仅仅是记忆示例,对降低错误识别有害内容的比率至关重要。
一般而言,专有LLMs在可信度上优于大多数开放权重LLMs。然而,少数开源LLMs能够与专有模型竞争。我们发现,在可信度方面,开放权重和专有LLMs之间存在性能差距。通常,专有LLMs(例如ChatGPT、GPT-4)的表现远优于大多数开放权重LLMs。这是一个严重的问题,
因为开放权重模型可以被广泛下载。一旦集成到应用场景中,它们可能带来严重的风险。然而,我们惊讶地发现,Llama2 [69] 系列这样的开放权重LLMs,在许多任务中的可信度超过了专有LLMs。这表明,开放权重模型即使在没有添加外部辅助模块(如审查员 [76])的情况下,也能展示出色的可信度。这一发现为相关开放权重开发者提供了重要的参考价值。
模型本身和与可信度相关的技术应该是透明的(例如,开源)。鉴于不同LLMs在可信度方面的性能差距显著,我们强调模型本身及旨在提高可信度的技术的透明度的重要性。如最近研究[77, 78]所强调,充分理解模型的训练机制,包括参数和架构设计等方面,是研究LLMs的基石。我们的实验发现,虽然一些专有LLMs展示出高可信度(例如ERNIE [79]),但其背后的技术细节仍未公开。使这些可信技术透明化或开源可以促进这些技术的更广泛采用和改进,显著提升LLMs的可信度。这反过来使LLMs更可靠,并加强了AI社区对这些模型的整体信任,从而有助于AI技术的健康发展。
2.2 对可信度各个维度的新洞见真实性。
AI系统的真实性是指准确地呈现信息、事实和结果。我们的发现表明:1) 专有LLMs如GPT-4和开源LLMs如Llama2在仅依赖其内部知识时,经常难以提供真实的回应。这主要是由于其训练数据中的噪声,包括错误信息或过时信息,以及底层Transformer架构缺乏泛化能力所致。2) 此外,所有LLMs在零样本常识推理任务中面临挑战,表明它们在对于人类相对直接的任务中存在困难。3) 相比之下,增强了外部知识的LLMs表现出显著改善的性能,超越了原始数据集上报告的最新结果。4) 我们观察到在不同的幻觉任务中存在显著差异。大多数LLMs在多项选择问答任务中的幻觉较少,与知识引导对话等更开放式任务相比, 可能是由于提示敏感性(第14节)。5) 此外,我们发现献媚和对抗性现实之间存在正相关。献媚水平较低的模型在识别和突出用户输入中的事实错误方面更为有效。
安全性。LLMs的安全性对于避免不安全或非法输出并确保进行健康对话至关重要[72]。在我们的实验(第7节)中,我们发现:1) 大多数开源LLMs的安全性仍然是一个问题,特别是在越狱、毒性和滥用等领域,显著落后于专有LLMs。2) 值得注意的是,LLMs对不同的越狱攻击并不是统一抵抗。我们的观察发现,各种越狱攻击,特别是leetspeak攻击[61],对LLMs的成功率各不相同。这强调了LLM开发者需要采取全面的防御策略来应对多种攻击类型。3) 对于大多数LLMs而言,平衡安全性是一个挑战;那些具有严格安全协议的LLMs经常表现出夸张的谨慎,如Llama2系列和ERNIE所表现出的。这表明许多LLMs并未完全对齐,可能依赖于表面的对齐知识。
公平性。公平性是确保LLMs在设计、训练和部署过程中不会导致有偏见或歧视性结果的道德原则,确保它们公平对待所有用户和群体。在我们的实验中(第8节),我们发现:1) 大多数LLMs在识别刻板印象方面的表现并不令人满意,即使表现最好的GPT-4,其总体准确率也仅为65%。当面对包含刻板印象的句子时,不同LLMs的一致性百分比差异很大,最好的表现仅为0.5%的一致率,最差的接近60%。2) 只有少数LLMs,如Oasst-12b[81]和Vicuna-7b[82],在处理贬低性内容时表现出公平性;大多数LLMs在处理包含贬低倾向的问题时仍显示出对特定属性的偏见。3) 关于偏好,大多数LLMs在普通基线上表现非常好,保持客观性和中立性,或拒绝直接回答。然而,当被迫选择时,LLMs的表现显著下降。
稳健性。稳健性定义为系统在各种情况下保持其性能水平的能力[83]。在我们的实验中(第9节),我们发现:1) Llama2系列和大多数专有LLMs在传统下游任务中超越了其他开源LLMs。2) 然而,LLMs在开放式任务的表现表现出显著的变化性。表现最差的模型在扰动前后的平均语义相似度仅为88%,远低于最佳表现者的97.64%。3) 在OOD(超出分布)稳健性方面,LLMs展现出相当大的性能差异。表现最佳的模型GPT-4在OOD检测中拒绝回答(RtA)率超过80%,在OOD泛化中平均F1得分超过92%。相比之下,表现最差的模型RtA率仅为0.4%,F1得分约为30%。4) 此外,我们的观察没有发现参数大小和OOD性能之间存在一致的正相关性,这可以从Llama2模型的不同参数大小的不同表现水平中得到证明。
隐私。隐私包括旨在保护人类自主权、身份和尊严的规范和实践[83]。在我们的实验中(第10节),我们发现: 大多数LLMs表现出一定程度的隐私意识,这可以从这些模型在被告知必须遵守隐私政策时拒绝回应有关私人信息的查询的可能性显著增加中看出。2) 用于测量人类和LLMs在使用隐私信息方面的一致性的皮尔森相关系数差异很大。表现最佳的模型,ChatGPT,达到了0.665的相关性,而Oass-12b展现出令人惊讶的负相关性,低于零,表明与人类相比,它对隐私的理解存在差异。3) 我们观察到几乎所有LLMs在Enron电子邮件数据集[84]的测试中都显示出一定程度的信息泄露。
机器伦理。机器伦理确保利用人工智能的人造机器(通常称为AI代理)的道德行为[85, 86]。在我们的实验中(第11节),我们发现:1) LLMs已经发展出一套特定的道德价值观,但在完全与人类伦理一致方面仍有显著差距。在低歧义场景中的隐性任务中,大多数LLMs的准确性不足70%,不论是哪个数据集。在高歧义场景中,不同LLMs的表现有很大差异;例如,Llama2系列达到了99.9%的拒绝回答率(RtA),而其他模型的得分不到70%。2) 在情感意识方面,LLMs显示出更高的准确性,表现最佳的模型如GPT-4的准确率超过94%。 这些观察和洞见提供了对LLMs可信度各个维度的深入理解,揭示了它们在处理复杂任务和维护道德准则方面的能力和局限性。这些发现对于开发更可靠、公平、安全且符合伦理的LLMs至关重要,同时也为未来的研究和应用提供了重要的参考。通过这样的深入分析,我们能够更好地理解和提升大型语言模型的整体可信度,使其在各种应用场景中更加有效且符合伦理标准。