** **

生成基础模型(GenFMs)作为变革性工具,已在多个领域推动了进展。然而,随着其广泛应用,关于其可信度的关键问题也随之而来,涉及真实性、安全性、公平性、鲁棒性和隐私等多个维度。本文提出了一个全面的框架,旨在通过三项关键贡献应对这些挑战。首先,我们系统回顾了全球各国政府、监管机构的人工智能治理法律与政策,以及行业实践和标准。基于这一分析,我们提出了一套生成基础模型的指导原则,通过广泛的多学科合作,整合技术、伦理、法律和社会视角。这些指导原则为生成基础模型的开发、评估和治理提供了基础性参考,同时保持灵活性,以适应不同的应用需求。

其次,我们介绍了TrustGen,这是第一个旨在评估多维度和多种模型类型(包括文本生成图像、大型语言模型和视觉语言模型)可信度的动态基准平台。TrustGen利用模块化组件——元数据管理、测试用例生成和上下文变化——来实现自适应和迭代的评估,克服了静态评估方法的局限性。通过TrustGen,我们对当前最先进的生成基础模型进行了系统评估,揭示了可信度方面的显著进展,同时也指出了持续存在的挑战,如夸大的安全措施可能会妥协实用性,以及开源系统中的未解决的漏洞。我们的研究结果强调了可信度维度之间的相互关联性,表明在某一领域的改进往往会影响其他领域,因此需要采取整体方法。

最后,我们深入讨论了生成基础模型可信度的挑战和未来方向,揭示了可信度的复杂和不断演变的特性,突出了实用性与可信度之间的微妙权衡,并考虑了各种下游应用。我们识别了持续存在的挑战,并为未来的研究提供了战略路线图。本研究为推动生成AI的可信度奠定了坚实的框架,铺平了将生成基础模型安全、负责任地集成到关键应用中的道路。为了促进社区的进步,我们将评估工具包发布于 https://github.com/TrustGen/TrustEval-toolkit。

1 引言

“信任是生活的粘合剂。它是有效沟通中最基本的成分。它是维系所有关系的基础原则。”

** **

生成模型是一类通过学习底层数据分布并生成与训练数据集特征相似的新数据实例的机器学习模型[1, 2]。由于其广泛的应用,如生成逼真的图像[3]、文本[4, 5]或视频[6],以及在科学发现[7, 8, 9, 10]、医疗保健[11, 12, 13, 14]和自主系统[15, 16, 17]等领域的潜在推动作用,这些模型受到了广泛关注。常见的生成模型包括生成对抗网络(GANs)[18]、变分自编码器(VAEs)[19]、扩散模型[20]以及大语言模型(LLMs)[21],这些模型在生成与人类创作难以区分的内容方面展现了卓越的能力。 近年来,基础模型(Foundation Models)——定义为大规模预训练模型(从BERT[22, 23, 24]、OpenAI的GPT系列[25, 26, 27]到Llama模型家族[28, 29, 30])——将生成建模推向了新的高度。这些模型通过在预训练阶段广泛使用海量数据集[32]和计算资源[33],能够在多样化应用中有效泛化[34, 35, 36, 37, 38, 39]。 基础模型可能服务于多种任务;例如,非生成式基础模型如BERT[22]主要用于文本分类或语言理解任务,而非内容生成。相比之下,生成式基础模型(GenFMs)[40]专门用于生成任务,擅长基于训练数据生成新的图像、文本或其他数据形式。正式而言,GenFMs指通过大规模预训练在多模态和领域中表现出色的生成任务架构。这些模型通过推动内容创作、决策和自主系统的边界,有望彻底改变行业[16, 15],从而凸显其在研究和实际应用中的变革潜力。 随着GenFMs在各行各业中的广泛应用,确保其可信度已成为一个紧迫问题。如图1所示,对可信度的关注与GenFMs的发展同步增长。即使是最先进的模型(如GPT-4)也表现出对新型攻击(如“越狱”攻击[41])的脆弱性,这些攻击可能绕过设计的安全措施[42]。随着GenFMs行为不可预测或不道德的事件增加,解决其可靠性的紧迫性不容忽视[43]。例如,流行的文本到图像模型(如DALL-E-3[3])已被操纵以绕过安全过滤器[44, 45],而LLMs则引发了关于隐私泄露的严重担忧[46]。GenFMs生成的逼真输出(无论是文本、图像还是视频)通常与人类创作的内容难以区分,这带来了重大风险,包括错误信息的传播[47]、深度伪造的创建[48]以及偏见或有害叙事的放大[49]。如图2所示,随着GenFMs的社会影响不断扩大,这些问题可能削弱公众对技术本身及其使用机构的信任[50]。 建立对GenFMs的信任比传统模型(如不具备生成能力的BERT[22])更为复杂,后者通常设计用于在特定、明确的任务中表现出色。相比之下,基础模型通过在海量异构数据集上进行预训练,能够在广泛的应用中泛化[51]。这种广泛的通用性引入了评估可信度的重大挑战,因为它需要评估模型在多样化任务和上下文中的行为,以确保一致的可信度和对道德标准的遵守。此外,GenFMs的社会影响远超传统模型[50]。虽然后者可能影响特定领域,但GenFMs有可能塑造公众舆论、影响政策决策,并生成模仿权威来源的内容,从而可能破坏民主进程和更广泛的信息生态系统[31, 52]。 GenFMs的规模和复杂性(通常包含数十亿参数)使其本质上不透明且难以解释。这种透明度的缺乏使得在模型产生具有深远社会影响的输出时,建立问责制变得复杂。此外,这些模型的动态性——通过微调和更新不断演变——对保持一致的安全协议、确保道德准则的遵守以及建立可追溯性机制提出了额外挑战。这些因素共同强调了建立严格框架以评估和增强GenFMs可信度的紧迫性,确保其安全且负责任地集成到关键应用中。 尽管主要公司在增强GenFMs可信度方面做出了重大努力——例如OpenAI建立红队网络以加强模型安全性[53]、谷歌发布负责任AI开发的最佳实践[54, 55, 56]以及Meta发布Llama Guard以保护提示完整性[57]——一个关键且紧迫的问题仍未得到解答:GenFMs可信度的内在局限性和不确定性是什么?在多样化且动态的现实环境中,GenFMs能在多大程度上保持真实性、安全性、隐私性等关键可信度维度? 鉴于GenFMs的先进能力和深远影响,建立一个统一的框架来定义、评估和指导其可信度的提升至关重要。目前,各公司和开发者已独立定义了生成模型的可信度原则、模型规范和用户政策(详见§2.1)。同时,许多政府和监管机构也引入了多样化的法律法规来定义可信的生成式AI模型。尽管一些司法管辖区采用横向治理框架(如欧盟AI法案[58]和AI权利法案蓝图[59])来整体监管AI系统,但其他地区则实施了针对特定领域的垂直监管方法,如生成式AI服务[60]和医疗保健应用[61]。然而,这些标准高度多样化,通常反映了不同利益相关者的特定优先事项。这种缺乏一致性导致了可信度定义的碎片化,有时甚至相互冲突或不一致。我们希望通过提出一套标准化指南来解决这一差距。通过综合现有原则、政策和法规,我们旨在提炼出一套统一的指南,作为基础参考。这些指南旨在提供一致、跨学科的框架,以评估和定义GenFMs的可信度,为新开发者和政策制定者提供清晰的起点,并促进跨行业和监管环境的一致性。

在提出指南后,评估GenFMs可信度的下一个关键步骤是开发评估框架。然而,一个主要挑战是,对GenFMs的静态评估(即使是大规模评估)作为建立长期信任的手段是不可持续的。随着新模型的不断发布和用户需求的不断演变,重复组织大规模评估变得不切实际。这一过程耗时且不灵活,需要精心构建适当的评估数据集、选择或设计合适的指标,并实施稳健的评估方法(例如设计有效的提示结构)。因此,迫切需要一种适应性强且易于使用的评估平台,以满足评估GenFMs可信度的多样化需求。 为了弥合这一差距,我们提出了TrustGen,一个全面且自适应的基准,旨在通过多样化和动态的评估策略评估GenFMs在多个可信度维度上的表现。具体而言,TrustGen集成了三个核心模块:元数据策展器、测试案例构建器和上下文变异器,支持动态评估的迭代数据集优化(如图8所示)。元数据策展器通过采用不同策略(如网络浏览代理[16])动态收集元数据。测试案例构建器旨在基于给定元数据生成测试案例,而上下文变异器确保案例在不同上下文中具有多样性和代表性,以避免提示敏感性的负面影响。 TrustGen评估三类GenFMs:文本到图像模型、大语言模型和视觉语言模型。我们在§5、§6、§7中展示了这些模型的评估结果,并在图4、5、6中总结了它们的总体可信度得分(满分100分,定义见§4.2)。我们发现:

  1. 最新最先进的GenFMs总体表现良好,但仍面临“可信度瓶颈”。我们的分析表明,评估的GenFMs在TrustGen基准上的总体表现显示出潜力,大多数模型在三个类别中均取得了较高的可信度得分。然而,尽管这一得分反映了在满足关键可信度维度方面的进展,但这并不意味着模型在所有上下文中都是可靠或可信的。在解决特定和细微的可信度挑战方面仍有显著改进空间。
  2. 开源模型不再像普遍认为的那样“不可信”,一些开源模型的表现已接近甚至超越了前沿的专有模型。我们的评估表明,开源模型能够达到与专有模型相当甚至更高的可信度,部分证实了先前研究的发现[46]。
  3. 最先进模型之间的可信度差距进一步缩小。我们的研究结果表明,最新模型之间的可信度差异正在缩小,得分差异通常低于10分。这一趋同可能归因于行业内知识共享和合作的增加,使得最佳实践能够在不同模型中得以采用。
  4. 可信度并非模型的孤立属性,而是对各方面性能产生“涟漪效应”。我们的评估揭示了若干值得注意的现象,例如某些LLMs即使在对良性查询作出响应时也表现出过度谨慎,这可能降低其帮助性。此外,可信度的各个维度似乎紧密相连——例如,在道德困境中的决策(§10.8)可能显著受到模型潜在偏好的影响。

可信度的复杂性超出了仅靠指标和框架所能捕捉的范围。因此,为了确保对这一领域的全面理解并推动持续进展,我们在§10中对可信GenFMs的关键方面进行了深入讨论。通过探讨这些维度,我们强调了当前挑战并确定了有前景的研究方向,为未来的发展提供指导和信息,确保GenFMs的演进与人类价值观和社会期望保持一致。

**贡献

总体而言,本工作的贡献包括以下三个方面(如图3所示):

  1. 全面识别并建立可信生成模型的指南。我们通过多学科合作,整合了来自NLP、计算机视觉(CV)、人机交互(HCI)、计算机安全、医学、计算社会科学、机器人、数据挖掘、法律和AI科学等领域的专家意见,开发了一套全面的指南。这些指南围绕法律合规、道德和社会责任、风险管理、以用户为中心的设计原则以及适应性和可持续性等关键视角系统化构建,为生成模型的可信度提供了统一的标准和模型规范。
  2. GenFMs的整体动态评估框架:TrustGen。我们提出了TrustGen,一个开创性、全面且完全动态的基准,旨在评估生成模型的可信度。与现有的静态基准不同,TrustGen涵盖文本到图像、大语言和视觉语言模型,并在真实性、安全性、公平性、隐私性、鲁棒性、机器伦理和高级AI风险等多个关键维度上进行评估。通过模块化组件,TrustGen动态评估不断演变的模型能力,解决了静态评估框架的局限性。
  3. 战略性的深入讨论与未来方向。我们提供了关于生成模型可信度关键挑战的广泛前瞻性讨论,强调了可信度的复杂性和不断演变的性质,并确定了未来研究的战略路线图。

论文组织与读者指南首先,我们概述了生成型基础模型(GenFMs),内容包括:1) 确保可信度的企业层面方法(§2.1),以及相关的评估与基准工作(§2.2 和 §2.3)。基于这些内容,接下来我们在§3中提出了一套标准化的可信GenFM指南,详细说明了制定这些指南的考虑因素(§3.1)以及指南的具体内容(§3.2)。接着,我们在§4中讨论了基准设计,随后在§5、§6 和 §7中分别提供了文本到图像模型、 大型语言模型和视觉语言模型的评估细节和结果,涵盖多个维度:真实性、安全性、公平性、鲁棒性、隐私、机器伦理以及高级AI风险。此外,我们在§8中探讨了其他生成模型的可信度,并在§9中评估了使用GenFMs的下游应用的可信度。最后,在§10中,我们从多个角度深入讨论了该领域的当前挑战与未来发展方向。

** **

** **

成为VIP会员查看完整内容
1

相关内容

116页最新《多模态大型语言模型》全面综述与指南
专知会员服务
61+阅读 · 2024年11月12日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
【SIGMOD教程】公平性排序:从价值到技术选择,120页ppt
专知会员服务
30+阅读 · 2023年7月13日
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
65+阅读 · 2021年2月23日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
70+阅读 · 2019年11月25日
【干货书】优化算法,232页pdf
专知
26+阅读 · 2022年9月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
72+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员