赛尔译文 | 基础模型的机遇与风险（一）

2021 年 9 月 17 日 哈工大SCIR

原文：On the Opportunities and Risks of Foundation Models

链接：https://arxiv.org/pdf/2108.07258.pdf

译者：哈工大 SCIR 张伟男，朱庆福，聂润泽，牟虹霖，赵伟翔，高靖龙，孙一恒，王昊淳，车万翔（所有译者同等贡献）

转载须标注出处：哈工大 SCIR

编者按：近几年，预训练模型受到了学术界及工业界的广泛关注，对预训练语言模型的大量研究和应用也推动了自然语言处理新范式的产生和发展，进而影响到整个人工智能的研究和应用。近期，由斯坦福大学众多学者联合撰写的文章《On the Opportunities and Risks of Foundation Models》，将该模型定义为基础模型（Foundation Models），以明确定义其在人工智能发展过程中的作用和地位。文章介绍了基础模型的特性、能力、技术、应用以及社会影响等方面的内容，以此分析基于基础模型的人工智能研究和应用的发展现状及未来之路。鉴于该文章内容的前沿性、丰富性和权威性，我们（哈工大SCIR公众号）将其翻译为中文，希望有助于各位对基础模型感兴趣、并想了解其最新进展和未来发展的读者。因原文篇幅长达200余页，译文将采用连载的方式发表于哈工大SCIR公众号，敬请关注及提出宝贵的意见！

引言

涌现和同质化
社会影响和基础模型生态系统
基础模型的未来
概述

能力
应用
技术
社会
结论

摘要

随着在大规模数据上训练并适配到各种下游任务的模型（例如，BERT、DALL-E、GPT-3）的兴起，人工智能正在经历范式上的转变。我们将这些模型称为基础模型，以强调它们至关重要但并不完整的特征。本文详尽地介绍了基础模型的机遇和风险，包括其能力（例如，语言、视觉、机器人学、推理、人机交互）和技术原理（例如，模型架构、训练过程、数据、系统、安全、评价、理论）、应用（例如，法律、医疗保健、教育）和社会影响（例如，不平等、滥用、经济和环境影响、法律和伦理影响）。尽管基础模型基于标准的深度学习和迁移学习，但其规模导致了新能力的涌现，其在众多任务中的有效性激励了同质化的产生。同质化提供了强大的影响力，但需要谨慎使用，因为基础模型的缺陷会被所有下游适配模型所继承。尽管基础模型即将被广泛部署，但目前我们对其如何工作、何时失效以及其涌现的特性衍生了何种能力尚缺乏清晰的理解。为解决这些问题，我们相信对于基础模型的大量关键研究，需要与其基础社会技术性质相称的深度跨学科的合作。

1 引言

本文调研了一种新兴范式，基于通用类模型构建人工智能(AI)系统，我们称这种模型为基础模型2。基础模型是任意的在大规模数据上训练并且可以适配(例如，微调)广泛下游任务的模型;当前的例子包括BERT[Devlin et al. 2019]、GPT-3 [Brown et al. 2020]和CLIP[Radford et al. 2021]。从技术角度来看，基础模型并不新鲜—它们基于深度神经网络和自监督学习，两者都已经存在了几十年。然而，过去几年基础模型的庞大规模和应用范围已经超出了我们对其可能性的想象。例如，GPT-3有1750亿个参数，尽管没有在特定任务上进行明确的训练，仍可以通过自然语言提示(prompts)适配到特定任务上，在大多数任务上取得了不错的效果 [Brown et al. 2020]。与此同时，现有的基础模型可能有潜在的危害性，而且对它们的特性普遍知之甚少。鉴于它们即将被广泛部署，对基础模型的严格监督已成为被广泛讨论的议题[Bender et al. 2021]。

2 我们选择术语基础模型来表示这些模型尚未完成但重要的状态 — 请参阅 §1.1.1:命名以进一步讨论该名称。

1.1 涌现和同质化

基础模型的意义可以用两个词来概括:涌现和同质化。涌现意味着系统的行为是隐式归纳而不是显式构造的;它既带来科学上的振奋，也引起了对意外后果的焦虑。同质化指出了在广泛的应用中构建机器学习系统的方法论的合集;它为许多任务提供了强大的支撑，但也会产生故障点。为了更好地理解涌现和同质化，让我们回顾一下过去30年来它们在人工智能研究中的崛起。

图1 人工智能的故事一直是不断涌现或是不断同质化。随着机器学习的引入，任务从例子中学习如何执行(自动推断)；通过深度学习，涌现了用于预测的高级特征；有了基础模型，甚至涌现了上下文学习等高级功能。与此同时，机器学习使学习算法同质化(例如，逻辑回归)，深度学习使模型架构同质化(例如，卷积神经网络)，基础模型使模型本身同质化(例如，GPT-3)

机器学习 当今大多数AI系统都是基于机器学习的，其中预测模型使用历史数据进行训练对于未来进行预测。AI中机器学习的兴起始于1990年代，代表着AI系统构建方式的显著转变:学习算法不用于如何解决任务，而是基于数据来归纳它—即如何从学习的动态中涌现。机器学习也表现了向同质化迈进的一步:现在单一的通用学习算法(例如逻辑回归)可以为广泛的应用提供支持。

尽管机器学习在AI中无处不在，但自然语言处理(NLP)和计算机视觉中的复杂任务诸如问答或目标识别，其中的输入是句子或图像，仍然需要领域专家进行“特征工程”—即编写特定领域的逻辑将原始数据转换为更高级别的特征(例如，在计算机视觉中的SIFT[Lowe 1999])，这种方式更适合流行的机器学习方法。

深度学习 2010年左右，以深度学习[LeCun et al. 2015]为名的深度神经网络的复兴开始在机器学习领域获得关注。更大的数据集、更大的算力(特别是GPU的可用性)和更大胆地探索推动了深度学习。深度神经网络将在原始输入数据(例如像素)上进行训练，并在训练过程中涌现更高级别的特征。这导致了在基准测试中巨大的性能提升，例如，AlexNet [ Krizhevsky et al. 2012 ] 在 ImageNet 数据集 [ Deng et al. 2009 ] 上的开创性工作。深度学习还反映了向同质化的进一步转变：与其为每个应用定制特征工程流水线，不如将相同的深度神经网络架构用于多种应用。

基础模型 基础模型最主要是在NLP中被塑造成型，因此我们暂时将故事的重点放在那里。2018年底，NLP领域又一次迎来了翻天覆地的变化，标志着基础模型时代的开始。在技术层面上，基础模型是通过迁移学习[Thrun 1998]和规模化实现的。迁移学习的思想是将从一项任务(例如，图像中的对象识别)中学到的“知识”应用到另一项任务(例如，视频中的行为识别)中。在深度学习中，预训练是迁移学习的主要方法:在替代性任务上训练模型 (通常只是作为达到目的的手段)，然后通过微调适配下游感兴趣的任务。迁移学习使基础模型成为可能，但规模化使它们强大。规模化需要三个要素： (i) 计算机硬件的改进 — 例如， GPU 吞吐量和内存在过去四年中增加了 10 倍( §4.5 :系统 )； (ii)Transformer 模型架构 [ Vaswani et al. 2017 ] 的开发，它利用硬件的并行性来训练比以往更具表现力的模型( §4.1 :建模 ); (iii) 更多可用的训练数据。数据可用性和利用数据的能力的重要性不容小觑。在至少十年中，使用带标注的数据集进行迁移学习已经成为普遍做法，例如，计算机视觉社区在 ImageNet 数据集上进行预训练 [ Deng et al. 2009 ] 用于图像分类。然而，大量的标注成本在实际中限制了预训练模型优势的发挥。

另一方面，在自监督学习中，预训练任务是从未标注的数据中自动推导出来的3 。例如，用于训练BERT[Devlin et al. 2019]的掩码语言建模任务是在给定周围上下文的情况下预测句子中的缺失词(例如，我喜欢豆芽)。自监督任务不仅更具可扩展性，仅依赖于未标注的数据，而且它们旨在强制模型预测部分输入，使它们比在有限的标注数据上训练的模型更丰富、更实用。

3 有趣的是，自监督学习在深度学习的早期占据主导地位 [Hinton et al. 2006]，但十年来，随着标注数据集变得越来越大，它在很大程度上被纯粹的有监督学习所取代。

可以追溯到词嵌入[Turian et al. 2010; Mikolov et al. 2013; Pennington et al. 2014]的自监督学习取得了相当大的进步，它将每个词与上下文无关向量相关联，为广泛的NLP模型提供基础。此后不久，基于自回归语言建模的自监督学习(根据前一个词预测下一个词)[Dai and Le 2015]开始流行。这产生了在上下文中表示单词的模型，例如GPT[Radford et al. 2018]、ELMo[Peters et al. 2018]和ULMFiT[Howard and Ruder 2018]4 。

4 有先见之明的工作 Collobert and Weston [2008] 是相关的:他们与下游任务联合进行了类似于掩码语言建模的可扩展任务的训练，而不是生成可以事后适配下游任务的单一基础模型。

自监督学习的下一波发展浪潮—BERT[Devlin et al. 2019]、GPT-2[Radford et al. 2019]、RoBERTa[Liu et al. 2019]、T5[Raffel et al. 2019]、BART[Lewis et al. 2020]—迅速跟进，采用Transformer架构，结合更强大的深度双向句子编码器，并扩展到更大的模型和数据集。

虽然人们可以纯粹地通过自监督学习的视角来看待这最后一波技术发展，但围绕 BERT的引入出现了一个社会学拐点。在2019年之前，语言模型的自监督学习本质上是NLP的子领域，它与NLP其他方面的发展并行推进。2019年之后，使用语言模型的自监督学习更多地成为NLP的基质，因为使用BERT已成为常态。对于单个模型可用于如此广泛任务的接受标志着基础模型时代的开始。

基础模型导致了前所未有的同质化水平:几乎所有最先进的NLP模型现在都源自少数基础模型之一，例如BERT、RoBERTa、BART、T5等。虽然这种同质化产生了极高的影响力(基础模型的任何改进都可以为所有NLP任务带来直接的好处)，但它也是一种负担；所有人工智能系统都可能继承一些与基础模型相同的错误偏置 [Bolukbasi et al. 2016; Caliskan et al. 2017 ; Abid et al. 2021 , inter alia ])— 详见 §5.1 :公平， §5.6 :伦理的讨论。我们也开始看到跨研究社区的同质化。例如，类似的基于 Transformer 的序列建模方法现在被应用于文本 [ Devlin et al. 2019 ; Radford et al. 2019 ; Raffel et al. 2019 ] 、图像 [ Dosovitskiy et al. 2020 ; Chen et al. 2020b ] 、语音 [ Liu et al. 2020 ] 、表格数据 [ Yin et al. 2020 ] 、蛋白质序列 [ Rives et al. 2021 ] 、有机分子 [ Rothchild et al. 2021 ] 和强化学习 [ Chen et al. 2021a ; Janner et al. 2021 ] 。这些例子表明，未来我们将拥有一套统一的工具来开发各种模态的基础模型 [ Tamkin et al. 2021 ] 。

图2 基础模型可以集中来自各种模态的所有数据的信息，然后这个统一模型可以适配各种下游任务。

除了方法上的同质化，我们还看到了跨研究社区实际模型上的同质化。其形式为多模态模型，例如基于语言和视觉数据训练的基础模型[Luo et al. 2020; Kim et al. 2021; Cho et al. 2021; Ramesh et al. 2021; Radford et al. 2021]。数据在某些领域天然是多模态的—例如医疗图像、结构化数据、医疗中的临床文本(§3.1:医疗保健)。因此，多模态基础模型是融合领域的所有相关信息并适配跨越多种模态任务的一种自然方法( 图 2)。

基础模型通过(巨大的)规模也产生了令人惊异的涌现效果。例如，与GPT-2的15 亿个参数相比，GPT-3[Brown et al. 2020]有1750亿个参数，并可以进行语境学习。通过向其语言模型提供提示(prompt)(一条对任务的自然语言描述)就可以让其适配下游任务。这种提示是一种既没有经过专门训练也不被期望在数据中出现的涌现属性。

同质化和涌现以一种可能难以预料的方式相互作用。同质化可能为许多限定任务领域提供巨大的收益，这些领域的数据通常非常缺乏。—详情参阅多个此类领域中出现的机会(如§3.1:医疗保健，§3.2:法律，§3.3:教育);另一方面，模型中的任何缺陷都会被所有适配好的模型盲目继承(§5.1:公平，§5.6:伦理)。由于基础模型的力量来自于它们的涌现性质而不是它们的显式构造，现有的基础模型难以理解(§4.4:评价，§4.10:理论，§4.11:可解释性)，并且具有难以预料的错误模式(§4.7:安全，§4.8:鲁棒性)。由于涌现对基础模型的能力和缺陷造成了很大的不确定性，对这些模型激进的同质化是有风险的。从伦理(§5.6 伦理 )和人工智能安全( §4.9 :人工智能安全 )的角度来看，去风险是进一步开发基础模型的核心挑战。

图3 在推断基础模型的社会影响之前，首先要了解它们是从数据创建到部署的更广泛生态系统的一部分。在两端，我们都强调了人是训练基础模型的最终数据来源，同时也是任何利益和危害的下游接收者。周到的数据管理和适配应该是任何负责任的人工智能系统开发的一部分。最后需要注意的是，适配好的基础模型的部署与其构建是不同的过程，后者可以被用于研究。

1.1.1 命名

我们引入术语基础模型来描述我们正在见证的范式转变，并简要介绍我们做出这一决定的一些理由。现有术语(如预训练模型、自监督模型)部分地捕捉到了这些模型的技术维度，但不能以机器学习领域以外的人可以理解的方式捕捉到范式转变的重要性。语言模型太窄：正如我们所描述的，基础模型的范围远远超出了语言。我们还考虑了通用模型和多用途模型等术语，它们捕捉了这些模型可以服务于多个下游任务的重要方面，但都未能捕捉到它们并未完成、需要在下游任务上适配的特性。诸如任务无关模型之类的术语能捕捉到模型训练的方式，但无法刻画其对下游应用的重要作用。

我们选择了新的术语基础模型来描述作为本报告主题的模型和新兴范式。特别地，“基础”一词指定了这些模型所扮演的角色:基础模型本身是不完整的，但作为通用基础，许多限定任务的模型是通过对其适配而构建的。我们还选择了“基础”一词来凸显架构稳定性、安全性的重要性:草草搭建的基础是灾难的根源，而良好构建的基础是未来应用的可靠基石。目前，我们并不完全了解基础模型所提供的基础的性质或质量;我们无法描述基础是否是可靠的。因此，对于依赖基础模型的研究人员、基础模型提供商、应用开发人员、政策制定者和整个社会来说，这是一个关键问题。

1.2 社会影响和基础模型生态系统

基础模型因其令人印象深刻的表现和能力而在科学上引起了兴趣，但使它们成为研究的关键是它们正在迅速被部署到现实的AI系统应用中，并对人们产生了深远的影响。例如，拥有40亿用户的Google搜索现在依赖于BERT[Devlin et al. 2019]等基础模型5 。

5 https://blog.google/products/search/search-language-understanding-bert/

我们必须停下来问问:这种社会影响的本质是什么?在本报告中，我们解决了这个问题的许多方面:社会不平等的潜在加剧(§5.1:公平)、模型能力增加对经济的影响(§5.5:经济)、计算需求增加对环境的影响(§5.3:环境)、放大虚假信息的潜在问题(§5.2:滥用)、强大的生成能力导致的法律后果( §5.4 :合法性 )，同质化导致的伦理问题，以及在开发和部署基础模型背景下的更广泛的政治经济影响( §5.6 :伦理 )。鉴于基础模型的多变性质及其未开发的能力，我们如何负责任地预测和解决它们引起的伦理和社会问题?一个反复出现的话题是，讨论部署到特定用户的特定系统的社会影响比讨论基础模型的社会影响更容易，基础模型可以适用于任何数量的不可预见的下游系统。

在尝试回答这些问题之前，我们需要做一些基础工作。首先，让我们区分一下基础模型的研究和基础模型的部署。大多数公开的是基础模型研究—体现在学术论文、演示和排行榜上的进展。虽然知识的产出可以在塑造未来方面发挥至关重要的作用，但直接的社会影响是通过这些模型的实际部署产生的，这些模型通常是在私有数据上训练的专有实现。部署有时是采用新的学术工作，如GitHub的Copilot6基于OpenAI的Codex模型[Chen et al. 2021b]，但通常是升级现有学术工作(例如，使用BERT的Google搜索)。一方面，研究模型通常没有经过广泛的测试，可能有未知的错误模式，警告标签应该被放在不适合部署的研究模型上;另一方面，实际影响人们生活的已部署基础模型应该接受更严格的测试和审计。

6 https://copilot.github.com/

为了进一步理解基础模型的研究和部署，我们必须缩小范围并考虑这些基础模型所在的完整生态系统，从数据创建到实际部署。需要注意的是，基础模型只是AI系统的一个组成部分(尽管是越来越重要的组成部分)。简而言之，我们可以从不同阶段的角度来考虑基础模型的生态系统，扩展之前的训练和适配阶段7。由于人占据了整个阶段过程的两端，我们对社会影响更感兴趣。这种对于生态系统的思考使我们能够意识到，关于基础模型的不同问题(例如，基础模型是否合乎伦理)实际上应该在不同阶段得到回答。

7 在实践中，生态系统的最后是监控机制，得到的反馈用于重新调整之前的阶段。

(1) 数据创建:数据创建从根本上讲是一个以人为中心的过程:所有数据都是由人创建的，并且大多数数据至少隐式的与人有关。有时数据是由人们以电子邮件、文章、照片等形式为他人创建的，而有时它是对人体的衡量(例如基因组数据)或对人们生活环境的测量(例如卫星图像)。更需要注意的是，所有数据都有一个所有者，并且它们的创建都是有目的性的(该目的可能包括也可能不包括训练基础模型)。

(2) 数据整理:然后将数据整理为数据集。数据没有单一的自然分布;即使从互联网爬取的数据也需要一些选择和后过滤。在遵从法律和伦理约束的同时确保数据的相关性和质量是至关重要的，但同时也是具有挑战性的。虽然这在业界中得到了认可，但在AI研究中却没有得到充分重视(§4.6:数据).

(3) 训练:在这些整理好的数据集上训练基础模型8是AI研究中的核心部分，尽管它只是众多阶段中的一个。

8 一个基础模型 (例如 Codex) 在训练时以另一个基础模型 (例如 GPT-3) 为起点。

(4) 适配:在机器学习研究的背景下，适配是在某些任务上(例如，文档摘要)，基于基础模型创建一个新模型。对于部署，适配是创建一个系统，它可能需要许多不同的模块、自定义规则(例如，对输出空间的限制)或分类器(例如，用于毒性分类)，以及与其他信息的互补(例如，一个问答模型生成的答案将根据相关文档进行验证)。例如，如果在下游采取适当的预防措施，一个产生错误预测存在问题的模型是可以被接受的。额外的限定应用适配逻辑对于减轻危害是至关重要的。

(5) 部署:人工智能系统在部署供人类使用时，会产生直接的社会影响。尽管我们不想部署那些在有问题的数据上训练得到的有潜在危害的基础模型，但允许它们在研究中存在以促进科学理解，可能仍然是有价值的，但人们仍然必须谨慎行事。更一般地说，大规模部署的标准做法是逐步发布，其中部署发生在越来越多的用户身上;这可以部分减轻任何潜在的危害。

虽然本报告是关于基础模型的，但重要的是，许多影响来自生态链中其他阶段的决策，并且每个阶段都需要深思熟虑的监测和干预。虽然大型组织机构可能拥有整个生态链，但每个阶段都可以由不同的组织执行，例如，一家在各领域为用户提供定制模型的公司，这些模型可被应用开发人员使用。

思考生态系统和评估模型 虽然社会影响取决于整个生态系统，但考虑到许多研究人员和从业者的关注点仅限于训练阶段，因此能够推出基础模型的社会影响仍然很重要。完成这一过程是很困难的，因为基础模型是未完成的中间对象，可以适配许多下游应用，并且有时又是用于不可预见目标的完全不同实体。我们需要的是两件事:(i)一组具有代表性的潜在下游评估的替代指标(§4.4:评价)，以及(ii)记录这些指标[Mitchell et al. 2019]，类似于金属和塑料等材料的数据表，可适用于许多下游用例。

表征基础模型的潜在下游社会影响具有挑战性，需要对技术生态系统和社会都有深入的了解。如果不了解如何部署基础模型，就无法完全评估其危害(§5.1:公平)，也无法在不考虑丰富的社会和历史背景的情况下定义评价指标。

1.3 基础模型的未来

基础模型已经展示了初步潜力，但我们仍处于早期阶段。尽管它们被部署到现实世界中，但这些模型在很大程度上还是研究原型，人们对其知之甚少。甚至围绕基础模型的专业规范—罗伯特·默顿所说的科学精神[Merton 1979]—也不发达。例如，在诸如模型何时“安全”发布或社区应如何应对某些不当方法等基本问题上缺乏共识。鉴于基础模型的未来充满不确定性，一个大问题是:谁来决定这个未来?

学科多样性 基础模型背后的技术基于机器学习、优化、NLP、计算机视觉和其他领域数十年的研究。这些技术贡献来自学术界和工业界的研究实验室。然而，构建基础模型本身的研究几乎只发生在工业界—谷歌、Facebook、微软或华为等大型科技公司，或OpenAI、AI21 Labs等初创公司，尽管AI2是一个明显的例外[Peters et al. 2018; Zellers et al. 2019]。

技术进步的迅猛步伐和中心化造成的壁垒引起了强烈的关注，除了技术学家之外，还需要人文主义者和社会科学家的关注。我们不应该依赖于伦理和社会后果的事后审计，只有在做出技术架构和部署决策之后才进行。相反，我们需要从一开始就将社会影响和伦理设计深深地融入基础模型及其周围生态系统的技术开发中。学术机构的独特之处在于它们将最广泛的学科集中在一个屋檐下，从而将计算机科学家、社会科学家、经济学家、伦理学家、法律学者等聚集在一起。鉴于学科多样性在理解和解决综合技术、伦理、法律、社会和政治多方面问题的重要性 [Hong and Page 2004; Solomon 2006; Steel et al. 2018]，因此我们认为学术界在开发基础模型方面发挥着至关重要的作用，以促进其社会效益和减轻其社会危害，以及确定生态系统每个阶段采取行动的背景(§1.2:生态系统)从数据管理到部署都应该被严格管控。

激励基础模型的设计、开发和部署阶段带来的政治经济学效应为每个阶段的决策提供了不可避免的激励结构。人们和机构如何对激励做出反应是经济学的基本课程。市场驱动的商业激励可以很好地与社会效益保持一致:在搜索各种潜在用例的同时，使基础模型更加准确、可靠、安全和高效，可以产生大量的社会效用。然而，商业激励也可能导致市场失活和在股东无法获得创新价值的领域投资不足的问题。正如制药业几乎没有动力将大量资源投入到疟疾治疗的研究和开发中，因为穷人买不起药9，科技行业也没有动力将大量资源投入到旨在改善贫困和边缘化状况的技术上[Reich et al. 2021]。此外，商业激励可能导致公司忽视社会外部条件 [Acemoglu 2021; Reich et al. 2021]，例如劳动力的技术转移、民主所需的信息生态系统的健康、计算资源的环境成本，以及以利润为导向向非民主政权出售技术。最后，任何一家公司都没有什么动力去创建一个开放的、去中心化的生态系统来开发些鼓励人们广泛参与建设的基础模型。

9 参见 https://www.gatesfoundation.org/about/our-role.

相比之下，大学长期而根深蒂固的研究使命是知识的生产和传播以及全球公共产品的创造[Kerr 2001; Rhoten and Calhoun 2011; Nussbaum 2010]。我们相信，学术界在塑造基础模型的发展方面处于独特的地位，以确保我们捕捉到具有潜在巨大社会效益的方向，否则这些方向可能不会被行业优先考虑。

可访问性的丧失 不幸的是，由于可访问性的丧失，学术界无法充分参与其中。深度学习革命经常被忽视的影响之一是可复现性和开放科学的增加:公开发布代码和数据集越来越成为常态，诸如TensorFlow [Abadi et al. 2016]、PyTorch[Paszke et al. 2019]等工具包使人们更容易协同合作以及构建各自的模型。诸如ML Reproducibility Challenge10倡议，主要会议采用的可重复性检查清单[Pineau et al. 2020]，以及CodaLab Worksheets11等平台，都积极促进了针对可复现性的标准的完善。这导致了技术上创新和进步的激增。

10 https://paperswithcode.com/rc2020

11 https://worksheets.codalab.org/

基础模型开始逆转这一积极趋势。某些模型(例如 GPT-3)根本不会公开发布(只对少数人提供API访问权限)。甚至一些数据集(例如 GPT-2)也没有公开发布。虽然可以使用经过训练的模型(例如 BERT)，但由于计算成本过高且工程要求复杂，绝大多数AI研究人员实际上无法对基础模型进行完整的训练。

在学术经费允许的范围内，一些有意义的研究仍然可以通过训练较小的模型来完成。事实上，当规模不同造成的差异可量化时(例如，准确率上升)，缩放定律 (scaling laws)[Kaplan et al. 2020]所预测的规律使得这种方式成为一种行之有效的策略。然而，由于这些基础模型的自然性质，诸如上下文学习等能力只能在足够大的模型中实现，因此我们甚至需要足够大的模型规模才能够提出正确的问题。

研究公开发布的现有模型可能也是行之有效的;事实上，目前已经存在一个包含 NLP在内的大型子社区，正在探索这类模型[Rogers et al. 2020; Manning et al. 2020]。研究现有模型对于改善下游应用或识别现有缺陷(例如，偏见)很有用，但这可能不足以让我们为基础模型设计更好的架构或训练目标，从而修复这些缺陷(例如，减轻偏见)。值得反思的是，当今有多少NLP研究是基于BERT，这样一种特殊(且有些随意)的基础模型的。鉴于有必要将社会意识和伦理设计融入这些模型的构建过程中，我们可能需要构建看起来与现有模型完全不同的基础模型。这将需要大规模的密集实验。

虽然一些社区正在尝试训练大型基础模型，例如EleutherAI12和HuggingFace的 BigScience项目13，然而行业训练的私有模型与向社区开放的模型之间的差距可能仍然很大。此外，如今的初创公司(OpenAI、Anthropic、AI21 Labs 等)比学术界拥有更多资源，因此有能力训练最大规模的基础模型(例如OpenAI的GPT-3)。然而，大型科技公司在资源方面处于更高的水平，尤其是在基础设施、用户以及源于其市场地位的数据方面。基础模型的基础中心化性质意味着开发它们的门槛将继续上升，因此即使是初创公司也会发现难以进行竞争，尽管他们足够灵活。这一趋势反映在搜索引擎的发展中[Radinsky 2015]。

12 https://www.eleuther.ai/

13 https://bigscience.huggingface.co/

缩小资源缺口的一种方法是政府将其视为公共基础设施进行投资。从哈勃太空望远镜和大型强子对撞机等大科学项目中我们能够发现，大量投资将使得基础科学发现变为可能。我们可以想象一个类似的计算科学基础设施，有关基础模型的学术研究将从中受益。美国新生的National Research Cloud计划14就是朝这个方向迈出的一步。

14 https://hai.stanford.edu/policy/national-research-cloud

志愿计算可以作为另一种补充方案，该方案中数十亿计算设备(节点)中的任何一个都可以连接到中央服务器贡献算力。Folding@home项目已在蛋白质动力学模拟方面成功实施了这种的方法[Beberg et al. 2009]。最近，Learning@home项目又试图利用志愿计算来训练基础模型[Ryabinin and Gusev 2020]。节点之间的高延迟连接以及训练基础模型的高带宽要求使其成为一个开放的技术挑战。

总结目前存在巨大的经济激励来推动基础模型能力和规模的提升，因此可以预计未来几年相关技术会稳步发展。但是，一项主要依赖涌现的行为的技术是否适合广泛部署给民众目前尚不清楚。能够清楚的是我们需要谨慎行事，并且现在应着手建立专业规范，这将使可靠的基础模型研究和部署成为可能。学术界和工业界需要在此方面进行合作:工业界会就最终如何部署基础模型做出具体决策，但鉴于学术界的学科多样性以及注重知识生产和社会效益的非商业激励性，我们也应该依靠其为基础模型的开发和部署提供独特的指导，这在技术方面和伦理方面都是有根据的。

1.4 概述

2021年3月，我们在斯坦福大学创建了一个由对基础模型的某些方面感兴趣的学生、教师和研究人员组成的非正式社区15。该社区不仅包括AI研究人员，还包括那些渴望将基础模型应用于各自领域(例如医疗保健和法律)，以及那些对社会问题(例如伦理和经济)感兴趣的人。随着讨论的进行，我们发现相互之间在技术如何运作、行业如何开发基础模型、如何思考伦理问题等方面的理解存在很大差距，并且现有文献只涉及零碎的思考。因此，我们希望更全面地了解基础模型，识别机会和风险，并为基础模型未来可靠的发展建立一个建设性的愿景。

15 这个社区导致了 Center for Research on Foundation Models (CRFM) 的建立, 它是斯坦福大学 Human-Centered AI 研究所 (HAI) 的一项新的跨学科计划。

这份报告的撰写是一个实验:我们有超过100名来自不同背景的人聚在一起撰写这份涵盖了基础模型各个方面的报告。这份报告有很大一部分是对现有工作的调查，但通过多次讨论，我们决定将其统一在一份报告中，以强调所有跨学科联系。

结构报告分为26个章节，每个章节讨论基础模型的一个方面。尽管各章节之间有许多联系，他们主要分为四个主题:能力(§2:能力)、应用(§3:应用)、技术(§4:技术)和社会(§5:社会)。这些联系强调了一种综合的方法论，在这种方法论中，技术和能力的开发方式很大程度上受社会问题的影响，同时受到模型应用的启发，也扎根于模型应用。

虽然我们尽可能将围绕基础模型的大部分重要主题容纳在内，但在该领域发展迅速的情况下，这份报告将不可避免地不完整。例如，许多应用场景(例如，自然科学、音乐、金融、农业)不包括在内，尽管它们可能会受到我们选择讨论的应用领域的影响。除此之外，研究基础模型如何与神经科学、认知科学和心理学结合以解释智力和帮助计算社会学理解社会也是有趣的议题。

作者贡献 Percy Liang提出了整个报告的框架和结构。他和Rishi Bommasani共同领导撰写工作，并为各个章节提供指导。Drew A. Hudson创建了报告中的所有图表，并与每个章节的作者讨论了图表的结构和内容。本报告的26个章节每个都由作者中的一部分撰写，他们的名字列在每个章节的开头。然而，由于有许多讨论跨越多个章节，因此可能会有其他的作者实际上也对某个章节作出贡献。最后需要注意，并非所有作者都持有本报告中表达的所有观点。

1.4.1 能力概述

基础模型具有应用可以利用的各种能力。我们选择对以下五种能力进行论述:处理不同模态的能力(例如，语言、视觉)、影响物理世界的能力(例如，机器人学)、推理能力、与人类交互的能力(交互)。最后，我们以基础模型能力存在的可能限制的哲学性讨论作为结束。

图4 本报告分为能力、应用、技术和社会四个主题，每个主题包含多个章节，每个章节涵盖基础模型的一个方面。

§2.1 :语言自然语言处理是为基础模型开辟了道路的领域。尽管这些基础模型在标准基准测试中占主导地位，目前基础模型所具有的能力距离能够将语言作为人类交流、思考的复杂系统表示出来还存在明显差距。为了理解这一差距，我们全面阐述了语言多样性 (例如，不同的风格、方言、语言)，考虑到其中的一些变体是数据有限的，这也带来了机遇和挑战。此外，儿童的语言习得机制相较与基础模型的训练具有更高的样本效率;我们研究了超过文本的信号和接地( grounding )对于减小这一差距的可能帮助。语言的这两个特征为未来基础模型的研究提供了明确的方向。

§2.2:视觉计算机视觉引领了深度学习在人工智能中的采用[Russakovsky et al. 2015]，证明了在大规模标注数据集上预训练的模型可以被迁移到众多的下游情景中。目前，通过在网络规模的原始数据而非标注数据集上预训练，基础模型在计算机视觉领域正在兴起(例如 [ Radford et al. 2021 ] )。它们在诸如图像分类、目标检测这样的标准任务中取得了令人满意的结果，而通过在多模态和具身( embodied ) 的数据而非仅在图片数据上进行训练使得在重大挑战(例如， 3D 几何与物理理解、常识推理)上取得突破成为可能。我们还讨论了建模 (例如，有效扩展到视频的能力)、评价(例如，对高阶能力的度量)、应用(例如，医疗保健中的环境智能)与社会考量(例如，监督)中面临的关键挑战，这将决定基础模型如何影响计算机视觉的发展。

§2.3:机器人学机器人学研究的长期目标是开发出能够在多种物理环境中完成多种任务的“通才”机器人。在自然语言处理和计算机视觉中基础模型能够处于领先地位是因为具有充裕的原始数据来训练基础模型以及通过虚拟应用来应用基础模型，机器人学不同于它们，其面临的根本挑战在于与现实世界的绑定。机器人学利用基础模型的主要挑战在于获得有益于学习的形式正确的足够的数据 :我们探索了不局限于的特定环境(例如，一般的人类视频等)以及跨模态(例如，语言、视觉)的大量数据对于填补这一空白的可能帮助。如果基础模型能够在机器人环境中工作良好，将会使得通过机器人代理进行任务说明与学习更加容易、引领新的应用(例如，家务劳动)以及提高鲁棒性与安全性 (例如，正式的安全评估)的重要性。

§2.4:推理与搜索像定理证明、程序综合这样的推理与搜索问题是人工智能领域的长期挑战。组合搜索空间使得传统的基于搜索的方法难以处理。然而，众所周知:人类即使是在最数学化的领域也会凭直觉操作[Lakoff and Núñez 2000]，事实上，目前像AlphaGo这样工作已经表明了深度神经网络可以有效的指引搜索空间。但是，人类也会在任务之间传递知识，从而更容易地适应任务和提高抽象推理的能力。基础模型为缩小机器与人类之间的差距提供了可能性:基础模型的多用途性质以及它们强大的生成与多模态能力为控制搜索空间的组合爆炸提供了新的手段。

§2.5:交互基础模型展现出改变人工智能系统开发者和使用者体验的明显潜力:由于基础模型在适配中的样本效率(sample efficiency)，其降低了人工智能应用原型设计与构建的难度阈值。同时由于基础模型的多模态和生成能力，其提高了新颖用户交互的上限。这提供了一种我们所鼓励的协同作用:开发者可以提供更加符合用户需求与价值取向的应用，同时引入更加动态的交互形式与反馈机会。

§2.6:理解的哲学基础模型可以理解它所训练的数据的哪些方面?聚焦于自然语言处理，我们确定对于理解的本质的不同观点，并探讨了它们与中心问题的相关性。我们的初步结论是，对未来基础模型理解自然语言的能力持怀疑态度可能还为时过早，尤其对于那些在多模态数据上进行训练的模型。

1.4.2 应用概述

目前，基础模型的研究主要局限于计算机科学和人工智能领域，而基础模型的影响和其所支撑的应用主要集中在科技产业。更进一步，基础模型展现出了明显的潜力，其可以在科技产业以外的许多领域改变和拓展人工智能的影响范围，这也意味着对于人类生活的普遍影响。尽管有许多应用和领域需要考虑，我们选择了医疗保健、法律和教育这三个领域，因为它们代表了社会的基本支柱。为了在这些领域做出重大贡献，基础模型需要特定的能力 ( §2 :能力 )以及技术创新( §4 :技术 )来满足每个领域的独特需求。此外，由于这些领域对于社会功能( §5 :社会 )至关重要，因此将基础模型应用到这些领域需要与深入的社会技术问题接洽，例如:数据( §4.6 :数据 )、隐私( §4.7 :安全 )、可解释性( §4.11 :可解释性 )、公平( §5.1 :公平 )、伦理( §5.6 :伦理 )相关的问题。

§3.1:医疗保健与生物医学医疗保健任务(例如，通过疾病治疗对患者进行护理)与生物医学研究(例如，新疗法的科学发现)需要有限且昂贵的专家知识。基础模型为这些领域提供了明显的机会，因为有充裕的跨模态数据(例如，图像，文本，分子)可以用于训练模型，以及基础模型在适配中的样本效率由于昂贵的专家时间和知识开销而更加具有价值。此外，基础模型使得医疗保健提供商、患者与人工智能系统之间的接口设计 ( §2.5 :接口 )的改进成为可能，并且基础模型的生成能力使得其具有解决像药物发现这样开放式研究问题的潜力。同时，基础模型也带来了明显的风险(例如，加剧医药数据集和试验中的历史偏差)。为了可靠的释放基础模型的潜力，需要深入结合数据来源、隐私、模型的解释能力与可解释性等社会技术问题，同时有效监管基础模型在医疗保健和生物医学中的使用。

§3.2:法律法律应用需要律师阅读并产生连贯的长篇叙述，其中包含了不断变化的上下文和对模糊的法律标准的理解。基础模型可能使该领域受益:充足的数据以法律文档的形式存在，并且基础模型的生成能力非常适合法律领域所需要的许多的生成任务，但是为了能够可靠地推理各种来源的信息从而生成真实的长格式文档，基础模型还需要有效的改进。和医疗保健领域(§3.1:医疗保健)一样，考虑到法律领域中专家时间和知识的成本，基础模型适配过程中的样本效率具有更高的价值，这使得专家知识能够再分配给司法和政府服务领域中的紧迫问题。在法律领域负责任地开发基础模型需要对隐私特别考虑，并强调现有基础模型的核心局限性，这些局限性将需要从基础模型行为的来源和其生成结果的事实性的保证两方面取得根本性的进步。

§3.3:教育教育是一个复杂且精妙的领域。有效教学涉及对学生的认知水平的推理，并应指明学生的学习目标。基础模型的性质展现出了尚未在人工智能教育领域实现的前景：尽管教育中的很多数据流因为过于有限而无法单独用于基础模型的训练，但利用领域外的相关数据(例如，互联网)以及利用跨多个模态的数据(例如，教科书、数学公式、图表、基于视频的教程)共同为将基础模型广泛应用于教育任务提供了希望。如果基础模型导致教育相关的能力显著的提高，那么联合了基础模型的开放式生成(例如，问题生成)和交互 (例如，对教师的反馈)方面的新应用就具有明显的潜力。基础模型适配中的样本效率意味着更强大的自适应与个性化学习能力。在这种情况下，需要重新考虑将技术应用到教育中的特点(例如，学生隐私)，同时特定的问题也变得更加重要(例如，获取教育技术中的不平等、技术辅助的抄袭)。

1.4.3 技术概述

现在我们讨论构建更好的模型架构、训练和适配过程以及系统扩展背后的技术。一个关键但经常被忽视的话题是数据—数据从何而来、成分如何?此外，我们希望基础模型面对分布变化时是鲁棒性的、面对攻击时是安全的。最后，我们希望从数学角度和经验角度理解为什么基础模型是有效的。

§4.1:建模什么结构特性产生了基础模型?在建模部分，我们探索了基础模型背后的底层架构，并确定了5个关键属性。首先，我们从计算模型捕获和理解现实世界信息的表达能力，以及熟练处理大量高维数据的可扩展能力开始讨论。这些特性已通过现有架构成功实现，例如支撑了迄今为止大多数基础模型的Transformer网络 [Vaswani et al. 2017]。然后，我们讨论下一代模型所必需的属性，包括:多模态—用以消费、处理和潜在地生产来自不同源、不同领域的内容，记忆容量—用以有效地存储和检索获得的知识，以及最终的组合能力—用以促进对新设置、新环境的成功泛化。我们相信，实现基础模型所预想的全部潜力将取决于满足这些需求的建模能力的进展。

§4.2:训练训练目标在数学上指定模型应该如何从训练数据中学习和获取能力。目前基础模型的训练现状涉及模态相关的目标(例如，用于文本的掩码语言模型[Devlin et al. 2019]和用于图像的SimCLR[Chen et al. 2020a])，这些目标通常是启发式选择的。我们设想基础模型的未来训练目标将反映两个变化:源自系统证据和评价(§4.4:评价)的原则性选择和领域通用性，其中领域通用性旨在提供丰富、可扩展和统一的跨数据源跨模态训练信号。我们还讨论了重要的设计权衡，包括生成与判别训练、输入数据表示的选择以及涉及明确目标表示的未来训练目标的潜力。

§4.3:适配基础模型是中间产物;它们是未完成的且通常不应直接使用，而是需要针对特定的下游任务进行适配。一直以来适配都被实现为微调，而最近研究表明，作为替代方案的轻量级微调和基于提示的方法可以实现良好的准确性-效率平衡。展望未来，我们设想了一个更广阔的适配视角，不仅让基础模型专门执行感兴趣的任务:适配将缓解独立基础模型的缺陷(例如，用以反映现实世界中随时序的变化的时序适配(temporal adaptation)或引入限制(例如，与被遗忘权(right to be forgotten)相关的GDPR合规性;§4.7:安全);这种适配上的更广阔的视角，符合新的评价协议的需求(§4.4:评价):系统地评价适配方法，同时控制适配中的资源(例如，运行时、内存)和访问要求。

§4.4:评价评价通过提供跟踪进度、理解模型以及记录能力和偏差的方法，为基础模型提供了上下文。由于基础模型与特定任务相距甚远，因此对机器学习标准评价范式实现上述目标的能力提出了挑战。为了设想适合基础模型的新评价范式，我们讨论了(a)直接评价基础模型以测量其内在能力并获知基础模型是如何训练的，(b)通过控制适配资源和访问评价限定任务的模型，以及(c)更广泛的评价设计以提供超出准确率(例如，鲁棒性(§4.8:鲁棒性)、公平性(§5.1:公平)、效率(§4.5:系统)、环境影响(§5.3:环境))等指标的更丰富的评价指标。评价实践的改革会让评价充分服务于基础模型范式中涉及的多样目标和参与者。

§4.5:系统训练数据(§4.6:数据)决定了基础模型理论上可用的信息，而模型架构 (§4.1:建模)和训练目标(§4.2:训练)决定了可以提取多少这些信息，计算机系统决定了基础模型实际可以实现的目标。系统是扩展数据和模型大小的关键瓶颈，这两者似乎都与功能的提升密切相关。为了确保我们能够在时间和成本方面有效地训练下一代基础模型，我们将需要算法、模型、软件和硬件的协同设计。这种协同设计已经开始以各种形式出现，例如精心调整的DNN设计和基于检索的模型等新架构。除了训练之外，我们还考虑了哪些是在基础模型之上部署应用所需要的(例如，高效推理)。

§4.6:数据数据是基础模型的命脉;模型的训练数据在很大程度上决定了这些模型可以获得哪些能力。数据的中心性并不是基础模型独有的;最近对以数据为中心的AI [Press 2021;Ré 2021]的呼吁表明，管理、理解和记录用于训练机器学习模型的数据具有普遍的重要性。特别是对于基础模型，当前的模式操作使用未指定或不明确的原则选择训练数据，并且在训练数据的性质方面普遍缺乏透明度。我们认为需要一种替代方法来重新构想围绕基础模型的数据生态系统:我们利用数据可视化和管理方面的工作，为基础模型提出一个数据中心。我们阐明了该提案如何关联基础模型的众多以数据为中心的相关考虑因素，包括:选择、管理、文档、访问、可视化与检查、质量评估以及法律监管。

§4.7:安全和隐私目前，基础模型的安全性和隐私性在很大程度上是未知的。从根本上说，基础模型是一个高影响力单点故障(single point of failure)，因此成为了攻击的主要目标：现有工作已证明了这些模型的各种安全漏洞(例如，产生不良输出的对抗性触发器)或隐私风险(例如，记忆训练数据)。此外，基础模型的普遍性加重了这些担忧，加剧了功能蔓延或双重用途(即用于未预期目的)的风险。对于安全性，我们认为基础模型类似于传统软件系统中的操作系统;我们讨论了实现安全基础模型的步骤，如能实现，它将提供可在其上构建可靠机器学习应用的强大的抽象层。对于隐私，通过在公开数据上利用知识转移，基础模型可以使样本更有效地适配敏感数据分布，例如，使用基础模型构建隐私保护应用，可使其精度下降更少。

§4.8:对分布变化的鲁棒性标准机器学习的一个主要限制是，它产生的模型对训练分布与测试分布不匹配的分布变化不鲁棒。现有工作表明，对在广泛的未标注数据上训练的基础模型进行适配可以提高适配模型在各种变化中的鲁棒性。这开辟了一系列改进基础模型的训练和适配以实现鲁棒性的有前途的新方向。然而，我们不认为基础模型是鲁棒性的灵丹妙药，例如跨时间推断(extrapolation across time)和伪相关的挑战就不太可能被完全解决。

§4.9:人工智能安全与对齐当考虑基础模型潜在的实际应用时，确保模型的可靠性 (§4.5:系统)、鲁棒性(§4.8:鲁棒性)以及可解释性(§4.11:可解释性)变得越来越重要。除了模型本身重要且直观的一些值得关注的注意事项之外，我们还需考虑基础模型与更大范围下的风险和危害之间的关系，且随着模型能力的增强，这些风险与危害出现的可能也更大。例如，我们考虑了对齐(align)基础模型的重要性，以便模型不会以错误的目标或价值观进行部署。我们还讨论了预测基础模型涌现行为的相关性(例如，模型欺骗或战略性规划的能力)，可能会使模型在适配特定任务时的尝试变得复杂，同时可能还需要新的可解释性研究 ( §4.11 :可解释性 ) 或评价方法 ( §4.4 :评价 ) 。

§4.10:理论学习理论为应用机器学习时的各种场景提供了广泛的基础;理论为经验性的发现提供了解释思路、原理和证明。目前，对基础模型的研究主要是经验性的:标准的有监督学习理论虽然相对成熟，但仍不足以充分解释基础模型。具体来说，基础模型体系内训练阶段和阶适配之间的差异体现了现有理论的不足，因为这些阶段(可能)对应完全不同的任务和数据分布。尽管如此，我们努力改进理论来解决上述差异问题，即使是在简单、有限的环境下，也会提供有用的见解。

§4.11:可解释性可解释性可以使基础模型变得透明:基础模型中深度神经网络模型的不透明性，以及基础模型可预见内的广泛应用，都增加了理解这些模型及其能力的需求。目前的可解释性方法通常是为解释特定任务模型的行为而设计的;基础模型的内在本质(即模型对于各类的任务的通用性及其所需的意料之外的涌现属性)为可解释性研究带来了新的挑战。为了讨论基础模型的可解释性，我们提出了单模型-多模型范式，旨在确定单模型(基础模型)及多模型(其适配的衍生模型(adapted derivatives))以何种程度共享决策制定。除了解释相关的决策制定组件之外，我们还进一步讨论了基础模型背景下的可解释性(例如，模型生成的解释的有效性)以及驱动模型行为的机制(可能证明理解基础模型可以扩展到理解它们的衍生模型)。鉴于我们认为可解释性在基础模型研究中的关键作用，我们最后评估了可解释性和不可解释性的社会影响。

1.4.4 社会影响概述

我们相信基础模型的快速发展、迁移并部署到各样的应用，将对社会的健康产生大范围的影响，因为模型的任务不可知性让人既兴奋又不安。当谈及特定的模型系统部署给用户时，社会影响更容易(但仍然重要)理解和推断，但我们在开发基础模型时，如何才能顾及所有的系统和用例对社会可能产生的影响呢?

§5.1:不平等与公平在许多情况下，机器学习被证明可能会加剧社会的不平等。基础模型可能会扩大这一趋势，即进一步加剧对历史上曾受到歧视的群体的不公正待遇。然而，理解不公平与基础模型之间的关系需要思考基础模型的实质;基础模型是根据应用进行调整的可能对用户产生影响的中间结构。因此，我们描述了内在偏置，即基础模型内在产生有害预测结果的属性，以及外在危害，即在使用基础模型构建的特定应用程序的背景下产生的危害。我们对导致这些偏见和危害的各种来源(例如，训练数据、基础模型开发人员多样性的不足、更宏观的社会技术环境等)进行分类，强调了溯源的重要性和技术难度，使我们了解其中的伦理和法律责任。我们并不认为基础模型范式中的不公平是不可避免的:为了解决基础模型产生的不公平结果这一问题，我们同时考虑了主动干预(例如，反事实数据增强等技术方法)和被动追索(例如，反馈传播机制以及道德/法律责任的归属)

§5.2:滥用我们将基础模型的滥用定义为模型虽为技术而生(例如，产生文字或者视频)，但却用于造成社会危害(例如，制造虚假信息、开发用于骚扰的深度伪造)。我们认为基础模型的进步将带来高质量的机器生成的内容，这将使得制造和定制以滥用为目的的内容更容易。例如，伪造信息者可能会使用模型来快速生成针对不同人群(例如，国籍、政党、宗教等)的一系列虚假文章。虽然这些新功能限制了人工检测有害内容的方法(例如，跟踪不同来源的相似文本)，但是基础模型本身具备自动进行滥用检测的潜力。

§5.3 :环境基础模型是计算成本高昂的训练模式下的副产品，现有的发展过程也更倾向于更大规模的模型，这种训练所需的能量会导致更多的碳排放到大气中，以及环境的退化。现阶段的讨论集中在这些巨大的单次训练成本以及通过重复使用来分摊上述成本的可能性。我们试图通过定量演算环境对基础模型的影响来缕清这些讨论。此外，我们设想，打造围绕基础模型的生态系统需要从多方面考虑：( a ) 计算效率更高的模型、硬件和能源网都会减轻这些模型的碳负荷。( b )环境成本需要作为评估基础模型的明确指标 ( §4.4 :评价 ) ，使得基础模型更全面地满足环保要求。( c )针对对环境的影响进行的成本效益分析需要整个社区更好的记录和度量。

§5.4:合法性现阶段基础模型建立在薄弱的法律基础上，很大程度上尚不明确法律将如何对待这些模型的发展和应用。具体来说对于基础模型的法律和监管框架，以及针对更普遍的人工智能技术的法规，都将影响、约束，也一并促进相关的研究、开发和部署的实践。着眼于美国的法律环境，目前美国对于算法工具的看法尚存在很大的不确定性，我们着重强调了模型预测法律责任和模型行为保护的相关问题。关于这两个问题，我们描述了如何考虑基础模型(而不是面向用户特定任务的模型)的尚未发展成熟的状态来完善法律条款。

§5.5:经济基础模型由于其新颖的功能以及在多种行业的潜在应用，可能会对经济产生重大影响。我们考虑了基础模型的开发和使用对美国和全球经济未来的影响，着眼于生产力、工资不平等和所有权集中等方面。

§5.6:伦理除了需要承担§5.1:公平中讨论的可能造成更多不平等的风险外，基础模型的广泛使用还可能造成其他伦理、政治和社会问题。我们讨论与基础模型应用相关的伦理问题，例如同质化、权利集中、以及适合解决这些问题的规范准则和发布策略。

参考文献

查看参考文献请点击“阅读原文”。

本期责任编辑：刘　铭

本期编辑：张　馨

哈尔滨工业大学社会计算与信息检索研究中心

理解语言，认知社会

以中文技术，助民族复兴

登录查看更多