赛尔译文 | 基础模型的机遇与风险（三）

2021 年 10 月 26 日 哈工大SCIR

原文：On the Opportunities and Risks of Foundation Models

链接：https://arxiv.org/pdf/2108.07258.pdf

译者：哈工大 SCIR 张伟男，朱庆福，聂润泽，牟虹霖，赵伟翔，高靖龙，孙一恒，王昊淳，车万翔（所有译者同等贡献）

转载须标注出处：哈工大 SCIR

编者按： 近几年，预训练模型受到了学术界及工业界的广泛关注，对预训练语言模型的大量研究和应用也推动了自然语言处理新范式的产生和发展，进而影响到整个人工智能的研究和应用。近期，由斯坦福大学众多学者联合撰写的文章《On the Opportunities and Risks of Foundation Models》，将该模型定义为基础模型（Foundation Models），以明确定义其在人工智能发展过程中的作用和地位。文章介绍了基础模型的特性、能力、技术、应用以及社会影响等方面的内容，以此分析基于基础模型的人工智能研究和应用的发展现状及未来之路。鉴于该文章内容的前沿性、丰富性和权威性，我们（哈工大 SCIR 公众号）将其翻译为中文，希望有助于各位对基础模型感兴趣、并想了解其最新进展和未来发展的读者。因原文篇幅长达 200 余页，译文将采用连载的方式发表于哈工大 SCIR 公众号，敬请关注及提出宝贵的意见！

引言
能力
应用

3.1 医疗保健和生物医学

3.2 法律

3.3 教育
技术
社会
结论

3.应用

基础模型的能力(§2: 能力)表明它们有可能改变各个部门和行业，扩展人工智能在社会中的作用(§5: 社会)。在可能应用基础模型的无数应用中，我们将重点关注三个学科:医疗保健(§3.1: 医疗保健)、法律(§3.2: 法律)和教育(§3.2: 教育)——这些都是社会功能的基础。在每个领域中，我们讨论基础模型为该领域带来的机会以及挑战(例如可解释性;§4.11: 可解释性)和关注点(例如隐私;§4.7: 隐私)。

3.1 医疗保健和生物医学

图12 医疗保健和生物医学的基础模型。我们可视化了一个交互式框架，其中基础模型在采用医疗保健生态系统中各种来源生成的多模态数据进行训练时，可以实现跨医疗保健和生物医学的各种任务。第一列列出了多个数据来源，包括护理服务提供方、付款人、机构(大学、非营利组织和政府)、制药、可穿戴设备和医学出版物/论坛。第二列显示了数据源生成的几种数据模态。它们包括图像(例如，胸部X光片)、视频(例如超声波)、化合物图表、电子健康记录 (EHR) 表格、临床记录等文本、如ECG这样的时间序列，和遗传数据。第三列将基于此类数据训练的基础模型可视化，然后应用于第四列中列出的医疗保健和生物医学下游任务。这个过程可以生成新的数据，进一步改进基础模型，从而形成基础模型和任务之间的双向关系。

例如，医疗保健和生物医学是社会中一个巨大的应用领域，其支出占美国国内生产总值(GDP)的17% [Swensen et al. 2011; van Hartskamp et al. 2019; Keehan et al. 2020]。医疗保健(侧重于通过诊断、治疗和健康管理为患者提供护理)和生物医学研究(侧重于对疾病的科学理解和新疗法的对接)都需要大量费用、时间和全面的医学知识[Yu et al. 2018; Korngiebel and Mooney 2021]。我们设想基础模型可以是医学知识的中央存储，它在医学数据的不同来源/模态上进行训练 [Krumholz et al. 2016; Soltanian-Zadeh 2019; Suresh et al. 2020](图 12 左侧)，并且可以由医学专业人员和公众以交互方式查询/更新(例如，医疗保健服务提供方和生物医学研究人员访问已发表的研究结果并上传新的出版物)[Ionescu et al. 2020]。由于基础模型具有很强的适配能力(例如，微调、提示 [Brown et al. 2020])，它们可以有效地适配医疗保健和生物医学中的各种单独任务(例如，患者使用的问答应用 [Klasnja and Pratt 2012; Zhu et al. 2019;Daniel et al. 2019; Liu et al. 2020a]，研究人员和患者访问的临床试验匹配系统 [Ni et al. 2015;Harrer et al. 2019; Beck et al. 2020];图 12 右侧)。这样，基础模型可以成为一个中央接口，支持医疗保健和生物医学领域的数据、任务和人员之间的各种交互，从而提高医疗保健/生物医学应用 [Elbattah et al. 2021] 的效率和准确性。我们在 §3.1.1: 医疗保健的机遇和 §3.1.2:生物医学的机遇中阐述了这些机遇。

与此同时，医疗保健/生物医学应用提出了独特的挑战，激发了对基础模型的进一步研究，例如在医疗保健/生物医学中整合多模态数据 [Miura et al. 2021; Liu et al. 2021a]，遵守医学伦理和法律法规(隐私、安全和可解释性)) [Guan 2019; Xu et al. 2019]。我们在§3.1.3: 基础模型的挑战与未来研究中阐述了这些挑战。

3.1.1 医疗保健的机遇

基础模型可以改善通过医疗保健服务提供方和医院向患者提供的护理。目前，医疗保健成本每年都在增加 [Keehan et al. 2020]，研究估计，由于行政效率低下和可避免的医疗错误 [Kocher 2021]，30% 的医疗保健支出可能被浪费了。此外，随着对医疗保健需求的增加，社会面临医疗保健服务供给的严重短缺问题 [Kirch and Petelle 2017]。医疗保健领域的这种低效率和资源短缺需要为医疗保健服务提供方和患者开发快速准确的交互接口，例如用于诊断/治疗的自动化辅助系统、患者记录汇总以及患者问题解答 [Davenport and Kalakota 2019; Nie et al. 2018; Wang et al.2021b]。特别是在 COVID-19 等紧急流行病危机中，为患者和公众提供快速诊断/筛查(例如，胸部X光图像的自动分析)以及自动问答(例如，症状检查和护理、疾病预防)对于减少疾病传播和为危重患者分配医疗资源、挽救更多生命至关重要[Lalmuanawma et al. 2020]。由于基础模型具有强大的作为集成知识库的能力，它们可以被查询并适配医疗保健中的各种单独任务。以下是可从基础模型中受益的医疗保健领域的主要任务示例。

医疗保健服务提供方的交互接口基础模型可以提高医疗保健的效率和准确性。医疗保健服务提供方花费不必要的时间编辑电子健康记录 (EHR) [Kocher 2021]，与此同时可避免的医疗错误(例如，医院再入院、手术错误) 会导致医疗保健中的浪费 [Shrank et al. 2019; Shah et al. 2020]。基础模型可以作为EHR(临床记录、实验室数值历史和影像文件)的高效而准确的接口 [Li et al. 2020c; Steinberg et al. 2021;Percha 2021]，帮助医疗保健服务提供方创建患者就诊摘要 [Krishna et al. 2020]，检索相关病例和文献，并对实验检查、诊断、治疗和出院提出建议 [Zhang et al. 2019b; Rasmy et al. 2021]。基础模型还可以用于帮助手术机器人监控并实现准确的手术 [Diana and Marescaux 2015;Agrigoroaie and Tapus 2016; Yu et al. 2019]。有关机器人基础模型的更多讨论，请参见§2.3: 机器人学。

患者的交互接口基础模型可以用作患者的交互接口，提供有关临床预约的相关信息 [Bates 2019]，回答与预防性护理(preventive care)相关的患者问题 [Demner-Fushman et al. 2020]，以及相关的医学解释信息(例如，可以解释条件的文本和图形)[Chaix et al. 2019]，并帮助患者使用辅助护理机器人 [Jeong et al. 2015; Abdiet al. 2018]。有关用户交互的基础模型的更多讨论，请参见 §2.5: 交互。基础模型还可以作为与公众的交互接口，以回答与公共卫生和流行病预防相关的问题(例如 COVID-19 案例)[Bharti et al. 2020; Herriman et al. 2020]。同时，我们注意到接口必须保证事实准确性，以确保公众对医疗建议的信任[Kreps and Kriner 2020](参见§3.1.3: 基础模型的挑战与未来研究)。

3.1.2 生物医学的机遇

基础模型可以促进生物医学研究，例如发现药物和了解疾病，最终转化为改进的医疗保健解决方案 [Hanney et al. 2015]。目前，生物医学探索需要大量的人力资源、实验时间资源和财务成本。例如，药物开发涉及一个复杂的过程，涉及基础药物研究（例如，蛋白质靶标识别、强效分子发现），临床开发(例如，临床试验)，以及最终药物批准，这一流程通常需要10多年时间，耗资超过10亿美元 [Wouters et al. 2020]。使用现有数据和已发表的研究结果加速生物医学探索是生物医学 [Yu et al. 2018] 中的一个紧迫问题。特别是，像COVID-19 这样的新型疾病爆发造成了数百万人丧生和数万亿美元的损失 [Lalmuanawma et al. 2020; McKibbin et al. 2020]：如果我们能够加快针对新疾病的药物开发，那将是非常有帮助的。基础模型在两个方面对生物医学探索特别有帮助。首先，基础模型具有强大的生成能力(例如，GPT-3 中的连贯文本生成)，可以助力生物医学研究中的生成任务，例如生成实验协议(临床试验)和给定现有数据时设计有效分子(药物发现)[Kadurin et al. 2017; Harrer et al. 2019]。其次，基础模型有可能在医学中整合不同的数据模态，从而能够从多个尺度(使用分子、患者和人口级别的数据)和多个知识源(使用成像、文本和化学描述)研究生物医学概念(例如，疾病)。这加速了使用单模态数据难以获得的生物医学探索 [ Lanckriet et al. 2004 ; Aerts et al. 2006 ; Kong et al. 2011 ; Ribeiro et al. 2012 ; Wang et al. 2014 , 2015c ; Ruiz et al. 2020 ; Wu et al. 2021h ] 。基础模型还支持跨模态转移知识。 Lu et al. [ 2021a ] 展示了自然语言(一种数据丰富的模态)上训练的 Transformer 模型如何适用于其他基于序列的任务，例如蛋白质折叠预测，这是生物医学中长期研究的预测任务 [ Jumper et al. 2020 ] 。以下是将受益于基础模型的生物医学中主要任务的示例。

药物发现为了发现治疗疾病的药物或疗法，研究人员必须首先确定一个靶标(例如，与疾病有因果关系的蛋白质、基因、RNA)，然后必须搜索能与靶标结合并治疗疾病的分子(例如，化合物、抗体)。通常，识别合适的靶标并生成相应的分子需要多年昂贵的湿实验室实验(wet lab experiments) [Hughes et al. 2011; Schenone et al. 2013; Schneider 2018]。基础模型的生成性可以改进搜索空间和效率 (参见 §2.4: 推理 )，这不仅减少了实验量，而且有助于发现新的更好的药物 [ Jin et al. 2018 ; You et al. 2018 ; Walters and Barzilay 2020 ; Stokes et al. 2020 ] 。此外，通过单一基础模型同时解决药物发现相关问题(即靶标识别、疗效预测、副作用预测等)可能会改进每个问题的解决方案 [ Ramsundar et al. 2015 ; Camacho et al. 2018 ; Duran-Frigola et al. 2020 ; Huang et al. 2021a ] 。例如，基础模型显示出影响疗法设计(therapeutic design)的巨大潜力的一个领域是使用语言模型对蛋白质进行建模。成功的应用范围包括了从预测可以逃避疫苗诱导的免疫反应的病毒突变，到预测用于更好地设计治疗性抗体的蛋白质接合潜力。 [ Bepler and Berger 2021 ; Hie et al. 2021 ; Tsaban et al. 2021 ; Wu et al. 2021b ; Rives et al. 2021 ] 。

个性化医疗个性化医疗旨在根据患者的健康史、遗传学、影像学和其他个人测量结果为个体患者选择最佳治疗方案[Collins and Varmus 2015; Ashley 2016]。例如，给定一组药物和患者基因组，基础模型可能有助于预测哪种药物最有可能以最小的副作用治疗患者 [Whirl-Carrillo et al. 2012;Tatonetti et al. 2012; Gerstung et al. 2017; Grinfeld et al. 2018; Adam et al. 2020]。基础模型在整合多模态患者数据(从 EHR [ Rajkomar et al. 2018] 到医学成像 [Bera et al. 2019; Ouyang et al. 2020] 到药物和分子测量 [Gottlieb et al. 2011; Ruiz et al. 2020])方面具有独特的强大能力，并能根据这些信息作出最佳预测。

临床试验临床试验研究治疗或候选药物的有效性和安全性。传统的临床试验效率低下且成本高： 80 % 的试验失败是由于无法显示疗效 / 安全性或存在与患者匹配的问题 [ Ali et al. 2020 ; Liu et al. 2021c ] 。基础模型可以在以下方面提供帮助：基于现有研究预测潜在失败并设计有前景的临床试验方案(例如，患者资格标准)；并根据患者个人资料自动匹配符合条件的患者，这些资料是多模态数据，包括 EHR 、基因序列等。 [ Harrer et al. 2019 ] 。

3.1.3 基础模型的挑战和未来研究

虽然基础模型有潜在的机会，但医疗保健/生物医学应用也带来了独特的挑战，激发了对基础模型的进一步研究。

多模态医疗数据是高度多模态的，具有多种数据类型(文本、图像、视频、数据库、分子)、尺度(分子、基因、细胞、组织、患者、人群)[Kong et al. 2011; Ruiz et al. 2020] 和风格(专业和非专业的语言)[Lavertu and Altman 2019; Li et al. 2019a]。当前的自监督模型是针对每种模态开发的(例如，文本 [Lee et al. 2020d]、图像 [Chaitanya et al. 2020]、基因 [Ji et al.2021]、蛋白质 [Jumper et al. 2020])，并且不从不同的模态中联合学习。为了从这些不同的多模态医学数据中学习跨模态和交叉模态信息，我们需要在基础模型的训练中研究特征级和语义级融合策略。如果能有效地解决这一问题，则有可能统一生物医学知识并促进研究发现，如§3.1.2: 生物医学的机遇中所述。

可解释性可解释性，即为决策提供证据和逻辑步骤，在医疗保健和生物医学中至关重要[Holzinger et al. 2019]，并且《通用数据保护条例》(GDPR) 对可解释性提出了强制要求。例如，在诊断和临床试验中，必须将患者症状和时间相关性解释为证据。这有助于解决系统与人类专家之间的潜在分歧。医疗保健中的知情同意也需要可解释性 [Amann et al. 2020]。然而，当前基础模型的训练目标不包括可解释性，需要在这个方向的未来研究 [Linardatos et al. 2021]。与知识图谱的结合可能是进一步提高模型可解释性的一个操作[Roberts et al. 2020; Xu et al. 2020 ; Jin et al. 2021 ] 。读者可以参考 §4.11: 可解释性以了解有关可解释性的更多讨论。

法律和伦理规范医疗保健应用必须遵守法律和伦理规范并提供保障，例如患者安全、隐私和公平。例如，关于安全性，基础模型做出的预测必须在具有既定医学知识的情况下事实准确，并且必须量化不确定性或在不确定时选择听从专家意见 [ Challen et al. 2019 ; Mozannar and Sontag 2020 ] 。对于隐私，患者健康记录的使用必须遵守隐私法，例如美国的 HIPAA [ Act 1996 ] 。联邦学习是在基础模型的训练中使原始敏感数据保持私有的一种潜在解决方案 [ Chamikara et al. 2021 ] 。对于公平性，研究人员需要注意常见的陷阱，否则可能会加剧现有的社会不平等 [ Chen et al. 2019 ; Wiens et al. 2019 ; Chen et al. 2020b ] 。他们必须确保基础模型的训练和评价数据足以代表不同的性别、种族、民族和社会经济背景；这是医学数据集和临床试验长期存在偏见的领域 [ Martinez-Martin et al. 2020 ; Kaushal et al. 2020 ] 。当代表性数据稀缺时，还需要研究去偏差和规范模型以确保公平性 [ Zhao et al. 2020a ] 。基础模型开发人员还需要咨询伦理和法律研究人员，并遵守它们部署的特定情况下(例如，国家、地区)的规定。我们还向读者推荐 §4.7: 隐私、 §4.8: 鲁棒性、 §5.1: 公平性、 §5.4: 合法性以了解有关隐私、鲁棒性、公平性和合法性的详细信息。

外推（Extrapolation）生物医学探索的过程涉及外推。例如，基础模型必须能够快速适配新的实验技术(例如，新检测、新成像技术，如高分辨率显微镜)或新场景(例如，新目标疾病，如 COVID-19)[Jaroch et al. 2018; Benam et al. 2019]。利用现有数据集并外推到新场景的能力是生物医学中机器学习的一个关键挑战 [Snell et al. 2017; Ma et al. 2021b] 。虽然 GPT-3 表现出一些外推行为(例如，生成以前从未见过的新文本)，但其机制尚不清楚并且仍处于起步阶段。需要进一步研究以提高基础模型的外推能力，尤其是在考虑医疗保健和生物医学所固有但在当前GPT-3和相关模型中不常研究的各种数据模态和任务时。另见§4.8: 鲁棒性。

3.2 法律

图13 美国民事案件各个步骤的示例以及基础模型可能有帮助的地方。在每个阶段，可能需要处理不同的模态，并且需要适应新的法院制度或法律要求。

从家庭法庭到刑事司法，从环境政策到公司交易，法律的影响是巨大的。在美国49，有超过 130 万名律师 [American Bar Association 2021]，法律服务的年收入超过 3000 亿美元[MarketLine 2021]。然而对大多数人来说，“获得正义”仍然遥不可及。法律服务的费用高得惊人。例如，在美国有民事法律问题的低收入者中，约有 86% 的人表示没有得到足够的或任何法律帮助 [Legal Services Corporation 2017]。即使指定了律师，律师也可能因为不断增加的案件量而感到紧张。例如，研究表明，公设辩护人往往工作过度，资金不足[Lefstein and Spagenberg 2009; Schumm 2012; American Bar Association 2004]。美国司法部报告说，2007年，73% 的县级公设辩护人办公室，超过了建议的每个律师的最大办案量限制，19 个报告的州级公设辩护人方案中，有 15 个超过了建议的每个律师处理重罪或轻罪案件的最大限制[Farole and Langston 2010; Langston and Farole 2010]。即使在一个人均律师率最高的国家，正义也可能看起来遥不可及。美国总统吉米-卡特曾经指出： “我们的律师人数众多但获得法律权益帮助的人数却很少” [Carter 1978]。根据一个关于司法救助的评论，技术可能提供了一条前进的道路 [Rhode 2014]，这一观点得到了许多其他人的赞同 [Cabral et al. 2012]。

49 由于作者的专业知识，我们的讨论仅限于在美国的法律应用。然而，这里的一些讨论可能适用于全球的法律场所。

基础模型在法律上可以发挥什么作用50？一个主要的愿景是，基础模型可以规整法律服务流程和消除财务障碍来改善获得司法和政府服务的机会。法律应用所带来的挑战反过来也可以激发基础模型的基本研究。许多法律应用对社区解决方案提出了独特的挑战。法律语言是专业化的，法律结论的得出往往依赖于对于以前未见过的的事实适用不明确的法律标准。同时，由于成本高，标记的训练数据很少。根据具体的任务，这些特异性会对传统模型的成功部署构成不可逾越的障碍。相反，它们的灵活性和从少数例子中学习的能力表明，基础模型在解决上述挑战方面具有独特的地位。

50 我们注意到，在本节中，我们认为基础模型是指任何自监督的预训练模型，它被用来快速适应新的环境，几乎没有监督学习。关于扩展的定义，也请参见 §1: 引言和 §2.6: 哲学中的讨论。

在本节中，基础模型可以将许多模态作为训练数据来源:审判程序中的音频，调查过程中的视频和图像，以及进行法律研究的文本。然而，在大多数法律任务中，依靠基础模型将是有收益的，这些任务涉及到基于文本的输入和输出。因此，我们主要关注基于文本领域的任务，而简单地讨论其他领域。为了给讨论提供基础，图 13描述了美国民事诉讼的各个阶段以及基础模型在这个过程中可能发挥作用的地方。图1 4 显示了生成一个法律摘要的部分段落所需的逻辑流程，这可以作为基础模型有朝一日可能被用于的任务的具体例子。

一个重要的考虑因素在继续之前，我们注意到，在§5.6: 伦理、§5.4: 合法性和§5.1: 公平性中扩展的伦理、法律和公平考虑因素，在将基础模型用于应用法律或政府背景之前尤其重要，因为这些应用往往对真实世界产生重大的影响 [Surden 2020]。基础模型在部署前也必须进行彻底的审查，如§4.4: 评价。例如，法律制度特别强调——甚至可能要求——透明度、问责制和可解释性。因此，目前的模态是否能够解决许多最紧迫的法律问题，是一个需要考虑问题。尽管如此，扩大和改善获得法律和政府服务的需要为基础模型提供了一个值得关注的目标。

3.2.1 法律中的机遇

法律应用的范围可以涵盖从机器学习在政府背景下的使用，[Engstrom et al. 2020; Coglianese and Ben Dor 2020; Re and Solow-Niederman 2019] 到协助律师提供法律服务[Zheng et al. 2021;Huang et al. 2021b; Ostendorff et al. 2021; Vold and Conrad 2021]。我们注意到，之前的工作也调查了基于文本领域的机器学习辅助的法律任务[Zhong et al. 2020; Chalkidis et al. 2020]，尽管有人指出，最近有关法律行业的人工智能研究集中在美国以外的区域 [Zheng et al. 2021]。虽然我们在这里讨论的许多主题可能适用于不同的法律体系，但由于我们团队的专业知识，我们主要关注的是美国。特别是，我们专注于三大类可能受益于美国法律体系的基础模型的法律应用:民法(私人之间的索赔，由合同、财产或侵权等引起)，刑法(即对个人犯罪行为的起诉)，以及(非刑事)公法(例如，政府机构对私人行为的监管)。

民法在美国的民事诉讼中，当事人通常必须找到并支付律师来代理。因此，许多人，特别是那些低收入的人，都在为获得合适的法律代表而奋斗[Rhode 2004]。基础模型有可能通过降低成本、提高质量和扩大法律服务的范围来改善诉诸司法的机会。在图1 3中，我们描述了在美国法院提起民事诉讼的过程，以及基础模型在帮助律师和法官方面可能发挥的作用。

甚至在律师参与法律程序之前，客户就可以从基础模型的部署中受益。最近的工作是利用机器学习模型来识别客户提出的事实的纯语言描述中所包含的相关法律问题51。类似这样的工具可以帮助提供解决手头问题所需的法律行动类型的建议，或者推荐一个专门的律师。其他一些类似的努力也试图通过提供适合客户特定需求的信息来增加诉诸司法的机会[Cabral et al. 2012; Brescia et al. 2014; Queudot et al. 2020; Westermann et al. 2019]。

51 https://spot.suffolklitlab.org/

在民事诉讼开始之前，一旦客户与律师交谈，律师可能会寻求方法，以避免审判过程中昂贵的成本。在这个阶段，他们可以依靠基础模型来评估合同，审查服务条款，寻找相关专利，并进行其他的诉前程序，以确保他们的客户处于优势地位 [Betts and Jaep 2017; Elwany et al. 2019; Lippi et al. 2019; Lee and Hsiang 2019; Hendrycks et al. 2021c; Hegel et al. 2021]。值得注意的是，最近的工作都描述了使用基础模型进行合同审查的挑战和好处[Leivaditi et al. 2020; Hegel et al. 2021; Hendrycks et al. 2021c]。除了审查和起草法律文件，客户的互动和文件可以被翻译，以减少成本和提供法律服务的障碍[Cuéllar 2019]。但法律文件的翻译需要精确性和对高度技术性语言的理解，这使得收集训练数据的成本很高。此外，翻译客户陈述或审判程序往往需要了解当地的方言和语言。这也使得收集足够的真实翻译数据来进行训练变得困难。因此，传统的监督学习方法很少能达到法律领域所需的准确性水平[Vieira et al. 2020]。基础模型可以通过在这些低资源背景下的快速适配来提高这一领域的性能。

在诉讼期间，基础模型可以帮助律师进行法律研究，起草法律文案，或评估法官如何评估他们的主张 [Zheng et al. 2021; Huang et al. 2021b; Ostendorff et al. 2021; Vold and Conrad 2021;Chalkidis et al. 2020, 2019]。这有可能降低法律服务的成本并改善法律服务。例如，最近的工作利用预训练的模型，在撰写法律文本时推荐相关的引文和持有声明 [Zheng et al. 2021;Huang et al. 2021b; Ostendorff et al. 2021]。其他工作使用预训练的模型，用于证明法律问题的回答，以加强常用的法律搜索引擎，并帮助律师进行法律研究 [Vold and Conrad 2021]。各种各样的工作也研究了自动化的合同起草和审查，这项任务同样可以从基础模型中受益[Hendrycks et al. 2021c; Betts and Jaep 2017]。也许最引人注目的是，基础模型可以帮助律师生成法律简报(书面论证)。这些模型可能会发现新的论点，或者发现律师撰写的辩护词部分的问题。例如，Tippett et al. [2021] 根据从提交的简报中提取的特征来预测法律诉讼的结果。基础模型可以使用原始语言，而不是提取的特征作为输入。这可能会给律师提供更多的信息建议，即如何改进他们的简报以确保有利的结果。

在提交开场白和答辩状后，各方开始了探索过程，该过程已经使用简单的机器学习模型达十年之久[Grossman and Cormack 2010]。律师使用这些系统来标记是否应该向对方出示文件。这些文件是多模态的，通常包含视频、图像、音频和文本。目前的系统成本很高，因为它们使用监督学习和主动学习来标记文件是否可以作为回复 [Grossman and Cormack 2010; Oard et al. 2018; Yang et al. 2021]。

相反，用基础模型可能实现的少试学习或零试学习文件检索能力将有助于缓解对当前过程中巨大成本的担忧52。为了避免探索过程中出现技巧捷径的可能性，Cui [2018] 提出了一个只有通过使用基础模型才能实现的，零试学习(或少试学习)适配过程。

52 https://www.kirkland.com/publications/article/2020/04/technology-assisted-review-framework

在探索过程之后，一旦审判开始，基础模型可以帮助各方为审判做准备，预测法官在提问时可能关注的内容 [Dickinson 2018]，从法官之前发表的意见中适配当前的环境。在法庭上，基础模型可用于检查法庭程序的音频和视频，以确定结果是否因其种族或方言而对被告有偏见。53

53 例如，在法庭上讲非裔美国人的英语方言已被证明是审判期间偏见的潜在来源。https://www.nytimes.com/2019/01/25/us/black-dialect- courtrooms.html

一旦审判结束，基础模型可以帮助法官和书记员使用类似的技术正确评估双方的法律主张，或者使用基础模型的上下文语义表示来进行法律解释 [Nyarko and Sanga 2020; Choi 2020]。最近的工作(不依赖基础模型或NLP)已经研究了是否可以从一组提取的特征，如引用次数和关键词的应用来预测上诉决定 [Katz et al. 2017; Boniol et al. 2020]。这类模型有可能使用基础模型进行改进，并应用于帮助法官起草决定，通过标记他们意见中的明显错误，正如在裁决机构中讨论的那样[Engstrom et al. 2020; Ray and Lubbers 2014]。它们也可以用来识别法律意见中的种族偏见，并帮助法官相应地修改他们的意见 [Rice et al. 2019]。

刑法一个特别有争议的领域是在政府环境中使用风险分数，特别是在刑法中。有些人可能希望使用基于语言的基础模型来帮助做出指控决定或假释决定，而这些决定是基于对事件的特定文本叙述。在使用基础模型进行风险评分之前，必须仔细考虑，因为有可能出现偏差，特别是当语言数据被包括在内时 [Bender et al. 2021; Berk et al. 2021; Laufer 2020]。但基础模型可能在刑事司法的许多其他方面发挥作用。与上述民事诉讼中的工具相同，检察官和辩护律师也可以使用。这可以帮助指定律师更有效地完成工作，减少不必要的开销。因此，他们可能能够更有效地平衡已经很重的案件量。例如，公设辩护人经常被认为是工作过度和资金不足，这将导致可避免的程序性错误54。基础模型可以通过识别错误和将简单的任务自动化来帮助减少其中一些资源限制。然而，它们本身并不是一个解决方案。

54 例如，在 People v. Superior Court (Vasquez), 27 Cal.App.5th 36 (2018) 中，一名被告在 17 年里没有得到审判，因为公设辩护人办公室的预算严重削减，人员不足。法院裁定，公设辩护人办公室的系统性故障构成了对正当程序的违反，被告的案件被驳回了。

在其他领域，基础模型可以作为一种监督机制，以减少结构上的不公平。预训练的模型已被用于处理假释听证会的记录，以找到异常结果的实例[Bell et al. 2021]。最近的工作还删除了警察报告中关于嫌疑人种族的语言线索，以促进无种族偏见的指控决定，避免有种族偏见的起诉 [Chohlas-Wood et al. 2020]。其他工作有助于识别不尊重的警察通信内容 [Voigt et al. 2017]。在这些情况下，标注数据的成本非常高，因为必须让注释者接触敏感数据，而且通常需要进行适当的背景调查。为了降低这些成本，基础模型可以用来预训练并快速适配标签稀缺的下游任务。

公法政府机构监管着社会的广大部分，基础模型在整个公法领域具有广泛的潜在适用性。这包括:在通知和评论过程中分析公众意见，协助专利审查，根据《信息自由法》的要求检索相关文件，协助大规模裁决，以及其他许多方面。最近的工作调查了这些政府在各种情况下的应用，我们请读者参考相关资料进行深入讨论[Engstrom et al. 2020; Coglianese and Ben Dor 2020]。在许多这样的应用中，基础模型可以提高政府服务的质量、效率、效用和可及性:标签是稀缺的，资源是有限的，背景也是不断变化的。因此，经常需要基础模型的适配性和灵活性来提高效率和性能。仅举一个此类应用的例子，现有的工作是利用NLP来促进公共评论论坛的管理。在这个用例中，预测模型帮助非专业用户改进论点并识别他们评论中的错误陈述。这样的系统已经被部署在美国交通部的规则制定过程中 [Park et al. 2012]，尽管它很可能通过基础模型的语言推理能力得到改进。但是，政府机构必须遵守宪法、法律和行政义务(见§5.4: 合法性)，所以在这些场合需要额外的谨慎。

3.2.2 基础模型如何独特地提供帮助?

上述法律应用的例子在几个方面是独特的。首先，对数据进行标注的成本非常高。通常情况下，创建高质量标签的专业知识只能在律师那里找到，他们可能每小时收费数百美元。即使在获得标签后，某些数据可能是敏感的，不能集中起来训练一个大型语言模型。鉴于最近在少试学习方面的进展 [Brown et al. 2020]，基础模型是在有限的标签下学习模型的最有希望的途径之一。

第二，法律决策需要不同规模的背景:对所有历史决定和标准的了解，对现在仍然相关的案例法的了解，以及对手头个别案件的细微差别的了解。基础模型具有独特的潜力，可以学习历史和法律背景的共同表述，并具有为单个案件建模的语言能力和精度。

3.2.3 什么是基础模型缺少的并且需要更多研究的?

图14 一位作者所写的一份虚构的辩护状的摘录。法学专业学生被指导写辩护状的原型形式包括。(1)介绍论点;(2)以有说服力的方式陈述法律规则;(3)将法律规则应用于案件事实;(4)有说服力地总结论点。这往往需要从以前的案件和当前的案件事实中进行信息检索和转述。

为了说明目前的基础模型需要克服的缺陷，以实现真正的部署，我们考虑以自动创建一个提交给法院的法律简报为例。

在听证会前向法官简要陈述论点。一旦一方提交了开场陈述，另一方就会提交一份回应。然后，法官在听证会上评估辩护状并向双方提问，然后作出决定。图14直观地显示了这种法律辩护状的结构及其一些特征。

一个自动简报生成机制可以把相关文件和案件事实(由律师指定)以及期望结果的粗略草图作为背景。然后，它将生成一份带有复杂法律论据的法律摘要，提交给法院。

长文件和叙述 。为了实现这一目标，该模型必须能够阅读长的文本并产生长的叙述。法律文件往往比任何其他情况下的文件都要长得多。美国最高法院的意见书平均包含4700字左右55，一份提交给最高法院的案情摘要可能多达15000字56，一篇法律评论文章通常包含20000到30000字57，假释记录可能长达数百页[Bell et al. 2021]，而审判记录可能更长。目前的基础模型在处理如此长的上下文和输出时很吃力(更多讨论见§4.1: 建模)。

55 https://www.americanbar.org/groups/public_education/publications/teaching-legal-docs/how-to-read-a-u-s– supreme-court-opinion/

56 https://www.supremecourt.gov/casehand/courtspecchart02162010.aspx

57 https://www.stanfordlawreview.org/submissions/article-submissions/

检索、概念漂移、论点形成和逻辑推理 。除了阅读具体的案例文件，基础模型必须检索相关的案例法，并了解哪些案例法仍然有效，哪些已经被推翻，同时考虑到自它被训练以来潜在的概念漂移。随着案例法的发展，在编辑基础模型中的基础信息方面还需要做更多的工作[De Cao et al. 2021]。使用检索到的法律标准，基础模型必须了解如何将它们编织成一个有说服力的论证。新兴的研究已经研究了使用基础模型来衡量、检测和生成有说服力的文本的方法 [Duerr and Gloor 2021; Li et al. 2020a; Longpre et al. 2019]，这可能为实现这一目标提供基础。

但是，法律简报也要求有能力识别相关的法律规则并确定它如何适用于新的情况。例如，Holzenberger et al. [2020] 提供了一个数据集和方法来评估目前基于税法的模型的这种能力。给定一组税法规则和某人的情况描述，模型必须确定这些规则如何适用于个人，以确定他们的纳税义务58。Holzenberger et al. [2020] 发现领域专家可以将相关税法表达为prolog求解器，以完全准确地确定个人的纳税义务。然而，他们发现，仅仅使用BERT模型，即使在领域内的法律文本上进行预训练，也不足以让模型推导并应用相关规则，这一过程也被称为“法律推理”。

这些挑战可以通过与 GPT-3 的真实交流来进一步说明，表明目前的模型甚至无法执行涉及法律推理的相对简单的任务。

58 例如，一条规则可能是这样的:对于没有结婚也不是未亡配偶的个人，第 (1) 和 (2) 款的适用方法是用 750 美元代替 600 美元。美国《国内税收法》(IRC)第 63(f)(3) 条。

精确性 。基础模型也不能在这个过程中制造假的事实，这是目前模型中出现的问题 [Gretz et al. 2020; Zellers et al. 2019b]。具体性和真实性在法律背景下具有高度的重要性，不精确的陈述可能会产生剧烈的、不确定的后果，而虚假的陈述可能导致对律师的制裁。

少试学习 。除了上述例子中所描述的，基础模型所面临的一些挑战还包括仍处于起步阶段的少试学习 [Perez et al. 2021]。少试学习技术的研究和增加对法律语料库的访问可以同步进行。由于基础模型需要精确，不仅在事实真相方面，如上所述，而且在技术性法律语言方面，目前仍不清楚从一个语料库获得的信息在多大程度上可以用于不同领域的另一个语料库。因此，少试学习仍然很重要。

适配。在未标记的法律语料上进行领域适配性预训练，已经观察到一些收益。当预训练语料库与下游任务高度相关，且标注的训练数据有限(这种情况在法律领域很常见)时，这些收益似乎最为明显[Zheng et al. 2021]。但收益是否会延伸到不同的法律任务中，这一点尚未被全面研究。但利用未标记的特定领域语料库进行基础模型的自监督训练，可能会对少数的方法提供补充性的改进。

高 质量的领域内数据集获取。最近的一些努力试图通过自动化 [Zheng et al. 2021] 或法律专家志愿者的手工标注 [Hendrycks et al. 2021c]，为更具挑战性的法律基准任务创建大型标记数据集。这些努力表明，在更多的数据上进行预训练的大型语言模型在某些具有挑战性的任务上实现了性能提升，而在其他情况下观察到的提升则比较有限 [Chalkidis et al. 2020; Elwany et al. 2019; Zhong et al. 2020]。这项工作表明，更大的法律基准数据集可能是必要的，以观察将迁移学习技术应用于基础模型的进一步收益。然而，从 NLP 的角度来看，为具有法律意义和困难的任务创建基准数据集本身就具有挑战性，因为人类专家的标注可能是昂贵的，而利用传统标记化和句子分割技术的自动化方法可能无法考虑法律文本的独特方面，例如法律引文的结构[Bommarito et al. 2018; Savelka et al. 2017]。由于这些挑战，现有的许多法律领域的带标注的数据集规模都很小，并且不能公开获取，或者仅能反映出一些在基础模型出现前已被解决的、相对简单的任务59。

59 对于律师事务所和法律技术公司来说，那些已经可以实现高性能并且可因此更直接地产品化的任务，可能被认为更值得进行昂贵的人工标注。

许多可用的法律数据也可能是不具代表性的 。由于只有一小部分案件最终形成了法律意见书，目前还不清楚公开的数据中的纠纷是否能代表实践中提交给模型的典型纠纷 [Priest and Klein 1984]。更具代表性的场景的昂贵的训练数据可能集中在最大的律师事务所。这些律师事务所可能有能力保留和积累许多案件和客户的数据。那么，一个令人担忧的问题是，基础模型可能会使权力更加集中在少数有资源在领域内数据上训练模型的行为者身上——除非这些模型能有足够的泛化能力。

可靠性 。最后，我们再次指出，即使基础模型能够成功地执行法律领域的所有任务，部署仍然是一个重大的挑战:基础模型在法律领域的失败会给客户和律师带来真正的、破坏性的后果(参见§5.1: 公平性、§5.4: 合法性和§5.6: 伦理中关于公平、合法和伦理的讨论)。由于这个原因，机器翻译软件在一些法院已经被视为不可靠的证据60，尽管它在其他法院仍然被依赖61。

60 参见 Vieira et al. [2020] 的讨论。

61 例如，Vasquez，美国一案中，编号为 3: 16-cv-2623-D-BN(Dist. Court, ND Texas 2019)，律师依靠谷歌翻译来证明前任律师(母语者)对认罪协议的翻译有误。

鉴于所有这些复杂性，法律简报和推理很可能超出了当前模型的能力，但似乎是在未来的可能性范围内。因此，这些将作为基础模型持续发展的潜在能力。

3.3 教育

图15 教育领域的基础模型可以在多个数据源上进行训练，以学习教育所需的能力:对各种主题的理解和不同的教学技术。这些基础模型可以以通用的方式应用于一系列的任务和目标，如了解学生、协助教师和生成教育内容。

2000年，世界领导人在联合国千年首脑会议上举行了最大规模的聚会，思考未来的理想愿景。代表们得出的结论是，首要重点应该是教育，并宣布它是“人类成就、和平、可持续发展、经济增长、体面工作、性别平等和负责任的全球公民的基础”。这一讨论最终被重新编入联合国可持续发展目标，即“确保人人享有包容性的优质教育并促进终身学习”[United Nations General Assembly 2015]。然而，大规模地提供高质量的教育带来了棘手的社会和经济挑战。每个学生的教育价格增长速度超过了整个经济的增长 [Bowen 2012]，限制了可用于支持学生学习的资源。在美国，一个现状是，学生的私人教育债务已经达到1.6万亿美元，超过了信用卡债务总额 [Friedman 2020]。考虑到支持成人再培训的需求不断增加，教育需求和我们提供教育的能力之间的差距是惊人的。

随着数字时代的到来和数字学习的快速增长，教育的计算方法在提高学习者和教师的效率方面已经显示出前景。人工智能在教育领域的潜在影响应用，已经出现了几个核心方向[Woolf et al. 2013]，比如可以向学生提供有意义的反馈的系统 [Malik et al. 2021]，帮助教师改进[Jensen et al. 2020; Demszky et al. 2021; Suresh et al. 2021]，甚至创造个性化和自适应的学习体验，使学习过程符合个别学生的需求和倾向 [Connor 2019]。

尽管有这样的潜力，计算教育已经被证明是非常困难的。现有的工作集中在对高度具体的任务的定制解决方案上，为此必须从头收集大量的训练数据。由于创建大型数据集的难度和成本，用这种方法来独立解决每个教育任务，从根本上说是有限的。相反，我们需要通用的方法，可以在各种任务和学科中重复使用。换句话说，我们认为计算教育的方法不仅需要在学生之间扩展，而且需要在不同的任务之间扩展。正是在这种情况下，我们认为基础模型将在未来的教育中发挥重要作用。

基础模型已经开始提升教育中一些特定旗舰任务的性能。最近的例子包括使用Math- BERT[Shen et al. 2021b] 来支持“知识追踪”—根据学生过去的反应，追踪他们在一段时间内的理解—以及“反馈挑战”，其中一个算法必须解释学生对结构化的开放式任务的回答，如编码问题 [Wu et al. 2021e]。基础模型能否在这个领域带来更多的变革?基础模型应用于教育的已知和想象中的风险是什么?在本节中，我们的讨论将建立在两个具体的任务之上。(1)了解学生的误区，和 (2)通过教学提高学生的理解能力。然后，我们探讨任何人工智能在教育中的应用的重要伦理考虑，包括那些用基础模型建立的应用。

3.3.1 学生思维的基础模型

一个基础模型要怎样才能对学生的理解进行推理?我们很容易想象出一个经过微调的基础模型能够正确地回答一个数学问题，但是如何建立一个能够根据学生的回答诊断出学生理解上的错误的模型就尚不明确。为了探索这个主题，我们考虑了向正在从事开放式任务的学生提供反馈的案例，比如写一个短文，画一个物理图，或者写代码。这个“反馈挑战”体现了基础模型如何对学习者有现成的帮助，同时也展示了基础模型研究的开放领域。

为了有效地向学生提供反馈，需要两种核心能力。(1)了解任务的学科主题(如物理学或编码)，以及(2)“注意”的诊断能力:这是教育领域的一个技术术语，用于推断学生犯错的原因。对于典型课堂上的典型学生互动，没有足够的数据让人工智能模型从头开始学习这两种核心能力。即使是有数百万学生的大规模课程，普遍的算法也只能勉强理解短小的四行程序背后复杂的学生推理[Malik et al. 2021]。因此，反馈任务本质上需要将从外部数据和经验中理解的内容迁移到该任务上。。

目前存在的基础模型，对上述第一种能力有直接帮助:理解特定的学科主题。例如，当学习为简短的编程问题提供反馈时，像GPT-3这样的基础模型可以通过几个例子有效地理解流畅的代码是什么样的。这个方向的一些研究已经开始探索能够快速适应新学科领域问题的基础模型 [Wu et al. 2021e; Condor et al. 2021]。同样，基础模型也可以整合多种模态的信息，如任务的提示文本、问题中的图表，甚至是提供给助教的评分标准的内容。这种统一的表征能力可以帮助基础模型通过更丰富的信息来源来理解一个主题。作为一个具体的案例研究，许多这些见解被用作一个算法的核心组成部分，该算法能够为斯坦福大学的计算机科学入门期中考试评分，其效果与人类助教相同 [Wu et al. 2021e]。在这种情况下，主题编码是建立在一个基础模型上的，该模型是在 GitHub 代码和每个问题的主题的相应小数据集上调整的。一般来说，我们可以想象利用各种数据来源来调整基础模型以适配不同的主题事项。例如，数学改编可以使用数学网站或教科书 [Shen et al. 2021b] 或 Gradescope 等平台上的历史学生答案; 口语理解可以利用广播档案或播客;而创意写作等领域可以参考Gutenberg计划等大型数字档案库。

与学科主题相比，将基础模型适用于将观察到的错误与学生思维过程中的缺陷进行映射的任务，就没有得到很好的探索。教员能够“注意到”学生犯特定错误背后的原因是反馈挑战的一个关键部分。例如，想象一下，一个学习两位数加法的学生在回答“26+19是多少?”的问题时，回答“315”。花点时间，试着猜测他们为什么会给出这个答案，以及他们有什么错误的观念62。这种注意能力可以作为基础模型的适配性任务提出来(§4.3: 适配)，甚至可能作为推理任务提出来(§2.4: 推理)。

62 这个学生犯了一个常见的错误，就是把个位数和十位数相加的结果连在一起。

虽然困难重重，但训练一个人工智能系统来注意到这一点是可以实现的目标。在整个课堂学习中，以及在一个给定领域的学习任务中，学生是如何得出他们的答案的，存在着可概括的模式。可以直接用于这种适应性任务的标签数据，如 [Wu et al. 2021e] 中教师对学生作业的书面反馈，通常由教师在不同的数据集中私下持有。然而，可公开获取的数据，如 StackOverflow 的互动，也可能被创造性地用于适配基础模型。一些研究还探索了从导师那里提取学生如何犯错的生成性描述的有效方法 [Malik et al. 2021; Gulwani and Singh 2013] —这些手写的生成模型也可以用来生成适应性数据，帮助基础模型诊断学生的错误。

3.3.2 教学的基础模型

对学生的理解进行推理是通过教学来提高他们的理解能力的一个重要步骤。教学的计算方法侧重于不同的任务，如个性化内容[Connor 2019]、问题生成[Guo et al. 2016; Willis et al. 2019; Srivastava and Goodman 2021]、自适应课程设计[Mandel et al. 2014; Doroudi et al. 2017]，以及预测教师的干预[Chandrasekaran and Kan 2019; Alrajhi et al. 2021]。在本小节中，我们讨论基础模型如何在教授学生的行为中发挥作用。

由于有效的教学需要对学生的理解进行推理，前面关于理解主题和“注意”的讨论是非常相关的。然而，提供有效的教学需要一种额外的能力:理解教学法 [McKenzie 2003]。这包括对引导学生的技巧的有效理解，例如提出苏格拉底式的问题或提供类比/对比案例;使用鼓励性或支持性的语言;根据学生的情况调整问题的难度;以及产生与学生的兴趣和背景相关的例子。

如何调整基础模型以了解良好的教学方法?一个想法是考虑使用以教学为主要角色的数据进行调整。例如，像StackOverflow这样的问题回答论坛的数据有可能被用来建立一个可以模拟常见苏格拉底问题的辅导员。同样地，在维基百科等百科全书上改编的基础模型可能会对学生的问题给出(十有八九)符合事实的答案。还有一些公共数据源，如教科书、讲座视频、教案和评分反馈，它们共同包含了重要的教学行为，可以被基础模型所适配(图15)。

基于基础模型的教学的另一个适应性挑战是学会如何像教师一样与学生说话。教师使用的语言往往与普通人使用的语言不同。教师最好接受培训，以尊重的方式与学生交谈，并有意帮助他们对所学的科目形成积极的认同 [Truax 2018]。像微软 2016 年的 Twitter 机器人“Tay”这样值得警惕的例子，这个聊天机器人在部署上线后的24小时内就开始产生仇恨言论，这让我们看到了在教育中明确考虑这一因素的重要性。为了训练一个更多受到课堂上专业教师影响的语言模型，我们也许可以将基础模型改编为数据，如讲座视频或录制的办公时间视频。

由于不同的教育环境在适合的语言种类上有很大的不同，上述的适应问题就更加复杂了：例如，五年级科学课上的教学与大学物理课上的教学会有很大的不同，更不用说大学文学课了。这带来了技术上的挑战，超出了典型的NLP领域迁移设置所面临的挑战(例如，基于新闻文章与Reddit帖子的问题回答)，因为基础模型需要在语气和语言方面具有流畅的适应性，而不仅仅是它所产生的事实性内容。

图16 该图说明了一个将各种模态(图像、语音、手势、文字)和语言的信号嵌入一个通用的特征空间的系统。这样一个特征空间允许思想在不同的模态和语言之间被联系起来。与教学相关的链接类型包括类比(不同语言间的相似性)和对比(不同语言间的不同概念)，这两种类型都可以发生在同一模态或不同模态间。

除了健全的教学技术和教学语言外，基础模型如何能提供更有见地的教学形式?本文的§2.1: 语言强调了一个事实:婴儿可以在很短的时间内学会非常复杂的语言。正如作者所指出的，基础模型训练和学习人类语言之间的一个突出区别是:“人类的语言是以现实世界为基础的:例如，婴儿的看护人在谈论物体的时候会指着它们。”同样的洞察力也可以启发人们对基础模型如何用于生成教育的想法。人类似乎在被预先送入现实世界的类比和对比时学习得很好，这些类比和对比可能是他们当前环境和过去经验之间的交叉点。例如，在教手语时，教师可能会使用一个类比，如“早晨”这个词的手形看起来像太阳升起，或者“你刚才做的手形看起来与另一个词非常相似，所以让我们把注意力集中在不同之处。”另一个例子是，在向已经知道阿拉伯语和英语的学习者教授斯瓦希里语时，教师可以指出斯瓦希里语中的8(发音为 nane)与英语中的9(发音为 nine)在语音上相似。能够整合多模态数据的基础模型有可能进行这类丰富的类比和比较，这在儿童语言学习中很典型(图16)。

3.3.3 教育研究中对中心化基础模型的重要关注

人工智能用于教育的前景令人振奋，尤其是在基础模型方面。然而，我们提醒读者对任何应用于教育的人工智能研究的影响要特别深思熟虑63。教育的目标是有意引导学习者的思想。在我们积极努力改善数字教育的同时，我们必须投入大量的思考，尝试和想象这个领域中任何破坏的复杂性[Piech and Einstein 2020]。伦理方面的挑战包括数据偏见、法律限制和数字社会化的影响等问题。这些问题并不是基础模型所独有的，但随着研究在教育领域的人工智能方面取得实质性进展，它们值得定期反思。当研究的初衷是让基础模型解决教育领域所面临的问题时，我们对人工智能研究产生影响的反思就显得尤为重要。

63 2013 年，Facebook 启动了Free Basics 项目，向全世界提供免费互联网，从而传播机遇和互联互通。现在，联合国人权理事会报告说，在缅甸，Facebook 在没有适当的人为节制的情况下努力贯彻这种愿望，加速了仇恨言论，煽动了分裂，并在罗兴亚人的种族灭绝中煽动了线下暴力。Free Basics 现在成为技术对社会影响的复杂性的一个警告。

§5.6: 伦理中的许多问题都适用于教育。例如，与许多其他领域一样，基础模型训练数据中的小偏差可能难以追踪[Dixon et al. 2018; Bolukbasi et al. 2016]，但对教育机会的公平性有重要影响。此外，这些系统可能会经历高度的“反馈”，即收集的数据不断强化模型的决策。这种偏见的问题超出了收集数据的范围，还包括对研究人员选择的应用的关注。下面，我们将讨论其他针对教育的问题。

隐私和安全。在教育中使用人工智能的一个重要的伦理问题，突出表现在有关学生工作隐私的严格的法律准则。例如，在美国，学生信息受到《家庭教育权利和隐私法》(FERPA)的保护。这些法律和法规对13岁以下的儿童尤为重要，他们的数据隐私和安全受到《儿童在线隐私保护法》的额外保护。除其他事项外，FERPA 限制教师分享可识别个人身份的学生作业。这可能会对分享用于训练和评估基础模型的数据的举措产生重大影响。此外，基础模型的权重是否会在某种程度上泄露它所训练的(可能是私人的)数据，这是一个公开的问题[Nasr et al. 2018; Song et al. 2017]。这些问题及其相应的方法与§3.1: 医疗保健中描述的挑战相似。

更少教师的影响。数字教育的目标之一，特别是基于人工智能的数字教育，是提高学习体验的生产力，以便在单位时间或单位成本内学到更多东西。我们可以想象，决策者可以利用这种生产力的提高，将人类教师从循环中移除。这种决定的长期影响是很难先验的。与一个为最大限度“学习”而优化的教育系统互动，会不会对社会情感技能的发展产生不利影响?它是否会创造出更少的与他人互动的机会?孤独感在年轻一代中呈上升趋势 [ Cigna 2018 ] ，教师可能是一种人工智能研究人员可能没有预见到的压力调节力量。

使用基于基础模型工具的学生。另一个挑战是如何有效地教导那些可以使用基于基础模型的工具的学生。例如，如果学生与一个强大的生成模型一起工作，教师要了解学生的贡献程度，或者规范无效的合作和检测剽窃行为，这将会更加复杂。Visual Studio 最近发布了GitHub CoPilot，一个建立在 GPT-3 基础上的人工智能辅助编程器 [Chen et al. 2021e]。这将如何改变计算机科学教育?初级程序员的许多挑战对于 CoPilot 或其技术继承者来说可能是微不足道的，这可能会破坏新手的学习体验。研究其他技术进步扰乱某些学科教育的例子会很有启发，比如数学课堂上的计算器和语言课程中的谷歌翻译，现在这两者都与传统教学并存。

参考文献

查看参考文献请点击“阅读原文”。

本期责任编辑：冯骁骋

本期编辑：张馨

哈尔滨工业大学社会计算与信息检索研究中心

理解语言，认知社会

以中文技术，助民族复兴

登录查看更多