本文约5668字,建议阅读10分钟
本文
介绍
了
Percy Liang、李飞飞等一众学者关于如何才能更好地研究自监督学习+微调的范式(及模型)的观点。
随着BERT、GPT-3、DALL·E等超大模
型的兴起,自监督学习+预训练模型微调适配方案
,逐渐成为主流。这种范式会先在超大规模海量数据上进行自监督的模型预训练,然后适配到广泛的下游任务。
自监督训练使得基础模型(Foundation Models)对显式注释的依赖性下降,也带来了智能体基本认知能力(例如,常识推理)的进步。
但与此同时却也导致了基础模型的「涌现」与「同质化」特性
。所谓
「涌现」
,意味着一个系统的行为是隐性推动的,而不是显式构建的;所谓
「同质化」
,即基础模型的能力是智能的中心与核心,大模型的任何一点改进会迅速覆盖整个社区,其隐患在于大模型的缺陷也会被所有下游模型所继承。
自监督学习+微调的方案,作为一种研究范式,其带来的利弊在当下的人工智能研究中日益凸显。如何才能更好地研究这种范式(以及这些模型)呢?
针对这一问题,Percy Liang,李飞飞等一众学者,根据这些模型的中心地位和不完备性,将其统一命名为
基础模型
(Foundation Models),并建立了基础模型研究中心(CRFM,Center for Research on Foundation Models),以探索基础模型面临的机遇和挑战。
近期,Percy Liang、李飞飞等人将为此举办一场 Workshop of Foundation Models(8月23~24日)。在研讨会之前,100多位学者联名发表了一份 200 多页的研究综述《On the Opportunities and Risk of Foundation Models》。
关于基础模型的核心观点,可关注8 月 23 日到 24 日,HAI和CRFM这两个组织发起的关于基础模型的 workshop,讨论基础模型的机遇、挑战、限制和社会影响。
论坛链接:https://crfm-stanford.github.io/workshop.html
本文为这篇综述的解读文章,按照原文体系结构重新调整和梳理了基础模型的时代问题,旨在帮助领域科研工作者更好的研究、部署以及形成安全可靠的应用提供借鉴和研究参考。限于长度,本文对原文内容有删改。
论文研究路线按照四个部分,分别阐述了基础模型的能力、应用领域、技术层面和社会影响四个方面,层次结构组织如下:
-
能力
:语言、视觉、机器人学、推理、交互、理解等;
-
-
技术
:模型内部角度(建模、训练、适应、评估),模型输入输出角度(数据),模型的系统性分析角度(数据、安全与隐私、稳健性、理论、可解释性)
-
社会影响
:不平等、滥用、环境、法规、经济、伦理道德等。
论文链接:https://arxiv.org/pdf/2108.07258.pdf
基础模型没有一个精确的技术定义,而是很多大型模型的代称,它们唯一的共同特征是「自我监督性」。基础模型在学习过程中会体现出来各个不同方面的能力,这些能力为下游的应用提供了动力和理论基础。本文会讨论这些基础模型的能力,以及这些能力对于下游任务的影响、优势和局限性,并给出未来可能的研究重点方向。
1.1 语言能力
语言是大多数人类交流和互动的基础,是人类思维的核心
。下图是人类语言学习的基础模型示意:
文章从自然语言的属性展开,分析了基础模型在NLP领域所产生的影响,即基础模型在NLP领域表现出了强大的通用性和适用性。文章进一步探讨了语言变体和多语种的问题,并对未来模型的高效理解、学习人类语言学习的动态方法等研究方向做了深入探讨。
1.2 视觉能力
视觉是生物体理解其环境的主要模式之一
,但是将同样的能力转移到机器上非常具有挑战性,下图表示通视觉基础模型视觉知识的提炼。
视觉基础模型具备一种潜力,即提取原始多模态感知信息并转化为视觉知识,可有效支持传统感知任务,并能够在具有挑战性的高阶技能方面取得新进展。
文章概述了计算机视觉领域的关键能力和方法,阐明了计算机视觉领域的几大关键任务,包括:语义理解任务,含有几何、运动等元素的三维任务,多模态集成任务等,基础模型在这些任务中可以起到重要作用。
但文章也同时指出基础模型处于初级阶段,可能会整合和影响视觉模型,如面向医疗保健和家庭环境的环境( ambient )智能领域;移动和消费领域;可互动的智能体中领域等。未来发展大规模动态视觉输入的高效建模,将视觉有效推广到自然场景和人类层面的技术将是前景。
1.3 机器人
机器人研究中的一个长期挑战是赋予机器人处理现实世界环境中遇到的无数不同情况的能力,
基础模型在机器人方面的应用关键挑战在于数据采集,安全性和鲁棒性方面
,如图所示,开发通用机器人的关键是根据任务需求建立模型,基础模型具备可以使解决新任务的学习过程更加高效和可靠。
为了基础模型的顺利部署,一方面, 必须收集足够大小和多样性的机器人数据集,这些需要合适的机器人通过传感器感知环境状态和顺利学习,另一方面还要需要合理机制在确保现实世界中合理安全地部署学习过程。
1.4 推理和搜索
推理和搜索一直是人工智能历史上的一个中心主题
,许多推理问题造成了无限的搜索空间,系统必须处理各种各样的开放式选择。
文章从当前的任务展开,详细阐述了通用模型的优势,即人们可以快速建立最优决策的分布模型,模型可以不同的在任务和领域之间传递和共享,对于学习深层的语义信息帮助极大等。
但是由于高质量数据集的稀缺,对模型的通用性提出了挑战,尤其是对于提高高级推理能力更是难题,此外,模型的适用性,鲁棒性等等也是需要解决的问题。
1.5 交互
随着基础模型开发的成熟,模型的容量将不断扩大,
它们的多功能性最终可能导致我们与 AI 交互的方式发生根本性变化。
基础模型将通过降低难度为开发者带来重大机遇,降低构建 AI 应用的门槛,并提高应用程序的交互上限。基础模型还可以增强用户的能力,促进实际交互形式的多样化,甚至可能模糊开发者和用户之间的界限,允许用户积极参与模型的开发过程,优化交互接口。
1.6 理解的原理
文章从哲学角度出发,以实用主义、内在主义、参照主义为基础,重点讨论自然语言的情况,讨论了语言的理解问题,并得出结论:多模态很可能是基础模型理解语言的最可行战略。
在众多可以应用基础模型的应用领域中,文章将重点关注三个学科——
医疗保健、法律和教育
,它们都是社会功能的基础。针对每个模型,文章讨论了基础模型为该领域带来的可能应用方向以及存在的各种问题。
2.1 医疗保健
上图是医疗保健和生物医学的基础模型,它们的训练数据来自于医疗保健系统中的多模态数据,进而实现跨医疗保健和生物医学的各种任务。
与此同时,
医疗保健和生物医学应用方面提出的独特挑战
,推动了基础模型的进一步研究
,例如在医疗保健和生物医学中整合多模态数据,以及遵守医学中的道德和法律规定(隐私、安全和可解释性等)。
基础模型可以通过医疗服务提供者和医院改善对患者的护理,可以提高医疗服务提供者的效率和准确性,并促进生物医学研究,如发现新药物和疾病。在未来,研究方向将主要集中于多模态和模型的可解释性等方面。
2.2 法律
上图是美国法庭处理民事案件的各个步骤,基础可能会在每个阶段有所辅助。在这个过程中,需要处理不同模式的案件,并需要适应新的法院审理方式或法律条款。
基础模型可以通过提高法律服务质量和降低成本的方式来提高现有司法和法律服务的质量,并扩大法律服务的覆盖范围。但是法律的严谨性对AI模型提出了更高的要求,而且数据标注成本会非常的高。
2.3 教育
基础模型已经开始提高一些具体的教育任务的性能,文中讨论的基础模型放在两个具体的任务上:(1)理解学生的错误观念;(2)通过指导提高学生的理解力。
上图说明教育的基础模型可以在多种数据源上进行培训,以学习教育所必需的能力:理解各种主题和不同的教学技术。这些基础模型可以以一种通用的方式应用于一系列任务和目标。
本章旨在从技术层面讨论如何更好地构建和理解基础模型。按照研究的流程范式,将涉及到的
关键技术问题
分为三个角度。
系统角度
:根据已有的基础模型,做到基础模型的体系拓展、分布式转移,另外站在更高的系统层级,分析模型的安全性,抗恶意攻击能力和鲁棒性,以及模型的可解释问题。
3.1 模型内部层面
1)模型的构建
为提高基础模型对下游应用场景的泛化适应能力,基础模型的架构就显得尤为重要。
模型必不可少的五个属性分别是表达能力、可扩展性、多模态性、记忆容量和组合性。
这五种属性,站在更高的智能从抽象层级上,精炼的概括了模型模拟人类智能的途径,表现力具体指模型网络结构可以灵活地捕获和表示各种信息,多模态指连接各种模式和领域的知识和数据,记忆力指模型可以储存大量积累的知识,组合性代表模型知识可以很好的泛化到新的环境、任务和环境中。
以上诸多研究内容被抽象为五个属性,对模型的研究可以从不同的维度切入,这些领域的进步将极大地蹄冻基础模型的综合表达能力的飞跃。
基础模型的五个关键特性: 表现能力(expressivity)、可扩展性(scalability);、多模态(multimodality);记忆能力(memory storage)、组合性(compositionality)
2)模型训练
模型对海量数据的训练,目标在于拟合真实环境的数据分布
。文章从数学角度详细说明了模型如何从数据中学习和获取能力,并进一步指出,基础模型未来的训练目标将反映两个变化:
3)模型适应性
模型适应性指,根据训练好的基础模型经过微调(fine-tuning)的方法使得基础模型在特定领域和需求情况下,仍能很好的执行功能
。对模型适应性的基础研究,将不仅有利于基础模型的在单一任务的适配度提高,更有助于促进基础模型的评估和约束研究,减少基础模型的缺陷。
在适应性中,基础模型被转换为应用模型(底部一行),以适配特定应用场景的信息理解和行为约束。
4)模型评估
评估是跟踪模型进展、理解模型的重要途径。
同时记录基础模型已经拥有能力和产生的数据偏见,有助于研究者加深基础模型的原理性认识。
基础模型的评估问题,由于其应用任务不能确定,对机器学习中标准评估范式,带来了新的挑战。
为解决上述问题,研究者将基础模型的评估问题与特定任务的评估问题区别开,
通过内在评估、外在评估和评价设计明确步骤,建立了基础模型的全新评估框架
。
3.2 模型的数据层面
数据是基础模型的命脉; 模型的训练数据在很大程度上决定了模型能够获得什么样的能力。数据的中心性并不是基础模型所独有的,以数据为中心的人工智能研究表明,管理、理解和记录用于训练机器学习模型的数据具有普遍的重要性。
3.3 模型的系统性分析
1)系统协同设计
计算机系统决定了基础模型实际上可以达到的性能
。计算机系统是基础模型在数据和模型大小方面扩展的关键瓶颈。为了确保研究者能够在时间和成本方面有效地培训下一代基础模型,需要算法、模型、软件和硬件的共同设计。
2)安全、稳定、鲁棒与隐私问题
基础模型的安全和隐私问题,目前很大程度上是未知的。已有工作表明,现在的基础模型存在安全漏洞和泄露隐私的风险。
用于机器学习系统的基础模型安全性和隐私问题带来的风险和机遇
文章除了讨论基础模型在教育方向可能出现的各种应用外,还讨论了教育方面遇到的一些挑战,包括建立健全的教学技术和教学语言问题,以及其中存在的伦理问题,隐私和安全问题,教师的减少和AI模型与学生之间的适应性问题等。
基础模型所带来的社会影响广泛而深远,基础模型已经开始影响到社会生活中的公平正义、经济、环境、法律、道德等诸多基本问题。
4.1 不平等
本节主要论述了模型在应用领域不同应用对象和场景的平等公正性。这主要包括:
(1)
模型的内在特性产生的偏见现
象
,即训练数据不完备导致模型对部分受众尤其是少数人群产生不利影响;
(2)
外在风险
,即用户因基础模型在不同的应用领域不能泛化到全局导致领域特异性歧视。
基于上述危害产生的机制,需要进行重大改革,并有意识地处理和纠正这些潜在的风险,可采用的方案有:
(1)
主动干预
(例如采用数据为中心或以模型为中心的方案);
(2)
被动追溯,寻因改正
(例如反馈和问责机制)。
4.2 滥用
本节论述了基础模型的滥用现象,即基础模型拥有的生成消息的能力,被有意地利用来对人群或个人造成损害的可能性。
基础模型对人造虚假信息和恶意信息的生成过程,以及实际可能出现的漏检测现象
科学技术是一把双刃剑
。基础生成模型的生成能力可以被用于造假,但也可以用来判别滥用并去除滥用。基础模型的快速学习能力(例如,允许根据人的反馈调整新的防滥用策略),可用于遏制谣言传播,减小损害。
在使用基础模型之前,应评估成本和收益。评估基础模型所需的规模至关重要,在采取尽可能多的降本增效、控碳排放措施之后,仍无法摊销模型成本,则应考虑是否使用基础模型。
模型的总价值可以通过首先考虑模型的净正面社会效益以及所有环境效益,然后减去训练和部署模型的能源成本,减去训练模型所排放的碳社会成本,以及二次环境影响。如果净成本大于收益,那么基础模型开发者和大规模部署者应该考虑减少危害的策略。这将有助于模型优化或部署决策。
4.4 合法性
本节强调了(1)
模型训练
;(2)
模型预测可靠性
;(3)
模型输出的保护
等相关问题。
制定法律,对基础模型至关重要,但法律不是评估基础模型训练、维护和使用的唯一评价尺度,社会伦理与道德约束也是必要途径。
4.5 经济
基础模型在社会经济模式下,带来的影响主要体现在以下方面:
(2)
新技术对社会职业和社会职责分工的冲击,就业与薪资分配不合理
;
基础模型带来的经济效益,大幅提高了社会生产效率,有可能大幅度提高人们的生活水平,但同时也带来了不平等加剧和权力集中的风险。这些技术的经济影响不是预先确定的,而是取决于技术专家、决策者、管理者、工人和其他利益相关者如何应对挑战。
4.6 道德尺度
(1)基础模型的研究人员应该遵循领域规范,个人使用者应当具有数据自主权,同时也有权决定是否参照基础模型输出结果做出决策。
(2)基础模型可能涉及的社会影响包含了社会生活的方方面面,希望未来的研究者能勇于拓荒,探索基础模型等新技术的涌现可能带来的文章中未提及的影响。