基础模型正在迅速从实验室起源转向现实世界的部署和使用。在这篇论文中,我讨论了两个相互关联的研究线,它们致力于弥合这个鸿沟,以便基础模型能够在现实世界的环境中,如工程、医学或科学等领域中,得到有效的应用。第一种研究是使模型更加领域无关:尽管训练基础模型的技术是为语言和视觉领域开发的,但我们证明了简单的技术可以将这些方法推广到至少十二个不同的领域。第二个研究是使模型在任务模糊性的情况下更有用,也就是说用户希望完成的任务可能模糊或未完全明确,这在现实世界环境中往往是常态。在这里,我们展示了如何衡量和提高基础模型在任务模糊性下的性能,并探索了模型本身如何帮助澄清用户意图的过程。我们在讨论未来的方向和更广阔的挑战及机遇前景时结束。
通用机器学习模型已经到来。尽管它们常常不完美、不可靠、不值得信赖或存在偏见,但现在存在的机器学习模型能够通过自然语言或图像示例快速学习一系列新任务。使用这些模型的一般公式有两个步骤。首先,对模型进行大量广泛的数据训练,如从互联网上策略性地抓取的图像或文本,然后将其适应于所需的任务,例如,通过一组输入输出示例的自然语言指令。对于这种范例,已经创造了基础模型这个术语,因为第一阶段的训练产生了一个模型,可以作为这些许多下游用例的集中基础[Bommasani等人,2021]。
支撑这些模型的进步源自于各大研究实验室的广泛进展——太多以至于无法一一列举。一些重要的例子包括构建和策划大规模数据集(例如,C4 [Raffel et al., 2020],ImageNet [Deng et al., 2009a]),为评估模型构建下游任务和基准测试(例如,GLUE [Wang et al., 2018a],SQuAD [Rajpurkar et al., 2016],ImageNet [Deng et al., 2009a]),为专用机器学习加速器开发硬件和软件堆栈(例如,CUDA [Catanzaro et al., 2008, Garland et al., 2008],AlexNet [Krizhevsky, 2009a],TPUs [Jouppi et al., 2017]),训练神经网络的编程抽象(例如,Torch [Collobert et al., 2011],Theano [Team et al., 2016],TensorFlow [Abadi et al., 2016],PyTorch [Paszke et al., 2019],JAX [Frostig et al., 2018]),可扩展的机器学习架构(例如,ResNets [He et al., 2016],Transformers [Vaswani et al., 2017b]),优化器和分布式训练的改进(例如,Adam [Kingma and Ba, 2014],Megatron [Shoeybi et al., 2019]),当然还有大规模无监督预训练和迁移学习(例如,BERT [Devlin et al., 2018],GPT-3 [Brown et al., 2020])。