BERT、GPT 等大规模预训练模型(PTM)最近取得了巨大成功,成为人工智能领域的里程碑。由于复杂的预训练目标和庞大的模型参数,大规模 PTM 可以有效地从大量标记和未标记的数据中捕获知识。通过将知识存储到大量的参数中并对特定任务进行微调,大量参数中隐式编码的丰富知识可以使各种下游任务受益,这已通过实验验证和实证分析得到广泛证明。现在人工智能社区的共识是采用 PTM 作为下游任务的支柱,而不是从头开始学习模型。
在本文中,我们深入研究了预训练的历史,尤其是它与迁移学习和自监督学习的特殊关系,以揭示 PTM 在 AI 开发领域中的关键地位。此外,我们全面回顾了 PTM 的最新突破。这些突破是由计算能力的激增和数据可用性的增加推动的,朝着四个重要方向发展:设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,我们讨论了 PTMs 的一系列开放问题和研究方向,希望我们的观点能够启发和推动 PTMs 的未来研究。
https://www.zhuanzhi.ai/paper/ae20bc29350325ac02c0804c693c0cfb