预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。

VIP内容

来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入地研究了预训练模型的历史和发展趋势,并在这篇综述论文中从技术的角度理清了预训练的来龙去脉。

BERT 、GPT 等大规模预训练模型(PTM)近年来取得了巨大成功,成为人工智能领域的一个里程碑。由于复杂的预训练目标和巨大的模型参数,大规模 PTM 可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调,巨大参数中隐式编码的丰富知识可以使各种下游任务受益。现在 AI 社区的共识是采用 PTM 作为下游任务的主干,而不是从头开始学习模型。

本文中,来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史,特别是它与迁移学习和自监督学习的特殊关系,揭示了 PTM 在 AI 发展图谱中的重要地位。

论文地址:http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

清华大学教授、悟道项目负责人唐杰表示:这篇 40 多页的预训练模型综述基本上算是从技术上理清了预训练的来龙去脉。

此外,该研究还回顾了 PTM 的最新突破。这些突破得益于算力的激增和数据可用性的增加,目前正在向四个重要方向发展:设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,该研究讨论了关于 PTM 一系列有待解决的问题和研究方向,并且希望他们的观点能够对 PTM 的未来研究起到启发和推动作用。

成为VIP会员查看完整内容
0
21
Top