来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入地研究了预训练模型的历史和发展趋势,并在这篇综述论文中从技术的角度理清了预训练的来龙去脉。

BERT 、GPT 等大规模预训练模型(PTM)近年来取得了巨大成功,成为人工智能领域的一个里程碑。由于复杂的预训练目标和巨大的模型参数,大规模 PTM 可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调,巨大参数中隐式编码的丰富知识可以使各种下游任务受益。现在 AI 社区的共识是采用 PTM 作为下游任务的主干,而不是从头开始学习模型。

本文中,来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史,特别是它与迁移学习和自监督学习的特殊关系,揭示了 PTM 在 AI 发展图谱中的重要地位。

论文地址:http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

清华大学教授、悟道项目负责人唐杰表示:这篇 40 多页的预训练模型综述基本上算是从技术上理清了预训练的来龙去脉。

此外,该研究还回顾了 PTM 的最新突破。这些突破得益于算力的激增和数据可用性的增加,目前正在向四个重要方向发展:设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,该研究讨论了关于 PTM 一系列有待解决的问题和研究方向,并且希望他们的观点能够对 PTM 的未来研究起到启发和推动作用。

成为VIP会员查看完整内容
33

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
46+阅读 · 2021年9月27日
专知会员服务
51+阅读 · 2021年9月25日
专知会员服务
66+阅读 · 2021年8月1日
专知会员服务
83+阅读 · 2021年6月20日
专知会员服务
61+阅读 · 2021年5月28日
专知会员服务
122+阅读 · 2020年12月9日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
113+阅读 · 2020年4月23日
NLP领域预训练模型的现状及分析
AI科技评论
5+阅读 · 2019年11月1日
万字长文概述NLP中的深度学习技术
机器之心
5+阅读 · 2019年2月28日
一文看尽2018全年AI技术大突破
量子位
4+阅读 · 2018年12月21日
自然语言处理(NLP)前沿进展报告
人工智能学家
20+阅读 · 2018年9月30日
Fairer LP-based Online Allocation
Arxiv
0+阅读 · 2021年10月27日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
4+阅读 · 2019年8月19日
Arxiv
4+阅读 · 2019年2月18日
VIP会员
相关VIP内容
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
46+阅读 · 2021年9月27日
专知会员服务
51+阅读 · 2021年9月25日
专知会员服务
66+阅读 · 2021年8月1日
专知会员服务
83+阅读 · 2021年6月20日
专知会员服务
61+阅读 · 2021年5月28日
专知会员服务
122+阅读 · 2020年12月9日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
113+阅读 · 2020年4月23日
相关论文
Fairer LP-based Online Allocation
Arxiv
0+阅读 · 2021年10月27日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
4+阅读 · 2019年8月19日
Arxiv
4+阅读 · 2019年2月18日
微信扫码咨询专知VIP会员