本文研究了任务自适应预训练模型的选择问题,这是一个有待探讨的问题,即如何评估预训练模型,以便在不进行微调的情况下从模型族中选择适合任务的模型。一项试点工作(Nguyen等人,2020年)解决了将有监督的预训练模型转移到分类任务中的问题,但它不能处理新兴的无监督的预训练模型或回归任务。

为了寻求一种实用的评估方法,我们提出了估计标签的最大证据(边缘似然),在给定预先训练模型提取的特征。与似然值相比,最大证据值不容易出现过拟合,而且通过我们精心设计的算法可以大大减少昂贵的计算量。最大证据对数(LogME)可以用来评估迁移学习的预训练模型:LogME高的预训练模型可能具有良好的迁移性能。LogME具有快速、准确、通用的特点,是第一个实用的迁移学习评估方法。相对于蛮力微调,LogME在时间上带来了超过3000倍的加速。它在设置上比以前的方法有很大的优势,并且适用于以前的方法不能处理的新设置。它对于不同的预训练模型(有监督的预训练和无监督的预训练)、下游任务(分类和回归)和模式(视觉和语言)来说是足够普遍的。

成为VIP会员查看完整内容
2

相关内容

专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
32+阅读 · 2021年5月18日
专知会员服务
81+阅读 · 2021年5月10日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
单语言表征如何迁移到多语言去?
AI科技评论
5+阅读 · 2019年11月21日
预训练模型迁移学习
极市平台
11+阅读 · 2018年11月6日
【泡泡图灵智库】基于点线的直接单目视觉里程计(ICRA)
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
Arxiv
0+阅读 · 2021年7月4日
Arxiv
11+阅读 · 2018年1月15日
VIP会员
相关VIP内容
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
32+阅读 · 2021年5月18日
专知会员服务
81+阅读 · 2021年5月10日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
相关资讯
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
单语言表征如何迁移到多语言去?
AI科技评论
5+阅读 · 2019年11月21日
预训练模型迁移学习
极市平台
11+阅读 · 2018年11月6日
【泡泡图灵智库】基于点线的直接单目视觉里程计(ICRA)
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
微信扫码咨询专知VIP会员