许多视觉和语言的研究集中在一组小而多样的独立任务和支持的数据集上,这些数据集通常是单独研究的;然而,成功完成这些任务所需的视觉语言理解技能有很大的重叠。在这项工作中,我们通过开发一个大规模的、多任务的训练机制来研究视觉和语言任务之间的关系。我们的方法最终在12个数据集上建立了一个模型,这些数据集来自4大类任务,包括可视化问题回答、基于标题的图像检索、基础引用表达式和多模态验证。与独立训练的单任务模型相比,这意味着从大约30亿个参数减少到2.7亿个参数,同时在各个任务中平均提高性能2.05个百分点。我们使用我们的多任务框架来深入分析联合训练不同任务的效果。此外,我们还展示了从单一的多任务模型中细化特定任务模型可以带来进一步的改进,达到或超过最先进的性能。

成为VIP会员查看完整内容
37

相关内容

CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
CVPR 2020 | 深度视觉推理2.0:组合式目标指代理解
AI科技评论
15+阅读 · 2020年3月20日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
3+阅读 · 2018年3月27日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关VIP内容
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
相关论文
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
3+阅读 · 2018年3月27日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2017年11月21日
微信扫码咨询专知VIP会员