现有的视觉和语言学习方法通常需要为每个任务设计特定于任务的架构和目标。例如,用于视觉问答的多标签答案分类器、用于参考表达式理解的区域评分器和用于图像字幕的语言解码器等。为了减轻这些麻烦,在这项工作中,我们提出了一个统一的框架,在同一个语言建模目标的单一体系结构中学习不同的任务,即多模态条件文本生成,我们的模型学习在基于视觉和文本输入的文本中生成标签。在7个流行的视觉和语言基准测试中,包括视觉问答,参考表达理解,视觉常识推理,其中大多数之前被建模为判别性任务,我们的生成方法(具有单一统一的体系结构)达到了与最近特定任务的最先进的视觉和语言模型相当的性能。此外,我们的生成方法显示出更好的泛化能力的问题,有稀有的答案。此外,我们还表明,我们的框架允许在单一体系结构中使用单一参数集进行多任务学习,实现了与单独优化的单任务模型相似的性能。我们的代码在https://github.com/j-min/VL-T5上公开。

https://www.zhuanzhi.ai/paper/445856f3eda78c729919b0f51153c716

成为VIP会员查看完整内容
18

相关内容

在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。
专知会员服务
80+阅读 · 2021年10月15日
港中文等最新《多模态元学习》综述论文
专知会员服务
123+阅读 · 2021年10月8日
专知会员服务
38+阅读 · 2021年6月6日
专知会员服务
31+阅读 · 2021年3月17日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
专知会员服务
29+阅读 · 2020年9月18日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
【论文分享】ACL 2020 多模态相关任务分享
深度学习自然语言处理
6+阅读 · 2020年8月26日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
新任务&数据集:视觉常识推理(VCR)
专知
5+阅读 · 2018年12月1日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
5+阅读 · 2019年4月21日
VIP会员
相关VIP内容
专知会员服务
80+阅读 · 2021年10月15日
港中文等最新《多模态元学习》综述论文
专知会员服务
123+阅读 · 2021年10月8日
专知会员服务
38+阅读 · 2021年6月6日
专知会员服务
31+阅读 · 2021年3月17日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
专知会员服务
29+阅读 · 2020年9月18日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
相关资讯
【论文分享】ACL 2020 多模态相关任务分享
深度学习自然语言处理
6+阅读 · 2020年8月26日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
新任务&数据集:视觉常识推理(VCR)
专知
5+阅读 · 2018年12月1日
微信扫码咨询专知VIP会员