【ICML2021】通过文本生成统一视觉和语言任务 - 专知VIP

会员服务 ·

3

文本生成 · 视觉与语言推理 · ICML 2021 ·

2021 年 9 月 13 日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

现有的视觉和语言学习方法通常需要为每个任务设计特定于任务的架构和目标。例如，用于视觉问答的多标签答案分类器、用于参考表达式理解的区域评分器和用于图像字幕的语言解码器等。为了减轻这些麻烦，在这项工作中，我们提出了一个统一的框架，在同一个语言建模目标的单一体系结构中学习不同的任务，即多模态条件文本生成，我们的模型学习在基于视觉和文本输入的文本中生成标签。在7个流行的视觉和语言基准测试中，包括视觉问答，参考表达理解，视觉常识推理，其中大多数之前被建模为判别性任务，我们的生成方法(具有单一统一的体系结构)达到了与最近特定任务的最先进的视觉和语言模型相当的性能。此外，我们的生成方法显示出更好的泛化能力的问题，有稀有的答案。此外，我们还表明，我们的框架允许在单一体系结构中使用单一参数集进行多任务学习，实现了与单独优化的单任务模型相似的性能。我们的代码在https://github.com/j-min/VL-T5上公开。

https://www.zhuanzhi.ai/paper/445856f3eda78c729919b0f51153c716

成为VIP会员查看完整内容

19

相关内容

文本生成

在自然语言处理中，另外一个重要的应用领域，就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

港中文等最新《多模态元学习》综述论文

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

5+阅读 · 2018年12月1日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Cold-start Sequential Recommendation via Meta Learner

Cold-start Sequential Recommendation via Meta Learner

Arxiv

15+阅读 · 2020年12月10日

Query Understanding via Intent Description Generation

Arxiv

9+阅读 · 2020年8月25日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

Arxiv

6+阅读 · 2018年4月7日

VIP会员

相关主题

视觉与语言推理

相关VIP内容

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

港中文等最新《多模态元学习》综述论文

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

因果强化学习的统一框架：综述、分类体系、算法与应用

《无人机系统 - 反无人机系统：测试方法》364页

【MIT博士论文】语言模型的推理时学习算法

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

相关资讯

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

5+阅读 · 2018年12月1日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

相关论文

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Cold-start Sequential Recommendation via Meta Learner

Cold-start Sequential Recommendation via Meta Learner

Arxiv

15+阅读 · 2020年12月10日

Query Understanding via Intent Description Generation

Arxiv

9+阅读 · 2020年8月25日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

Arxiv

6+阅读 · 2018年4月7日

微信扫码咨询专知VIP会员