【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

2020 年 10 月 27 日 专知

我们提出了VILLA,这是已知的第一个针对视觉和语言(V+L)表征学习的大规模对抗训练。VILLA由两个训练阶段组成: (一)任务不可知的对抗性预训练; 其次(二)针对具体任务进行对抗性微调。为了避免在图像像素和文本标记上增加对抗性扰动,我们建议在每个模态的嵌入空间中进行对抗性训练。为了实现大规模训练,我们采用了“free”对抗式训练策略,并与基于KL发散的正则化相结合,提高了嵌入空间的高不变性。我们将VILLA应用到目前表现最好的V+L模型中,并在广泛的任务中达到了新的水平,包括视觉问题回答、视觉常识推理、图像-文本检索、参考表达理解、视觉隐含和NLVR2。



https://www.zhuanzhi.ai/paper/9ac766aec437a266e108f8dd71d3ab25


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“LSAT” 可以获取《【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练》论文专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

语言表示一直是人工智能、计算语言学领域的研究热点。从早期的离散表示到最近的分散式表示,语言表示的主要研究内容包括如何针对不同的语言单位,设计表示语言的数据结构以及和语言的转换机制,即如何将语言转换成计算机内部的数据结构(理解)以及由计算机内部表示转换成语言(生成)。
专知会员服务
28+阅读 · 2020年10月24日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
20+阅读 · 2020年10月24日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
自然语言处理ACL2020论文列表
专知
12+阅读 · 2020年6月23日
【ICML2020】小样本目标检测
专知
7+阅读 · 2020年6月2日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
Top
微信扫码咨询专知VIP会员