Vision-Language Pre-training (VLP) aims to learn multi-modal representations from image-text pairs and serves for downstream vision-language tasks in a fine-tuning fashion. The dominant VLP models adopt a CNN-Transformer architecture, which embeds images with a CNN, and then aligns images and text with a Transformer. Visual relationship between visual contents plays an important role in image understanding and is the basic for inter-modal alignment learning. However, CNNs have limitations in visual relation learning due to local receptive field's weakness in modeling long-range dependencies. Thus the two objectives of learning visual relation and inter-modal alignment are encapsulated in the same Transformer network. Such design might restrict the inter-modal alignment learning in the Transformer by ignoring the specialized characteristic of each objective. To tackle this, we propose a fully Transformer visual embedding for VLP to better learn visual relation and further promote inter-modal alignment. Specifically, we propose a metric named Inter-Modality Flow (IMF) to measure the interaction between vision and language modalities (i.e., inter-modality). We also design a novel masking optimization mechanism named Masked Feature Regression (MFR) in Transformer to further promote the inter-modality learning. To the best of our knowledge, this is the first study to explore the benefit of Transformer for visual feature learning in VLP. We verify our method on a wide range of vision-language tasks, including Visual Question Answering (VQA), Visual Entailment and Visual Reasoning. Our approach not only outperforms the state-of-the-art VLP performance, but also shows benefits on the IMF metric.


翻译:视觉-语言培训前(VLP)旨在从图像-文字配对中学习多式表达方式,并以微调的方式为下游视觉-语言任务服务。 占主导地位的VLP模式采用CNN- Transfer 结构,该结构将图像嵌入CNN- Transfer,然后将图像和文字与变异器相匹配。 视觉内容之间的视觉关系在图像理解中起着重要作用,是跨模式调整学习的基础。 然而,CNN在视觉关系学习方面受到限制,因为当地接受的字段在模拟远程依赖性方面的弱点。 因此,学习视觉关系和跨模式的视觉调整的两个目标被包含在同一变异器网络中。 这样的设计可能会通过忽略每个目标的专门性能限制变异器的跨模式调整学习。 为了解决这个问题,我们提议为VLP提供完全变异的视觉嵌入,以更好地学习视觉关系和进一步促进模式的调和调和。 我们提议在视觉-语言模式上的变异平台流(IMF- Redal-deal-deal-al-deal-legal-al-al-legal-deal-al-al-al-al-le-le-le-le-le-legalisleval-le-le-al-legalislational-lemental-le-le) laislational-al-al-al-al-al-al-al-al-al-al-al-al-al-al-legalismal-al-al-al-al-alislation-al-al-al-al-al-al-al-al-legal-al-al-al-al-al-al-al-al-al-al-al-al-I-I) Procal-al-al-al-al-al-al-I-I-I-I-I-I-I-I-I-I-I-I-Ial-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-I-

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Top
微信扫码咨询专知VIP会员