Vision-Language (VL) models with the Two-Tower architecture have dominated visual-language representation learning in recent years. Current VL models either use lightweight uni-modal encoders and learn to extract, align and fuse both modalities simultaneously in a deep cross-modal encoder, or feed the last-layer uni-modal representations from the deep pre-trained uni-modal encoders into the top cross-modal encoder. Both approaches potentially restrict vision-language representation learning and limit model performance. In this paper, we propose Bridge-Tower, which introduces multiple bridge layers that build a connection between the top layers of uni-modal encoders and each layer of the cross-modal encoder. This enables effective bottom-up cross-modal alignment and fusion between visual and textual representations of different semantic levels of pre-trained uni-modal encoders in the cross-modal encoder. Pre-trained with only 4M images, Bridge-Tower achieves state-of-the-art performance on various downstream vision-language tasks. In particular, on the VQAv2 test-std set, Bridge-Tower achieves an accuracy of 78.73%, outperforming the previous state-of-the-art model METER by 1.09% with the same pre-training data and almost negligible additional parameters and computational costs. Notably, when further scaling the model, Bridge-Tower achieves an accuracy of 81.15%, surpassing models that are pre-trained on orders-of-magnitude larger datasets. Code and checkpoints are available at \url{https://github.com/microsoft/BridgeTower}.


翻译:视觉- Language (VL) 模式与二进制架构的视觉- 语言模式近年来以视觉- 语言代表学习为主。 当前的 VL 模式要么使用轻型单式单式编码器,同时在深跨式交叉编码器中提取、统一和结合两种模式,要么将深层预训练单式编码器的视觉- 单式编码器最后的单一模式表述器输入到顶级跨模式编码器中。 两种方法都有可能限制视觉- 语言代表学习并限制模型性能。 在本文中, 我们建议大桥- 平台引入多个桥梁层, 在单式编码器的顶层和跨式编码编码器的每一个层之间建立连接。 这样可以有效地在下端- 跨式交叉编码编码器的高级单式编码器前的视觉- 单式编码(VLVLLL) 将视觉- 格式前的视觉- 单式编码转换为4M 的预培训工具, 大桥- 和高型计算机在各种下层的直流- 直径- 双轨- 级双轨- 级智能- 级智能- 定义- 定义- 测试- 测试- 之前- 之前- 数据- 之前- 版本- 完成前- 一级- 一级- 一级- 版本- 版本- 版本- 版本- 运行- 数据- 高级- 高级- 高级- 高级- 和前- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本-

0
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
13+阅读 · 2020年4月12日
VIP会员
相关资讯
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员