Vision-Language (VL) models with the Two-Tower architecture have dominated visual-language representation learning in recent years. Current VL models either use lightweight uni-modal encoders and learn to extract, align and fuse both modalities simultaneously in a deep cross-modal encoder, or feed the last-layer uni-modal representations from the deep pre-trained uni-modal encoders into the top cross-modal encoder. Both approaches potentially restrict vision-language representation learning and limit model performance. In this paper, we propose Bridge-Tower, which introduces multiple bridge layers that build a connection between the top layers of uni-modal encoders and each layer of the cross-modal encoder. This enables effective bottom-up cross-modal alignment and fusion between visual and textual representations of different semantic levels of pre-trained uni-modal encoders in the cross-modal encoder. Pre-trained with only 4M images, Bridge-Tower achieves state-of-the-art performance on various downstream vision-language tasks. In particular, on the VQAv2 test-std set, Bridge-Tower achieves an accuracy of 78.73%, outperforming the previous state-of-the-art model METER by 1.09% with the same pre-training data and almost negligible additional parameters and computational costs. Notably, when further scaling the model, Bridge-Tower achieves an accuracy of 81.15%, surpassing models that are pre-trained on orders-of-magnitude larger datasets. Code and checkpoints are available at \url{https://github.com/microsoft/BridgeTower}.
翻译:视觉- Language (VL) 模式与二进制架构的视觉- 语言模式近年来以视觉- 语言代表学习为主。 当前的 VL 模式要么使用轻型单式单式编码器,同时在深跨式交叉编码器中提取、统一和结合两种模式,要么将深层预训练单式编码器的视觉- 单式编码器最后的单一模式表述器输入到顶级跨模式编码器中。 两种方法都有可能限制视觉- 语言代表学习并限制模型性能。 在本文中, 我们建议大桥- 平台引入多个桥梁层, 在单式编码器的顶层和跨式编码编码器的每一个层之间建立连接。 这样可以有效地在下端- 跨式交叉编码编码器的高级单式编码器前的视觉- 单式编码(VLVLLL) 将视觉- 格式前的视觉- 单式编码转换为4M 的预培训工具, 大桥- 和高型计算机在各种下层的直流- 直径- 双轨- 级双轨- 级智能- 级智能- 定义- 定义- 测试- 测试- 之前- 之前- 数据- 之前- 版本- 完成前- 一级- 一级- 一级- 版本- 版本- 版本- 版本- 运行- 数据- 高级- 高级- 高级- 高级- 和前- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本- 版本-