In this paper, we are committed to establishing an unified and end-to-end multi-modal network via exploring the language-guided visual recognition. To approach this target, we first propose a novel multi-modal convolution module called Language-dependent Convolution (LaConv). Its convolution kernels are dynamically generated based on natural language information, which can help extract differentiated visual features for different multi-modal examples. Based on the LaConv module, we further build the first fully language-driven convolution network, termed as LaConvNet, which can unify the visual recognition and multi-modal reasoning in one forward structure. To validate LaConv and LaConvNet, we conduct extensive experiments on four benchmark datasets of two vision-and-language tasks, i.e., visual question answering (VQA) and referring expression comprehension (REC). The experimental results not only shows the performance gains of LaConv compared to the existing multi-modal modules, but also witness the merits of LaConvNet as an unified network, including compact network, high generalization ability and excellent performance, e.g., +4.7% on RefCOCO+.


翻译:在本文中,我们致力于通过探索语言引导视觉识别,建立一个统一和端到端的多模式网络。为了实现这一目标,我们首先提出一个新的多模式演化模块,名为 " 依赖语言的革命(LaConv) " 。它的演化核心是基于自然语言信息动态生成的,它可以帮助为不同的多模式实例提取不同的视觉特征。根据LaConv模块,我们进一步建立了第一个完全由语言驱动的演化网络,称为LaConvNet,它可以将视觉识别和多模式推理统一在一个前方结构中。为了验证LaConv和LaConvNet,我们广泛试验了两种视觉和语言任务的四个基准数据集,即视觉问题回答(VQA)和表达理解(REC)。实验结果不仅显示了LaConv与现有多模式模块相比的绩效收益,而且还见证了LaConvNet作为一个统一网络的优点,包括紧凑网络、高一般化能力和优异性,例如RefCO++4.7%。

0
下载
关闭预览

相关内容

在数学(特别是功能分析)中,卷积是对两个函数(f和g)的数学运算,产生三个函数,表示第一个函数的形状如何被另一个函数修改。 卷积一词既指结果函数,又指计算结果的过程。 它定义为两个函数的乘积在一个函数反转和移位后的积分。 并针对所有shift值评估积分,从而生成卷积函数。
专知会员服务
56+阅读 · 2021年4月12日
专知会员服务
123+阅读 · 2020年9月8日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月26日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
3+阅读 · 2021年10月14日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月26日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员