We present Language-binding Object Graph Network, the first neural reasoning method with dynamic relational structures across both visual and textual domains with applications in visual question answering. Relaxing the common assumption made by current models that the object predicates pre-exist and stay static, passive to the reasoning process, we propose that these dynamic predicates expand across the domain borders to include pair-wise visual-linguistic object binding. In our method, these contextualized object links are actively found within each recurrent reasoning step without relying on external predicative priors. These dynamic structures reflect the conditional dual-domain object dependency given the evolving context of the reasoning through co-attention. Such discovered dynamic graphs facilitate multi-step knowledge combination and refinements that iteratively deduce the compact representation of the final answer. The effectiveness of this model is demonstrated on image question answering demonstrating favorable performance on major VQA datasets. Our method outperforms other methods in sophisticated question-answering tasks wherein multiple object relations are involved. The graph structure effectively assists the progress of training, and therefore the network learns efficiently compared to other reasoning models.


翻译:我们提出具有语言约束力的物体图网,这是第一个具有视觉和文字领域动态关系结构的神经推理方法,在视觉和文字领域都有动态关系结构,在视觉问题解答中也有相应的应用。我们放松了当前模型的共同假设,即物体先存在后保持静态,对推理过程没有影响,我们建议这些动态上游扩展跨域边界,以包括双向视觉语言物体绑定。在我们的方法中,这些背景化物体链接在不依赖外部预言的每个经常性推理步骤中都得到了积极的发现。这些动态结构反映了有条件的双体物体依赖性,因为通过共同注意推理的背景在不断变化。这些发现的动态图有助于多步知识组合和完善,反复推导出最后答案的简明代表。这一模型的有效性表现在图像问题上,在显示主要VQA数据集的优异性表现。我们的方法在涉及多个对象关系的复杂解答任务中超越了其他方法。图形结构有效地协助了培训的进展,因此网络与其他推理模型相比学习效率。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
因果关联学习,Causal Relational Learning
专知会员服务
179+阅读 · 2020年4月21日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
1+阅读 · 2021年4月8日
Arxiv
5+阅读 · 2018年4月30日
Arxiv
6+阅读 · 2018年3月31日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
Top
微信扫码咨询专知VIP会员