视觉感知和语言理解是人类智能的基本组成部分,使他们能够理解和推理物体及其相互作用。对于机器来说,使用这两种模式来创造新的机器人-人类协作系统的推理能力是至关重要的。深度学习的最新进展已经建立了视觉场景和语言的独立复杂表示。然而,在共享的上下文中理解两种模态之间的关联以进行多模态推理仍然是一个挑战。本文以语言和视觉模态为重点,推进了对如何利用神经网络开发和使用视觉-语言任务的关键方面来支持推理的理解。这些贡献包括:(i)从动态视觉场景中选择内容和构建时间关系以响应语言查询的有效机制,并为推理过程准备足够的知识(ii)利用视觉-语言关联(直接从数据推导或由外部先验引导)用神经网络进行推理的新框架。 在第一项工作中,本文提出一种新的双过程神经架构,类似于人类视频问答(视频QA)推理系统中的双过程。它由一个快速和反应的问题引导视频处理模块(系统1)和一个缓慢和深思的通用推理模块(系统2)组成。快速系统是一个层次模型,在给定问题的文本线索的情况下,编码关于对象、动作和时空关系的视觉模式。编码的表示是一组高级的视觉特征,然后传递给缓慢的、深思熟虑的系统。多步推理用于根据文本元素的需要迭代地链接视觉元素。该系统在主要的大规模视频QA基准上进行了评估,显示了有竞争力的结果,在多步骤推理的情况下有很大的优势。

成为VIP会员查看完整内容
46

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
【NUS博士论文】学习视觉场景的结构化表示,137页pdf
专知会员服务
38+阅读 · 2022年7月15日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
63+阅读 · 2021年12月1日
专知会员服务
66+阅读 · 2021年10月15日
专知会员服务
72+阅读 · 2021年7月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月6日
Arxiv
0+阅读 · 2022年11月6日
Arxiv
0+阅读 · 2022年11月4日
Arxiv
15+阅读 · 2020年2月5日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员