视觉感知和语言理解是人类智能的基本组成部分,使他们能够理解和推理物体及其相互作用。对于机器来说,使用这两种模式来创造新的机器人-人类协作系统的推理能力是至关重要的。深度学习的最新进展已经建立了视觉场景和语言的独立复杂表示。然而,在共享的上下文中理解两种模态之间的关联以进行多模态推理仍然是一个挑战。本文以语言和视觉模态为重点,推进了对如何利用神经网络开发和使用视觉-语言任务的关键方面来支持推理的理解。这些贡献包括:(i)从动态视觉场景中选择内容和构建时间关系以响应语言查询的有效机制,并为推理过程准备足够的知识(ii)利用视觉-语言关联(直接从数据推导或由外部先验引导)用神经网络进行推理的新框架。 在第一项工作中,本文提出一种新的双过程神经架构,类似于人类视频问答(视频QA)推理系统中的双过程。它由一个快速和反应的问题引导视频处理模块(系统1)和一个缓慢和深思的通用推理模块(系统2)组成。快速系统是一个层次模型,在给定问题的文本线索的情况下,编码关于对象、动作和时空关系的视觉模式。编码的表示是一组高级的视觉特征,然后传递给缓慢的、深思熟虑的系统。多步推理用于根据文本元素的需要迭代地链接视觉元素。该系统在主要的大规模视频QA基准上进行了评估,显示了有竞争力的结果,在多步骤推理的情况下有很大的优势。