【迪肯大学博士论文】深度神经网络视觉推理 - 专知VIP

会员服务 ·

23

深度神经网络 · 视觉推理 · 博士论文 ·

2022 年 10 月 3 日

【迪肯大学博士论文】深度神经网络视觉推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉感知和语言理解是人类智能的基本组成部分，使他们能够理解和推理物体及其相互作用。对于机器来说，使用这两种模式来创造新的机器人-人类协作系统的推理能力是至关重要的。深度学习的最新进展已经建立了视觉场景和语言的独立复杂表示。然而，在共享的上下文中理解两种模态之间的关联以进行多模态推理仍然是一个挑战。本文以语言和视觉模态为重点，推进了对如何利用神经网络开发和使用视觉-语言任务的关键方面来支持推理的理解。这些贡献包括:(i)从动态视觉场景中选择内容和构建时间关系以响应语言查询的有效机制，并为推理过程准备足够的知识(ii)利用视觉-语言关联(直接从数据推导或由外部先验引导)用神经网络进行推理的新框架。在第一项工作中，本文提出一种新的双过程神经架构，类似于人类视频问答(视频QA)推理系统中的双过程。它由一个快速和反应的问题引导视频处理模块(系统1)和一个缓慢和深思的通用推理模块(系统2)组成。快速系统是一个层次模型，在给定问题的文本线索的情况下，编码关于对象、动作和时空关系的视觉模式。编码的表示是一组高级的视觉特征，然后传递给缓慢的、深思熟虑的系统。多步推理用于根据文本元素的需要迭代地链接视觉元素。该系统在主要的大规模视频QA基准上进行了评估，显示了有竞争力的结果，在多步骤推理的情况下有很大的优势。

成为VIP会员查看完整内容

47

相关内容

深度神经网络

深度神经网络

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【迪肯大学博士论文】深度神经网络视觉推理，221页pdf

【迪肯大学博士论文】深度神经网络视觉推理，221页pdf

专知

5+阅读 · 2022年10月3日

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

专知

2+阅读 · 2021年12月27日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知

2+阅读 · 2021年12月1日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

动机与选择性注意的交互作用的认知和神经机制

国家自然科学基金

2+阅读 · 2014年12月31日

基于移动立体视觉的多线索城市道路环境感知预测模型

国家自然科学基金

0+阅读 · 2013年12月31日

视觉系统学习和适应的计算模型

国家自然科学基金

1+阅读 · 2012年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

Online Nash Welfare Maximization Without Predictions

Arxiv

0+阅读 · 2022年11月6日

Automatic classification of deformable shapes

Arxiv

0+阅读 · 2022年11月4日

iGniter: Interference-Aware GPU Resource Provisioning for Predictable DNN Inference in the Cloud

Arxiv

0+阅读 · 2022年11月3日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

VIP会员

相关主题

深度神经网络

相关VIP内容

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

面向作战人员负责任地寻求生成式人工智能

《Hello-Agents》项目正式发布，一起从零学习智能体！

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

相关资讯

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【迪肯大学博士论文】深度神经网络视觉推理，221页pdf

【迪肯大学博士论文】深度神经网络视觉推理，221页pdf

专知

5+阅读 · 2022年10月3日

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

专知

2+阅读 · 2021年12月27日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知

2+阅读 · 2021年12月1日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

相关基金

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

动机与选择性注意的交互作用的认知和神经机制

国家自然科学基金

2+阅读 · 2014年12月31日

基于移动立体视觉的多线索城市道路环境感知预测模型

国家自然科学基金

0+阅读 · 2013年12月31日

视觉系统学习和适应的计算模型

国家自然科学基金

1+阅读 · 2012年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Online Nash Welfare Maximization Without Predictions

Arxiv

0+阅读 · 2022年11月6日

Automatic classification of deformable shapes

Arxiv

0+阅读 · 2022年11月4日

iGniter: Interference-Aware GPU Resource Provisioning for Predictable DNN Inference in the Cloud

Arxiv

0+阅读 · 2022年11月3日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

微信扫码咨询专知VIP会员