【迪肯大学博士论文】深度神经网络视觉推理，221页pdf - 专知

会员服务 ·

0

【迪肯大学博士论文】深度神经网络视觉推理，221页pdf

2022 年 10 月 3 日 专知

视觉感知和语言理解是人类智能的基本组成部分，使他们能够理解和推理物体及其相互作用。对于机器来说，使用这两种模式来创造新的机器人-人类协作系统的推理能力是至关重要的。深度学习的最新进展已经建立了视觉场景和语言的独立复杂表示。然而，在共享的上下文中理解两种模态之间的关联以进行多模态推理仍然是一个挑战。本文以语言和视觉模态为重点，推进了对如何利用神经网络开发和使用视觉-语言任务的关键方面来支持推理的理解。这些贡献包括:(i)从动态视觉场景中选择内容和构建时间关系以响应语言查询的有效机制，并为推理过程准备足够的知识(ii)利用视觉-语言关联(直接从数据推导或由外部先验引导)用神经网络进行推理的新框架。

在第一项工作中，本文提出一种新的双过程神经架构，类似于人类视频问答(视频QA)推理系统中的双过程。它由一个快速和反应的问题引导视频处理模块(系统1)和一个缓慢和深思的通用推理模块(系统2)组成。快速系统是一个层次模型，在给定问题的文本线索的情况下，编码关于对象、动作和时空关系的视觉模式。编码的表示是一组高级的视觉特征，然后传递给缓慢的、深思熟虑的系统。多步推理用于根据文本元素的需要迭代地链接视觉元素。该系统在主要的大规模视频QA基准上进行了评估，显示了有竞争力的结果，在多步骤推理的情况下有很大的优势。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“V221” 就可以获取《【迪肯大学博士论文】深度神经网络视觉推理，221页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

5

相关内容

视觉推理

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【迪肯大学博士论文】深度神经网络视觉推理

【迪肯大学博士论文】深度神经网络视觉推理

专知会员服务

47+阅读 · 2022年10月3日

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

专知会员服务

43+阅读 · 2022年6月9日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

专知会员服务

78+阅读 · 2021年10月31日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

专知会员服务

43+阅读 · 2020年10月31日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

【哈佛大学博士论文】小数据医学成像中的可泛化和可解释深度学习，199页pdf

【哈佛大学博士论文】小数据医学成像中的可泛化和可解释深度学习，199页pdf

专知

8+阅读 · 2022年11月15日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

专知

6+阅读 · 2022年11月11日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【CMU博士论文】神经序列建模与应用，102页pdf

【CMU博士论文】神经序列建模与应用，102页pdf

专知

3+阅读 · 2022年8月23日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知

1+阅读 · 2022年8月10日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知

6+阅读 · 2022年8月4日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知

2+阅读 · 2021年12月1日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于多信息局部相关模型的视频标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于多视角学习的情感分析理论与方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

情感驱动的人机交互中文本语音情感信息耦合关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于立体视觉深度学习的车辆前方可通行性分析研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于多示例学习的视觉注意建模及应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的视觉注意计算模型及应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于公理模糊集理论的模糊机器学习

国家自然科学基金

4+阅读 · 2008年12月31日

Quantum Multi-Agent Meta Reinforcement Learning

Arxiv

0+阅读 · 2022年11月23日

Efficient Second-Order Plane Adjustment

Arxiv

0+阅读 · 2022年11月21日

Relational Symmetry based Knowledge Graph Contrastive Learning

Arxiv

0+阅读 · 2022年11月19日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

The Book of Why: Review

Arxiv

15+阅读 · 2019年9月30日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

VIP会员

相关主题

深度神经网络

相关VIP内容

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【迪肯大学博士论文】深度神经网络视觉推理

【迪肯大学博士论文】深度神经网络视觉推理

专知会员服务

47+阅读 · 2022年10月3日

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

专知会员服务

43+阅读 · 2022年6月9日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

专知会员服务

78+阅读 · 2021年10月31日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

专知会员服务

43+阅读 · 2020年10月31日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机：用于无人机探测与定位的多输入多输出雷达》最新69页

《生成式人工智能及其在防御性网络安全课程中的应用》

《全谱战争——从拓宽工具到思考不可思考之事》

《FPV武装无人机的战斗飞行艺术与科学》最新报告

相关资讯

【哈佛大学博士论文】小数据医学成像中的可泛化和可解释深度学习，199页pdf

【哈佛大学博士论文】小数据医学成像中的可泛化和可解释深度学习，199页pdf

专知

8+阅读 · 2022年11月15日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

专知

6+阅读 · 2022年11月11日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【CMU博士论文】神经序列建模与应用，102页pdf

【CMU博士论文】神经序列建模与应用，102页pdf

专知

3+阅读 · 2022年8月23日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知

1+阅读 · 2022年8月10日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知

6+阅读 · 2022年8月4日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知

2+阅读 · 2021年12月1日

相关基金

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于多信息局部相关模型的视频标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于多视角学习的情感分析理论与方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

情感驱动的人机交互中文本语音情感信息耦合关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于立体视觉深度学习的车辆前方可通行性分析研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于多示例学习的视觉注意建模及应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的视觉注意计算模型及应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于公理模糊集理论的模糊机器学习

国家自然科学基金

4+阅读 · 2008年12月31日

相关论文

Quantum Multi-Agent Meta Reinforcement Learning

Arxiv

0+阅读 · 2022年11月23日

Efficient Second-Order Plane Adjustment

Arxiv

0+阅读 · 2022年11月21日

Relational Symmetry based Knowledge Graph Contrastive Learning

Arxiv

0+阅读 · 2022年11月19日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

The Book of Why: Review

Arxiv

15+阅读 · 2019年9月30日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

大家都在搜

国防科技创新

大型语言模型

NTU博士论文

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员