【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

2020 年 7 月 26 日 专知

尽管近年来计算机视觉技术已经取得了长足的进步,但是对于复杂视觉场景 的感知和理解,目前的计算机模型表现还远远没有达到大规模普及和落地应用的 水平。为了充分地利用日常生活中海量的视觉媒体数据,复杂视觉场景的感知和理 解已经逐渐成为计算机视觉领域的一个研究热点。 


本文将针对四个不同层次的视觉场景理解(物体级别识别、场景级别识别、场 景级别理解和场景级别推理),逐步地对复杂视觉场景中视觉内容的识别、检测和 推理进行研究。本文的关键技术线路主要聚焦于零样本物体分类、图像场景图生 成、图像描述生成、视频片段检索和视觉问答等具体视觉场景理解任务。在此研究 技术路线下,本文主要的研究内容和贡献如下: 


1)针对零样本物体分类模型中普遍存在的语义丢失问题,本文提出一种全新 的零样本学习网络。该网络首次引入两个相互独立的映射网络分支,将图像分类和 图像重建两个原本相互冲突的任务分离出来。同时借助对抗学习,实现重建网络分 支和分类网络分支之间的属性迁移。


2)针对图像场景图生成模型中优化目标通常忽略不同物体的重要性差异的问 题,本文提出一种全新的训练框架,首次将图像场景图生成任务转化成一个多智能 体协同决策问题,从而可以直接将整个图像场景图质量作为模型的优化目标。同 时,本文还提出了一个反事实基准模型,可以有效地计算出每个物体类别预测对整 体场景图生成质量的局部贡献。


3)参考现有的空间注意力机制,本文首次提出通道注意力机制。同时,通过 充分挖掘卷积神经网络的特征图的三个不同维度(空间、通道和层级)之间的联系, 提出一种全新的空间和通道注意力网络。在图像描述生成任务中,该网络不仅极大 地提升了描述语句的生成质量,同时帮助人们理解在语句生成过程中特征图的变 化过程。 


4)针对目前视频片段检索任务中两种主流框架(自顶向下和稀疏型自底向上) 的设计缺陷,本文提出了一种全新的密集型自底向上的框架。通过将动作边界定位问题分解成相关性预测和边界回归两个子问题,显著地降低了动作边界定位的难 度。同时,本文提出一个基于图卷积的特征金字塔层,来进一步增强骨干网络编码 能力。 


5)针对目前视觉问答模型忽略的两个重要特性(视觉可解释性和问题敏感性), 本文提出了一种通用的反事实样本生成机制。通过遮盖图像中的重要区域或问题 中的重要单词,同时更改标准答案,来合成全新的反事实训练样本。通过使用原始 训练样本和反事实训练样本一起对模型进行训练,迫使视觉问答模型关注被遮盖 的重要内容,提升模型的视觉可解释性和问题敏感性。


地址:

https://zjuchenlong.github.io/


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CVSU” 可以获取《面向复杂场景理解的视觉内容识别、检测与推理方法研究》专知下载链接索引

专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
25

相关内容

深度学习目标检测方法综述
专知会员服务
261+阅读 · 2020年8月1日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
专知会员服务
73+阅读 · 2020年5月21日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
34+阅读 · 2020年1月10日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
论文解读|知识图谱最新研究综述
AINLP
17+阅读 · 2020年5月4日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
5+阅读 · 2018年7月30日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
6+阅读 · 2018年5月6日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关VIP内容
深度学习目标检测方法综述
专知会员服务
261+阅读 · 2020年8月1日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
专知会员服务
73+阅读 · 2020年5月21日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
34+阅读 · 2020年1月10日
相关资讯
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
论文解读|知识图谱最新研究综述
AINLP
17+阅读 · 2020年5月4日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
5+阅读 · 2018年7月30日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
6+阅读 · 2018年5月6日
Top
微信扫码咨询专知VIP会员