Video salient object detection (VSOD) is an important task in many vision applications. Reliable VSOD requires to simultaneously exploit the information from both the spatial domain and the temporal domain. Most of the existing algorithms merely utilize simple fusion strategies, such as addition and concatenation, to merge the information from different domains. Despite their simplicity, such fusion strategies may introduce feature redundancy, and also fail to fully exploit the relationship between multi-level features extracted from both spatial and temporal domains. In this paper, we suggest an adaptive local-global refinement framework for VSOD. Different from previous approaches, we propose a local refinement architecture and a global one to refine the simply fused features with different scopes, which can fully explore the local dependence and the global dependence of multi-level features. In addition, to emphasize the effective information and suppress the useless one, an adaptive weighting mechanism is designed based on graph convolutional neural network (GCN). We show that our weighting methodology can further exploit the feature correlations, thus driving the network to learn more discriminative feature representation. Extensive experimental results on public video datasets demonstrate the superiority of our method over the existing ones.


翻译:可靠的 VSOD 要求同时利用空间领域和时间领域的信息。 多数现有的算法只是利用简单的聚合战略,例如添加和连接,将不同领域的信息合并起来。 尽管这些合并战略简单,但这种合并战略可能带来特征冗余,而且未能充分利用从空间和时间领域提取的多层次特征之间的关系。 在本文中,我们建议为VSOD 建立一个适应性地方-全球改进框架。与以往不同的做法不同,我们提议一个地方改进结构和一个全球改进框架,以完善与不同范围相融合的简单组合特征,这可以充分探索多层次特征对当地的依赖和全球依赖性。此外,为了强调有效信息和抑制无用的特征,一个适应性加权机制是建立在图象卷发神经网络(GCN)基础上的。我们表明,我们的加权方法可以进一步利用特征相关性,从而推动网络学习更具有歧视性的特征代表。关于公共视频数据集的广泛实验结果显示我们的方法优于现有方法的优越性。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
13+阅读 · 2020年9月25日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
6+阅读 · 2021年3月11日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关VIP内容
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
13+阅读 · 2020年9月25日
相关资讯
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员