视频场景理解涵盖了多个基础且具有挑战性的计算机视觉任务,这些任务相互补充。其中一些任务本质上是基于一系列连续的图像进行推理,而其他任务可以分别在每个帧上处理。在这篇论文中,我们专注于这些任务的一个子集,从全局场景理解的角度开始,使用语义分割,最终关注于更局部的视觉对象跟踪(VOT)和视频对象分割(VOS)。在这个范围内,我们探讨了利用和结合时间线索来提高处理视频时场景理解算法的不同方法。更具体地说,我们首先在第一部分分析了视频中发现的时空相关性如何用来提高单帧语义分割方法的帧率或准确性。首先,我们使用光流作为在帧之间传播语义信息的手段,并构建了一个实时视频语义分割的流程,该流程在GPU和CPU之间平衡计算负载。我们没有设计一个重型的神经网络在GPU上推断所有内容,而是建议将GPU任务集中在从零开始预测分割掩模或完善传播的标签上。与此同时,运行在CPU上的快速光流提供了从一个帧移动到下一个帧的运动矢量。对于可能的光流错误,精细化由一个轻量级模块进行。我们提出了几个操作点,提供了速度和准确性之间的不同权衡,并观察到我们的方法可以在分割准确性略有下降的情况下大大加速。接着,我们提出直接利用时态相关性和外观线索,而无需额外的光流模块。为了实现这一目标,我们在一个记忆模块中汇总来自先前帧的语义信息,该模块可以通过注意机制来使用。我们设计了我们的流水线,首先访问存储在内存中的过去帧的深度特征,并在每个像素周围的局部邻域中匹配它们。这些时空线索随后与当前帧编码融合,以提高最终的分割预测。我们的方法引入了一套简单而通用的模块,这些模块可以将几乎任何现有的单帧方法转换为视频流水线。我们在两个流行的单帧语义分割网络上展示了我们的架构在分割准确性方面的改进。在第二部分,我们将注意力转向在视频中跟踪和分割单个对象的任务,并希望弥合两者之间的鸿沟。我们特别研究它们之间的关系,并展示在VOT背景下使用分割掩模的好处。为此,我们提出了一个以分割为中心的方法,与大多数现有方法相反,该方法在内部使用分割掩模,并无需额外模块就能预测分割掩模。一个受现有跟踪器启发的专用实例定位分支被用来为VOT挑战带来必要的鲁棒性,并调节分割解码器以预测正确的分割掩模。我们展示了与其他跟踪器相比,我们的统一架构在鲁棒性和准确性方面都取得了最先进的结果,同时生成了准确的分割掩模。

成为VIP会员查看完整内容
31

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETHZ博士论文】物理启发式机器学习,185页pdf
专知会员服务
61+阅读 · 2023年10月22日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
32+阅读 · 2023年10月11日
【伯克利博士论文】视觉和机器人的可扩展表示,125页pdf
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
27+阅读 · 2023年8月14日
【MIT博士论文】深度学习几何表示,138页pdf
专知会员服务
68+阅读 · 2022年9月4日
专知会员服务
63+阅读 · 2021年4月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【ETHZ博士论文】物理启发式机器学习,185页pdf
专知会员服务
61+阅读 · 2023年10月22日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
32+阅读 · 2023年10月11日
【伯克利博士论文】视觉和机器人的可扩展表示,125页pdf
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
27+阅读 · 2023年8月14日
【MIT博士论文】深度学习几何表示,138页pdf
专知会员服务
68+阅读 · 2022年9月4日
专知会员服务
63+阅读 · 2021年4月11日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员