Exploring to what humans pay attention in dynamic panoramic scenes is useful for many fundamental applications, including augmented reality (AR) in retail, AR-powered recruitment, and visual language navigation. With this goal in mind, we propose PV-SOD, a new task that aims to segment salient objects from panoramic videos. In contrast to existing fixation-/object-level saliency detection tasks, we focus on audio-induced salient object detection (SOD), where the salient objects are labeled with the guidance of audio-induced eye movements. To support this task, we collect the first large-scale dataset, named ASOD60K, which contains 4K-resolution video frames annotated with a six-level hierarchy, thus distinguishing itself with richness, diversity and quality. Specifically, each sequence is marked with both its super-/sub-class, with objects of each sub-class being further annotated with human eye fixations, bounding boxes, object-/instance-level masks, and associated attributes (e.g., geometrical distortion). These coarse-to-fine annotations enable detailed analysis for PV-SOD modelling, e.g., determining the major challenges for existing SOD models, and predicting scanpaths to study the long-term eye fixation behaviors of humans. We systematically benchmark 11 representative approaches on ASOD60K and derive several interesting findings. We hope this study could serve as a good starting point for advancing SOD research towards panoramic videos. The dataset and benchmark will be made publicly available at https://github.com/PanoAsh/ASOD60K.


翻译:探索人类对动态全景场景的关注对于许多基本应用是有用的,包括零售、AR动力招聘和视觉语言导航中的强化现实(AR),包括零售、AR动力招聘和视觉语言导航中的强化现实(AR)。考虑到这一目标,我们提议PV-SOD,这是一项新任务,目的是从全景视频中分割突出的物体。与现有的固定-/目标级显著探测任务相比,我们侧重于由声频60级显著物体标记为声频导导眼运动指南的音频导60突出物体探测(SOD)。为了支持这项任务,我们收集了第一个名为ASOD60K的大型数据集,其中包括4K分辨率视频框架,带有六级等级的附加说明,从而区别了自身,与丰富性、多样性和质量不同。具体地说,每个序列都有超/子级的标记,而每个子级的物体则带有人类眼睛固定、捆绑框、对象/智能级面具和相关属性(例如,地球测量扭曲)。这些剖析-直径图像图说明从六级视频框开始进行详细分析,从而确定SOD长期数据模型。

0
下载
关闭预览

相关内容

超氧化物歧化酶(Superoxide dismutase,SOD)是生物体系中抗氧化酶系的重要组成成员,广泛分布在微生物、植物和动物体内
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Arxiv
20+阅读 · 2020年6月8日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Arxiv
11+阅读 · 2019年4月15日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
相关论文
Top
微信扫码咨询专知VIP会员