Temporally consistent depth estimation is crucial for real-time applications such as augmented reality. While stereo depth estimation has received substantial attention that led to improvements on a frame-by-frame basis, there is relatively little work focused on maintaining temporal consistency across frames. Indeed, based on our analysis, current stereo depth estimation techniques still suffer from poor temporal consistency. Stabilizing depth temporally in dynamic scenes is challenging due to concurrent object and camera motion. In an online setting, this process is further aggravated because only past frames are available. In this paper, we present a technique to produce temporally consistent depth estimates in dynamic scenes in an online setting. Our network augments current per-frame stereo networks with novel motion and fusion networks. The motion network accounts for both object and camera motion by predicting a per-pixel SE3 transformation. The fusion network improves consistency in prediction by aggregating the current and previous predictions with regressed weights. We conduct extensive experiments across varied datasets (synthetic, outdoor, indoor and medical). In both zero-shot generalization and domain fine-tuning, we demonstrate that our proposed approach outperforms competing methods in terms of temporal stability and per-frame accuracy, both quantitatively and qualitatively. Our code will be available online.


翻译:对实时应用(如扩大现实)而言,持续温度的深度估计至关重要。尽管立体深度估计已获得大量关注,导致框架框架基础上的改进,但相对而言,在保持各框架间的时间一致性方面,工作重点相对较少。事实上,根据我们的分析,目前立体深度估计技术仍然受到时间一致性差的影响。在动态场景中稳定深度由于同时的物体和相机动作而具有挑战性。在网上环境下,由于只有过去的框架,这一过程更加恶化。在本文中,我们提出了一个在动态场景(在线环境的动态场景中)产生时间一致深度估计的技术。我们的网络以新的运动和聚合网络加强当前的每框架立体立体立体网络。运动网络通过预测每像素SE3的变异,记录物体和摄影机的动作。聚合网络通过将当前和以往的预测与递减重量合并,提高预测的一致性。我们在各种数据集(合成、室外、室内和医疗)进行广泛的实验。在零光谱和域微调中,我们提出的方法将超越我们提出的在时间稳定性和定量方面都具有竞争性的方法。

0
下载
关闭预览

相关内容

CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2017年10月27日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Single-frame Regularization for Temporally Stable CNNs
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
VIP会员
相关VIP内容
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2017年10月27日
Top
微信扫码咨询专知VIP会员