加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
本文为极市与阿德莱德大学博士生边佳旺原创,如需转载,请联系小助手(微信ID:cv-mart)
作为神经计算和机器学习领域的顶级会议,每年的NeurIPS(神经信息处理系统会议)吸引了不少中国学者投稿,今年NeurIPS(2019年12月8日-14日在加拿大温哥华举办)总共接收了6743份投稿,最后接收了1428份论文,21.24%的接受率,较计算机视觉顶会CVPR2019和ICCV2019要低一些。接收结果已经发送给作者。
本文要推荐的是阿德莱德大学博士生边佳旺被接收的NeurIPS2019论文
论文名:
项目链接:https://jwbian.net/sc-sfmlearner
论文链接:https://arxiv.org/abs/1908.10553
开源代码:https://github.com/JiawangBian/SC-SfMLearner-Release
摘要:最近工作表明基于CNN的深度估计和位姿网络可以在单目视频上进行无监督训练。然而,算法性能受限于动态物体。因为动态物体不符合三维重构的原理,会导致不正确的监督。更重要的是,之前算法不能输出尺度一致的结果,因为每个训练样本之前是没有关联的,他们的尺度都不一样,所以也不能在长视频上做视觉里程计(以前算法只做5帧)。本篇论文提出使用几何一致性约束来实现相邻帧之间的尺度一致性,并且利用尺度一致性检测并剔除动态物体和遮掩区域。因为不像之前算法一样使用光流,所以训练速度快而且算法简单。实验表明, 不仅在KITTI上获得最好的深度估计性能,而且可以在长视频上做视觉里程计。目前已知,这是第一篇能够通过在单目视频上进行无监督训练且实现在长视频上做视觉里程计的文章,并且性能超过之前在双目视频上训练的算法。
1.文章通过约束相邻帧间的几何一致性实现了整个视频序列上尺度一致的深度和位姿估计。同时能够利用几何特性来mask动态物体和occlusion,极大提升了训练效果。
2.最终结果不仅在depth上达到SOTA(训练一天超过之前训一周的算法),更使得预测的camera pose可以直接拼起来在长视频上做visual odometry(以前单目算法因为尺度不一致只能做5帧)
3.效果超过之前在双目视频上训练的方法。目前已知这是第一篇在单目视频上用无监督训练可以实现VO的文章。
1. Lgc表示约束相邻帧之间的depth预测的一致性。也就是通过将其中一帧的depth预测投影到另外一帧上,在这一帧上计算投影来的depth与预测的depth之间的误差。通过优化这个误差来实现几何(以及尺度)的一致性。
2. M表示由depth相对误差推导出的mask。Mask代表了每个像素的投影confidence,这里low-confidence(depth误差大)的地方是由于噪音(动态物体或者occlusion)或者错误预测导致的。文章通过给这些区域一个低的权重来减小错误监督的影响。
3. 由于算法约束了尺度一致性,并且消除了动态物体的干扰。除了性能得到大幅提升以外,也实现了尺度一致的预测。最终结果可以在长视频上用作视觉里程计。
本篇论文已经开源,大家可以去star后下载模型尝试,有问题可以直接和作者沟通~另外极市同时组织了NeurIPS论文代码汇总开源GitHub项目,欢迎提交以及star~
开源项目:https://github.com/extreme-assistant/nips2019
-完-
*延伸阅读
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台
觉得有用麻烦给个在看啦~