为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周二和周五各发布一篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自浙江大学的视觉定位方面的工作。该工作主要由章国锋老师、李鸿升老师指导,黄昭阳同学和周晗同学共同完成。视频由周晗同学录制。
论文题目:VS-Net:基于分割投票的视觉定位
作者列表:黄昭阳 (浙江大学,香港中文大学)、周晗 (浙江大学)、李易瑾 (浙江大学)、杨镑镑 (浙江大学)、许龑 (香港中文大学)、周晓巍 (浙江大学)、鲍虎军 (浙江大学)、章国锋 (浙江大学)、李鸿升 (香港中文大学,西安电子科技大学)
B站观看网址:
https://www.bilibili.com/video/BV1nf4y1u77E/
复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。
论文摘要:
本文提出了一个新颖的视觉定位框架。最近,基于场景坐标回归的方法在小型静态场景中的视觉定位方面表现出良好的性能。然而,它仍然从许多劣势场景坐标估计相机姿势。为了解决这个问题,我们提出了一种新颖的视觉定位框架,该框架通过一系列可学习的特定场景地标(Landmark)在查询图像和三维地图之间建立二维到三维的对应关系。在地标生成阶段,目标场景的三维表面被分割成场景唯一块,其几何中心被视为特定场景的地标。通过图像分割将像素分割成不同的地标块,并使用地标位置投票估计每个块内的地标位置,即可准确计算相机位姿。由于场景中的地标数量可能达到5000个,对于常用的交叉熵损失来说,用这么大数量的类来训练一个分割网络,既费计算又费内存。我们提出了一种新的基于原型的在线学习三元组监督策略,它能够有效地训练具有大量标签的语义分割网络。我们提出的VS-Net在多个公共基准上进行了广泛的测试,展现了上述方法在视觉定位任务上的优越性能。
论文信息:
[1] Huang Z, Zhou H, Li Y, et al. “VS-Net: Voting with Segmentation for Visual Localization”IEEE Conference on Computer Vision and Pattern Recognition (CVPR), March, 2021.
论文链接:
https://arxiv.org/abs/2105.10886
代码开源:
https://github.com/zju3dv/VS-Net
视频讲者简介:
周晗同学,浙江大学博士生,研究方向三维视觉、智能机器人。
特别鸣谢本次论文速览主要组织者:
月度轮值AC:刘洋 (北京大学),林迪 (天津大学),朱霖潮 (悉尼科技大学)
季度责任AC:王兴刚 (华中科技大学)
活动参与方式
1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!
直播地址:
https://live.bilibili.com/22300737;
历史视频观看地址:
https://space.bilibili.com/562085182/
2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3. VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。
4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。
看到这了,确定不关注下吗?关注下再走吧~