摘要:自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。

不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)计算的分层视觉 Transformer,他们称之为 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下两点改进:其一,引入 CNN 中常用的层次化构建方式构建分层 Transformer;其二,引入局部性(locality)思想,对无重合的窗口区域内进行自注意力计算。

https://www.zhuanzhi.ai/paper/8c4814f25458103044250d2c91446177

https://www.zhuanzhi.ai/paper/0bb7bf20e9e46fec75e8b269b0553e10

寻找在多个视图中可重复的局部特征是稀疏三维重建的基础。经典的图像匹配范式对每幅图像的关键点进行一次性检测,这可能会产生局部表现差的特征,并将巨大的误差传播到最终的几何形 (final geometry)。在本文中,我们通过直接调整来自多个视图的低级图像信息,完善了SFM(structure-from-motion)的两个关键步骤。

我们在几何估计之前调整初始关键点位置,随后作为后处理完善点和摄像机的位置。因为优化了基于神经网络预测的密集特征的测量误差,所以对噪声检测和外观变化是稳健的。这也显著提高了各种关键点检测器算法、具有挑战性的观察条件和现成深度特征的相机pose和场景几何体的准确性。该系统可以轻松扩展到大型图像集,实现大规模像素完美密集定位。

目前,代码已经开源:https://github.com/cvg/pixel-perfect-sfm

成为VIP会员查看完整内容
29

相关内容

专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
33+阅读 · 2021年5月12日
ECCV 2020 五项大奖出炉!普林斯顿邓嘉获最佳论文奖
专知会员服务
13+阅读 · 2020年8月25日
学界 | Facebook、谷歌分别改进何恺明 FPN 工作
AI科技评论
11+阅读 · 2019年4月19日
从FPN到Mask R-CNN,一文告诉你Facebook的计算机视觉有多强
人工智能头条
6+阅读 · 2018年3月20日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2021年10月14日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
VIP会员
微信扫码咨询专知VIP会员