推出 2020 年图像匹配基准和挑战赛

2020 年 4 月 14 日 谷歌开发者

文 / Google 地图研究员 Eduard Trulls

从一系列图像中重建 3D 物体和建筑物是计算机视觉中众所周知的一类问题，这类问题也被称为运动推断结构 (Structure-from-Motion, SfM)。

SfM 在摄影和文化遗产保护方面有着多种应用（如：让人们在浏览器中探索复活节岛上的神秘石像），并为 Google 地图中的多个服务提供支持，例如从街景和航拍图像创建 3D 模型。在这些示例中，操作员通常在受控条件下获取图像。虽然这样能够保证数据在图像和最终重建外观效果上高度统一，但也导致无法同时从多个地点获取图像，以及从多个视角查看对象。如果可以借助 SfM 技术，获取互联网上免费提供的大量非结构化图像集合，而不是使用有严格控制条件的图像，是否能更好展现这个丰富多彩的世界呢？

如何加速对这一主题以及更好地利用已公开的大量数据的研究，我们与 UVIC、CTU 和 EPFL 展开合作，发表了题为《跨宽基线的图像匹配：从论文到实践》(Image Matching across Wide Baselines: From Paper to Practice) 的论文，其中提出了用于评估 3D 重建方法的全新公开基准。在 CVPR 2019 举行的首次图像匹配：局部特征及其他研讨会的结果基础上，该项目现已包含超过 25,000 张图像，每张图像都包含准确的成像方位信息（地点和方向）。该数据以及论文提出的开源基准是 CVPR 2020 举办的 2020 年图像匹配挑战赛的基础内容，两者都已公开。

从混乱的图像中恢复 3D 结构

Google 地图已开始使用用户提供的图像来告知游客热门景点或者更新营业时间。然而，使用这种类型的数据来构建 3D 模型要困难得多，因为用户提供的图像往往有不同的视角、光照和天气条件、人物和车辆的遮挡以及偶尔会出现的用户滤镜。下方的示例将着重说明用户拍摄的罗马特雷维喷泉图像的多样性：

特雷维喷泉的不同视角：来自图像匹配挑战赛数据集中的部分示例

通常，要想使用 SfM 重建 3D 场景，首先要确定这些图像中的哪些部分捕获了场景中相同的物理点，如窗户的一角。这一点可通过使用 局部特征（即图像在不同视图中都能可靠识别出的显著位置）来实现。局部特征包含捕获景点四周外观的简短描述向量（模型表征）。通过比较这些描述符，可以用两张或多张图像，在图像位置的像素坐标之间建立可能的对应关系，并通过三角测量来还原点的 3D 位置。然后，可以一同估算捕获图像所处的成像方位，以及观察到的物理点的 3D 位置（如窗户一角相对于相机位置所处的位置）。在多张图像和点上重复执行此步骤，即可获得细节丰富的重建效果。

3D 重建效果图：由超过 3000 张图像（包含来自上图的图像）生成

建筑物的重复结构（例如彼此非常相似的建筑物窗户），或不在图像之间持续存在的元素（例如欣赏特雷维喷泉的游客）等都可能导致对应关系错误的风险，从而给该方法带来挑战。过滤掉这些因素的一种方法便是使用多张图像推理不同对应关系之间的联系。另外一种更强大的方法是设计出更好的方式来识别和隔离局部特征，例如，忽略诸如游客之类的临时元素上的点。但是，为了更好地了解 SfM 现有局部特征算法的缺点，并为将来的研究向具有潜力的方向发展提供见解，我们必须有一个可以用于衡量性能的可靠基准。

用于评估 3D 重建局部特征的基准

局部特征为许多 Google 服务提供支持（例如图片搜索以及 Google 智能镜头中的产品识别），同时也用于像 Google 地图的实际景象（依赖于手动制作的传统局部特征）这样的混合现实应用。因此，设计出更好的算法来识别和描述局部特征，将能提高整体性能。

但是，比较局部特征算法的性能一直都比较困难，因为为此目的收集“基准真相”数据的方式并不明确。一些计算机视觉任务依赖于众包，如：Google 的 OpenImages 数据集通过将机器学习技术与人工注释结合的方式，用边界框或像素蒙版标记“对象”。而这在我们所描述的情况中不可行，因为我们无法从事实推断出 构成一个“良好”局部特征的要素，因而标记这种方法不可行。此外，像 HPatches 这类现有基准的规模通常很小，或者转换范围很窄，都有可能会影响评估。

重要的是保证重建的质量，以及基准能够反映真实世界的规模和挑战，这样才有望开发出新方法。为此，我们创建了图像匹配基准 (Image Matching Benchmark)，这是第一个包含用于训练和评估的大型图像数据集的基准。该数据集包含超过 25,000 张图像（来源于公开的 YFCC100m 数据集），每张都增加了准确的成像方位信息（地点和方向）。我们可从大规模 SfM（每个场景 100 至 1000 秒的图像）中获得这个“伪”基准真相，该基准真相将提供准确且稳定的成像方位。然后我们将在较小子集（10 秒的图像）上进行评估，而这是一个更为困难的问题。这种方法不需要昂贵的传感器或人工标记，并且相比以前的基准测试（仅限于小型且同质的数据集），可提供更好的代理指标。

根据我们的基准得到的可视化结果，我们演示了由不同局部特征算法生成的点对点匹配。从左到右：SIFT、HardNet、LogPolarDesc、R2D2。如需了解详情，请参考我们的网站

我们希望这一基准、数据集和挑战赛有助于提高异构图像 3D 重建的当前水平。如果您有兴趣参加挑战赛，请访问 2020 年图像匹配挑战赛网站，以获取更多详情。

致谢

该基准是 Yuhe Jin 和 Kwang Moo Yi（维多利亚大学）、Anastasiia Mishchuk 和 Pascal Fua（洛桑联邦理工学院）、Dmytro Mishkin 和 Jiří Matas（捷克理工大学）以及 Eduard Trulls (Google) 共同的研究成果。CVPR 研讨会由 Vassileios Balntas (Scape Technologies/Facebook)、Vincent Lepetit（巴黎路桥学院）、Dmytro Mishkin 和 Jiří Matas（捷克理工大学）、Johannes Schönberger (Microsoft)、Eduard Trulls (Google) 以及 Kwang Moo Yi（维多利亚大学）共同举办。

如果您想详细了解 本文讨论 的相关内容，请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题：

文化遗产保护
https://artsandculture.google.com/project/heritage-on-the-edge
浏览器中
https://poly.google.com/view/8Jfgqio34b2
街景和航拍图像
https://www.blog.google/products/maps/google-maps-101-how-imagery-powers-our-map/
跨宽基线的图像匹配：从论文到实践
https://arxiv.org/abs/2003.01587
CVPR 2019
http://cvpr2019.thecvf.com/
图像匹配：局部特征及其他
https://image-matching-workshop.github.io/
开源基准
https://github.com/vcg-uvic/image-matching-benchmark
CVPR 2020
http://cvpr2020.thecvf.com/
2020 年图像匹配挑战赛
https://vision.uvic.ca/image-matching-challenge/
已公开
https://vision.uvic.ca/image-matching-challenge/data/
用户提供的图像
https://support.google.com/maps/answer/6304221?hl=en&ref_topic=3257381
图片搜索
https://www.google.com/imghp?hl=en
Google 智能镜头
https://lens.google.com/
Google 地图的实际景象
https://ai.googleblog.com/2019/02/using-global-localization-to-improve.html
OpenImages 数据集
https://storage.googleapis.com/openimages/web/index.html
HPatches
https://github.com/hpatches/hpatches-dataset
图像匹配基准
https://github.com/vcg-uvic/image-matching-benchmark
YFCC100m 数据集
http://projects.dfki.uni-kl.de/yfcc100m/
我们的网站
https://vision.uvic.ca/image-matching-challenge/benchmark/