Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

【导读】从一组图像重建3D对象和建筑物是计算机视觉中的一个广为人知的问题。它在摄影和文化遗产保护中具有多种应用，并为Google Maps中的许多服务提供支持，例如从StreetView和航拍图像创建的3D模型。而在以上应用中，图像通常是由操作员在受控条件下捕获的。虽然这确保了图像中的均匀数据具有统一，高质量的外观以及最终的重建效果，但同时也限制了所捕获站点的多样性。能否不使用严格控制条件下捕获的图像，而互联网上免费提供的大量非结构化图像集合，通过 Structure-from-Motion (sfm)技术来重构？

原文链接： https://ai.googleblog.com/2020/04/announcing-2020-image-matching.html

为了加快对此主题的研究以及更好地利用已经公开可用的数据，我们提出了“图像匹配：从论文到实践”，这是与UVIC，CTU和EPFL的合作，提出了评估3D重建方法的新公共基准。继在CVPR 2019上举行的首次图像匹配：局部特征及超越研讨会的结果之后，该项目现在包括超过25k图像，每个图像都包含准确的姿势信息（位置和方向）。该数据与开源基准一起公开提供，是在CVPR 2020举行的2020年图像匹配挑战赛的基础。

3D重建

Google地图已经使用了用户拍摄的图像来告知访问者热门地点或更新营业时间。但是，使用这种类型的数据来构建3D模型要困难得多，因为用户拍摄的照片具有不同的视角，光照和天气条件，人和车辆的遮挡物以及滤镜。以下示例突出显示了罗马特莱维喷泉（Trevi Fountain）的图像多样性。

通常，使用SfM重建3D场景首先要确定图像的哪些部分捕获了场景的相同物理点，例如窗口的角点。这是使用局部特征（即可以在不同视图中可靠识别的图像中的显着位置）实现的。它们包含简短的描述向量（模型表示），这些向量捕获了感兴趣点周围的外观。通过比较这些描述符，可以在两个或多个图像上的图像位置的像素坐标之间建立可能的对应关系，并通过三角测量来恢复点的3D位置。然后可以共同估计从中捕获图像的姿势以及所观察到的物理点的3D位置（例如，确定窗口的角相对于相机位置的位置）。在不同图像和点上执行此操作可以重建整个建筑物。

这种方法面临的挑战是存在错误对应关系的风险，例如，由于建筑物的重复结构（例如彼此非常相似的建筑物的窗户）或在图像中无法持久存在的瞬态元素（如人群）。过滤掉它们的一种方法是通过使用多个图像推理对应关系之间的关系。另外一种更强大的方法是设计更好的方法来识别和隔离局部特征，例如，通过忽略诸如人之类的瞬时元素上的点。但是，为了更好地了解SfM的现有局部特征算法的缺点，并为将来的研究提供有希望的方向的见解，必须有一个可靠的基准来衡量性能。

评估3D重建局部特征的基准

局部特征支持许多Google服务，例如图像搜索和Google Lens中的产品识别，并且还用于混合现实应用程序中，例如依赖于传统的手工本地功能的Google Maps的实时视图。设计更好的算法来识别和描述局部特征将总体上带来更好的性能。

但是，比较局部特征算法的性能一直很困难，因为为此目的如何收集“真实”数据并不明显。一些计算机视觉任务依赖于众包：Google的OpenImages数据集通过将机器学习技术与人工标注相结合，用边界框或像素蒙版标记“对象”。在这种情况下这是不可能的，因为不知道先验是什么构成“良好”局部特征，从而使标注不可行。此外，诸如HPatches之类的现有基准通常很小，或者局限于狭窄的转换范围，这可能会使评估产生偏差。

重要的是重建的质量，基准反映了现实世界的规模和挑战，以便强调开发新方法的机会。为此，我们提出了“图像匹配基准”，其中包含用于训练和评估的大型图像数据集。该数据集包括超过25k图像（来自公共YFCC100m数据集），每个图像均已添加了准确的姿势信息（位置和方向）。我们从大规模SfM（每个场景100-1000图片）中获得这种“伪”真相，从而提供准确且稳定的姿势，然后对较小的子集（每个场景10+图片）进行评估。这种方法不需要昂贵的传感器或人工标记，并且比以前的基准测试（仅限于小型且同质的数据集）提供了更好的指标。