文 / 高级软件工程师 Joseph Xu 和工程主管 Pranav Khaitan,Google Research
地震、飓风和洪水等自然灾害影响着大片地区和数百万人,而这对于后勤救援是一项巨大的挑战。包括政府、非政府组织和联合国组织在内的危机响应机构,需要在灾害发生后快速而全面准确的评估,以规划如何优化配置有限的资源。为此,能提供充足信息的工具愈发重要,如分辨率高达 0.3 米的超高分辨率 (VHR) 卫星图像,成为应对危机的重要工具,可以向危机响应机构呈现灾害给地形、基础设施和人口带来的变化。
然而,要从原始卫星图像中提取相关的具体信息(例如,倒塌的建筑物、出现裂缝的桥梁以及临时避难所的位置),仍然需要大量的人工手动操作。例如,就 2010 年海地地震而言,仅在太子港地区,分析人员就人工检查了 90,000 多栋建筑物,并以五分制对每座建筑物遭受的破坏程度进行了评估。
这类人工分析工作常需要专家团队工作数周才能完成。而实际上灾后 48-72 小时内就迫切需要这些数据,为最紧要决定的作出提供依据。
为了帮助减轻这类自然灾害的影响,我们提出了“使用卷积神经网络在卫星图像中检测建筑物损坏程度的方法 (Building Damage Detection in Satellite Imagery Using Convolutional Neural Networks)”,其中详细介绍了一种机器学习 (ML) 方法,该方法可自动处理卫星数据从而生成建筑物损坏的评估数据,这由我们与联合国世界粮食计划署 (WFP) 创新加速器合作开发。相信这项工作将有望大幅减少危机响应工作人员进行灾害评估报告所需的时间和精力,进而缩短向受灾最严重地区及时提供救灾援助所需的周转时间,同时增加此类关键服务的总体覆盖范围。
方法
自动损失评估过程分为两步:建筑物检测和损失分类。
在第一个步骤中,我们使用对象检测模型在图像中为每个建筑物周围绘制边界框。然后,截取以每个检测的建筑物为中心的灾前和灾后图像,利用分类模型确定建筑物是否受损。
分类模型由卷积神经网络组成,在该卷积神经网络中输入以给定建筑物为中心的两个 RGB 图像,大小为 161 像素 x 161 像素,对应 50 m x 50 m 的占地面积。模型会对比灾害事件之前与之后的图像,分析两幅图像中的差异,并输出 0.0 - 1.0 范围内的值,其中 0.0 表示建筑物未受损,1.0 则表示建筑物受损。
由于前后的对比图像是在不同日期、一天中的不同时间拍摄,并且在某些情况下是由不同卫星所拍摄的,所以可能会出现许多不同的问题。如,图像的亮度、对比度、色彩饱和度和照明条件可能有很大的差异,并且有时图像中的像素可能会错位。
为了校正颜色和亮度差异,我们使用直方图均衡对图像的颜色进行归一化。我们还通过使用标准的数据增强技术(如在训练过程中随机干扰图像的对比度和饱和度),让模型对细微颜色差异更具稳健性。
训练数据
这项工作的主要挑战之一是收集训练数据集。可以使用的数据存在固有限制:因为仅有少数灾害才存在高分辨率的卫星图像,并且进行灾害评估的灾害更是少之甚少。我们使用从事这一领域的人道主义组织(如 UNOSAT 和 REACH)手动制作且公开提供的损坏评估数据为标签。
我们使用对应的的原始卫星图像,然后用 Google Earth Engine 在空间上将灾害评估标签与卫星图像结合起来,以生成最终的训练示例。用于训练模型的所有图像均来自可用的商业源。
Google Earth Engine
https://developers.google.com/earth-engine
图块示例:呈现了不同灾害中受损和未受损建筑物的前后对比情况
结果
我们针对近年来发生的三次大地震进行评估:2010 年海地地震(7.0 级)、2017 年墨西哥城地震(7.1 级)和 2018 年印度尼西亚发生的一系列地震(5.9 - 7.5 级)。
对于每一次事件,我们都用受地震影响地区的一部分建筑物来训练模型,并用另一地区的一部分建筑物对其进行测试。我们使用 UNOSAT 和 REACH 进行的人类专家损坏评估作为评估的基础。我们使用实际准确率(与专家评估相比)和 ROC 曲线下的面积 (AUROC) 来衡量模型的质量,AUROC 捕捉了模型的真阳性和假阳性检测率之间的权衡,是测试数据集中阳性和阴性样本数量不平衡时衡量质量的一种常用方法。AUROC 值为 0.5 意味着模型的预测是随机的,而值为 1.0 意味着模型完全准确。根据危机应对者的反馈,要在灾害发生后 72 小时内做出初步决策,要求准确率必须达到 70%。
事件 | 准确率 | ROC曲线 下的面积 |
---|---|---|
2010 年海地地震 | 77% | 0.83 |
2017 年墨西哥城地震 | 71% | 0.79 |
2018 年印度尼西亚地震 | 78% | 0.86 |
根据人类专家评估数据评价模型预测(越高越好)
2010 年海地地震的模型预测示例:接近 1.0 的预测值意味着模型更确信建筑物受损。值接近于 0.0 表示建筑物未受损。阈值 0.5 通常用来区分受损/未受损的预测,但是可以对其进行调整以控制预测的敏感程度
未来工作
虽然当前模型在使用相同地区(例如,同一城市或国家)的建筑物进行训练和测试时运行良好,但我们的最终目标是希望模型能够准确评估世界上各地发生的灾害对建筑物的损坏程度,而不仅仅局限于与训练模型所用的数据类似的灾害。
这项工作充满挑战,因为来自历史灾害的可用训练数据的种类存在固有限制:仅局限于少数几个地理位置发生的事件。因此,对我们的模型而言,泛化到新地点未来可能发生的灾害仍是一个挑战,也是我们目前的工作重点。我们设想建立一个可以由专家分析师进行交互式训练、验证和部署的系统,以便重要的援助分配决策可以始终得到经验丰富的灾害响应机构的核实。我们希望这项技术能让社区在最需要的时候及时得到所需的帮助。
致谢
感谢合著者 Wenhan Lu 和 Zebo Li,同时感谢 Maolin Zuo 对这个项目的贡献。在解决这个问题的过程中,我们与联合国世界粮食计划署 (WFP) 创新加速器建立了极具成效的合作伙伴关系。该组织的宗旨是确定、资助和支持创业公司和创新项目,以解决全球温饱问题。
更多 AI 相关阅读: