【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

2018 年 1 月 2 日 专知专知内容组（编）

【导读】当下，深度学习在人类社会的各项领域中大放异彩。近年来，随着人造卫星技术的发展，遥感图像的智能化处理受到了愈加广泛的关注。虽然遥感图像的研究在场景分类和目标检测方面取得了显著进展，但是，如何用精确简洁的句子来描述遥感图像的内容仍然是一个很大的问题。代码已开源。本文研究利用精确、灵活的句子描述遥感图像。首先，针对遥感图像的特点，提出了一些有意义的标注方法，以更好地描述遥感图像。其次，为了充分利用遥感图像的内容，构建了一个用于遥感图像描述问题的大规模航空影像数据集。最后，对提出的数据集进行全面的分析，以更好地推进遥感图像描述任务。该数据集已经公开。

论文：Exploring Models and Data for Remote Sensing Image Caption Generation

▌摘要

近年来，受人造卫星发展的影响，遥感图像受到广泛关注。最近，遥感图像的研究在场景分类和目标检测方面取得了显著进展。但是，如何用精确简洁的句子来描述遥感图像的内容仍然是一个问题。本文研究利用精确、灵活的句子描述遥感图像。首先，针对遥感图像的特点，提出了一些有意义的标注方法，以更好地描述遥感图像。其次，为了充分利用遥感图像的内容，构建了一个用于遥感图像描述问题的大规模航空影像数据集。最后，对提出的数据集进行全面的回顾，以更好地推进遥感图像描述任务。对所提出的数据集进行大量实验，结果表明，生成的语言描述，可以完整地描述遥感图像的内容。

该数据集可在https://github.com/201528014227051/RSICD下载

▌详细内容

随着遥感技术的发展，遥感图像在很多应用中引起了广泛的关注。然而，遥感图像的研究仍然集中在场景分类，目标识别和分割等领域。这些研究只识别图像中的对象或获取图像的类标签，而忽略了对象的属性和每个对象之间的关系。为了呈现遥感图像的语义信息，产生了遥感图像描述任务。遥感图像描述的目的是生成综合性句子，能总结遥感图像语义层面的内容。获得遥感场景的描述，在图像检索[27]、场景分类[9]和军事情报生成等众多领域发挥着至关重要的作用。

图像描述是人工智能中的一个很困难的问题，但同时也是一个基本的问题。在过去的几十年里，研究者们设计了很多方法用于自然图像描述生成。对于自然图像描述任务，传统的方法关注两个方面：图像表示和句子生成。对于图像表示技术，深度卷积特征表示完胜传统的手工表示。对于句子的生成技术，研究重点已经从传统的基于检索的方法发展到递归神经网络（RNN）。

为了更好地描述图像内容，本文考虑了许多图像表示方法，包括静态全局表示和动态区域表示方法。全局表示将整个图像压缩成静态表示，而动态区域表示则基于多个可视区域动态分析图像内容[32]。为了将图像表示解码为自然语言句子，目前已经提出很多生成图像描述的方法，例如递归神经网络（RNN），长-短期记忆网络（LSTM），基于检索的方法和基于对象检测的方法。这些方法致力于用简洁的句子描述图像，并展现出了广阔的前景。

虽然上述方法在自然图像描述中取得了成功，但它们可能不适用于遥感图像描述任务。因为遥感图像描述比自然图像描述更加复杂，遥感图像的语义与“上帝的观点（指自然图像的语义）”相比是模糊不清的。例如，遥感图像是从飞机或卫星上捕获的，使得图像内容对普通人来说很复杂并且难以描述。

最近，一些研究人员对遥感影像描述进行了研究，并从遥感影像中生成句子。 Qu et al[26]首先提出了深度多模态神经网络模型（deep multimodal neural network model），用于高分辨率遥感影像的语义理解。 Shi等人 [28]利用卷积神经网络（CNN）提出了一个遥感图像描述框架。这两种方法都使用CNN来表示图像，并从模型（[26]中的递归神经网络和[28]中的预定义模板）中生成相应的句子。但是，两种方法生成的句子都是简单句子，不能很好地描述遥感影像中的复杂内容。此外，遥感影像描述的评估通常是在小数据集上进行的，有限的数据集不足以模拟遥感影像的实际应用场景。

在本文中，作者利用准确、灵活的句子描述遥感图像。首先，当用句子注释遥感影像的时候，应该考虑一些特殊的性质：1）尺度的模糊性。遥感图像中的地面目标在不同的尺度下可能表现出不同的语义。 2）类别歧义。遥感影像中的某些地区可能有很多类别。用一个分类标签很难描述多类融合的区域。 3）旋转歧义。遥感影像可以从不同的旋转角度来看，没有一个固定的方向。

然后，针对遥感影像描述任务构建大型航空影像数据集。作者在这个数据集中，从谷歌地球[3]，百度地图，MapABC，天地图（Tianditu）收集了数以万计的遥感影像。图像固定为224×224像素，但具有不同的分辨率。遥感影像总数为10921个，每个影像有5个描述句子。这个数据集是遥感影像描述任务中最大的数据集。数据集中的样本图像具有较高的类内多样性和较低的类间差异性。因此，这个数据集为研究人员推进遥感影像描述的工作提供了一定的数据资源。

最后，作者对提出的基准数据集（命名为RSICD）进行综合评价。提出的数据集在BaiduPan，Github和Google Drive上公开发布出来。在本文中，作者将重点放在编码器-解码器框架（类似于将图像翻译成句子）[30]。为了推进遥感影像描述的任务，作者设计多种实验方案，用最有代表性的编码器-解码器框架在搜集到的数据集上进行实验评估。

本文的贡献可以总结成以下三点：

1. 为了更好地描述遥感图像，作者考虑了一些特殊的性质: 尺度模糊性，类别模糊性和旋转歧义性。

2. 提出了一个大规模的遥感影像数据集，以推进遥感影像描述的任务。

3. 作者对流行的图像描述方法进行全面的回顾，并在搜集的数据集上，评价各种（分别使用手工特征或深度特征）图像表示和句子生成方法。

图1：从作者搜集到的数据集中图像示例，以及每个图像对应的五个句子。

▌方法简介

图2：遥感图像描述的编码器-解码器概述:包括训练过程和测试过程。

图3：RNNs的结构。

图4：LSTM结构。

▌实验结果

表1：RSICD数据集中每个类的图像数量(图像总数为10921)。

表2：多模态方法在UCM-captions数据集上的结果。

表3：多模态方法在Sydney-captions数据集上的结果。

表4：多模态方法在RSICD数据集上的结果。

图5：（a）在UCM-captions数据集上的使用RNN的多模态方法的结果。（b）在Sydney-captions数据集上使用RNN的多模态方法的度量。（c）在RSICD数据集上使用RNN的多模态方法的度量。（d）在UCM-captions数据集上的使用LSTM的多模态方法的结果。（e）在Sydney-captions数据集上使用LSTM的多模态方法的度量。（f）在RSICD数据集上使用LSTM的多模态方法的度量。

表5：Sydney-captions数据集每类数据的数量。

图6：RSICD数据集上参考句子的度量。

图7：在RSICD数据集上使用LSTM的基于注意力方法的度量。

表6：在RSICD数据集上使用不同的LSTM和CNNs的多模态方法的结果。

表7：在UCM-captions数据集上使用CNNs的基于注意力方法的结果。

表8：在Sydney-captions数据集上使用CNNs的基于注意力方法的结果。

表9：在RSICD数据集上使用CNNs的基于注意力方法的结果。

表10：在不同数据集上训练模型的结果。

图8：RSICD数据集上图像描述的结果。

图9：UCM-captions数据集上使用LSTM的多模态方法度量。横坐标表示用不同的FV特征聚类中心数量进行度量。

图10：Sydney-captions数据集上使用LSTM的多模态方法度量。横坐标表示用不同的FV特征聚类中心数量进行度量。

图11：在平衡的Sydney-captions数据集上使用LSTM的多模态方法度量。横坐标表示用不同的FV特征聚类中心数量进行度量。

图12：在RSICD数据集上使用LSTM的多模态方法度量。横坐标表示用不同的FV特征聚类中心数量进行度量。

表11：对UCM-captions数据集的主观评价结果。

表12：对Sydney-captions数据集的主观评价结果。

表13：对RSICD数据集的主观评价结果。

▌结论

在本文中，作者对遥感影像描述给出了全面的说明，构建了遥感影像描述数据集（RSICD）。此外，为了使数据集更加全面和均衡，文中基于手工特征和卷积特征在不同数据集上评估了不同的图像描述方法。本文进行了广泛的实验，使用BLEU，METEOR，ROUGE L和CIDEr指标对数据集进行基准测试。实验结果表明，可以把自然图像描述方法转移到遥感影像中，但是结果表现差强人意。考虑到遥感影像的特点，遥感影像描述任务还有很多工作要做。

参考链接：

https://arxiv.org/abs/1712.07835

-END-

专 · 知

人工智能领域主题知识资料查看获取：【专知荟萃】人工智能领域26个主题知识资料全集（入门/进阶/论文/综述/视频/专家等）

同时欢迎各位用户进行专知投稿，详情请点击：

【诚邀】专知诚挚邀请各位专业者加入AI创作者计划！了解使用专知！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请扫一扫如下二维码关注我们的公众号，获取人工智能的专业知识！

请加专知小助手微信（Rancho_Fang），加入专知主题人工智能群交流！

点击“阅读原文”，使用专知！

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

用于大型遥感影像检索的深度学习，Deep Learning for Image Search and Retrieval in Large Remote Sensing Archives

专知会员服务

39+阅读 · 2020年4月6日

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

专知会员服务

54+阅读 · 2020年3月3日

数据标注研究综述，软件学报，19页pdf

专知会员服务

95+阅读 · 2020年2月20日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用，附29页PDF

专知会员服务

49+阅读 · 2019年11月21日