Recent advancements in deep learning and computer vision have led to widespread use of deep neural networks to extract building footprints from remote-sensing imagery. The success of such methods relies on the availability of large databases of high-resolution remote sensing images with high-quality annotations. The CrowdAI Mapping Challenge Dataset is one of these datasets that has been used extensively in recent years to train deep neural networks. This dataset consists of $ \sim\ $280k training images and $ \sim\ $60k testing images, with polygonal building annotations for all images. However, issues such as low-quality and incorrect annotations, extensive duplication of image samples, and data leakage significantly reduce the utility of deep neural networks trained on the dataset. Therefore, it is an imperative pre-condition to adopt a data validation pipeline that evaluates the quality of the dataset prior to its use. To this end, we propose a drop-in pipeline that employs perceptual hashing techniques for efficient de-duplication of the dataset and identification of instances of data leakage between training and testing splits. In our experiments, we demonstrate that nearly 250k($ \sim\ $90%) images in the training split were identical. Moreover, our analysis on the validation split demonstrates that roughly 56k of the 60k images also appear in the training split, resulting in a data leakage of 93%. The source code used for the analysis and de-duplication of the CrowdAI Mapping Challenge dataset is publicly available at https://github.com/yeshwanth95/CrowdAI_Hash_and_search .


翻译:近年来,深度学习和计算机视觉的最新进展已经广泛应用于从遥感图像中提取建筑物轮廓线的深度神经网络。这些方法的成功依赖于大量高分辨率遥感图像数据库的可用性,这些数据库具有高质量的标注。CrowdAI Mapping Challenge数据集是其中之一,近年来已经广泛使用于训练深度神经网络。该数据集包括大约280K个训练图像和60K个测试图像,其中所有图像均具有多边形建筑物标注。然而,问题,如低质量和不正确的注释,广泛复制的图像样本和数据泄露等显著降低了在数据集上训练深度神经网络的效用。因此,在使用数据集之前采用数据验证流水线对数据集进行质量评估是必要的。为此,我们提出了一个使用感知哈希技术的插入式流水线,以高效去重数据集并识别训练和测试分离之间数据泄露实例。在实验中,我们证明了训练分裂中近250k(约90%)图像是相同的。此外,我们在验证分裂中的分析表明,大约有56k张图像也出现在训练分裂中,导致了93%的数据泄露。用于CrowdAI Mapping Challenge数据集分析和去重的源代码可在 https://github.com/yeshwanth95/CrowdAI_Hash_and_search 上公开获得。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
数据集|ALITA:用于自动驾驶的大规模增量数据集
极市平台
3+阅读 · 2022年6月27日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
VIP会员
相关VIP内容
相关资讯
数据集|ALITA:用于自动驾驶的大规模增量数据集
极市平台
3+阅读 · 2022年6月27日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员