从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。

VIP内容

近日,《地球大数据支撑可持续发展目标报告(2021)》在京发布。《报告》由中国科学院组织、可持续发展大数据国际研究中心和中国科学院战略性先导科技专项“地球大数据科学工程”撰写。这是继2019年和2020年后,《地球大数据支撑可持续发展目标报告》第三次由中方正式发布。《报告》凸显了中国在科技领域为落实2030年可持续发展议程所作的努力和贡献,为国际社会特别是发展中国家可持续发展提供了中国方案和积极借鉴。

《报告》是三年来地球大数据支撑可持续发展目标监测与评估实践的一次集成创新。针对零饥饿、清洁饮水与卫生设施、可持续城市和社区、气候行动、水下生物和陆地生物6个可持续发展目标(SDGs)中的18个具体目标汇集26个典型案例,展示了典型地区、国家、区域和全球四个尺度在数据、方法模型和决策支持方面对相关SDGs及其指标进行的研究和监测评估成果,包括20套数据产品、13种方法模型和16个决策支持。

结果显示,中国在六个可持续发展目标方面正向着2030年可持续发展目标迈进,尤其是2015年之后,改善幅度较大。《报告》指出,中国有四个指标整体已经接近或达到2030年可持续发展目标,包括五岁以下儿童生长迟缓比例、可便利使用公共交通的人口比例、土地退化比例和山地绿色指数。

可持续发展大数据国际研究中心主任、中国科学院院士郭华东指出,应对可持续发展目标所面临的数据挑战需要开拓更有效的方式。充分发掘利用和创新地球大数据技术,是解决当前面临可持续发展的数据鸿沟、信息和工具缺失问题的有效途径。作为致力于大数据服务可持续发展目标的国际研究机构,可持续发展大数据国际研究中心将建成集“存储、计算、分析、服务”的SDG大数据技术服务体系、开展SDG指标监测与评估科学研究、研制并运行SDG科学卫星、构建科技促进可持续发展智库,并开展大数据服务可持续发展目标的人才培养和能力建设。

在零饥饿方面,聚焦可持续粮食生产体系,构建了中国耕地复种指数和14种主要作物空间分布数据集,展现了地球大数据技术在及时快速信息获取和多源数据融合方面的能力。

在清洁饮水和卫生设施方面,围绕改善水质、提高用水效率、水资源综合管理、保护和恢复与水有关的生态系统四个具体目标,发展了中国湖泊水体透明度数据集、全球大型湖泊水体透明度数据集、全球农业区的作物水分利用效率数据集、中国自然和人工水体分布数据集,以及中国沼泽湿地分布数据集。

在可持续城市和社区方面,聚焦公共交通、灾害评估、公共开放空间三个具体目标开展了基于地球大数据技术的指标监测与评估,并在中国市级尺度开展了多指标综合评估。生产了分性别、年龄段的中国人口高精度公里格网数据、中国地市级自然灾害总体损失年际变化数据集、中国城市建成用地绿地空间组分数据产品、中国社区尺度城市景观数据产品。

在气候行动方面,聚焦抵御气候相关灾害、应对气候变化举措、气候变化适应和预警三个具体目标,通过地球大数据方法生产了中国沙尘天气年际影响范围数据集、中国CO2和NO2浓度数据集、中国森林净生态系统生产力数据集、全球净生态系统生产力及其驱动因素数据集、综合海表卫星与ARGO浮标观测资料生产全球海洋热含量数据集。

在水下生物方面,聚焦可持续管理和保护海洋及沿海生态系统具体目标,通过时空数据融合、四维变分同化预报和深度学习等方法,在中国和典型地区两个空间尺度,完成了中国红树林动态变化、中国滨海养殖池动态变化等数据集产品生产和黄海大型藻华监测预警模型实用性验证等工作。

在陆地生物方面,聚焦陆地和内陆的淡水生态系统保护、恢复与可持续利用、山地生态系统保护与遏制生物多样性丧失三个具体目标,生产了全球山地绿色覆盖指数及濒危物种公里网格空间精细分布两套数据集产品;评估了中国生态系统质量及动态变化、中国草地生态系统保护现状及越冬白鹤栖息地时空变化特征;得出了中国2000~2015年生态系统质量显著提升,中国草地生态系统总体保护效果较好,但仍有5类分布面积较小的草地保护比例低,鄱阳湖栖息地退化亟须进一步保护等科学发现。

成为VIP会员查看完整内容
0
22

最新论文

This paper presents noise-robust clustering techniques in unsupervised machine learning. The uncertainty about the noise, consistency, and other ambiguities can become severe obstacles in data analytics. As a result, data quality, cleansing, management, and governance remain critical disciplines when working with Big Data. With this complexity, it is no longer sufficient to treat data deterministically as in a classical setting, and it becomes meaningful to account for noise distribution and its impact on data sample values. Classical clustering methods group data into "similarity classes" depending on their relative distances or similarities in the underlying space. This paper addressed this problem via the extension of classical $K$-means and $K$-medoids clustering over data distributions (rather than the raw data). This involves measuring distances among distributions using two types of measures: the optimal mass transport (also called Wasserstein distance, denoted $W_2$) and a novel distance measure proposed in this paper, the expected value of random variable distance (denoted ED). The presented distribution-based $K$-means and $K$-medoids algorithms cluster the data distributions first and then assign each raw data to the cluster of data's distribution.

0
0
下载
预览
Top