从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。

VIP内容

我们世界中的事件无处不在,大到疾病爆发和地震,中到系统故障和犯罪,小到网络行为和化学反应。事件的分析在不同的领域中已经有重要应用,诸如医疗保健、商业、网络领域、政治和娱乐,几乎影响着生活的每一个角落。因此,事件分析在过去几年引起了极大的关注,可以分为事件总结、检测和预测。其中总结和检测为回顾性分析,与它们不同,本综述专注的事件预测侧重于预测未来的事件。对未来事件的准确预测使人们能够最大限度地减少与未来某些事件相关的损失,可能为社会的诸多方面如疾病预防、灾害管理、商业智能和经济稳定性带来不可估量的收益。

事件预测历来在不同领域都极具挑战性,因为我们对大多数领域的事件发生的真正原因和驱动机制的了解一般并不完整。然而,大数据时代、高性能计算、以及人工智能技术的进步对上述挑战的解决提供了前所未有的机会。通过基于数据驱动的方式,比如例如机器学习、数据挖掘、模式识别、统计和其他计算模型,我们有了更多的机会弥补上述不足,甚至能够有机会帮助发现事件发生的动因和发展规律。该领域目前正经历高速发展,以期解决诸多事件预测领域独特的挑战:

挑战 1: 异构多输出预测问题。事件预测方法通常需要预测事件的多个方面,包括时间、地点、主题、强度和持续时间,每个方面都经常使用不同的数据结构。除了异构性,多个输出之前也有很强的相关性。另外,复杂的输出也导致了训练数据标注的难度和精度,以及预测准确性评估的难度。

挑战 2: 不同输出之间的复杂关系。不同于机器学习里经常使用的传统的独立性假设,真实世界的事件预测往往是互相影响甚至互为因果。因此,除了建立当前观测与未来事件的前瞻性映射,未来事件之间的相关性也需要考虑。

挑战 3: 实时预测的需求。事件预测一般需要对观测进行实施持续监控从而及时预报未来事件。然而在这个过程中,经过训练的预测模型逐渐变得过时,因为现实世界的规则和概念是持续变化的,数据的分布也是在变化的,比如社交媒体数据的用户年龄分布、全球气候情况等。

挑战 4: 事件大数据本身的挑战。上述提到的挑战在事件预测的任务中进一步导致收集和利用事件数据的困难。这包括诸如带有异构噪声、数据不完整、多模态,多分辨率这些常见问题。同时事件的发生一般属罕见现象,因此样本的不平衡性是重要问题。另外在很多情况下会有对抗性数据引入,比如舆论监管导致的定向性数据缺失。

近年来,大量研究致力于事件预测技术的开发和应用,以解决上述挑战。当前,事件预测技术整体上仍处于起步阶段,但事件预测的研究和应用已出现在非常广泛的众多领域中。现存最多的事件预测方法是为特定的应用领域设计的,然而不同领域中事件预测技术其实有很多共性和联系。不同的应用领域方法的相互参考和讨论目前仍然大量的缺失,然而这样的跨领域思考对于事件预测领域的技术进步极为重要。此外,事件预测结果的质量评估也缺乏统一标准。因此该领域需要系统性综述以确定其规范、技术分类、前沿问题、以及尚需解决的问题。本综述的发表正式为了满足上述需求,主要有以下几方面贡献:

对现有技术的系统分类和总结。本文提供了事件预测方法的正式问题表述,并据此对当前技术进行系统性分类。同时本文讨论了不同子类别之间的关系、优点和缺点,以及每个子类别下技术的详细信息。稳重提出的分类法可以帮助领域专家找到合适的技术从而有针对性的解决问题。

主要应用领域的综合分类和总结。本文提供了对事件预测的应用领域详细分类。阐明每个应用领域的实际意义、难点、常用技术以及数据。这将有望帮助数据科学家和模型开发人员搜索其他应用领域和数据集来评估他们提出的方法,并扩展他们的先进技术以涵盖新的应用领域。

标准化的评估指标和程序。如前所述,事件预测的数据结构是复杂的,包含时间、位置、语义等。本文全面总结了事件预测的实验方法,从而标准化了事件预测的评估体系和方法。

对该领域研究现状和未来方向的深入讨论。基于对现有的工作的调查,本文总结和划定了当前事件预测技术和应用的研究前沿。文章最后提出对当前瓶颈、长期挑战和未来方向的讨论。

这篇综述对事件预测的问题及方法归类如下:其首先按不同输出进行分类,分为时间预测,地点预测,主题预测,以及多输出预测。每个类别根据输出的数据形式进一步分类并给出相应的预测技术。

图 1:文章提出的对事件预测技术分类方法。

成为VIP会员查看完整内容
0
10

最新论文

Differences in data size per class, also known as imbalanced data distribution, have become a common problem affecting data quality. Big Data scenarios pose a new challenge to traditional imbalanced classification algorithms, since they are not prepared to work with such amount of data. Split data strategies and lack of data in the minority class due to the use of MapReduce paradigm have posed new challenges for tackling the imbalance between classes in Big Data scenarios. Ensembles have shown to be able to successfully address imbalanced data problems. Smart Data refers to data of enough quality to achieve high performance models. The combination of ensembles and Smart Data, achieved through Big Data preprocessing, should be a great synergy. In this paper, we propose a novel methodology based on Decision Trees Ensemble with Smart Data for addressing the imbalanced classification problem in Big Data domains, namely DeTE_SD methodology. This methodology is based on the learning of different decision trees using distributed quality data for the ensemble process. This quality data is achieved by fusing Random Discretization, Principal Components Analysis and clustering-based Random Oversampling for obtaining different Smart Data versions of the original data. Experiments carried out in 21 binary adapted datasets have shown that our methodology outperforms Random Forest.

0
0
下载
预览
Top