事件是基于特定地点、时间和语义发生的对我们的社会或自然环境产生重大影响的事情,例如地震、内乱、系统故障、流行病和犯罪。能够提前预测此类事件的发生以减少潜在的损害是非常重要的。虽然事件预测传统上极具挑战性,但它现在正成为大数据时代的一种可行选择并正在经历快速增长。当然,这也归功于高性能计算机和人工智能技术的进步。最近来自艾默里大学的教授赵亮博士首次对该领域进行了全面的综述和数据代码资源整理。该工作全面总结了事件预测的问题定义,方法,应用,测评,数据,以及未来发展方向。该工作刚刚发表在计算机综述顶刊 ACM Computing Surveys 上。
论文链接:https://dl.acm.org/doi/10.1145/3450287
数据、代码和讲义链接:https://cs.emory.edu/~lzhao41/projects/event_prediction_site/
挑战 1: 异构多输出预测问题。事件预测方法通常需要预测事件的多个方面,包括时间、地点、主题、强度和持续时间,每个方面都经常使用不同的数据结构。除了异构性,多个输出之前也有很强的相关性。另外,复杂的输出也导致了训练数据标注的难度和精度,以及预测准确性评估的难度。
挑战 2: 不同输出之间的复杂关系。不同于机器学习里经常使用的传统的独立性假设,真实世界的事件预测往往是互相影响甚至互为因果。因此,除了建立当前观测与未来事件的前瞻性映射,未来事件之间的相关性也需要考虑。
挑战 3: 实时预测的需求。事件预测一般需要对观测进行实施持续监控从而及时预报未来事件。然而在这个过程中,经过训练的预测模型逐渐变得过时,因为现实世界的规则和概念是持续变化的,数据的分布也是在变化的,比如社交媒体数据的用户年龄分布、全球气候情况等。
挑战 4: 事件大数据本身的挑战。上述提到的挑战在事件预测的任务中进一步导致收集和利用事件数据的困难。这包括诸如带有异构噪声、数据不完整、多模态,多分辨率这些常见问题。同时事件的发生一般属罕见现象,因此样本的不平衡性是重要问题。另外在很多情况下会有对抗性数据引入,比如舆论监管导致的定向性数据缺失。
对现有技术的系统分类和总结。本文提供了事件预测方法的正式问题表述,并据此对当前技术进行系统性分类。同时本文讨论了不同子类别之间的关系、优点和缺点,以及每个子类别下技术的详细信息。稳重提出的分类法可以帮助领域专家找到合适的技术从而有针对性的解决问题。
主要应用领域的综合分类和总结。本文提供了对事件预测的应用领域详细分类。阐明每个应用领域的实际意义、难点、常用技术以及数据。这将有望帮助数据科学家和模型开发人员搜索其他应用领域和数据集来评估他们提出的方法,并扩展他们的先进技术以涵盖新的应用领域。
标准化的评估指标和程序。如前所述,事件预测的数据结构是复杂的,包含时间、位置、语义等。本文全面总结了事件预测的实验方法,从而标准化了事件预测的评估体系和方法。
对该领域研究现状和未来方向的深入讨论。基于对现有的工作的调查,本文总结和划定了当前事件预测技术和应用的研究前沿。文章最后提出对当前瓶颈、长期挑战和未来方向的讨论。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“EPBD” 就可以获取《埃默里大学最新「大数据时代事件预测」综述论文,37页pdf》专知下载链接