基于深度学习的流行度预测研究综述

2021 年 3 月 24 日 专知

摘要在线社交网络中的消息流行度预测研究,对推荐、广告、检索等应用场景都具有非常重要的作用。近年来,深度学习的蓬勃发展和消息传播数据的积累,为基于深度学习的流行度预测研究提供了坚实的发展基础。现有的流行度预测研究综述,主要是围绕传统的流行度预测方法展开的,而基于深度学习的流行度预测方法目前仍未得到系统性地归纳和梳理,不利于流行度预测领域的持续发展。鉴于此,该文重点论述和分析现有的基于深度学习的流行度预测相关研究,对近年来基于深度学习的流行度预测研究进行了归纳梳理,将其分为基于深度表示和基于深度融合的流行度预测方法,并对该研究方向的发展现状和未来趋势进行了分析展望。

http://jcip.cipsc.org.cn/CN/abstract/abstract3082.shtml

随着互联网的繁荣发展,由用户原创内容(user generatedcontent,UGC)主导的各种社交网站也随之在互联网中兴起,包括国外的脸书 (Facebook)、推特 (Twitter)、照片墙 (Instagram), 以及国内的新浪微博、微信朋友圈等。在这些社交网站上,用户之间组成的在线社交网络 (online socialnetworks,OSN),为信息在网络空间的传播带来了前所未有的便利。每天有数千万的原创内容在这些平台上被产生和传播[1]。如此纷杂巨量的信息,不仅为平台的管理带来了巨大的挑战,也容易对人们造成信息过载的困扰。在线社交网路中的消息流行度预测研究,旨在提前从海量的信息中预测并识别出未来的热门消息,从而为平台的质量把控提供辅助,并帮助人们从信息过载的困境中解脱出来。但由于社交网络的开放性以及社交网络中级联传播效应所带来的不确定性,准确地预测消息未来的流行度是一项极具困难和挑战的任务。

传统的消息流行度预测方法主要分为两类, 分别是基于特征提取的方法[2-4]和基于点过程建模的方法[5-7]。前者通常会人工提取内容、用户、时序、结构等方面的特征,然后根据这些提取的特征,结合传统的机器学习方法来对消息未来的流行度进行回归或分类预测。这类方法的性能依赖于人工提取特征的质量,而这些人工特征通常又是启发式提取的,很难全面且有效地捕获各类有效预测因素。而后者,基于点过程建模的方法,将消息传播过程看成是用户转发行为的一个到达点过程。其核心在于根据特定的假设,对点过程的速率函数进行不同的建模。但在实际场景中,我们很难知道速率函数的真正假设或形式,从而限制了点过程模型的能力。

随着近年来深度学习在文本、语音、图像等领域的成功应用,基于深度学习的流行度预测方法也开始逐渐被研究者们关注并提出[1,8-9]。借助于深度学习强大的表示能力,研究者们对内容、用户、时序、结构等因素进行了有效的建模表示[1,8]。此外,通过深度融合技术,实现了多因素以及多模型的融合[9],大大提升了模型对消息未来流行度的预测性能。

为了更好地帮助流行度预测领域的相关研究人员,也有研究者梳理了消息流行度预测研究的相关工作,并形成了综述[10-12]。但已有的这些综述,主要都是围绕传统的流行度预测方法展开的,而未对基于深度学习的流行度预测方法进行系统性地归纳和梳理。因此,与已有综述不同,本文将重点论述和分析基于深度学习的现有流行度预测研究,并梳理出这些研究之间的相互关系。

本文组织结构如下:第1节介绍在线社交网络中流行度预测研究的相关背景,第2节和第3节分别梳理基于深度表示的流行度预测研究和基于深度融合的流行度预测研究。第4节从评价数据集、评价指标出发,总结了现有方法的评价体系。第5节对全文进行了总结。