在现实生活中,网络无处不在。小到蛋白质分子相互连接的生物网,大到人与人相互联系的关系网,我们的衣食住行几乎被抽象的网络包围。这些网络数据量大,而且会随着时间不断演变。
近期,中国科学院声学研究所语言声学与内容理解重点实验室研究员颜永红领导的大数据课题组宣布,基于动态网络的学习表示并用于链路预测的研究取得阶段性成果,已在多个场景下的数据中取得优异表现。相关成果5月25日在线发表于国际学术期刊IEEE Access。
近几年,对网络节点所包含的连接信息及属性信息进行数据压缩,通过神经网络等方法进行学习和表示,成为数据挖掘领域的研究热点。对于网络连接数据,节点的学习表示可以大大减少数据的存储和计算资源,学习到的节点向量不仅保存了网络的链接信息,还可以用于各类传统任务,如社区发现、网络聚类和分类、网络的可视化以及链路预测等。
如何对大数据网络的演变进行分析,是大数据背景下的一个研究热点。颜永红课题组提供了一个新的思路:对大网络及超大网络的节点根据历史连接信息进行学习表示,将节点信息压缩成一个低维度的向量,并将习得的向量用于预测网络未来的连接走向。模型的学习和预测过程如图1。
课题组通过设计和构建深度学习网络,将网络的历史连接矩阵通过门控循环神经单元,把历史信息编码至一个低维向量,然后通过多层感知机单元进行解码,学习得到既包含历史信息又能预测未来连接状态的节点向量。模型的具体结构如图2。
这种新型的向量表示方法,不仅解决了大数据条件下网络数据难以表示和计算的问题,还可以用于预测网络的演化和走向。在互联网领域有广阔的应用空间,如商品推荐和好友推荐;在生物化学领域,可用来预测蛋白质分子的连接;在社会学领域,可用于预测人们之间的交互行为等。
该研究突破了网络节点学习的两大挑战,一是由高维度网络向低维度向量的信息压缩表示,二是连接状态随时间变化的非线性演变。与传统的学习表示方法相比,新型的向量表示方法提供了一种融合时间信息的新的学习表示思路,对于网络的演化、重构、预测具有重要意义。
该研究得到国家自然科学基金(No. 11590770-4, 11722437, 61650202, U1536117,61671442, 11674352, 11504406, 61601453)、国家重点研发计划(No. 2016YFB0801203, 2016YFC0800503, 2017YFB1002803)和新疆维吾尔自治区重大科技专项(No. 2016A03007-1)资助。
论文信息:LI Taisong, ZHANG Jiawei, YU S. Philip, ZHANG Yan, YAN Yonghong. Deep Dynamic Network Embedding for Link Prediction. IEEE Access (Epub 2018 May 25). DOI: 10.1109/ACCESS.2018.2839770.
图1 模型的学习和预测过程(图/李太松)
图2 模型的结构框架图(图/李太松)
来源:中国科学院声学研究所