DGraph: 大规模动态图数据集

2022 年 7 月 3 日 PaperWeekly


近日,浙江大学杨洋老师科研小组(yangy.org)和信也科技联合发布 大规模动态图数据集 DGraph ,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模数据。DGraph 一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。


数据集主页:
https://dgraph.xinye.com/

Github:

https://github.com/DGraphXinye/

相关论文:

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection. Xuanwen Huang, Yang Yang*, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, and Lei Chen. Preprint, 2022. (http://yangy.org/works/dgraph/dgraph_2022.pdf)




数据集描述


DGraph 的源数据由信也科技提供。DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边。如下图所示,DGraph 中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。





数据特色


场景真实


DGraph 来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph 中的异常与正常用户比例约为 1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。


结构动态


DGraph 中的用户关系采样自横跨 27 个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。


规模庞大


DGraph 包含 370 万名经过脱敏处理的真实金融借贷用户和 430 万条动态关系,其规模约为金融领域当前最大的动态图数据 Elliptic 的 17 倍,支持大规模图模型的研究与评估。此外,DGraph 中包含 60% 的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph 中包含超过 200 万个背景节点,可以支持研究者深入探索背景节点的性质。




开源社区维护


排行榜


DGraph 提供了用户可随时递交、刷新的性能排行榜(leaderboard),以跟踪最新图模型的研究进展。该榜提供统一的评估流程,所有结果公开透明。

科研成果


DGraph 的特点丰富,支持多个方向的图研究工作。


算法大赛


信也科技围绕 DGraph 举办了第七届信也科技杯图算法大赛,任务与 DGraph 中的诈骗用户识别一致。大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,奖金池丰厚,共计 31 万人民币。

欢迎感兴趣的同仁光顾 DGraph 公开数据网站,一起致力为人工智能领域提供丰富的应用数据,携手共建开放的数字生态。





合作平台







更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·


登录查看更多
1

相关内容

「大规模图神经网络系统」最新2022综述:从算法到系统
专知会员服务
111+阅读 · 2022年1月14日
专知会员服务
138+阅读 · 2021年3月30日
专知会员服务
37+阅读 · 2020年11月24日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
27+阅读 · 2020年11月3日
图嵌入模型综述: 方法、数据集与应用
机器学习与推荐算法
0+阅读 · 2022年7月6日
WSDM'22 | 大规模动态图链路预测挑战赛,奖励丰厚
图与推荐
1+阅读 · 2021年11月12日
图神经网络+推荐系统的最新进展
图与推荐
1+阅读 · 2021年11月2日
谷歌/阿里/腾讯是如何加速大规模GNN的?
图与推荐
0+阅读 · 2021年9月13日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
56+阅读 · 2021年5月3日
Arxiv
99+阅读 · 2020年3月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
15+阅读 · 2020年2月5日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
23+阅读 · 2018年10月24日
Arxiv
12+阅读 · 2018年9月15日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
相关论文
Arxiv
64+阅读 · 2022年4月13日
Arxiv
56+阅读 · 2021年5月3日
Arxiv
99+阅读 · 2020年3月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
15+阅读 · 2020年2月5日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
23+阅读 · 2018年10月24日
Arxiv
12+阅读 · 2018年9月15日
Top
微信扫码咨询专知VIP会员