大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池

2022 年 11 月 16 日 机器之心

机器之心发布

机器之心编辑部
在数字商业领域,知识图谱业务的蓬勃发展在许多应用显示出了巨大的潜力,但它仍面临着诸多挑战。由阿里巴巴藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG 提供了丰富的数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、商品知识图谱链接预测等任务,对模型展开了全方位评测,旨在帮助算法人员对模型取得更好的理解。


近年来,知识图谱受到学术界和产业界的广泛关注,在教育、生物医学、金融等领域得到了广泛的应用,凸显了结构化知识在智能应用中的重要作用。2020 年图灵奖得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》论文[1]曾指出:融合表示学习与复杂知识推理是人工智能进步的阶梯。在数字商业领域,知识图谱业务的蓬勃发展在许多应用显示出了巨大的潜力,但它仍面临着诸多挑战。例如,现有的商业知识图谱往往存在大量的缺失属性、实体节点和大量相同的未对齐的实体节点,且知识图谱通常由多种模态构成,因而如何对大规模数字知识图谱进行链接预测和实体对齐(同款商品挖掘)面临严峻挑战;此外,现有的知识图谱通常缺乏对知识显著性的建模,如当用户在电商平台搜索 “跑步”关键词 时,“瓶装水”一般不是用户真实的购物意图,用户关注的商品一般是 “跑步鞋、跑步机” 等健身用品。显著的常识可以帮助搜索引擎有更好的理解能力,从而返回更贴合用户需要的商品,因此如何基于数字商业知识图谱进行商品显著性推理也面临巨大挑战。


由阿里巴巴藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG Benchmark 提供了在数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、电商知识图谱链接预测等任务,对模型展开了全方位的评测,旨在帮助科研和算法人员对模型取得更好的理解。


OpenBG Benchmark 介绍


OpenBG Benchmark 是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集任务。数据集以开放的数字商业知识图谱 OpenBG[2]为基础构建,OpenBG 是开放的数字商业知识图谱,是一个使用统一 Schema 组织、涵盖产品和消费需求的百万级多模态数据集。OpenBG 由阿里巴巴藏经阁团队和浙江大学提供,开放的目标是利用开放的商业知识发现社会经济的价值,促进数字商务数字经济等领域的交叉学科研究,服务数字经济健康发展的国家战略需求。首期开放包含以下三大类任务:


商品常识知识显著性推理


  • 任务描述


常识知识是被社会广泛承认的对同一事物普遍存在的日常共识。在电商场景中,显著性常识基于背后的知识体系,能为不同的用户推荐合适的商品,对用户体验和购物效率有重要的意义。现有的常识分类方法往往只注重评判常识是否合理,如 "跑步需要喝水"、"出差需要背包"。但当在电商平台搜索 "跑步" 时,瓶装水一般不是用户真实的购物意图,用户关注的商品一般是 “跑步鞋”、“跑步机” 等健身用品;在搜索 "出差" 时,“背包”一般并不是用户需要的商品,但 “旅行箱” 可能是符合用户意图的商品。显著的常识可以帮助搜索引擎有更好的理解能力,从而返回更贴合用户需要的商品。


  • 任务说明


本任务要求对电商常识三元组的显著性进行判断,即给定常识三元组(S,P,O),输出其显著性分类标签,如下表所示,其中 1 表示显著,0 表示不显著。


商品同款挖掘


  • 任务描述


同款商品是指商品的重要属性完全相同且客观可比的商品,商品同款识别的主要目的是从海量结构化和无结构化的商品图文数据库中匹配得到同款商品,是构建电商产品关系的重要环节。商品同款作为商品知识图谱的重要组成部分,有很多应用场景,如同款商品发现等。


  • 任务说明


我们将商品同款识别任务定义为二分类任务,即给定商品对信息,判断商品 item 是否同款,示例如下:



商品关系推理与链接预测


  • 任务描述


由于知识图谱普遍存在不完整的问题,因此需要关系推理与链接预测技术对缺失的图谱节点进行预测。本任务旨在提升数字商业场景下知识图谱嵌入效果,满足商品推荐等应用对推理商品潜在关联性的需求。


  • 任务说明


知识图谱一般通过三元组(h,r,t)的形式组织数据,其中 h 被称为头实体,t 为尾实体,r 为连接头、尾实体的关系。如下图所示(“化妆棉”,“品牌”,“屈臣氏”)就是一个图谱三元组。知识图谱的链接预测任务指的是已知头实体(或尾实体)和关系的情况下,预测缺失的尾实体(或头实体)。下图中,(“化妆棉”,“适用群体”,?)就是一个链接预测任务,需要预测出尾实体。



  • 数据集


与商品常识显著性推理以及同款挖掘任务不同的是,链接预测任务由 3 个子任务数据集组成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 类关系,含百万级别规模的图谱数据;OpenBG500-L 在 OpenBG500 的基础上扩大了数据规模,含千万级别规模的图谱数据,是电子商务领域大规模的知识图谱;OpenBG-IMG 是电商领域的多模态知识图谱。3 个数据集均以 OpenBG 为基础构建,构建流程如下:


OpenBG Benchmark 挑战榜


OpenBG Benchmark 的提出旨在解决当前数字商业领域知识图谱数据集相对匮乏的问题,为算法和科研人员提供评测基准去衡量算法模型的有效性。基于 OpenBG Benchmark 阿里巴巴藏经阁团队曾在 CCKS2022 大会成功组织了学术评测比赛,吸引了 3000 多支队伍报名参赛。目前 OpenBG Benchmark 已经在阿里云天池平台长期开放,感兴趣的研究者们可以访问如下链接参与挑战,平台会在每个月的月底评出榜单 Top5 选手,并赠予天池定制礼品! 


挑战榜地址:https://tianchi.aliyun.com/dataset/122271


官方也提供了基线代码供算法人员参考: https://github.com/OpenBGBenchmark


OpenBG 参考论文如下:

  • Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.

  • Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).

  • Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214  2022.


引用:

[1] https://www.nature.com/articles/nature14539

[2] https://kg.alibaba.com


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

Neo4j知识图谱的技术解析及案例分享
专知会员服务
46+阅读 · 2022年7月15日
ICLR | 训练面向分子模拟的十亿级参数 GNN
专知会员服务
7+阅读 · 2022年6月27日
阿里巴巴千亿级大规模数字商业知识图谱助力业务增长
专知会员服务
34+阅读 · 2022年6月26日
美团大脑百亿级知识图谱的构建及应用进展
专知会员服务
52+阅读 · 2022年6月5日
知识图谱在美团推荐场景中的应用
专知会员服务
63+阅读 · 2022年5月21日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
24+阅读 · 2021年12月5日
专知会员服务
138+阅读 · 2021年3月30日
专知会员服务
195+阅读 · 2020年10月14日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
知识图谱开源开放及生态 | 7月12日TF65
量子位
0+阅读 · 2022年7月10日
会议交流 | 知识图谱开源开放及生态——7月12日TF65
开放知识图谱
1+阅读 · 2022年7月6日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
30+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年1月13日
Arxiv
32+阅读 · 2022年5月23日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
30+阅读 · 2019年3月13日
VIP会员
相关VIP内容
Neo4j知识图谱的技术解析及案例分享
专知会员服务
46+阅读 · 2022年7月15日
ICLR | 训练面向分子模拟的十亿级参数 GNN
专知会员服务
7+阅读 · 2022年6月27日
阿里巴巴千亿级大规模数字商业知识图谱助力业务增长
专知会员服务
34+阅读 · 2022年6月26日
美团大脑百亿级知识图谱的构建及应用进展
专知会员服务
52+阅读 · 2022年6月5日
知识图谱在美团推荐场景中的应用
专知会员服务
63+阅读 · 2022年5月21日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
24+阅读 · 2021年12月5日
专知会员服务
138+阅读 · 2021年3月30日
专知会员服务
195+阅读 · 2020年10月14日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
30+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Arxiv
0+阅读 · 2023年1月13日
Arxiv
32+阅读 · 2022年5月23日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
30+阅读 · 2019年3月13日
Top
微信扫码咨询专知VIP会员