OpenKG地址:http://openkg.cn/dataset/melbench
GitHub地址:https://github.com/seukgcode/MELBench
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢佳锋、吴江恒)
1. 摘要
实体链接(EL)是将实体描述映射到知识图谱中相应实体的任务,在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而,一方面,通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面,在现实世界的数据中,例如社交媒体、百科知识和多模态知识图谱等领域数据,通常同时使用文本和视觉信息描述相应实体。因此,有必要结合多模态信息解决EL问题,这一任务也被称为多模态实体链接(MEL)。
为了构建大规模MEL数据集,促进相关研究,我们提出了一种MEL数据集构建方法,包括五个阶段,如下图所示。在多模态信息抽取阶段,我们选择不同的现实世界多模态数据源,提取文本和视觉信息;在提及抽取阶段,我们从文本信息中获取提及,并保留可能存在相应实体的提及;在实体抽取阶段,我们用上一阶段保留的提及查询知识图谱,收集相关实体列表,并保留提及相应的实体;在三元组构建阶段,我们将相应的提及和实体合并为提及-实体对,并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组;最后,在数据集构建阶段,我们按照7:1:2的比例,将数据分为训练集,验证集和测试集。
基于上述的MEL数据集构建方法,我们完成了三个MEL数据集构建:
此外,我们统计了数据集的文本长度和提及数量,如下图所示,三个数据集具有较大差异,体现了不同领域的数据特征。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。