开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

2021 年 8 月 13 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/melbench

GitHub地址:https://github.com/seukgcode/MELBench

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢佳锋、吴江恒)



1. 摘要

多模态实体链接是多模态数据处理的基础任务之一,旨在将多模态数据中的实体链接到知识图谱中,在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而,目前开源和能重现的多模态实体链接数据集还很少,一定程度上制约着相关工作的研究。
东南大学团队发布的多模态实体链接数据集MELBench包含3个任务:Weibo-MELWikidata-MELRichpedia-MEL数据集,数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域,分别包含2.5万、1.8万和1.7万条多模态实体链接数据,每条数据均为人工标注,包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接(MEL)任务提供基准数据支持。
2. 多模态实体链接(MEL)

实体链接(EL)是将实体描述映射到知识图谱中相应实体的任务,在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而,一方面,通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面,在现实世界的数据中,例如社交媒体、百科知识和多模态知识图谱等领域数据,通常同时使用文本和视觉信息描述相应实体。因此,有必要结合多模态信息解决EL问题,这一任务也被称为多模态实体链接(MEL)。

3. 数据集构建

为了构建大规模MEL数据集,促进相关研究,我们提出了一种MEL数据集构建方法,包括五个阶段,如下图所示。在多模态信息抽取阶段,我们选择不同的现实世界多模态数据源,提取文本和视觉信息;在提及抽取阶段,我们从文本信息中获取提及,并保留可能存在相应实体的提及;在实体抽取阶段,我们用上一阶段保留的提及查询知识图谱,收集相关实体列表,并保留提及相应的实体;在三元组构建阶段,我们将相应的提及和实体合并为提及-实体对,并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组;最后,在数据集构建阶段,我们按照7:1:2的比例,将数据分为训练集,验证集和测试集。

4. 数据集详情

基于上述的MEL数据集构建方法,我们完成了三个MEL数据集构建:

  • Weibo-MEL 采用微博作为多模态数据源,并采用 CN-DBpedia 作为知识图谱。数据集包含 25,602 个样本,对应 31,516 个提及-实体对。
  • Wikidata-MEL 采用 Wikidata 和 Wikipedia 作为多模态数据源,并采用 Wikidata 作为知识图谱。 数据集包含 18,880 个样本,对应 22,534 个提及-实体对。
  • Richpedia-MEL 采用 Richpedia 和 Wikipedia 作为多模态数据源,同样采用 Wikidata 作为知识图谱。 数据集包含 17,806 个样本,对应 20,752 个提及-实体对。

此外,我们统计了数据集的文本长度和提及数量,如下图所示,三个数据集具有较大差异,体现了不同领域的数据特征。

5. 致谢
数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成,指导老师汪鹏。


 


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
2

相关内容

专知会员服务
23+阅读 · 2021年6月19日
专知会员服务
34+阅读 · 2021年6月8日
专知会员服务
37+阅读 · 2021年5月14日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
72+阅读 · 2020年9月25日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)
开放知识图谱
0+阅读 · 2021年9月10日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Synthesizing Informative Training Samples with GAN
Arxiv
0+阅读 · 2022年4月15日
Arxiv
48+阅读 · 2021年9月11日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员