论文浅尝 | Data Intelligence - 多篇语义资源论文

2020 年 5 月 18 日 开放知识图谱

本文转载自公众号：DI数据智能 。

编者按：Data Intelligence最新发表一组语义资源论文，包括世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen教授团队的Constructing and Cleaning Identity Graphs in the LOD Cloud，人工智能和语义网研究领域国际知名学者、美国伦斯勒理工学院Deborah McGuinness教授团队的The Semantic Data Dictionary – An Approach for Describing and Annotating Data，英国开放大学研究者团队的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas，美国堪萨斯州立大学著名语义网技术专家Pascal Hitzler教授团队的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知识技术团队专家的文章：Refining Linked Data with Games with a Purpose 。

论文1

Constructing and Cleaning Identity Graphs in the LOD Cloud（在关联开放数据云上构建并清理等价关系图谱）

引用本文：J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Saïs. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057

摘要：因为缺少个体命名的权威机构，所以在语义网上普遍存在着不同数据集用不同名称指代同一个体的现象。当使用多个名称表示同一个体时，我们需要使用 owl:sameAs 语句来关联数据，并促进重用。2009年开始就有研究指出使用 owl:sameAs 属性时有时会产生错误。我们之前的工作展示过一张包含超过5亿条明确含有 owl:sameAs语句和350亿条暗含owl:sameAs语句的等价关系图谱（identity graph）。我们提出了一个可扩展的方法，可自动计算每一条等价语句的错误程度。在本文中，我们生成了整张等价关系图谱的子图，这些子图都包含一定程度的错误数据。本文结论是尽管语义网中包含了许多错误的owl:sameAs语句，但语义网上的数据仍是可用的，同时我们可把因错误使用owl:sameAs语句带来的负面影响降到最低。

阅读全文，请扫描二维码

论文 2

The Semantic Data Dictionary – An Approach for Describing and Annotating Data（语义数据字典——一种描述和注释数据的方法）

引用本文：S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058

摘要：数据集提供者在以数据字典的形式发布数据时，通常会为字典表里每列数据提供文本描述。虽然这些本文描述有助于用户正确理解数据集中每列数据的含义，但并不适合机读，也没有遵循统一的标准规范。已有研究指出语义数据字典可弥补现有数据字典的缺陷。语义数据字典，规定了数据的语义表示规范，可使各种不同数据集的数据表达规范化。本研究的语义数据字典基于生物医学数据构建，但实际上这种方法可以、并已被用于不同的学科领域。利用语义数据字典可促进数据的被发现、互操作、可重用，可溯源和可再现。本文展示了可公开获取的美国国家健康与营养检验调查数据集的语义标注的实例，讨论了数据建模的挑战，描述了研究者利用语义数据字典方法进行的工作，包括美国国立卫生研究院资助的大型健康数据网站和伦斯勒理工学院和IBM合作的“分析、学习和语义”健康赋能项目。在评测部分，研究者们设计了四个指标：数据、语义、FAIR原则和普适性，分别对比了语义数据字典、传统数据字典、映射语言和数据集成工具在这四个指标上的得分。研究者们也对该方法的局限性进行了讨论并对未来研究方向进行了展望。

阅读全文，请扫描二维码

论文 3

The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas（计算机科学本体：自动生成对研究领域的全面分类）

引用本文：A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055

摘要：研究领域本体是用来描绘某个研究领域特征，探索和分析该领域的重要工具。有一些研究领域已经编制出能够全面描绘本领域的大型主题词表，例如生物医学领域的MeSH医学主题词表，物理学领域的PhySHC主题词表。相比之下，计算机科学领域的主题词表粒度粗，而且发展缓慢。例如，ACM分类系统只包括2,000个研究主题，而且最近的版本还是2012年发布的。在本文中，我们介绍了能自动对研究领域进行分类的大型计算机科学本体（ Computer Science Ontology，CSO），它包括1,400个主题和162,000条语义关系。该本体是通过在一个包含1,600万篇科技文章的大型数据集上运用 Klink-2算法而建立的。

CSO的优势体现在：1）本体中的大量主题没有在其他分类体系中出现过；2）通过在最近出版的文章数据集上运行Klink-2算法可自动升级CSO。在CSO基础上开发的几款工具已被Springer Nature编辑团队采用，而且CSO已经被用来作为解决方案，例如对科研出版物进行分类，发现新的研究社区，预测研究趋势等。为推广CSO的应用，我们也发布了可用来自动分类研究论文的CSO分类器，可帮助用户下载和研究CSO、提供对CSO的细粒度反馈的CSO门户网站。用户可以使用此网站进行导航，对本体的各个部分进行可视化，对主题和语义关系给出评分，提出需要补充哪些主题和语义关系的建议。

此外，CSO主体数据已在Data Intelligence期刊数据平台上与论文关联发布，欢迎大家下载使用。

论文全文地址为：https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055

数据下载地址为：http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#（需先注册后下载）

阅读全文，请扫描二维码

论文 4

GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology （GeoLink数据集：基于真实数据的复杂本体匹配研究基准数据集）

引用本文：L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054

摘要：本体对齐的研究已经有十多年的历史，研究人员已经提出了很多方法，并开发了系统来发现两个本体之间一对一的匹配关系。但是，很少有本体对齐系统的研究关注本体间复杂的匹配关系。这其中的原因可能是目前并没有广泛接受的包含复杂关系的本体对齐基准数据集。本文基于GeoLink项目构建了一个真实世界数据集，可作为复杂本体匹配的基准数据集。本数据集包括两个本体，GeoLink基本本体（GeoLink Base Ontology, GBO) 和GeoLink模块本体（GeoLink Modular Ontology, GMO), 以及一个在咨询各学院领域专家后手工构建的校验参考数据集。

本数据集实体对齐包括一对一、一对多、多对多三种类型，使用EDOAL语言（即Expressive and Declarative Ontology Alignment Language，本体匹配表达及声明语言）和规则语法来描述实体对应属性关系。基准数据集的最初版本已经进行了扩充，现在的版本包括由七位地球科学家提供的真实世界实例数据，而且两个本体的数据集都已经发布。此基准数据集可用在对齐系统中，或已经有训练数据的系统。此外，此数据集已经被用于本体对齐竞赛（Ontology Alignment Evaluation Initiative, OAEI）中的复杂本体匹配的比赛中，帮助研究者们测试他们的自动对齐系统和算法。本文也分析了复杂本体对齐工作面临的挑战，并提供了未来研究工作的路线图。

该论文描述的数据集已在Data Intelligence期刊数据平台在线发布，敬请大家下载。

论文全文地址为：https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054

数据下载地址为：http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal（需先注册后下载）

阅读全文，请扫描二维码

论文 5

Refining Linked Data with Games with a Purpose（用有目的的游戏优化关联数据）

引用本文：I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056。

摘要：随着关联数据和知识图谱的兴起，我们迫切需要更多的数据集以及更准确的数据来补充缺失的知识，发现和改正已有数据的错误。研究人员已经提出了一些解决方案，这些方案大多依赖机器学习和自然语言处理技术，通常也需要一种“黄金标准”，即“参考标准数据”来训练自动分类模型。“黄金标准”是人工构建的，或通过邀请领域专家参与构建，或采用众包和人力计算的解决方案构建。本文提出了一种开源软件框架，通过激励措施启发用户参加网上游戏，我们称之为“有目的的游戏”（Games with a Purpose, GWAP），来优化关联数据，也就是说通过众包的方式得到部分“参考标准数据”。本框架支持的关联数据的功能包括创建数据链接，给链接评分和校验链接。通过介绍本框架的支持功能和定义每个众包任务是如何帮助实现这些功能，我们展示了本文提出的框架方法所具有的现实意义。

文中介绍了利用“有目的的游戏”（GWAP）玩家贡献的数据推断“参考标准数据”的方法。通过对比GWAP和传统众包方法来说明本文方法的必要性，本文解释并描述了方法过程，通过与目前最先进的方法对比显示本文方法的先进性。本文提出的方法有多种用途：文中描述了基于本方法的不同应用来展示它的可重用性和可扩展的潜力。文中也提供了本文方法的参考资料，包括整个教程，让新手在几个小时内可以学会使用本框架方法拓展新的应用案列。

论文全文地址为：https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056

阅读全文，请扫描二维码