cnSchema: 面向 bot 的开放中文知识图谱 schema

2017 年 5 月 3 日 开放知识图谱

本文改编整理自丁力,谢殿侠(海知智能),陈华钧(浙江大学),漆桂林(东南大学)在杭州首届金融知识图谱论坛上的报告。

cnSchema 是 OpenKG 正在努力的一个方向,其目标就是通过复用与设计 schema,支持开放中文知识图谱应用落地。这里的 schema 就是中文知识图谱中使用的词汇集、数据字典。

从下图的实体数据中可以看到,在发布和使用开放数据中 schema 定义了实体的分类、属性和数据结构,是数据接口的关键部分。数据发布者可以通过 schema 说明“我有什么数据”,例如实体分多少类别,每种实体分别具备哪些属性和结构。数据使用者也可以通过 schema 提出“我要什么数据”,例如需要哪些类型的实体,某种实体必须具备哪些属性。

图一:基于schema.org的schema发布的数据(使用JSON-LD格式)

开放知识图谱数据发布的早期代表性科研工作有 2001 年提出的 Semantic Web【1】和 2007 年提出的 LinkedData【2】。目前实际应用中有两个著名的 schema 体系:schema.org【3】和 Wikidata (www.wikidata.org)【4】。

schema.org 是谷歌等搜索引擎公司于 2011 年推出的 schema 规范体系,指导数据发布者如何在网页中嵌入并发布结构化数据。它的核心 Schema 由一个专家组自顶向下定义,其中近 600 种核心分类覆盖了人物、机构、产品、地点等常用概念,同时它也支持垂直领域工作组进一步贡献医疗、文献、金融等领域的特定概念体系。

2016 年的统计【6】表明 schema.org 的规范已经被全球超过 5 百万独立域名网站使用,尤其是广泛覆盖了大量垂直领域的知名网站,例如电商 60%,商旅 86%,工作 70% 。美中不足的是,并非所有schema.org定义的类型和属性都被广泛使用,而且它的概念定义和数据结构也缺乏对中文市场的支持。

Wikidata 是 2012 年维基百基金会利用其高品质的众包编辑团队推出的一站式知识图谱数据管理平台。上万志愿者依据自底向上的原则自主发布或导入数据,在经过相对严格的管理员审核来保障数据质量与可信度。该网站目前拥有 2500 万实体的数据。但是,Wikidata 缺乏明确的终端应用,而且它过于庞杂的分类体系也不适于 Bot 构建领域词典。下表对比了 schema.org 和 Wikidata 在 schema 设计和应用方面的特色与差异。

表一:知识图谱schema设计与应用的对比(schema.org,Wikidata)

为了支持开放中文知识图谱应用落地,cnSchema 希望解决下面几个问题。

  • 1)面向智能机器人(Bots)。Bots 是搜索引擎后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,而且多轮对话还要求更丰富的上下文知识。这需要知识图谱schema提供简洁灵活的数据模型支持,例如文本与结构化数据的结合,多来源数据的融合,规整的 schema 定义等。面向中文市场。cnSchema 是中文知识图谱接口的关键,不论是 schema 自身对接中文自然语言处理,还是针对中文信息中特有概念都需要支持。

  • 2)开放的 schema。知识图谱的学习代价与构建成本都不低,希望能尽量利用现有规范标准,避免各家重新发明轮子,快速达成核心概念的简洁稳定的共识;进一步针对垂直领域的合作者,通过最佳实践帮助他们扩展领域知识图谱以支持数据发布和应用。

  • 3)应用落地。开放中文知识图谱天生就是一个庞大的生态体系,需要有合理的方法实现成本分摊,保障数据发布者的权益,支持大家快速应用落地并实现可衡量的价值。

cnSchema 的工作正处于筹备阶段,几个代表性的工作包括(1)schemaorg 的国内镜像与中文翻译,(2)中文知识图谱核心概念的 schema 梳理与举例,(3)schema 设计原则与工具的推荐,(4)音乐,饮食,佛学等垂直领域以及通用百科在 Bot 中应用落地。更多的项目会在 GITHUB 上讨论并推进。(https://github.com/cnschema/cnschema)

欢迎对知识图谱 schema 感兴趣的同仁加入我们,共同为为建设 OpenKG 倡导的开放中文知识图谱添砖加瓦,也欢迎大家关注 cnSchema 的微信公众号,获取更多动态。


参考资料

  • 1Tim Berners-Lee, Jim Hendler, and Ora Lassila,     "The Semantic Web," Scientific American, May 2001, pp. 34–43.

  • 2Tim Berners-Lee, Linked Data, 2006. https://www.w3.org/DesignIssues/LinkedData.html

  • 3R. V. Guha, Dan Brickley, and Steve Macbeth. 2016.     Schema.org: evolution of structured data on the web. Commun. ACM 59, 2,     44-51. DOI: https://doi.org/10.1145/2844544

  • 4Denny Vrandečić and Markus Krötzsch. 2014. Wikidata: a     free collaborative knowledgebase. Commun. ACM 57, 10, 78-85. DOI: https://doi.org/10.1145/2629489

  • 5https://github.com/schemaorg/schemaorg/tree/sdo-callisto/data/releases/3.2    

  • 6Christian Bizer, Robert Meusel, Anna Primpeli, Web Data     Commons - RDFa, Microdata, and Microformat Data SetsExtracting Structured Data from     the Common Web Crawlhttp://webdatacommons.org/structureddata/#results-2016-1

  • 7https://www.wikidata.org/wiki/Wikidata:Statistics

  • 8https://www.wikidata.org/wiki/Wikidata:Database_reports/List_of_properties/all

  • 9https://tools.wmflabs.org/wikidata-todo/stats.php

  • 10https://tools.wmflabs.org/bambots/WikidataClasses.php


OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
5

相关内容

维基数据(Wikidata)是一个具有超过4600万个数据项的维基数据库。
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
AI人必看!89页全网最全清华知识图谱报告
人工智能学家
49+阅读 · 2019年2月17日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
知识图谱的系统工程观
中国计算机学会
18+阅读 · 2018年11月13日
赛尔原创 | 开放域中文知识图谱《大词林》
哈工大SCIR
71+阅读 · 2018年4月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
揭开知识库问答KB-QA的面纱1·简介篇
PaperWeekly
6+阅读 · 2017年8月3日
Arxiv
6+阅读 · 2018年3月25日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
相关资讯
AI人必看!89页全网最全清华知识图谱报告
人工智能学家
49+阅读 · 2019年2月17日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
知识图谱的系统工程观
中国计算机学会
18+阅读 · 2018年11月13日
赛尔原创 | 开放域中文知识图谱《大词林》
哈工大SCIR
71+阅读 · 2018年4月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
揭开知识库问答KB-QA的面纱1·简介篇
PaperWeekly
6+阅读 · 2017年8月3日
Top
微信扫码咨询专知VIP会员