cnSchema网站:http://cnschema.openkg.cn/
GitHub地址:https://github.com/cnschema/cnSchema
开放许可协议:CC 0
cnSchema是由OpenKG管理和维护的面向中文知识图谱的Schema参考标准。结合中文语言特点和中文领域特点需求,cnSchema连接schema.org、WikiData等典型的知识图谱数据标准,为中文领域的知识图谱构建提供一个基础的、共享的、可复用的Schema参考标准。
cnSchema的早期版本由知识图谱资深专家丁力博士牵头设计,并由来自浙江大学、清华大学、东南大学、同济大学、复旦大学、南京大学等多所高校的知识图谱研究者共同参与构建。近期OpenKG组织技术力量对cnSchema进行了重新架构,主要更新内容包括:
1.类层次结构的优化和扩展
2.针对中文领域需求对类及属性进行了扩增和删改
3.新增了支持cnSchema的预训练抽取模型
1. cnSchema重构简介
cnSchema中包含了中文域最常见的概念和属性,围绕人物、机构、地点等最常见的类别定义,cnSchema为每个概念提供了父子概念及可能的属性和关系集合,还为每个属性提供了定义域、值域、子属性、等价关系、逆关系等集合,以帮助形成中文核心概念的简洁稳定的共识,避免重复定义,降低知识图谱构建成本和学习代价,方便大家快速准确复用和拓展中文中的概念。
本次发布的cnSchema V4.0版本对概念和属性进行了全新的翻译拓展,主要包括以下几个方面:
1.Schema.org翻译:根据最新版schema.org(V13),针对schema.org中新增和修改的概念属性进行翻译,并为每个翻译的属性和关系保留schema.org的URI;
2.中文核心概念重构和拓展:顶层概念保留了“动作”、“创作”、“事件”、“服务”、“机构”等10个中文语境下常见的类型,并对较为薄弱的人的概念和属性进行了拓展;
3.中文域特有概念拓增:增加了中文域特有的概念,如“天干地支”、“节气”、“中国传统节日”等。
4.中文域特有属性拓增:增加了中文域特有的属性,如历史人物所具有的“字”、“号”、“朝代”等。
5.支持cnSchema的预训练抽取模型:
为便于使用者直接从语料中抽取产生符合cnSchema类型及属性定义的三元组,还发布了支持cnSchema的预训练抽取模型(首批支持20多个类别50多个属性和关系的抽取,后续将持续扩展和更新)。
下表展示了cnSchemaV4.0的数据及更新概况:
2. 如何使用cnSchema
cnSchema将对外提供基于数据和基于模型的使用方法:
1.下载源数据,进行自主编辑:用户可以在github或cnSchema网站下载最新版的cnSchema数据,包括json/jsonld/xls等格式。cnSchema将发布用于可用于cnSchema编辑的python工具包以及网页版可视化编辑工具,以便用户进行自主编辑和修改。
2.使用基于cnSchema的预训练抽取工具:cnSchema提供了支持cnSchema的预训练抽取工具,该工具可以帮助用户自动构建符合cnSchema定义的知识图谱,目前已支持面向二十多种关系和近五十种概念的三元组抽取。
具体使用方法参考cnschema官方网站:http://cnSchema.openkg.cn
cnSchema会定期更新,欢迎大家试用和提建议。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。