开源开放 | OpenKG发布cnSchema重构版本

2022 年 7 月 29 日 开放知识图谱

cnSchema网站:http://cnschema.openkg.cn/

GitHub地址:https://github.com/cnschema/cnSchema

开放许可协议:CC 0


摘要
cnSchema是由OpenKG管理和维护的面向中文知识图谱的Schema参考标准。结合中文语言特点和中文领域特点需求,cnSchema连接schema.org、WikiData等典型的知识图谱数据标准,为中文领域的知识图谱构建提供一个基础的、共享的、可复用的Schema参考标准。
cnSchema的早期版本由知识图谱资深专家丁力博士牵头设计,并由来自浙江大学、清华大学、东南大学、同济大学、复旦大学、南京大学等多所高校的知识图谱研究者共同参与构建。近期OpenKG组织技术力量对cnSchema进行了重新架构,主要更新内容包括:

1.类层次结构的优化和扩展

2.针对中文领域需求对类及属性进行了扩增和删改

3.新增了支持cnSchema的预训练抽取模型

1. cnSchema重构简介

cnSchema中包含了中文域最常见的概念和属性,围绕人物、机构、地点等最常见的类别定义,cnSchema为每个概念提供了父子概念及可能的属性和关系集合,还为每个属性提供了定义域、值域、子属性、等价关系、逆关系等集合,以帮助形成中文核心概念的简洁稳定的共识,避免重复定义,降低知识图谱构建成本和学习代价,方便大家快速准确复用和拓展中文中的概念。
本次发布的cnSchema V4.0版本对概念和属性进行了全新的翻译拓展,主要包括以下几个方面:
1.Schema.org翻译:根据最新版schema.org(V13),针对schema.org中新增和修改的概念属性进行翻译,并为每个翻译的属性和关系保留schema.org的URI;
2.中文核心概念重构和拓展:顶层概念保留了“动作”、“创作”、“事件”、“服务”、“机构”等10个中文语境下常见的类型,并对较为薄弱的人的概念和属性进行了拓展;
3.中文域特有概念拓增:增加了中文域特有的概念,如“天干地支”、“节气”、“中国传统节日”等。
4.中文域特有属性拓增:增加了中文域特有的属性,如历史人物所具有的“字”、“号”、“朝代”等。
5.支持cnSchema的预训练抽取模型: 为便于使用者直接从语料中抽取产生符合cnSchema类型及属性定义的三元组,还发布了支持cnSchema的预训练抽取模型(首批支持20多个类别50多个属性和关系的抽取,后续将持续扩展和更新)。

下表展示了cnSchemaV4.0的数据及更新概况:

2. 如何使用cnSchema

cnSchema将对外提供基于数据和基于模型的使用方法:

1.下载源数据,进行自主编辑:用户可以在github或cnSchema网站下载最新版的cnSchema数据,包括json/jsonld/xls等格式。cnSchema将发布用于可用于cnSchema编辑的python工具包以及网页版可视化编辑工具,以便用户进行自主编辑和修改。

2.使用基于cnSchema的预训练抽取工具:cnSchema提供了支持cnSchema的预训练抽取工具,该工具可以帮助用户自动构建符合cnSchema定义的知识图谱,目前已支持面向二十多种关系和近五十种概念的三元组抽取。

具体使用方法参考cnschema官方网站:http://cnSchema.openkg.cn

cnSchema会定期更新,欢迎大家试用和提建议

视频详解:



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
0

相关内容

「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
192+阅读 · 2022年9月3日
「基于深度学习的 SQL 生成」2022研究综述
专知会员服务
27+阅读 · 2022年8月12日
城市大脑知识图谱构建及应用研究
专知会员服务
71+阅读 · 2022年6月28日
116页《数字乡村建设指南1.0》
专知会员服务
16+阅读 · 2022年3月23日
央行发布《金融大数据术语》,25页pdf
专知会员服务
41+阅读 · 2022年1月25日
智源发布《2020北京人工智能发展报告》,附43页pdf
专知会员服务
126+阅读 · 2020年11月19日
专知会员服务
193+阅读 · 2020年10月14日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
开源开放 | 中药说明书实体识别数据集TCM-NER
开放知识图谱
0+阅读 · 2022年10月12日
开源开放 | 面向家庭常见疾病的知识图谱(东南大学)
开放知识图谱
1+阅读 · 2022年7月15日
知识图谱开源开放及生态 | 7月12日TF65
量子位
0+阅读 · 2022年7月10日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 移动应用知识图谱MAKG(CCKS2021)
开放知识图谱
0+阅读 · 2021年8月9日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月30日
已删除
Arxiv
32+阅读 · 2020年3月23日
VIP会员
相关VIP内容
「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
192+阅读 · 2022年9月3日
「基于深度学习的 SQL 生成」2022研究综述
专知会员服务
27+阅读 · 2022年8月12日
城市大脑知识图谱构建及应用研究
专知会员服务
71+阅读 · 2022年6月28日
116页《数字乡村建设指南1.0》
专知会员服务
16+阅读 · 2022年3月23日
央行发布《金融大数据术语》,25页pdf
专知会员服务
41+阅读 · 2022年1月25日
智源发布《2020北京人工智能发展报告》,附43页pdf
专知会员服务
126+阅读 · 2020年11月19日
专知会员服务
193+阅读 · 2020年10月14日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
相关资讯
开源开放 | 中药说明书实体识别数据集TCM-NER
开放知识图谱
0+阅读 · 2022年10月12日
开源开放 | 面向家庭常见疾病的知识图谱(东南大学)
开放知识图谱
1+阅读 · 2022年7月15日
知识图谱开源开放及生态 | 7月12日TF65
量子位
0+阅读 · 2022年7月10日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 移动应用知识图谱MAKG(CCKS2021)
开放知识图谱
0+阅读 · 2021年8月9日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员