开源开放 | 中国近代历史人物知识图谱

2021 年 12 月 3 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/zgjdlsrw

项目地址:http://www.zjuwtx.work/project/kg

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:浙江大学(王天笑)


1、引言

中国近代历史涌现了⼤量的杰出⼈物和事迹,史料文献丰富,构成了一个庞⼤的知识体系。本项⽬旨在收集挖掘中国近代历史⼈物信息,构建⼈物及其相关实体的知识图谱,为历史资料的检索和研究⼯作提供帮助。

2、知识图谱构建
2.1 数据来源
中国近现代历史⼈物信息主要来源于百度百科历史记两个⽹站。通过 python scrapy 爬⾍获取了 近1300位⼈物的结构化数据,半结构化数据和⽂本数据。其中,结构化数据主要包含⼈物的姓名、字号、出⽣地、⽣卒年⽉等信息;半结构化数据包括⼈物间的关系、历史成就等;⽂本数据主要是⼈物的生平介绍、评论等,有⽹站负责编辑维护,语⾔描述和记录的史料不⼀定完全准确。
2.2 数据处理
2.2.1 半结构化数据处理
  • 数据变换:从半结构化数据中提取信息,转化汇总成相同的格式,例如 

  • 数据清理:将明显不正确的信息删除,例如 

  • 数据集成:整合两个数据源的数据,如果有不一致,直接删除

2.2.2 文本数据处理
项目尝试了基于语义⻆⾊标注和基于深度学习的实体关系抽取⽅法。

(1)基于LTP语义角色标注的实体关系抽取

LTP(Language Technology Platform)是由哈尔滨工业⼤学开源的中⽂⾃然语⾔处理⼯具,用户可以使⽤这些⼯具对于中⽂⽂本进⾏分词、词性标注、句法分析等等⼯作。Github:https://github.com/HIT-SCIR/ltp 
使⽤LTP提供的语义⻆⾊标注分解句⼦:

上述例句被分解为了中⼼语(动词:加⼊),主语A0(王俊昌),宾语A1(中国共产党)和时间状 语ARGM-TMP(1943年2⽉)。通过构建基于语义⻆⾊标注的规则,可以从⽂本数据中提取符合规则的关系,准确度较⾼。但规则构建依赖⼈⼯。
(2)基于OpenUE的实体关系抽取
OpenUE 是⼀个轻量级知识图谱抽取⼯具,⽤于基于预训练语言模型的知识图谱抽取任务。Github:https://github.com/zjunlp/OpenUE 
使⽤OpenUE⼯具包和默认ske数据集训练并执⾏抽取。在简单句⼦中准确率较⾼,但是在所有⽂本 数据中的表现并不理想。原因可能是⽂本语句通常⽐较复杂,且句⼦间存在上下⽂关联的情况。例如主 语缺失等。
(3)基于OpenNRE的人物关系抽取
OpenNRE 是⼀个开源且可扩展的工具包,它提供了一个统⼀的框架来实现关系提取模型。项⽬尝 试使⽤基于OpenNRE的中⽂人物关系抽取,Github: https://github.com/taorui-plus/OpenNRE
按照上述Github项⽬的描述训练模型并执⾏关系提取任务,结果同样在简单句型中表现良好,但在 多数复杂句型中出现了遗漏和错误。综上所述,出于准确度、史实正确性优先的考虑,项目最终使⽤了基于语义⻆⾊标注的实体关系抽取⽅法。
3、知识图谱存储
项目基于neo4j图数据库存储实体关系数据。实体对象共3类:⼈物,组织(学校),成就(作品)。其中人物包含属性:名称、附加名称、出⽣地、出⽣⽇期、死亡⽇期、⼯作职责、名族、国籍(在华外籍⼈物)。实体关系共3个⼤类:相关⼈物、毕业于、创作。相关⼈物可细分为7个⼦类,21个具体关系,如下图所示:


4、知识图谱应用
项目最终成果使⽤BS形式部署上云。后端打包为Docker镜像部署到阿⾥云ECI,前端部署到阿⾥云CDN。可以访问 http://www.zjuwtx.work/project/kg 查看。
4.1 人物检索
基本的⼈物检索功能,查看⼈物属性以及与其他实体间的关系。


4.2 图谱推理
基于规则的图谱推理,通过⾃定义Cypher脚本实现。包括关系推理和属性补全。
4.3 知识众包
考虑到数据来源有限,同时数据内容以及数据处理过程不可避免地会存在⼀些问题,导致了图谱知识的缺失和错误。项目提供了知识众包功能,所有⽤户可以快速提交新增、修改数据的请求,在审核通过后会合并到现有的知识图谱中。


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
2

相关内容

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
专知会员服务
193+阅读 · 2020年10月14日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
288+阅读 · 2020年10月6日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
101+阅读 · 2020年3月4日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员