开源开放 | 中国近代历史人物知识图谱 - 专知

会员服务 ·

0

开源开放 | 中国近代历史人物知识图谱

2021 年 12 月 3 日 开放知识图谱

OpenKG地址：http://openkg.cn/dataset/zgjdlsrw

项目地址：http://www.zjuwtx.work/project/kg

开放许可协议：CC BY-SA 4.0 （署名相似共享）

贡献者：浙江大学（王天笑）

1、引言

中国近代历史涌现了⼤量的杰出⼈物和事迹，史料文献丰富，构成了一个庞⼤的知识体系。本项⽬旨在收集挖掘中国近代历史⼈物信息，构建⼈物及其相关实体的知识图谱，为历史资料的检索和研究⼯作提供帮助。

2、知识图谱构建

2.1 数据来源

中国近现代历史⼈物信息主要来源于百度百科和历史记两个⽹站。通过 python scrapy 爬⾍获取了近1300位⼈物的结构化数据，半结构化数据和⽂本数据。其中，结构化数据主要包含⼈物的姓名、字号、出⽣地、⽣卒年⽉等信息；半结构化数据包括⼈物间的关系、历史成就等；⽂本数据主要是⼈物的生平介绍、评论等，有⽹站负责编辑维护，语⾔描述和记录的史料不⼀定完全准确。

2.2 数据处理

2.2.1 半结构化数据处理

数据变换：从半结构化数据中提取信息，转化汇总成相同的格式，例如
数据清理：将明显不正确的信息删除，例如
数据集成：整合两个数据源的数据，如果有不一致，直接删除

2.2.2 文本数据处理

项目尝试了基于语义⻆⾊标注和基于深度学习的实体关系抽取⽅法。

（1）基于LTP语义角色标注的实体关系抽取

LTP（Language Technology Platform）是由哈尔滨工业⼤学开源的中⽂⾃然语⾔处理⼯具，用户可以使⽤这些⼯具对于中⽂⽂本进⾏分词、词性标注、句法分析等等⼯作。Github：https://github.com/HIT-SCIR/ltp

使⽤LTP提供的语义⻆⾊标注分解句⼦：

上述例句被分解为了中⼼语（动词：加⼊），主语A0（王俊昌），宾语A1（中国共产党）和时间状语ARGM-TMP（1943年2⽉）。通过构建基于语义⻆⾊标注的规则，可以从⽂本数据中提取符合规则的关系，准确度较⾼。但规则构建依赖⼈⼯。

（2）基于OpenUE的实体关系抽取

OpenUE 是⼀个轻量级知识图谱抽取⼯具，⽤于基于预训练语言模型的知识图谱抽取任务。Github：https://github.com/zjunlp/OpenUE

使⽤OpenUE⼯具包和默认ske数据集训练并执⾏抽取。在简单句⼦中准确率较⾼，但是在所有⽂本数据中的表现并不理想。原因可能是⽂本语句通常⽐较复杂，且句⼦间存在上下⽂关联的情况。例如主语缺失等。

（3）基于OpenNRE的人物关系抽取

OpenNRE 是⼀个开源且可扩展的工具包，它提供了一个统⼀的框架来实现关系提取模型。项⽬尝试使⽤基于OpenNRE的中⽂人物关系抽取，Github： https://github.com/taorui-plus/OpenNRE

按照上述Github项⽬的描述训练模型并执⾏关系提取任务，结果同样在简单句型中表现良好，但在多数复杂句型中出现了遗漏和错误。综上所述，出于准确度、史实正确性优先的考虑，项目最终使⽤了基于语义⻆⾊标注的实体关系抽取⽅法。

3、知识图谱存储

项目基于neo4j图数据库存储实体关系数据。实体对象共3类：⼈物，组织（学校），成就（作品）。其中人物包含属性：名称、附加名称、出⽣地、出⽣⽇期、死亡⽇期、⼯作职责、名族、国籍（在华外籍⼈物）。实体关系共3个⼤类：相关⼈物、毕业于、创作。相关⼈物可细分为7个⼦类，21个具体关系，如下图所示：

4、知识图谱应用

项目最终成果使⽤BS形式部署上云。后端打包为Docker镜像部署到阿⾥云ECI，前端部署到阿⾥云CDN。可以访问 http://www.zjuwtx.work/project/kg 查看。

4.1 人物检索

基本的⼈物检索功能，查看⼈物属性以及与其他实体间的关系。

4.2 图谱推理

基于规则的图谱推理，通过⾃定义Cypher脚本实现。包括关系推理和属性补全。

4.3 知识众包

考虑到数据来源有限，同时数据内容以及数据处理过程不可避免地会存在⼀些问题，导致了图谱知识的缺失和错误。项目提供了知识众包功能，所有⽤户可以快速提交新增、修改数据的请求，在审核通过后会合并到现有的知识图谱中。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

3

相关内容

结构化数据

结构化数据

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【ACL 2019 Tutorials】从结构化数据和知识图谱中讲故事：NLG的观点（Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective）

【ACL 2019 Tutorials】从结构化数据和知识图谱中讲故事：NLG的观点（Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective）

专知会员服务

26+阅读 · 2019年11月18日

知识图谱本体结构构建论文合集

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

开源开放 | DeepKE发布新版本：支持低资源、长篇章、多任务的图谱抽取开源框架（浙江大学）

开源开放 | DeepKE发布新版本：支持低资源、长篇章、多任务的图谱抽取开源框架（浙江大学）

开放知识图谱

1+阅读 · 2022年3月3日

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE（CCKS2021）

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE（CCKS2021）

开放知识图谱

0+阅读 · 2021年9月6日

开源开放 | 糖尿病知识图谱DiaKG（CCKS2021）

开源开放 | 糖尿病知识图谱DiaKG（CCKS2021）

开放知识图谱

3+阅读 · 2021年8月8日

史上最大规模：这有一份1.4亿的中文开源知识图谱

史上最大规模：这有一份1.4亿的中文开源知识图谱

机器之心

26+阅读 · 2019年10月17日

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开放知识图谱

11+阅读 · 2019年4月14日

面向网络百科的知识抽取研究

国家自然科学基金

4+阅读 · 2014年12月31日

编撰并出版中国植物化石图鉴

国家自然科学基金

0+阅读 · 2013年12月31日

中文动态语义网构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

木兰目花器官形态多样性与演化

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

Generalizing to the Future: Mitigating Entity Bias in Fake News Detection

Arxiv

0+阅读 · 2022年4月20日

Context-Auditor: Context-sensitive Content Injection Mitigation

Arxiv

0+阅读 · 2022年4月19日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

DKN: Deep Knowledge-Aware Network for News Recommendation

Arxiv

22+阅读 · 2018年1月30日

VIP会员

相关主题

结构化数据

实体关系抽取

相关VIP内容

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【ACL 2019 Tutorials】从结构化数据和知识图谱中讲故事：NLG的观点（Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective）

【ACL 2019 Tutorials】从结构化数据和知识图谱中讲故事：NLG的观点（Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective）

专知会员服务

26+阅读 · 2019年11月18日

知识图谱本体结构构建论文合集

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机系统 - 反无人机系统：测试方法》364页

《无人机蜂群攻击防御的预测建模：面向美军战备的人工智能轨迹预测与最优拦截策略设计》最新报告

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

《将空中力量带向海洋：美国海军航空发展的四条竞争路径及其教训》报告

相关资讯

开源开放 | DeepKE发布新版本：支持低资源、长篇章、多任务的图谱抽取开源框架（浙江大学）

开源开放 | DeepKE发布新版本：支持低资源、长篇章、多任务的图谱抽取开源框架（浙江大学）

开放知识图谱

1+阅读 · 2022年3月3日

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE（CCKS2021）

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE（CCKS2021）

开放知识图谱

0+阅读 · 2021年9月6日

开源开放 | 糖尿病知识图谱DiaKG（CCKS2021）

开源开放 | 糖尿病知识图谱DiaKG（CCKS2021）

开放知识图谱

3+阅读 · 2021年8月8日

史上最大规模：这有一份1.4亿的中文开源知识图谱

史上最大规模：这有一份1.4亿的中文开源知识图谱

机器之心

26+阅读 · 2019年10月17日

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开放知识图谱

11+阅读 · 2019年4月14日

相关基金

面向网络百科的知识抽取研究

国家自然科学基金

4+阅读 · 2014年12月31日

编撰并出版中国植物化石图鉴

国家自然科学基金

0+阅读 · 2013年12月31日

中文动态语义网构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

木兰目花器官形态多样性与演化

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

相关论文

Generalizing to the Future: Mitigating Entity Bias in Fake News Detection

Arxiv

0+阅读 · 2022年4月20日

Context-Auditor: Context-sensitive Content Injection Mitigation

Arxiv

0+阅读 · 2022年4月19日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

DKN: Deep Knowledge-Aware Network for News Recommendation

Arxiv

22+阅读 · 2018年1月30日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员