面向中文处理的12类、百万规模的语义常用词典

2020 年 7 月 20 日 专知

ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

https://github.com/liuhuanyong/ChineseSemanticKB

项目介绍

语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:
1、具有落地场景的自然语言处理任务都是业务高度相关,一个业务需求刚进去,需要解决的是业务的词汇问题,无基础词库,无项目冷启动;
2、规则和正则启动下的工业级应用,规则的扩展、泛化都需要底层的词汇网络做支撑;
3、目前包括搜索、问答、舆情监控、事件分析等应用,与标签体系的运作关系密切,而这与先验的底层词汇库依赖性很强;
4、自然语言场景越来越关注推理层面,即所谓的“认知”层面,认知背后的各种逻辑关系库,是驱动这一决策的根本途径;
5、当前,面向中文开源词库的工作存在少量、分散的状态,无论从规模,还是质量,都需要进一步聚合;
因此,我从过往的开源工作中进一步抽离和整理,形成了中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,用于相关下游任务。

项目放于dict当中,可直接下载,不建议二次建库共享,尊重开源。

词库的类别

词库类型 词库规模 词库举例 词库应用
抽象关系库 346,048 座椅,抽象,家具 事件抽象与泛化,人民币贬值到货币贬值,再到美元贬值,可支持查询扩展、推荐等任务
反义关系库 34,380 开心@苦恼 可用于句子改写,开心改苦恼,支持数据增强,句子生成
同义关系库 424,826 开心@高兴 可用于查询扩展、数据增强,也可结合抽象关系库完成推荐等任务
简称关系库 136,081 北京大学@北大 可用于句子标准化、句子改写、实体消歧等任务
程度副词 222 极其,2.0 可用于情感强度计算,带情感色彩的句子生成
否定词 586 不,无,没有 可用于情感计算等任务
节日时间词 54 春节、五四节 可用于时间词识别等任务
量比词 7 占比、环比、同比 可用于金融领域指标类数据提取任务
数量介词 24 大约、达到、超过 可用于金融事件抽象或主干化的搭配词处理任务
停用词 3,861 ?、的、着 常规的文本特征提取等任务
修饰副词 222 所、有所 可结合程度副词完成情感强度计算等任务
情态词  77 肯定、应该、大概 可用于句子主观性计算、舆情与可信度计算

总结

1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万;
2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库,在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;
3、中文常用语义常用词典,均来源于公开文本+人工整理+机器抽取形成,其中若有质量不高之处,可积极批评指正;
4、中文开源事业还是要坚持做下去,尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。

If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:
https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,
http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:
https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:
https://nlp.datahorizon.cn


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“x2vec” 可以获取《word2vec, node2vec, graph2vec, X2vec:构建向量嵌入表示理论,120页ppt》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

知识库(Knowledge Base)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算 机存储器中 存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定 理和运算法则以及常识性知识等。
专知会员服务
33+阅读 · 2020年9月25日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
21+阅读 · 2020年8月28日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
专知会员服务
143+阅读 · 2020年8月21日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
36+阅读 · 2020年4月26日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
资源 | 腾讯开源800万中文词的NLP数据集
THU数据派
15+阅读 · 2018年10月29日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
Arxiv
8+阅读 · 2020年5月2日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
5+阅读 · 2018年1月23日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2020年9月25日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
21+阅读 · 2020年8月28日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
专知会员服务
143+阅读 · 2020年8月21日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
36+阅读 · 2020年4月26日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
资源 | 腾讯开源800万中文词的NLP数据集
THU数据派
15+阅读 · 2018年10月29日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
Top
微信扫码咨询专知VIP会员