Jiagu：中文深度学习自然语言处理工具

2019 年 2 月 20 日 AINLP

推荐一个新的开源中文深度学习自然语言处理工具：Jiagu, 包括中文分词、词性标注、命名实体识别、情感分析、新词发现、关键词、文本摘要等。贡献者包括 Yener、zengbin93、dirtdust，感兴趣的同学可以试用，Github地址，点击文末阅读原文可直达：

https://github.com/ownthink/Jiagu

Jiagu自然语言处理工具

Jiagu以BiLSTM等模型为基础，使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作，将Jiagu回馈给大家。

import jiagu

text = '''该研究主持者之一、波士顿大学地球与环境科学系博士陈池（音）表示，“尽管中国和印度国土面积仅占全球陆地的9%，但两国为这一绿化过程贡献超过三分之一。考虑到人口过多的国家一般存在对土地过度利用的问题，这个发现令人吃惊。”NASA埃姆斯研究中心的科学家拉玛·内曼尼（Rama Nemani）说，“这一长期数据能让我们深入分析地表绿化背后的影响因素。我们一开始以为，植被增加是由于更多二氧化碳排放，导致气候更加温暖、潮湿，适宜生长。”“MODIS的数据让我们能在非常小的尺度上理解这一现象，我们发现人类活动也作出了贡献。”NASA文章介绍，在中国为全球绿化进程做出的贡献中，有42%来源于植树造林工程，对于减少土壤侵蚀、空气污染与气候变化发挥了作用。据观察者网过往报道，2017年我国全国共完成造林736.2万公顷、森林抚育830.2万公顷。其中，天然林资源保护工程完成造林26万公顷，退耕还林工程完成造林91.2万公顷。京津风沙源治理工程完成造林18.5万公顷。三北及长江流域等重点防护林体系工程完成造林99.1万公顷。完成国家储备林建设任务68万公顷。'''				keywords = jiagu.keywords(text, 5) # 关键词print(keywords)

文本摘要

fin = open('input.txt', 'r')
text = fin.read()
fin.clone()

summarize = jiagu.summarize(text, 3) # 摘要print(summarize)

新词发现

import jiagu

jiagu.findword('input.txt', 'output.txt') # 根据文本，利用信息熵做新词发现。

评价标准

msr测试结果

附录

词性标注说明

n　　　普通名词
nt　 　时间名词
nd　 　方位名词
nl　 　处所名词
nh　 　人名
nhf　　姓
nhs　　名
ns　 　地名
nn 　　族名
ni 　　机构名
nz 　　其他专名
v　　 动词
vd　　趋向动词
vl　　联系动词
vu　　能愿动词
a　 　形容词
f　 　区别词
m　 　数词　　
q　 　量词
d　 　副词
r　 　代词
p　　 介词
c　 　连词
u　　 助词
e　 　叹词
o　 　拟声词
i　 　习用语
j　　 缩略语
h　　 前接成分
k　　 后接成分
g　 　语素字
x　 　非语素字
w　 　标点符号
ws　　非汉字字符串
wu　　其他未知的符号

命名实体说明（采用BIO标记方式）

B-PER、I-PER   人名
B-LOC、I-LOC   地名
B-ORG、I-ORG   机构名

登录查看更多

相关内容

分词

关注 10

将一个汉字序列切分成一个一个单独的词

【干货书】Python深度学习第二版，Deep Learning with Python, Second Edition

专知会员服务

168+阅读 · 2020年5月9日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

【中科院】命名实体识别技术综述

专知会员服务

157+阅读 · 2020年4月21日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统 by Mr.Young GitHub

专知会员服务

44+阅读 · 2020年1月30日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

开源书：PyTorch深度学习起步

专知会员服务

51+阅读 · 2019年10月11日

【Github】All4NLP：自然语言处理相关资源整理

AINLP

23+阅读 · 2019年8月9日

Python中文分词工具大合集：安装、使用和测试

AINLP

11+阅读 · 2019年5月13日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

AINLP

13+阅读 · 2019年5月1日

中文自然语言处理相关资料集合指南

专知

18+阅读 · 2019年3月10日

Python自然语言处理工具NLTK学习导引及相关资料

AINLP

5+阅读 · 2019年1月28日

资源 | 中文NLP资源库

机器学习算法与Python学习

20+阅读 · 2018年11月22日

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

机器学习研究会

6+阅读 · 2017年12月27日

FoolNLTK：可能是目前最准的中文分词工具 | 软件推介

开源中国

7+阅读 · 2017年12月23日

构想：中文文本标注工具

炼数成金订阅号

8+阅读 · 2017年11月20日

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Arxiv

17+阅读 · 2020年6月2日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

An end-to-end Neural Network Framework for Text Clustering

Arxiv

6+阅读 · 2019年3月22日

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Arxiv

7+阅读 · 2019年2月3日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

Chinese NER Using Lattice LSTM

Arxiv

5+阅读 · 2018年5月5日

DeepProbe: Information Directed Sequence Understanding and Chatbot Design via Recurrent Neural Networks

Arxiv

9+阅读 · 2018年3月1日

VIP会员

Jiagu：中文深度学习自然语言处理工具

Jiagu自然语言处理工具

目录

安装方式

使用方式

评价标准

附录

相关内容