优质中文NLP资源集合,做项目一定用得到!

2019 年 2 月 23 日 AI100


整理 | Jane

出品 | AI科技大本营(公众号id:rgznai100)


今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks。


项目作者 杨洋,一枚水博&互联网民工,目前主要从事文本分类,信息抽取等自然语言处理研发工作;兴趣包括:语言资源构建、信息抽取与知识图谱、舆情分析等。喜欢分享一些小知识,设有知乎专栏《机器学习小知识》


作者把自己使用的一些资源或工具包整理成这个集合项目,并且会不断更新。项目已经里面不乏很多有用和有趣的内容,包含 50 多个资源或工具,比如很多有用的词库:中英文敏感词、暴恐词表、文人名库、中文缩写库、停用词、公司名字大全、成语词库、地名词库百度中文问答数据集......非常值得学习研究 NLP 项目的同学们收藏!


除了几十个的优质资源汇总外,作者的另一个中文 NLP 工具包——coco NLP,也很实用,目前应用在寻找失踪人口项目中。通过这个工具包,大家可以直接从文本信息中抽取一些基本信息,比如手机号、邮箱、手机归属地、时间点、地址和一些词组信息。


0.先给大家 coco NLP 工具的地址:


https://github.com/fighting41love/cocoNLP


因为这个工具里也包含了第一个项目中提到的一些资源,下面我们所列的其他资源,就不再列出重复资源的地址了,比如:phone 中国手机归属地查询、抽取email的正则表达式、抽取phone_number的正则表达式、人名语料库、时间抽取等。


营长列出了其他一些主要资源的地址,大家还可以从文章最后给出的项目地址中访问更多。也感谢开源这些资源的作者,如果下面有提到你的项目,欢迎给我们留言,让营长发现可爱的你们~


1. textfilter: 中英文敏感词过滤 

https://github.com/observerss/textfilter


2. langid:97种语言检测 

https://github.com/saffsd/langid.py


3. langdetect:检测另一种语言

https://code.google.com/archive/p/language-detection/


4. phone国际手机、电话归属地查询:

https://github.com/AfterShip/phone


6. ngender:根据名字判断性别,基于朴素贝叶斯计算的概率

https://github.com/observerss/ngender


7.抽取身份证号的正则表达式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'

IDs = re.findall(IDCards_pattern, text, flags=0)


8.中文缩写库

https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt


9.汉语拆字词典

https://github.com/kfcd/chaizi


10.词汇情感值

https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result


11.中文词库、停用词、敏感词,此 package 的敏感词库分类更细,包含反动词库, 敏感词库表统计, 暴恐词库, 民生词库, 色情词库

https://github.com/fighting41love/Chinese_from_dongxiexidian


12.汉字转拼音

https://github.com/mozillazg/python-pinyin


13.同义词库、反义词库、否定词库

https://github.com/guotong1988/chinese_dictionary


14.无空格英文串分割、抽取单词

https://github.com/keredson/wordninja


15.THU整理的词库,包含 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库

http://thuocl.thunlp.org/sendMessage


16.百度中文问答数据集

链接:

https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A

提取码: 2dva


17.Bert 资源

(1)文本分类实践

https://github.com/NLPScott/bert-Chinese-classification-task


(2)Bert Tutorial 文本分类教程

https://github.com/Socialbird-AILab/BERT-Classification-Tutorial


(3)Bert pytorch实现

https://github.com/huggingface/pytorch-pretrained-BERT


(4)Bert用于中文命名实体识别,tensorflow版本

https://github.com/macanv/BERT-BiLSTM-CRF-NER


(5)Bert 基于 Keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型

https://github.com/BrikerMan/Kashgari


(6)Bert、ELMO的图解

https://jalammar.github.io/illustrated-bert/


(7)BERT: Pre-trained models and downstream applications

https://github.com/asyml/texar/tree/master/examples/bert


更多优质资源可访问:


https://github.com/fighting41love/funNLP




(本文为AI科技大本营原创文章,转载请微信联系 1092722531)


群招募


扫码添加小助手微信,回复:公司+研究方向(学校+研究方向),邀你加入技术交流群。技术群审核较严,敬请谅解。

推荐阅读:

                         

点击“阅读原文”,查看历史精彩文章。

登录查看更多
2

相关内容

NLP:自然语言处理
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
专知会员服务
155+阅读 · 2020年4月21日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
中国人工智能学会
9+阅读 · 2018年11月16日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
4+阅读 · 2018年4月17日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
专知会员服务
155+阅读 · 2020年4月21日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
中国人工智能学会
9+阅读 · 2018年11月16日
Top
微信扫码咨询专知VIP会员