最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。
词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。
否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。
地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。
目前,这份资源在GitHub上已经超过了700星。
收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。
在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。
比如,中英文敏感词过滤:
>>> f = DFAFilter()
>>> f.add("sexy")
>>> f.filter("hello sexy baby")
hello **** baby
有时,还会针对一些词库给出提示,针对这个词库他就提示道:
敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。
再来一个根据名字判断性别的例子:
pip install ngender # 基于朴素贝叶斯计算的概率
>>> import ngender
>>> ngender.guess('赵本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)
此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。
传送门:(点击阅读原文即可访问)
https://github.com/fighting41love/funNLP
作者知乎专栏地址:
https://zhuanlan.zhihu.com/yangyangfuture
推荐阅读
资源 | 英语不行?你可以试试TensorFlow官方中文版教程