这款NLP神器火了!关键词一键提取、结果高度可视化,堪称「小白进阶大神」的实用工具包 | 开源

2020 年 7 月 6 日 量子位
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

如何快速优雅地处理你的NLP数据集?

试试这款号称「从小白到大神」的Texthero的工具包。

不仅编写快速,而且功能全面,预处理、表征、可视化样样精通,在Reddit上17个小时内就获得了近1.1k的热度。

连刚脱机的NLP程序猿看了都想与数据集再战几回:

下面是Texthero的使用效果。

优雅美观的NLP数据处理界面

事实上,Texthero的优雅绝不仅仅在于上手的友好,最关键的是,它省略了大量重复性代码编写工作。

只需要几行代码,Texthero就能帮你完成想要的数据预处理、表征、可视化等操作,极大程度上解放了你的双手。

来看看Texthero进行数据预处理、各种算法后的可视化效果。

效果展示

首先,进行文本清理,然后采用TF-IDF算法进行特征表示,并对此可视化:

PCA降维后的效果duangduang的:

进行文本清理和TF-IDF表征后的可视化效果

这不是你想要的?

那么,除了预处理和表征外,试试加上K均值聚类算法,并进行可视化:

效果如下:

进行预处理、表征和K均值聚类算法后的数据效果

经过K均值聚类算法处理后的结果一目了然。

不仅快速友好,加载代码后,结果会生成在在同一个界面上,整体逻辑流程显得非常明了。

使用效果

从展示效果来看,Texthero只需要编写少量代码,就能得到你想要的结果,为数据处理省去了不少时间。

事实上,只要掌握基本使用逻辑,萌新也能快速上手这款NLP数据处理神器。

使用指南

pip一下texthero后(或从GitHub上直接下载工具包,文末附代码链接),采用import导入它和pandas:

之后,加载你需要处理的文本信息数据集(这里采用了BBC sport数据库举例)

然后就可以开始使用了:

预处理

如果需要进行快速的数据预处理操作,直接使用「文本清理」就行:

当然,如果你需要对文本信息进行更细节的处理操作,例如将所有标点符号替换成空格、或者删除<>中的所有内容,Texthero也提供了非常完备的工具包,以供使用。

光是预处理栏目就有这么多工具

再也不用编写一大堆代码,专门清理文本中的冗余数据了。

表征

同样,如果需要进行TF-IDF算法特征表示的话,同样只需要几行代码就能实现:

一键出结果:

如果需要更多的算法,这里也有meanshift、NMF等算法可以选用,每种算法基本都集成在一行代码中,你想要的这里都有。

可视化

而在可视化方向上,Texthero同样展现出了强大的能力,这里以PCA降维后的结果进行展示:

可视化效果非常清晰:

同样,可视化也可以自定义颜色、结果展示维度等,只需要一点Python的知识就能快速使用。

这么方便的NLP数据处理工具包,赶紧用起来~

传送门

代码链接:

https://github.com/jbesomi/texthero

项目链接:

https://texthero.org/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

报名 | 四场直播详解AI芯片所有知识点

7月8日—7月11日期间,燧原科技资深产品专家和软件架构师将为大家分别详细讲解:

  • 高端人工智能训练芯片的发展趋势

  • 剖析软件全栈的技术难点

  • 人工智能训练芯片在云计算中所面临的挑战和机遇

四场直播将讲透所有的芯片知识点,欢迎扫码报名~~

量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


喜欢就点「在看」吧 !




登录查看更多
0

相关内容

NLP:自然语言处理
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
R语言自然语言处理:关键词提取与文本摘要(TextRank)
R语言中文社区
4+阅读 · 2019年3月18日
已删除
将门创投
18+阅读 · 2019年2月18日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
Arxiv
6+阅读 · 2018年8月27日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
8+阅读 · 2018年1月25日
Arxiv
8+阅读 · 2018年1月19日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关资讯
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
R语言自然语言处理:关键词提取与文本摘要(TextRank)
R语言中文社区
4+阅读 · 2019年3月18日
已删除
将门创投
18+阅读 · 2019年2月18日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
相关论文
Top
微信扫码咨询专知VIP会员