Github项目推荐 | gensim - Python中的主题建模

2019 年 3 月 16 日 AI研习社



gensim – Topic Modelling in Python

Gensim是一个Python库,用于主题建模、文档索引和大型语料库的相似性检索。 目标受众是自然语言处理(NLP)和信息检索(IR)社区。


Github项目地址:

https://github.com/RaRe-Technologies/gensim 


特点

  • 所有算法都是与语料库大小(可以处理大于RAM的输入,流式传输,核外)有关而不是与内存有关,

  • 直观的界面

  • 容易插入你自己输入的语料库/数据流(简单的流API)

  • 易于使用其他的Vector Space算法扩展(简单的转换API)

  • 流行算法的高效多核实现,例如在线潜在语义分析(LSA / LSI / SVD),潜在Dirichlet分配(LDA),随机投影(RP),分层Dirichlet过程(HDP)或word2vec深度学习。

  • 分布式计算:可以在计算机集群上运行潜在语义分析和潜在Dirichlet分配。

  • 丰富的文档和Jupyter Notebook教程

如果上面展示的列表让你摸不着头脑,你可以先在维基百科上阅读更多向量空间模型无监督文档分析的更多信息。


支持

请在github上提出潜在的错误。 在提出问题之前,请查看“贡献指南”。

如果你有一个开放式或研究性问题,我们建议:

  • 最好在邮件列表里向我们提出

  • 也可以在Gitter chat room聊天室与我们交流


安装

gensim软件依赖于 NumPy 和 Scipy这两个用于科学计算的Python包,你必须在安装gensim之前安装它们。

我们还建议在安装Numpy之前安装一个快速BLAS库。当然这不是必须的,但是使用优化的BLAS(例如 ATLAS 或 OpenBLAS )可将性能提高一个数量级。 在OS X上,NumPy自动获取与它一起提供的BLAS,因此你不需要做任何特殊的操作。

安装gensim的简单方法如下:

pip install -U gensim

或者,如果你已经下载并解压缩了源程序 tar.gz 包,那么可以运行以下命令:

python setup.py testpython setup.py install

对于其他安装模式(没有root权限/开发安装/可选安装功能),请查看文档

此版本已在Python 2.7,3.5和3.6下测试过。 Gensim的github repo与Travis CI挂钩,对每个提交推送和拉取请求进行自动化测试。在gensim 1.0.0中删除了对Python 2.6,3.3和3.4的支持。 如果必须要使用Python 2.6,3.3或3.4,请安装gensim 0.13.4。在gensim 0.10.0中删除了对Python 2.5的支持;如果必须要使用Python 2.5,请安装gensim 0.9.1。


为什么gensim这么快,内存效率这么高?它不是纯Python吗?它不是应该又慢又贪婪吗?

许多科学算法可以用大矩阵运算表示(参考上面的BLAS注释)。 Gensim通过依赖NumPy来利用这些低级BLAS库。 因此,虽然gensim-the-top-level-code是纯Python,但它实际上是在底层执行高度优化的Fortran/C,包括多线程(如果你的BLAS是这样配置的)。

在内存方面,gensim大量使用Python的内置生成器和迭代器进行流数据处理。 内存效率是gensim的设计目标之一,并且是gensim的核心功能,在设计之初就已被考虑进来。


文档

  • QuickStart 快速开始

  • Tutorials    教程

  • Tutorial Videos     教程视频

  • Official API Documentation    官方API文档


他们也在用gensim

Company – 企业

Logo – 标志

Industry – 行业

Use of Gensim – 项目用途

RARE Technologies

ML & NLP consulting

ML & NLP咨询

Creators of Gensim – this is us!

Gensim的创造者 - 就是我们!

Amazon

Retail

零售

Document similarity.

文件相似度

National Institutes of Health

Health

健康

Processing grants and publications with word2vec.

使用word2vec处理授权和出版物。

Cisco Security

Security

安全

Large-scale fraud detection.

大规模欺诈检测。

Mindseye


Legal

法务

Similarities in legal documents.

法律文件的相似比对。

Channel 4

Media

媒体

Recommendation engine.

推荐引擎。

Talentpair

HR

Candidate matching in high-touch recruiting.

高接触招聘中的候选人匹配。

Juju

HR

Provide non-obvious related job suggestions.

提供不明显的相关工作建议。

Tailwind

Media

媒体

Post interesting and relevant content to Pinterest.

向Pinterest发布有趣且相关的内容。

Issuu

Media

媒体

Gensim's LDA module lies at the very core of the   analysis we perform on each uploaded publication to figure out what it's all   about.

Gensim的LDA模块是我们对每个上传的出版物进行分析的核心,以确定它的全部内容。

Search Metrics

Content Marketing

内容营销

Gensim word2vec used for entity disambiguation in   Search Engine Optimisation.

Gensim word2vec用于搜索引擎优化中的实体消歧。

12K   Research

Media

媒体

Document similarity analysis on media articles.

媒体文章的文档相似度分析。

Stillwater Supercomputing

Hardware

硬件

Document comprehension and association with word2vec.

文档理解以及与word2vec的关联。

SiteGround

Web hosting

虚拟主机

An ensemble search engine which uses different   embeddings models and similarities, including word2vec, WMD, and LDA.

一个集成搜索引擎,使用不同的嵌入模型和相似性,包括word2vec、WMD和LDA。

Capital One

Finance

金融

Topic modeling for customer complaints exploration.

探索客户投诉的主题建模。

 

引用gensim

论文中引用gensim时,请使用此BibTeX条目:

@inproceedings{rehurek_lrec,      title = {{Software Framework for Topic Modelling with Large Corpora}},      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},      booktitle = {{Proceedings of the LREC 2010 Workshop on New           Challenges for NLP Frameworks}},      pages = {45--50},      year = 2010,      month = May,      day = 22,      publisher = {ELRA},      address = {Valletta, Malta},      note={\url{http://is.muni.cz/publication/884893/en}},      language={English}}


点击阅读原文,查看本文划线链接部分内容

登录查看更多
15

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
280+阅读 · 2020年6月3日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
34+阅读 · 2020年4月5日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
211+阅读 · 2020年2月21日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
83+阅读 · 2019年11月25日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
GitHub最著名的20个Python机器学习项目
全球人工智能
9+阅读 · 2017年12月7日
Arxiv
3+阅读 · 2018年12月19日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年4月9日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
相关论文
Arxiv
3+阅读 · 2018年12月19日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年4月9日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员