Github项目推荐 | gensim - Python中的主题建模

会员服务 ·

Github项目推荐 | gensim - Python中的主题建模

2019 年 3 月 16 日 AI研习社

gensim – Topic Modelling in Python

Gensim是一个Python库，用于主题建模、文档索引和大型语料库的相似性检索。目标受众是自然语言处理（NLP）和信息检索（IR）社区。

Github项目地址：

https://github.com/RaRe-Technologies/gensim

特点

所有算法都是与语料库大小（可以处理大于RAM的输入，流式传输，核外）有关而不是与内存有关，
直观的界面
容易插入你自己输入的语料库/数据流（简单的流API）
易于使用其他的Vector Space算法扩展（简单的转换API）
流行算法的高效多核实现，例如在线潜在语义分析（LSA / LSI / SVD），潜在Dirichlet分配（LDA），随机投影（RP），分层Dirichlet过程（HDP）或word2vec深度学习。
分布式计算：可以在计算机集群上运行潜在语义分析和潜在Dirichlet分配。
丰富的文档和Jupyter Notebook教程。

如果上面展示的列表让你摸不着头脑，你可以先在维基百科上阅读更多向量空间模型和无监督文档分析的更多信息。

支持

请在github上提出潜在的错误。在提出问题之前，请查看“贡献指南”。

如果你有一个开放式或研究性问题，我们建议：

最好在邮件列表里向我们提出
也可以在Gitter chat room聊天室与我们交流

安装

gensim软件依赖于 NumPy 和 Scipy这两个用于科学计算的Python包，你必须在安装gensim之前安装它们。

我们还建议在安装Numpy之前安装一个快速BLAS库。当然这不是必须的，但是使用优化的BLAS（例如 ATLAS 或 OpenBLAS ）可将性能提高一个数量级。在OS X上，NumPy自动获取与它一起提供的BLAS，因此你不需要做任何特殊的操作。

安装gensim的简单方法如下：

pip install -U gensim

或者，如果你已经下载并解压缩了源程序 tar.gz 包，那么可以运行以下命令：

python setup.py testpython setup.py install

对于其他安装模式（没有root权限/开发安装/可选安装功能），请查看文档。

此版本已在Python 2.7，3.5和3.6下测试过。 Gensim的github repo与Travis CI挂钩，对每个提交推送和拉取请求进行自动化测试。在gensim 1.0.0中删除了对Python 2.6，3.3和3.4的支持。如果必须要使用Python 2.6，3.3或3.4，请安装gensim 0.13.4。在gensim 0.10.0中删除了对Python 2.5的支持；如果必须要使用Python 2.5，请安装gensim 0.9.1。

为什么gensim这么快，内存效率这么高？它不是纯Python吗？它不是应该又慢又贪婪吗?

许多科学算法可以用大矩阵运算表示（参考上面的BLAS注释）。 Gensim通过依赖NumPy来利用这些低级BLAS库。因此，虽然gensim-the-top-level-code是纯Python，但它实际上是在底层执行高度优化的Fortran/C，包括多线程（如果你的BLAS是这样配置的）。

在内存方面，gensim大量使用Python的内置生成器和迭代器进行流数据处理。内存效率是gensim的设计目标之一，并且是gensim的核心功能，在设计之初就已被考虑进来。

文档

QuickStart 快速开始
Tutorials 教程
Tutorial Videos 教程视频
Official API Documentation 官方API文档

他们也在用gensim

Company – 企业	Logo – 标志	Industry – 行业	Use of Gensim – 项目用途
RARE Technologies		ML & NLP consulting ML & NLP咨询	Creators of Gensim – this is us! Gensim的创造者 - 就是我们！
Amazon		Retail 零售	Document similarity. 文件相似度
National Institutes of Health		Health 健康	Processing grants and publications with word2vec. 使用word2vec处理授权和出版物。
Cisco Security		Security 安全	Large-scale fraud detection. 大规模欺诈检测。
Mindseye		Legal 法务	Similarities in legal documents. 法律文件的相似比对。
Channel 4		Media 媒体	Recommendation engine. 推荐引擎。
Talentpair		HR	Candidate matching in high-touch recruiting. 高接触招聘中的候选人匹配。
Juju		HR	Provide non-obvious related job suggestions. 提供不明显的相关工作建议。
Tailwind		Media 媒体	Post interesting and relevant content to Pinterest. 向Pinterest发布有趣且相关的内容。
Issuu		Media 媒体	Gensim's LDA module lies at the very core of the analysis we perform on each uploaded publication to figure out what it's all about. Gensim的LDA模块是我们对每个上传的出版物进行分析的核心，以确定它的全部内容。
Search Metrics		Content Marketing 内容营销	Gensim word2vec used for entity disambiguation in Search Engine Optimisation. Gensim word2vec用于搜索引擎优化中的实体消歧。
12K Research		Media 媒体	Document similarity analysis on media articles. 媒体文章的文档相似度分析。
Stillwater Supercomputing		Hardware 硬件	Document comprehension and association with word2vec. 文档理解以及与word2vec的关联。
SiteGround		Web hosting 虚拟主机	An ensemble search engine which uses different embeddings models and similarities, including word2vec, WMD, and LDA. 一个集成搜索引擎，使用不同的嵌入模型和相似性，包括word2vec、WMD和LDA。
Capital One		Finance 金融	Topic modeling for customer complaints exploration. 探索客户投诉的主题建模。

引用gensim

在论文中引用gensim时，请使用此BibTeX条目：

@inproceedings{rehurek_lrec,      title = {{Software Framework for Topic Modelling with Large Corpora}},      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},      booktitle = {{Proceedings of the LREC 2010 Workshop on New           Challenges for NLP Frameworks}},      pages = {45--50},      year = 2010,      month = May,      day = 22,      publisher = {ELRA},      address = {Valletta, Malta},      note={\url{http://is.muni.cz/publication/884893/en}},      language={English}}