Gensim是一个Python库,用于主题建模、文档索引和大型语料库的相似性检索。 目标受众是自然语言处理(NLP)和信息检索(IR)社区。
Github项目地址:
https://github.com/RaRe-Technologies/gensim
所有算法都是与语料库大小(可以处理大于RAM的输入,流式传输,核外)有关而不是与内存有关,
直观的界面
容易插入你自己输入的语料库/数据流(简单的流API)
易于使用其他的Vector Space算法扩展(简单的转换API)
流行算法的高效多核实现,例如在线潜在语义分析(LSA / LSI / SVD),潜在Dirichlet分配(LDA),随机投影(RP),分层Dirichlet过程(HDP)或word2vec深度学习。
分布式计算:可以在计算机集群上运行潜在语义分析和潜在Dirichlet分配。
丰富的文档和Jupyter Notebook教程。
如果上面展示的列表让你摸不着头脑,你可以先在维基百科上阅读更多向量空间模型和无监督文档分析的更多信息。
请在github上提出潜在的错误。 在提出问题之前,请查看“贡献指南”。
如果你有一个开放式或研究性问题,我们建议:
最好在邮件列表里向我们提出
也可以在Gitter chat room聊天室与我们交流
gensim软件依赖于 NumPy 和 Scipy这两个用于科学计算的Python包,你必须在安装gensim之前安装它们。
我们还建议在安装Numpy之前安装一个快速BLAS库。当然这不是必须的,但是使用优化的BLAS(例如 ATLAS 或 OpenBLAS )可将性能提高一个数量级。 在OS X上,NumPy自动获取与它一起提供的BLAS,因此你不需要做任何特殊的操作。
安装gensim的简单方法如下:
pip install -U gensim
或者,如果你已经下载并解压缩了源程序 tar.gz 包,那么可以运行以下命令:
python setup.py test
python setup.py install
对于其他安装模式(没有root权限/开发安装/可选安装功能),请查看文档。
此版本已在Python 2.7,3.5和3.6下测试过。 Gensim的github repo与Travis CI挂钩,对每个提交推送和拉取请求进行自动化测试。在gensim 1.0.0中删除了对Python 2.6,3.3和3.4的支持。 如果必须要使用Python 2.6,3.3或3.4,请安装gensim 0.13.4。在gensim 0.10.0中删除了对Python 2.5的支持;如果必须要使用Python 2.5,请安装gensim 0.9.1。
许多科学算法可以用大矩阵运算表示(参考上面的BLAS注释)。 Gensim通过依赖NumPy来利用这些低级BLAS库。 因此,虽然gensim-the-top-level-code是纯Python,但它实际上是在底层执行高度优化的Fortran/C,包括多线程(如果你的BLAS是这样配置的)。
在内存方面,gensim大量使用Python的内置生成器和迭代器进行流数据处理。 内存效率是gensim的设计目标之一,并且是gensim的核心功能,在设计之初就已被考虑进来。
QuickStart 快速开始
Tutorials 教程
Tutorial Videos 教程视频
Official API Documentation 官方API文档
Company – 企业 |
Logo – 标志 |
Industry – 行业 |
Use of Gensim – 项目用途 |
RARE Technologies |
ML & NLP consulting ML & NLP咨询 |
Creators of Gensim – this is us! Gensim的创造者 - 就是我们! |
|
Amazon |
Retail 零售 |
Document similarity. 文件相似度 |
|
National Institutes of Health |
Health 健康 |
Processing grants and publications with word2vec. 使用word2vec处理授权和出版物。 |
|
Cisco Security |
Security 安全 |
Large-scale fraud detection. 大规模欺诈检测。 |
|
Mindseye |
Legal 法务 |
Similarities in legal documents. 法律文件的相似比对。 |
|
Channel 4 |
Media 媒体 |
Recommendation engine. 推荐引擎。 |
|
Talentpair |
HR |
Candidate matching in high-touch recruiting. 高接触招聘中的候选人匹配。 |
|
Juju |
HR |
Provide non-obvious related job suggestions. 提供不明显的相关工作建议。 |
|
Tailwind |
Media 媒体 |
Post interesting and relevant content to Pinterest. 向Pinterest发布有趣且相关的内容。 |
|
Issuu |
Media 媒体 |
Gensim's LDA module lies at the very core of the analysis we perform on each uploaded publication to figure out what it's all about. Gensim的LDA模块是我们对每个上传的出版物进行分析的核心,以确定它的全部内容。 |
|
Search Metrics |
Content Marketing 内容营销 |
Gensim word2vec used for entity disambiguation in Search Engine Optimisation. Gensim word2vec用于搜索引擎优化中的实体消歧。 |
|
12K Research |
Media 媒体 |
Document similarity analysis on media articles. 媒体文章的文档相似度分析。 |
|
Stillwater Supercomputing |
Hardware 硬件 |
Document comprehension and association with word2vec. 文档理解以及与word2vec的关联。 |
|
SiteGround |
Web hosting 虚拟主机 |
An ensemble search engine which uses different embeddings models and similarities, including word2vec, WMD, and LDA. 一个集成搜索引擎,使用不同的嵌入模型和相似性,包括word2vec、WMD和LDA。 |
|
Capital One |
Finance 金融 |
Topic modeling for customer complaints exploration. 探索客户投诉的主题建模。 |
在论文中引用gensim时,请使用此BibTeX条目:
@inproceedings{rehurek_lrec,
title = {{Software Framework for Topic Modelling with Large Corpora}},
author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
booktitle = {{Proceedings of the LREC 2010 Workshop on New
Challenges for NLP Frameworks}},
pages = {45--50},
year = 2010,
month = May,
day = 22,
publisher = {ELRA},
address = {Valletta, Malta},
note={\url{http://is.muni.cz/publication/884893/en}},
language={English}
}
点击阅读原文,查看本文划线链接部分内容