主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

2017 年 11 月 16 日 机器学习研究会 专知内容组

【导读】主题荟萃知识是专知的核心功能之一，为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华（Awesome）知识资料收录整理，使得AI从业者便捷学习和解决工作问题！在专知人工智能主题知识树基础上，主题荟萃由专业人工编辑和算法工具辅助协作完成，并保持动态更新！另外欢迎对此创作主题荟萃感兴趣的同学，请加入我们专知AI创作者计划，共创共赢！今天专知为大家呈送第十六篇专知主题荟萃-主题模型知识资料大全集荟萃 （入门/进阶/综述/视频/代码/专家等），请大家查看！专知访问www.zhuanzhi.ai, 或关注微信公众号后台回复" 专知"进入专知，搜索主题“主题模型”查看。此外，我们也提供该文网页桌面手机端（www.zhuanzhi.ai）完整访问，可直接点击访问收录链接地址，以及pdf版下载链接，请文章末尾查看！此为初始版本，请大家指正补充，欢迎在后台留言！欢迎大家分享转发~

Topic model 主题模型专知荟萃

基础入门
进阶论文
更多Papers推荐
一些主题模型的应用场景
Papers for NLP
Papers for opinion mining
Papers for retrieval
Papers for information extraction
Tutorials
综述
视频教程
代码
领域专家

基础入门

中英文博客以及基础文章

Topic model 介绍简介：简要了解主题模型是什么意思，最基本的概念https://en.wikipedia.org/wiki/Topic_model
概率主题模型简介 Introduction to Probabilistic Topic Models 简介：一步让你知道什么是lda，翻译了提出主题模型大神对概率主题模型的描述。中文文档更适合入门。David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html
主题模型-LDA浅析：简述了LDA的基础概念，描述了模型的生成过程，帮助你进一步了解主题模型~！ http://blog.csdn.net/huagong_adu/article/details/7937616
Latent dirichlet allocation：开山之作LDA原论文。了解了主题模型的基础知识之后可以开始看原论文了。原文看不太懂也不要着急，可以先看个大概~ 作者：David M. Blei, Andrew Y. Ng, and Michael I. Jordan 顺便介绍一下Blei大神：David M. Blei Professor in the Statistics and Computer Science departments at Columbia University. Prior to fall 2014 he was an Associate Professor in the Department of Computer Science at Princeton University. His work is primarily in machine learninghttp://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
Rickjin 腾讯的rickjin大神：LDA数学八卦简介：传说中的“上帝掷骰子”的来源之处。这篇文章是一个连载的科普性博客，作者是rickjin，文章分为7个章节，主要5个章节讲得是Gamma函数、Beta/Dirichlet函数、MCMC和Gibbs采样、文本建模、LDA文本建模，对于想要了解和LDA的同学来说，是一篇很好的入门教程，建议结合Blei的开山之作一起看。http://download.csdn.net/download/happyer88/8791493
LDA漫游指南作者：马晨清华大学在读博士，毕业于北京邮电大学硕士，曾任新浪网公司自然语言处理算法工程师。简介：完全明白主题模型的必备之路：一份从数学基础开始讲的教程，与LDA数学八卦可以互为补充。https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###
《Supervised topic models》: 有监督主题模型，提出SLDA，实现有监督学习。作者：David M. Blei https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html
《Fast collapsed gibbs sampling for latent dirichlet allocation》：快速推理算法，在参数推理上提出更容易理解的方法。更加实用。事实上，由于方法相对更好理解，现在更多的主题模型都采用这种方法求解。作者：I Porteous，D Newman，A Ihler A Asuncion P Smythhttps://www.researchgate.net/publication/221653277_Fast_collapsed_Gibbs_sampling_for_latent_Dirichlet_allocation
LDA-math-MCMC 和 Gibbs Sampling 简介：rickjin大神对马尔科夫链蒙特卡洛采样和吉布斯采样的描述，讲的非常清晰明白。可以帮助大家更好的理解采样。 https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/
*用变分推理求解LDA模型的参数 * 简介：LDA原文中采用的变分算法求解，想要了解变分算法可以看一下这篇文章。作者：斯玮Fantastic https://zhuanlan.zhihu.com/p/28794694
早期文本模型的简介 https://zhuanlan.zhihu.com/p/28777266
Gensim简介、LDA编程实现、LDA主题提取效果图展示https://zhuanlan.zhihu.com/p/28830480
图模型学习 http://blog.csdn.net/pipisorry/article/category/6241251
Gaussian LDA: Gaussian LDA简介, 介绍主题模型和词向量结合的一些工作，比较有意思，建议看一下 [http://blog.csdn.net/u011414416/article/details/51188483]

进阶论文

实践以及一些变形方法

如何计算两个文档的相似度（一） 简介：52nlp上的文章，从最简单的tf-idf到SVD和LSI再到) LDA，可以说是形成了一条逻辑线，一步一步说明算法的发展过程，同时也方便对比各种算法的优缺点。另外，从实践的角度出发。迅速上手！用到了python里的gensim，这是一个非常好用的库，实践必不可少。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80
如何计算两个文档的相似度（二） 从gensim最基本的安装讲起，然后举一个非常简单的例子用以说明如何使用gensim，可以跟着教程做一下实验，肯定会有更好地体会http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C
文章说了很多实验的细节，讲了如何数据预处理，解决了很多理论类文章中不会提到的技术细节。NTLK是著名的Python自然语言处理工具包，在这也讲了怎么去用这些工具。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89
A correlated topic model of science Blei的大作，引入了主题之间的关联。考虑到了潜在主题的子集将是高度相关的。 http://www.cs.columbia.edu/~blei/papers/BleiLafferty2007.pdf（ppt） http://www-users.cs.umn.edu/~banerjee/Teaching/Fall07/talks/Muhammed_slides.pdf
Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning.文本流推理作者：A Banerjee ， S Basu http://www-users.cs.umn.edu/~banerjee/papers/07/sdm-topics-long.pdf
Topical n-grams: Phrase and topic discovery, with an application to information retrieval 在LDA基础上考虑了词与词之间的顺序作者：X Wang ， A Mccallum ， X Weihttp://www.cs.cmu.edu/~xuerui/papers/ngram_tr.pdf
Hierarchical Dirichlet processes. 基于DirichletProcess的变形，即HDP模型，可以自动的学习出主题的数目。该方法：1、在一定程度之上解决了主题模型中自动确定主题数目这个问题，2、代价是必须小心的设定、调整参数的设置，3、实际中运行复杂度更高，代码复杂难以维护。所以在实际中，往往取一个折中，看看自动确定主题数目这个问题对于整个应用的需求到底有多严格，如果经验设定就可以满足的话，就不用采用基于非参数贝叶斯的方法了，但是如果为了引入一些先验只是或者结构化信息，往往非参数是优先选择，例如树状层次的主题模型和有向无环图的主题模型作者：Yee Whye Michael I. Jordan J Beal David M. Bleihttps://people.eecs.berkeley.edu/~jordan/papers/hdp.pdf
*Modeling online reviews with multi-grain topic models * 从用户评论数据中进行无监督主题抽取，考虑了一个多级背景主题模型：词~句子~段落~文档，解决了传统LDA模型提出的主题往往对应品牌而不是可以ratable的主题。作者：I Titov ， R Mcdonaldhttp://delivery.acm.org/10.1145/1370000/1367513/p111-titov.pdf
A joint model of text and aspect ratings for sentiment summarization. 本文将一些具有结构化信息的特征融入到主题模型中，具体来说，我们同时关联两个生成过程，一个就是文档中词的生成，另一个就是这些结构化特征的生成。作者：Titov ， Ivan ， McDonald ， Ryanhttp://www.aclweb.org/anthology/P08-1036
Comparing twitter and traditional media using topic models. 用于社交媒体研究的方法，提出Twtter-LDA，传统LDA并不适用于短文本，这篇论文解决了这一缺点。作者：WX Zhao J Jiang，J Weng， J H EP Lim https://link.springer.com/chapter/10.1007%2F978-3-642-20161-5_34