Topic model 介绍 简介:简要了解主题模型是什么意思,最基本的概念 https://en.wikipedia.org/wiki/Topic_model
概率主题模型简介 Introduction to Probabilistic Topic Models 简介:一步让你知道什么是lda,翻译了提出主题模型大神对概率主题模型的描述。中文文档更适合入门。David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文 http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html
主题模型-LDA浅析:简述了LDA的基础概念,描述了模型的生成过程,帮助你进一步了解主题模型~! http://blog.csdn.net/huagong_adu/article/details/7937616
Latent dirichlet allocation:开山之作LDA原论文。了解了主题模型的基础知识之后可以开始看原论文了。原文看不太懂也不要着急,可以先看个大概~ 作者:David M. Blei, Andrew Y. Ng, and Michael I. Jordan 顺便介绍一下Blei大神:David M. Blei Professor in the Statistics and Computer Science departments at Columbia University. Prior to fall 2014 he was an Associate Professor in the Department of Computer Science at Princeton University. His work is primarily in machine learning http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
Rickjin 腾讯的rickjin大神:LDA数学八卦 简介:传说中的“上帝掷骰子”的来源之处。这篇文章是一个连载的科普性博客,作者是rickjin,文章分为7个章节,主要5个章节讲得是Gamma函数、Beta/Dirichlet函数、MCMC和Gibbs采样、文本建模、LDA文本建模,对于想要了解和LDA的同学来说,是一篇很好的入门教程,建议结合Blei的开山之作一起看。 http://download.csdn.net/download/happyer88/8791493
LDA漫游指南 作者:马晨 清华大学在读博士,毕业于北京邮电大学硕士,曾任新浪网公司自然语言处理算法工程师。 简介:完全明白主题模型的必备之路:一份从数学基础开始讲的教程,与LDA数学八卦可以互为补充。 https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###
《Supervised topic models》: 有监督主题模型,提出SLDA,实现有监督学习。 作者:David M. Blei https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html
《Fast collapsed gibbs sampling for latent dirichlet allocation》:快速推理算法,在参数推理上提出更容易理解的方法。更加实用。事实上,由于方法相对更好理解,现在更多的主题模型都采用这种方法求解。 作者:I Porteous,D Newman,A Ihler A Asuncion P Smyth https://www.researchgate.net/publication/221653277_Fast_collapsed_Gibbs_sampling_for_latent_Dirichlet_allocation
LDA-math-MCMC 和 Gibbs Sampling 简介:rickjin大神对马尔科夫链蒙特卡洛采样和吉布斯采样的描述,讲的非常清晰明白。可以帮助大家更好的理解采样。 https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/
**用变分推理求解LDA模型的参数 ** 简介:LDA原文中采用的变分算法求解,想要了解变分算法可以看一下这篇文章。 作者:斯玮Fantastic https://zhuanlan.zhihu.com/p/28794694
早期文本模型的简介 https://zhuanlan.zhihu.com/p/28777266
Gensim简介、LDA编程实现、LDA主题提取效果图展 示 https://zhuanlan.zhihu.com/p/28830480
图模型学习 http://blog.csdn.net/pipisorry/article/category/6241251
Gaussian LDA: Gaussian LDA简介, 介绍主题模型和词向量结合的一些工作, 比较有意思,建议看一下 [http://blog.csdn.net/u011414416/article/details/51188483]
Courses 哥伦比亚大学给出的教程,David M. Blei的课程 http://www.cs.columbia.edu/~blei/courses.html
EMNLP 2018 A Tutorial on Deep Latent Variable Models of Natural Language
https://arxiv.org/pdf/1812.06834.pdf
LDA漫游指南 完全明白主题模型的必备之路:一份从数学基础开始讲的教程,与LDA数学八卦可以互为补充。 作者:马晨 清华大学在读博士,毕业于北京邮电大学硕士,曾任新浪网公司自然语言处理算法工程师。 https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###
MIT自然语言处理第三讲:概率语言模型 很系统的英文教程,这里给出了第一部分,后边几部分在52nlp也有翻译,可以对照去看看。 作者:Regina Barzilay(MIT,EECS Department, November 15, 2004) /52nlp上的翻译版本 http://people.csail.mit.edu/regina/6881/ http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part
斯坦福大学深度学习与自然语言处理第二讲:词向量 这里给出了整个深度学习与自然语言处理的连接。很适合想要做主题模型与深度学习相结合的人看。 作者:Richard Socher 斯坦福大学青年才俊 http://cs224d.stanford.edu/
topic_modeling_tutorial 除了基本的概念还包括在python上实现的流程。指导编程实现。 作者:piskvorky https://github.com/piskvorky/topic_modeling_tutorial
LDA数学八卦 传说中的“上帝掷骰子”的来源之处。这篇文章是一个连载的科普性博客,作者是rickjin,文章分为7个章节,主要5个章节讲得是Gamma函数、Beta/Dirichlet函数、MCMC和Gibbs采样、文本建模、LDA文本建模,对于想要了解和LDA的同学来说,是一篇很好的入门教程,建议结合Blei的开山之作一起看。 作者:Rickjin 腾讯的rickjin大神 http://download.csdn.net/download/happyer88/8791493
如何计算两个文档的相似度(一) 简介:52nlp上的文章,从最简单的tf-idf到SVD和LSI再到) LDA,可以说是形成了一条逻辑线,一步一步说明算法的发展过程,同时也方便对比各种算法的优缺点。另外,从实践的角度出发。迅速上手!用到了python里的gensim,这是一个非常好用的库,实践必不可少。 http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80
如何计算两个文档的相似度(二) 从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,可以跟着教程做一下实验,肯定会有更好地体会 http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C
文章说了很多实验的细节,讲了如何数据预处理,解决了很多理论类文章中不会提到的技术细节。NTLK是著名的Python自然语言处理工具包,在这也讲了怎么去用这些工具。 http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89
A correlated topic model of science Blei的大作,引入了主题之间的关联。考虑到了潜在主题的子集将是高度相关的。 http://www.cs.columbia.edu/~blei/papers/BleiLafferty2007.pdf (ppt) http://www-users.cs.umn.edu/~banerjee/Teaching/Fall07/talks/Muhammed_slides.pdf
Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning. 文本流推理 作者:A Banerjee , S Basu http://www-users.cs.umn.edu/~banerjee/papers/07/sdm-topics-long.pdf
Topical n-grams: Phrase and topic discovery, with an application to information retrieval 在LDA基础上考虑了词与词之间的顺序 作者:X Wang , A Mccallum , X Wei http://www.cs.cmu.edu/~xuerui/papers/ngram_tr.pdf
Hierarchical Dirichlet processes. 基于DirichletProcess的变形,即HDP模型,可以自动的学习出主题的数目。该方法:1、在一定程度之上解决了主题模型中自动确定主题数目这个问题,2、代价是必须小心的设定、调整参数的设置,3、实际中运行复杂度更高,代码复杂难以维护。 所以在实际中,往往取一个折中,看看自动确定主题数目这个问题对于整个应用的需求到底有多严格,如果经验设定就可以满足的话,就不用采用基于非参数贝叶斯的方法了,但是如果为了引入一些先验只是或者结构化信息,往往非参数是优先选择,例如树状层次的主题模型和有向无环图的主题模型 作者:Yee Whye Michael I. Jordan J Beal David M. Blei https://people.eecs.berkeley.edu/~jordan/papers/hdp.pdf
Modeling online reviews with multi-grain topic models
从用户评论数据中进行无监督主题抽取,考虑了一个多级背景主题模型:词~句子~段落~文档,解决了传统LDA模型提出的主题往往对应品牌而不是可以ratable的主题。 作者:I Titov , R Mcdonald http://delivery.acm.org/10.1145/1370000/1367513/p111-titov.pdf
A joint model of text and aspect ratings for sentiment summarization. 本文将一些具有结构化信息的特征融入到主题模型中,具体来说,我们同时关联两个生成过程,一个就是文档中词的生成,另一个就是这些结构化特征的生成。 作者:Titov , Ivan , McDonald , Ryan http://www.aclweb.org/anthology/P08-1036
Comparing twitter and traditional media using topic models. 用于社交媒体研究的方法,提出Twtter-LDA,传统LDA并不适用于短文本,这篇论文解决了这一缺点。 作者:WX Zhao J Jiang,J Weng, J H EP Lim https://link.springer.com/chapter/10.1007%2F978-3-642-20161-5_34
Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis. 将主题模型用于多媒体分析,同时考虑了opinion,view,collection等因素 作者:Shengsheng Qian Tianzhu Zhang Changsheng Xu http://delivery.acm.org/10.1145/2970000/2964294/p2-qian.pdf
TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency RNN与主题模型结合,结合了主题模型的全局信息和RNN的局部特征。 作者:AB Dieng, C Wang, J Gao, J Paisley https://arxiv.org/pdf/1611.01702.pdf
Cross-media Topic Detection with Refined CNN based Image-Dominant Topic Model CNN与主题模型结合 作者:Z Wang, L Li , Q Huang http://delivery.acm.org/10.1145/2810000/2806309/p1171-wang.pdf
Gaussian LDA for Topic Models with Word Embeddings word embedding 应用于LDA变形 作者:R Das, M Zaheer, C Dyer http://rajarshd.github.io/papers/acl2015.pdf
Employing Topic Models for Pattern-based Semantic Class Discovery 从语义类的角度出发,做信息提取。具体可以参考ppt 作者:Huibin Zhang Nankai University Mingjie Zhu University of Science and Technology of China huming Shi Ji-Rong Wen Microsoft Research Asia http://www.aclweb.org/anthology/P09-1052 https://pdfs.semanticscholar.org/604b/c2fb02b48d6d106215955a6a30629314df14.pdf (ppt)
Combining Concept Hierarchies and Statistical Topic Models 提供一个通用的数据驱动框架,用于从大量文本文档中自动发现高级知识。 作者:C Chemudugunta , P Smyth , M Steyvers http://delivery.acm.org/10.1145/1460000/1458337/p1469-chemudugunta.pdf
An Unsupervised Framework for Extracting and Normalizing Product Attributes from Multiple Web Sites 开发了一个无监督的框架,用于从源自不同站点的多个网页同时提取和归一化产品的属性。 作者:Tak-Lam Wong Wai Lam The Tik-Shun Wong The Chinese University of Hong Kong, Hong Kong, Hong Kong http://delivery.acm.org/10.1145/1400000/1390343/p35-wong.pdf
Probabilistic topic models http://delivery.acm.org/10.1145/2110000/2107741/tutorial-6-part1.mp4
Probabilistic topic models http://delivery.acm.org/10.1145/2110000/2107741/tutorial-6-part2.mp4
a 2008 talk on dynamic and correlated topic models applied to the journal Science . http://www.cs.columbia.edu/~blei/talks/Blei_Science_2008.pdf
Topic modeling software https://github.com/Blei-Lab
blei的github主页,有大量代码 lda-c(Latent Dirichlet allocation)LDA代码 http://www.cs.columbia.edu/~blei/lda-c/index.html
Supervised topic models for classification 有监督LDA http://www.cs.cmu.edu/~chongw/slda/
R package for Gibbs sampling in many models 吉布斯采样代码 https://cran.r-project.org/web/packages/lda/
online lda 在线lda http://www.cs.princeton.edu/~blei/downloads/onlineldavb.tar
Online inference for the HDPHierarchical Dirichlet processes. http://www.cs.cmu.edu/~chongw/software/onlinehdp.tar.gz
Collaborative modeling for recommendation关联主题模型 http://www.cs.cmu.edu/~chongw/citeulike/
Dynamic topic models and the influence model动态主题模型 https://code.google.com/archive/p/princeton-statistical-learning/downloads
David M. Blei
Michael Jordan
Ivan Titov Иван Титов 图模型方面的专家,有许多高水平论文。博客中有很多好的资源可以使读者了解主题模型的发展。 http://www.ivan-titov.org/
Eric xing
朱军
Alexander J. Smola
初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识
最近更新:2019-12-09