主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等。由于其出色的降维 能力和灵活地易扩展性,成为自然语言处理领域的一个热门研究方向。Blei 等人提出了以 Lantent Dirichlet Allocation(LDA) 为代表的概率主题建模方法,在该模型中主题可以看作是单词的概率分布,主题模型通过单词项在文档级的共现信息进而 提取出与文档语义相关的主题,实现将高维的单词空间映射到低维的主题空间来完成对目标文本数据的降维处理,开创了 文本挖掘研究的新方向。其中 LDA 作为一种概率生成模型很容易被扩展为其它各种形式的模型,鉴于层次主题模型的应 用价值、理论意义和未来的发展潜力,本文首先系统性的对 LDA 模型进行介绍,进而对基于 LDA 模型的各类扩展模型进 行详细分类,并对其中各类的典型代表进行详细介绍,指出了各个概率主题模型被提出的原因以及其模型的具体形式、所 具有的优缺点、适宜解决的问题等,进而又指出近年来,主题模型的典型的应用场景,此外,本文还对目前概率主题模型 常用的几个公认的数据集、评测方法以及典型实验结果进行详细介绍,并在最后指明了概率主题模型进一步研究中需要解 决的问题以及未来可能的发展方向。