2、图模型和生成过程示例
上述介绍的生成过程可能不够详细,现在我们根据LDA的图模型和一个示例中详细聊一聊LDA的图模型生成过程。我们权且先不考虑LDA中的其他数学基础和算法推导。现在让我们关注其三层结构“文档——主题——模型”,以及文档的生成过程。了解LDA的主题思想。
如上图所示,用图模型模拟文档的生成过程是主题模型的经典方法:
- 从狄里克雷分布
α中采样生成文档
m的主题分布
θm;
- 从主题的多项式分布
θm中采样生成文档
m的第
n个词的主题
zm,n;
- 从狄里克雷分布
β中采样生成主题
zm,n对应的词分布
φzm,n;
- 从主题-词的多项式分布
φzm,n中采样最终生成的词
wm,n。
上述过程文档-主题分布
θm和主题-词分布 很显然都是多项式分布。而产生过程中提到的Dirichlet(狄里克雷)分布和多项式分布有一定的关系,那么为何选择Dirichlet分布作为多项式分布的先验?这个问题将在“PLSA与LDA对比”中讲解。 为何要使用先验分布? 这个问题涉及到二项分布与Beta分布、多项式分布与狄里克雷分布的关系,将在“LDA的数学基础”进行详细的介绍。
参考文献
- Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[M]. JMLR, 2003. —LDA原始论文