2、图模型和生成过程示例
 
    上述介绍的生成过程可能不够详细,现在我们根据LDA的图模型和一个示例中详细聊一聊LDA的图模型生成过程。我们权且先不考虑LDA中的其他数学基础和算法推导。现在让我们关注其三层结构“文档——主题——模型”,以及文档的生成过程。了解LDA的主题思想。
 
  
 
   
  如上图所示,用图模型模拟文档的生成过程是主题模型的经典方法:
 
   
   - 从狄里克雷分布
      α中采样生成文档
      m的主题分布
      θm;
- 从主题的多项式分布
      θm中采样生成文档
      m的第
      n个词的主题
      zm,n;
- 从狄里克雷分布
      β中采样生成主题
      zm,n对应的词分布
      φzm,n;
- 从主题-词的多项式分布
      φzm,n中采样最终生成的词
      wm,n。
  上述过程文档-主题分布
     θm和主题-词分布 很显然都是多项式分布。而产生过程中提到的Dirichlet(狄里克雷)分布和多项式分布有一定的关系,那么为何选择Dirichlet分布作为多项式分布的先验?这个问题将在“PLSA与LDA对比”中讲解。 为何要使用先验分布? 这个问题涉及到二项分布与Beta分布、多项式分布与狄里克雷分布的关系,将在“LDA的数学基础”进行详细的介绍。
 
  参考文献
 
   
   - Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[M]. JMLR, 2003. —LDA原始论文