2、图模型和生成过程示例

2、图模型和生成过程示例

  上述介绍的生成过程可能不够详细,现在我们根据LDA的图模型和一个示例中详细聊一聊LDA的图模型生成过程。我们权且先不考虑LDA中的其他数学基础和算法推导。现在让我们关注其三层结构“文档——主题——模型”,以及文档的生成过程。了解LDA的主题思想。

图片

图3 图模型生成示意图

如上图所示,用图模型模拟文档的生成过程是主题模型的经典方法:

  1. 从狄里克雷分布 α \alpha 中采样生成文档 m m 的主题分布 θ m \theta _m
  2. 从主题的多项式分布 θ m \theta _m 中采样生成文档 m m 的第 n n 个词的主题 z m , n {z_{m,n}}
  3. 从狄里克雷分布 β \beta 中采样生成主题 z m , n {z_{m,n}} 对应的词分布 φ z m , n {\varphi _{{z_{m,n}}}}
  4. 从主题-词的多项式分布 φ z m , n {\varphi _{{z_{m,n}}}} 中采样最终生成的词 w m , n {w_{m,n}}

  上述过程文档-主题分布 θ m \theta _m 和主题-词分布 很显然都是多项式分布。而产生过程中提到的Dirichlet(狄里克雷)分布和多项式分布有一定的关系,那么为何选择Dirichlet分布作为多项式分布的先验?这个问题将在“PLSA与LDA对比”中讲解。 为何要使用先验分布? 这个问题涉及到二项分布与Beta分布、多项式分布与狄里克雷分布的关系,将在“LDA的数学基础”进行详细的介绍。

参考文献

  1. Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[M]. JMLR, 2003. —LDA原始论文
展开全文
相关主题
Top
微信扫码咨询专知VIP会员