In this paper we study the frequentist convergence rate for the Latent Dirichlet Allocation (Blei et al., 2003) topic models. We show that the maximum likelihood estimator converges to one of the finitely many equivalent parameters in Wasserstein's distance metric at a rate of $n^{-1/4}$ without assuming separability or non-degeneracy of the underlying topics and/or the existence of more than three words per document, thus generalizing the previous works of Anandkumar et al. (2012, 2014) from an information-theoretical perspective. We also show that the $n^{-1/4}$ convergence rate is optimal in the worst case.
翻译:在本文中,我们研究了Lentant Dirichlet分配(Blei等人,2003年)专题模型的常年趋同率(Blei等人,2003年),我们从信息理论角度表明,最大可能性估计值与瓦森斯坦距离测量中有限的许多等值参数之一相趋同,其比率为$ ⁇ -1/4/美元,而没有假定基本专题的分离性或非退化性,和/或每份文件存在三个以上的单词,从而从信息理论角度概括了Anandkumar等人以前的工作(2012年、2014年)。我们还表明,最坏的情况是,美元-1/4美元趋同率最优。