Latent Dirichlet Allocation (LDA) is a topic model widely used in natural language processing and machine learning. Most approaches to training the model rely on iterative algorithms, which makes it difficult to run LDA on big corpora that are best analyzed in parallel and distributed computational environments. Indeed, current approaches to parallel inference either don't converge to the correct posterior or require storage of large dense matrices in memory. We present a novel sampler that overcomes both problems, and we show that this sampler is faster, both empirically and theoretically, than previous Gibbs samplers for LDA. We do so by employing a novel P\'olya-urn-based approximation in the sparse partially collapsed sampler for LDA. We prove that the approximation error vanishes with data size, making our algorithm asymptotically exact, a property of importance for large-scale topic models. In addition, we show, via an explicit example, that -- contrary to popular belief in the topic modeling literature -- partially collapsed samplers can be more efficient than fully collapsed samplers. We conclude by comparing the performance of our algorithm with that of other approaches on well-known corpora.


翻译:在自然语言处理和机器学习中广泛使用的一个专题模型。 培训模型的多数方法都依赖迭代算法, 这使得很难在平行和分布的计算环境中对大公司进行LDA, 而这些公司最好在平行和分布式的计算环境中进行分析。 事实上, 目前平行推论的方法要么不与正确的后部趋同, 要么要求在记忆中储存大量密集的矩阵。 我们提出了一个克服这两个问题的新型采样器, 并且我们表明, 这个采样器在经验上和理论上都比以前的Gibs采样器对LDA来说都快。 我们这样做是因为在分散的局部崩溃采样器中采用了新的 P\'olya- urn 近似法。 我们通过将我们算法的性能与其他众所周知的公司方法相比较, 来证明近似误差会随着数据大小的消失, 使我们的算法变得非常精确, 成为大型主题模型的重要属性。 此外, 我们通过一个明确的例子, 表明, 与人们在模型文献中的信念相反, 部分崩溃的采样器比完全崩溃的采样器效率更高。 我们的结论是, 我们通过比较我们的算法性能与其他著名的公司。

3
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【干货】近年火爆的Attention模型,它的套路这里都有!
机器学习研究会
7+阅读 · 2017年12月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【干货】近年火爆的Attention模型,它的套路这里都有!
机器学习研究会
7+阅读 · 2017年12月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员