In this paper we present a model for unsupervised topic discovery in texts corpora. The proposed model uses documents, words, and topics lookup table embedding as neural network model parameters to build probabilities of words given topics, and probabilities of topics given documents. These probabilities are used to recover by marginalization probabilities of words given documents. For very large corpora where the number of documents can be in the order of billions, using a neural auto-encoder based document embedding is more scalable then using a lookup table embedding as classically done. We thus extended the lookup based document embedding model to continuous auto-encoder based model. Our models are trained using probabilistic latent semantic analysis (PLSA) assumptions. We evaluated our models on six datasets with a rich variety of contents. Conducted experiments demonstrate that the proposed neural topic models are very effective in capturing relevant topics. Furthermore, considering perplexity metric, conducted evaluation benchmarks show that our topic models outperform latent Dirichlet allocation (LDA) model which is classically used to address topic discovery tasks.


翻译:在本文中,我们提出了一个在文本公司中进行不受监督的专题发现模型。 拟议的模型使用文档、 单词和主题查找表作为神经网络模型参数嵌入神经网络参数, 以建立给定主题的单词概率和给定文件的概率。 这些概率用于通过给定文件的单词的边缘化概率来恢复。 对于巨大的公司来说, 其文件数量可以达到数十亿左右, 使用以神经自动编码为基础的文件嵌入, 比较容易缩放, 然后使用古典化的外观表格嵌入。 因此, 我们把基于外观的文件嵌入模型扩大到基于持续自动编码的模型。 我们的模型是使用概率潜在语系分析( PLSA) 假设来培训的。 我们用具有丰富内容的六个数据集来评估我们的模型。 进行实验表明, 拟议的神经专题模型在捕捉相关专题方面非常有效。 此外, 考虑到不易理解性衡量标准, 进行的评估基准显示, 我们的专题模型比潜在dirichlet分配( LDA) 模型(LDA) 典型用于处理专题发现任务。

0
下载
关闭预览

相关内容

商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2017年11月30日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关论文
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2017年11月30日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员