Traditionally, Latent Dirichlet Allocation (LDA) ingests words in a collection of documents to discover their latent topics using word-document co-occurrences. However, it is unclear how to achieve the best results for languages without marked word boundaries such as Chinese and Thai. Here, we explore the use of Pearson's chi-squared test, t-statistics, and Word Pair Encoding (WPE) to produce tokens as input to the LDA model. The Chi-squared, t, and WPE tokenizers are trained on Wikipedia text to look for words that should be grouped together, such as compound nouns, proper nouns, and complex event verbs. We propose a new metric for measuring the clustering quality in settings where the vocabularies of the models differ. Based on this metric and other established metrics, we show that topics trained with merged tokens result in topic keys that are clearer, more coherent, and more effective at distinguishing topics than those unmerged models.


翻译:在传统意义上,LDA(LDA)在一系列文件中录用文字,用文字文档共同发现其潜在主题。 但是,如何在没有中国和泰语等标明词界线的情况下,为语言取得最佳结果还不清楚。 我们在这里探索使用Pearson的奇质配方测试、t-统计学和Word Pair Encoding(WPE)来制作标语,作为LDA模型的投入。 Chi-squared、 t 和WPE 标识器在维基百科文本上接受了培训,以寻找应该组合的词,如复合名词、适当的名词和复杂的事件动词。 我们提出了在模型的词汇不同环境中测量群集质量的新指标。 根据这一指标和其他既定指标,我们显示,用合并标语培训的专题导致主题键更加清晰、更加一致,在区分主题方面比未合并模型更有效。

0
下载
关闭预览

相关内容

专知会员服务
35+阅读 · 2021年6月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
专知会员服务
123+阅读 · 2020年9月8日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
234+阅读 · 2020年4月29日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
5+阅读 · 2018年1月23日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2021年6月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
专知会员服务
123+阅读 · 2020年9月8日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
234+阅读 · 2020年4月29日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员