主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等。由于其出色的降维 能力和灵活地易扩展性,成为自然语言处理领域的一个热门研究方向。Blei 等人提出了以 Lantent Dirichlet Allocation(LDA) 为代表的概率主题建模方法,在该模型中主题可以看作是单词的概率分布,主题模型通过单词项在文档级的共现信息进而 提取出与文档语义相关的主题,实现将高维的单词空间映射到低维的主题空间来完成对目标文本数据的降维处理,开创了 文本挖掘研究的新方向。其中 LDA 作为一种概率生成模型很容易被扩展为其它各种形式的模型,鉴于层次主题模型的应 用价值、理论意义和未来的发展潜力,本文首先系统性的对 LDA 模型进行介绍,进而对基于 LDA 模型的各类扩展模型进 行详细分类,并对其中各类的典型代表进行详细介绍,指出了各个概率主题模型被提出的原因以及其模型的具体形式、所 具有的优缺点、适宜解决的问题等,进而又指出近年来,主题模型的典型的应用场景,此外,本文还对目前概率主题模型 常用的几个公认的数据集、评测方法以及典型实验结果进行详细介绍,并在最后指明了概率主题模型进一步研究中需要解 决的问题以及未来可能的发展方向。

http://cjc.ict.ac.cn/online/bfpub/hynx-202131103858.pdf

成为VIP会员查看完整内容
35

相关内容

主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。   在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
56+阅读 · 2021年8月12日
专知会员服务
48+阅读 · 2021年6月26日
专知会员服务
64+阅读 · 2021年5月29日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
47+阅读 · 2021年4月9日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
21+阅读 · 2021年1月5日
专知会员服务
36+阅读 · 2020年12月14日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
清华大学图神经网络综述:模型与应用
机器之心
74+阅读 · 2018年12月26日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
基于 word2vec 和 CNN 的文本分类 :综述 & 实践
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年11月27日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
专知会员服务
56+阅读 · 2021年8月12日
专知会员服务
48+阅读 · 2021年6月26日
专知会员服务
64+阅读 · 2021年5月29日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
47+阅读 · 2021年4月9日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
21+阅读 · 2021年1月5日
专知会员服务
36+阅读 · 2020年12月14日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
清华大学图神经网络综述:模型与应用
机器之心
74+阅读 · 2018年12月26日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
基于 word2vec 和 CNN 的文本分类 :综述 & 实践
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
相关论文
Arxiv
4+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年11月27日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
微信扫码咨询专知VIP会员