基于LDA的主题模型实践(三)

2015 年 10 月 12 日 机器学习深度学习实战原创交流 惜心(伟祺)

前面花了两大篇幅讲解LDA的原理:

  • LDA模型原理

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207386308&idx=1&sn=f2fad036a3813939a38ecee3e65a7928#rd

2LDA求解方法Gibbus采样

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207482843&idx=1&sn=fc79a3e1c339047fe96d5fb3e25ced2f#rd

在了解了模型基本原理和求解过程之后,这次我们结合“基于无监督算法的用户画像”来演示LDA算法的实际应用,其主要思路是使用LDA对用户使用APP的描述信息对用户进行聚类,并且给出相应的关键词主题定义。

让我们先回顾一下无监督学习用户画像的思路:


具体用户画像的文章,请参考:

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207159018&idx=1&sn=9ff0aac1d48e2ab10e7479f4e87a20b7#rd

LDA算法的输入输出:

Input:


Parameters:


Output:


结合用户手机APP的数据,那么基于LDA无监督学习的用户画像过程如下:

1、输入用户使用APP及描述信息

2、对输入文本进行分词

3、把分好词文本输入LDA模型中聚类

4、输出文本测试结果

对收集到数据清洗去杂处理后,以每行一个用户及app名称和描述存储


把处理好的信息用HanLp分词包用crf方法分词


调整LDA模型参数ab,主题数,以及迭代次数


设置完参数,初始化LDA模型


初始化过程是对每一个词先赋予一个随机主题


吉布斯采样达到LDA分布的马尔科夫链平稳,求出LDA最优解



输出结果如下:


如上图所示:

1)把文档聚成10个主题,每个主题下有对应的关键词表

2)关键词属于对应主题的概率,全部关键词概率和为1

3)根据关键词归纳出主题标签

例如:

topic0中对应关键词表:医院、治疗、患者;可见topic0是和“医疗”相关的

topic2中对应关键词表:市场、中国、企业、公司;可见topic2是和“经济”相关的

topic4中对应关键此表:工作、专业、学生、学校;可见topic4是和“学生求职相关


登录查看更多
23

相关内容

【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
博客 | 一次LDA的项目实战(附GibbsLDA++代码解读)
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
基于attention的seq2seq机器翻译实践详解
黑龙江大学自然语言处理实验室
11+阅读 · 2018年3月14日
干货|EM算法原理总结
全球人工智能
17+阅读 · 2018年1月10日
机器学习(30)之线性判别分析(LDA)原理详解
机器学习算法与Python学习
11+阅读 · 2017年12月6日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
基于LDA的主题模型实践(二 )MCMC--吉布斯采样
机器学习深度学习实战原创交流
24+阅读 · 2015年9月17日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关资讯
博客 | 一次LDA的项目实战(附GibbsLDA++代码解读)
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
基于attention的seq2seq机器翻译实践详解
黑龙江大学自然语言处理实验室
11+阅读 · 2018年3月14日
干货|EM算法原理总结
全球人工智能
17+阅读 · 2018年1月10日
机器学习(30)之线性判别分析(LDA)原理详解
机器学习算法与Python学习
11+阅读 · 2017年12月6日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
基于LDA的主题模型实践(二 )MCMC--吉布斯采样
机器学习深度学习实战原创交流
24+阅读 · 2015年9月17日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
Top
微信扫码咨询专知VIP会员