基于LDA的主题模型实践（三）

会员服务 ·

基于LDA的主题模型实践（三）

2015 年 10 月 12 日 机器学习深度学习实战原创交流 惜心（伟祺）

前面花了两大篇幅讲解LDA的原理:

LDA模型原理

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207386308&idx=1&sn=f2fad036a3813939a38ecee3e65a7928#rd

2）LDA求解方法Gibbus采样

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207482843&idx=1&sn=fc79a3e1c339047fe96d5fb3e25ced2f#rd

在了解了模型基本原理和求解过程之后，这次我们结合“基于无监督算法的用户画像”来演示LDA算法的实际应用，其主要思路是使用LDA对用户使用APP的描述信息对用户进行聚类，并且给出相应的关键词主题定义。

让我们先回顾一下无监督学习用户画像的思路：

具体用户画像的文章，请参考：

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207159018&idx=1&sn=9ff0aac1d48e2ab10e7479f4e87a20b7#rd

LDA算法的输入输出：

Input:

Parameters:

Output:

结合用户手机APP的数据，那么基于LDA无监督学习的用户画像过程如下：

1、输入用户使用APP及描述信息

2、对输入文本进行分词

3、把分好词文本输入LDA模型中聚类

4、输出文本测试结果

对收集到数据清洗去杂处理后，以每行一个用户及app名称和描述存储

把处理好的信息用HanLp分词包用crf方法分词

调整LDA模型参数a，b，主题数，以及迭代次数

设置完参数，初始化LDA模型

初始化过程是对每一个词先赋予一个随机主题

吉布斯采样达到LDA分布的马尔科夫链平稳，求出LDA最优解

输出结果如下：

如上图所示：

1）把文档聚成10个主题，每个主题下有对应的关键词表

2）关键词属于对应主题的概率，全部关键词概率和为1

3)根据关键词归纳出主题标签

例如：

① topic0中对应关键词表：医院、治疗、患者；可见topic0是和“医疗”相关的

② topic2中对应关键词表：市场、中国、企业、公司；可见topic2是和“经济”相关的

③ topic4中对应关键此表：工作、专业、学生、学校；可见topic4是和“学生求职”相关

登录查看更多

相关内容

LDA

关注 372

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量

专知会员服务

20+阅读 · 2020年5月12日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

【报告】知识图谱中的关联搜索，南京大学计算机科学与技术系副教授| 程龚

专知会员服务

126+阅读 · 2019年12月14日

【论文推荐】文本分析应用的NLP特征推荐

专知会员服务

34+阅读 · 2019年12月8日

博客 | 一次LDA的项目实战(附GibbsLDA++代码解读）

AI研习社

4+阅读 · 2018年12月7日

主题模型 | 挖掘商品在线评论的主题特征（NLP方法）

沈浩老师

45+阅读 · 2018年11月6日

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

基于attention的seq2seq机器翻译实践详解

黑龙江大学自然语言处理实验室

11+阅读 · 2018年3月14日

干货｜EM算法原理总结

全球人工智能

17+阅读 · 2018年1月10日

机器学习(30)之线性判别分析(LDA)原理详解

机器学习算法与Python学习

11+阅读 · 2017年12月6日

LibRec 每周算法：LDA主题模型

LibRec智能推荐

29+阅读 · 2017年12月4日

达观数据NLP技术的应用实践和案例分析

数据挖掘入门与实战

10+阅读 · 2017年7月27日

基于LDA的主题模型实践（二）MCMC--吉布斯采样

机器学习深度学习实战原创交流

25+阅读 · 2015年9月17日

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

Products of Euclidean metrics and applications to proximity questions among curves

Arxiv

3+阅读 · 2020年4月13日

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Arxiv

3+阅读 · 2020年3月17日

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

GREASE: A Generative Model for Relevance Search over Knowledge Graphs

Arxiv

4+阅读 · 2019年10月11日

Jointly Learning to Label Sentences and Tokens

Arxiv

3+阅读 · 2018年11月14日

From direct tagging to Tagging with sentences compression

Arxiv

6+阅读 · 2018年10月5日

Modeling Cognitive Processes in Social Tagging to Improve Tag Recommendations

Arxiv

3+阅读 · 2018年5月30日

Discrete Autoencoders for Sequence Models

Arxiv

6+阅读 · 2018年1月29日

Continuous Time Dynamic Topic Models

Arxiv

3+阅读 · 2015年5月16日

LA-LDA: A Limited Attention Topic Model for Social Recommendation

Arxiv

3+阅读 · 2013年1月26日

VIP会员