项目名称: 海量实时动态文本流在线主题分析研究

项目编号: No.61402036

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 毛先领

作者单位: 北京理工大学

项目金额: 26万元

中文摘要: 针对传统主题分析技术在本文流的动态性描述和快速处理上面临的挑战,设计有效适应文本流内在特性的快速主题分析方法已成为主题建模领域研究的热点。而现有方法存在刻画文本流动态规律片面、学习算法效率亟待提高、主题解释算法复杂度过高等问题。为此,本课题拟从准确性和效率两个角度深入研究并改进动态文本流的在线主题分析方法。首先,通过层次狄利克雷随机过程和布朗运动等数学模型刻画文本流的主题个数变化、主题演化和词汇变化等动态特性,并通过生成模型方式将这些动态特性与主题模型基本组件进行有机结合,达到准确地刻画了文本流内在规律的目的;其次,通过设计减小梯度下降方向方差的方法提升主题模型在线学习算法效率;最后,通过将主题解释问题转化为概率分布空间中K最近邻查找问题,以准确而高效地解决主题解释算法复杂度过高的问题。通过上述工作,将有效地提升文本流主题分析的准确性和效率。

中文关键词: 主题建模;在线分析;主题解释;;

英文摘要: Aiming at the dynamic characteristic and the quick response challenges of traditional topic analysis technology, designing effective online topic analysis frameworks which can capture the inherent characteristics of text stream, has become a promising res

英文关键词: topic modeling;online analysis;topic labeling;;

成为VIP会员查看完整内容
0

相关内容

流行病数据可视分析综述
专知会员服务
25+阅读 · 2022年3月21日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
45+阅读 · 2020年11月13日
【干货书】图形学基础,427页pdf
专知会员服务
145+阅读 · 2020年7月12日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
专知会员服务
107+阅读 · 2020年5月21日
文本情感分析方法研究综述
专知
4+阅读 · 2021年4月20日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
GAN | GAN介绍(1)
中国科学院网络数据重点实验室
17+阅读 · 2017年7月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
2+阅读 · 2022年4月20日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
26+阅读 · 2018年8月19日
小贴士
相关VIP内容
流行病数据可视分析综述
专知会员服务
25+阅读 · 2022年3月21日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
45+阅读 · 2020年11月13日
【干货书】图形学基础,427页pdf
专知会员服务
145+阅读 · 2020年7月12日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
专知会员服务
107+阅读 · 2020年5月21日
相关资讯
文本情感分析方法研究综述
专知
4+阅读 · 2021年4月20日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
GAN | GAN介绍(1)
中国科学院网络数据重点实验室
17+阅读 · 2017年7月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员