项目名称: 半监督进化文本聚类算法在动态多源文本分析上的研究

项目编号: No.61462011

项目类型: 地区科学基金项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 黄瑞章

作者单位: 贵州大学

项目金额: 42万元

中文摘要: 本课题通过建立一个新型的半监督进化文本聚类方法,利用Dirichlet过程(Dirichlet Process,DP)模型,结合主动学习方法,实现动态多源文本数据的自动聚类划分。运用新型的主动学习方法提炼监督信息,有效表达当前聚类结果、历史聚类结果、以及多源文本数据的特性,并转化为结构化监督数据指导半监督文本聚类。运用DP模型,结合监督信息,有效划分动态多源文本数据到任意多个聚类中。结合主动学习与半监督进化文本聚类,使主动学习与半监督进化文本聚类方法互相促进,并有效更新监督信息,逐步逼近理想的聚类划分。本课题是对进化文本聚类算法的突破研究,解决现行进化文本聚类算法的两个缺陷:(1) 倾向于划分数据到大规模聚类组中;(2)缺乏针对多源数据的聚类分析。在文本分析的应用领域,本课题的预期成果将为实际的互联网文本分析提供解决方法,为包含新闻和微博数据在内的动态互联网数据的分析提供探索性研究。

中文关键词: 文本挖掘;数据挖掘;文本聚类;半监督文本聚类;进化聚类

英文摘要: We aim to develop an innovative semi-supervised evolutionary document clustering approach to organize multiple correlated time-varying document collections. The semi-supervised evolutionary document clustering approach will be designed based on the dirichlet process (DP) model and will collaborate with an active learning model. We use the active learning model to collect informative supervised information which will be transformed into structured constraints to aid document clustering. The current document clustering partition, document clustering partitions for historical text data, and the multiple correlated document collection will be analyzed for generating supervised informtion. The semi-supervised document clustering approach, designed based on the DP model, will then be used to automatically organize multiple correlated time-varing document collections to arbitrary number of clusters. The active learning and the semi-supervised evolutionary document clusterng approach will collaborate and mutual promote in an iterative manner until a satisfied document clustering result is discovered. This project is extremely important for the research of the semi-supervised evolutionary document clustering problem. Two limitations of the current evolutionary document clustering problem will be handled: (1) the bias of assigning documents to relatively large document clusters for the DP approach; (2) the lack of the research on multiple correlated document collection. In particular, existing evolutionary document clustering approaches cannot due with multple correlated document collection and tends to group document points to relatively large clusters. From the application point of view, this project will provide a feasible solution for document analysis on real document articles collected from the Internet. We will develop a useful news and blog article analysis system to explore the application usage of the evoluationary document clustering.

英文关键词: text mining;data mining;document clustering;semi-supervised document clustering;evolutionary document clustering

成为VIP会员查看完整内容
2

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
算法分析导论, 593页pdf
专知会员服务
148+阅读 · 2021年8月30日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
71+阅读 · 2021年3月27日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
111+阅读 · 2021年1月8日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月18日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
23+阅读 · 2018年8月3日
小贴士
相关VIP内容
算法分析导论, 593页pdf
专知会员服务
148+阅读 · 2021年8月30日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
71+阅读 · 2021年3月27日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
111+阅读 · 2021年1月8日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
相关资讯
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员