项目名称: 基于图论模型的文本重叠聚类研究

项目编号: No.61202312

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 吴秦

作者单位: 江南大学

项目金额: 23万元

中文摘要: 针对现有文本聚类分析中"如何选择最佳的聚类类簇数和如何实现重叠聚类"这两个重要研究课题,探讨实现文本重叠聚类的图论模型和聚类方法。主要研究内容包括:(1)研究文本聚类的图论模型,将文本间的信息映射到图空间,把自下而上的层次聚类问题转化成子图逐层收缩问题;(2)研究加权图中子图的密度变化特点,通过选取合理的重叠子图实现文本聚类结果中"单文本多类属"这一重叠聚类目标;(3)研究图论中最大割的组合优化算法,将选择最佳类簇个数这一问题转化为寻找聚类层次图中最大割问题。在此研究结果上,结合申请者在文本特征建模方面的已有成果,将文本的结构信息映射为特征图以改良传统的文本特征信息,最终实现文本聚类类簇个数的自动确定和高效的重叠聚类。文本聚类广泛应用于信息索引、搜索引擎、文档主题识别等领域,是信息科学的一个重要研究问题。本课题的研究对文本信息技术的发展具有重要的学术和应用价值。

中文关键词: 重叠聚类;类簇;抽样;特征提取;图模型

英文摘要: "How to find the number of the clusters" and "how to model overlapping clustering" are two important research problems in document clustering. In order to solve these two problems, we propose a graph model and an overlapping clustering algorithm for documents categorization. Our research mainly focuses on: (1) Introducing a graph model for document clustering and mapping information between different documents into the graph model. Convert the hierarchical clustering of Documents into the contraction of subgraphs. (2) Selection of overlapping subgraphs in the graph model. Realize the overlapping clustering of documents by finding appropriate overlapping subgraphs in the graph model. (3) Optimization of the maximum cut problem. Using the max cut in the hierarchical clustering tree to get the best number of clusters. Based on our previous research results on graph model for text classification, the structual information of text document is mapped into a sinature graph. By applying the proposed clustering method to the signature graph, the number of clusters coud be automatically determined and good overlapping clustering results would be achieved. Document clustering has wide applications in information retrival, search engine, document topic identification. It is an important research field in information scien

英文关键词: overlapping clustering;cluster;sampling;feature extraction;graph model

成为VIP会员查看完整内容
0

相关内容

IJCAI2021 | 课程对比图表示学习
专知会员服务
21+阅读 · 2021年11月7日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
69+阅读 · 2021年5月21日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
49+阅读 · 2021年1月30日
专知会员服务
65+阅读 · 2020年9月24日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
基于句子嵌入的无监督文本摘要(附代码实现)
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
专栏 | Bi-LSTM+CRF在文本序列标注中的应用
机器之心
14+阅读 · 2018年1月3日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Arxiv
29+阅读 · 2018年4月6日
小贴士
相关VIP内容
IJCAI2021 | 课程对比图表示学习
专知会员服务
21+阅读 · 2021年11月7日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
69+阅读 · 2021年5月21日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
49+阅读 · 2021年1月30日
专知会员服务
65+阅读 · 2020年9月24日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
相关资讯
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
基于句子嵌入的无监督文本摘要(附代码实现)
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
专栏 | Bi-LSTM+CRF在文本序列标注中的应用
机器之心
14+阅读 · 2018年1月3日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员