项目名称: 符号数据的聚类有效性分析与优化算法研究

项目编号: No.61305073

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 白亮

作者单位: 山西大学

项目金额: 26万元

中文摘要: 由于在人们的日常生活中存在着大量的符号数据(一种非数值型数据),如生物信息数据、Web数据和客户交易数据等,如何针对它们进行聚类分析已成为数据挖掘的一个重要研究问题,并引起了人们广泛关注。本项目将以符号数据作为研究对象,运用统计分析和优化方法,系统地对符号数据的聚类有效性及其相关的优化算法进行研究。主要研究内容包括:(1)符号数据的聚类准则选择和聚类算法互学习问题;(2)符号数据的聚类结果差异性度量和相关的优化问题;(3)在不同特征的符号数据集上对聚类算法表现的客观评价问题;(4)结合一两个具有明确生物意义的真实数据开展实验分析。本项目的研究成果将进一步丰富符号数据的聚类分析研究, 并为相关领域的数据挖掘与知识发现提供新的理论依据和技术支持。

中文关键词: 符号数据;聚类分析;聚类有效性;优化模型;优化算法

英文摘要: Due to the fact that a large collection of categorical data(a type of non-numerical data) exists in our lives, such as biological information data, Web data, customer transcation data, how to cluster categorical data have become an important issue in data mining, which have been concerned widely.In the project, we will take categorical data as a research subject and use the methods of statistical analysis and optimization theory to systematacially study the problems of its clustering validation and optimization algorithms. The main research contents are including: (1) The selection of clustering criteria and mutual learning between clustering algorithms; (2) The difference measures between clustering results from different data sets and its relevant optimization problems;(3)The appropriate evaluations for the performances of clustering algorithms on data sets with different characteristics; (4) The experimental analysis on some biological information data from the real world. The above mentioned contributions will further enrich the cluster analysis for categorical data, and provide new theoretical basis and technology support for the relevant studies.

英文关键词: Categorical data;cluster analysis;clustering validation;optimization model;optimization algorithm

成为VIP会员查看完整内容
0

相关内容

超图学习综述: 算法分类与应用分析
专知会员服务
33+阅读 · 2022年2月1日
专知会员服务
73+阅读 · 2021年10月15日
算法分析导论, 593页pdf
专知会员服务
151+阅读 · 2021年8月30日
【经典书】机器学习统计学,476页pdf
专知会员服务
122+阅读 · 2021年7月19日
923页ppt!经典课《机器学习核方法》,附视频
专知会员服务
105+阅读 · 2021年3月1日
专知会员服务
52+阅读 · 2021年1月19日
机器学习模型安全与隐私研究综述
专知会员服务
112+阅读 · 2020年11月12日
最新《统计机器学习》课程,26页ppt
专知会员服务
82+阅读 · 2020年8月30日
超图学习综述: 算法分类与应用分析
专知
0+阅读 · 2022年2月1日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
现代情感分析方法
Python开发者
13+阅读 · 2017年7月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
31+阅读 · 2021年3月29日
Arxiv
11+阅读 · 2018年5月21日
小贴士
相关VIP内容
超图学习综述: 算法分类与应用分析
专知会员服务
33+阅读 · 2022年2月1日
专知会员服务
73+阅读 · 2021年10月15日
算法分析导论, 593页pdf
专知会员服务
151+阅读 · 2021年8月30日
【经典书】机器学习统计学,476页pdf
专知会员服务
122+阅读 · 2021年7月19日
923页ppt!经典课《机器学习核方法》,附视频
专知会员服务
105+阅读 · 2021年3月1日
专知会员服务
52+阅读 · 2021年1月19日
机器学习模型安全与隐私研究综述
专知会员服务
112+阅读 · 2020年11月12日
最新《统计机器学习》课程,26页ppt
专知会员服务
82+阅读 · 2020年8月30日
相关资讯
超图学习综述: 算法分类与应用分析
专知
0+阅读 · 2022年2月1日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
现代情感分析方法
Python开发者
13+阅读 · 2017年7月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员