项目名称: 高维数据保真降维方法研究

项目编号: No.61471182

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 无线电电子学、电信技术

项目作者: 祁云嵩

作者单位: 江苏科技大学

项目金额: 75万元

中文摘要: 现有的特征降维方法大致可分为特征提取和特征选择。在特征提取过程中,数据中的原始特征通过某些数据变换被映射到一个低维空间。尽管提取出的特征与原始特征相关,但不再具有原始特征的物理意义- - -特征提取改变了原始数据的表达形式。与特征提取不同,特征选择则在原有的特征集中选择一个子集,选择出的特征子集中不再含有与数据分析任务相关性不大或冗余的那部分特征,其结果可能引起信息丢失。由此可见,现所有的数据降维方法几乎都不是保真降维,其降维后的数据仅适合特定的后续数据分析任务,因而只能算是特定数据分析任务的前期数据预处理。 本项目的研究探索一类高保真数据降维方法,其降维结果致力于保留原始数据中的全部(期望的)原始特征,最大限度地剔除无关特征。 项目研究借助多重假设检验方法,其研究内容涉及特征相关分析、假设检验阈值估算、零假设比例估算、区间值处理分析等关键技术。项目研究结果对大数据清洗、存储等有实际意义。

中文关键词: 特征选择;数据过滤;数据挖掘

英文摘要: The existing feature dimension reduction methods can roughly be categorized into two classes: feature extraction and feature selection. In feature extraction problems, the original features in the measurement space are initially transformed into a new dimension-reduced space via some specified transformation. Although the significant variables determined in the new space are related to the original variables, the physical interpretation in terms of the original variables may be lost. So, feature extraction will change the description of the original data. Unlike feature extraction, feature selection aims to seek optimal or suboptimal subsets of the original features by preserving the main information carried by the complete data to facilitate future analysis for high dimensional problems. Often, the selected features are a subset of the original features, those insignificant and redundant features may be discarded. It is worth mentioning that almost all of the existing dimensionality reduction methods are not high fidelity methods. The result of these methods are only suitable for specific subsequent data analysis tasks, which is only a particular task under the preprocess. In this project, we study the dimensionality high fidelity reduction problem. The processing results can save all the useful information, eliminate the irrelevant features from the original data. The project will be implemented with the technique of multiple hypothesis testing. The research content involves the characteristics of correlation analysis, threshold estimation of hypothesis testing, null hypothesis proportion estimation, interval analysis, etc. The research has practical significance for big data analysis.

英文关键词: Feature Selection;Data Filtering;Data Mining

成为VIP会员查看完整内容
2

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
专知会员服务
117+阅读 · 2021年10月6日
专知会员服务
52+阅读 · 2021年8月29日
专知会员服务
36+阅读 · 2021年5月10日
专知会员服务
112+阅读 · 2021年3月23日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
238+阅读 · 2020年7月28日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
177+阅读 · 2020年6月3日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
主成分分析用于可视化(附链接)
大数据文摘
1+阅读 · 2022年3月14日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
t-SNE:最好的降维方法之一
人工智能前沿讲习班
26+阅读 · 2019年2月24日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
机器学习(30)之线性判别分析(LDA)原理详解
机器学习算法与Python学习
11+阅读 · 2017年12月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
A Survey on Deep Hashing Methods
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
小贴士
相关VIP内容
专知会员服务
117+阅读 · 2021年10月6日
专知会员服务
52+阅读 · 2021年8月29日
专知会员服务
36+阅读 · 2021年5月10日
专知会员服务
112+阅读 · 2021年3月23日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
238+阅读 · 2020年7月28日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
177+阅读 · 2020年6月3日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
主成分分析用于可视化(附链接)
大数据文摘
1+阅读 · 2022年3月14日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
t-SNE:最好的降维方法之一
人工智能前沿讲习班
26+阅读 · 2019年2月24日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
机器学习(30)之线性判别分析(LDA)原理详解
机器学习算法与Python学习
11+阅读 · 2017年12月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月20日
A Survey on Deep Hashing Methods
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
微信扫码咨询专知VIP会员