项目名称: 超高维生存数据变量筛选和选择中若干问题的研究

项目编号: No.11501573

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 数理科学和化学

项目作者: 陈晓林

作者单位: 曲阜师范大学

项目金额: 18万元

中文摘要: 分析超高维生存数据比较流行的做法是两阶段分析:首先,利用计算有效的筛选方法把维数减少到适当的水平;然后,通过更精细的惩罚方法进行同步变量选择和参数估计。由于删失和超高维的共同存在给统计推断带来的挑战,目前关于超高维生存数据变量筛选的研究还比较少。本项目拟研究一种基于L0稀疏约束估计的变量筛选策略及其具体的实施算法。不同于边际回归或相关性的方法,拟研究的方法能够自然地考虑到协变量的联合效应。在变量选择阶段,本项目拟研究基于seamless-L0和rLASSO惩罚函数的惩罚方法,并拟将相应方法推广到协变量具有交互效应时生存数据的变量选择问题。本项目在给出相应方法理论性质的同时,还将通过数值模拟比较所研究方法对现有方法的改进,并把研究成果应用到实际数据分析中。

中文关键词: 稀疏约束优化;超高维生存数据;惩罚;变量筛选;变量选择

英文摘要: To analyze the ultrahigh dimensional survival data, one appealing method is the two-stage approach. First, a computationally efficient screening method is applied to reduce the dimensionality to a moderate size, and then simultaneous variable selection and parameter estimation are achieved by the more elaborative penalized means. Due to the coexistence of censoring and ultrahigh dimensionality, the research about variable screening for survival data is very challenging and little. This project will study a method based on the L0 sparsity constraint estimator and the according implementation algorithm. Different from the existing marginal regression or correlation screening for ultrahigh dimensional survival data, the proposed procedure could naturally take the joint effects of covariates into consideration. At the stage of variable selection, this project will study the penalized methods via seamless-L0 and rLASSO penalty functions. Furthermore, the developed methods will be generalized to the variable selection for survival data with interactions. In addition to the theoretical properties, this project will also verify the improved performance of the proposed methods compared to the existing approaches under the finite samples, and apply the proposed methods to real data analysis.

英文关键词: sparsity-constrained optimization;ultrahigh dimensional survival data;penalization;variable screening;variable selection

成为VIP会员查看完整内容
0

相关内容

专知会员服务
15+阅读 · 2021年8月6日
专知会员服务
28+阅读 · 2021年6月7日
【经典书】数理统计学,142页pdf
专知会员服务
94+阅读 · 2021年3月25日
专知会员服务
140+阅读 · 2021年2月3日
多源数据行人重识别研究综述
专知会员服务
38+阅读 · 2020年11月2日
【经典书】统计学,806页pdf,解锁数据的力量
专知会员服务
78+阅读 · 2020年8月12日
CIKM21 | 图模型在广告检索(Ad Retrieval)中的应用
图与推荐
0+阅读 · 2021年12月16日
【博士论文】开放环境下的度量学习研究
专知
6+阅读 · 2021年12月4日
数据资产化前瞻性研究白皮书
专知
2+阅读 · 2021年11月19日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
72+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
14+阅读 · 2021年3月10日
小贴士
相关主题
相关VIP内容
专知会员服务
15+阅读 · 2021年8月6日
专知会员服务
28+阅读 · 2021年6月7日
【经典书】数理统计学,142页pdf
专知会员服务
94+阅读 · 2021年3月25日
专知会员服务
140+阅读 · 2021年2月3日
多源数据行人重识别研究综述
专知会员服务
38+阅读 · 2020年11月2日
【经典书】统计学,806页pdf,解锁数据的力量
专知会员服务
78+阅读 · 2020年8月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员