项目名称: 基于广义部分线性单指标模型的高维纵向数据统计分析

项目编号: No.11501099

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 数理科学和化学

项目作者: 许佩蓉

作者单位: 上海师范大学

项目金额: 18万元

中文摘要: 高维纵向数据在社会学、医学等领域中经常出现,其最大的特点是数据之间具有相关性。因此,如何在考虑数据相关性的前提下对其进行统计分析一直是近20年来统计学研究的热点课题之一,具有十分重要的意义。本项目将重点研究高维以及超高维纵向数据下的广义部分线性单指标模型。首先,本项目拟从模型的识别性、估计的有效性和变量选择这三方面对高维纵向数据下的广义部分线性单指标模型进行研究,拟借鉴广义估计方程的思想提出估计方法并研究其有效性,进而提出能同时进行参数估计和变量选择的方法,证明变量选择的相合性,并通过数值模拟研究其有限样本性质;其次,本项目拟探讨超高维纵向数据下广义部分线性单指标模型的降维问题,构建单指标系数变量的筛选准则,给出筛选方法的大样本性质,并通过数值分析来评估其有限样本下的表现;最后,本项目拟结合上述高维和超高维两种情况下所提出的方法,提出两阶段的特征筛选和选择方法并应用于实际数据进行实证研究。

中文关键词: 纵向数据;单指标模型;高维数据分析;变量选择;广义估计方程

英文摘要: High-dimensional longitudinal data arise frequently in many fields such as social sciences and medical studies. In essence, the data set may be regarded as a collection of many time series, in which serial correlation exists inherently. Therefore, it is very meaningful to do statistical analysis in the presence of within-subject correlation, which is one of the most popular topics in statistics over the past two decades. This project will focus on studying the generalized partially linear single-index models with high-dimensional and ultrahigh dimensional longitudinal data. Firstly, we aim to study the model identification, the estimation efficiency and variable selection for generalized partially linear single-index models with high-dimensional longitudinal data. In the spirit of generalized estimating equations, we propose an estimation procedure and establish the estimation efficiency of the parametric part of the model. Further, we propose a variable selection procedure to do parameter estimation and variable selection simultaneously. The variable selection consistency will be given and simulation studies will be carried out to evaluate the finite sample performance. Secondly, we will study the dimension reduction problem for the generalized partially linear single-index models with ultrahigh dimensional longitudinal data. We propose a screening method for feature screening. We will prove its sure screening properties and assess its finite sample performance via numerical studies. Finally, we propose a two-stage screen and clean method by combining above feature screening and selection methods. And we will apply the proposed two-stage method for real data analyses.

英文关键词: longitudinal data;single-index model;high-dimensional data analysis;variable selection;generalized estimating equations

成为VIP会员查看完整内容
1

相关内容

专知会员服务
117+阅读 · 2021年10月6日
专知会员服务
52+阅读 · 2021年8月29日
专知会员服务
48+阅读 · 2021年8月4日
【开放书】《现代统计学导论》,549页pdf
专知会员服务
71+阅读 · 2021年7月11日
【经典书】高维概率数据科学应用导论,301页pdf
专知会员服务
89+阅读 · 2021年6月17日
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
专知会员服务
144+阅读 · 2021年2月3日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
机器之心
0+阅读 · 2022年1月6日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
【干货书】概率,统计与数据,513页pdf
专知
34+阅读 · 2021年11月27日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
交通评价指标概略
智能交通技术
15+阅读 · 2019年7月21日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
29+阅读 · 2022年3月28日
Arxiv
10+阅读 · 2021年11月10日
Arxiv
20+阅读 · 2021年9月21日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
小贴士
相关VIP内容
专知会员服务
117+阅读 · 2021年10月6日
专知会员服务
52+阅读 · 2021年8月29日
专知会员服务
48+阅读 · 2021年8月4日
【开放书】《现代统计学导论》,549页pdf
专知会员服务
71+阅读 · 2021年7月11日
【经典书】高维概率数据科学应用导论,301页pdf
专知会员服务
89+阅读 · 2021年6月17日
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
专知会员服务
144+阅读 · 2021年2月3日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
相关资讯
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
机器之心
0+阅读 · 2022年1月6日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
【干货书】概率,统计与数据,513页pdf
专知
34+阅读 · 2021年11月27日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
交通评价指标概略
智能交通技术
15+阅读 · 2019年7月21日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员