Suppose we have available individual data from an internal study and various types of summary statistics from relevant external studies. External summary statistics have been used as constraints on the internal data distribution, which promised to improve the statistical inference in the internal data; however, the additional use of external summary data may lead to paradoxical results: efficiency loss may occur if the uncertainty of summary statistics is not negligible and large estimation bias can emerge even if the bias of external summary statistics is small. We investigate these paradoxical results in a semiparametric framework. We establish the semiparametric efficiency bound for estimating a general functional of the internal data distribution, which is shown to be no larger than that using only internal data. We propose a data-fused efficient estimator that achieves this bound so that the efficiency paradox is resolved. Besides, a debiased estimator is further proposed which has selection consistency property by employing adaptive lasso penalty so that the resultant estimator can achieve the same asymptotic distribution as the oracle one that uses only unbiased summary statistics, which resolves the bias paradox. Simulations and application to a Helicobacter pylori infection dataset are used to illustrate the proposed methods.


翻译:假设我们有内部研究的个体数据,以及相关外部研究的各种类型的总结统计数据。外部总结统计数据已用作内部数据分布的约束条件,这有望改善内部数据的统计推断;然而,如果总结统计数据的不确定性不可忽略,那么将额外利用外部总结数据可能导致效率损失,并且即使外部总结统计数据偏差较小,大型估计偏差也可能出现。我们在半参数框架下研究了这些悖论性的结果。我们建立了估计内部数据分布的一般功能的半参数效率界限,该界限显示不会比仅使用内部数据更大。我们提出了一个数据融合的有效估计量,以实现该界限,从而解决了效率悖论。此外,我们还提出了一个去偏估计器,通过采用自适应 Lasso 惩罚来实现选择一致性属性,从而使得结果估计器能够实现与仅使用无偏总结统计数据的 Oracle 的相同渐近分布,从而解决偏差悖论。模拟和应用于幽门螺杆菌感染数据集以说明所提出的方法。

0
下载
关闭预览

相关内容

【2023新书】使用Python进行统计和数据可视化,554页pdf
专知会员服务
129+阅读 · 2023年1月29日
【干货书】工程和科学中的概率和统计,
专知会员服务
58+阅读 · 2022年12月24日
【干货书】概率,统计与数据,513页pdf
专知会员服务
137+阅读 · 2021年11月27日
【MIT干货课程】医疗健康领域的机器学习
专知
1+阅读 · 2022年5月26日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月19日
Arxiv
93+阅读 · 2022年8月2日
VIP会员
相关VIP内容
【2023新书】使用Python进行统计和数据可视化,554页pdf
专知会员服务
129+阅读 · 2023年1月29日
【干货书】工程和科学中的概率和统计,
专知会员服务
58+阅读 · 2022年12月24日
【干货书】概率,统计与数据,513页pdf
专知会员服务
137+阅读 · 2021年11月27日
相关资讯
【MIT干货课程】医疗健康领域的机器学习
专知
1+阅读 · 2022年5月26日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员