We analyze a large database of de-identified Medicare Advantage claims from a single large US health insurance provider, where the number of individuals available for analysis are an order of magnitude larger than the number of potential covariates. This type of data, dubbed `tall data', often does not fit in memory, and estimating parameters using traditional Markov Chain Monte Carlo (MCMC) methods is a computationally infeasible task. We show how divide-and-conquer MCMC, which splits the data into disjoint subsamples and runs a MCMC algorithm on each sample in parallel before combining results, can be used with a multivariate probit factor model. We then show how this approach can be applied to large medical datasets to provide insights into questions of interest to the medical community. We also conduct a simulation study, comparing two posterior combination algorithms with a mean-field stochastic variational approach, showing that divide-and-conquer MCMC should be preferred over variational inference when estimating the latent correlation structure between binary responses is of primary interest.


翻译:我们分析一个单一的大型美国医疗保险提供商提供的关于确定医疗福利索赔的大型数据库,其中可供分析的人数数量比潜在共同变量的数量要大得多。这类称为“全部数据”的数据往往不适应记忆,并且使用传统的Markov 链条蒙特卡洛(MCMC)方法估算参数,这是一项计算不可行的任务。我们展示了如何将数据分为分解子样本并同时对每个样本同时进行MCMC算法的分解和合并结果,在计算结果之前,可以同时使用多变量的分辨参数模型。然后我们展示了如何将这种方法应用于大型医疗数据集,以深入了解医学界感兴趣的问题。我们还进行了模拟研究,将两种后种混合算法与平均场的分解变法进行比较,表明在估计二进制反应之间潜在的相关性结构时,偏好偏向偏向偏向偏向偏向偏向偏向偏向偏向偏向差异的混合模型。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员