We present `latentcor`, an R package for correlation estimation from data with mixed variable types. Mixed variables types, including continuous, binary, ordinal, zero-inflated, or truncated data are routinely collected in many areas of science. Accurate estimation of correlations among such variables is often the first critical step in statistical analysis workflows. Pearson correlation as the default choice is not well suited for mixed data types as the underlying normality assumption is violated. The concept of semi-parametric latent Gaussian copula models, on the other hand, provides a unifying way to estimate correlations between mixed data types. The R package `latentcor` comprises a comprehensive list of these models, enabling the estimation of correlations between any of continuous/binary/ternary/zero-inflated (truncated) variable types. The underlying implementation takes advantage of a fast multi-linear interpolation scheme with an efficient choice of interpolation grid points, thus giving the package a small memory footprint without compromising estimation accuracy. This makes latent correlation estimation readily available for modern high-throughput data analysis.


翻译:我们提出`后期数据 ',这是根据混合变量类型数据进行相关估计的R套件;混合变量类型,包括连续数据、二进制数据、正交数据、零充气数据或短流数据,经常在许多科学领域收集。准确估计这些变量之间的相互关系往往是统计分析工作流程中的第一个关键步骤。Pearson的关联性,因为默认选择并不完全适合混合数据类型,因为基本常态假设被违反。半对称潜潜潜潜潜潜潜高素焦云模型的概念,为估计混合数据类型之间的相关性提供了统一的方法。R包`延缩'包含这些模型的综合清单,使得能够估计任何连续/二进制/长期/零充气(调整)变异类型之间的相互关系。基本实施利用快速多线内插计划,高效选择内插网点,从而使该套件的记忆足迹小,而不损害估计准确性。这为现代高通量数据分析提供了潜在的关联性估算。

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年5月21日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
49+阅读 · 2021年1月30日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
图神经网络库PyTorch geometric
图与推荐
17+阅读 · 2020年3月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月14日
Arxiv
0+阅读 · 2021年10月14日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
图神经网络库PyTorch geometric
图与推荐
17+阅读 · 2020年3月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员