We propose a fast and efficient strategy, called the representative approach, for big data analysis with generalized linear models, especially for distributed data with localization requirements or limited network bandwidth. With a given partition of massive dataset, this approach constructs a representative data point for each data block and fits the target model using the representative dataset. In terms of time complexity, it is as fast as the subsampling approaches in the literature. As for efficiency, its accuracy in estimating parameters given a homogeneous partition is comparable with the divide-and-conquer method. Supported by comprehensive simulation studies and theoretical justifications, we conclude that mean representatives (MR) work fine for linear models or generalized linear models with a flat inverse link function and moderate coefficients of continuous predictors. For general cases, we recommend the proposed score-matching representatives (SMR), which may improve the accuracy of estimators significantly by matching the score function values. As an illustrative application to the Airline on-time performance data, we show that the MR and SMR estimates are as good as the full data estimate when available.


翻译:我们提出了一个快速而有效的战略,称为代表性方法,用于使用通用线性模型进行大数据分析,特别是具有本地化要求或有限网络带宽的分布式数据;通过对大型数据集进行特定分割,这种方法为每个数据区块建立一个有代表性的数据点,并适合使用代表性数据集的目标模型;在时间复杂性方面,它与文献中的子抽样方法一样快;在效率方面,在估计单一分区的参数时,其精确度与分数和分数方法相当;在全面模拟研究和理论依据的支持下,我们的结论是,代表对线性模型或具有平面反链接功能和连续预测的中度系数的通用线性模型工作良好;在一般情况下,我们建议拟议的得分比对数代表(SMR),这可以通过与分数函数值相匹配,大大提高估计的准确性;作为对空线实时性能数据的示例应用,我们表明MR和SMR估计数在可用时与全部数据估计相同。

0
下载
关闭预览

相关内容

【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员