Functional data analysis (FDA) methods have computational and theoretical appeals for some high dimensional data, but lack the scalability to modern large sample datasets. To tackle the challenge, we develop randomized algorithms for two important FDA methods: functional principal component analysis (FPCA) and functional linear regression (FLR) with scalar response. The two methods are connected as they both rely on the accurate estimation of functional principal subspace. The proposed algorithms draw subsamples from the large dataset at hand and apply FPCA or FLR over the subsamples to reduce the computational cost. To effectively preserve subspace information in the subsamples, we propose a functional principal subspace sampling probability, which removes the eigenvalue scale effect inside the functional principal subspace and properly weights the residual. Based on the operator perturbation analysis, we show the proposed probability has precise control over the first order error of the subspace projection operator and can be interpreted as an importance sampling for functional subspace estimation. Moreover, concentration bounds for the proposed algorithms are established to reflect the low intrinsic dimension nature of functional data in an infinite dimensional space. The effectiveness of the proposed algorithms is demonstrated upon synthetic and real datasets.


翻译:功能数据分析(FDA)方法具有某些高维量数据的计算和理论吸引力,但缺乏对现代大样本数据集的可缩放性。为了应对这一挑战,我们为林业发展局的两种重要方法制定随机算法:功能主组成部分分析(FCCA)和功能线性回归(FLR),并配有斜度反应。这两种方法是相互联系的,因为它们都依赖对功能主次空间的准确估计。提议的算法从手头的大型数据集中提取子样本,对子样本应用FPCA或FLR,以减少计算成本。为了有效保存子样本中的子空间信息,我们提出了功能主次空间取样概率,这可以消除功能主次空间内的天平值尺度效应,并适当加权剩余部分。根据操作员的渗透分析,我们表明拟议的概率能够精确控制子空间预测操作员的第一个顺序错误,并可以解释为功能子空间估计的重要取样。此外,为了在子样本中有效保存子空间的计算,我们提议的算法的集中界限是用来反映功能性数据在无限空间上所展示的内在层面。

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
专知会员服务
41+阅读 · 2021年4月2日
专知会员服务
76+阅读 · 2021年3月16日
【经典书】线性代数,Linear Algebra,525页pdf
专知会员服务
76+阅读 · 2021年1月29日
专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
50+阅读 · 2020年12月14日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年1月14日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员