While classical statistics has addressed observations that are real numbers or elements of a real vector space, at present many statistical problems of high interest in the sciences address the analysis of data that consist of more complex objects, taking values in spaces that are naturally not (Euclidean) vector spaces but which still feature some geometric structure. Manifold fitting is a long-standing problem, and has finally been addressed in recent years by Fefferman et al. (2020, 2021a). We develop a method with a theory guarantee that fits a $d$-dimensional underlying manifold from noisy observations sampled in the ambient space $\mathbb{R}^D$. The new approach uses geometric structures to obtain the manifold estimator in the form of image sets via a two-step mapping approach. We prove that, under certain mild assumptions and with a sample size $N=\mathcal{O}(\sigma^{(-d+3)})$, these estimators are true $d$-dimensional smooth manifolds whose estimation error, as measured by the Hausdorff distance, is bounded by $\mathcal{O}(\sigma^2\log(1/\sigma))$ with high probability. Compared with the existing approaches proposed in Fefferman et al. (2018, 2021b); Genovese et al. (2014); Yao and Xia (2019), our method exhibits superior efficiency while attaining very low error rates with a significantly reduced sample size, which scales polynomially in $\sigma^{-1}$ and exponentially in $d$. Extensive simulations are performed to validate our theoretical results. Our findings are relevant to various fields involving high-dimensional data in statistics and machine learning. Furthermore, our method opens up new avenues for existing non-Euclidean statistical methods in the sense that it has the potential to unify them to analyze data on manifolds in the ambience space domain.


翻译:流行拟合:一份邀请给统计学 翻译后的摘要: 在经典统计中,处理的观测值通常是实数或属于实向量空间的元素。但目前在科学领域中,许多高度关注的统计问题涉及到分析数据,这些数据由值不自然为欧几里得向量空间的复杂对象组成,但依然具有一些几何结构。流行拟合一直是存在已久的问题,最近由Fefferman等人(2020,2021a)解决。我们开发了一种方法,通过几何结构在形式上将$ d $维的真实流行拟合到从噪声中采样的环境空间$\mathbb{R}^D$观察结果中。 新方法在形式上采用了两步映射方法,将流形估计器表示为图像集。我们证明,在某些温和的假设下,对于样本大小$N=\mathcal{O}(\sigma^{(-d+3)})$,这些估计器是真实的$ d $维平滑流形,其估计误差(由Hausdorff距离度量)高概率下保证在$\mathcal{O}(\sigma^2\log(1/\sigma))$的范围内。与Fefferman等人(2018, 2021b);Genovese et al. (2014);Yao和Xia(2019)提出的现有方法相比,我们的方法展示出更高的效率,同时通过显著降低样本量来达到非常低的误差率,在$\sigma^{-1}$中以多项式和$ d $的指数方式扩展样本量。通过广泛的模拟来验证我们的理论结果。我们的发现与各种涉及统计和机器学习中的高维数据的领域相关。此外,我们的方法为现有的非欧几里得统计方法开辟了新的途径,因为它具有统一分析流形数据的潜力。

0
下载
关闭预览

相关内容

【2023新书】随机模型基础,815页pdf
专知会员服务
100+阅读 · 2023年5月10日
【2023新书】使用Python进行统计和数据可视化,554页pdf
专知会员服务
126+阅读 · 2023年1月29日
不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
73+阅读 · 2022年6月28日
专知会员服务
42+阅读 · 2020年12月18日
神经网络的损失函数为什么是非凸的?
极市平台
12+阅读 · 2019年9月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年5月30日
Arxiv
10+阅读 · 2021年11月3日
VIP会员
相关VIP内容
【2023新书】随机模型基础,815页pdf
专知会员服务
100+阅读 · 2023年5月10日
【2023新书】使用Python进行统计和数据可视化,554页pdf
专知会员服务
126+阅读 · 2023年1月29日
不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
73+阅读 · 2022年6月28日
专知会员服务
42+阅读 · 2020年12月18日
相关资讯
神经网络的损失函数为什么是非凸的?
极市平台
12+阅读 · 2019年9月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员