It is well known that the Johnson-Lindenstrauss dimensionality reduction method is optimal for worst case distortion. While in practice many other methods and heuristics are used, not much is known in terms of bounds on their performance. The question of whether the JL method is optimal for practical measures of distortion was recently raised in \cite{BFN19} (NeurIPS'19). They provided upper bounds on its quality for a wide range of practical measures and showed that indeed these are best possible in many cases. Yet, some of the most important cases, including the fundamental case of average distortion were left open. In particular, they show that the JL transform has $1+\epsilon$ average distortion for embedding into $k$-dimensional Euclidean space, where $k=O(1/\eps^2)$, and for more general $q$-norms of distortion, $k = O(\max\{1/\eps^2,q/\eps\})$, whereas tight lower bounds were established only for large values of $q$ via reduction to the worst case. In this paper we prove that these bounds are best possible for any dimensionality reduction method, for any $1 \leq q \leq O(\frac{\log (2\eps^2 n)}{\eps})$ and $\epsilon \geq \frac{1}{\sqrt{n}}$, where $n$ is the size of the subset of Euclidean space. Our results imply that the JL method is optimal for various distortion measures commonly used in practice, such as {\it stress, energy} and {\it relative error}. We prove that if any of these measures is bounded by $\eps$ then $k=\Omega(1/\eps^2)$, for any $\epsilon \geq \frac{1}{\sqrt{n}}$, matching the upper bounds of \cite{BFN19} and extending their tightness results for the full range moment analysis. Our results may indicate that the JL dimensionality reduction method should be considered more often in practical applications, and the bounds we provide for its quality should be served as a measure for comparison when evaluating the performance of other methods and heuristics.


翻译:众所周知, Johnson- Lindenstraus 维度的减少方法是用于最坏情况扭曲的最佳方法 。 虽然在实践中使用了许多其他的方法和超偏度, 但通常在性能的界限上并不为人所知。 最近在\ cite{Bfur19} (NeurIPS'19) 中提出了JL 方法是否对扭曲的实用度度量最理想的问题。 它们为一系列广泛的实际措施提供了质量的上限, 并表明, 在许多情形下, 这些都是最好的应用。 然而, 一些最重要的案例, 包括平均偏差的基本案例, 还没有被打开。 特别是, 它们显示 JL 变换有 $epsilon 的平均扭曲值, 嵌入 $xl- Euclideidean 空间, 其中美元= O( 1/\ eps% 2), 对于更普通的扭曲值, 美元= $qqqrum 的反差量值, 可能由美元 = 美元 美元 =xxxx 。 当我们用这些最坏的方法, 我们用这些最差的计算, 。

0
下载
关闭预览

相关内容

降维是将数据从高维空间转换为低维空间,以便低维表示保留原始数据的某些有意义的属性,理想情况下接近其固有维。降维在处理大量观察和/或大量变量的领域很常见,例如信号处理,语音识别,神经信息学和生物信息学。
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
51+阅读 · 2020年12月14日
专知会员服务
53+阅读 · 2020年9月7日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
已删除
将门创投
3+阅读 · 2017年9月12日
Arxiv
0+阅读 · 2021年9月13日
Arxiv
0+阅读 · 2021年9月11日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
已删除
将门创投
3+阅读 · 2017年9月12日
Top
微信扫码咨询专知VIP会员