Sketching is a powerful dimensionality reduction technique for accelerating algorithms for data analysis. A crucial step in sketching methods is to compute a subspace embedding (SE) for a large matrix $\mathbf{A} \in \mathbb{R}^{N \times d}$. SE's are the primary tool for obtaining extremely efficient solutions for many linear-algebraic tasks, such as least squares regression and low rank approximation. Computing an SE often requires an explicit representation of $\mathbf{A}$ and running time proportional to the size of $\mathbf{A}$. However, if $\mathbf{A}= \mathbf{T}_1 \Join \mathbf{T}_2 \Join \dots \Join \mathbf{T}_m$ is the result of a database join query on several smaller tables $\mathbf{T}_i \in \mathbb{R}^{n_i \times d_i}$, then this running time can be prohibitive, as $\mathbf{A}$ itself can have as many as $O(n_1 n_2 \cdots n_m)$ rows. In this work, we design subspace embeddings for database joins which can be computed significantly faster than computing the join. For the case of a two table join $\mathbf{A} = \mathbf{T}_1 \Join \mathbf{T}_2$ we give input-sparsity algorithms for computing subspace embeddings, with running time bounded by the number of non-zero entries in $\mathbf{T}_1,\mathbf{T}_2$. This results in input-sparsity time algorithms for high accuracy regression, significantly improving upon the running time of prior FAQ-based methods for regression. We extend our results to arbitrary joins for the ridge regression problem, also considerably improving the running time of prior methods. Empirically, we apply our method to real datasets and show that it is significantly faster than existing algorithms.


翻译:切换是用于加速数据分析算法的强大维度降低技术 。 绘图方法中的关键步骤是计算一个子空间嵌入 (SE) 用于大型矩阵 $\mathbf{A}\ in\ mathbb{R\N\time d}。 Se 是获取许多线性地理任务( 如最小正方回归和低级近距离) 的极有效解决方案的主要工具 。 计算 Se 通常需要 $\ mathbf{A} 的明确代表 $\ mathbf{A} 和运行时间比例成 $mathx 的大小 。 如果 $\ mathb{T\\\\time{ a} a a mab 快速嵌入, 运行一个数据库的 Rentrmal2\\\\ ma\ ff f f f f f f f f f f f 目前的问题 。

0
下载
关闭预览

相关内容

【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
129+阅读 · 2021年6月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年9月13日
Arxiv
0+阅读 · 2021年9月9日
Graph-Based Recommendation System
Arxiv
4+阅读 · 2018年7月31日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
相关论文
Arxiv
0+阅读 · 2021年9月13日
Arxiv
0+阅读 · 2021年9月9日
Graph-Based Recommendation System
Arxiv
4+阅读 · 2018年7月31日
Arxiv
9+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员