在海量数据的时代,高效的机器学习算法变得至关重要。然而,许多常见的机器学习算法依赖于在大数据集上计算成本过高的子程序。通常,现有的技术会对数据进行子采样或使用其他方法来提高计算效率,但这会以引入一些近似误差为代价。这篇论文表明,往往只需用一种特殊的随机化方法替代计算密集型的子程序,就能在几乎不降低质量的情况下获得足够的效果。这篇论文的结果是基于自适应采样文献中的技术。第1章以一个特定的自适应采样问题为引子:多臂老虎机中的最佳臂识别。我们首先提供了环境设定和最佳臂识别问题的正式描述。然后,我们介绍了一种名为“连续淘汰”的通用算法,用于解决最佳臂识别问题。在第2章,第3章和第4章,我们将把在第1章中开发的技术应用于不同的问题。在第2章,我们讨论了如何将k-medoids聚类问题简化为一系列的最佳臂识别问题。我们利用这一发现提出了一种基于连续淘汰的新算法,该算法在聚类质量上与先前的最新技术相当,但达到相同解的速度要快得多。在数据生成分布的一般假设下,我们的算法在样本复杂性上实现了 O( n logn ) 的降低,其中 n 是数据集的大小。

在第3章中,我们分析了训练基于树的模型的问题。这类模型的大部分训练时间都用在分割树的每个节点上,即确定在哪个特征和相应的阈值处分割每个节点。我们展示了节点分割子程序可以简化为一个最佳臂识别问题,并介绍了一种训练树的最新算法。我们的算法仅依赖于每个可能分割的相对质量,而不是显式地依赖于训练数据集的大小,并将数据集大小n的显式依赖从常用的先前算法的O(n)降低到O(1)。我们的算法通常适用于许多基于树的模型,如随机森林和XGBoost。在第4章中,我们研究最大内积搜索问题。我们注意到,与k-medoids和节点分割问题一样,最大内积搜索问题可以简化为一个最佳臂识别问题。有了这个观察,我们为高维数据集中的最大内积搜索问题提出了一个新颖的算法。在对数据的合理假设下,我们的算法将与数据集维数d的显式比例从O(√d)降低到O(1)。我们的算法具有几个优点:它不需要对数据进行预处理,能自然处理新增或删除的数据点,并包含一个超参数来权衡准确性和效率。第5章以总结本论文的贡献和未来工作的可能方向作为结论。

https://searchworks.stanford.edu/view/14783548

成为VIP会员查看完整内容
26

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
【宾夕法尼亚博士论文】大规模图机器学习,179页pdf
专知会员服务
39+阅读 · 2022年11月20日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
397+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员