非线性核方法是被工业界广泛应用的重要的机器学习模型之一。由于核函数矩阵的维度正比于数据点个数,大规模数据集在时间和存储上都给直接使用非线性核方法带来极大困难。对于最常见的高斯核函数,随机傅立叶特征(Random Fourier Features, RFF)可以有效地在线性时间内接近非线性核学习的效果,并且不需要直接计算庞大的核函数矩阵,因此成为大规模非线性核学习的重要工具之一。

本文首次通过研究随机傅立叶特征的统计分布,提出基于Lloyd-Max(LM)最小失真准则的量化方法,以此进一步显著减少RFF的存储成本。我们给出LM量化下高斯核函数估计量的一系列严格理论结果,证明LM估计量的正确性和优越性,以及规范化量化后的傅立叶特征可以进一步降低高斯核估计的除偏方差。基于多个大规模数据集的实证分析证明,在平均可降低10倍以上的存储成本的前提下,经LM量化后的特征可以达到使用全精度傅立叶特征的准确率。该方法的表现显著优于过去已提出的随机量化方法。本文为工业级大规模非线性核学习提供了一种存储便利且效果极佳的压缩数据表征方法。

http://proceedings.mlr.press/v139/li21i/li21i.pdf

成为VIP会员查看完整内容
21

相关内容

专知会员服务
21+阅读 · 2021年9月28日
专知会员服务
21+阅读 · 2021年9月23日
专知会员服务
13+阅读 · 2021年8月29日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
21+阅读 · 2021年6月28日
专知会员服务
50+阅读 · 2021年5月19日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
14+阅读 · 2021年5月12日
专知会员服务
42+阅读 · 2020年7月29日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
逻辑斯特回归为什么要对特征进行离散化?
七月在线实验室
6+阅读 · 2019年4月1日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
机器学习(23)之GBDT详解
机器学习算法与Python学习
12+阅读 · 2017年10月25日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
Arxiv
0+阅读 · 2021年9月28日
Arxiv
4+阅读 · 2021年7月1日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
专知会员服务
21+阅读 · 2021年9月28日
专知会员服务
21+阅读 · 2021年9月23日
专知会员服务
13+阅读 · 2021年8月29日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
21+阅读 · 2021年6月28日
专知会员服务
50+阅读 · 2021年5月19日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
14+阅读 · 2021年5月12日
专知会员服务
42+阅读 · 2020年7月29日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
逻辑斯特回归为什么要对特征进行离散化?
七月在线实验室
6+阅读 · 2019年4月1日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
机器学习(23)之GBDT详解
机器学习算法与Python学习
12+阅读 · 2017年10月25日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
相关论文
Arxiv
0+阅读 · 2021年9月28日
Arxiv
4+阅读 · 2021年7月1日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
5+阅读 · 2018年4月22日
微信扫码咨询专知VIP会员