在构建机器学习管道时,一些常见的假设是:(1)训练数据足够 "干净",表现良好,因此很少或没有离群值,或者数据的分布没有长尾,(2)测试数据遵循与训练数据相同的分布,以及(3)数据产生于或接近于一个已知的模型类,如线性模型或神经网络。

然而,随着计算机、互联网和各种基于传感器的技术更容易获得,科学和工程的各个分支中出现的现代数据集不再是精心策划的,往往是以分散的、分布式的方式收集。因此,它们受到异质性、对抗性操作和异常值等复杂因素的困扰。随着我们进入这个脏的数据时代,上述的机器学习管道的假设越来越站不住脚。

对于机器学习的广泛采用,我们认为任何模型都必须具备以下三个基本要素:

  • 稳健性。该模型即使在有噪音和损坏的数据下也能被训练。

  • 可信赖。在训练结束后,当在现实世界中部署时,该模型在分布的良性变化下不应该崩溃。

  • 有弹性。建模程序应该在模型错误指定的情况下工作,也就是说,即使建模假设崩溃,模型也应该找到可能的最佳解决方案。

在这篇论文中,我们的目标是修改最先进的ML技术并设计新的算法,使其即使在没有上述假设的情况下也能工作,并且是稳健、可信和有弹性的。我们的贡献如下。

在第二章中,我们提供了一类新的统计最优估计器,这些估计器对各种环境是稳健的,如任意污染和重尾数据等。

在第三章中,我们用一类新的计算效率高的稳健风险最小化估计器来补充我们的统计最优估计器。这些结果为一般的统计模型,如线性回归、逻辑回归等,提供了一些最早的可计算的、可证明的稳健估计器。

在第四章中,我们研究了在基础分布中的一些样本可能被任意破坏的情况下学习Ising模型的问题。

最后,在第五章,我们讨论了我们的结果对现代机器学习的影响。

成为VIP会员查看完整内容
32

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
46+阅读 · 2022年6月23日
专知会员服务
252+阅读 · 2021年10月8日
专知会员服务
47+阅读 · 2021年9月5日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
58+阅读 · 2021年6月14日
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
22+阅读 · 2020年4月12日
谷歌NIPS'21 | 如何让图神经网络更稳健?
图与推荐
1+阅读 · 2022年3月22日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年6月28日
Arxiv
11+阅读 · 2021年12月8日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员