【伯克利博士论文】机器学习模型泛化性什么时候良好? 从信号处理视角分析，191页pdf - 专知

会员服务 ·

0

【伯克利博士论文】机器学习模型泛化性什么时候良好? 从信号处理视角分析，191页pdf

2022 年 8 月 19 日 专知

当代机器学习系统在各种任务上都取得了巨大的成功，包括图像分类、目标检测和跟踪以及推荐算法 。这一成功是由计算能力的巨大进步推动的，它使我们能够利用大型训练数据集，具有大量的类和具有大量参数的训练模型。事实上，这些系统使用的模型具有足够的模型容量，可以在有噪声甚至完全随机的标签上训练到误差。然而，这些模型在实践中往往具有很好的泛化性，避免了有害的“过拟合”。良好泛化的关键在于模型体系结构和训练算法的隐性偏差，它们引导我们找到良好泛化的解决方案。本文通过分析过度参数化的线性模型，证明良好泛化的充要条件，从理论上更好地理解这一现象。此外，我们还实证研究了在训练模型来解决控制领域的实际问题时，是否可以利用我们关于问题领域的知识来设计正确的内隐偏差。

我们从分析过参数化线性回归的简单设置开始，当特征的数量超过训练点的数量时，对有噪声的数据拟合一个线性模型 。通过采取傅立叶理论的角度，我们映射了由过度参数化带来的关键挑战，众所周知，由于欠采样导致真实信号混叠的现象。借用信号处理中的“信号出血”和“信号污染”的概念，我们为傅里叶特征设置导出了良好的泛化条件。

接下来，我们分析最小-ℓ2-范数插值器在高斯特征设定下的回归和二元分类问题的泛化误差。对于回归，我们插值实值标签，对于二元分类，我们插值二元标签。(事实证明，在充分的过参数化条件下，二值标签的最小范数插值与其他二值分类训练方法等价，如支持向量机或逻辑损失梯度下降法。)我们研究了一个渐近设置，其中特征的数量d与训练点的数量n成比例，且都是n, d→∞。在特征的双水平尖峰协方差模型下，证明了存在一种中间状态，在这种状态下，我们在分类任务上表现良好，但在相应的回归任务上表现不佳。然后，我们将分析扩展到多类分类设置，其中类的数量也与训练点的数量成比例，通过导出由一热编码标签的最小范数插值器引起的分类误差的渐近界。最后，为了理解我们如何学习在实践中很好地推广的模型，我们经验地研究了神经网络的应用，在硬控制问题中，最优解是未知的，线性解被证明是次优的非线性控制策略。通过智能设计神经网络架构和训练方法，利用我们对控制系统动力学的知识，我们能够更容易和鲁棒地学习性能良好的控制策略。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ML191” 就可以获取《【伯克利博士论文】机器学习模型泛化性什么时候良好? 从信号处理视角分析，191页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

2

相关内容

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

专知会员服务

35+阅读 · 2022年6月26日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文

专知会员服务

73+阅读 · 2021年3月20日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

生成对抗网络，10页pdf

生成对抗网络，10页pdf

专知

2+阅读 · 2022年11月23日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知

8+阅读 · 2022年8月31日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

为什么深度学习是非参数的？

为什么深度学习是非参数的？

THU数据派

1+阅读 · 2022年3月29日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知

0+阅读 · 2022年3月23日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高光谱图像处理的函数型数据学习方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

信号稀疏表示与重构的神经网络算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

编码先验约束的高维小样本数据处理方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

多维复发事件数据的统计建模及推断

国家自然科学基金

2+阅读 · 2012年12月31日

多尺度随机微分方程的平均原理

国家自然科学基金

0+阅读 · 2012年12月31日

High-dimensional limit theorems for SGD: Effective dynamics and critical scaling

Arxiv

0+阅读 · 2022年11月23日

Introspection-based Explainable Reinforcement Learning in Episodic and Non-episodic Scenarios

Arxiv

0+阅读 · 2022年11月23日

Semantic Image Synthesis via Diffusion Models

Arxiv

0+阅读 · 2022年11月22日

L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi

Arxiv

0+阅读 · 2022年11月22日

Applications of statistical causal inference in software engineering

Arxiv

0+阅读 · 2022年11月21日

Discovering Evolution Strategies via Meta-Black-Box Optimization

Arxiv

0+阅读 · 2022年11月21日

Towards Generalizable Graph Contrastive Learning: An Information Theory Perspective

Arxiv

0+阅读 · 2022年11月20日

Bipartite-play Dialogue Collection for Practical Automatic Evaluation of Dialogue Systems

Arxiv

0+阅读 · 2022年11月19日

Explainability Via Causal Self-Talk

Arxiv

0+阅读 · 2022年11月17日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

VIP会员

相关主题

机器学习模型

相关VIP内容

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

专知会员服务

35+阅读 · 2022年6月26日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文

专知会员服务

73+阅读 · 2021年3月20日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

GPT-5如何对齐？从硬性拒绝到安全完成：走向以输出为中心的安全训练

【伯克利博士论文】超越人类监督的视觉智能

【ICCV2025】SO(3) 上连续非保守动力系统的预测

2025年中国数据要素行业发展研究报告

相关资讯

生成对抗网络，10页pdf

生成对抗网络，10页pdf

专知

2+阅读 · 2022年11月23日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知

8+阅读 · 2022年8月31日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

为什么深度学习是非参数的？

为什么深度学习是非参数的？

THU数据派

1+阅读 · 2022年3月29日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知

0+阅读 · 2022年3月23日

相关基金

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高光谱图像处理的函数型数据学习方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

信号稀疏表示与重构的神经网络算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

编码先验约束的高维小样本数据处理方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

多维复发事件数据的统计建模及推断

国家自然科学基金

2+阅读 · 2012年12月31日

多尺度随机微分方程的平均原理

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

High-dimensional limit theorems for SGD: Effective dynamics and critical scaling

Arxiv

0+阅读 · 2022年11月23日

Introspection-based Explainable Reinforcement Learning in Episodic and Non-episodic Scenarios

Arxiv

0+阅读 · 2022年11月23日

Semantic Image Synthesis via Diffusion Models

Arxiv

0+阅读 · 2022年11月22日

L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi

Arxiv

0+阅读 · 2022年11月22日

Applications of statistical causal inference in software engineering

Arxiv

0+阅读 · 2022年11月21日

Discovering Evolution Strategies via Meta-Black-Box Optimization

Arxiv

0+阅读 · 2022年11月21日

Towards Generalizable Graph Contrastive Learning: An Information Theory Perspective

Arxiv

0+阅读 · 2022年11月20日

Bipartite-play Dialogue Collection for Practical Automatic Evaluation of Dialogue Systems

Arxiv

0+阅读 · 2022年11月19日

Explainability Via Causal Self-Talk

Arxiv

0+阅读 · 2022年11月17日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

大家都在搜

软件无线电

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员