泛化是现代机器学习的一个核心挑战。 经典理论能够解释小规模监督模型,但在面对参数过多的神经网络的意外行为,以及诸如强化学习和大规模预训练等其他范式时则显得力不从心。这些发展表明,我们需要新的、更适合现代机器学习的理论和实证工具。

我们首先从监督学习开始,在此背景下我们引入了一种称为泛化分歧等式(Generalization Disagreement Equality, GDE)的经验现象,它使得仅使用无标签数据就能精确估计深度神经网络的泛化误差。在这一发现的基础上,我们提出了一个以特征学习为核心的理论框架——即神经网络从原始数据中学习提取有意义表征的过程。该框架不仅解释了 GDE 的数学基础,还成功预测了新实验的结果,从而更完整地揭示了深度网络的学习与泛化方式。

第二部分通过探索的视角研究了深度强化学习(RL)算法的泛化特性。我们建立了探索与泛化之间的重要关系,并提出了一种新算法,能够显著提升智能体在未见环境中的泛化能力。我们还展示了基于大语言模型(LLM)的 RL 智能体可以在测试时被训练以执行高效的探索,并解决新的决策问题。 第三部分将这些见解扩展到无监督预训练。我们证明,数据子集的学习损失曲线可以通过一种**缩放律(scaling law)**精确建模,并且这一规律可以进一步分解为不同类型的不确定性。这些不确定性可作为信号,在训练过程中动态调整数据组成,从而提高学习效率,并且只需极小的计算开销。

在论文的最后部分,我们提出:参数过多的网络所展现出的反常性质,以及经典信息论在解释现代机器学习时的更广泛局限,源于真实学习器具有计算约束。为此,我们引入了epiplexity,即时间受限观察者所能访问的结构信息的度量。Epiplexity 解决了经典理论未能解释的悖论,并且可以通过学习曲线和缩放律得到一个实用的估计器,同时在从元胞自动机到语言和视觉的多个领域得到了验证。这些结果表明,计算限制不是边缘性的,而是机器学习现象的根本属性,提供了一个关于泛化、数据选择与表征学习的统一框架。它们还建立了机器学习与算法信息论、复杂性理论以及密码学之间的新联系。

成为VIP会员查看完整内容
1

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
21+阅读 · 7月18日
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
34+阅读 · 1月24日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
57+阅读 · 2024年5月28日
异质图学习:进展和未来
专知会员服务
48+阅读 · 2024年1月19日
深度学习在体育应用中的研究概览:感知、理解和决策
专知会员服务
39+阅读 · 2023年7月17日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
专知会员服务
50+阅读 · 2021年8月4日
专知会员服务
61+阅读 · 2021年5月28日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
21+阅读 · 7月18日
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
34+阅读 · 1月24日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
57+阅读 · 2024年5月28日
异质图学习:进展和未来
专知会员服务
48+阅读 · 2024年1月19日
深度学习在体育应用中的研究概览:感知、理解和决策
专知会员服务
39+阅读 · 2023年7月17日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
专知会员服务
50+阅读 · 2021年8月4日
专知会员服务
61+阅读 · 2021年5月28日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员