【CMU博士论文】稳定模型与时间差分学习，97页pdf - 专知VIP

会员服务 ·

15

差分学习 · 博士论文 ·

2023 年 6 月 17 日

【CMU博士论文】稳定模型与时间差分学习，97页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在这篇论文中，我们研究了稳定性的两个不同方面：神经网络动态模型的稳定性和强化学习算法的稳定性。在第一章中，我们提出了一种新的学习方法，可以构造出稳定的Lyapunov动态模型，即使在随机初始化时也是稳定的。我们通过对阻尼多连杆摆进行实验，展示了这种方法的有效性，并展示了如何用它来生成高保真的视频纹理。在第二章和第三章中，我们关注强化学习（RL）的稳定性。在第二章中，我们展示了正则化，一种常见的解决不稳定性的方法，在RL环境中的反直觉行为。它不仅有时无效，而且可能导致不稳定性。我们在线性和神经网络环境中都证明了这种现象。此外，标准的重要性采样方法也容易受到这种影响。在第三章中，我们提出了一种通过重新采样来稳定离策略强化学习的机制。这种方法被称为投影离策略TD（POP-TD），它将TD更新重新采样为来自“安全”分布的凸子集，而不是（如在其他重新采样方法中）重新采样为在策略分布。我们展示了这种方法如何在一个设计为最大化此类转换的离线RL任务中缓解分布转换问题。总的来说，这篇论文提出了动态模型稳定性和强化学习训练稳定性的新方法，对该领域的现有假设提出了质疑，并指出了模型和强化学习稳定性的有前景的研究方向。

成为VIP会员查看完整内容

24

相关内容

差分学习

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知会员服务

84+阅读 · 2022年9月20日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

76+阅读 · 2022年9月6日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知会员服务

60+阅读 · 2022年9月3日

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

专知会员服务

20+阅读 · 2020年11月4日

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

专知

3+阅读 · 2022年9月23日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知

2+阅读 · 2022年9月3日

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

图信号滤波与估计的理论及应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

保结构间断谱元法在地震波数值模拟中的应用理论基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

495+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

153+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

82+阅读 · 2023年3月26日

VIP会员

相关主题

相关VIP内容

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知会员服务

84+阅读 · 2022年9月20日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

76+阅读 · 2022年9月6日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知会员服务

60+阅读 · 2022年9月3日

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

专知会员服务

20+阅读 · 2020年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《用于水文建模应用的美国空军全球空陆天气开发模型数据流程：GALWEM采集系统v1.0与v2.0概述》最新报告

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

人工智能与未来指挥

《未来自主协作系统的指挥与控制——2025年度报告》报告

相关资讯

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

专知

3+阅读 · 2022年9月23日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知

2+阅读 · 2022年9月3日

相关基金

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

图信号滤波与估计的理论及应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

保结构间断谱元法在地震波数值模拟中的应用理论基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

495+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

153+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

82+阅读 · 2023年3月26日

微信扫码咨询专知VIP会员