近年来,在控制和强化学习中出现了新的方法,这些方法结合了遗憾(regret )最小化和在线凸优化技术。由此产生的理论为控制和强化学习中一些长期存在的问题提供了可证明的保证:对数后悔和快速速率,没有系统知识的端到端LQG-LQR,带有对抗噪声的卡尔曼滤波,具有可证明的有限时间保证的黑盒控制,系统识别的紧下界,等等。

这些结果的主要创新之处在于在线控制模型将随机扰动替换为对抗性扰动,并以后悔最小为最优控制目标。我们将描述设置,以及基于梯度和依赖于新的凸松弛的新方法。

https://icml.cc/media/icml-2021/Slides/10838_XuEBWTU.pdf

成为VIP会员查看完整内容
18

相关内容

专知会员服务
76+阅读 · 2021年7月23日
专知会员服务
74+阅读 · 2021年7月21日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
37+阅读 · 2021年4月25日
NeurIPS2020最新《深度对话人工智能》教程,130页ppt
专知会员服务
41+阅读 · 2020年12月10日
【普林斯顿】机器学习数学视角,63页ppt
专知会员服务
87+阅读 · 2020年11月6日
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
94+阅读 · 2020年10月18日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
一文读懂神经网络(附PPT、视频)
数据派THU
17+阅读 · 2018年3月25日
【资源】15个在线机器学习课程和教程
专知
8+阅读 · 2017年12月22日
基于LDA的主题模型实践(二 )MCMC--吉布斯采样
机器学习深度学习实战原创交流
25+阅读 · 2015年9月17日
Arxiv
0+阅读 · 2021年9月24日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关主题
相关VIP内容
专知会员服务
76+阅读 · 2021年7月23日
专知会员服务
74+阅读 · 2021年7月21日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
37+阅读 · 2021年4月25日
NeurIPS2020最新《深度对话人工智能》教程,130页ppt
专知会员服务
41+阅读 · 2020年12月10日
【普林斯顿】机器学习数学视角,63页ppt
专知会员服务
87+阅读 · 2020年11月6日
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
94+阅读 · 2020年10月18日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
相关资讯
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
一文读懂神经网络(附PPT、视频)
数据派THU
17+阅读 · 2018年3月25日
【资源】15个在线机器学习课程和教程
专知
8+阅读 · 2017年12月22日
基于LDA的主题模型实践(二 )MCMC--吉布斯采样
机器学习深度学习实战原创交流
25+阅读 · 2015年9月17日
微信扫码咨询专知VIP会员