姚班2018级本科生周润龙作为共同第一作者完成的论文《Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret》被2021年神经信息处理系统进展大会(NeurIPS 2021)接收并评为焦点(Spotlight)论文。本年度大会上获得该荣誉的论文占总提交论文数不足3%。该论文研究了理论强化学习中最为根本的问题——马尔科夫决策过程随机最短路问题(SSP-MDP),并得出了理论最优的算法。

https://www.zhuanzhi.ai/paper/616680d5758b82a133a4ce3dc4e540b9

由于其普适性,马尔科夫决策过程是理论强化学习领域中最受关注的问题模型。在这类问题中,人工智能可以将其所在的环境抽象成一个马尔科夫链,即用状态、操作、转移状态、回报刻画。在不知道每个操作的转移状态和回报的情况下,人工智能需要在K轮学习后最优化某个特定目标。理论研究最为深入的MDP通常假设人工智能一轮只能走固定、有限的步数,或者假设回报随着步数增长呈指数衰减,这样的假设过于强大,以至于生活中的另一些基本问题不能被很好地表示。随机最短路(SSP)问题则没有上述假设,而采用了一个较弱的假设,即假设按照最优策略执行的人工智能,其一轮的期望总代价不超过一个特定值B*,同时期望步数不超过另一个特定值T*。同时,SSP的目标为搜寻到一个特定状态的最小总代价,这也与人们以目标为导向的行为方式更加吻合。采用遗憾刻画算法的优劣,即前K轮所花的实际代价减去K倍最优代价。

    该论文提出了SSP问题的三点要求:(1)最小化最劣情况下的遗憾,由信息论推知下界为Ω(B√(SAK)),依照理论强化学习惯例,可以忽略对数项和与K无关的项;(2)算法的执行不需要事先知道参数B和T*,实际情况中人工智能也是不可能知道这两个参数的;(3)忽略对数项后,遗憾与T无关,因为T可能会比B大任意多倍。该论文与另一篇同时投稿的论文分别独立提出了满足要求(1)的不同算法,而该论文的独有贡献在于提出了满足要求(2)的通用算法。最后,该论文中的算法还能以牺牲要求(2)中的T换取要求(3),而同时满足三点要求的算法是否存在目前仍是开放性问题。

    对于要求(1),该论文提出的算法基于乐观估计、值迭代的有限时间近似收敛来保证运行效率和遗憾上界。乐观估计部分用到了上确信界的思路,通过引入统计量方差来获得较同领域前作更精细的分析方式。该论文通过构造一个新式的贝尔曼算子来保证值迭代的单调、收敛。基于这两点,该论文将遗憾分解为贝尔曼误差和统计误差,并通过递归(推)的方式得到方差总和的上界,从而证明遗憾上界。对于要求(2),该论文的通用算法核心对于B的估计。只要给定一个满足要求(1)的算法,通用算法可以通过定期比较其实际总代价与估计B的遗憾上界来自适应调整B的估计值。对于遗憾上界的估计需要精细构造常数以及对数项。由于零代价环的存在,需要对对代价增加微小扰动来保证算法的执行效率,而代价就是会在小项上引入T。如果事先知道关于T*的阶的正确估计,那么就可以精细地计算扰动值来满足要求(3)。

成为VIP会员查看完整内容
15

相关内容

【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
23+阅读 · 2021年9月25日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
16+阅读 · 2021年8月6日
【AAAI2021最佳论文】多智能体学习中的探索 - 利用
专知会员服务
35+阅读 · 2021年2月6日
专知会员服务
73+阅读 · 2020年12月7日
专知会员服务
8+阅读 · 2020年11月27日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
AAAI 2019 四个杰出论文奖论文揭晓
算法与数学之美
5+阅读 · 2019年5月11日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
算法|学习人工智能算法,你必须掌握的32个算法!
全球人工智能
24+阅读 · 2017年9月17日
[有意思的数学] 参数估计
机器学习和数学
15+阅读 · 2017年6月4日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
4+阅读 · 2018年4月10日
Arxiv
4+阅读 · 2017年11月13日
VIP会员
相关VIP内容
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
23+阅读 · 2021年9月25日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
16+阅读 · 2021年8月6日
【AAAI2021最佳论文】多智能体学习中的探索 - 利用
专知会员服务
35+阅读 · 2021年2月6日
专知会员服务
73+阅读 · 2020年12月7日
专知会员服务
8+阅读 · 2020年11月27日
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
AAAI 2019 四个杰出论文奖论文揭晓
算法与数学之美
5+阅读 · 2019年5月11日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
算法|学习人工智能算法,你必须掌握的32个算法!
全球人工智能
24+阅读 · 2017年9月17日
[有意思的数学] 参数估计
机器学习和数学
15+阅读 · 2017年6月4日
相关论文
微信扫码咨询专知VIP会员