The use of learned dynamics models, also known as world models, can improve the sample efficiency of reinforcement learning. Recent work suggests that the underlying causal graphs of such dynamics models are sparsely connected, with each of the future state variables depending only on a small subset of the current state variables, and that learning may therefore benefit from sparsity priors. Similarly, temporal sparsity, i.e. sparsely and abruptly changing local dynamics, has also been proposed as a useful inductive bias. In this work, we critically examine these assumptions by analyzing ground-truth dynamics from a set of robotic reinforcement learning environments in the MuJoCo Playground benchmark suite, aiming to determine whether the proposed notions of state and temporal sparsity actually tend to hold in typical reinforcement learning tasks. We study (i) whether the causal graphs of environment dynamics are sparse, (ii) whether such sparsity is state-dependent, and (iii) whether local system dynamics change sparsely. Our results indicate that global sparsity is rare, but instead the tasks show local, state-dependent sparsity in their dynamics and this sparsity exhibits distinct structures, appearing in temporally localized clusters (e.g., during contact events) and affecting specific subsets of state dimensions. These findings challenge common sparsity prior assumptions in dynamics learning, emphasizing the need for grounded inductive biases that reflect the state-dependent sparsity structure of real-world dynamics.


翻译:使用学习到的动力学模型(即世界模型)可提升强化学习的样本效率。近期研究表明,此类动力学模型的底层因果图具有稀疏连接性,即每个未来状态变量仅依赖于当前状态变量的一个小子集,因此学习过程可能受益于稀疏性先验。类似地,时间稀疏性(即局部动力学稀疏且突变)也被提出作为一种有用的归纳偏置。本研究通过分析MuJoCo Playground基准套件中一组机器人强化学习环境的真实动力学,批判性地检验了这些假设,旨在探究所提出的状态稀疏性与时间稀疏性概念在典型强化学习任务中是否普遍成立。我们考察了(i)环境动力学的因果图是否稀疏,(ii)此类稀疏性是否依赖于状态,以及(iii)局部系统动力学是否以稀疏方式变化。结果表明,全局稀疏性较为罕见,而任务在其动力学中表现出局部的、状态依赖的稀疏性,且这种稀疏性呈现特定结构:出现在时间局部化的集群中(例如接触事件期间),并影响状态维度的特定子集。这些发现挑战了动力学学习中常见的稀疏性先验假设,强调了需要建立能反映真实世界动力学中状态依赖稀疏性结构的、基于实际数据的归纳偏置。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员