Continual learning is often motivated by the idea, known as the big world hypothesis, that "the world is bigger" than the agent. Recent problem formulations capture this idea by explicitly constraining an agent relative to the environment. These constraints lead to solutions in which the agent continually adapts to best use its limited capacity, rather than converging to a fixed solution. However, explicit constraints can be ad hoc, difficult to incorporate, and may limit the effectiveness of scaling up the agent's capacity. In this paper, we characterize a problem setting in which an agent, regardless of its capacity, is constrained by being embedded in the environment. In particular, we introduce a computationally-embedded perspective that represents an embedded agent as an automaton simulated within a universal (formal) computer. Such an automaton is always constrained; we prove that it is equivalent to an agent that interacts with a partially observable Markov decision process over a countably infinite state-space. We propose an objective for this setting, which we call interactivity, that measures an agent's ability to continually adapt its behaviour by learning new predictions. We then develop a model-based reinforcement learning algorithm for interactivity-seeking, and use it to construct a synthetic problem to evaluate continual learning capability. Our results show that deep nonlinear networks struggle to sustain interactivity, whereas deep linear networks sustain higher interactivity as capacity increases.


翻译:持续学习的动机通常源于“大世界假说”这一理念,即“世界比智能体更大”。近期的研究通过显式地约束智能体相对于环境的方式来捕捉这一思想。这些约束导致智能体持续适应以最佳利用其有限能力,而非收敛于固定解。然而,显式约束可能是特设的、难以整合的,并且可能限制扩展智能体能力的有效性。在本文中,我们刻画了一种问题设定:无论智能体的能力如何,都因其嵌入环境而受到约束。具体而言,我们引入一种计算嵌入视角,将嵌入智能体表示为在通用(形式化)计算机中模拟的自动机。这样的自动机总是受约束的;我们证明其等价于与可数无限状态空间上的部分可观测马尔可夫决策过程交互的智能体。我们为此设定提出了一个目标,称为交互性,用于衡量智能体通过不断学习新预测来持续调整其行为的能力。随后,我们开发了一种基于模型的强化学习算法以寻求交互性,并利用该算法构建了一个合成问题来评估持续学习能力。我们的结果表明,深度非线性网络难以维持交互性,而深度线性网络随着能力增强能够维持更高的交互性。

0
下载
关闭预览

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月27日
Why Smooth Stability Assumptions Fail for ReLU Learning
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员