持续学习依然是机器学习领域的一项长期挑战。成功实现持续学习需要不断吸收新的知识,同时保留仍然有用的旧知识。在本论文中,我们提出了一种连贯的持续学习目标:在每个时间步受到计算资源限制的前提下,最大化无限时域平均回报。这一框架使我们能够系统性地分析持续学习智能体的设计与评估,超越仅仅依赖准确率保持或可塑性等零散指标的方法。 论文的第一部分聚焦于基础工具与理论视角的构建,包括:对智能体状态的信息论建模、智能体容量的量化方法,以及持续学习中稳定性–可塑性权衡的形式化定义。第二部分则提出了多种新算法:一种用于缓解神经网络可塑性退化的再生式正则化方法;Conformal Sympow——一种基于Transformer的模型,借助学习型门控与数据依赖旋转机制,实现了高效的长上下文推理;以及一种以多样性驱动的强化学习方法,使智能体具备对环境扰动的少样本鲁棒性。
综上,这些工作有助于将持续学习确立为一个有原则、可操作的机器学习子领域,推动理论与实践的融合。