能否介绍一下Life-long RL 和Life-long learning的区别和联系?

请问常用的 Life-long learning的方法(比如Elastic Weight Consolidation)可以用在reinforcemen…
关注者
15
被浏览
3,438
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

传统的lifelong learning方法在cv领域有一定应用,task一般指图像识别(如手写数MNIST)。这类问题有一个前提假设即一个task的训练数据是独立同分布的。而reinforcement learning的训练数据是agent与环境交互得到的,首先是有时序相关性,其次分布也非平稳,一般不认为是独立同分布的。此外,RL的任务也更为复杂,依赖一系列的决策动作。因此,直接将lifelong learning的方法用在较为复杂的RL的环境上效果一般不会很好。

当然,lifelong的方法很多,RL的环境也很多,不同算法在不同类型的RL环境上体现出来的效果肯定是不同的。题主提到的EWC在原论文中其实是有RL相关的实验的,在其设定的Atari环境上效果看起来还可以接受,但其实验设定和lifelong learning的设定有一定差异,结果也只比对了裸的SGD,没有和其他lifelong算法的对比(可能是因为这篇太早了,17年的),具体效果不好评价,还是建议放在自己的设定与环境里做实验验证一下。

至于lifelong learning和lifelong RL的联系,其实本质上解决的是同一类问题,在学习新任务的同时避免对旧任务的遗忘。而RL问题由于任务更为复杂,因此更能体现算法性能,故而越来越多的被加入到lifelong的实验设定之中。