能否介绍一下Life-long RL 和Life-long learning的区别和联系?
关注者
15被浏览
3,438登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
传统的lifelong learning方法在cv领域有一定应用,task一般指图像识别(如手写数MNIST)。这类问题有一个前提假设即一个task的训练数据是独立同分布的。而reinforcement learning的训练数据是agent与环境交互得到的,首先是有时序相关性,其次分布也非平稳,一般不认为是独立同分布的。此外,RL的任务也更为复杂,依赖一系列的决策动作。因此,直接将lifelong learning的方法用在较为复杂的RL的环境上效果一般不会很好。
当然,lifelong的方法很多,RL的环境也很多,不同算法在不同类型的RL环境上体现出来的效果肯定是不同的。题主提到的EWC在原论文中其实是有RL相关的实验的,在其设定的Atari环境上效果看起来还可以接受,但其实验设定和lifelong learning的设定有一定差异,结果也只比对了裸的SGD,没有和其他lifelong算法的对比(可能是因为这篇太早了,17年的),具体效果不好评价,还是建议放在自己的设定与环境里做实验验证一下。
至于lifelong learning和lifelong RL的联系,其实本质上解决的是同一类问题,在学习新任务的同时避免对旧任务的遗忘。而RL问题由于任务更为复杂,因此更能体现算法性能,故而越来越多的被加入到lifelong的实验设定之中。