能否介绍一下Life-long RL 和Life-long learning的区别和联系？

Question

能否介绍一下Life-long RL 和Life-long learning的区别和联系？

请问常用的 Life-long learning的方法（比如Elastic Weight Consolidation）可以用在reinforcemen…

关注者

15

被浏览

3,438

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 2 个回答

传统的lifelong learning方法在cv领域有一定应用，task一般指图像识别（如手写数MNIST）。这类问题有一个前提假设即一个task的训练数据是独立同分布的。而reinforcement learning的训练数据是agent与环境交互得到的，首先是有时序相关性，其次分布也非平稳，一般不认为是独立同分布的。此外，RL的任务也更为复杂，依赖一系列的决策动作。因此，直接将lifelong learning的方法用在较为复杂的RL的环境上效果一般不会很好。

当然，lifelong的方法很多，RL的环境也很多，不同算法在不同类型的RL环境上体现出来的效果肯定是不同的。题主提到的EWC在原论文中其实是有RL相关的实验的，在其设定的Atari环境上效果看起来还可以接受，但其实验设定和lifelong learning的设定有一定差异，结果也只比对了裸的SGD，没有和其他lifelong算法的对比（可能是因为这篇太早了，17年的），具体效果不好评价，还是建议放在自己的设定与环境里做实验验证一下。

至于lifelong learning和lifelong RL的联系，其实本质上解决的是同一类问题，在学习新任务的同时避免对旧任务的遗忘。而RL问题由于任务更为复杂，因此更能体现算法性能，故而越来越多的被加入到lifelong的实验设定之中。

发布于 2021-10-17 09:50

查看全部 2 个回答