图1 元强化学习性能分析
其中 是对从任务 获得的转换 进行评估的目标。例如,单步时序差分(TD)误差将设置为 。这个目标称之为多任务目标,是最简单的元训练形式。
图2:TD3和TD3上下文的平均未折扣回报率与来自4个元强化学习环境的验证任务的PEARL相比。智能体无法了解策略是否仅限于状态。相比之下,其他一切都保持不变,如果TD3能够访问上下文,那么回报会高得多。请注意,尽管没有对验证任务执行任何调整,但TD3上下文与PEARL相当。
图3:连续控制环境下MQL(橙色)的平均未折扣回报率与现有元强化学习算法的比较。比较了现有的四种算法,即MAML(绿色)、RL2(红色)、PROMP(紫色)和PEARL(蓝色)。在除Walker-2D-Params和Ant-Goal-2D之外的所有环境中,MQL在样本复杂度和最终返回方面都优于或与现有算法相媲美。
4、Poster
02. Poster | 抛开卷积,多头自注意力能够表达任何卷积操作