进展效果:
Google Research Football (scenario 2) 实验
RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新
RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一 及完整源代码
表示学习相关
A quick introduction to Deep info max
动作抽象
DIVERSITY IS ALL YOU NEED: 充满睿智的论述
RL中的default policy和decision states及options(skill)是什么关系?
Dynamics-Aware Unsupervised Discovery of Skills 笔记 v2
无人驾驶产业:
Tesla Autonomy Day和Full Self-Driving视频 产业链软硬件数据闭环 自动驾驶的苹果
算法改进
planet 相关
详解PLANET代码(tensorflow)如何加入SAC功能
生物认知相关
meta learning
解读二PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
解读PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
解读Been There, Done That: Meta-Learning with Episodic Recall
memory
基础
欢迎加入打卡群自律学习强化学习,更欢迎支持或加入我们!请参考公众号createAmind菜单说明。