殊途同归的策略梯度与零阶优化
PaperWeekly
1+阅读 · 2020年10月11日
斯坦福李纪为博士毕业论文:让机器像人一样交流
资源 | 基于OpenAI Gym的股票市场交易环境
机器之心
1+阅读 · 2017年7月11日
强化学习:Policy-based方法 Part 1
专知
6+阅读 · 2018年7月4日
斯坦福李纪为博士毕业论文:让机器像人一样交流
在机器人领域使用元学习探索进化方向
谷歌开发者
0+阅读 · 2020年5月25日
重磅干货-Richard S. Sutton-2018年强化学习教程免费下载
深度学习与NLP
7+阅读 · 2018年4月1日
参考链接
微信扫码咨询专知VIP会员