机器之心编辑部
众所周知,B 站是一个学习网站。 在看完罗翔老师的刑法课之后,是时候探索人工智能了。
输入数据时序相关(非独立同分布);
智能体并不知道什么是正确的策略,其策略需要通过从环境得到的奖赏值中自行习得;
通过试错进行探索(强化学习里非常经典的探索与利用(exploration and exploitation)问题);
训练过程中没有严格的标签,学习信号仅为奖赏值(往往还是延迟的奖赏)。
Pieter Abbeel 个人主页:https://people.eecs.berkeley.edu/~pabbeel/
Sergey Levine 个人主页:https://people.eecs.berkeley.edu/~svlevine/
OpenAI Spinning Up :从 VPG(Vanilla Policy Gradient) 到 TRPO(Trust Region Policy Optimization)、SAC(Soft Actor-Critic) 均有实现,关键是 OpenAI 出品,代码质量高。
资源链接:https://openai.com/blog/spinning-up-in-deep-rl/
Stable Baselines:大量深度强化学习算法优质实现,文档丰富,包含 Colab Notebook,深度强化学习入坑必看 repo。
资源链接:https://stable-baselines.readthedocs.io/en/master/