这本书在强化学习领域的地位就类似于 Options, Futures and Other Derivatives 在量化金融利于的地位。在本书 (2018 年 4 月出的第二版)中,Richard Sutton 和 Andrew Barto 清晰、简单而又完整的说明关于强化学习的关键思想和算法。 本书讨论的范围从该领域的知识基础的历史到最新的发展和应用。
本书在推荐书单中经常是上一本书的补充 (也可见其经典程度)。本书主要目标是提供关于强化学习领域中的最新研究文章,内容包括部分可观察环境,分层任务分解,关系知识表示和预测状态表示。此外,本书有几章还回顾了机器人,游戏和计算神经科学中的强化学习方法。
这本书短小简洁 (只有 100 多页),省去了很多公式推理,适合想要快速了解强化学习算法的读者。
在 2018 年阿里巴巴开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行马可夫决策过程 (Markov Decision Process, MDP) 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每⼀个用户迅速发现宝贝、在智能客服中赋予阿里⼩蜜这类的客服机器⼈对应的决策能力、在广告系统中实现了基于强化学习的智能调价技术,因而根据顾客的当前状态去决定如何操作调价。
强化学习是用于开发计算机代理的数学框架,通过将"通用奖励信号"与"其过去的动作"相关联来学习最佳行为。 凭借在商业智能,工厂控制和游戏方面的众多成功应用,强化学习框架非常适合在具有大量数据的未知环境中进行决策。该书讲的就是这些。
该书对强化学习和动态规划领域提供了全面的探索。 这本开创性的书侧重于连续变量问题,通过近似介绍了 RL 和 DP 中最先进和新颖的方法。
本书注重实战,结合 OpenAI, Tensorflow 和 Keras。本书最后还深入研究 Google 的 DeepMind 使用强化学习的多个场景。
人工智能是从经验中学习的能力。 如果存在正确标签的样例,则可以使用监督学习来预测未来观察的新的样例。 然而,通常这些例子并不容易获得。 当没有给出正确标签的样例时,强化学习领域研究可以从经验中学习到方法,即向学习实体提供强化信号。本书讲的就是这些。
本书虽然不是讲强化学习 (只有第 21 章) 的,但提供最全面 (1152 页) 的人工智能理论和实践介绍。该教科书非常适合人工智能的一学期或两学期,本科或研究生水平的课程。本书作者 Peter Norvig 博士正在斯坦福大学提供人工智能免费在线课程。
许多重要问题需要在不确定性下做决策 - 即基于不完整的观察和未知的结果来选择行动。 自动决策支持系统的设计者必须在平衡系统的多个目标的同时考虑各种不确定性来源。 本书从计算的角度介绍了在不确定性下做决策的挑战。 它既介绍了决策模型和算法背后的理论,也提供了从语音识别到飞机避碰的一系列示例应用。该书出自 MIT 林肯实验室,质量绝对有保障。
按二维码关注王的机器
迟早精通机学金工量投