AlphaGo 是一款人工智能围棋程序,由被 Google 收购的 DeepMind 公司开发。 2015年10月,AlphaGo v13 在与职业棋手、欧洲冠军 樊麾二段 的五番棋比赛中,以 5:0 获胜。2016年3月9日 - 15日,AlphaGo v18 在与韩国职业棋手 李世石九段 的五番棋比赛中,以 4:1 获胜,赛后,AlphaGo 荣获韩国棋院授予的「第〇〇一号 名誉九段」证书。2016年7月19日,AlphaGo 在 GoRantings 世界围棋排名中超过柯洁,成为世界第一。

VIP内容

指南简介

最近神经网络在计算机视觉、机器翻译和时间序列预测等问题上得到了重大突破,但它们也可以与强化学习算法相结合,创造出像AlphaGo这样令人震惊的东西。强化学习指的是面向目标的算法,它学习如何获得复杂的目标(目标)或在许多步骤中沿着特定的维度最大化;例如,在许多动作中最大化在游戏中赢得的分数。他们可以从一块白板开始,在适当的条件下,他们可以达到超人的表现。就像一个被鞭打和糖果激励的孩子,当他们做出错误的决定时,这些算法会受到惩罚,当他们做出正确的决定时,这些算法会得到奖励——这就是强化。包含深度学习的强化算法可以在围棋游戏中击败世界冠军,也可以在玩许多阿塔里电子游戏的人类专家。虽然这听起来微不足道,但与他们之前的成就相比,这是一个巨大的进步,目前的技术正在迅速进步。强化学习解决了将即时行为与其产生的延迟回报关联起来的难题。与人类一样,强化学习算法有时需要等待一段时间才能看到决策的成果。它们在延迟返回的环境中运行,在这种环境中,很难理解在许多时间步骤中哪些操作会导致哪些结果。强化学习算法可以期望在更模糊、真实的环境中执行得越来越好,同时可以从任意数量的可能动作中进行选择,而不是从视频游戏的有限选项中进行选择。也就是说,随着时间的推移,我们期望它们对实现现实世界中的目标是有价值的。Skymind将深度强化学习应用于真实世界用例的模拟,以帮助企业优化他们如何建立工厂、员工呼叫中心、建立仓库和供应链以及管理流量。

内容目录

  • 强化学习定义
  • 强化学习的领域选择
  • 状态-行为对&报酬的复概率分布
  • 机器学习与时间的关系
  • 神经网络与深度强化学习
  • 模拟与深度强化学习
  • 脚注
成为VIP会员查看完整内容
A Beginner's Guide to Deep Reinforcement Learning _ Pathmind.pdf
0
102

最新论文

We introduce OLIVAW, an AI Othello player adopting the design principles of the famous AlphaGo series. The main motivation behind OLIVAW was to attain exceptional competence in a non-trivial board game at a tiny fraction of the cost of its illustrious predecessors. In this paper, we show how the AlphaGo Zero's paradigm can be successfully applied to the popular game of Othello using only commodity hardware and free cloud services. While being simpler than Chess or Go, Othello maintains a considerable search space and difficulty in evaluating board positions. To achieve this result, OLIVAW implements some improvements inspired by recent works to accelerate the standard AlphaGo Zero learning process. The main modification implies doubling the positions collected per game during the training phase, by including also positions not played but largely explored by the agent. We tested the strength of OLIVAW in three different ways: by pitting it against Edax, the strongest open-source Othello engine, by playing anonymous games on the web platform OthelloQuest, and finally in two in-person matches against top-notch human players: a national champion and a former world champion.

0
0
下载
预览
Top