AlphaZero原理与启示 - 专知VIP

会员服务 ·

9

2020 年 8 月 23 日

AlphaZero原理与启示

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近几年, 计算机围棋成功引发了又一轮的人工智能热潮, 从计算机围棋中发展出来的AlphaZero框架成功地应用在其他完全信息条件下的二人有限零和博弈问题, 进而展示出了深度学习和强化学习在智能决策领域的优异性能。本文首先介绍了AlphaZero框架中三个核心技术: 深度学习、强化学习以及蒙特卡罗树搜索, 然后详细说明了AlphaZero框架两个关键阶段——AlphaGo和AlphaGo Zero的基本原理, 最后, 对AlphaZero框架提出了自己的思考, 并基于对AlphaZero原理的剖析讨论了其对军事决策智能化的启示。

http://www.aeroweaponry.avic.com/CN/abstract/abstract10638.shtml

成为VIP会员查看完整内容

33

相关内容

生成对抗网络GAN的发展与最新应用

生成对抗网络GAN的发展与最新应用

专知会员服务

127+阅读 · 2020年8月13日

深度学习批归一化及其相关算法研究进展

深度学习批归一化及其相关算法研究进展

专知会员服务

52+阅读 · 2020年7月17日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

195+阅读 · 2020年5月24日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

人机对抗智能技术

人机对抗智能技术

专知会员服务

214+阅读 · 2020年5月3日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

AlphaGo的制胜秘诀：蒙特卡洛树搜索初学者指南

AlphaGo的制胜秘诀：蒙特卡洛树搜索初学者指南

AI100

8+阅读 · 2018年3月31日

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

PingWest品玩

4+阅读 · 2017年10月20日

SAR成像原理及图像鉴赏

SAR成像原理及图像鉴赏

无人机

21+阅读 · 2017年8月14日

最大熵原理（一）

最大熵原理（一）

深度学习探索

12+阅读 · 2017年8月3日

Learning Optimal Representations with the Decodable Information Bottleneck

Arxiv

6+阅读 · 2020年9月27日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

75+阅读 · 2019年8月14日

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

Arxiv

5+阅读 · 2019年1月3日

Cross-Paced Representation Learning with Partial Curricula for Sketch-based Image Retrieval

Arxiv

8+阅读 · 2018年3月5日

Unsupervised Cipher Cracking Using Discrete GANs

Arxiv

11+阅读 · 2018年1月15日

VIP会员

相关主题

相关VIP内容

生成对抗网络GAN的发展与最新应用

生成对抗网络GAN的发展与最新应用

专知会员服务

127+阅读 · 2020年8月13日

深度学习批归一化及其相关算法研究进展

深度学习批归一化及其相关算法研究进展

专知会员服务

52+阅读 · 2020年7月17日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

195+阅读 · 2020年5月24日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

人机对抗智能技术

人机对抗智能技术

专知会员服务

214+阅读 · 2020年5月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

AlphaGo的制胜秘诀：蒙特卡洛树搜索初学者指南

AlphaGo的制胜秘诀：蒙特卡洛树搜索初学者指南

AI100

8+阅读 · 2018年3月31日

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

PingWest品玩

4+阅读 · 2017年10月20日

SAR成像原理及图像鉴赏

SAR成像原理及图像鉴赏

无人机

21+阅读 · 2017年8月14日

最大熵原理（一）

最大熵原理（一）

深度学习探索

12+阅读 · 2017年8月3日

相关论文

Learning Optimal Representations with the Decodable Information Bottleneck

Arxiv

6+阅读 · 2020年9月27日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

75+阅读 · 2019年8月14日

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

Arxiv

5+阅读 · 2019年1月3日

Cross-Paced Representation Learning with Partial Curricula for Sketch-based Image Retrieval

Arxiv

8+阅读 · 2018年3月5日

Unsupervised Cipher Cracking Using Discrete GANs

Arxiv

11+阅读 · 2018年1月15日

微信扫码咨询专知VIP会员