近几年, 计算机围棋成功引发了又一轮的人工智能热潮, 从计算机围棋中发展出来的AlphaZero框架成功地应用在其他完全信息条件下的二人有限零和博弈问题, 进而展示出了深度学习和强化学习在智能决策领域的优异性能。本文首先介绍了AlphaZero框架中三个核心技术: 深度学习、 强化学习以及蒙特卡罗树搜索, 然后详细说明了AlphaZero框架两个关键阶段——AlphaGo和AlphaGo Zero的基本原理, 最后, 对AlphaZero框架提出了自己的思考, 并基于对AlphaZero原理的剖析讨论了其对军事决策智能化的启示。
http://www.aeroweaponry.avic.com/CN/abstract/abstract10638.shtml
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“AlphaZero” 可以获取《AlphaZero原理与启示》专知下载链接索引