"阿尔法狗之父"在线答疑 新版本解决了哪些历史遗留问题? | 问答

2017 年 10 月 19 日 网易智能菌 聚焦AI的

本文系网易新闻-智能工作室出品

聚焦AI,读懂下一个大时代!

网易年度AI人物评选——2017网易AI英雄风云榜,自荐提名进行中!


奖项设置:技术创新人物TOP 10,商业创新人物TOP 10


表彰人物:华人科学家、学者、企业家、创业者


评委阵容:资深媒体人、AI投资人、AI专业机构等


颁奖:2017年12月,中国乌镇


关注网易智能公众号(ID:smartman163),输入关键词“评奖”,随时获取评奖动态!


【网易智能讯 10月20日消息】DeepMind首席研究员、“AlphaGo之父”David Silver和Julian Schrittwieser(AlphaGo Zero作者之一)在Reddit回答网友提问。


资料显示,“AlphaGo之父”David Silver毕业于剑桥大学,获得了艾迪生威斯利奖,随后与人共同创立了视频游戏公司Elixir Studios,2004年,成为伦敦大学学院的讲师,Silver起初是DeepMind的顾问,直到2013年正式加入DeepMind。


为什么AlphaGo Zero的训练如此稳定?


David Silver说,AlphaGo Zero所用的算法与策略梯度、Q-learning之类的传统(无模型)算法不同,通过使用AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy improvement)要稳定的多。


为什么这次Zero就训练了40天?训练3个月会怎样?


David Silver认为,这是一个人力和资源优先级的问题,如果训练3个月,我想你会问训练6个月会发生什么。


为什么一开始选择用人类对局数据来训练AlphaGo,而不是通过自我对弈来从0开始?之前的AlphaGo瓶颈在哪里?


David Silver表示,创造一个完全自学的系统,一直是强化学习中的一个开放式问题,之前都非常不稳定,之后我们做了很多实验,发现AlphaGo Zero的算法是最有效率的。


DeepMind和Facebook几乎同时开始研究这一课题,为什么你们能达到这个水平?


David Silver说,Facebook更专注于监督学习,我们关注强化学习,是因为相信它最终会超越人类的知识,研究表明,仅使用监督学习能够获得令人惊讶的表现,但如果要远超人类水平,强化学习才是关键。


AlphaGo Zero是AlphaGo的最终版本吗?


David Silver:我们已经不再主动研究如何让AlphaGo变得更强,但我们仍然用它尝试新的想法。


AlphaGo有没有开源计划?


David Silver:我们在过去已经开源了许多代码,但AlphaGo始终是一个复杂的过程,它是一个非常复杂的代码。


以上是精选Q&A,全文请前往Reddit.com

背景阅读


谷歌子公司DeepMind日前发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏,这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。


仅三天时间,AlphaGo Zero自行掌握了围棋的下法,还发明了更好的棋步。这期间,除了被告知围棋的基本规则,它未获得人类的帮助。随着AlphaGo Zero被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。


经过三天的训练,该系统能够击败AlphaGo Lee,后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件,胜率是100比0,经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。

点击阅读原文,观看更多精彩内容

登录查看更多
2

相关内容

AlphaGo 是一款人工智能围棋程序,由被 Google 收购的 DeepMind 公司开发。 2015年10月,AlphaGo v13 在与职业棋手、欧洲冠军 樊麾二段 的五番棋比赛中,以 5:0 获胜。2016年3月9日 - 15日,AlphaGo v18 在与韩国职业棋手 李世石九段 的五番棋比赛中,以 4:1 获胜,赛后,AlphaGo 荣获韩国棋院授予的「第〇〇一号 名誉九段」证书。2016年7月19日,AlphaGo 在 GoRantings 世界围棋排名中超过柯洁,成为世界第一。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
36+阅读 · 2020年7月5日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
72+阅读 · 2020年3月22日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
101+阅读 · 2020年3月9日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【机器学习课程】机器学习中的常识性问题
专知会员服务
75+阅读 · 2019年12月2日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
26+阅读 · 2019年11月19日
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
直面难题!NLP四大开放性问题详解
新智元
5+阅读 · 2019年1月17日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
编程和数学基础不佳如何入门人工智能?
算法与数据结构
4+阅读 · 2018年1月14日
分析 | 盘点人工神经网络超过人类的6个领域
网易智能菌
5+阅读 · 2017年12月12日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
Federated Learning for Mobile Keyboard Prediction
Arxiv
5+阅读 · 2018年11月8日
Arxiv
6+阅读 · 2018年3月12日
VIP会员
相关VIP内容
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
36+阅读 · 2020年7月5日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
72+阅读 · 2020年3月22日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
101+阅读 · 2020年3月9日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【机器学习课程】机器学习中的常识性问题
专知会员服务
75+阅读 · 2019年12月2日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
26+阅读 · 2019年11月19日
相关资讯
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
直面难题!NLP四大开放性问题详解
新智元
5+阅读 · 2019年1月17日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
编程和数学基础不佳如何入门人工智能?
算法与数据结构
4+阅读 · 2018年1月14日
分析 | 盘点人工神经网络超过人类的6个领域
网易智能菌
5+阅读 · 2017年12月12日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
Top
微信扫码咨询专知VIP会员