AlphaGo不带人类玩了！“新狗”碾压“老狗”自学三天胜人千年

会员服务 ·

AlphaGo不带人类玩了！“新狗”碾压“老狗”自学三天胜人千年

2017 年 10 月 19 日 IT时报 挨踢妹

导

读

“老狗”退役了，“新狗”不但以100:0的成绩战胜“老狗”，还无师自通，自学三天，胜人千年，这是彻底不带人类玩了的节奏。

AlphaGo退役了！

回顾一下，“老狗”是如何完虐人类的：

2015年10月面世，击败欧洲冠军樊麾

2016年3月，击败人类顶尖棋手之一李世石

2017年元旦前后，在网络上化名大师（Master），60：0完败前来车轮战的人类一流棋手

2017年5月，在乌镇3：0战胜当下人类最强者柯洁

如今，AlphaGo进化了！

今天凌晨，谷歌旗下Deepmind团队在《自然》杂志发表人工智能界期待已久的论文《无须人类知识掌握围棋》（Mastering the game of go without human knowledge），印证了一个人们已经猜到的事实：今天的AlphaGo已经完全不是人了，它也不再带人类玩了！

“新狗”接过接力棒，代号为AlphaGo Zero，它的独门秘籍是“自学成才”。AlphaGo的小弟弟“零”，只靠一副棋盘和黑白两子，没看过一张棋谱，也没有一个人指点，从零开始，自己参悟，结果以100：0的战绩完败哥哥AlphaGo。

此前，AlphaGo成为首个战胜人类围棋世界冠军的程序，当时的AlphaGo通过深层神经网络进行决策，并使用人类专家下棋的数据进行监督学习，同时也通过自我对弈进行强化学习。

“零”自我对弈训练示意图

如今，AlphaGo Zero无需任何人类指导，通过全新的强化学习方式自己成为自己的老师，在围棋这一最具挑战性的领域达到超过人类的精通程度。

相比起之前使用人类对弈的数据，这一算法训练时间更短，仅用3天时间就达到了击败李世石的AlphaGo Lee的水平，21天达到了之前击败柯洁的AlphaGo Master的水平。

“零”棋力增长与积分比较

AlphaGo Zero进化篇：

一、非常低碳，“零”只需要在4个TPU上，花三天时间，自己左右互搏490万棋局。而它的哥哥阿法狗，需要在48个TPU上，花几个月的时间，学习三千万棋局，才打败人类。

二、AlphaGo Zero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

美国的两位棋手在Nature对阿法元的棋局做了点评：它的开局和收官和专业棋手的下法并无区别，人类几千年的智慧结晶，看起来并非全错。但是中盘看起来则非常诡异。

AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠的是其高质量的神经网络来评估下棋的局势。

“阿尔法狗之父”揭秘最强“新狗”是如何炼成的：

AlphaGo拜人为师，最终人类死在沙滩上。悟性更高的“零”无师自通完败AlphaGo。

进化之迅速，让挨踢妹不寒而栗，想起了出版前就被疯传的《纽约客》杂志封面图，一个满脸胡须的年轻乞丐坐在街上乞讨，身旁的机器人向他手里的杯子里投掷螺丝和螺帽，他身旁的小狗也惊讶和担忧地看着旁边走过的机器狗。

未来，人类将会向机器乞讨？机器人开始取代工人，全自动化的工厂不再需要灯光，成了“黑暗工厂”；而一代代的AlphaGo挑战人类的围棋技艺，如今已经超越了人类对围棋的认知，一种深深的隐忧在人类心中滋生。

拜见机器人主子！

整合自知社学术圈、雷锋网、钛媒体、腾讯科技等

往期精选

华为Mate10“吊打”苹果、三星

苹果失控了......

买不买iPhone 8，看这些就够了

END

关注“IT时报”

你书读的多我不骗你

登录查看更多

相关内容

AlphaGo

关注 21

AlphaGo 是一款人工智能围棋程序，由被 Google 收购的 DeepMind 公司开发。 2015年10月，AlphaGo v13 在与职业棋手、欧洲冠军樊麾二段的五番棋比赛中，以 5:0 获胜。2016年3月9日 - 15日，AlphaGo v18 在与韩国职业棋手李世石九段的五番棋比赛中，以 4:1 获胜，赛后，AlphaGo 荣获韩国棋院授予的「第〇〇一号名誉九段」证书。2016年7月19日，AlphaGo 在 GoRantings 世界围棋排名中超过柯洁，成为世界第一。

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

专知会员服务

28+阅读 · 2020年4月11日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

专知会员服务

48+阅读 · 2020年2月15日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日