牛津大学教授：AlphaGo Zero的自学能力“可能会出现自发性”

2017 年 10 月 21 日 新智元

【AI WORLD 2017世界人工智能大会倒计时 18 天】

“AI达摩”齐聚世界人工智能大会，AI WORLD 2017议程嘉宾重磅发布

大会早鸟票已经售罄，现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗？今年，即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们请到CMU教授、冷扑大师发明人Tuomas Sandholm、百度副总裁王海峰、微软全球资深副总裁王永东、亚马逊AWS机器学习总监Alex Smola 、科大讯飞执行总裁胡郁，华为消费者事业群总裁邵洋等国内外人工智能领袖参会并演讲，一起探讨中国与世界AI的最新趋势。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元编译

来源：Fox News

【新智元导读】 根据新智元此前报道，新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGo Zero能获得如此战绩，完全通过自学，无需任何人类知识的输入。这是机器崛起，迈向超人类能力的重要一步。

那台曾经打败人类顶尖棋手、扬名天下的AlphaGo变得更聪明了。

根据新智元此前报道，新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGoZero能获得如此战绩，完全通过自学，无需任何人类知识的输入。这是机器崛起，迈向超人类能力的重要一步。

AlphaGo Zero在三天内就掌握了几千年来的围棋知识。而围棋，被认为是世界上最复杂的二人对弈。

DeepMind首席研究员、AlphaGo研究负责人David Silver表示，“AlphaGo Zero不仅发现了人类玩家通常使用的模式和开局方法，它更是抛弃了这些（传统打法），采取了人类完全不了解的新玩法。”

不受人类知识限制

据DeepMind研究人员称，和AlphaGo通过学习人类棋局不同，AlphaGo Zero并未看过任何棋谱，也没有和人类对弈过。

Silver此前在一个视频中介绍到，“之前所有版本的AlphaGo都被告知

‘在这里，人类会这样走；那里，人类又会那样走。’”

但AlphaGo Zero省略了这一步。它被设计为回应奖励：赢了得一分，输了扣一分。

AlphaGo Zero从围棋规则开始，没有收到任何指示。系统自己通过不断和自己对弈，学习围棋，制定并不断改进策略，从而掌握如何获得奖励。这是一个“强化学习”的试错过程。

Silver和DeepMind CEO Demis Hassabis在一个博客中写道，“AlphaGoZero不再受到任何人类知识的限制。”

令人吃惊的是，AlphaGo Zero只用了一台模拟人脑神经网络的机器。而打败李世石时，则使用了多台机器”大脑“。

AlphaGoZero有4个数据处理单位，而AlphaGo有48个。AlphaGo Zero在三天内打了490万次训练比赛。而AlphaGo过去几月的训练总和为3000万。

开始，还是终结？

Silver说，“人们总觉得机器学习是关于大数据和海量计算，而实际上我们在AlphaGo Zero中看到，算法更加重要。“

密歇根大学的SatinderSingh在Nature中曾评论过，基于强化学习的AI表现优于那些依靠人类经验的AI。

他还说，“但这不是任何结局的开端。因为就像迄今为止所有成功的AI一样，和人类甚至动物相比，AlphaGo Zero对其他领域都知之甚少。“

牛津大学人类未来研究所的Anders Sandberg说，AlphaGo Zero的自学能力“可能会出现自发性。” “但人类通用智慧和计算机软件专有智慧之间，有很大区别。”

【AI WORLD 2017世界人工智能大会倒计时 18 天】点击图片查看嘉宾与日程。

大会门票销售火热，抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

【扫一扫或点击阅读原文抢购大会门票】

AI WORLD 2017 世界人工智能大会购票二维码：

登录查看更多

相关内容

AlphaGo Zero

关注 13

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起，在无任何人类输入的条件下，AlphaGo Zero能够迅速自学围棋，并以100:0的战绩击败“前辈”。 2017年10月19日凌晨，在国际学术期刊《自然》（Nature）上发表的一篇研究论文中，谷歌下属公司Deepmind报告新版程序AlphaGo Zero：从空白状态学起，在无任何人类输入的条件下，它能够迅速自学围棋，并以100:0的战绩击败“前辈”。Deepmind的论文一发表，TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

台湾大学林轩田机器学习书籍《从数据中学习》，216页pdf

专知会员服务

172+阅读 · 2020年3月6日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

148+阅读 · 2019年12月25日