牛津大学教授:AlphaGo Zero的自学能力“可能会出现自发性”

2017 年 10 月 21 日 新智元



【AI WORLD 2017世界人工智能大会倒计时 18 

“AI达摩”齐聚世界人工智能大会,AI WORLD 2017议程嘉宾重磅发布 


大会早鸟票已经售罄,现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗?今年,即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们请到CMU教授、冷扑大师发明人Tuomas Sandholm、 百度副总裁王海峰 、微软全球资深副总裁王永东、亚马逊AWS机器学习总监Alex Smola 、科大讯飞执行总裁胡郁,华为消费者事业群总裁邵洋等国内外人工智能领袖参会并演讲,一起探讨中国与世界AI的最新趋势。


抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026


大会官网:http://www.aiworld2017.com

  新智元编译  

来源:Fox News

 

【新智元导读】 根据新智元此前报道, 新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGo Zero能获得如此战绩,完全通过自学,无需任何人类知识的输入。这是机器崛起,迈向超人类能力的重要一步。



那台曾经打败人类顶尖棋手、扬名天下的AlphaGo变得更聪明了。

 

根据新智元此前报道, 新一代AlphaGo Zero100:0打败了AlphaGo。AlphaGoZero能获得如此战绩,完全通过自学,无需任何人类知识的输入。这是机器崛起,迈向超人类能力的重要一步。

 

AlphaGo Zero在三天内就掌握了几千年来的围棋知识。而围棋,被认为是世界上最复杂的二人对弈。

 

DeepMind首席研究员、AlphaGo研究负责人David Silver表示,“AlphaGo Zero不仅发现了人类玩家通常使用的模式和开局方法,它更是抛弃了这些(传统打法),采取了人类完全不了解的新玩法。”


不受人类知识限制


据DeepMind研究人员称,和AlphaGo通过学习人类棋局不同,AlphaGo Zero并未看过任何棋谱,也没有和人类对弈过。

 

Silver此前在一个视频中介绍到,“之前所有版本的AlphaGo都被告知

‘在这里,人类会这样走;那里,人类又会那样走。’”

 

AlphaGo Zero省略了这一步。它被设计为回应奖励:赢了得一分,输了扣一分。

 

AlphaGo Zero从围棋规则开始,没有收到任何指示。系统自己通过不断和自己对弈,学习围棋,制定并不断改进策略,从而掌握如何获得奖励。这是一个“强化学习”的试错过程。

 

Silver和DeepMind CEO Demis Hassabis在一个博客中写道,“AlphaGoZero不再受到任何人类知识的限制。”

 

令人吃惊的是,AlphaGo Zero只用了一台模拟人脑神经网络的机器。而打败李世石时,则使用了多台机器”大脑“。

 

AlphaGoZero有4个数据处理单位,而AlphaGo有48个。AlphaGo Zero在三天内打了490万次训练比赛。而AlphaGo过去几月的训练总和为3000万。


开始,还是终结?


Silver说,“人们总觉得机器学习是关于大数据和海量计算,而实际上我们在AlphaGo Zero中看到,算法更加重要。“

 

密歇根大学的SatinderSingh在Nature中曾评论过,基于强化学习的AI表现优于那些依靠人类经验的AI。

 

他还说,“但这不是任何结局的开端。因为就像迄今为止所有成功的AI一样,和人类甚至动物相比,AlphaGo Zero对其他领域都知之甚少。“

 

牛津大学人类未来研究所的Anders Sandberg说,AlphaGo Zero的自学能力“可能会出现自发性。” “但人类通用智慧和计算机软件专有智慧之间,有很大区别。”

 



【AI WORLD 2017世界人工智能大会倒计时 18 点击图片查看嘉宾与日程。


大会门票销售火热,抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026


【扫一扫或点击阅读原文抢购大会门票

AI WORLD 2017 世界人工智能大会购票二维码: 



登录查看更多
1

相关内容

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
编程和数学基础不佳如何入门人工智能?
大数据技术
5+阅读 · 2018年1月3日
一张图看懂AlphaGo Zero
AI前线
5+阅读 · 2017年11月17日
最可怕的不是被机器淘汰,而是……
全球创新论坛
18+阅读 · 2017年10月28日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
12+阅读 · 2019年2月26日
VIP会员
Top
微信扫码咨询专知VIP会员