AlphaZero黑箱终于被打开！登顶5年后，人类揭开它学会下棋的奥秘

会员服务 ·

AlphaZero黑箱终于被打开！登顶5年后，人类揭开它学会下棋的奥秘

2022 年 11 月 17 日 量子位

詹士发自凹非寺
量子位 | 公众号 QbitAI

AI如何学到知识的？科学家敲开了它的脑壳看了看。

这两天，DeepMind及谷歌大脑一篇文章被《美国国家科学院院刊》(PNAS)收录，其内容正是以5年前发布的AlphaZero为例，研究神经网络如何获取并理解国际象棋知识。

在内容中，研究者重点关注了「神经网络是如何学习的」「知识又如何被量化表示」等问题。

有意思的是，他们发现：

在没有人类对弈指导下，AlphaZero仍形成了一套类似专业棋手才懂的概念体系。研究者还进一步探寻了这些概念何时何处形成。

此外，他们还对比了AlphaZero与人类开局棋风的不同。

有网友感慨，这是个影响深远的工作：

也有人感慨，AlphaZero能计算任何人类行为特征了？！

欲知更多观察结果，往下看。

掀起了神经网络的头盖骨

AlphaZero于2017年由DeepMind发布并一鸣惊人。

这是一种神经网络驱动的强化学习器，专精于棋类，内部包含了残差网络（ResNet）骨干网及分离的策略及价值heads。

其输出函数可表示如下，z为国际象棋排布情况：

为研究AlphaZero如何「学习」的，研究者构建了一个人类理解国际象棋的函数c(z0)。其中，z0为一个象棋特定排布概念，c(z0)以专业国际象棋引擎Stockfish 8评估分数作为参考。

再从AlphaZero角度，设一个广义线性函数g(zd)，作为在不同层取值的探针。训练设定下，g(zd)将不断趋近𝑐(𝐳0)，研究者通过观察g(zd)与𝑐(𝐳0)近似情况，以确认系统是否理解相关概念。

接着，研究团队随机抽取了10万盘游戏作为训练集，观察AlphaZero表现。

情况如下图，结果显示，随着训练步数（step）及ResNet网络块数（block）越来越多，AlphaZero表现出来的分数越来越高（图A），对弈过程中，每一步对敌方威胁性的也随之增加（图C）。

由于实验中出现了异常值，研究者探讨了其背后的潜在语义。

如下图，少数红色点位置远离主流分布，残差值也在红虚线之上，说明人类对棋局判断c函数与g函数有明显差异。

研究团队发现，这些值对应棋局中，人类判断为白方有利，同时，黑方皇后都能在兑子（exchange）过程中被进一步吃掉。

研究者推断认为，这是源于AlphaZero的Value Head与参考评价函数编码方式与参考系统的不同。

此外，研究者还观察了人类棋手及国际象棋编程所看重的重要参数，随训练过程的变化，其中包括：国王安全度（King Safety）、一方棋子总战力（Material）、机动性（Mobility）、走棋威胁性（Threats）等。

结果显示，它们在初始情况下几乎为零，但随着训练不断往下进行，以国王安全度（King Safety）、一方棋子总战力（Material）为代表，部分参数在模型中的权重明显上升。

这让研究者相信，通过训练过程，AlphaZero已经逐渐掌握了原本没有教给它的相关重要概念或者说知识。

最后，研究者还着重看了看开局演变与下棋风格，发现AlphaZero随时间推移，下棋路径选择范围在缩小，而人类下棋偏好和路径在变多。

科研人员表示，目前原因尚不清楚，但它反应了人与机器神经网络之间的根本差异。

关于后续研究方向，作者提出，下一步希望能探索AI模型能否超越人类的认知概念范围，去掌握学会新的东西。

团队介绍

本文一作Thomas McGrath 来自DeepMind，博士毕业于伦敦帝国学院，主要研究领域包括ML、人工智能安全及可解释性。

二作Andrei Kapishnikov，来自Google Brain，主攻人工智能应用领域，早前曾在VMware及Oracle从事技术工作。

值得一提的是，国际象棋大师Vladimir Kramnik也参与了该项目的研究。

参考链接：
[1]https://twitter.com/weballergy/status/1461281358324588544
[2]https://www.pnas.org/doi/10.1073/pnas.2206625119

— 完 —

「2022人工智能年度评选」火热报名中

最后一周，量子位「2022人工智能年度评选」即将截止报名！本次评选将从企业、人物、产品/解决方案三大维度设置5类奖项，抓紧时间参与吧！

更多关于评选标准、榜单报名欢迎扫描下方二维码～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

AlphaZero

关注 2

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

专知会员服务

39+阅读 · 2022年10月6日

【联结美国兵棋推演会议】《兵棋推演遥远未来》276页论论文集

专知会员服务

75+阅读 · 2022年9月8日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

兵棋推演的智能决策技术与挑战

专知会员服务

224+阅读 · 2022年7月5日

兵棋推演的智能决策技术与挑战（自动化学报）

专知会员服务

91+阅读 · 2022年4月24日

德国陆军概念和能力发展中心、空客《从游戏地图到战场——使用 DeepMind 高级 AlphaStar 技术来支持军事决策》

专知会员服务

56+阅读 · 2022年4月10日

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

专知会员服务

27+阅读 · 2022年2月3日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

【2021新书】国际象棋神经网络，268页pdf

专知会员服务

31+阅读 · 2021年10月4日

AlphaZero原理与启示

专知会员服务

33+阅读 · 2020年8月23日

AlphaZero的黑箱打开了！DeepMind论文登上PNAS

新智元

0+阅读 · 2022年11月18日

DeepMind 最新发文：AlphaZero 的黑箱打开了

THU数据派

0+阅读 · 2022年11月16日

DeepMind攻克50年数学难题！AlphaZero史上最快矩阵乘法算法登Nature封面

THU数据派

2+阅读 · 2022年10月9日

“AI 终有可能消灭人类！”

CSDN

0+阅读 · 2022年9月15日

DeepMind、牛津研究员合著论文预测：AI很有可能终结人类！

新智元

0+阅读 · 2022年9月15日

DeepMind最新研究：让 AI 像婴儿一样思考

学术头条

0+阅读 · 2022年7月12日

对人胜率84%，DeepMind AI首次在西洋陆军棋中达到人类专家水平

机器之心

1+阅读 · 2022年7月4日

AI“双子星”同日联动：DeepMind加速编程自动化，OpenAI新方法解开2道国际奥数题

学术头条

0+阅读 · 2022年2月3日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知

0+阅读 · 2021年12月7日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

水体微生物在微囊藻群体形成过程中的作用机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

中国早期现代人形成过程中的形态变异 - 新方法新手段的应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

细胞粘附蛋白解折叠的单分子力谱研究

国家自然科学基金

0+阅读 · 2012年12月31日

工作记忆表征对注意的引导作用及机制

国家自然科学基金

0+阅读 · 2012年12月31日

内隐自尊的神经机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

光晶格和人造规范势中的拓扑量子态研究

国家自然科学基金

0+阅读 · 2011年12月31日

从做中学—#8212;内隐学习中无意识知识的产生及其神经机制

国家自然科学基金

1+阅读 · 2009年12月31日

动态自适应协同进化的学习机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

硒诱导内质网应激调控白血病细胞自噬与调亡作用的机制

国家自然科学基金

0+阅读 · 2009年12月31日

Planning and Learning with Adaptive Lookahead

Arxiv

0+阅读 · 2023年1月18日

Multi-compartment Neuron and Population Encoding improved Spiking Neural Network for Deep Distributional Reinforcement Learning

Arxiv

0+阅读 · 2023年1月18日

Metamobility: Connecting Future Mobility with Metaverse

Arxiv

0+阅读 · 2023年1月17日

$Ae^2I$: A Double Autoencoder for Imputation of Missing Values

Arxiv

0+阅读 · 2023年1月16日

A Ranking Game for Imitation Learning

Arxiv

0+阅读 · 2023年1月16日

A double Fourier sphere method for $d$-dimensional manifolds

Arxiv

0+阅读 · 2023年1月16日

PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI Coordination

Arxiv

0+阅读 · 2023年1月16日

Modeling Human Cognition with a Hybrid Deep Reinforcement Learning Agent

Arxiv

0+阅读 · 2023年1月15日

The Design Principle of Blockchain: An Initiative for the SoK of SoKs

Arxiv

0+阅读 · 2023年1月14日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

VIP会员