DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

会员服务 ·

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

2021 年 12 月 6 日 新智元

新智元报道

编辑：LRS

【新智元导读】AlphaZero下棋和人类下棋究竟有什么区别？是否掌握了一些人类未曾了解过的知识？DeepMind最近携手国际象棋世界冠军发69页论文，深度解剖AlphaZero后发现，神经网络学到的知识和人类基本相似！

机器学习系统通常被认为是不透明的、不可预测的，和人类所接受的训练几乎没有任何共通之处。

难道，黑盒模型和可解释性的学习注定是两条路？

但最近有研究表明，至少在某些情况下，神经网络能够学习到一些人类可理解的表征！

例如分类器中的单个神经元可以表示一些语义信息，语言模型中也包含语法信息，在视觉和文本数据的对齐数据中也能发现一些复杂的概念表示，这些神经网络学到的概念都和人类接受的概念训练相关。

但还有一个问题，这些学习到的概念是通用的吗？我们是否也希望其他深度学习的系统具有类似的有意义的表示？

如果这些问题的答案都是没有的话，那么一些关于反映模型计算过程可解释性的研究将受到种种限制，并且很难找到其他合理的方法来解释。

虽然上面提到的几个例子能一定程度上能展现机器学习模型能够理解人类的语义，但本质上是因为它们只能接触到人类生成的数据，并且在分类任务中是将人类的类别概念强加给模型才导致它们能捕捉到类别语义。

或者说，这些任务也相对简单，解释起来也更加容易。

为了进一步测试机器学习模型是否真正获取到了人类可理解概念（human-understandable concepts），需要找到一个在没有使用人类标签数据的情况下，表现出超越人类表现的模型。

这不巧了吗？AlphaZero就同时满足这两个要求。

首先，AlphaZero是通过self-play的方式训练的，所以从未接触过人类数据，并且它在国际象棋，围棋和将棋（Shogi）这三项竞技游戏上借助蒙特卡洛树搜索成功战胜人类。

所以AlphaZero就成了研究机器学习模型和人类理解之间关系的一座重要桥梁，如果AlphaZero中能找到人类可理解的概念，那其他模型应该也会有！

说干就干！

DeepMind、Google Brain的研究人员携手国际象棋世界冠军共同打造了一篇长达69页的论文，主要研究了像AlphaZero这样的超越人类的神经网络模型正在学习什么，这是一个既科学又实用的问题。

在论文中研究人员证明了人类获取知识和AlphaZero在国际象棋中获得的知识都是相似的。并通过对大量人类关于国际象棋的概念的探索，还可以观察到其中一些概念在AlphaZero网络是如何表示的。

https://arxiv.org/abs/2111.09259

论文中邀请到的国际象棋大师是弗拉基米尔·克拉姆尼克（Vladimir Kramnik），俄罗斯著名国际象棋手，1992年获特级大师头衔。2000年至2007年，是国际象棋世界冠军。他的等级积分为2801分，世界排名第四（活跃选手排名第三）。

研究方法主要分为三个方面：

1、概念的探测（Probe of Concepts）

研究人员的首要任务是研究AlphaZero的内部表征，即其神经网络内神经元的激活（activation）情况是否与人类关于国际象棋的概念相关。

如果从网络的内部表示可以很容易地预测人类概念，那么通过深入研究来揭示更多的信息也是有可能的。如果学习到的表征与人类概念没有关系，那么AlphaZero的内部计算在进一步研究后可能仍然不透明。

基于概念的方法就是在一个大的输入数据集上从网络激活中检测人类概念。因为国际象棋经过多年的发展，已经是高度理论化了，所以已经有大量现成的人类定义过的概念可以使用，并且这些概念也足够复杂。而所有这些概念结合在一起就能够得到一次完整的位置评估（position evaluation）。

此外，整个探索过程是自动化的，因此研究人员可以在self-play训练中探索每个概念、每个区块和多个检查点，从而能够建立一个学习内容的蓝图。

当然，基于概念的方法远远不是理解神经网络计算的唯一方法，

2、研究行为变化（Study behavioural changes）

在研究了内部表征如何随着时间的推移而变化之后，自然要研究这些变化的表征是如何导致行为变化的。

在训练过程中，有些动作（move）优先于处于相同位置的其他动作，这种偏好会随着训练进程而发展。

当AlphaZero在没有蒙特卡罗树搜索（MCTS）的情况下运行时，行为变化仅限于其先前动作选择概率的变化。通过测量一组棋局某一手的动作概率变化能够发现模型行为的变化，并将self-play训练中的游戏演变与高级人类游戏中运动选择的演变进行比较。

3、直接研究激活（Investigate activations directly）

在确定了许多人类概念可以从Alphazero的训练后激活中预测出来后，就可以开始研究这些网络神经元的激活究竟是什么情况了。

研究人员使用非负矩阵因子分解（NMF）技术将AlphZero的表征分解为多个因子。这种方法提供了与现有人类概念无关的信息，也提供了AlphaZero网络计算内容的补充视图。

直接测量单神经元激活和输入之间的协方差也是一种方案，这种方法能够提供输入特征的组合，找到哪些特征的存在与给定神经元的激活最相关。

最后研究结果发现：

许多人类的概念都可以在AlphaZero网络中找到。

研究人员证明了AlphaZero网络的国际象棋内部学习表征可以用来可靠地重建许多人的象棋概念。采用概念激活向量（CAV）的方法，通过训练稀疏线性探针来处理更广泛的概念。这也表明相关信息是由AlphaZero网络计算的。

结果还表明，虽然AlphaZero的象棋知识似乎与人类的概念探针密切相关，但它们之间确实存在差异，因为重建往往是不完整的。

通过使用概念探针方法论（concept probing methodology），可以衡量训练过程中以及网络中每个层相关信息的出现情况，这也能够绘制出一副模型何时何地发现什么概念的一副画面。

研究人员还发现，许多概念在训练的早期就出现惊人的一致性，AlphaZero的动作选择也会迅速发生变化。

概念的使用和相对概念值（Use of Concept and Relative concept value）侧重于描述 AlphaZero值函数随时间的演变。

研究人员再次使用了一种基于概念的方法试图预测一组人类概念的价值函数的输出。通过研究训练过程中概念权重的演变，可以看到AlphaZero的行为如何与高水平的人体象棋概念相关，这也是其下棋风格（style）的一种展现。

可以发现，早期的AlphaZero训练主要集中在材料（material）中更复杂和微妙的概念。如King Safety和Mobility，作为价值函数的重要预测因素，在训练过程较晚中才会出现。

分析表明，人类下棋的发展过程和AlphaZero既有相似之处，也有差异。AlphaZero并没有回顾人类下棋的发展历程，而是从一些招式直接开始训练。但在self-play策略上，人类和AlphaZero基本是相似的。

也许，神经网络的发展终于到了要揭开黑盒的时候了，看一看到底是不是和生物学神经相同！

参考资料：

https://arxiv.org/abs/2111.09259

登录查看更多

相关内容

AlphaZero

关注 2

《可解释的机器学习》中文版和英文版：226页pdf理解黑盒模型指南，复旦研究生朱明超翻译

专知会员服务

107+阅读 · 2022年3月11日

计算机视觉和人类视觉有更多的共同点？MIT研究人员解读【周边视觉对机器的好处】

专知会员服务

21+阅读 · 2022年3月7日

自然语言处理中的因果推理:估计、预测、解释和超越

专知会员服务

94+阅读 · 2021年9月5日

【ICLR2021】常识人工智能，77页ppt

专知会员服务

80+阅读 · 2021年5月11日

【斯坦福-NLP-seminar】知识密集强化学习，72页ppt，Facebook TIM

专知会员服务

29+阅读 · 2021年4月27日

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

专知会员服务

45+阅读 · 2020年11月30日

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【NLPCC2020-微软】自然语言处理机器推理，124页ppt

专知会员服务

46+阅读 · 2020年10月20日

【PNAS2020-斯坦福】自监督训练的人工神经网络中的涌现语言结构

专知会员服务

20+阅读 · 2020年6月5日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

379+阅读 · 2020年5月10日

玩桥牌，8位人类世界冠军，都输给了AI

学术头条

0+阅读 · 2022年3月31日

DeepMind的AI能指导人类的直觉吗？

AI前线

0+阅读 · 2022年3月21日

Yann LeCun最新发声：自监督+世界模型，让 AI 像人类与一样学习与推理

THU数据派

0+阅读 · 2022年3月4日

神经网络为何越大越好？这篇NeurIPS论文证明：鲁棒性是泛化的基础

新智元

2+阅读 · 2022年2月22日

数据还是模型？人类知识在深度学习里还有用武之地吗？

夕小瑶的卖萌屋

0+阅读 · 2021年7月7日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

「元学习」解析：学习如何梯度下降与学习新的算法

AI研习社

12+阅读 · 2018年5月1日

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

教程 | 如何使用深度学习为照片自动生成文本描述？

机器之心

10+阅读 · 2017年11月15日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

文本分类中的文本图表示模型和结构化稀疏模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

Spiking神经网络学习算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

反馈神经网络对非线性动力系统的本质逼近能力研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于模糊径向基神经网络焊接接头力学性能预测方法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

有一定物理基础的神经网络及其泛化技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

通用型记忆和联想增量学习神经网络研究

国家自然科学基金

1+阅读 · 2009年12月31日

多维空间信息可视化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向网页检索应用的汉语语义概念图表示方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

A Fixed-Parameter Algorithm for the Schrijver Problem

Arxiv

0+阅读 · 2022年4月19日

A survey on improving NLP models with human explanations

Arxiv

0+阅读 · 2022年4月19日

Neural Gaits: Learning Bipedal Locomotion via Control Barrier Functions and Zero Dynamics Policies

Arxiv

0+阅读 · 2022年4月18日

Understanding Game-Playing Agents with Natural Language Annotations

Arxiv

0+阅读 · 2022年4月15日

Knowledge Equivalence in Digital Twins of Intelligent Systems

Arxiv

1+阅读 · 2022年4月15日

Acquisition of Chess Knowledge in AlphaZero

Arxiv

14+阅读 · 2021年11月27日

Semantic Models for the First-stage Retrieval: A Comprehensive Review

Arxiv

20+阅读 · 2021年9月17日

A Probabilistic Representation of DNNs: Bridging Mutual Information and Generalization

Arxiv

17+阅读 · 2021年6月18日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Machine Learning: Basic Principles

Arxiv

26+阅读 · 2018年8月19日

VIP会员