牛津教授吐槽DeepMind心智神经网络，还推荐了这些多智能体学习论文

2018 年 3 月 18 日 量子位 关注前沿科技

夏乙发自凹非寺
量子位出品 | 公众号 QbitAI

DeepMind最近又有一篇论文刷了屏：

在Machine Theory of Mind中，DeepMind提出了“机器心智理论网络”ToMnet，让AI智能体能理解自己和周围智能体的情绪、意图、欲望等等。他们在论文摘要中这样陈述这篇论文的价值：推进可解释性AI发展的重要一步。

论文地址：https://arxiv.org/abs/1802.07740

和历史上的每一篇刷屏论文一样，flag立得太高，当然会招来反对。

这次提出质疑的，不是我们熟悉的马库斯老师了，而是牛津大学计算机科学专业副教授希蒙（Shimon Whiteson）。

希蒙上周读完这篇论文之后，大概心里堆积了太多的槽点，于是连发10条Twitter想要一吐为快。他说：

我其实很喜欢这篇论文的想法，用元学习方法来为对手建模。但是，深度学习圈写论文的那些毛病，这篇论文就是个极度恶劣的样本！

说起“深度学习圈那些毛病”，你们大概能想到一个老生常谈的问题：Over Claim。

重要一步？

希蒙主要针对的，就是DeepMind所宣称的“重要一步”。

“重要一步”这样的定位，就算那些提出新想法、新概念、新问题的开创性论文们，用起来也是小心翼翼，何况DeepMind这一篇，无论如何也谈不上开创性。

希蒙批判这篇论文说，它没有讲理论，实验领域简单得跟玩儿似的，算法上的贡献也简直微不足道，只不过是网络架构的一些工程性处理。那如果还能找出“重要一步”，就只能是提出了什么重大的新想法吧？

想法新不新，要看“相关研究”那部分。可是这篇论文它……没有Related Work部分……

深度学习健忘症

这也就牵扯到了深度学习圈外人对圈里人的另一大意见：贵圈写论文之前就不会读一下相关文献？研究者们还专门给这个问题起了个名字，叫“深度学习健忘症（Deep Learning Amnesia）”。

回到DeepMind这篇论文本身。希蒙认为，这篇论文主要讲的是多智能体学习领域一个并不冷门的主题：对手建模（opponent modelling）。但是，全文从头到尾都没有提到这个概念。

在多智能体学习领域，有一种历史悠久的著名方法，叫做虚构对策（fictitious play），DeepMind提都没有提；多智能体环境中的对手建模，有一个完整的推理框架，叫做交互式的部分可观察马尔科夫决策过程（Interactive POMDPs），DeepMind也完全忽略了。

希蒙老师敲黑板：同学们，随便浏览一篇多智能体学习的综述文章，这些文献都提到了啊！

可是DeepMind这一篇，引用的相关文献完全跳过了这个领域，倒是谈了不少心智理论和贝叶斯。

对于“健忘症”这个问题，论文一作、DeepMind研究员Neil Rabinowitz在Twitter上回复说，这些文献他们是知道的，但是在introduction里不知道怎么的就忘了引用了。现在arXiv上更新的第二版论文中，已经加上了这些该引用的文献。

“相关研究”

不过，大部分论文中都有的“相关研究”那一节，还是没写。

对此，有一位前来吐槽的围观群众说得好：要不咱们给DeepMind众包个“相关研究”吧？

这显然不是个可行的解决之道，不过对于想要学习的同学们来说，也不是非要看这一篇论文嘛，多智能体学习这个领域有不少文献综述可以读。

希蒙就列出了两篇：

A Comprehensive Survey of Multiagent Reinforcement Learning
http://ieeexplore.ieee.org/document/4445757/
A Framework for Sequential Planning in Multi-Agent Settings
https://www.jair.org/media/1579/live-1579-2391-jair.pdf

围观群众Katja Hofmann也贡献了一篇：

Autonomous Agents Modelling Other Agents: A Comprehensive Survey and Open Problems
https://arxiv.org/abs/1709.08071

关于希蒙

对DeepMind开炮的希蒙是牛津大学计算机专业研究人工智能和机器学习方向的副教授，带领着WhiRL（Whiteson Research Lab），研究领域主要涉及强化学习、深度学习等，以及它们在机器人、游戏、信息检索上的应用。

他带领着学生们发表过不少很有名的论文，比如LipNet、比如和Pieter Abbeel合作的Learning with Opponent−Learning Awareness等等。

WhiRL实验室合影，右四为希蒙

要详细了解希蒙老师，可以去他们实验室的主页看看：http://whirl.cs.ox.ac.uk/

— 完 —

加入社群

量子位AI社群15群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot6入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot6，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

多智能体学习

关注 16

Yoshua Bengio最新《深度学习》MLSS2020教程，附104页PPT及视频

专知会员服务

134+阅读 · 2020年7月10日

【MLSS2020硬核课】机器学习「因果性」，德国Bernhard Schölkopf教授，177页ppt

专知会员服务

115+阅读 · 2020年7月2日

【DeepMind深度学习课程】神经网络基础，104页ppt，Neural Networks Foundations

专知会员服务

87+阅读 · 2020年6月24日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知会员服务

125+阅读 · 2020年2月23日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

专知会员服务

46+阅读 · 2019年12月13日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

真正的神经网络，敢于不学习权重

机器之心

6+阅读 · 2019年6月13日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【CNN已老，GNN来了】DeepMind、谷歌大脑、MIT等27位作者重磅论文，图网络让深度学习也能因果推理

新智元

6+阅读 · 2018年6月14日

深度强化学习的弱点和局限

论智

6+阅读 · 2018年2月27日

深度强化学习的弱点和局限（上）

论智

8+阅读 · 2018年2月26日

马库斯：DeepMind新出的机器心智网络不错，但有误导性

量子位

3+阅读 · 2018年2月26日

深度 | 让机器思考与互相理解：DeepMind提出机器心智理论神经网络ToMnet

机器之心

4+阅读 · 2018年2月24日

DeepMind为明年的AAAI，准备了一份各种DQN的混血

量子位

3+阅读 · 2017年10月10日

Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text

Arxiv

6+阅读 · 2019年8月21日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Causal Embeddings for Recommendation

Arxiv

23+阅读 · 2018年8月3日

Relational recurrent neural networks

Arxiv

8+阅读 · 2018年6月28日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

NPE: Neural Personalized Embedding for Collaborative Filtering

Arxiv

7+阅读 · 2018年5月17日

Deep Reinforcement Learning for Page-wise Recommendations

Arxiv

8+阅读 · 2018年5月7日

Dynamic and Static Topic Model for Analyzing Time-Series Document Collections

Arxiv

8+阅读 · 2018年5月6日

Analysis of Wikipedia-based Corpora for Question Answering

Arxiv

7+阅读 · 2018年1月6日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

牛津教授吐槽DeepMind心智神经网络，还推荐了这些多智能体学习论文

夏乙 发自 凹非寺量子位 出品 | 公众号 QbitAI

重要一步？

深度学习健忘症

“相关研究”

关于希蒙

WhiRL实验室合影，右四为希蒙

相关内容

夏乙发自凹非寺
量子位出品 | 公众号 QbitAI