观点 | 反思ICLR 2017：拼运算拼资源时代，学术研究如何生存？

会员服务 ·

观点 | 反思ICLR 2017：拼运算拼资源时代，学术研究如何生存？

2017 年 5 月 4 日 机器之心

选自Medium

作者：Libby Kinsey

机器之心编译

参与：侯韵楚、李亚洲

如今许多论文都会极其地依赖大量计算资源，这通常在学术界的经济范畴之外，所以学术研究该何去何从？该文作者 Libby Kinsey 在参加完 ICLR会议之后，总结出了这篇反思。

Libby Kinsey 在上周赴法国南部（旅程十分艰辛）参加了深度学习会议 ICLR（International Conference on Learning Representations）。

会议内容无甚多变，但有一点令我十分惊诧：许多重要的论文都依赖大量计算资源，但这些资源是学术界无法获得的。我很好奇，对计算资源有限的学术研究而言，还能走哪些路？我尝试在下文做出回答。（我也很好奇，当谷歌、亚马逊等公司招聘到所有的学者，这个问题是否就无实际意义了？）

企业附属型科研的最高荣誉

根据质量、明确性、原创性和重要性，提交至该会议的论文会被分为口头报告、会议海报、研讨会海报以及拒稿这几类，而其中三篇口头报告的论文进一步被评为了「最佳论文」。

在提交的 451 篇论文中，有 15 篇被选为口头报告，另外 230 篇作为会议海报或研讨会频道的海报。
在 15 篇口头报告中，只有 3 篇论文有专业学术作者；其中一篇论文被授予「最佳论文」奖。
相较而言，Google Brain 和 Deepmind 的研究人员共同撰写了 6 篇口头报告，其次是 Facebook（3 篇）、Intel（2 篇）、Twitter（2 篇）以及 Uber（1 篇）。

此处我冒险断言，企业中研究人员的论文不太可能比大学的研究人员质量更高。因此，企业的成功必定归因于提出（并回答）一系列更广泛的原创的重要问题的能力。我们已习惯将机器智能的最新突破归功于大型数据集，也更清楚地看到，同样有一些研究依赖「大计算」。以 Google Brain 为例，何种大学负担得起这样的实验？

Neural Architecture Search with Reinforcement Learning 论文（口头报告）在实验中使用了 800 个 GPU。
Capacity and Trainability in Recurrent Neural Networks 论文（会议海报）使用了「CPU 千年价值计算（CPU-millennia worth of computation）」（亦称为「荒谬之数」）。
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文（会议海报）使用 GPU 集群来训练具有超过 1000 亿个参数的模型。
Massive Exploration of Neural Machine Translation Architectures 论文（近期提交至 ACL 2017 的论文，而非提交至 ICLR）报告了超过 25 万 GPU 小时的实验结果。

即使 Google Brain 愿意继续强化结果，有限的经费和时间也会成为阻碍。下列论文由 Google Brain 的研究人员共同撰写，但对成本效益的权衡采取了更加实际的观点：

Hyperband: Bandit-Based Configuration Evaluation for Hyperparameter Optimization 论文（会议海报）「由于运行这些实验的成本很高，所以选择的对照组会尽可能提供有效信息（EC2 的信用总成本超过 1 万，并且 CNN 实验会消耗超过 1 万 GPU 小时）」。
Revisiting Distributed Synchronous SGD（拒稿）：「我们同意审稿人的意见，即研究结果可以通过对多次运行的结果取平均来加强。不幸的是，这种做法十分昂贵——10 次初期实验的运行便会花费大约 15 万 GPU 小时」。

这种资源不平等的现象（当然并不局限于该领域）使未来的研究人员很难在未经企业赞助的情况下做出成果，而对于不愿与商界合作的学者而言情况更甚。

那么所有与人工智能民主化有关的聊天都会被这种对硬件和/或数据的繁琐依赖所掩饰。（这并非在诋毁任何优质的开源包抑或兢兢业业的开发者与贡献者）。

所以……存在其他的途径吗？

关于创新的预算

更复杂的架构、模型集合以及大型超参数搜索正被加入大型计算（但它被贴上了「仅会使用蛮力」或「痴心妄想」的标签）。然而这并不意味着不存在不需依赖其「大」数据和大型 GPU 农场等便可进行研究的原创性重要问题。

灵感一如既往地来自人类大脑，而不需大量数据或重复来习得，它很容易构建概念并建立域间连接（「泛化」与「迁移学习」）。神经编程诱导领域的研究人员认为，此能力的关键部分相当于学习编写程序，例如：

「递归将问题分解成较小的部分，并大幅缩小每个神经网络组分的范围」（Making Making Neural Programming Architectures Generalize via Recursion，口头报告，获最佳论文奖）。
「将知识扩散到可以跨任务分享的子组件的能力」（Lifelong Perceptual Programming By Example）。
「通过编写低级程序来表示高级程序」（Neural Program Lattices）。

ICLR2017 会议中的 Alex Graves（Google Deepmind）。

如今的研究重点是学习「教科书」式算法，如「学校、年级」的添加和事务排序。这与我的目的——从现有的最佳解决方案的数据中学习程序似乎完全相悖。何不仅仅将它们作为先验知识的单位？但我意识到这样可能有所疏漏，即最简单的、完全可泛化的、殚见洽闻的程序也许可以展示能够组合更复杂程序的方法，并趋向 AGI。所幸人们能够轻易为这些简单任务生成训练数据！

有关该主题的更多内容可通过访问 2016 年 NIPS 会议的神经抽象机及程序感应研讨会网站得到。「电脑自主编程这一愿景终将实现」（Alex Graves，Google Deepmind，ICLR2017）

将先验知识纳入模型的其他方法直观上可能产生结果。这些可能是将深度学习与象征性人工智能相联合的混合性方法（如 Marta Garnelo，@mpshanahan 以及 @KaiLashArul 去年的论文 Towards Deep Symbolic Reinforcement Learning），或者进行结构学习来对推理任务有所裨益（Learning Graphical State Transitions）。这些方法真的有可能降低对计算和数据需求吗？

对于如何实现可信赖的机器学习系统，还存在其他紧迫的研究问题。Benjamin Recht 在一次引人入胜的邀请报告中谈到学习理论的中心阶段，认为对深度学习拥有更深刻的理论认识对于提高信任度、可扩展性以及可预测性而言至关重要。