选自Medium
作者:Libby Kinsey
机器之心编译
参与:侯韵楚、李亚洲
如今许多论文都会极其地依赖大量计算资源,这通常在学术界的经济范畴之外,所以学术研究该何去何从?该文作者 Libby Kinsey 在参加完 ICLR会议之后,总结出了这篇反思。
Libby Kinsey 在上周赴法国南部(旅程十分艰辛)参加了深度学习会议 ICLR(International Conference on Learning Representations)。
会议内容无甚多变,但有一点令我十分惊诧:许多重要的论文都依赖大量计算资源,但这些资源是学术界无法获得的。我很好奇,对计算资源有限的学术研究而言,还能走哪些路?我尝试在下文做出回答。(我也很好奇,当谷歌、亚马逊等公司招聘到所有的学者,这个问题是否就无实际意义了?)
企业附属型科研的最高荣誉
根据质量、明确性、原创性和重要性,提交至该会议的论文会被分为口头报告、会议海报、研讨会海报以及拒稿这几类,而其中三篇口头报告的论文进一步被评为了「最佳论文」。
在提交的 451 篇论文中,有 15 篇被选为口头报告,另外 230 篇作为会议海报或研讨会频道的海报。
在 15 篇口头报告中,只有 3 篇论文有专业学术作者;其中一篇论文被授予「最佳论文」奖。
相较而言,Google Brain 和 Deepmind 的研究人员共同撰写了 6 篇口头报告,其次是 Facebook(3 篇)、Intel(2 篇)、Twitter(2 篇)以及 Uber(1 篇)。
此处我冒险断言,企业中研究人员的论文不太可能比大学的研究人员质量更高。因此,企业的成功必定归因于提出(并回答)一系列更广泛的原创的重要问题的能力。我们已习惯将机器智能的最新突破归功于大型数据集,也更清楚地看到,同样有一些研究依赖「大计算」。以 Google Brain 为例,何种大学负担得起这样的实验?
Neural Architecture Search with Reinforcement Learning 论文(口头报告)在实验中使用了 800 个 GPU。
Capacity and Trainability in Recurrent Neural Networks 论文(会议海报)使用了「CPU 千年价值计算(CPU-millennia worth of computation)」(亦称为「荒谬之数」)。
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文(会议海报)使用 GPU 集群来训练具有超过 1000 亿个参数的模型。
Massive Exploration of Neural Machine Translation Architectures 论文(近期提交至 ACL 2017 的论文,而非提交至 ICLR)报告了超过 25 万 GPU 小时的实验结果。
即使 Google Brain 愿意继续强化结果,有限的经费和时间也会成为阻碍。下列论文由 Google Brain 的研究人员共同撰写,但对成本效益的权衡采取了更加实际的观点:
Hyperband: Bandit-Based Configuration Evaluation for Hyperparameter Optimization 论文(会议海报)「由于运行这些实验的成本很高,所以选择的对照组会尽可能提供有效信息(EC2 的信用总成本超过 1 万,并且 CNN 实验会消耗超过 1 万 GPU 小时)」。
Revisiting Distributed Synchronous SGD(拒稿):「我们同意审稿人的意见,即研究结果可以通过对多次运行的结果取平均来加强。不幸的是,这种做法十分昂贵——10 次初期实验的运行便会花费大约 15 万 GPU 小时」。
这种资源不平等的现象(当然并不局限于该领域)使未来的研究人员很难在未经企业赞助的情况下做出成果,而对于不愿与商界合作的学者而言情况更甚。
那么所有与人工智能民主化有关的聊天都会被这种对硬件和/或数据的繁琐依赖所掩饰。(这并非在诋毁任何优质的开源包抑或兢兢业业的开发者与贡献者)。
所以……存在其他的途径吗?
关于创新的预算
更复杂的架构、模型集合以及大型超参数搜索正被加入大型计算(但它被贴上了「仅会使用蛮力」或「痴心妄想」的标签)。然而这并不意味着不存在不需依赖其「大」数据和大型 GPU 农场等便可进行研究的原创性重要问题。
灵感一如既往地来自人类大脑,而不需大量数据或重复来习得,它很容易构建概念并建立域间连接(「泛化」与「迁移学习」)。神经编程诱导领域的研究人员认为,此能力的关键部分相当于学习编写程序,例如:
「递归将问题分解成较小的部分,并大幅缩小每个神经网络组分的范围」(Making Making Neural Programming Architectures Generalize via Recursion,口头报告,获最佳论文奖)。
「将知识扩散到可以跨任务分享的子组件的能力」(Lifelong Perceptual Programming By Example)。
「通过编写低级程序来表示高级程序」(Neural Program Lattices)。
ICLR2017 会议中的 Alex Graves(Google Deepmind)。
如今的研究重点是学习「教科书」式算法,如「学校、年级」的添加和事务排序。这与我的目的——从现有的最佳解决方案的数据中学习程序似乎完全相悖。何不仅仅将它们作为先验知识的单位?但我意识到这样可能有所疏漏,即最简单的、完全可泛化的、殚见洽闻的程序也许可以展示能够组合更复杂程序的方法,并趋向 AGI。所幸人们能够轻易为这些简单任务生成训练数据!
有关该主题的更多内容可通过访问 2016 年 NIPS 会议的神经抽象机及程序感应研讨会网站得到。「电脑自主编程这一愿景终将实现」(Alex Graves,Google Deepmind,ICLR2017)
将先验知识纳入模型的其他方法直观上可能产生结果。这些可能是将深度学习与象征性人工智能相联合的混合性方法(如 Marta Garnelo,@mpshanahan 以及 @KaiLashArul 去年的论文 Towards Deep Symbolic Reinforcement Learning),或者进行结构学习来对推理任务有所裨益(Learning Graphical State Transitions)。这些方法真的有可能降低对计算和数据需求吗?
对于如何实现可信赖的机器学习系统,还存在其他紧迫的研究问题。Benjamin Recht 在一次引人入胜的邀请报告中谈到学习理论的中心阶段,认为对深度学习拥有更深刻的理论认识对于提高信任度、可扩展性以及可预测性而言至关重要。
「稳定性和稳健性对于确保安全且可靠的机器学习性能而言举足轻重。」(Benjamin Recht,Berkeley,ICLR2017)
ICLR 今年的最热论文也许会是屡获殊荣的深层神经结构体系的泛化特性(Understanding Deep Learning Requires Rethinking Generalization)。它通过实验对问题做出测评;似乎没有人完全同意对于结果的解释,这意味着我们同样需要经过严谨分析的洞见!
对于算法问责,偏见以及隐私问题而言也是如此。
所以在一些不需大量数据或大量计算的关键研究领域,诸如简单程序的引入、混合模型以及学习中泛化的分析理论,你是否同意这一观点?存在其他的领域吗?请大家畅所欲言。
原文链接:https://medium.com/@libbykinsey/iclr2017-deep-thought-vs-exaflops-9f653354737b
点击阅读原文,报名参与机器之心 GMIS 2017 ↓↓↓