在过去的10年里,深度神经网络在许多监督学习任务上的性能有了巨大的提升。在此期间,这些模型多次在许多经典的机器视觉和自然语言处理基准上重新定义了最高水平。深度神经网络也被应用到许多实际应用中,包括聊天机器人、艺术生成、语音激活的虚拟助手、监控和医疗诊断系统。这些模型性能的大部分提升可以归因于规模的增加,这反过来又提高了计算和能源成本。在这篇论文中,我们详细介绍了如何降低在各种环境下部署深度神经网络的成本的方法。我们首先关注训练效率,为此,我们提出了两种优化技术,这两种技术可以在没有大量调整的情况下产生高精度的模型。这些优化器只有一个固定的最大步长超参数需要交叉验证,并且我们证明他们在广泛的设置中都优于其他可比较的方法。这些方法不需要繁重的找到好的学习率调度的过程,这通常需要训练同一网络的许多版本,因此它们减少了所需的计算。第一个优化器是一种为插值设置设计的新颖的束方法。第二个展示了Polyak式步长与在线估计最优损失值在非插值设置中的有效性。
接下来,我们将注意力转向训练具有二进制参数和激活的高效二进制网络。在正确的实施下,全二进制网络在推理时间上具有高效率,因为它们可以用更便宜的位运算替换大部分操作。这使得它们非常适合轻量级或嵌入式应用。由于这些模型的离散性质,传统的训练方法不可行。我们提出了一种简单而有效的替代方案,用于优化这些模型的现有技术。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。