作者 | newworldai译者 | 刘畅编辑 | Jane来源 | AI科技大本营(ID:rgznai100)人工智能领域每年发表超过14,000篇论文。这个领域吸引了全球多个重量级的研究小组。诸如NeurIPS,ICML,ICLR,ACL和MLDS之类的AI会议每年都会吸引大量的论文。2019年,论文提交的数量还在增加。今天,我们将分享 2019 年备受关注的 14 篇论文,助大家开启 2020 年学习旅程一臂之力。《Single Headed Attention RNN: Stop Thinking With Your Head》 (Stephen Merity, November 2019)在这篇论文中,哈佛大学的研究生Stephen调研了自然语言处理方向研究现状,所使用的模型以及其他替代方法。在这个过程中,他从头到尾拆解了常规的方法,包括词源。该作者还表示,机器学习摩尔定律的必要性。该定律是关于计算机的未来,同时还有从头开始重建代码库。这既是一种教育工具,又是学术界和工业界未来工作的强大平台。《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》 (Mingxing Tan and Quoc V. Le, November 2019) 在本项工作中,作者提出了一种复合的缩放方法,该方法可以指出何时增加或减少某个网络的深度、高度和分辨率。卷积神经网络(CNN)是许多机器视觉应用程序的核心。EfficientNets可以以x10倍的效率(越来越小,越来越快)超越SOTA的精度。此前,AI科技大本营(ID:rgznai100)也为大家做过详细的介绍,大家可点此回顾详细介绍:《谷歌开源新模型EfficientNet,或成计算机视觉任务新基础》《Deep Double Descent By OpenAI》 (Mikhail Belkin, Daniel Hsu, Siyuan Ma, Soumik Mandal, September 2019)在本文中,作者尝试了在统一的性能曲线内去平衡传统的理解和现代的实践。“二次下降”曲线可以显示超出插值点的模型如何提高性能,因此取代了经典的U型偏差方差trade-off曲线。《The Lottery Ticket Hypothesis Jonathan Frankle》(Michael Carbin, March 2019) 神经网络修剪技术可以将经过训练的网络参数数量减少90%以上,减少存储需求并提高推理的计算性能,而不会影响准确性。作者发现,标准的修剪技术自然可以发现子网,这些子网的初始化使其能够有效地进行训练。基于这些结果,他们介绍了“彩票假设”:《On The Measure Of Intelligence》 (Francois Chollet, November 2019) 这项工作总结并批判性地评估了智能和评价方法的定义,同时给出了引导这项工作的人工智能历史概念。作者,也是keras的创建者,介绍了基于算法信息论的智能的正式定义。并基于此定义,他针对通用AI基准提出了一套指南。《Zero-Shot Word Sense Disambiguation Using Sense Definition Embeddings via IISc Bangalore & CMU》 (Sawan Kumar, Sharmistha Jat, Karan Saxena and Partha Talukdar, August 2019) 词义消歧(WSD)是自然语言处理(NLP)中一个长期存在的研究问题。当前受监督的WSD方法将语义视为离散标签,并且还用于预测训练中未曾见过单词的“最频繁词义”(MFS)。IISc班加罗尔的研究人员与卡内基梅隆大学合作,提出了扩展的WSD结合语义嵌入(EWISE),这是一种通过预测连续语义嵌入空间而不是离散标签空间的WSD监督模型。《Deep Equilibrium Models》 (Shaojie Bai, J. Zico Kolter and Vladlen Koltun, October 2019) 由于观察到许多现有深度序列模型的隐藏层趋于某个固定点,因此卡内基梅隆大学的研究人员提出了一种通过深度均衡模型(DEQ)对序列数据进行建模的新方法。使用这种方法,无论网络的有效“深度”如何,这些网络中的训练和预测都仅需要固定的内存。《IMAGENET-Trained CNNs are Biased Towards Texture》 (Robert G, Patricia R, Claudio M, Matthias Bethge, Felix A. W and Wieland B, September 2019) 人们普遍认为,卷积神经网络(CNN)通过学习目标形状的复杂表示来识别物体。本文的作者评估了在具有纹理与形状冲突的图像上,CNN和人类的结果。他们表明ImageNet-trained CNN强烈倾向于识别纹理而不是形状,这与人类的识别方式形成鲜明对比。《A Geometric Perspective on Optimal Representations for Reinforcement Learning 》(Marc G. B , Will D , Robert D , Adrien A T , Pablo S C , Nicolas Le R , Dale S, Tor L, Clare L, June 2019)作者提出了一种基于价值函数空间几何特性的表示学习新视角。这项工作表明,对抗值函数展现了其有趣的结构,并且在学习环境表示时是很好的辅助任务。作者相信这项工作为在深度强化学习中自动生成辅助任务的可能性开辟了道路。 《Weight Agnostic Neural Networks》(Adam Gaier & David Ha, September 2019)在这项工作中,作者探索了在不学习任何权重参数的情况下,仅神经网络架构是否可以对给定任务的解决方案进行编码。在本文中,他们基于神经网络架构提出了一种搜索方法,该方法无需任何明确的权重训练就可以执行任务。 《Stand-Alone Self-Attention in Vision Models》 (Prajit Ramachandran, Niki P, Ashish Vaswani, Irwan Bello Anselm Levskaya, Jonathon S, June 2019) 在这项工作中,谷歌研究人员证实了基于内容的交互可以服务于视觉模型。本文所提出的局部自注意层在ImageNet分类和COCO对象检测任务上取得了竞争性的预测性能,同时与相应的baseline卷积方法相比,所需的参数和浮点数运算更少。结果表明,注意力机制在网络的后半部分尤为有效。《High-Fidelity Image Generation With Fewer Labels》 (Mario Lucic, Michael Tschannen, Marvin Ritter, Xiaohua Z, Olivier B, and Sylvain Gelly, March 2019) 当拥有大量的标记数据时,目前的模型可以达到非常高的质量。为了解决这种对大数据的依赖性,Google的研究人员发布了这项工作,以证明人们如何从自我学习和半监督学习中受益,从而在无监督ImageNet以及有限时条件的情况下都优于目前的SOTA结果。所提出的方法能够仅使用10%的标签就能匹配在ImageNet上最新条件模型BigGAN的样本质量,而使用20%的标签时,则能优于它(BigGAN)《ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations 》(Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin G, Piyush Sharma and Radu S, September 2019)作者提出了两种减少参数的技术,以降低内存消耗并提高BERT的训练速度,并解决因模型尺寸增加和GPU / TPU内存限制,带来的更长训练时间以及模型降级挑战。结果,该提出的模型在GLUE,RACE和SQuAD基准上建立了最新的SOTA结果,而参数却比BERT-large更少。《GauGANs-Semantic Image Synthesis with Spatially-Adaptive Normalization》(Taesung Park, Ming-Yu Liu, Ting-Chun Wang and Jun-Yan Zhu, November 2019)Nvidia与UC Berkeley和MIT合作提出了一个模型,该模型具有空间自适应的归一化层,用于在给定输入语义布局的情况下合成照片级逼真的图像。该模型保留了视觉保真度,并与具有挑战性的输入布局保持一致,同时允许用户控制语义和样式。