7 Papers | 深度强化学习综述、图灵71年前未发表的智能机器论文

2019 年 6 月 30 日 机器之心

机器之心整理

机器之心编辑部

Google AI 大牛、谷歌大脑负责人 Jeff Dean 曾统计过一个数据：平均每天全世界都会产生 100 篇机器学习新论文。已经相当忙碌的 AI 从业者如何有针对性的选择优质论文学习呢？机器之心「7 Papers」为大家整理了过去一周备受关注的优质论文，供大家有选择的阅读。此外，读者们也可以订阅文末的机器之心「每日必读论文」，紧跟研究动态。

1.标题：Modern Deep Reinforcement Learning Algorithms

作者：Sergey Ivanov,Alexander D'yakonov
链接：https://arxiv.org/pdf/1906.10025v1

摘要：基于经典理论结果与深度学习算法的结合，强化学习近年来取得了一系列新的进展，给许多任务也带来了突破，因此深度强化学习也成为了一个新的热门研究领域。此论文对新兴的深度强化学习算法进行了概述，注重理论依据、实践缺陷与观察到的经验型特性。

推荐：深度强化学习是如今人工智能领域的热门研究方向，这篇近 60 多页的深度强化学习综述论文，为我们了解这一领域提供了较为全面的资料。

2.标题：Deep Set Prediction Networks

作者：Yan Zhang , Jonathon Hare , Adam Prügel-Bennett
链接：https://arxiv.org/abs/1906.06565v1

摘要：在本文中，研究者探讨了如何利用深度神经网络从特征向量中预测集合的问题。现有方法往往忽略集合结构，并因此存在不连续问题。研究者提出一种预测集合的通用模型，该模型恰当地遵循集合结构，从而避免了上述不连续问题。以单个特征向量作为输入，文中提出的模型能够自动编码点集，预测图像中对象集的边界框以及这些对象的属性。

推荐：尽管针对集合类型数据的编码器种类已经很多，但相应的解码器则较少。这篇论文提出对集合进行连续预测，在解码器架构方面提出了新思路，便于进一步将目标检测任务转换为端到端任务。特斯拉 AI 总监 Andrej Karpathy 推荐该论文。

3.标题：When Deep Learning Met Code Search

作者：Jose Cambronero , Hongyu Li , Seohyun Kim , Koushik Sen, Satish Chandra
链接：https://arxiv.org/pdf/1905.03813

摘要：近来有很多关于使用深度神经网络进行代码搜索的研究。这些论文的共性在于，他们都提出将代码和自然语言查询全部转换为词嵌入向量，然后计算向量的距离，以便判断代码和查询之间的语义相似度。现在已经有很多种代码和查询词嵌入向量模型的训练方法，如无监督学习和监督学习。无监督学习只依赖于代码样本的语料数据，而监督学习使用代码语料和其对应的自然语言描述数据。监督学习的目的在于创造出和查询及相应代码最为相似的词嵌入向量。很明显，这里存在选择无监督学习还是监督学习，以及为监督学习选择何种模型的问题。本论文是第一个系统研究这两个问题的论文，最终，作者们将现有最佳效果的实现技术组合起来，建立了一个共同的平台，用于训练和评价语料。为了研究网络的复杂程度，他们也提出了一种新的设计方法——从已有的无监督模型上延伸出一些有监督的方法。

实验结果说明：1. 在已有的无监督模型基础上增加监督学习可以提升模型表现，虽然提升不多；2. 简单的监督学习模型比设计精巧的、基于序列的代码搜索方法效果更好；3. 尽管现在普遍使用文档字符串进行监督学习，但是基于文档字符串和基于查询的监督语料的模型在效果上之间存在明显的差别。

推荐：这篇论文结合了监督模型和无监督模型，并使用了 Stack Overflow 数据集匹配查询和对应的代码。Facebook 官方博客介绍了与这篇论文相关的内容：把深度学习用于代码搜索，为开发者搜索、查询代码段提供了有力工具。也许以后找代码只要提出一个问题就可以了。

4.标题：Learning Data Augmentation Strategies for Object Detection

作者：Barret Zoph , Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens , Quoc V. Le
链接：https://arxiv.org/abs/1906.11172

摘要：尽管数据增强能极大的改进图像分类表现，但它在目标检测任务上的效果还未被透彻研究过。此外，目标检测所用图像的注释会造成大量的成本，所以数据增强对此计算机视觉任务的影响可能会更大。在此研究中，作者们研究了数据增强在目标检测上的影响。在 COCO 数据集上的实验结果说明，优化后的数据增强策略将检测准确率提升了超过 2.3 mAP，使单推理模型能够达到最佳效果——50.7 mAP。重要的是，COCO 数据集上发现的这种最佳策略可以直接迁移到其他目标检测数据集上，同样可以提升预测准确率。

推荐：Quoc Le 的团队一直在研究数据增强策略，2018 年他们就曾发布论文介绍了数据增加方法 AutoAugment。在近日发表的这篇论文中，作者们研究了数据增强在目标检测上的影响，也表明数据增强能够极大地改进检测模型在他们基准上的表现。

5.标题：A Tensorized Transformer for Language Modeling

作者：Xindian Ma , Peng Zhang Shuai Zhang , Nan Duan , Yuexian Hou, Dawei Song , Ming Zhou
链接：https://arxiv.org/abs/1906.09777

摘要：最近的神经模型开始利用自注意机制将编码器和解码器连接起来。特别是 Transformer，它完全基于自注意机机制，在自然语言处理（NLP）各项任务中取得了突破。然而，多头注意力机制限制了模型的发展，使得模型需要较大的算力支持。为了解决这一问题，基于张量分解和参数共享的思想，本文提出了多头线性注意力（Multi-linear attention）和 Block-Term Tensor Decomposition（BTD）。研究人员在语言建模任务及神经翻译任务上进行了测试，与许多语言建模方法相比，多头线性注意力机制不仅可以大大压缩模型参数数量，而且提升了模型的性能。

推荐：近期，基于 Transformer 的预训练语言模型大为火热，如 BERT、XLNet 等，这篇论文的研究成果对此类方法作出了极大的改进。压缩预训练语言模型可以在更多小型设备上训练或部署，节约算力资源。

6.标题：DensePeds: Pedestrian Tracking in Dense Crowds Using Front-RVO and Sparse Features

作者：Rohan Chandra, Uttaran Bhattacharya, Aniket Bera, and Dinesh Manocha
链接：https://arxiv.org/pdf/1906.10313.pdf

摘要：研究人员提出了一种行人检测算法——DensePeds，这种算法可以从密集人群（平均每平米范围内多于两个人）中追踪单个个体。这种研究可以用来从前脸或摄像头拍摄的视频中捕捉个人。研究提出了一种新的动作模型——Front-RVO (FRVO)。模型使用防碰撞抑制机制，并和 Mask R-CNN 结合来计算稀疏特征向量，以避免失去对行人的追踪。这种模型用于预测行人在密集人群中的动作。研究人员在标准的 MOT 基准和新的密集人群数据集上进行了测试。结果说明，研究提出的方法比之前在 MOT 基准上取得的结果快 4.5 倍，并在密集人群视频追踪上取得了平均 2.6% 的绝对改进，现已达到了最佳效果。

推荐：这是一篇对密集人群视频进行行人检测的 SOTA 论文，且识别速度有极大的提升。论文提出的算法结合了防碰撞抑制和 Mask R-CNN，增强了对行人的追踪能力。

7.标题：Intelligent Machinery

作者：Alan Turing
链接：https://weightagnostic.github.io/papers/turing1948.pdf

摘要：近来有一些关于如何使机器表现出智能行为的讨论，使用人脑类比作为指导原则。有人指出，只有提供适当的教育，人类智能的潜力才能体现。这篇论文集中探讨将教育过程应用在机器上。论文会定义「无管理机器（unorganised machine）」的构想，而人类婴儿也是通过这样的方式获得智力的。论文也会提供一些关于这种机器的简单案例，并讨论使用奖励或惩罚对机器进行教育的方法。在其中一个例子中，这种教育会一直持续下去，直到整个组织和 ACE（自动计算引擎）相似。

推荐：这波人工智能浪潮的兴起很大程度是因为神经网络带来的突破性进展。近日，有网友发现，早在 1948 年，「计算机科学之父」艾伦·图灵的一篇未发表论文就介绍了如今人工智能的众多概念，包括如今火热的神经网络。这篇论文在 Reddit 上也引起了社区热议，感兴趣的读者可以了解下。

登录查看更多

相关内容

深度强化学习

关注 156

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

最新《动态网络嵌入》综述论文，25页pdf

专知会员服务

138+阅读 · 2020年6月17日

【国防科大】复杂异构数据的表征学习综述

专知会员服务

85+阅读 · 2020年4月23日

【Google大脑】AutoML-Zero: 从无到有演化机器学习算法，Evolving Machine Learning

专知会员服务

26+阅读 · 2020年3月11日

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日