7 Papers & Radios | EMNLP 2020最佳论文；新型优化器AdaBelief

会员服务 ·

7 Papers & Radios | EMNLP 2020最佳论文；新型优化器AdaBelief

2020 年 11 月 22 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括EMNLP 2020 和CoRL 2020 学术会议的各奖项论文。

目录：

Learning Latent Representations to Influence Multi-Agent Interaction
SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving
Accelerating Reinforcement Learning with Learned Skill Priors
Digital Voicing of Silent Speech
Transformers: State-of-the-Art Natural Language Processing、
AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients
Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Learning Latent Representations to Influence Multi-Agent Interaction

作者：Annie Xie、Dylan P. Losey、Ryan Tolsma、Chelsea Finn、Dorsa Sadigh
论文链接：https://arxiv.org/pdf/2011.06619.pdf

摘要： 与机器人进行无缝交互非常困难，因为智能体是不稳定的。它们会根据 ego 智能体的行为更新策略，ego 智能体必须预见到可能的变化才能做到共同适应（co-adapt）。受人类行为的启发，研究者认识到机器人不需要明确地建模其他智能体将执行的每一个低级操作。相反，它可以通过高级表示来捕获其他智能体的潜在策略。

该研究提出一个 基于强化学习的框架，用来学习智能体策略的潜在表示，其中 ego 智能体确定其行为与另一智能体未来策略之间的关系 。然后 ego 智能体利用这些潜在动态来影响其他智能体，有目的地指导制定适合共同适应的策略。在多个模拟域和现实世界曲棍球游戏中，该方法优于其他方法，并学会影响其他智能体。

本研究中学习和利用潜在意图的方法流程图。

学习和影响潜在意图（LILI）算法。

air hockey 实验的学习结果。

推荐： CoRL 2020 最佳论文。

论文 2：SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving

作者：Ming Zhou、Jun Luo、Julian Villella、Yaodong Yang 等
论文链接：https://arxiv.org/pdf/2010.09776.pdf

摘要： 多智能体交互是现实世界自动驾驶领域的基础组成部分。经历十几年的研究和发展，如何与多样化场景中各类道路使用者进行高效交互的问题依然未能很好地解决。学习方法可以为解决该问题提供很大帮助，但这些方法需要能够产生多样化和高效驾驶交互的真实多智能体模拟器。

所以，为了满足这种需求，来自 华为诺亚方舟实验室、上海交大和伦敦大学学院的研究者开发了一个名为 SMARTS（Scalable Multi-Agent RL Training School）的专用模拟平台 ，该平台支持多样化道路使用者行为模型的训练、积累和使用。这些反过来又可以用于创建日益真实和多样化的交互，从而能够对多智能体交互进行更深更广泛的研究。

此外，研究者描述了 SMARTS 的设计目标，解释了它的基本架构以及关键特征，并通过交互场景中具体的多智能体实验阐释了其使用流程。研究者还开源了 SMARTS 平台以及相关的基准任务和评估指标，以鼓励和推进自动驾驶领域多智能体学习的更多研究。

SMARTS 架构示意图。

SMARTS 平台上的驾驶交互场景示例。

行为度量的结果。

推荐： CoRL 2020 最佳系统论文。

论文 3：Accelerating Reinforcement Learning with Learned Skill Priors

作者：Karl Pertsch、Youngwoon Lee、Joseph J. Lim
论文链接：https://arxiv.org/pdf/2010.11944.pdf

摘要： 智能体在学习新任务时严重依赖之前的经验，大部分现代强化学习方法从头开始学习每项任务。利用先验知识的一种方法是将在之前任务中学到的技能迁移到新任务中。但是，随着之前经验的增加，需要迁移的技能也有所增多，这就对在下游学习任务中探索全部可用技能增加了挑战性。还好，直观来看，并非所有技能都需要用相等的概率进行探索，例如当前状态可以提示需要探索的技能。

南加州大学的这项研究提出了一个深度潜变量模型，可以联合学习技能的嵌入空间和来自离线智能体经验的技能先验 。研究者将常见的最大熵强化学习方法进行扩展，以使用技能先验引导下游学习。该研究在复杂的导航和机器人操作任务中对提出的方法 SPiRL (Skill-Prior RL) 进行验证，结果表明学得的技能先验对于从丰富数据集上进行高效技能迁移是必要的。

联合学习技能嵌入和技能先验的深度潜变量模型。

算法 1。

本研究方法与其他方法的下游任务学习曲线。

推荐： CoRL 2020 最佳 Presentation 论文。

论文 4：Digital Voicing of Silent Speech

作者：David Gaddy、Dan Klein
论文链接：https://www.aclweb.org/anthology/2020.emnlp-main.445.pdf

摘要： 在这篇论文中，来自加州大学伯克利分校的研究者们探究了无声语音的数字化发声任务，其中基于捕获肌肉冲动的肌电图（EMG）传感器度量，将无声口语单词转换为可听语音。尽管此前已经有利用有声语音期间收集的 EMG 训练语音合成模型的研究，但该研究首次利用了在无声发音期间收集的 EMG 进行训练。

具体而言，研究者提出了一种通过将音频目标从有声信号转换为无声信号来对无声 EMG 进行训练的方法。与仅使用有声数据进行训练的基线方法相比，该方法显著提升了从无声 EMG 中生成音频的清晰度。在某种数据条件下，该方法将转录词误差率从 64% 降至 4%；另一种数据条件下，转录词误差率从 88% 降至 68%。为了促进这一研究任务的进一步发展，该研究已经共享了无声和有声面部 EMG 度量的新数据集。

模型所使用数据的三个组成部分。

在 silent EMG ES 上用于训练的音频目标迁移方法。

closed 词汇数据上人类可理解评估结果。

推荐： EMNLP 2020 最佳论文。

论文 5：Transformers: State-of-the-Art Natural Language Processing

作者：Thomas Wolf、Lysandre Debut、Victor Sanh 等
论文链接：https://arxiv.org/pdf/1910.03771.pdf

摘要： 模型架构和预训练的发展促进了自然语言处理领域近期的进展：Transformer 架构推动了更高容量模型的构建，预训练使得在大量任务中高效利用模型容量成为可能。 Hugging Face 团队创建了 transformers 开源库，旨在将这些 NLP 进展开放给更广泛的机器学习社区 。该库包含多个精心设计的 SOTA Transformer 架构，并使用统一的 API。transformers 库汇集了社区构建的多个预训练模型，并向社区开放。目前，该库的 star 量高达 36.9K，包含数千个预训练模型。

Transformers 库。

Transformers 模型中心。

Transformers 推理实验。

推荐： EMNLP 2020 最佳 demo 论文。

论文 6：AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

作者：Juntang Zhuang、Tommy Tang、Yifan Ding 等
论文链接：https://arxiv.org/abs/2010.07468

摘要： 最常用的深度学习优化器大致可分为自适应方法（如 Adam）和加速方案（如带有动量的随机梯度下降（SGD））。与 SGD 相比，许多模型（如卷积神经网络）采用自适应方法通常收敛速度更快，但泛化效果却较差。对于生成对抗网络（GAN）这类的复杂情况，通常默认使用自适应方法，因为其具有稳定性。

本文提出新的优化器 AdaBelief，根据当前梯度方向上的「belief」来调整步长，将嘈杂梯度的指数移动平均（EMA）当作下一步的梯度预测 。如果观察到的梯度大大偏离了预测，那么就不信任当前的观察，采取一个较小的步长；如果观察到的梯度接近预测值，那么就相信当前的观察，并采取一个较大的步长。本文通过实验验证了 AdaBelief 同时满足 3 个优点：自适应方法的快速收敛、良好泛化性、训练稳定性。

Adam 和 AdaBelief 优化器的比较。

SGD、Adam 和 AdaBelief 的轨迹图。

AdaBelief 和 Padam 的比较。

推荐： 本文一作庄钧堂为耶鲁大学生物医学工程系博士生。

论文 7：Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding

作者：Yongqi Zhang、Quanming Yao、Lei Chen
论文链接：https://arxiv.org/pdf/1911.07132.pdf

摘要： 知识图谱（KG）是一种重要的数据结构，它把现实世界那些可以被计算机记录且可以为人类所理解的事实组织起来。然而，如何学习并从知识图谱等这类组合式和离散型数据中进行推理是一项困难的任务。研究者将首先解释 KG 中的重要特性并介绍自动化机器学习（AutoML）的定义。接着，研究者将详细解读其最近使用 AutoML 技术探索 KG 重要特性的工作。最后展示进一步的研究工作。

现有 KG 嵌入方法的循环函数。

Interstella 算法。

Countries 数据集上的性能比较。

推荐： 知识图谱嵌入的自动化。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 9 篇 NLP 精选论文是：

1. Exploring Neural Entity Representations for Semantic Information. (from Eduard Hovy)

2. A Sequence-to-Sequence Approach to Dialogue State Tracking. (from Yang Wang, Hang Li)

3. EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform for NLP Applications. (from Deng Cai)

4. Sequence-Level Mixed Sample Data Augmentation. (from Alexander M. Rush)

5. Persuasive Dialogue Understanding: the Baselines and Negative Results. (from Soujanya Poria)

6. An Integrated Approach for Improving Brand Consistency of Web Content: Modeling, Analysis and Recommendation. (from Niloy Ganguly)

7. Topology of Word Embeddings: Singularities Reflect Polysemy. (from Milica Gašić)

8. Out-of-Task Training for Dialog State Tracking Models. (from Milica Gašić)

9. LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue Policy Optimization. (from Milica Gašić)

本周 10 篇 CV 精选论文是：

1. Deep Positional and Relational Feature Learning for Rotation-Invariant Point Cloud Analysis. (from Jian Sun)

2. Analyzing and Mitigating Compression Defects in Deep Learning. (from Larry Davis)

3. Shaping Deep Feature Space towards Gaussian Mixture for Visual Classification. (from Ming-Hsuan Yang)

4. End-to-End Object Detection with Adaptive Clustering Transformer. (from Xiaogang Wang)

5. Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators?. (from Qi Li, Tieniu Tan)

6. Fast Motion Understanding with Spatiotemporal Neural Networks and Dynamic Vision Sensors. (from Daniel D. Lee)

7. Layer-Wise Data-Free CNN Compression. (from Ali Farhadi)

8. Positive-Congruent Training: Towards Regression-Free Model Updates. (from Meng Wang, Stefano Soatto)

9. Modeling Fashion Influence from Photos. (from Kristen Grauman)

10. DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation. (from Xiansheng Hua)

本周 10 篇 ML 精选论文是：

1. C-Learning: Learning to Achieve Goals via Recursive Classification. (from Ruslan Salakhutdinov, Sergey Levine)

2. Using Text to Teach Image Retrieval. (from Guillermo Sapiro)

3. A User's Guide to Calibrating Robotics Simulators. (from Dieter Fox)

4. Low-latency Federated Learning and Blockchain for Edge Association in Digital Twin empowered 6G Networks. (from Yan Zhang)

5. FedEval: A Benchmark System with a Comprehensive Evaluation Model for Federated Learning. (from Kai Chen)

6. Statistical model-based evaluation of neural networks. (from Yonina C. Eldar)

7. Generalized Inverse Planning: Learning Lifted non-Markovian Utility for Generalizable Task Representation. (from Song-Chun Zhu)

8. Weighted Entropy Modification for Soft Actor-Critic. (from Song-Chun Zhu)

9. Parrot: Data-Driven Behavioral Priors for Reinforcement Learning. (from Sergey Levine)

10. A Knowledge Distillation Ensemble Framework for Predicting Short and Long-term Hospitalisation Outcomes from Electronic Health Records Data. (from Richard JB Dobson)