7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》；少样本NLP元学习综述

会员服务 ·

7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》；少样本NLP元学习综述

2020 年 7 月 26 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文有南加大开发的玩转《毁灭战士》游戏的 AI 智能体，以及Salesforce 研究者的少样本 NLP 元学习综述。

Stabilizing Differentiable Architecture Search via Perturbation-based Regularization
Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning
Searching to Exploit Memorization Effect in Learning with Noisy Labels
Meta-learning for Few-shot Natural Language Processing: A Survey
Towards Deeper Graph Neural Networks
Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog
A Knowledge-Enhanced Recommendation Model with Attribute-Level Co-Attention
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Stabilizing Differentiable Architecture Search via Perturbation-based Regularization

作者：Xiangning Chen、Cho-Jui Hsieh
论文链接：https://arxiv.org/pdf/2002.05283.pdf

摘要： 近期，可微架构搜索算法将 NAS 搜索时间缩短至数天，因而备受关注。然而其稳定生成高性能神经网络的能力受到广泛质疑。许多研究者发现随着搜索进行，DARTS 生成的网络架构反而越来越差，最终甚至会完全变为跳过连接。

为了支持梯度下降，DARTS 对于搜索空间做了连续化近似，并始终在优化一组连续可微的框架权重 A。但是在生成最终框架时，需要将这个权重离散化。

在本文中， 来自加州大学洛杉矶分校的研究作者观察到这组连续框架权重 A 在验证集上的损失函数非常不平滑，DARTS 总是会收敛到一个非常尖锐的区域 。因此对于 A 轻微的扰动都会让验证集性能大幅下降，更不用说最终的离散化过程了。这样尖锐的损失函数还会损害搜索算法在架构空间中的探索能力。

于是，他们提出了新型 NAS 框架 SmoothDARTS（SDARTS），使得 A 在验证集上的损失函数变得十分平滑。

CIFAR-10 上架构权重 A 的验证准确率。

SDARTS 训练算法。

在 ImageNet 上与其他 SOTA 分类器的 test error 结果比较。

推荐： 本文提出的方法可以广泛应用于各种可微架构算法。在各种数据集和搜索空间上，研究者发现 SDARTS 可以一贯地取得性能提升。

论文 2：Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning

作者：Aleksei Petrenko、 Zhehui Huang、Tushar Kumar、Gaurav Sukhatme、Vladlen Koltun
论文链接：https://arxiv.org/pdf/2006.11751.pdf

摘要： 最近， 来自南加州大学和英特尔实验室的研究团队创建了一种新方法，该方法可以在学术实验室常见的硬件上训练深度强化学习算法 。该研究被 ICML 2020 会议接收。

在这项研究中，研究者展示了如何使用单个高端工作站， 在第一人称射击电子游戏《毁灭战士》（Doom）中训练具有 SOTA 性能的 AI 。不仅如此，他们使用正常计算能力的一小部分解决了 DeepMind 创建的 30 种不同的 3D 挑战套件。

在具体配置上，研究者分别采用了一个具有 10 核 CPU 和 GTX 1080 Ti GPU 的工作站级 PC，以及配备了服务器级 36 核 CPU 和单个 RTX 2080 Ti GPU 的系统。

Sample Factory 的架构图。

硬件系统 1 和系统 2。

在 Atari、VizDoom 和 DMLab 三个模拟环境中，与 DeepMind IMPALA、RLlib IMPALA、SeedRL V-trace 和 rlpyt PPO 等基线方法相比，Sample Factory 更接近于理想的性能。

推荐： 完虐「机器人」，36 核 CPU 单机设置，南加大游戏 AI 在 Doom 中实现 SOTA 性能。

论文 3：Searching to Exploit Memorization Effect in Learning with Noisy Labels

作者：Quanming Yao、Hansi Yang、Bo Han、Gang Niu、James T. Kwok
论文链接：https://arxiv.org/abs/1911.02377

摘要： 样本选择（sample selection）是噪声标签鲁棒学习的常用方法。但是，如何适当地控制选择过程，进而使深度网络从记忆效应（memorization effect）中获益却是一大难题。

在本研究中， 受 AutoML 的启发，来自第四范式、清华大学等机构的研究者将此问题建模为一个函数逼近问题 。具体来说，他们基于记忆效应的通用模式设计了一个特定于领域的搜索空间，同时提出以一种新的牛顿法（Newton algorithm）来有效地解决双层优化问题。

此外，研究者还进一步对该算法进行了理论分析，保证了算法对临界点的良好逼近。在基准和真实世界数据集上的实验结果表明，该方法优于当前最优的噪声标签学习方法，并且比现有 AutoML 算法更加高效。

在 CIFAR-10、CIFAR-100 和 MNIST 上，使用不同架构、优化器和优化器设置下的训练和测试准确率曲线。

算法 2。

MNIST 上 MentorNet、Co-teaching、Co-teaching + 和 S2E 的标签精度（lable precision）变化曲线。

推荐： 论文二作杨瀚思（Hansi Yang）为清华大学本科生，现为第四范式机器学习研究组实习生。

论文 4：Meta-learning for Few-shot Natural Language Processing: A Survey

作者：Wenpeng Yin
论文链接：https://arxiv.org/abs/2007.09604

摘要： 在本文中， 来自 Salesforce 的研究者对少样本自然语言处理中的元学习进行了综述 。具体而言，本文力图对少样本 NLP 中元学习的应用提供更清晰的定义，对新进展进行了总结，并分析了一些常用的数据集。

多任务学习 VS 元学习。

Reptile（OpenAI）元学习（batched version）。

一些代表性的基于优化的（optimization-based）元学习模型。

推荐： 论文作者尹文鹏（Wenpeng Yin）现为 Salesforce 研究科学家，他曾任 NAACL 2019 和 ACL 2019 领域主席。

论文 5：Towards Deeper Graph Neural Networks

作者：Meng Liu、Hongyang Gao、Shuiwang Ji
论文链接：https://arxiv.org/abs/2007.09296

摘要： 在这项研究中， 来自德克萨斯州 A&M 大学的研究者对更深图神经网络的发展提出了一系列新的见解 。他们首先对这一问题进行了系统分析，并认为当前图卷积运算中表示变换与传播之间的纠缠是大幅度降低算法性能的关键因素。因此，将这两种运算解耦后，更深层次的图神经网络可以用来从更大规模的接受域中学习图节点表示。

此外，基于理论和实证分析，研究者提出了深度自适应图神经网络（Deep Adaptive Graph Neural Network, DAGNN），从而实现自适应地集成以自适应地整合来自大接受域的信息。在引用、合著（co-authorship）和共同购买（co-purchase）数据集的实验证实了研究者的分析和见解，并展示了他们所提方法的优越性。

研究所提 DAGNN 模型的架构图。

合著和共同购买数据集上各种模型的分类准确率结果对比，可以看到 DAGNN 均取得了 SOTA 结果。

不同数据集上，DAGNN 在不同深度情况下的测试准确率变化曲线。

推荐： 本文已被 KDD 2020 会议接收。

论文 6：Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog

作者：Libo Qin、Xiao Xu、Wanxiang Che、Yue Zhang、Ting Liu
论文链接：https://www.aclweb.org/anthology/2020.acl-main.565.pdf

摘要：在本文中， 来自哈工大和西湖大学的研究者提出以一种 shared-private 网络来学习共享和特定知识 。不仅如此，他们还提出了一种新颖的动态融合网络（Dynamic Fusion Network, DFNet），该网络可以自动利用目标域和每个域之间的相关性。

实验结果表明，该模型优于多域对话领域的现有方法，并实现了 SOTA 性能。最后，即使训练数据很少，该模型比以往最佳模型平均高出 13.9%，从而显示出它良好的可转移性。

多域对话方法。

基准模型、Share-private 模型和动态融合模型的工作流。

在 SMD 和 Multi-WOZ 2.1 上的主要结果对比。

推荐：本文已被 ACL 2020 会议接收。

论文 7：A Knowledge-Enhanced Recommendation Model with Attribute-Level Co-Attention

作者：Deqing Yang、Zengcun Song、Lvxin Xue、Yanghua Xiao
论文链接：https://arxiv.org/pdf/2006.10233.pdf

摘要： 现有的基于注意力机制的推荐模型存在一些改进的余地。很多模型只在生成用户的表示时应用了粗粒度的注意力机制，少数改进的模型尽管在注意力模块中加入了物品的属性（特征）信息，即融入了物品的相关知识，但仍然仅在用户表示这一端应用了注意力机制。

针对这些问题， 来自复旦大学的研究者出了一种在用户表示端与物品表示端协同应用（物品）属性级注意力机制的深度推荐模型 ，简称 ACAM（Attribute-level Co-Attention Model）。

模型架构图。

在 Douban movie 和 NetEase song 两项推荐任务上的性能比较结果。

推荐： 该模型采用多任务学习框架训练损失函数，并融入知识（嵌入）表示学习的目标，从而可以学到更优的物品和物品属性表示。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Analogical Reasoning for Visually Grounded Language Acquisition. (from Shih-Fu Chang)

2. A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation. (from Jiebo Luo)

3. Connecting Embeddings for Knowledge Graph Entity Typing. (from Kang Liu)

4. Effects of Language Relatedness for Cross-lingual Transfer Learning in Character-Based Language Models. (from Mikko Kurimo)

5. Better Early than Late: Fusing Topics with Word Embeddings for Neural Question Paraphrase Identification. (from Maria Liakata)

6. XD at SemEval-2020 Task 12: Ensemble Approach to Offensive Language Identification in Social Media Using Transformer Encoders. (from Jinho D. Choi)

7. Will Your Forthcoming Book be Successful? Predicting Book Success with CNN and Readability Scores. (from Aminul Islam)

8. To Be or Not To Be a Verbal Multiword Expression: A Quest for Discriminating Features. (from Carlos Ramisch)

9. IITK-RSA at SemEval-2020 Task 5: Detecting Counterfactuals. (from Shashank Gupta)

10. BAKSA at SemEval-2020 Task 9: Bolstering CNN with Self-Attention for Sentiment Analysis of Code Mixed Text. (from Ashutosh Modi)

本周 10 篇 CV 精选论文是：

1. CrossTransformers: spatially-aware few-shot transfer. (from Andrew Zisserman)

2. Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval. (from Andrew Zisserman)

3. BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues. (from Andrew Zisserman)

4. Shape and Viewpoint without Keypoints. (from Jitendra Malik)

5. NSGANetV2: Evolutionary Multi-Objective Surrogate-Assisted Neural Architecture Search. (from Kalyanmoy Deb, Wolfgang Banzhaf)

6. BorderDet: Border Feature for Dense Object Detection. (from Jian Sun)

7. WeightNet: Revisiting the Design Space of Weight Networks. (from Xiangyu Zhang, Jian Sun)

8. Funnel Activation for Visual Recognition. (from Xiangyu Zhang, Jian Sun)

9. Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos. (from Cordelia Schmid)

10. Vision-based Estimation of MDS-UPDRS Gait Scores for Assessing Parkinson's Disease Motor Severity. (from Li Fei-Fei)

本周 10 篇 ML 精选论文是：

1. Debiasing Concept Bottleneck Models with Instrumental Variables. (from David E. Heckerman)

2. Interpretable Neuroevolutionary Models for Learning Non-Differentiable Functions and Programs. (from Marin Soljačić)

3. Storage Fit Learning with Feature Evolvable Streams. (from Zhi-Hua Zhou)

4. PackIt: A Virtual Environment for Geometric Planning. (from Jia Deng)

5. Automated Detection and Forecasting of COVID-19 using Deep Learning Techniques: A Review. (from Saeid Nahavandi, U. Rajendra Acharya, Dipti Srinivasan)

6. ADER: Adaptively Distilled Exemplar Replay Towards Continual Learning for Session-based Recommendation. (from Boi Faltings)

7. Hybrid Discriminative-Generative Training via Contrastive Learning. (from Pieter Abbeel)

8. Graph Neural Networks with Haar Transform-Based Convolution and Pooling: A Complete Guide. (from Ming Li)

9. What is important about the No Free Lunch theorems?. (from David H. Wolpert)

10. Bridging the Imitation Gap by Adaptive Insubordination. (from Svetlana Lazebnik)