7 Papers & Radios | 王者荣耀AI绝悟完全体；目标检测新范式

会员服务 ·

7 Papers & Radios | 王者荣耀AI绝悟完全体；目标检测新范式

2020 年 11 月 29 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要研究包括王者荣耀 AI 绝悟完全体以及全新的目标检测范式 Sparse R-CNN。

目录：

Towards Playing Full MOBA Games with Deep Reinforcement Learning
Long Range Arena : A Benchmark for Efficient Transformers
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
The Mathematical Foundations of Manifold Learning
Learning to Reconstruct and Segment 3D Objects
U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection
Stylized Neural Painting
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Towards Playing Full MOBA Games with Deep Reinforcement Learning

作者：Deheng Ye、Guibin Chen、Wen Zhang 等
论文链接：https://arxiv.org/abs/2011.12692

摘要： 多人在线竞技类游戏 MOBA 长久以来一直吸引着众多玩家，其中的王者荣耀、英雄联盟、Dota 2 等最近也常被 AI 研究者当做人工智能的实验场，其中的多智能体、巨大的状态动作空间、复杂的环境等元素向 AI 系统提出了极大的挑战。开发用于 MOBA 游戏的 AI 引起了广泛的关注。然而，当 OpenAI 的 Dota AI 将游戏限制在只能选择 17 名英雄的情况下，若想扩展英雄库，现有的工作在处理由智能体组合（即阵容）爆炸性增长所导致的游戏复杂性方面的问题存在难度。因此，现有的 AI 系统并不能掌握完全没有限制的 MOBA 游戏。

在日均活跃玩家数量超 1 亿的国民手游王者荣耀上进行测试，展示了人类可以打造出能够击败顶级电子竞技玩家的超级 AI 智能体。通过文献中首次对 MOBA AI 智能体进行大规模性能测试，证明了该 AI 的优越性 。

神经网络架构示意图。

curriculum self-play 学习流程图。

推荐： 人工智能 2 级就来越塔来杀我。

论文 2：Long Range Arena : A Benchmark for Efficient Transformers

作者：Yi Tay、Mostafa Dehghani、Samira Abnar 等
论文链接：https://arxiv.org/pdf/2011.04006.pdf

摘要： Transformer 在多个模态（语言、图像、蛋白质序列）中获得了 SOTA 结果，但它存在一个缺点：自注意力机制的平方级复杂度限制了其在长序列领域中的应用。目前，研究人员提出大量高效 Transformer 模型（「xformer」），试图解决该问题。其中很多展示出了媲美原版 Transformer 的性能，同时还能有效降低自注意力机制的内存复杂度。

谷歌和 DeepMind 的研究人员提出了 一个新基准 Long-Range Arena (LRA)，用来对长语境场景下的序列模型进行基准测试 。该基准包括合成任务和现实任务，研究人员在此基准上对比了十个近期提出的高效 Transformer 模型，包括 Sparse Transformers、Reformer 、Linformer、Longformer、Sinkhorn Transformer、Performer、Synthesizer、Linear Transformer 和 BigBird 模型。

LRA 基准中每项任务的所需注意力范围。

xformer 模型的效率基准测试结果。

推荐： 重点关注长语境场景下的模型质量评估。

论文 3：Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

作者：Peize Sun、Rufeng Zhang、Yi Jiang、Tao Kong, 等
论文链接：https://arxiv.org/abs/2011.12450

摘要： 沿着目标检测领域中 Dense 和 Dense-to-Sparse 的框架， Sparse R-CNN 建立了一种彻底的 Sparse 框架 ，脱离 anchor box，reference point，Region Proposal Network(RPN) 等概念，无需 Non-Maximum Suppression(NMS) 后处理，在标准的 COCO benchmark 上使用 ResNet-50 FPN 单模型在标准 3x training schedule 达到了 44.5 AP 和 22 FPS。

RetinaNet、Faster R-CNN 与 Sparse R-CNN 的比较。

Sparse R-CNN 架构 pipeline。

推荐： 全新的目标检测范式。

论文 4：The Mathematical Foundations of Manifold Learning

作者：Luke Melas-Kyriazi
论文链接：https://arxiv.org/pdf/2011.01307.pdf

摘要： 流形学习（manifold learning）是机器学习、模式识别中的一种方法，在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设，即某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。流形学习可以作为一种数据降维的方式。此外，流形能够刻画数据的本质，主要代表方法有等距映射、局部线性嵌入等。自 2000 年在著名的科学杂志《Science》首次提出以来，流形学习成为机器学习领域中的一个热点。

近日，一篇 来自哈佛大学数学系的本科毕业论文引起了大家关注 。它结合三个看似不太相关的数学领域来介绍流形学习的数学基础，这三个领域分别是：统计学习、谱图理论和微分几何。

监督、半监督和无监督学习示意图。

常用核函数示例。

推荐： Luke Melas-Kyriazi 现为牛津大学博士。

论文 5：Learning to Reconstruct and Segment 3D Objects

作者：Bo Yang
论文链接：https://arxiv.org/pdf/2010.09582.pdf

摘要： 赋予机器像人类一样感知三维真实世界的能力，这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型，如二维或三维传感器获取的图像或点云，该领域研究中一个重要的目标是理解三维环境的几何结构和语义。传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是，这些方法难以泛化至新物体和新场景，也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同，作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示，进而理解场景以及场景中的物体。总体而言，本文开发了一系列新型数据驱动算法，以实现机器感知到真实世界三维环境的目的。作者表示：「本文可以说是突破了人工智能和机器理解的界限。」

网络架构的训练和测试流程。

推荐： 人工智能和机器理解的界限.

论文 6：U2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection

作者：Xuebin Qin、Zichen Zhang、Chenyang Huang 等
论文链接：https://arxiv.org/pdf/2005.09007.pdf

摘要：从人脸图片生成艺术肖像画的 AI 应用不在少数，但效果惊艳的不多。上面这张图片中的输入 - 输出结果，来源于一个 GitHub 热门项目 U^2-Net (U square net)，开源至今已经获得了 1.7K 的 star 量。这项研究来自阿尔伯塔大学的一个团队，论文此前已被国际模式识别大会 ICPR 2020 会议接收。

研究团队在论文中介绍， U^2-Net 是一个简单而强大的深度网络架构，其架构是两层嵌套的 U 形结构 。该研究提出的 ReSidual U-block（RSU）中混合了不同大小的接收域，因此它能够从不同尺度中捕获更多的语境信息。此外，RSU 中使用了池化操作，因此在不显著增加计算成本的情况下，也能够增加整个架构的深度。

U^2-Net 与其他 SOTA SOD 模型的比较。

推荐： 研究者将其应用于人脸肖像画的生成中，不管是儿童肖像还是成年男性、成年女性，都能获得相当细致的生成结果。

论文 7：Stylized Neural Painting

作者：Zhengxia Zou、Tianyang Shi、Shuang Qiu 等
论文链接：https://arxiv.org/pdf/2011.08114.pdf

摘要：在本文中，来自 密歇根大学安娜堡分校、网易伏羲 AI 实验室等机构的研究者提出了一种图像转油画的转换方法，该方法可以生成风格可控的生动逼真油画作品 。由于典型向量渲染器不可微分，因此他们设计了一种新型的神经渲染器，它能够模仿向量渲染器的行为，然后将笔画预测设计成参数搜索过程，以最大化输入与渲染输出之间的相似性。此外，研究者探索了参数搜索的零梯度问题，并提出从最优运输角度解决该问题。

双路径神经渲染器。

（图注）不同渲染方法的效果比较。

推荐：该方法生成的油画在整体外观和局部纹理上都具有很高的保真度。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Tight Integrated End-to-End Training for Cascaded Speech Translation. (from Hermann Ney)

2. Two-Way Neural Machine Translation: A Proof of Concept for Bidirectional Translation Modeling using a Two-Dimensional Grid. (from Hermann Ney)

3. GLGE: A New General Language Generation Evaluation Benchmark. (from Ruofei Zhang)

4. ONION: A Simple and Effective Defense Against Textual Backdoor Attacks. (from Maosong Sun)

5. Cross-Document Event Coreference Resolution Beyond Corpus-Tailored Systems. (from Iryna Gurevych)

6. Acoustic span embeddings for multilingual query-by-example search. (from Karen Livescu)

7. XTQA: Span-Level Explanations of the Textbook Question Answering. (from Jun Liu)

8. Enhancing deep neural networks with morphological information. (from Marko Robnik-Šikonja)

9. A Panoramic Survey of Natural Language Processing in the Arab World. (from Kareem Darwish)

10. 1st AfricaNLP Workshop Proceedings, 2020. (from Vukosi Marivate)

本周 10 篇 CV 精选论文是：

1. Temporal Action Detection with Multi-level Supervision. (from Kate Saenko, Trevor Darrell)

2. Exploring Simple Siamese Representation Learning. (from Kaiming He)

3. Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual Emotion Adaptation. (from Alberto L. Sangiovanni-Vincentelli, Kurt Keutzer)

4. Learning to Sample the Most Useful Training Patches from Images. (from Liang Chen, Philip Torr)

5. SLADE: A Self-Training Framework For Distance Metric Learning. (from Larry Davis, C.-C. Jay Kuo)

6. Building 3D Morphable Models from a Single Scan. (from Joshua Tenenbaum)

7. Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for 3D Reconstruction. (from Bing Liu)

8. Unsupervised Discovery of DisentangledManifolds in GANs. (from Ming-Hsuan Yang)

9. SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation. (from Tinne Tuytelaars)

10. MicroNet: Towards Image Recognition with Extremely Low FLOPs. (from Zicheng Liu, Lei Zhang, Nuno Vasconcelos)

本周 10 篇 ML 精选论文是：

1. Energy-Based Models for Continual Learning. (from Antonio Torralba)

2. TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning. (from Zhengyou Zhang)

3. Unsupervised learning of disentangled representations in deep restricted kernel machines with orthogonality constraints. (from Johan A. K. Suykens)

4. Equivariant Conditional Neural Processes. (from Yee Whye Teh)

5. MetaGater: Fast Learning of Conditional Channel Gated Networks via Federated Meta-Learning. (from Junshan Zhang)

6. Ensemble- and Distance-Based Feature Ranking for Unsupervised Learning. (from Sašo Džeroski)

7. Convergence Analysis of Homotopy-SGD for non-convex optimization. (from Moritz Diehl, Frank Hutter)

8. Explainable Multivariate Time Series Classification: A Deep Neural Network Which Learns To Attend To Important Variables As Well As Informative Time Intervals. (from Vasant Honavar)

9. No Subclass Left Behind: Fine-Grained Robustness in Coarse-Grained Classification Problems. (from Christopher Ré)

10. Cyclic Label Propagation for Graph Semi-supervised Learning. (from Jiajun Bu)