7 Papers & Radios |ImageNet top-1准确率突破90%遭质疑；GAN反转研究综述

会员服务 ·

7 Papers & Radios |ImageNet top-1准确率突破90%遭质疑；GAN反转研究综述

2021 年 1 月 24 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括谷歌大脑研究科学家 Quoc Le 等人将ImageNet top-1准确率提升至 90% 以上的研究，以及 GAN 反转研究综述。

目录：

Superintelligence Cannot be Contained: Lessons from Computability Theory
Meta Pseudo Labels
Ten computer codes that transformed science
Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation
GAN Inversion: A Survey
What are the most important statistical ideas of the past 50 years?
Survey on Adversarial Sample of Deep Learning Towards Natural Language Processing
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Superintelligence Cannot be Contained: Lessons from Computability Theory

作者：Manuel Alfonseca、Manuel Cebrian、Antonio Fernandez Anta 等
论文链接：https://jair.org/index.php/jair/article/view/12202/26642

摘要： 在本月初发表在 AI 领域顶级期刊《人工智能研究杂志》（JAIR）上的一篇文章中，马德里自治大学、马克斯 - 普朗克人类发展研究所等机构的研究者认为， 由于计算本身固有的基本限制，人类可能无法控制超级人工智能 。他们表示，任何旨在确保超级人工智能无法伤害人类的算法都必须首先模拟机器行为以预测其行动的潜在后果。如果超级智能机器确实可能造成伤害，那么此类抑制算法（containment algorithm）需要停止机器的运行。

然而，科学家们认为，任何抑制算法都不可能模拟 AI 的行为，也就无法百分之百地预测 AI 的行为是否会造成伤害。抑制算法可能无法正确模拟 AI 的行为或准确预测 AI 行动的后果，也就无法分辨出这些失败。

与超级人工智能展开任何形式的交流都是有风险的。

计算复杂性是阻止人类控制强人工智能的重要原因。

推荐： 最新研究：超级人工智能，从理论上就无法控制。

论文 2：Meta Pseudo Labels

作者：Hieu Pham、Zihang Dai、Qizhe Xie 等
论文链接：https://arxiv.org/pdf/2003.10580.pdf

摘要： 近日，谷歌大脑研究科学家、AutoML 鼻祖 Quoc Le 发文表示，他们提出了一种新的半监督学习方法， 可以将模型在 ImageNet 上的 top-1 准确率提升到 90.2%，与之前的 SOTA 相比实现了 1.6% 的性能提升 。

这一成果刷新了 Quoc Le 对于 ImageNet 的看法。2016 年左右，他认为深度学习模型在 ImageNet 上的 top-1 准确率上限是 85%，但随着这一数字被多个模型不断刷新，Quoc Le 也开始对该领域的最新研究抱有更多期待。而此次 90.2% 的新纪录更是让他相信：ImageNet 的 top-1 还有很大空间。

Quoc Le 介绍称，为了实现这一结果，他们使用了一种名为「元伪标签（Meta Pseudo Label）」的半监督学习方法来训练 EfficientNet-L2。

伪标签方法和元伪标签方法的区别。

元伪标签方法与之前的 SOTA 半监督学习方法进行了对比。

研究者得到的学生模型在 ImageNet ILSVRC 2012 验证集上实现了 90.2% top-1 准确率，比之前的 SOTA 方法提升了 1.6 个百分点。

推荐： ImageNet 的 top-1 终于上了 90%，不过网友质疑：用额外数据集还不公开，让人怎么信服？

论文 3：Ten computer codes that transformed science

作者：Jeffrey M. Perkel
论文链接：https://www.nature.com/articles/d41586-021-00075-2

摘要： 最近，Nature 上的一篇文章试图揭示科学发现背后的重要代码，正是它们在过去几十年中改变了科研领域。这篇文章介绍了 对科学界带来重大影响的十个软件工具，其中就包括与人工智能领域密切相关的 Fortran 编译器、arXiv、IPython Notebook、AlexNet 等 。

这台使用 Fortran 编译器编程的 CDC 3600 计算机于 1963 年移送至美国国家大气研究中心。（图源：美国大气科学研究大学联盟 / 科学图片库。）

Cray-1 超级计算机。（图源：科学历史图像 / Alamy）

1991 年至 2021 年，arXiv 提交论文数量暴增。

推荐： Nature 盘点：从 Fortran、arXiv 到 AlexNet，这些代码改变了科学界。

论文 4：Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation

作者：Lingyun Feng、Minghui Qiu、Yaliang Li 等
论文链接：https://arxiv.org/pdf/2101.08106.pdf

摘要： 通过在下游 NLP 任务上的微调，BERT、XLNet 和 RoBERTa 等预训练语言模型已经展示出了卓越的性能。但是，这些模型中的大量参数导致储存和计算成本过高，从而对模型在资源受限应用场景中的部署造成负担。典型的解决方案是采用知识蒸馏（knowledge distillation, KD）来降低储存计算成本并加速推理过程。KD 的基本思路是将大型 BERT 模型压缩为小型学生模型，同时保留教师模型的知识。然而，对于稀疏训练数据的目标领域而言，教师模型很难将有用的知识传递给学生模型，导致学生模型性能下降。

这时，数据增强（data augmentation, DA）成为处理数据稀疏问题的常用策略，该策略基于标注训练集生成新数据，进而增强目标数据。但是，学界没有出现很多用于 BERT 知识蒸馏的高效数据增强方法。当前蒸馏增强方法往往手动设计，诸如基于同义词替换的 thesaurus 方法、利用聚合关系的单词替换或大型语言模型的预测方法。这类增强方法的预训练不仅耗时，还很难找到有益于知识蒸馏的最优方案。设计一种自动增强数据稀疏领域中有用数据的高效策略仍是一项具有挑战性的任务。

在阿里巴巴等机构合作的这篇被 AAAI 2021 接收的论文《Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation 》中，研究者们提出了 一种跨域自动数据增强方法来为数据稀缺领域进行扩充，并在多个不同的任务上显著优于最新的基准 。

本文提出的 Learning to Augment (L2A) 方法示意图。

Learning to Augment (L2A) 算法。

与其他模型的比较。

推荐： 基于跨领域数据增强的 BERT 模型蒸馏技术。

论文 5：GAN Inversion: A Survey

作者：Weihao Xia, Yulun Zhang, Yujiu Yang 等
论文链接：https://arxiv.org/pdf/2101.05278.pdf

摘要： GAN 反转（inversion）旨在将给定图像逆映射到预训练好的 GAN 模型的潜在空间，以便由生成器基于反代码忠实地重建图像。作为一种新兴的连接真假图像领域的技术，GAN 逆映射在使 StyleGAN 和 BigGAN 等预训练好的 GAN 模型用于真实图像编辑应用中起着至关重要的作用。同时，GAN 反转也为 GAN 潜在空间的解读以及如何生成逼真图像提供了思路。在本文中，来自 清华大学深圳国际研究生院和美国东北大学等机构的研究者对 GAN 反转进行了概述，并重点介绍了最近的算法和应用 。论文涵盖了 GAN 反转的重要技术及其在图像恢复和处理中的应用。研究者最后进一步阐述了未来的一些发展趋势和挑战。

GAN 反转图示。

GAN 反转方法图示。

GAN 反转方法特征。

推荐： 一篇非常详细的 GAN 反转研究综述。

论文 6：What are the most important statistical ideas of the past 50 years?

作者：Andrew Gelman、Aki Vehtari
论文链接：https://arxiv.org/pdf/2012.00174.pdf

摘要： 近日，哥伦比亚大学和阿尔托大学的两位知名统计学研究者撰文总结了 过去 50 年最重要的统计学思想 ，包括反事实因果推理、bootstrapping 和基于模拟的推理、过参数化模型和正则化、多层次模型、通用计算算法、自适应决策分析、鲁棒性推理和探索性数据分析。除了详细描述这些统计学思想的具体概念和发展历程，研究者还概述了它们之间的共同特征、它们与现代计算和大数据之间的关系以及它们在未来如何发展和扩展。研究者表示，本文旨在激发人们对统计学和数据科学研究中更大主题的思考和讨论。

图灵奖得主、贝叶斯网络之父 Judea Pearl 表示：「这篇论文将因果推理列入了统计学思想之一，与芝加哥大学统计系教授 Stephen Stigler 所著《统计学七支柱》中的观点截然不同。」

本文作者：哥伦比亚大学统计学与政治学教授 Andrew Gelman（左）和阿尔托大学计算概率建模副教授 Aki Vehtari（右）。

推荐： 过去 50 年最重要的统计学思想。

论文 7：Survey on Adversarial Sample of Deep Learning Towards Natural Language Processing

作者：TONG Xin、WANG Bin-jun、WANG Run-zheng、PAN Xiao-qin
论文链接：http://www.jsjkx.com/CN/10.11896/jsjkx.200500078

摘要： 深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击，但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然语言处理模型的安全问题。针对自然语言处理领域同样面临对抗样本的风险, 在阐明对抗样本相关概念的基础上，文中首先对基于深度学习的自然语言处理模型的复杂结构、难以探知的训练过程和朴素的基本原理等脆弱性成因进行分析，进一步阐述了文本对抗样本的特点、分类和评价指标，并对该领域对抗技术涉及到的典型任务和数据集进行了阐述；然后按照扰动级别对主流的字、词、句和多级扰动组合的文本对抗样本生成技术进行了梳理，并对相关防御方法进行了归纳总结；最后对目前自然语言处理对抗样本领域攻防双方存在的痛点问题进行了进一步的讨论和展望。

对抗样本的分类。

NLP 对抗样本生成方法汇总。

DISP 的防御框架。

推荐： 本文发表在了《计算机科学》期刊上。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Can a Fruit Fly Learn Word Embeddings?. (from Mohammed J. Zaki)

2. Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach. (from David C. Atkins)

3. Content Selection Network for Document-grounded Retrieval-based Chatbots. (from Kun Zhou)

4. Empirical Evaluation of Supervision Signals for Style Transfer Models. (from Iryna Gurevych)

5. UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data. (from Furu Wei)

6. Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval. (from Simone Paolo Ponzetto)

7. Divide and Conquer: An Ensemble Approach for Hostile Post Detection in Hindi. (from Pushpak Bhattacharyya)

8. Can Taxonomy Help? Improving Semantic Question Matching using Question Taxonomy. (from Pushpak Bhattacharyya)

9. Situation and Behavior Understanding by Trope Detection on Films. (from Winston H. Hsu)

10. Word Alignment by Fine-tuning Embeddings on Parallel Corpora. (from Graham Neubig)

本周 10 篇 CV 精选论文是：

1. Pre-training without Natural Images. (from Yutaka Satoh)

2. Joint Learning of 3D Shape Retrieval and Deformation. (from Leonidas Guibas)

3. ArtEmis: Affective Language for Visual Art. (from Leonidas Guibas)

4. Deep Feedback Inverse Problem Solver. (from Antonio Torralba, Raquel Urtasun)

5. TCLR: Temporal Contrastive Learning for Video Representation. (from Rohit Gupta, Mubarak Shah)

6. Hybrid Trilinear and Bilinear Programming for Aligning Partially Overlapping Point Sets. (from Wangmeng Zuo, Lei Zhang)

7. CAA : Channelized Axial Attention for Semantic Segmentation. (from Dacheng Tao)

8. Fast Convergence of DETR with Spatially Modulated Co-Attention. (from Xiaogang Wang)

9. Focal and Efficient IOU Loss for Accurate Bounding Box Regression. (from Liang Wang, Tieniu Tan)

10. Using Shape to Categorize: Low-Shot Learning with an Explicit Shape Bias. (from James M. Rehg)

本周 10 篇 ML 精选论文是：

1. Dynamic Planning of Bicycle Stations in Dockless Public Bicycle-sharing System Using Gated Graph Neural Network. (from Philip S. Yu)

2. Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs. (from Philip S. Yu)

3. Momentum^2 Teacher: Momentum Teacher with Momentum Statistics for Self-Supervised Learning. (from Jian Sun)

4. Inductive Representation Learning in Temporal Networks via Causal Anonymous Walks. (from Jure Leskovec)

5. Ensemble manifold based regularized multi-modal graph convolutional network for cognitive ability prediction. (from Vince D. Calhoun)

6. LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning. (from Jimmy Ba)

7. Collaborative Teacher-Student Learning via Multiple Knowledge Transfer. (from Dacheng Tao)

8. Scaling the Convex Barrier with Active Sets. (from Philip H.S. Torr)

9. DiffPD: Differentiable Projective Dynamics with Contact. (from Daniela Rus, Wojciech Matusik)

10. Continual Deterioration Prediction for Hospitalized COVID-19 Patients. (from Jaideep Srivastava)

登录查看更多

相关内容

ImageNet (数据集)

关注 22

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别; [2]一个典型的类别，如“气球”或“草莓”，包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得;但是，实际的图像不属于ImageNet。自2010年以来，ImageNet项目每年举办一次软件比赛，即ImageNet大规模视觉识别挑战赛（ILSVRC），软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破，被广泛认为是2010年的深度学习革命的开始。

深度学习赋能的恶意代码攻防研究进展

专知会员服务

30+阅读 · 2021年4月11日

最新《图像分类对抗机器学习》综述论文，35页pdf

专知会员服务

65+阅读 · 2020年9月10日

深度学习理论与架构最新进展综述论文，66页pdf，333篇参考文献

专知会员服务

85+阅读 · 2020年8月28日

最新《分布式机器学习》论文综述最新DML进展，33页pdf

专知会员服务

121+阅读 · 2019年12月26日