2021->2022必看的十篇「深度学习领域综述」论文

2022 年 1 月 1 日 专知

【导读】2020注定是写入到历史的一年，新冠变成主题词。在2021年机器学习领域继续快速发展，深度学习理论、注意力机制、Transformer、复杂性等取得很多进展。在此，专知小编整理这一年这些研究热点主题的综述进展，共十篇，了解当下，方能向前。

1、周志华教授：关于深度学习的一点思考

周志华教授：关于深度学习的一点思考

作者：周志华

摘要：深度学习已被广泛应用到涉及图像、视频、语音等的诸多任务中并取得巨大成功。如果我们问“深度学习是什么？”很可能会得到这样的回答：“深度学习就是深度神经网络”。至少在目前，当“深度学习”作为一个术语时几乎就是“深度神经网络”的同义词，而当它指向一个技术领域时则如 SIAM News 头版文章所称[1]，是“机器学习中使用深度神经网络的子领域”。关于深度学习有很多问题还不清楚。例如深度神经网络为什么要“深”？它成功背后的关键因素是什么？深度学习只能是深度神经网络吗？本文将分享一些我们关于深度学习的粗浅思考。

网址：

https://mp.weixin.qq.com/s/yKzMxJ2pwwLYSO8ry0sJIQ

2、Attention Mechanisms in Computer Vision: A Survey（注意力机制）

作者: Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu

摘要：人类可以自然有效地在复杂的场景中找到显著区域。在这种观察的推动下，注意力机制被引入到计算机视觉中，目的是模仿人类视觉系统的这方面。这种注意力机制可以看作是一个基于输入图像特征的动态权值调整过程。注意力机制在图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习等视觉任务中取得了巨大的成功。本文综述了计算机视觉中的各种注意力机制，并对其进行了分类，如通道注意力、空间注意力、时间注意力和分支注意力; 相关的存储库https://github.com/MenghaoGuo/Awesome-Vision-Attentions专门用于收集相关的工作。本文还提出了注意机力制研究的未来方向。

网址：

https://www.zhuanzhi.ai/paper/2329d809f32ca0840bd93429d1cef0fe

3、Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges（几何深度学习）

几何深度学习是一种从对称性和不变性的角度对大量ML问题进行几何统一的尝试。这些原理不仅奠定了卷积神经网络的突破性性能和最近成功的图神经网络的基础，而且也提供了一种原则性的方法来构建新型的问题特定的归纳偏差。

在本文中，我们做了一个适度的尝试，将Erlangen项目的思维模式应用到深度学习领域，最终目标是获得该领域的系统化和“连接点”。我们将这种几何化尝试称为“几何深度学习”，并忠实于Felix Klein的精神，提出从对称性和不变性的原则推导出不同的归纳偏差和网络架构。特别地，我们将重点放在一类用于分析非结构集、网格、图和流形的神经网络上，并表明它们可以被统一地理解为对应这些域的结构和对称性的方法。

我们相信这篇文章将吸引深度学习研究人员、实践者和爱好者的广泛受众。新手可以用它来概述和介绍几何深度学习。经验丰富的深度学习专家可能会发现从基本原理推导熟悉架构的新方法，也许还会发现一些令人惊讶的联系。实践者可以获得如何解决各自领域问题的新见解。

一些重要论述：

我们研究了流行的深度学习架构(CNNs, GNNs, transformer, LSTMs)的本质，并意识到，只要有一组合适的对称，我们就可以等价它们，它们都可以用一个通用的几何框架来表达。

更进一步，我们在一些不太标准的领域(如同质群和流形)上使用了我们的框架，这表明框架可以很好地表达这些领域的最新进展，如球形CNN, SO(3)-变换器，和规范-等变网格CNNs。

几何深度学习的“5G”:网格、组(具有全局对称性的齐次空间)、图(以及作为特定情况的集)和流形，其中几何先验通过全局等距不变(可以用测地线表示)和局部规范对称来表现。

https://geometricdeeplearning.com/

网址：

https://www.zhuanzhi.ai/paper/1f6bbac326bd8b7c0c8554acaa169012

4、A Survey of Transformers（Transformer综述论文）

复旦大学邱锡鹏教授等「Transformers全面综述」论文

作者：Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu

摘要：Transformers 在自然语言处理、计算机视觉和音频处理等许多人工智能领域都取得了巨大的成功。因此，自然会引起学术界和工业界研究人员的极大兴趣。到目前为止，各种各样的Transformer变种(即X-formers)已经被提出，但是，关于这些Transformer器变种的系统和全面的文献综述仍然缺乏。在这项综述中，我们提供了一个全面的Transformer综述。我们首先简单介绍了普通的Transformer，然后提出了一个x-former的新分类。接下来，我们将从三个方面介绍不同的x -former架构修改，预训练和应用。最后，展望了未来的研究方向。

网址：

https://www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0

5、Model Complexity of Deep Learning: A Survey（深度学习模型复杂性）

裴健等发布首篇「深度学习模型复杂性」综述论文，44页pdf阐述深度学习模型框架、模型规模、优化过程和数据复杂性

作者：Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian

摘要：

模型复杂性是深度学习的一个基本问题。

本文对深度学习中模型复杂性的最新研究进行了系统的综述。深度学习的模型复杂度可分为表达能力和有效模型复杂度。

从模型框架、模型规模、优化过程和数据复杂性四个方面回顾了现有的研究成果。我们还讨论了深度学习模型复杂性的应用，包括理解模型泛化能力、模型优化、模型选择和设计。

最后，我们提出几个有趣的未来方向。

网址：

https://www.zhuanzhi.ai/paper/f7c683dfd6eb2f07eba0ed31d337345c

6、Towards Out-Of-Distribution Generalization: A Survey（分布外泛化）

作者：Zheyan Shen,Jiashuo Liu,Yue He,Xingxuan Zhang,Renzhe Xu,Han Yu,Peng Cui

摘要：

经典的机器学习方法是建立在i.i.d.假设的基础上的，即训练和测试数据是独立同分布的。然而，在真实场景中，i.i.d.假设很难得到满足，导致经典机器学习算法在分布移位下的性能急剧下降，这表明研究非分布泛化问题的重要性。Out-of-Distribution分布外 (OOD)泛化问题解决了测试分布未知且与训练不同的挑战性设置。本文首次系统、全面地探讨了OOD泛化问题，从定义、方法、评价到启示和未来发展方向。首先，给出了OOD泛化问题的形式化定义。其次，根据现有方法在整个学习流程中的位置，将其分为无监督表示学习、有监督模型学习与优化三部分，并详细讨论了每一类的典型方法。然后，我们展示了不同类别的理论联系，并介绍了常用的数据集和评价指标。最后，对全文文献进行了总结，并对OOD泛化问题提出了未来的研究方向。本次综述OOD泛化文献可在http://out-of-distribution-generalization.com上找到。

网址：

https://www.zhuanzhi.ai/paper/ba690c59e0f80fc34e779b1daa769988

7、Deep Long-Tailed Learning: A Survey（深度长尾学习）

NUS颜水成等发布首篇《深度长尾学习》综述，20页pdf172篇文献阐述长尾类别深度学习进展

作者：Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng

摘要：深度长尾学习是视觉识别中最具挑战性的问题之一，其目标是从大量遵循长尾类分布的图像中训练出性能良好的深度模型。在过去的十年中，深度学习已经成为一种学习高质量图像表示的强大的识别模型，并导致了一般视觉识别的显著突破。然而，长尾类不平衡是实际视觉识别任务中普遍存在的问题，这种不平衡往往限制了基于深度网络的识别模型在实际应用中的实用性，因为长尾类容易偏向主导类，在尾类上的表现较差。为了解决这一问题，近年来人们进行了大量的研究，在深度长尾学习领域取得了可喜的进展。鉴于该领域的快速发展，本文对深度长尾学习的最新进展进行了综述。具体地说，我们将已有的深度长尾学习研究分为三类(即类重平衡、信息增强和模块改进)，并根据这三类对这些方法进行了详细的回顾。之后，我们通过一种新提出的评价指标，即相对准确性，来评估它们在多大程度上解决了阶级失衡问题，从而对几种最先进的方法进行了实证分析。最后，我们强调了深度长尾学习的重要应用，并确定了未来研究的几个有前景的方向。

网址：

https://www.zhuanzhi.ai/paper/195ac6db0eea180eb9d5b5ef8f4ab0f4

8、Trustworthy AI: From Principles to Practices（可信人工智能）

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

作者：Bo Li,Peng Qi,Bo Liu,Shuai Di,Jingen Liu,Jiquan Pei,Jinfeng Yi,Bowen Zhou

摘要：

人工智能(AI)技术的发展使各种应用系统得以应用于现实世界，影响着人们的日常生活。然而，目前很多人工智能系统被发现容易受到无形的攻击，对弱势群体存在偏见，缺乏对用户隐私的保护等，这不仅降低了用户体验，也侵蚀了社会对所有人工智能系统的信任。在这篇综述中，我们努力为人工智能从业者提供一个全面的指南，以构建可信赖的人工智能系统。我们首先介绍了人工智能可信度的重要方面的理论框架，包括稳健性、泛化性、可解释性、透明度、再现性、公平性、隐私保护、与人类价值观的一致性和问责性。然后我们调研了行业中在这些方面的领先方法。为了统一目前零散的人工智能方法，我们提出了一种系统的方法，考虑人工智能系统的整个生命周期，从数据采集到模型开发，到开发和部署，最后到持续监测和治理。在这个框架中，我们向从业者和社会利益相关者(如研究人员和监管机构)提供具体的行动项目，以提高人工智能的可信度。最后，我们确定可信赖的人工智能系统未来发展的关键机遇和挑战，我们确定需要向全面可信赖的人工智能系统转变范式。

网址：

https://www.zhuanzhi.ai/paper/00386996069b8168827d03f0c809a462

9、Masked Autoencoders Are Scalable Vision Learners（简单实用的自监督学习掩码自编码MAE）

作者：Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollár,Ross Girshick

摘要：

何恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计：

我们设计了一种非对称编解码架构，其中编码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；
我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。

上述两种设计促使我们可以更高效的训练大模型：我们加速训练达3x甚至更多，同时提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能：仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度 。下游任务的迁移取得了优于监督训练的性能，证实了所提方案的可扩展能力。

网址：

https://www.zhuanzhi.ai/paper/1dbb3e8f5e16dc9a048a02ceee8eb617

10、徐宗本院士谈人工智能的10个重大数理基础问题

徐宗本院士：人工智能的10个重大数理基础问题

作为新一代信息技术的代表，人工智能已经广泛应用于科学、社会、经济、管理的方方面面，已经和正在成为创新驱动发展的核心驱动力之一。然而，就其技术发展而言，人工智能还只是突破了从“不可用” 到“可以用”的技术拐点，从“可以用”到“很好用” “用得好”还存在诸多技术瓶颈，正呼唤重大技术变革。

技术变革的先导是理论创新，即基础研究。它是指对事物本质和规律的科学化探寻和揭示，是启发、促动技术变革的激发源和理论依据。理论创新既应包括对原有理论体系或框架的新突破、对原有理论和方法的新修正和新发展，也包括对理论禁区和未知领域的新探索。

本文主要关注人工智能技术发展当前亟待解决的重大数理基础问题。为什么要特别关注 AI 的数理基础问题呢？这是因为当前人工智能技术和发展主要是靠“算例、算法、算力”所驱动的，其基础是数据，其核心是算法，这二者都深刻地以数学为基础。数学主要提供对所研究问题的形式化手段、模型化工具和科学化语言。没有形式化就没有程式化和计算机化，没有模型化就没有定量化和知识化，没有科学化就没有系统化和现代化。所以，数学在科学技术中具有独特的作用和价值。对人工智能而言，数学不仅仅是工具，还是技术内涵本身，而且常常也是最能体现本质、原始创新的部分。

本文提出并阐述人工智能研究与应用中凾待解决的10个重大数理基础问题，包括: