7 Papers & Radios | 进一步「压榨」ResNet性能；挑战ViT、MLP-Mixer的简单模型

会员服务 ·

7 Papers & Radios | 进一步「压榨」ResNet性能；挑战ViT、MLP-Mixer的简单模型

2021 年 10 月 10 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周论文主要包括挑战 ViT、MLP-Mixer 的简单模型 ConvMixer 以及独立研究者 Ross Wightman 以及 Facebook AI、索邦大学的两位研究者对 2015 年何恺明提出的 ResNet 的潜力的压榨。

目录：

Patches Are All You Need?
LibFewShot: A Comprehensive Library for Few-shot Learning
MT-ORL: Multi-Task Occlusion Relationship Learning
ResNet strikes back: An improved training procedure in timm
Binary Complex Neural Network Acceleration on FPGA
3D Face Recognition: A Survey
MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Patches Are All You Need?

作者：未公开
论文链接：https://openreview.net/pdf?id=TVHS5Y4dNvM

摘要： ViT（Vision Transformer）等视觉模型的强大性能，是来自于 Transformer，还是被忽略的 patch？有研究者提出了简单 ConvMixer 模型进行证明，直接将 patch 作为输入，实验表明，ConvMixer 性能优于 ResNet 等经典视觉模型，并且在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。

ConvMixer 由一个 patch 嵌入层和一个简单的全卷积块的重复应用组成。

主要比较结果。

推荐： patch 成为了 ALL You Need？挑战 ViT、MLP-Mixer 的简单模型来了。

论文 2：LibFewShot: A Comprehensive Library for Few-shot Learning

作者：Wenbin Li、Chuanqi Dong、Pinzhuo Tian 等
论文链接：https://arxiv.org/abs/2109.04898

摘要： 近日，南京大学推理与学习研究组（Reasoning and Learning Research Group, R&L Group）联合澳大利亚伍伦贡大学、美国罗彻斯特大学开源了一个小样本学习算法库 LibFewShot。该库包含了 17 个 2017 年到 2020 年具有代表性的小样本学习算法，为小样本学习领域中算法对比采用统一框架、统一设置、实现公平对比等提供便利。

小样本学习方法分类，(a) 基于微调的方法；(b) 基于元学习的方法；(c) 基于度量的方法。

LibFewShot 实现了 17 个具有代表性的算法，从上到下依次是基于微调的方法、基于元学习的方法和基于度量的方法。

推荐： 基于 PyTorch，集合 17 种方法，南京大学等提出小样本算法库 LibFewShot。

论文 3：MT-ORL: Multi-Task Occlusion Relationship Learning

作者：Panhe Feng、Qi She、Lei Zhu 等
论文链接：https://arxiv.org/pdf/2108.05722.pdf

摘要： 从现实世界中的 3D 场景拍摄得到 2D 图片时，会不可避免地产生「遮挡」，即距离相机近的物体会挡住后面的物体，使其部分不可见。如何从一张单目图像中识别遮挡并同时推理出物体间遮挡与被遮挡的关系？这个任务被称为遮挡关系推理（Occlusion relationship reasoning）。由于图像边界的稀疏性，检索单目图像中物体之间的遮挡关系具有挑战性。研究人员观察到，现有工作中存在两个关键问题：1）缺乏可以利用解码器阶段两个子任务遮挡边界提取和遮挡方向预测之间有限耦合量的架构；2）遮挡方向的不正确表示。

为了解决第一个问题，来自北京邮电大学和字节跳动视觉技术团队的研究者们提出了一种被称为遮挡共享和路径分离网络（OPNet）的网络结构，它通过利用共享 high-level 特征中的丰富遮挡线索和特定任务的 low-level 特征中的结构化空间信息来解决该问题。为了解决第二个问题，研究者又提出了用于预测遮挡方向的正交遮挡表示法（OOR）。该方法在标准 PIOD / BSDS ownership 数据集上以 6.1%/8.3% Boundary-AP 和 6.5%/10% Orientation-AP 超过此前最先进的方法。

本文提出的遮挡共享和路径分离网络。

在 PIOD 和 BSDS ownership 两个数据集上评估了模型和方法的有效性。

推荐： 照片中的遮挡关系如何判断？北邮、字节跳动新方法刷新 SOTA。

论文 4：ResNet strikes back: An improved training procedure in timm

作者：Ross Wightman、Hugo Touvron、Herve Jegou
论文链接：https://arxiv.org/pdf/2110.00476.pdf

摘要： 在计算机视觉领域，何恺明等人 2015 年提出的 ResNet（deep residual network，深度残差网络）一直被视为经典架构，它解决了深度 CNN 模型难训练的问题，是 CNN 图像史上的一个里程碑之作。自提出以来，ResNet 系列模型一直被用作研究中的默认架构，或者新模型提出时用来对比的基线。然而，在过去的几年里，神经网络训练方面的最佳实践已经取得了很大进展。新颖的优化、数据增强等方法提高了训练流程的有效性。在这篇论文中，独立研究者 Ross Wightman 以及 Facebook AI、索邦大学的两位研究者重新评估了普通 ResNet-50 在加入上述训练进展之后所能达到的性能。

3 种训练流程的资源使用情况和 top-1 准确率结果。

研究者记录了使用本文提出的训练流程训练其他架构时的效果，以测试这些训练流程在其他模型上的泛化能力。

推荐： 2015 年的 ResNet 潜力都挖掘出来了吗？新研究：不用蒸馏、无额外数据，性能还能涨一波。

论文 5：Binary Complex Neural Network Acceleration on FPGA

作者：Hongwu Peng、Shanglin Zhou、Scott Weitze 等
论文链接：https://arxiv.org/pdf/2108.04811v1.pdf

摘要： 对于许多信号处理应用来说，能够从具有相位信息的复数数据中进行学习是必不可少的。当前实值深度神经网络（DNN）在潜在信息分析方面表现出了较高的效率，但在复数领域的应用还不够。而深度复数网络（Deep complex networks, DCN）可以从复数数据中学习，但计算成本较高，因此，这些技术都不能满足可部署系统处理短观测或短信号突发的即时决策需求。近年来，将 DCN 与二值化神经网络（BNN）相结合的二值化复数神经网络（BCNN），在实时分类复数数据方面显示出巨大潜力。本文中，来自康涅狄格大学、斯蒂文斯理工学院等机构的研究者提出了一种基于结构剪枝的 BCNN 加速器，它能够在边缘设备上提供超过 5000 帧 / 秒的推理吞吐量。

CNN 与 BCNN 的比较。

复数输入生成过程。

推荐： FPGA 加速 BCNN，模型 20 倍剪枝率、边缘设备超 5000 帧 / 秒推理吞吐量。

论文 6：3D Face Recognition: A Survey

作者：Yaping Jing、Xuequan Lu、Shang Gao
论文链接：https://arxiv.org/pdf/2108.11082v1.pdf

摘要： 近年来，人脸识别的研究已经转向使用 3D 人脸表面，因为 3D 几何信息可以表征更多的鉴别特征。近日，澳大利亚迪肯大学的三位研究者回顾了过去十年发展起来的 3D 人脸识别技术，总体上分为常规方法和深度学习方法。该调查通过代表性研究的详细描述来对各类技术进行评估，其中将技术的优缺点总结为对面部变化（表情、姿态和遮挡等）的准确性、复杂性和稳健性。该调查全面涵盖了 3D 人脸识别的常规方法和深度学习方法，并阐明了可用的 3D 人脸数据库和未来的研究挑战与方向。

3D 人脸识别技术可以分为两类：传统方法和基于深度学习的方法。

当前突出的 3D 人脸数据库，并比较了数据格式、身份数量、图像变化（例如表情、姿势和遮挡）和扫描仪设备。

推荐： 一文读懂 3D 人脸识别十年发展及未来趋势。

论文 7：MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis

作者：Jiaxin Li、Zijian Feng、Qi She 等
论文链接：https://arxiv.org/pdf/2103.14910.pdf

摘要： 来自字节跳动视觉技术团队的研究者将 NeRF 和 Multiplane Image（MPI）结合，提出了一种新的三维空间表达方式 MINE。该方法通过对单张图片做三维重建，

该团队采用一个 encoder-decoder 的结构来生成三维表达。

MINE 可以利用 structure-from-motion 计算的相机参数与点云进行场景的学习，在这种情况下，深度是 ambiguous 的。

推荐： 字节跳动利用单张图片做三维重建：将 NeRF、MPI 结合，提出 MINE。论文入选 ICCV 2021。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. ContractNLI: A Dataset for Document-level Natural Language Inference for Contracts. (from Christopher D. Manning)

2. Investigating Robustness of Dialog Models to Popular Figurative Language Constructs. (from Eduard Hovy)

3. Expected Validation Performance and Estimation of a Random Variable's Maximum. (from Noah A. Smith)

4. ABC: Attention with Bounded-memory Control. (from Noah A. Smith)

5. A Survey of Knowledge Enhanced Pre-trained Models. (from Jian Yang)

6. Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset. (from Ido Dagan)

7. Sentiment and structure in word co-occurrence networks on Twitter. (from Peter Sheridan Dodds)

8. Teach Me What to Say and I Will Learn What to Pick: Unsupervised Knowledge Selection Through Response Generation with Pretrained Generative Models. (from Walter Daelemans)

9. Structured abbreviation expansion in context. (from Richard Sproat)

10. How BPE Affects Memorization in Transformers. (from Marco Baroni)

本周 10 篇 CV 精选论文是：

1. Spatial Context Awareness for Unsupervised Change Detection in Optical Satellite Images. (from Bernhard Schölkopf)

2. Keypoint Communities. (from Sven Kreiss)

3. Scaling up instance annotation via label propagation. (from Antonio Torralba)

4. Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions. (from Antonio Torralba, Josef Sivic)

5. Burst Image Restoration and Enhancement. (from Ming-Hsuan Yang)

6. Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images. (from Alan Yuille)

7. See Yourself in Others: Attending Multiple Tasks for Own Failure Detection. (from Roland Siegwart)

8. Video Autoencoder: self-supervised disentanglement of static 3D structure and motion. (from Alexei A. Efros)

9. SPEC: Seeing People in the Wild with an Estimated Camera. (from Otmar Hilliges, Michael J. Black)

10. Learning to Regress Bodies from Images using Differentiable Semantic Rendering. (from Michael J. Black)

本周 10 篇 ML 精选论文是：

1. Learn then Test: Calibrating Predictive Algorithms to Achieve Risk Control. (from Michael I. Jordan)

2. Boxhead: A Dataset for Learning Hierarchical Representations. (from Bernhard Schölkopf)

3. Deep Fraud Detection on Non-attributed Graph. (from Philip S. Yu)

4. Cross-Domain Imitation Learning via Optimal Transport. (from Stuart Russell)

5. Mismatched No More: Joint Model-Policy Optimization for Model-Based RL. (from Sergey Levine, Ruslan Salakhutdinov)

6. The Information Geometry of Unsupervised Reinforcement Learning. (from Ruslan Salakhutdinov, Sergey Levine)

7. Federating for Learning Group Fair Models. (from Guillermo Sapiro)

8. A Theoretical Overview of Neural Contraction Metrics for Learning-based Control with Guaranteed Stability. (from Jean-Jacques Slotine)

9. Contraction Theory for Nonlinear Stability Analysis and Learning-based Control: A Tutorial Overview. (from Jean-Jacques Slotine)

10. When is the Convergence Time of Langevin Algorithms Dimension Independent? A Composite Optimization Viewpoint. (from Yoav Freund, Tong Zhang)

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

ConvMixer

关注 0

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ICML2021】探索图像分类的视觉概念形成

专知会员服务

22+阅读 · 2021年8月23日

2021机器学习研究风向是啥？MLP→CNN→Transformer→MLP！

专知会员服务

67+阅读 · 2021年5月23日

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【ICLR2021】面向词替换攻击的对抗训练方法

专知会员服务

21+阅读 · 2021年2月7日

「紫禁之巅」四大图神经网络架构

图与推荐

3+阅读 · 2020年3月22日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

计算机视觉life

6+阅读 · 2019年3月25日

各种NLP操作难实现？谷歌开源序列建模框架Lingvo

机器之心

4+阅读 · 2019年2月26日

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

机器之心

5+阅读 · 2018年5月21日

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

Arxiv

12+阅读 · 2021年8月30日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

A Survey on Edge Computing Systems and Tools

Arxiv

36+阅读 · 2019年11月7日

The Book of Why: Review

Arxiv

15+阅读 · 2019年9月30日

Streamlined Dense Video Captioning

Arxiv

7+阅读 · 2019年4月8日

VIP会员