7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

会员服务 ·

7 Papers | 谷歌开源V-MoE代码；FAIR等纯卷积ConvNet，反超Transformer

2022 年 1 月 16 日 机器之心

机器之心

参与：杜伟

本周论文包括 MIT 科学家制造了量子龙卷风；谷歌开源了史上最大视觉模型 V-MoE 的全部代码等。

Obfuscation Revealed: Leveraging Electromagnetic Signals for Obfuscated Malware Classification
Crystallization of bosonic quantum Hall states in a rotating quantum gas
Scaling Vision with Sparse Mixture of Experts
A ConvNet for the 2020s
Analytical, Statistical Approximate Solution of Dissipative and Nondissipative Binary-Single Stellar Encounters
Thirty-six entangled officers of Euler: Quantum solution to a classically impossible problem
Face detection in untrained deep neural networks

论文 1：Obfuscation Revealed: Leveraging Electromagnetic Signals for Obfuscated Malware Classification

作者：Duy-Phuc Pham, Damien Marion, Mathieu Mastio, Annelie Heuser
论文链接：https://hal.archives-ouvertes.fr/hal-03374399/document

摘要： 来自法国计算机科学与随机系统研究所的研究团队创建了一个以树莓派为中心的反恶意软件系统，该系统可以扫描设备中的电磁波来检测恶意软件。

该安全设备使用示波器 (Picoscope 6407) 和连接到 Raspberry Pi 2B 的 H-Field 探头来检测受到攻击的计算机发出的特定电磁波中的异常情况。研究人员称使用了这种技术「获得有关恶意软件类型和身份的准确信息。」然后，检测系统依靠卷积神经网络 (CNN) 来确定收集的数据是否表明存在威胁。凭借这种技术，研究人员声称他们可以记录被真正恶意软件样本感染的物联网设备的 100000 条测量轨迹，并以高达 99.82% 的准确率预测了三种通用和一种良性恶意软件的类别。最重要的是，这种检测技术并不需要任何软件，正在被扫描的设备也不需要以任何方式进行操作。因此，攻击方尝试使用混淆技术隐藏恶意代码是不可行的。

团队提出了一个恶意软件的分类框架，该框架以可执行文件作为输入，仅依靠电磁波侧信道信息输出其预测标签。

图 1 展示了该工作流：首先，研究者定义了威胁模型，当恶意软件在目标设备上运行时，收集电磁波发射信息。他们搭建了一个基础设施，能够运行恶意软件与一个现实的用户环境，同时防止感染主机控制器系统。然后，由于采集的数据非常嘈杂，需要进行预处理步骤来隔离相关的信息信号。最后，使用这个输出，研究者训练了神经网络模型和机器学习算法，以便分类恶意软件类型、二进制文件、混淆方法，并检测一个可执行文件是否打包。

推荐： 杀毒软件直接扫描电磁波，查木马准确率 99.82%

论文 2：Crystallization of bosonic quantum Hall states in a rotating quantum gas

作者：Biswaroop Mukherjee, Airlia Shaffer, Parth B. Patel 等
论文链接：https://www.nature.com/articles/s41586-021-04170-2

摘要： 最近，MIT 的一份相关研究登上了《自然》杂志。在这项研究中，作者首先把「玻色—爱因斯坦凝聚态」拉伸成细长条状，然后旋转这根细条直至细条破裂。这些操作得到的结果是一系列子涡旋，每一个子涡旋都是母涡旋的迷你版。

这些旋转的量子云（量子龙卷风）让人回想起我们所熟悉的经典世界中的现象，比如开尔文 - 亥姆霍兹云，它看起来像周期性重复的锯齿状卡通波浪。

然而，制造量子云涡旋的条件非常苛刻，需要很多的实验室设备，还要减少大气风切变。MIT 物理学教授 Martin Zwierlein 说：「我们从玻色 - 爱因斯坦凝聚态开始，100 万个钠原子共享一个相同的量子力学波函数。」

在特定的旋转速度下，量子气体分裂成小云团。「它会产生一些有趣的波动——我们称之为薄片（flaky），然后变得更加极端。我们看到这种气体是如何在一串液滴中「结晶」的——最后一张照片中有八个液滴。

这种量子龙卷风传感器还可以测量地球自转的微小变化，或许我们可以通过它来了解地球核心是如何影响事物的。MIT 科学家已经打开了新世界的大门，但还没有完全打开。目前可以确认的是那些小龙卷风仍然是玻色 - 爱因斯坦凝聚体，因为即使是最小的龙卷风每个仍然有大约 10 个原子。

推荐： MIT 科学家制造了量子龙卷风。

论文 3：Scaling Vision with Sparse Mixture of Experts

作者：Carlos Riquelme 、 Joan Puigcerver 、 Basil Mustafa 等
论文链接：https://arxiv.org/pdf/2106.05974.pdf

摘要： 稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而，在计算机视觉中，几乎所有的高性能网络都是密集的，也就是说，每个输入都会转化为参数进行处理。

去年 6 月，来自谷歌大脑的研究者提出了 V-MoE（Vision MoE ），这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时，V-MoE 在推理时只需要一半的计算量，就能达到先进网络性能。此外，该研究还提出了对路由算法的扩展，该算法可以在整个 batch 中对每个输入的子集进行优先级排序，从而实现自适应图像计算。这允许 V-MoE 在测试时能够权衡性能和平滑计算。最后，该研究展示了 V-MoE 扩展视觉模型的潜力，并训练了一个在 ImageNet 上达到 90.35% 的 150 亿参数模型。

稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而，在计算机视觉中，几乎所有的高性能网络都是密集的，也就是说，每个输入都会转化为参数进行处理。去年 6 月，来自谷歌大脑的研究者提出了 V-MoE（Vision MoE ），这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时，V-MoE 在推理时只需要一半的计算量，就能达到先进网络性能。此外，该研究还提出了对路由算法的扩展，该算法可以在整个 batch 中对每个输入的子集进行优先级排序，从而实现自适应图像计算。这允许 V-MoE 在测试时能够权衡性能和平滑计算。最后，该研究展示了 V-MoE 扩展视觉模型的潜力，并训练了一个在 ImageNet 上达到 90.35% 的 150 亿参数模型。

ViT 已被证明在迁移学习设置中具有良好的扩展性，在较少的预训练计算下，比 CNN 获得更高的准确率。ViT 将图像处理为一系列 patch，输入图像首先被分成大小相等的 patch，这些 patch 被线性投影到 Transformer 的隐藏层，在位置嵌入后，patch 嵌入（token）由 Transformer 进行处理，该 Transformer 主要由交替的自注意力和 MLP 层组成。MLP 有两个层和一个 GeLU 非线性。对于 Vision MoE，该研究用 MoE 层替换其中的一个子集，其中每个专家都是一个 MLP，如下图所示：

为了大规模扩展视觉模型，该研究将 ViT 架构中的一些密集前馈层 (FFN) 替换为独立 FFN 的稀疏混合（称之为专家）。可学习的路由层为每个独立的 token 选择对应的专家。也就是说，来自同一图像的不同 token 可能会被路由到不同的专家。在总共 E 位专家（E 通常为 32）中，每个 token 最多只能路由到 K（通常为 1 或 2）位专家。这允许扩展模型的大小，同时保持每个 token 计算的恒定。下图更详细地显示了 V-MoE 编码器块的结构。

推荐： 150 亿参数，谷歌开源了史上最大视觉模型 V-MoE 的全部代码。

论文 4：A ConvNet for the 2020s

作者：谢赛宁、刘壮等
论文链接：https://arxiv.org/pdf/2201.03545.pdf

摘要： 来自 FAIR 、UC 伯克利的研究者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。研究者逐渐将标准 ResNet「升级（modernize」为视觉 Transformer 的设计，并在此过程中发现了导致性能差异的几个关键组件。

研究者将这一系列纯 ConvNet 模型，命名为 ConvNeXt。ConvNeXt 完全由标准 ConvNet 模块构建，在准确性和可扩展性方面 ConvNeXt 取得了与 Transformer 具有竞争力的结果，达到 87.8% ImageNet top-1 准确率，在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer，同时保持标准 ConvNet 的简单性和有效性。

该研究梳理了从 ResNet 到类似于 Transformer 的卷积神经网络的发展轨迹。该研究根据 FLOPs 考虑两种模型大小，一种是 ResNet-50 / Swin-T 机制，其 FLOPs 约为 4.5×10^9，另一种是 ResNet-200 / Swin-B 机制，其 FLOPs 约为 15.0×10^9。为简单起见，该研究使用 ResNet-50 / Swin-T 复杂度模型展示实验结果。为了探究 Swin Transformer 的设计和标准卷积神经网络的简单性，该研究从 ResNet-50 模型出发，首先使用用于训练视觉 Transformer 的类似训练方法对其进行训练，与原始 ResNet-50 相比的结果表明性能获得了很大的提升，并将改进后的结果作为基线。

然后该研究制定了一系列设计决策，总结为 1) 宏观设计，2) ResNeXt，3) 反转瓶颈，4) 卷积核大小，以及 5) 各种逐层微设计。下图 2 展示了「升级网络」每一步的实现过程和结果，所有模型都是在 ImageNet-1K 上进行训练和评估的。由于网络复杂度和最终性能密切相关，因此该研究在探索过程中粗略控制了 FLOPs。

Transformer 中一个重要的设计是创建了反转瓶颈，即 MLP 块的隐藏维度比输入维度宽四倍，如下图 4 所示。

推荐： FAIR 等重新设计纯卷积 ConvNet，性能反超 Transformer。

论文 5：Analytical, Statistical Approximate Solution of Dissipative and Nondissipative Binary-Single Stellar Encounters

作者：Yonadav Barry Ginat 、 Hagai B. Perets
论文链接：https://journals.aps.org/prx/pdf/10.1103/PhysRevX.11.031020

摘要： 当牛顿第一次发现两个物体之间通过引力相互作用时，他就已经破解了物质在广阔时空中移动和相互作用的密码。然而这一发现是关于两个物体之间的相互作用，三个相互环绕的物体之间的相互作用，即「三体问题」，牛顿并未解决。

距离牛顿提出「三体问题」已经过去了三个世纪，但一直没有人能够解决。不过它启发了作家刘慈欣写出科幻作品《三体》。

三体问题是一个混沌系统，这意味着做出任何有意义的预测都需要非常准确地了解三个物体的初始位置，极具挑战性。

在这样的系统中，「蝴蝶效应」变得极其真实，即使是最微小的错误也会导致物体出现与预期完全不同的轨迹。没有方程式能够预测这些物体将如何移动，也没有方法可以确定物体的运动轨迹能否随着时间的推移保持稳定。由于三体问题缺乏解决方案，科学家目前无法预测双星系统（两颗互绕的恒星）与附近的第三颗恒星相撞时会发生什么。做到这一点的唯一方法是对案例进行计算机模拟，并观察三体系统如何随着时间的推移而演变。这些模拟揭示出相互作用发生在两个阶段：首先是一个混沌阶段：三个天体激烈地相互推挤，直到一颗恒星从另外两个中弹出；然后是一个稳定阶段，三个天体的位置形成一个椭圆，彼此围绕。

如果第三颗恒星在束缚轨道（bound orbit）上，它可以重新接近另外两颗恒星，重新进入第一阶段。当其中一颗恒星在第二阶段逃入无限轨道（ infinite orbit）时，这种纠缠才能永远结束。三体问题非常依赖初始条件，意味着其结果基本是随机的，但这并不意味着不能计算每种结果的概率。

最近发表在《Physical Review X》杂志的一项研究中，来自以色列理工学院的 Yonadav Barry Ginat 及其导师 Hagai Perets 利用这种不可预测性为该过程的两个阶段提出了一个统计解决方案。他们计算了每个第一阶段接触中任何潜在结果的可能性，而不是预测实际事件。尽管该问题尚未有一个全面的解决方案，但混沌的随机特性允许人们计算三重交互以两种方式之一结束的可能性。

推荐： 把「醉汉游走」引入「三体问题」，以色列学者新思路登上物理学顶刊。

论文 6：Thirty-six entangled officers of Euler: Quantum solution to a classically impossible problem

作者：Suhail Ahmad Rather 、 Adam Burchardt 等
论文链接：https://arxiv.org/pdf/2104.05122.pdf

摘要： 1779 年，瑞士大名鼎鼎的数学家莱昂哈德 · 欧拉（Leonhard Euler）曾提出一个问题：即从不同的 6 个军团（army regiment）各选 6 种不同军阶（rank）的 6 名军官（officers）共 36 人，排成一个 6 行 6 列的方队，使得各行各列的 6 名军官恰好来自不同的军团而且军阶各不相同，应如何排这个方队？历史上称这个问题为「三十六军官问题」。三十六军官问题提出后，很长一段时间没有得到解决。

在提交给《物理评论快报》的一篇论文《 Thirty-six entangled officers of Euler: Quantum solution to a classically impossible problem 》中，来自印度理工学院（马德拉斯理工学院校区）、雅盖隆大学等机构的一组量子物理学家证明，可以以符合欧拉标准的方式安排 36 名军官 ——只要军官可以拥有军阶和军团的量子混合。这是魔方和拉丁方阵的在量子版本的最新研究，这不仅是有趣的游戏，还可以应用于量子通信和量子计算。

研究者必须构建一个量子态军官组成的 6×6 方阵。大量可能的配置和纠缠意味着他们必须借助计算机。因此，研究者插入了一个经典近似解（由 36 名经典军官组成的排列，一行或一列中只有少数军官的军阶和团是重复的），并应用了一种算法，将排列调整为真正的量子解。该算法的工作原理有点像使用蛮力玩魔方，首先固定第一行，然后是第一列、第二列，以此类推。当他们一遍遍地重复该算法时，36 军官方阵谜题越来越接近真正解了。

推荐： 时隔 243 年，欧拉的「三十六军官」排列问题，在量子态中得到解决。

论文 7：Face detection in untrained deep neural networks

作者：Seungdae Baek 、 Min Song 、 Jaeson Jang 等
论文链接：https://www.nature.com/articles/s41467-021-27606-9.pdf

摘要： 近日，韩国科学技术院（KAIST）生物脑工程系教授 Se-Bum Paik 领导的研究小组发现，即使是完全没有经过训练的深度神经网络，也可以产生对面孔图像的视觉选择性。

具体来说，在完全没有学习的情况下，他们在随机初始化的深度神经网络中观察到对面孔图像有选择性的神经元活动，这些活动显示出在生物大脑中观察到的那些特征。这项新研究发表在 12 月份的《自然 · 通讯》杂志上。它为生物和人工神经网络认知功能发展的潜在机制提供了具有启发性的见解，也对我们理解早期大脑功能（感官体验之前）的起源产生了重大影响。

利用捕捉视觉皮层腹侧流（ventral stream）特性的模型神经网络——AlexNet45，研究小组发现，面孔选择性可以在随机初始化的 DNN 的不同条件下稳健地出现。而且，它们的面孔选择性指数（FSI）与那些在大脑中观察到的面孔选择性神经元相当。