7 papers | AI新方法解高数；Ross、何恺明等人渲染思路做图像分割

会员服务 ·

7 papers | AI新方法解高数；Ross、何恺明等人渲染思路做图像分割

2019 年 12 月 22 日 机器之心

机器之心整理

参与：杜伟

本周的论文既有利用定向声波黑掉智能音箱的进一步探索，也有 CMU 杨植麟解决 softmax 的新方法 Mixtape 以及应用 seq2seq 模型解决高数问题的 AI 新方法。

目录：

1. Audio Hotspot Attack: An Attack on Voice Assistance Systems Using Directional Sound Beams and its Feasibility

2. Extreme Classification in Log Memory using Count-Min Sketch: A Case Study of Amazon Search with 50M Products

3. Mixtape: Breaking the Softmax Bottleneck Efficiently

4. Advances and Open Problems in Federated Learning

5. Deep Learning For Symbolic Mathematics

6. PointRend: Image Segmentation as Rendering

7. Analyzing and Improving the Image Quality of StyleGAN

论文 1：Audio Hotspot Attack: An Attack on Voice Assistance Systems Using Directional Sound Beams and its Feasibility

作者：Ryo Iijima、Shota Minami、Yunao Zhou、Tatsuya Mori 等
论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8906174

摘要： 智能音箱近两年走入了很多家庭的生活，成为了娱乐、购物、日程管理、儿童陪伴甚至教育方面的帮手。但是，智能音箱的安全问题也日益受到关注。继今年 11 月份，有研究使用激光黑掉智能音箱后，又有新的破解方法来了。这回直接用定向声波。他们运用了一种名为「音频热点攻击」（Audio Hotspot Attack）的攻击方式，这是一种无声的恶意语音命令攻击，意在干扰智能音箱或车内导航系统等语音辅助系统。与以往利用无声命令攻击不同，这一攻击方法能够：实现远距离攻击（小房间里 3.5 米，长廊里 12 米）；通过使用发射载波和边带波的两种定向声波束来控制听觉区域的位置；在攻击过程中利用空气介质中非线性这一物理现象来攻击语音辅助系统。研究者表示，如果语音命令在特定的距离上连续三次被智能音箱接收，则认为攻击有效。结果显示，小房间 3.5 米距离上的攻击成功率最高，但走廊攻击实验表明，12 米距离上的攻击也是有效的。

Audio Hotspot Attack 的整体架构图。 图上： 利用一个参量扬声器攻击（线性攻击）； 图下： 利用两个参量扬声器攻击（交叉攻击，分别发射载波和边带波）。 其中在黄色区域，人可以听到声音。

攻击所需硬件。

攻击距离（cm）和被唤醒或识别的成功率比较。 噪声 SPL 设置为 60 分贝。

推荐： 如果有一天，你的智能音箱开始胡言乱语、乱下指令，它可能是被黑了，而且黑得悄无声息。

论文 2：Extreme Classification in Log Memory using Count-Min Sketch: A Case Study of Amazon Search with 50M Products

作者：Tharun Medini、Qixuan Huang、Yiqiu Wang、Vijai Mohan、Anshumali Shrivastava
论文链接：https://papers.nips.cc/paper/9482-extreme-classification-in-log-memory-using-count-min-sketch-a-case-study-of-amazon-search-with-50m-products.pdf

摘要：过去十年里，诸多困难的 AI 任务（尤其是在 NLP 领域）已被证明可以自然地建模作为极端分类问题，从而提升了精度。但是，由于最后一层中的内存耗尽，训练此类模型的成本过高。为缓解此类问题，研究者在本文中提出了 MACH（Merged Average Classifiers via Hashing），这是一种通用的 K-classification 算法，其中的内存可以在 O(log K) 上进行扩展，而无需类的强假定。 MACH 巧是一种伪装巧妙的 count-min sketch 结构，它利用全域希哈法（universal hashing）将具有大量类的分类减少为具有少量（恒定）类的高度并行和独立的分类任务。 MACH 自然而然地为零通信模型（zero communication model）的并行性提供了一种方法。研究者在六个数据集进行实验：包括一些多类数据集和多标签数据集，结果表明在各自领域的 SOTA 基准测试中呈现出持续的改进。

MACH 架构图。

MACH 与 Parabel、Embedding Model 在 Matching 度量指标上的结果对比。

MACH 与 Parabel、Embedding Model 在 Ranking 度量指标上的结果对比。

推荐：实验结果表明，本文提出的 MACH 在 Matching 和 Ranking 度量指标上能够持续优于 Parabel 和 Embedding Model。

论文 3：Mixtape: Breaking the Softmax Bottleneck Efficiently

作者：Zhilin Yang、Thang Luong、Ruslan Salakhutdinov、Quoc Le2
论文链接：https://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently.pdf

摘要： softmax 瓶颈限制了神经语言模型的表达能力（expressiveness）。 Mixture of Softmaxes (MoS) 是解决该理论局限的有效方法，但与 softmax 相比，MoS 无论在内存还是时间上都成本较高。

来自 CMU 和谷歌大脑的杨植麟、Thang Luong、Ruslan Salakhutdinov 和 Quoc Le 提出了一种新方法 Mixtape，该输出层利用三项新技术——logit 空间向量门控、sigmoid 树分解和门控共享，更高效地打破了 softmax 瓶颈。

Mixtape 层架构图。

在 WMT 英德和英法语言对数据上的性能对比。 Mixtape 在这两项任务上分别使用了 2 亿和 8 亿参数。

推荐： 2017 年，杨植麟等人提出一种解决 Softmax 瓶颈的简单有效的方法——Mixture of Softmaxes（MoS）。但该方法成本高昂，于是最近杨植麟等人再次瞄准 softmax 瓶颈问题，提出兼顾表达能力和高效性的新方法 Mixtape。

论文 4：Advances and Open Problems in Federated Learning

作者：Peter Kairouz、H. Brendan McMahan、Brendan Avent 等
论文链接：https://arxiv.org/pdf/1912.04977.pdf

摘要： 联邦学习（Federated Learning，FL）是这样一种机器学习设置，诸多客户端（如移动设备或整体组织）在中央服务器（如服务提供商）的协调下来协同训练模型，同时保持训练数据的分散性。联邦学习体现了集中数据收集（focused data collection）和最小化的原则，并且可以减轻传统集中式机器学习和数据科学方法所导致的诸多系统性隐私风险和成本。

近年来，联邦学习研究呈现出了爆炸性增长，受此推动，来自澳大利亚国立大学、卡耐基梅隆大学等二十多家机构的五十多位研究者在本文中探讨了联邦学习的最新进展，并提出了大量未解决的问题和挑战。

FL 训练模型的生命周期以及联邦学习系统中的各种要素。

推荐： 研究者希望本篇论文可以为那些在联邦学习和相关领域深耕的学习者带来帮助。

论文 5：Deep Learning For Symbolic Mathematics

作者：Guillaume Lample、Francois Charton
论文链接：https://arxiv.org/pdf/1912.01412.pdf

摘要： 机器学习的传统是将基于规则的推断和统计学习对立起来，很明显，神经网络站在统计学习那一边。神经网络在统计模式识别中效果显著，目前在计算机视觉、语音识别、自然语言处理等领域中的大量问题上取得了当前最优性能。但是，神经网络在符号计算方面取得的成果并不多：目前，如何结合符号推理和连续表征成为机器学习面临的挑战之一。

近日，来自 Facebook 的 Guillaume Lample 和 Francois Charton 发表了一篇论文，他们将数学（具体来说是符号计算）作为 NLP 模型的目标。更准确地讲，研究者使用序列到序列模型（seq2seq）解决符号数学的两个问题：函数积分和常微分方程（ODE）。这两个问题不管对接受过数学训练的人还是计算机软件而言都是难题。他们首先提出一种可用于 seq2seq 模型的数学表达式和问题表示，并讨论了问题空间的大小和结构。然后展示了如何为积分和一阶、二阶微分方程的监督式训练生成数据集。最后，研究者对数据集应用 seq2seq 模型，发现其性能超过当前最优的计算机代数程序 Matlab 和 Mathematica。

不同数量的运算符和叶节点所对应的树和表达式的数量。 p_1 和 p_2 分别对应一元运算符和二元运算符的数量，L 对应叶节点数量。 最下方的两条曲线对应二元树和 unary-binary 树的数量。 最上方两条曲线表示表达式的数量。 从该图可以观察到，添加叶节点和二元运算符能够显著扩大问题空间的规模。

该研究提出的模型与 Mathematica、Maple 和 Matlab 在包含 500 个方程的测试集上的性能对比情况。 此处，Mathematica 处理每个方程时有 30 秒的超时延迟。 对于给定方程，该研究提出的模型通常在不到一秒的时间内即可找出解。

推荐： 数学也可以是一种自然语言，而使用机器翻译方法就可以解决数学问题，这是 Facebook 科学家提出的用神经网络精确解符号计算的方法。

论文 6：PointRend: Image Segmentation as Rendering

作者：Alexander Kirillov、吴育昕、何恺明、Ross Girshick
论文链接：https://arxiv.org/pdf/1912.08193.pdf

摘要： 提到何恺明，读者们都不会陌生。近年来，他在语义分割和实例分割领域做了很多开创性的工作，用来提升分割效果。例如，在实例分割方面提出全景分割的方法，在语义分割上则提出了效果惊人的 TensorMask。最近，Alexander Kirillov（一作）、吴育昕、何恺明等又从计算机渲染的角度出发，提出了一个名为 PointRend 的方法，更好地提升图像分割过程中的平滑性和分割细节效果。

这一方法是否会对现有的网络架构带来很大影响？研究者表示，这一方法可作为已有的图像分割架构的一个模块来使用。他们在 Mask R- CNN 和 DeepLabV3 等模型上进行了测试，性能提升明显，而且算力占用很小。

使用 PointRend 执行实例分割和使用传统方法的对比。 传统方法（左）分割的时候图像分辨率低，分割效果差。

Mask R-CNN [19] + 标准掩码头的结果示例（左侧图像）vs Mask R-CNN + PointRend 的结果示例（右侧图像）。模型使用 ResNet-50 和 FPN。

PointRend 的抗锯齿效果。

推荐： Facebook FAIR 实验室再次创新图像分割算法，这回使用的是图像渲染的思路。算法可作为神经网络模块集成，显著提升 Mask R-CNN 和 DeepLabV3 性能。

论文 7：Analyzing and Improving the Image Quality of StyleGAN

作者：Tero Karras、Samuli Laine、Miika Aittala、Janne Hellsten 等
论文链接：https://arxiv.org/abs/1912.04958

摘要： 使用生成方法（尤其是生成对抗网络）得到的图像的分辨率和质量都在快速提升。在高分辨率合成任务上的当前最佳方法是 StyleGAN，研究表明其能在多种数据集上可靠地发挥作用。这项研究关注的问题是修复 StyleGAN 的特有伪影以及进一步提升其结果的质量。 StyleGAN 的显著特征是其具有非常规的生成器架构。这种架构不会仅在网络的开始处向其馈送输入隐代码 z ∈ Z，而是其映射网络 f 首先会将其变换成一个中间隐代码 w ∈ W。然后，仿射变换通过自适应实例归一化（AdaIN）得到能控制合成网络 g 的层的风格。另外，其还通过向合成网络提供额外的随机噪声图而提升了随机变化的性能。研究表明，这种设计能让中间的隐空间 W 比输入的隐空间 Z 的纠缠少得多。这篇论文的所有分析都集中在 W 上，因为从合成网络的视角看，它是相关的隐空间。很多观察者注意到 StyleGAN 生成的图像会有很有特点的伪影。这篇论文给出了产生这些伪影的两个原因，并描述了可以如何通过修改架构和训练方法来消除这些伪影。