7 Papers & Radios | SIGGRAPH 2020最佳博士论文；南开等提出新型自校准卷积

会员服务 ·

7 Papers & Radios | SIGGRAPH 2020最佳博士论文；南开等提出新型自校准卷积

2020 年 6 月 7 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括 SIGGRAPH 2020 最佳博士论文，以及南开大学等提出的自校准卷积和相应网络。

目录：

LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation
Deformable Siamese Attention Networks for Visual Object Tracking
Boosting Few-Shot Learning With Adaptive Margin Loss
Improving Convolutional Networks with Self-Calibrated Convolutions
Meta-Graph: Few Shot Link Prediction Via Meta Learning
Differentiable Visual Computing
Semantic Image Manipulation Using Scene Graphs
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

作者：Xiangnan He、Kuan Deng、Xiang Wang、Yan Li、Yongdong Zhang、Meng Wang
论文链接：http://staff.ustc.edu.cn/~hexn/papers/sigir20-LightGCN.pdf

摘要： 在本文中，来自 中国科学技术大学和新加坡国立大学等机构的研究者简化了 GCN 设计，使它更加简洁且更适合推荐任务 。他们提出了一个新模型 LightGCN，其中仅使用 GCN 中的最基本组件邻域聚合（neighborhood aggregation）来进行协同过滤。具体来说，LightGCN 通过在用户 - 物品（user-item）交互图上线性地传播用户和物品嵌入，进而学习它们，并将所有层上学得的嵌入加权和用作最终嵌入（final embedding）。

这种简单、线性和整洁的模型实现和训练起来更加容易，并在相同的实验设置下较当前基于 GCN 的 SOTA 推荐模型神经图协同过滤（Neural Graph Collaborative Filtering, NGCF）有了 j 较大的性能提升，平均提升约 16.0%。

当前基于 GCN 的 SOTA 推荐模型 GGCF 及其三种变体的性能表现。

LightGCN 模型架构图。

NGCF 与 LightGCN 在不同数量层上的性能比较。

推荐： 研究者在 TensorFlow 和 PyTorch 中均提供了 LightGCN 模型实现。

论文 2：Deformable Siamese Attention Networks for Visual Object Tracking

作者：Yuechen Yu、Yilei Xiong、Weilin Huang、Matthew R. Scott
论文链接：https://arxiv.org/pdf/2004.06711.pdf

摘要：在本篇论文中， 码隆科技提出了可变形孪生注意力网络（Deformable Siamese Attention Networks, SiamAttn），以此来提升孪生网络跟踪器的特征学习能力 。这种注意力机制为跟踪器提供了一种自适应地隐式更新模板特征的方法。

本研究中 SiamAttn 方法与其他三种当前 SOTA 跟踪器的跟踪效果比较。可以看到，SiamAttn 的结果更加准确，并且对外观变化、复杂背景和干扰物具有更强的鲁棒性。

SiamAttn 网络架构图示，包括一个可变形孪生注意力（deformable Siamese attention, DSA）模块、孪生候选区域网络（Siamese region proposal network, SiamRPN）和区域细化模块（region refinement module）。

可变形孪生注意力模块包括两个子模块：self-attention 子模块和 cross-attention 子模块。

推荐： 研究者在 6 个基准上进行实验，结果表明该网络取得了新的 SOTA 结果，超越了强大的基线方法 SiamRPN++。

论文 3：Boosting Few-Shot Learning With Adaptive Margin Loss

作者：Aoxue Li、Weiran Huang、Xu Lan、Jiashi Feng、Zhenguo Li、Liwei Wang
论文链接：https://www.weiranhuang.com/publications/pdf/traml2020.pdf

摘要： 在本文中，来自北京大学信息科学技术学院和华为诺亚方舟实验室等机构的研究者提出了一种自适应边际损失方法，对于少样本学习（few-shot learning）问题的度量元学习方法来说，这种自适应边际损失方法可以提升它们的泛化能力。具体来说，研究者首先开发了一个类相关额外边际损失（additive margin loss），其中每对类之间的语义相似性用来将特征嵌入空间中的样本与相似类分离开来。

此外，他们将所有类的语义语境整合进一个样例训练任务，并创建任务相关额外边际损失以更好地区分不同类的样本。这种自适应边际方法可以轻松地扩展至更真实的泛化 FSL 设置。

自适应边际损失方法的原理图。研究者利用不同类之间的语义相似性来生成类间自适应边际，然后将生成的边际集成至分类损失中，使得相似类在嵌入空间中的可分离性更强，由此有益于少样本学习。

自适应边际损失方法整体架构图，它包含元训练和元测试两个阶段。

任务相关边际生成器架构图。

各模型在 ImageNet2012 数据集上的泛化少样本学习结果对比，其中本研究采用的是任务相关额外边际损失（task-relevant additive margin loss, TRAML ）。

推荐： 实验表明，在标准和泛化少样本学习两种设置下，本研究提出的自适应边际方法均可以增强当前度量元学习方法的效果。

论文 4：Improving Convolutional Networks with Self-Calibrated Convolutions

作者：Jiang-Jiang Liu、Qibin Hou、Ming-Ming Cheng、Changhu Wang、Jiashi Feng
论文链接：http://mftp.mmcheng.net/Papers/20cvprSCNet.pdf
代码链接：https://github.com/MCG-NKU/SCNet

摘要： 近来卷积神经网络（CNN）的进展主要是设计更复杂的架构以增强它们的表征学习能力。在本文中，来自 南开大学、新加坡国立大学和字节跳动 AI 实验室的研究者探究如何在不调整模型架构的情况下依然提升 CNN 的基本卷积特征转换过程 。为此，他们提出了一种新颖的自校准卷积（self-calibrated convolution），它通过内部通信来显式地扩展每个卷积层的视野，进而丰富输出特征。具有自校准卷积的网络分别命名为 SCNet、SCNeXt 和 SE-SCNet。

具体来说，与使用小核（如 3×3）融合空间和通道信息的标准卷积不同，研究者提出的自校准卷积通过新型自校准运算（self-calibration operation）围绕每个空间位置自适应地构建远程空间和通道间依赖。如此，通过整合更丰富的信息，CNN 可以生成判别性更强的标准。这种自校准卷积在设计上简单且具有通用性，同时在不引入额外参数和复杂度的情况下可以轻松地运用于扩增的标准卷积层。

在使用 Grad-CAM （Gradient-weighted Class Activation Mapping）方法的情况下，不同网络学得的可视化特征激活图。

自校准卷积示意图。可以看到，原始滤波器分为四部分，每部分负责不同的功能。这与以相同方式执行的传统或分组卷积明显不同。

当卷积层分别为 50 和 101 时，具有自校准卷积的网络 SCNeXt、SCNet 和 SE-SCNet 与其他卷积神经网络的结果对比。

推荐： 实验表明，当这种自校准卷积应用于不同的骨干网络时，基线模型在目标检测、实例分割和关键点检测等多种视觉任务上都有显著的性能提升，并且不需要改变网络架构。

论文 5：Meta-Graph: Few Shot Link Prediction Via Meta Learning

作者：Joey Bose、Ankit Jain、Piero Molino、William L. Hamilton
论文链接：https://arxiv.org/pdf/1912.09867.pdf

摘要： 在本文中，来自加拿大麦吉尔大学和优步人工智能实验室的研究者提出通过元学习来进行少样本链路预测，其目的是通过从图分类中学习，模型能够在少量训练后快速推理出新图中的缺失边缘。研究者认为当前的链路预测方法通常无力处理上述任务，具体来说，这些方法既不能有效地将学得知识从一图迁移至另一图上，也无法有效地从稀疏样本边缘学习。为了解决这些问题，研究者引入了一种新的梯度元学习框架元图（Meta-Graph），该框架利用到了高阶梯度以及一个有条件地生成图神经网络初始化的学得图函数签名（signature function）。

左：Meta-Graph 与 MAML(Model-Agnostic Meta-Learning) 的结构比较；右：Meta-Graph 具体架构。

算法 1：用于少样本链路预测的 Meta-Graph。

不同模型在在 PPI、FirstMM DB 和 Ego-AMINER 数据集上的收敛 AUC 结果对比。

推荐： 在使用一组新型链路预测基准时，研究者证实了元图可以在使用少量真实边缘（true edge）时学习快速地适应新图，在快速适应的同时也可以提升收敛结果。

论文 6：Differentiable Visual Computing

作者：李子懋
论文链接：https://people.csail.mit.edu/tzumao/phdthesis/phdthesis.pdf

摘要：在这篇 148 页的博士论文中，MIT CSAIL 博士后研究员、太极（Taichi）论文第二作者李子懋（Tzu-Mao Li）探讨了视觉计算、编程系统和统计学习之间的关系。他将经典计算机图形学和图像处理算法与现代数据驱动方法相结合，从而增强了物理理解。李子懋利用统计学中的数学工具和机器学习开发能够解决图形和视觉问题的新算法。此外，他开发的编程系统简化了可学得视觉计算算法的高效实现和数学推导。

该论文的主题是解决计算和应用复杂图形学 pipeline 导数所面临的挑战，以便利用这些导数更好地拟合和采样参数或者解决逆问题（inverse problem）。这项研究被认为「解决了图形学算法中的不连续性以及现代硬件的大规模并行性问题，其贡献远远超出了传统的自动微分」。

可微图像处理流程包括三部分：（a）神经网络算子：双边分切；（b）：优化前向图像处理 pipeline 的参数；（c）优化逆问题的重建和扭曲参数。

可微蒙特卡罗光线追踪。

黑塞 - 哈密顿蒙特卡罗方法。

推荐： 这篇博士论文斩获 ACM SIGGRAPH 2020 年度最佳博士论文奖。

论文 7：Semantic Image Manipulation Using Scene Graphs

作者：Helisa Dhamo、Azade Farshad、Iro Laina、Nassir Navab 等
论文链接：https://arxiv.org/pdf/2004.03677.pdf

摘要： 图像处理是图像生成领域的一种应用场景，其中生成图像是对原始图像的修改。在大多数情况下，图像生成和处理任务是在原始像素上进行操作。但是，学习丰富图像和目标表示两方面取得的显著进展为文本到图像或布局到图像等主要由语义驱动的任务开辟了路径。

在本文中，来自慕尼黑工业大学、牛津大学、约翰霍普金斯大学和谷歌的研究者基于场景图（scene graph）来解决图像生成新问题，其中用户仅通过应用图像生成语义图的节点或边缘改变，即可以编辑图像。研究目的是在给定的群集中对图像信息进行编码，进而生成新的群集，如目标替换以及目标之间关系的变化，同时原始图像的语义和风格保持不变。他们提出的空间语义场景图网络不需要直接监督群集变化或图像编辑，这使得人们可以从已有真实世界数据集中训练系统并且不需要做额外注释。

训练策略图示。

本研究方法（图中）与基线方法（图上）的视觉特征编码效果对比，其中场景图保持不变。

效果展示 3 个示例：骑马变牵马、树的位置从后方变前方，以及摩托车上变摩托车旁。

推荐： 本研究提出的方法可以使用户在保持场景不变的情况下实现目标的位置变化。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training. (from Haoyang Huang, Lin Su, Di Qi, Nan Duan, Edward Cui, Taroon Bharti, Lei Zhang, Lijuan Wang, Jianfeng Gao, Bei Liu, Jianlong Fu, Dongdong Zhang, Xin Liu, Ming Zhou)

2. Situated and Interactive Multimodal Conversations. (from Seungwhan Moon, Satwik Kottur, Paul A. Crook, Ankita De, Shivani Poddar, Theodore Levin, David Whitney, Daniel Difranco, Ahmad Beirami, Eunjoon Cho, Rajen Subba, Alborz Geramifard)

3. A Survey of Neural Networks and Formal Languages. (from Joshua Ackerman, George Cybenko)

4. A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss. (from Hou Pong Chan, Wang Chen, Irwin King)

5. Extracting COVID-19 Events from Twitter. (from Shi Zong, Ashutosh Baheti, Wei Xu, Alan Ritter)

6. Emergent Multi-Agent Communication in the Deep Learning Era. (from Angeliki Lazaridou, Marco Baroni)

7. Response to LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts. (from Hao Wu, Gareth J. F. Jones, Francois Pitie)

8. Syntactic Search by Example. (from Micah Shlain, Hillel Taub-Tabib, Shoval Sadde, Yoav Goldberg)

9. Context-based Transformer Models for Answer Sentence Selection. (from Ivano Lauriola, Alessandro Moschitti)

10. The Importance of Suppressing Domain Style in Authorship Analysis. (from Sebastian Bischoff, Niklas Deckers, Marcel Schliebs, Ben Thies, Matthias Hagen, Efstathios Stamatatos, Benno Stein, Martin Potthast)

本周 10 篇 CV 精选论文是：

1. Look Locally Infer Globally: A Generalizable Face Anti-Spoofing Approach. (from Debayan Deb, Anil K. Jain)

2. Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining. (fromYiqun Mei, Yuchen Fan, Yuqian Zhou, Lichao Huang, Thomas S. Huang, Humphrey Shi)

3. UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated Content. (from Zhengzhong Tu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, Alan C. Bovik)

4. Flexible Bayesian Modelling for Nonlinear Image Registration. (from Mikael Brudfors, Yaël Balbastre, Guillaume Flandin, Parashkev Nachev, John Ashburner)

5. Recapture as You Want. (from Chen Gao, Si Liu, Ran He, Shuicheng Yan, Bo Li)

6. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution. (from Siyuan Qiao, Liang-Chieh Chen, Alan Yuille)

7. HourNAS: Extremely Fast Neural Architecture Search Through an Hourglass Lens. (from Zhaohui Yang, Yunhe Wang, Dacheng Tao, Xinghao Chen, Jianyuan Guo, Chunjing Xu, Chao Xu, Chang Xu)

8. Boundary-assisted Region Proposal Networks for Nucleus Segmentation. (from Shengcong Chen, Changxing Ding, Dacheng Taoo)

9. CircleNet: Anchor-free Detection with Circle Representation. (from Haichun Yang, Ruining Deng, Yuzhe Lu, Zheyu Zhu, Ye Chen, Joseph T. Roland, Le Lu, Bennett A. Landman, Agnes B. Fogo, Yuankai Huo)

10. Nested Scale Editing for Conditional Image Synthesis. (from Lingzhi Zhang, Jiancong Wang, Yinshuang Xu, Jie Min, Tarmily Wen, James C. Gee, Jianbo Shi)

本周 10 篇 ML 精选论文是：

1. Learning Kernel Tests Without Data Splitting. (from Jonas M. Kübler, Wittawat Jitkrittum, Bernhard Schölkopf, Krikamol Muandet)

2. Rethinking Empirical Evaluation of Adversarial Robustness Using First-Order Attack Methods. (from Kyungmi Lee, Anantha P. Chandrakasan)

3. Learning Robust Decision Policies from Observational Data. (from Muhammad Osama, Dave Zachariah, Peter Stoica)

4. DC-NAS: Divide-and-Conquer Neural Architecture Search. (from Yunhe Wang, Yixing Xu, Dacheng Tao)

5. The Value-Improvement Path: Towards Better Representations for Reinforcement Learning. (from Will Dabney, André Barreto, Mark Rowland, Robert Dadashi, John Quan, Marc G. Bellemare, David Silver)

6. Shapley Value as Principled Metric for Structured Network Pruning. (from Marco Ancona, Cengiz Öztireli, Markus Gross)

7. Hierarchical forecast reconciliation with machine learning. (from Evangelos Spiliotis, Mahdi Abolghasemi, Rob J Hyndman, Fotios Petropoulos, Vassilios Assimakopoulos)

8. Anomaly Detection with Tensor Networks. (from Jinhui Wang, Chase Roberts, Guifre Vidal, Stefan Leichenauer)

9. The Convolution Exponential and Generalized Sylvester Flows. (from Emiel Hoogeboom, Victor Garcia Satorras, Jakub M. Tomczak, Max Welling)

10. DeepCoDA: personalized interpretability for compositional health. (from Thomas P. Quinn, Dang Nguyen, Santu Rana, Sunil Gupta, Svetha Venkatesh)