11.11福利来袭！NeurlPS 2021论文打包分享，直播间见！

2021 年 11 月 11 日 微软研究院AI头条

编者按：双十一正在进行中，大家是否已经买到心仪的物品了？悄悄告诉大家一个秘密，除了电商有双十一购物狂欢节，今年论文分享也有狂欢节！

11月18日下午13:30 - 17:30，NeurIPS 2021 学术分享会将在 B 站“微软中国视频中心” 进行直播。本场分享会将为大家精心打包12篇超干货学术论文分享，所有论文均邀请到相关作者来为大家做内容的深刻解读。

你只需扫码进入直播间，就能收获超一份划算的学术大礼包！还在等什么，快把这份超详细的 NeurIPS 论文分享会指南加入购物车，准备迎接论文狂欢节吧！

NeurIPS 2021 是 Conference on Neural Information Processing Systems 的简称，为机器学习和计算神经科学领域的顶级国际会议。第35届 NeurIPS 2021 将于12月6日至14日在线上举办。根据大会官方公布的数据，NeurIPS 2021 共收到9122篇有效论文，其中2344篇被接受，微软亚洲研究院共有33篇论文被接受，研究主题涵盖人工智能的不同领域。

微软亚洲研究院始终关注计算机领域的前沿进展，并以论文分享会的形式为大家带来值得关注的前沿研究，促进计算机各大领域的进步。本系列论文分享会将关注计算机领域的各大顶会，邀请论文作者以线上直播的形式与大家分享并探讨论文的研究问题与研究设计。本场 NeurIPS 2021 即为该系列论文分享会活动之一。

直播信息

直播时间：2021年11月18日13:30-17:30

直播地址：B 站账号“微软中国视频中心”直播间

扫码直达直播间

扫码加入微信交流群

论文及讲者介绍

陈琪

微软亚洲研究院主管研究员

陈琪目前为微软亚洲研究院系统研究组主管研究员。她于 2010 年和 2016 年分别在北京大学信息科学学院获得学士和博士学位，师从肖臻教授，博士期间主要从事分布式系统，云计算和并行计算方向的研究。她已经在系统领域的顶级会议和期刊上发表了十多篇学术论文，发表的论文曾获得过 OSDI 最佳论文奖。目前主要研究方向包括分布式系统，深度学习算法和人工智能系统。

论文题目：

上亿量级规模高效向量近似最近邻搜索系统 SPANN

SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

论文摘要：随着数据规模的快速增长，基于内存的向量搜索面临着海量且非常昂贵的内存需求，人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。因此，研究员们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案 SPANN，有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示，SPANN 在多个上亿量级数据集上都能取得两倍多的加速达到 90% 召回率，其查询延迟能够有效地控制在一毫秒左右。同时， SPANN 的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小，从而实现高可扩展性。目前 SPANN 已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。

蒋忻洋

微软亚洲研究院主管研究员

蒋忻洋博士，微软亚洲研究院主管研究员。主要研究领域包括跨模态检索，计算机视觉、行人重识别等。于 2017 年获得浙江大学计算机科学与技术博士学位，曾担任腾讯优图实验室高级研究员。

论文题目：

去栅格化的矢量图识别

Recognizing Vector Graphics without Rasterization

论文摘要： 本文工作关注在一种与以往大多数工作不同的图像格式：矢量图。和在图像识别中常用的位图不同，由于矢量图基于解析几何的表示方式，可以被无损失的缩放到任意分辨率。同时，矢量图还提供了额外的结构化信息，描述了底层元素是如何构成高层的形状和结构。现有的识别方法并没有充分利用这一格式的优点。本文通过目标检测这一基本的视觉任务来探索这个图像格式。我们提出了一种无需 CNN 的高效网络结构，在识别过程中无需将矢量图渲染为像素图（即栅格化），直接把矢量图的文本作为模型输入，称为 YOLaT (You Only Look at Text)。YOLaT 将矢量图的结构和空间信息建模为一个多重图，并提出一个双流图神经网络基于多重图来进行目标检测。实验证明 YOLaT 通过直接对矢量图进行处理分析，能够在计算效率和性能上显著超过现有的目标检测方法。

李嘉豪

微软亚洲研究院主管研究员

李嘉豪于 2019 年从北京大学博士毕业并加入微软亚洲研究院多媒体计算组。研究方向包括视频压缩和实时视频传输。

论文题目：基于上下文的视频压缩

Deep Contextual Video Compression

论文摘要： 视频压缩的目标是以最小的比特代价来获得最好的重建质量。现有基于深度学习的视频压缩方法大多采用残差编码框架。然而，就压缩比而言，残差编码是一种次优的解决方案，因为它只使用简单的减法来去除帧间冗余。在本文中，我们提出了一个从残差编码到条件编码的范式转换，从而达到更小的信息熵下界。在本文中，我们回答以下问题：如何为基于深度学习的视频压缩设计和定义条件编码框架。实验表明，我们的框架相比 x265 可实现 26.0% 码率节省。

刘畅

微软亚洲研究院研究员

刘畅，2019 年于清华大学计算机系博士毕业，随后加入微软亚洲研究院机器学习组。研究方向包括贝叶斯推理方法和生成式模型。

论文题目：

条件分布对生成式建模的效用

On the Generative Utility of Cyclic Conditionals

论文摘要： 本文研究两个可形成闭环的条件分布 p(x|z) 与 q(z|x) 是否可以建模一个联合分布 p(x,z)。此问题来源于，当前的深度生成模型除了使用一个似然模型（生成器）p(x|z) 之外，通常还会引入一个推断模型 q(z|x) 用以提取数据的特征表示，但它们却还要依赖一个先验分布 p(z) 来定义联合分布，而它通常的选择会带来后验坍缩和流形错配等缺陷。本文为所提问题建立了一个统一的理论框架，包括联合分布的存在性/唯一性（称为相容性/决定性）的等价/充分条件，并基于此理论提出了一个仅需这两个条件分布的生成式建模的新框架，包括实现相容性和决定性以及拟合和生成数据的算法。实验中发现所提框架避免了后验坍缩和流形错配的问题从而可以生成更好的样本提取更好的表示，而所提理论对于认识生成式建模及其他领域并开发新算法也具有启发意义。

论文题目：

学习用于分布外预测的因果语义表示

Learning Causal Semantic Representation for Out-of-Distribution Prediction

论文摘要： 标准的有监督学习方法特别是深度学习方法对分布外样例的预测表现欠佳，主要由于其学到的表示难免会混淆语义因素和多样因素，因为两者在特定环境下具有特定的相关性，但只有语义因素是输出变量的因。为此，我们通过对变量间因果关系的分析，将这两个因素分开建模，进而提出了一个因果语义生成模型，并建立了相应的分布外预测方法用于解决常见且有挑战性的单训练域的情况。此方法源自因果不变性原理，并基于变分贝叶斯框架实现，其中引入了一个新颖的设计既实现了高效训练又便于预测。理论上，我们证明了一定条件下，此模型可通过拟合训练数据来识别语义因素，且这种识别保证了分布外泛化误差的有界性和成功的领域自适应。实验结果表明所提方法比主流基线方法具有更好的分布外预测表现。

论文题目：

用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning

论文摘要： 行为克隆是一种有效的从专家示范中学习策略的方法。然而，行为克隆常会产生因果混淆问题，即学到的策略关注的是专家动作的一个明显的结果而非专家动作的因（即专家策略所关注的对象）。针对此问题，本文提出了一个察觉对象的正则化方法，主要思想是鼓励待学策略去均匀地关注所有对象，以防它把注意力全部放在与专家动作强相关的干扰变量上。具体方法分为两个阶段：（a）我们利用量子化向量变分自编码器的离散编码从图片中提取有语义的对象，然后（b）随机地将具有相同离散编码值的编码分量一起丢弃，即掩盖掉该语义对象。实验表明所提方法显著提升了行为克隆的性能，并在各种 Atari 环境及 CARLA 自动驾驶环境中超过了各种其他正则化方法和基于因果的方法，甚至优于可与环境交互的逆强化学习方法。

魏国强

微软亚洲研究院实习生

微软亚洲研究院与中国科学技术大学联合培养在读博士，其主要研究方向为域自适应，3D姿态估计和行人重识别。

论文题目：任务导向的无监督域自适应

Task-oriented Alignment for Unsupervised Domain Adaptation

论文摘要： 本文工作关注于无监督的域自适应（UDA）技术，即如何在新的场景中利用有标签的数据来做训练，使得模型在新的目标数据域中能有尽可能好的性能。目前的 UDA 技术着眼于如何将源数据和新数据的特征通过对齐来减小分布的差异。然而，对于这一类的方法的对齐方式，没有信息显式地指导对齐的特征应该是对分类任务有帮助的。针对这一情况，我们提出了一种可以广泛应用任务导向的 UDA 方法，目标是为了在对齐两个域的特征分布的时候，能在分类任务的知识的引导下，朝着服务于分类任务的方向进行优化。具体来说，我们利用分类任务中的和最终结果有关的梯度显示地将分类任务的知识引入到了特征对齐任务，实现任务导向的特征对齐。我们的方法适用于目前绝大多数基于特征对齐来实现域自适应的方法，我们验证了在无监督、半监督等多个的域自适应任务中都可以取得最好的结果。

武智融

微软亚洲研究院主管研究员

武智融博士是视觉计算组的主管研究员。他目前的主要研究方向是视觉的自监督学习和迁移学习。

论文题目：

视频中零标签的物体检测和分割的学习

The Emergence of Objectness: Learning Zero-shot Segmentation from Videos

论文摘要： 随着自监督学习的研究进展，迁移学习的范式已经广泛应用于了视觉学习的各个领域。具体来说，大量的视觉任务使用自监督预训练和有监督微调的方式来部署任务。本文试图打破这一范式：我们希望自监督预训练模型可以直接服务于应用，而不需要任何有监督微调，实现零标签的学习。这项研究实现了一个可以从无标签视频中学习物体检测和分割的模型。这一模型可以广泛的应用在图片中的分割以及视频中运动物体的分割任务中。

闫洁

微软亚洲研究院主管研究员

闫洁博士，微软亚洲研究院主管研究员。研究方向为机器学习（随机优化、强化学习）及其在云计算资源优化中的应用。2014年在中科院计算所获得博士学位，曾在诺亚方舟实验室和北京应用物理与计算数学所工作。

论文题目：

“预测+优化”中含软约束问题的代理目标函数求解框架

A Surrogate Objective Framework for Prediction + Optimization with Soft Constraints

论文摘要 ：现实应用中的最优化决策，通常需要先预测问题参数再求解数学优化，预测模型决定了最终的决策质量。“预测+优化”端到端框架中，预测模型通过直接最大化优化问题解的质量来学习。本文考虑优化目标中含软约束项（即 max(z=f(x), 0) ）的问题。针对约束参数非负的线性和二次规划问题，提出一种代理目标函数框架并给出了最优解关于参数的梯度的解析表达式。在 3 个有实际代表性的问题上，即目标函数加入软约束项后的线性规划、投资组合（半正定二次规划）和资源供应（非对称损失），在实验中取得了比传统的两阶段法和其他预测+优化方法稳定更好的性能。

杨俊涵

微软亚洲研究院实习生

微软亚洲研究院与中国科学技术大学联合培养在读博士，主要研究方向为推荐系统与文本表示学习。

论文题目：

用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph

论文摘要： 文本图的表示学习是基于单个文本特征和邻域信息为节点生成低维嵌入。现有的工作主要依赖于级联模型结构：首先通过语言模型对节点的文本特征进行独立编码；然后通过图神经网络对文本嵌入进行聚合。然而这种文本特征独立建模的结构限制了模型的效果。故本文提出了 GraphFormers ——将 GNN 组件嵌套在 Transformer 语言模型的一种新架构。在该架构中，文本编码和图聚合融合为一个迭代工作流，使得每个节点的语义都能从全局角度准确理解。此外，还引入了一种渐进式学习策略，该策略在操作数据和原始数据上连续训练模型，以增强其在图形上整合信息的能力。实验证明，本文提出的架构在3个数据集上都取得了最好结果。

余伟江

微软亚洲研究院实习生

微软亚洲研究院 NLC 组实习生，其主要研究方向为多模态学习。

论文题目：自我挖掘：视频问答中对样本进行孪生采样和推理

Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering

论文摘要： 视频问答任务需要根据语言线索的组合语义，获取并使用视频中的视觉信号的时域和空域特征，从而生成回答。现有的一些工作从视频中提取一般的视觉信息以及运动特征来表示视频内容，并设计了不同的注意力机制来整合这些特征。这些方法注重于如何更好地理解视频的整体内容，但这样容易忽略了视频段中的细节。也有一些研究人员探究了如何通过对视频的视觉和语言信息进行语义层面上的特征对齐。但是这些工作都忽略了同一个视频中的上下文之间的关联。为了解决上诉问题，我们提出了此基于自驱动孪生采样和推理的框架，并将其用于提取相同视频的不同视频段中的上下文语义信息，用于增强网络的学习效果。本方法在 5 个公开的数据集上面实现了最优的效果。

郑书新

微软亚洲研究院主管研究员

郑书新博士目前任微软亚洲研究院主管研究员，他的研究兴趣包括图学习，预训练，以及 AI 在交叉学科中的应用，如分子模拟等。

论文题目：如何使用 Transformer 模型在图表示任务中胜过 GNN

Do Transformer Really Perform Bad for Graph Representation?

论文摘要： Transformer 模型具有强大的表达能力，并且已经在机器学习的诸多应用领域成为最主要的选择，如自然语言处理与计算机视觉等。然而，其在图表示学习中仍未获得相较 GNN 及其变种更有竞争力的性能，尽管 GNN 的表示能力远弱于 Transformer 模型。因此， Transformer 模型是否适合图学习任务仍然是一个开放问题。本文通过提出 Graphormer 模型对此问题给予肯定回答。Graphormer 模型建立在标准的 Transformer 模型之上，并且在广泛的图表示学习任务上取得了非常优异的结果，如其在 KDD Cup 2021 – 大规模图学习挑战赛中夺冠，并在多个流行的图学习公开排行榜上位列第一。Graphormer 模型兼具强大的表达能力和高效地捕捉图结构信息的能力，可以证明主流的 GNN 及其变种均为Graphormer 模型的特例。Graphormer 模型的提出证明了 Transformer 模型将有潜力成为图学习任务上即 GNN 后又一主要模型结构。