AAAI 2021 最佳论文公布

作者：Synced

翻译：仿佛若有光

第三十五届 AAAI 人工智能会议 (AAAI-21) 以虚拟会议的形式拉开帷幕。组委会在开幕式上公布了最佳论文奖和亚军。三篇论文获得了最佳论文奖，三篇被评为亚军。

AAAI 2021 共收到 9,034 篇论文，再创历史新高，超过了去年的 8800 篇。来自中国的论文（3,319 篇）几乎是美国论文数量（1,822 篇）的两倍。在 7,911 篇去评审的论文中，共有 1,692 篇论文通过。今年的录取率为21%，略高于去年的20.6%。

点个关注，专注于计算机视觉

最佳论文奖

Informer：超越用于长序列时间序列预测的高效transformer

论文名称：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

论文地址：https://arxiv.org/pdf/2012.07436.pdf (文末附下载方式)

机构：北京航空航天大学、加州大学伯克利分校、罗格斯大学、北京国旺福达科技发展公司

作者：Haoyi Zhou、Shanghang Zhang、Jieqi Peng、Shuai Zhang、Jianxin Li、Hui Xiong、Wancai Zhang

摘要：许多实际应用需要预测长序列时间序列，例如用电规划。长序列时间序列预测（LSTF）需要模型的高预测能力，即高效捕捉输出和输入之间精确的长期依赖耦合的能力。最近的研究表明 Transformer 具有提高预测能力的潜力。

然而，Transformer 存在一些严重的问题，使其无法直接应用于 LSTF，例如二次时间复杂度、高内存使用率以及编码器-解码器架构的固有限制。

为了解决这些问题，我们为 LSTF 设计了一个高效的基于 Transformer 的模型，名为 Informer，具有三个鲜明的特征：

(i）ProbSparse Self-attention 机制，在时间复杂度和内存使用方面实现了 O(Llog L)，并且具有序列依赖性比对的可比性能。

(ii) 自注意力蒸馏通过将级联层输入减半来突出主导注意力，并有效地处理极长的输入序列。

(iii) 生成式解码器虽然概念上很简单，但在一次前向操作中而不是一步一步地预测长时间序列序列，这大大提高了长序列预测的推理速度。

在四个大规模数据集上的大量实验表明，Informer 显着优于现有方法，并为 LSTF 问题提供了新的解决方案。

多智能体学习中的探索-利用：灾难理论遇到博弈论

论文：Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

论文地址：https://arxiv.org/pdf/2012.03083.pdf (文末附下载方式)

院校：新加坡科技与设计大学

作者：Stefanos Leonardos、Georgios Piliouras

摘要：探索-利用是多智能体学习 (MAL) 中一种强大而实用的工具，但其效果尚不清楚。为了在这个方向上取得进展，我们研究了 Q-learning 的平滑模拟。我们首先表明，我们的学习模型作为研究探索开发的最佳模型具有很强的理论依据。

具体来说，我们证明，对于明确捕获游戏和探索成本之间的平衡的成本模型，平滑 Q 学习在任意游戏中具有有限的遗憾，并且它始终收敛到一组量子响应均衡（QRE），标准解决方案概念对于有限理性下的博弈，在具有异构学习代理的加权潜在博弈中。

在我们的主要任务中，我们然后转向衡量探索对集体系统性能的影响。我们描述了低维 MAL 系统中 QRE 表面的几何形状，并将我们的发现与灾难（分叉）理论联系起来。特别是，随着探索超参数随着时间的推移而演变，系统会经历相变，其中平衡的数量和稳定性可以从根本上改变，因为探索参数的变化非常小。

基于此，我们提供了一个正式的理论处理，说明如何调整探索参数可以证明导致平衡选择对系统性能产生积极和消极（并且可能是无限的）影响。

通过强化校准减轻语言模型中的政治偏见

论文名称：Mitigating Political Bias in Language Models Through Reinforced Calibration

论文地址：https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf (文末附下载方式)

机构：达特茅斯学院、德克萨斯大学奥斯汀分校、Google AI

作者：Ruibo Liu、Chenyan Jia、Jason Wei、Guangxuan Xu、Lili Wang 和 Soroush Vosoughi

摘要：当前的大规模语言模型可能会因其所训练的数据而存在政治偏见，当它们部署在现实世界中时可能会导致严重的问题。

在本文中，我们描述了测量 GPT-2 生成中政治偏见的指标，并提出了一个强化学习 (RL) 框架来减轻生成文本中的政治偏见。通过使用来自词嵌入或分类器的奖励，我们的 RL 框架指导去偏差生成，而无需访问训练数据或需要重新训练模型。在对政治偏见敏感的三个属性（性别、位置和主题）的实证实验中，我们的方法根据我们的指标和人工评估减少了偏见，同时保持了可读性和语义一致性。

最佳论文亚军

从极端强盗反馈中学习

论文名称：Learning From Extreme Bandit Feedback

论文地址：https://arxiv.org/pdf/2009.12947.pdf (文末附下载方式)

机构：加州大学伯克利分校、德克萨斯大学奥斯汀分校

作者：Romain Lopez、Inderjit Dhillon、Michael I. Jordan

摘要：我们研究了在极大动作空间的设置中从强盗反馈中批量学习的问题。从极端强盗反馈中学习在推荐系统中无处不在，其中在一天内对由数百万个选择组成的集合做出数十亿个决策，产生大量观察数据。

在这些大规模的现实世界应用中，尽管由于bandit反馈和监督标签之间的不匹配而导致显着的偏差，但诸如极限多标签分类 (XMC) 之类的监督学习框架被广泛使用。这种偏差可以通过重要性采样技术来减轻，但这些技术在处理大量动作时会出现不切实际的差异。

在本文中，我们引入了一种选择性重要性采样估计器 (sIS)，它在一个明显更有利的偏差方差机制中运行。sIS 估计器是通过对每个实例的一小部分动作（Rao-Blackwellization 的一种形式）对奖励的条件期望进行重要性采样来获得的。

我们在一个新的算法程序中使用这个估计器——称为极端模型的策略优化 (POXM)——从强盗对 XMC 任务的反馈中学习。在 POXM 中，sIS 估计器选择的动作是日志策略的 top-p 动作，其中 p 是根据数据调整的，并且明显小于动作空间的大小。

我们在三个 XMC 数据集上使用监督到强盗的转换来对我们的 POXM 方法与三种竞争方法进行基准测试：BanditNet、以前应用的部分匹配修剪策略和监督学习基线。虽然 BanditNet 有时比日志记录策略略有改进，但我们的实验表明，POXM 在所有基线上都有系统且显着的改进。

Self-Attention Attribution：解读transformer内部的信息交互

论文名称：Self-Attention Attribution: Interpreting Information Interactions Inside Transformer

论文地址：https://arxiv.org/pdf/2004.11207.pdf (文末附下载方式)

机构：北京航空航天大学、微软研究院

作者：郝亚茹、李东、傅如薇、许柯

摘要：基于 Transformer 的模型的巨大成功得益于强大的多头自注意力机制，该机制从输入中学习令牌依赖性并编码上下文信息。先前的工作努力将模型决策归因于具有不同显着性度量的单个输入特征，但他们未能解释这些输入特征如何相互作用以达到预测。

在本文中，我们提出了一种自注意力归因算法来解释 Transformer 内部的信息交互。我们以BERT为例进行广泛的研究。首先，我们提取每一层中最显着的依赖关系来构建一个归因图，它揭示了 Transformer 内部的分层交互。此外，我们应用 selfattention 归因来识别重要的注意力头，而其他注意力头只能在边缘性能下降的情况下进行修剪。

最后，我们表明归因结果可以用作对抗性模式来实施对 BERT 的非针对性攻击。

双重任务巡逻：绿色安全的多臂强盗

论文名称：Dual-Mandate Patrols: Multi-Armed Bandits for Green Security

论文地址：https://arxiv.org/pdf/2009.06560.pdf (文末附下载方式)

机构：哈佛大学、卡内基梅隆大学

作者：Lily Xu、Elizabeth Bondi、Fei Fang、Andrew Perrault、Kai Wang、Milind Tambe

摘要：在绿色安全领域保护野生动物和森林的保护工作受到防御者（即巡逻者）的有限可用性的限制，他们必须巡逻大片区域以防止攻击者（例如偷猎者或非法伐木者）。防御者必须选择在保护区的每个区域花费多少时间，平衡不常访问区域的探索和已知热点的开发。

我们将问题表述为随机多臂bandit，其中每个动作代表一个巡逻策略，使我们能够保证巡逻策略的收敛速度。然而，幼稚的bandit方法会为了长期最优而损害短期性能，导致动物被偷猎和森林被毁。

为了加快性能，我们利用奖励函数的平滑性和动作的可分解性。我们展示了 Lipschitz 连续性和分解之间的协同作用，因为每个都有助于另一个的收敛。通过这样做，我们弥合了组合bandit和 Lipschitz bandit之间的差距，提出了一种无悔方法，可以在优化短期性能的同时收紧现有保证。

我们证明了我们的算法 LIZARD 提高了柬埔寨真实世界偷猎数据的性能。

原文链接：

https://synced.medium.com/aaai-2021-best-papers-announced-c32307f3d39b