【AAAI2022】基于分层随机注意的Transformer 不确定性估计 - 专知VIP

会员服务 ·

4

Transformer · AAAI 2022 · 论文 ·

2021 年 12 月 29 日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Transformers 在许多NLP任务中都是最先进的，并且也被应用到许多现实世界的产品中。理解变压器模型预测的可靠性和确定性对于构建可靠的机器学习应用(如医疗诊断)至关重要。虽然最近提出了许多Transformer的扩展，但对Transformer模型的不确定性估计的研究还不够深入。在本工作中，我们提出了一种新的方法，使Transformer具有不确定性估计的能力，同时，保持原有的预测性能。这是通过学习一个分层随机的自注意力来实现的，它分别关注值和一组可学习的质心。然后使用Gumbel-Softmax方法，将采样的质心混合形成新的注意力头。从理论上证明了从Gumbel分布中抽样得到的自注意力近似是有上界的。在两个具有域内(ID)和域外(OOD)数据集的文本分类任务上，我们实证地评估了我们的模型。实验结果表明，该方法具有较好的预测性能和不确定性权衡;(2)在ID数据集上表现出非常有竞争力的(在大多数情况下是改进的)预测性能;(3)在OOD数据集的不确定度估计方面与蒙特卡罗dropout和集成方法相当。

成为VIP会员查看完整内容

29

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【ICCV2021】递阶变分神经不确定性模型的随机视频预测

专知会员服务

14+阅读 · 2021年10月9日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

50+阅读 · 2020年12月8日

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

PaperWeekly

1+阅读 · 2022年3月17日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知

0+阅读 · 2022年2月5日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

鲁棒模型拟合中的关键问题研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

基于变系数模型与函数逼近的非线性非平稳系统建模与预测研究

国家自然科学基金

0+阅读 · 2012年12月31日

多随机激励下风电机组在线辨识建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

Marginal log-linear models and mediation analysis

Arxiv

0+阅读 · 2022年4月18日

Causal Transformer for Estimating Counterfactual Outcomes

Arxiv

0+阅读 · 2022年4月14日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

VIP会员

相关主题

相关VIP内容

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【ICCV2021】递阶变分神经不确定性模型的随机视频预测

专知会员服务

14+阅读 · 2021年10月9日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

50+阅读 · 2020年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

PaperWeekly

1+阅读 · 2022年3月17日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知

0+阅读 · 2022年2月5日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

相关基金

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

鲁棒模型拟合中的关键问题研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

基于变系数模型与函数逼近的非线性非平稳系统建模与预测研究

国家自然科学基金

0+阅读 · 2012年12月31日

多随机激励下风电机组在线辨识建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Marginal log-linear models and mediation analysis

Arxiv

0+阅读 · 2022年4月18日

Causal Transformer for Estimating Counterfactual Outcomes

Arxiv

0+阅读 · 2022年4月14日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

微信扫码咨询专知VIP会员