【AAAI2022】基于分层随机注意的Transformer 不确定性估计 - 专知

会员服务 ·

0

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

2021 年 12 月 29 日 专知

Transformers 在许多NLP任务中都是最先进的，并且也被应用到许多现实世界的产品中。理解变压器模型预测的可靠性和确定性对于构建可靠的机器学习应用(如医疗诊断)至关重要。虽然最近提出了许多Transformer的扩展，但对Transformer模型的不确定性估计的研究还不够深入。在本工作中，我们提出了一种新的方法，使Transformer具有不确定性估计的能力，同时，保持原有的预测性能。这是通过学习一个分层随机的自注意力来实现的，它分别关注值和一组可学习的质心。然后使用Gumbel-Softmax方法，将采样的质心混合形成新的注意力头。从理论上证明了从Gumbel分布中抽样得到的自注意力近似是有上界的。在两个具有域内(ID)和域外(OOD)数据集的文本分类任务上，我们实证地评估了我们的模型。实验结果表明，该方法具有较好的预测性能和不确定性权衡;(2)在ID数据集上表现出非常有竞争力的(在大多数情况下是改进的)预测性能;(3)在OOD数据集的不确定度估计方面与蒙特卡罗dropout和集成方法相当。

https://www.zhuanzhi.ai/paper/adbc5e805b7d14d200f7242d9815a3cf

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“HSAT” 就可以获取《【AAAI2022】基于分层随机注意的Transformer 不确定性估计》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

不确定性估计

不确定性估计

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【KDD2021】多任务层次图表示学习框架的房地产评估

专知会员服务

22+阅读 · 2021年7月14日

【WWW2021】神经协同推理

专知会员服务

58+阅读 · 2021年5月17日

【NAACL2021】信息解缠正则化持续学习的文本分类

【NAACL2021】信息解缠正则化持续学习的文本分类

专知会员服务

22+阅读 · 2021年4月11日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

50+阅读 · 2020年12月8日

【EMNLP 2020 】基于反事实推理的开放域生成式对话

专知会员服务

27+阅读 · 2020年11月5日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知

1+阅读 · 2022年3月4日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知

2+阅读 · 2022年2月8日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知

0+阅读 · 2022年2月5日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【WSDM2022】具有分层注意力的图嵌入

【WSDM2022】具有分层注意力的图嵌入

专知

0+阅读 · 2021年11月17日

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

专知

1+阅读 · 2021年9月1日

【NAACL2021】信息解缠正则化持续学习的文本分类

【NAACL2021】信息解缠正则化持续学习的文本分类

专知

0+阅读 · 2021年4月11日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知

5+阅读 · 2021年3月31日

【WWW2021】对抗对比变分自编码器的序列推荐

【WWW2021】对抗对比变分自编码器的序列推荐

专知

0+阅读 · 2021年3月23日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

随机模糊时变网络最短路径问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于轨迹灵敏度的随机网络控制系统不敏感控制

国家自然科学基金

1+阅读 · 2013年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

随机交通网络行驶时间可靠性分析的关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于信任和风险的访问控制博弈模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

多随机激励下风电机组在线辨识建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于任务尺度的分布时钟同步策略研究

国家自然科学基金

0+阅读 · 2011年12月31日

气化炉控制系统设计的随机方法

国家自然科学基金

0+阅读 · 2011年12月31日

含未知参数随机跳变系统的自适应镇定性研究

国家自然科学基金

0+阅读 · 2009年12月31日

随机变系数模型的研究及其在经济学中的应用

国家自然科学基金

1+阅读 · 2008年12月31日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Optimal bounds for numerical approximations of infinite horizon problems based on dynamic programming approach

Arxiv

1+阅读 · 2022年4月19日

SVIP: Sequence VerIfication for Procedures in Videos

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Causal Transformer for Estimating Counterfactual Outcomes

Arxiv

0+阅读 · 2022年4月14日

EXPERT: Public Benchmarks for Dynamic Heterogeneous Academic Graphs

Arxiv

0+阅读 · 2022年4月14日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

VIP会员

相关主题

不确定性估计

Transformer模型

相关VIP内容

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【KDD2021】多任务层次图表示学习框架的房地产评估

专知会员服务

22+阅读 · 2021年7月14日

【WWW2021】神经协同推理

专知会员服务

58+阅读 · 2021年5月17日

【NAACL2021】信息解缠正则化持续学习的文本分类

【NAACL2021】信息解缠正则化持续学习的文本分类

专知会员服务

22+阅读 · 2021年4月11日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

50+阅读 · 2020年12月8日

【EMNLP 2020 】基于反事实推理的开放域生成式对话

专知会员服务

27+阅读 · 2020年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知

1+阅读 · 2022年3月4日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知

2+阅读 · 2022年2月8日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知

0+阅读 · 2022年2月5日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【WSDM2022】具有分层注意力的图嵌入

【WSDM2022】具有分层注意力的图嵌入

专知

0+阅读 · 2021年11月17日

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

专知

1+阅读 · 2021年9月1日

【NAACL2021】信息解缠正则化持续学习的文本分类

【NAACL2021】信息解缠正则化持续学习的文本分类

专知

0+阅读 · 2021年4月11日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知

5+阅读 · 2021年3月31日

【WWW2021】对抗对比变分自编码器的序列推荐

【WWW2021】对抗对比变分自编码器的序列推荐

专知

0+阅读 · 2021年3月23日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

相关基金

随机模糊时变网络最短路径问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于轨迹灵敏度的随机网络控制系统不敏感控制

国家自然科学基金

1+阅读 · 2013年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

随机交通网络行驶时间可靠性分析的关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于信任和风险的访问控制博弈模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

多随机激励下风电机组在线辨识建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于任务尺度的分布时钟同步策略研究

国家自然科学基金

0+阅读 · 2011年12月31日

气化炉控制系统设计的随机方法

国家自然科学基金

0+阅读 · 2011年12月31日

含未知参数随机跳变系统的自适应镇定性研究

国家自然科学基金

0+阅读 · 2009年12月31日

随机变系数模型的研究及其在经济学中的应用

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Optimal bounds for numerical approximations of infinite horizon problems based on dynamic programming approach

Arxiv

1+阅读 · 2022年4月19日

SVIP: Sequence VerIfication for Procedures in Videos

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Causal Transformer for Estimating Counterfactual Outcomes

Arxiv

0+阅读 · 2022年4月14日

EXPERT: Public Benchmarks for Dynamic Heterogeneous Academic Graphs

Arxiv

0+阅读 · 2022年4月14日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员