基于注意力的神经网络已经在许多任务上取得了最先进的成果。这类模型大多采用确定性注意力,而随机注意力由于优化困难或模型设计复杂,研究较少。本文介绍了贝叶斯注意力信念网络,该网络通过将非归一化的注意力权值建立在伽马分布的层次上来构造解码器网络,通过将具有确定性-向上-随机-向下结构的Weibull分布叠加来近似后变分布来构造编码器网络。所得到的自编码网络可以以一种变分下界的可微方式进行优化。任何具有确定性注意力的模型,包括预训练过的模型,都可以简单地转换为所提出的贝叶斯注意力信念网络。在各种语言理解任务中,我们证明了我们的方法在准确性、不确定性估计、跨域泛化和对抗攻击的鲁棒性方面优于确定性注意和最新的随机注意力。我们进一步证明了该方法在神经机器翻译和视觉问答方面的普遍适用性,显示了将该方法整合到各种注意力相关任务中的巨大潜力。

https://www.zhuanzhi.ai/paper/0488b7f68e55c8ab23e726bc5b66d5f5

成为VIP会员查看完整内容
38

相关内容

专知会员服务
18+阅读 · 2021年7月28日
专知会员服务
28+阅读 · 2021年7月19日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
35+阅读 · 2021年6月3日
专知会员服务
19+阅读 · 2021年5月30日
专知会员服务
32+阅读 · 2021年5月18日
专知会员服务
80+阅读 · 2021年5月10日
WSDM 2020教程《深度贝叶斯数据挖掘》,附257页PPT下载
专知会员服务
153+阅读 · 2020年2月7日
注意力图神经网络的多标签文本分类
专知
8+阅读 · 2020年3月28日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
已删除
架构文摘
3+阅读 · 2019年4月17日
学界 | 稳定、表征丰富的球面变分自编码器
机器之心
5+阅读 · 2018年10月12日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
一文帮你理解什么是深层置信网络(DBN)
Tikhonov Regularization of Circle-Valued Signals
Arxiv
0+阅读 · 2021年8月5日
Arxiv
26+阅读 · 2021年5月17日
Arxiv
9+阅读 · 2021年2月8日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年7月28日
专知会员服务
28+阅读 · 2021年7月19日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
35+阅读 · 2021年6月3日
专知会员服务
19+阅读 · 2021年5月30日
专知会员服务
32+阅读 · 2021年5月18日
专知会员服务
80+阅读 · 2021年5月10日
WSDM 2020教程《深度贝叶斯数据挖掘》,附257页PPT下载
专知会员服务
153+阅读 · 2020年2月7日
相关论文
微信扫码咨询专知VIP会员