基于注意力的神经网络已经在许多任务上取得了最先进的成果。这类模型大多采用确定性注意力,而随机注意力由于优化困难或模型设计复杂,研究较少。本文介绍了贝叶斯注意力信念网络,该网络通过将非归一化的注意力权值建立在伽马分布的层次上来构造解码器网络,通过将具有确定性-向上-随机-向下结构的Weibull分布叠加来近似后变分布来构造编码器网络。所得到的自编码网络可以以一种变分下界的可微方式进行优化。任何具有确定性注意力的模型,包括预训练过的模型,都可以简单地转换为所提出的贝叶斯注意力信念网络。在各种语言理解任务中,我们证明了我们的方法在准确性、不确定性估计、跨域泛化和对抗攻击的鲁棒性方面优于确定性注意和最新的随机注意力。我们进一步证明了该方法在神经机器翻译和视觉问答方面的普遍适用性,显示了将该方法整合到各种注意力相关任务中的巨大潜力。
https://www.zhuanzhi.ai/paper/0488b7f68e55c8ab23e726bc5b66d5f5