题目: Hyperbolic Attention Network
摘要: 最近的方法已经成功地证明了在双曲空间中学习浅层网络参数的优势。我们将双曲几何引入到用于计算不同神经网络结构的注意力机制的嵌入中,从而扩展了这一工作。通过改变object表示的嵌入几何形状,可以在不增加模型参数的情况下能更有效地利用嵌入空间。更重要的是,由于查询的语义距离以指数的速度增长,双曲几何与欧几里得几何相反—可以编码那些object而没有任何干扰。我们的方法在总体上对WMT' 14(英语到德语)的神经机器翻译、图学习(合成和现实世界图任务)和视觉问答(CLEVR)3个任务得到了提升,同时保持神经表征的简洁。