ACL20 如何使用选择机制提升自注意力网路能力?

2020 年 8 月 29 日 专知

论文名称:How Does Selective Mechanism Improve Self-Attention Networks?
论文作者:耿昕伟,王龙跃,王星,秦兵,刘挺,涂兆鹏
原创作者:耿昕伟
论文链接:https://www.aclweb.org/anthology/2020.acl-main.269.pdf

1. 简介

自注意力网络(SANs)在许多自然语言处理任务中取得显著的成功,其中包括机器翻译、自然语言推理以及语义角色标注任务。相比传统的循环神经网络以及卷积神经网络,自注意力网络优势在于其高度的运算并行性以及更加灵活的建模输入元素的依存关系能力。传统的自注意力网络模型在计算每个元素的表示的时候,将所有的输入的元素考虑在内,而不管其对于当前元素的相关性。本问题提出通用的基于选择机制的自注意力网络模型(SSANs),其可以针对每个计算表示的元素,动态地选择其相关性的子集,以此作为输入进行后续的自注意力网络的计算。实验结果显示,SSANs模型在多个典型的自然语言处理任务上相比传统的自注意力网络模型获得提升。通过多个探测任务进行分析,SSANs相比传统的SANs模型有更强的词序信息编码能力以及结构信息建模能力。

2. 模型结构

2.1 传统的自注意力网络

现在的自注意力网络是传统的注意力网路的特例,其计算注意力权重的两个元素来源同样的输入序列。给定输入隐层表示 ,自注意力网络SANs首先将H分别线性变换成 以及 。自注意力网络的输出O计算过程如下:其中 是基于点积的注意力机制,其计算过程如下:其中√d是缩放因子且d是隐含层状态表示的维度。传统的自注意力网络结构如图 1所示。

图1 传统的自注意力网络框架

2.2 基于选择机制的自注意力网络

相比传统的自注意力网络,本文引入一个选择器模块(Selector),其主要针对每个待计算表示的元素,动态地选择输入元素的集合中的一个子集作为其相关元素集合,基于此集合进行后续的常规的自注意力网络的计算,其整体的框架如图 2所示。

图2 基本自注意力机制的自注意力网络框架

选择器模块 本文使用额外的策略网络参数化选择动作 ,其中 表示其对应的元素被选择进行后续的常规的自注意力网路的计算,而 则代表相应的元素未被选中。其输出动作序列计算过程如下:

其中 以及 线性变换的结果。本文使用sigmoid作为激活函数计算策略分布。通过使用额外的选择器模块,SSANs的注意力权重 计算过程如下:

最终基于选择机制的自注意力网络的输出 计算过程如下:

Gumbel-Sigmoid 本文使用gumbel-softmax对隐含变量A的梯度进行评估,其主要将离散的采样过程连续化,这样使用正常的BP算法就可以实现对其梯度评估。相比REINFORCE算法,其稳定性更高。本文策略网络使用sigmoid作为激活函数,其可以看作是softmax的特例,从而依据gumbel-softmax函数计算方法,可以推导出gumbel-sigmoid形式如下:其中G'和G''是gumbel noise。

3 实验结果

基于选择机制的自注意力网络模型在三个典型的NLP任务上取得一致的提升。特别的,在机器翻译任务上,SSANs在三个英语到其他语言的翻译上超过传统的SANs模型。在英语=>罗马尼亚以及英语=>日语的翻译任务上,SSANs分别获得+0.69和+0.61 BLEU提升。此外,在相对规模比较大的英=>德翻译任务上,SSANs也获得一致的提升(+0.90 BLEU)。

表1 基于选择的自注意力网络模型在不同任务上的结果

4 实验分析

4.1 词序信息编码能力评价

为了评价SSANs的对于局部词序信息以及全局词序信息编码的能力,本文引入两个特定的检测任务分别评价模型对于两种类型信息编码的能力。其中,局部词序信息检测任务目标是分类是否句子中存在两个相邻词的进行交换,而全局词序信息检测任务随机选择句子中的某个词语,并将其插入到另一个位置,而任务的目标就是通过分类找到被插入的词汇以及其原来所在的位置。实验结果显示,SSANs在两个任务上,相比传统的SANs,均取得较大的提升。通过分析其相应的自注意力网络权重发现,SSANs能够根据任务将更多的注意力权重分配到重要的信息建模上。

表2 局部信息检测任务实验结果


图3 局部信息检测任务注意力权重分布
表3 全局信息检测任务实验结果

图4 全局信息检测任务注意力权重分布

4.2 结构信息建模能力评价

为了评价SSANs对于结构信息的建模能力,本文首先引入两个检测任务评价模型对于结构信息的捕捉能力。其中一个任务目标是测试模型是否可以根据组合语法树的深度对于输入的句子进行分类,而另一个任务的目标是对输入句子按照其组合语法树根节点之下的成分类型进行分类。实验结果发现,SSANs在两种类型的任务上均取得提升,并且对于复杂的问题有更好处理能力。此外,模型根据注意力网络的权重构建组合语法树,SSANs构建的语法树质量好于SANs模型的结果。

表4 组合语法树深度预测任务实验结果

表5 组合语法树成分类型预测任务实验结果

5 结论

本文提出一种通用的基于选择机制的自注意力网络模型,其可以针对每个计算表示的元素,动态地选择其相关性的子集,以此作为输入进行后续的自注意力网络的计算。其在多个自然语言任务上,与传统的自注意力网络相比,取得一致提升。通过实验分析发现,基于选择机制的自注意力网络可以在一定程度上缓解注意力网络存在的词序信息编码和结构信息建模能力不足的问题。


延伸阅读

哈工大SCIR八篇论文被AAAI-20录用

哈工大SCIR八篇长文被ACL 2020录用

赛尔原创 | WWW20 关键词生成提升电商会话推荐

赛尔原创 | ACL20 基于对话图谱的开放域多轮对话策略学习

赛尔原创 | ACL20 基于图注意力网络的多粒度机器阅读理解文档建模

赛尔原创 | ACL20 用于多领域端到端任务型对话系统的动态融合网络

赛尔原创 | ACL20 让模型“事半功倍”,探究少样本序列标注方法


本期责任编辑:崔一鸣

本期编辑:王若珂



哈工大SCIR公众号

主编:车万翔
副主编:张伟男,丁效
执行编辑:高建男
责任编辑:张伟男,丁效,崔一鸣,李忠阳
编辑:赖勇魁,李照鹏,冯梓娴,胡晓毓,王若珂,顾宇轩

长按下图即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号 哈工大SCIR

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
【论文笔记】自注意力图池化
专知
80+阅读 · 2019年11月18日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
从三大顶会论文看百变Self-Attention
PaperWeekly
17+阅读 · 2019年11月11日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
用Attention玩转CV,一文总览自注意力语义分割进展
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
Arxiv
6+阅读 · 2019年4月8日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
9+阅读 · 2018年10月24日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
17+阅读 · 2018年4月2日
VIP会员
相关VIP内容
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
【论文笔记】自注意力图池化
专知
80+阅读 · 2019年11月18日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
从三大顶会论文看百变Self-Attention
PaperWeekly
17+阅读 · 2019年11月11日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
用Attention玩转CV,一文总览自注意力语义分割进展
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
相关论文
Arxiv
6+阅读 · 2019年4月8日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
9+阅读 · 2018年10月24日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
17+阅读 · 2018年4月2日
Top
微信扫码咨询专知VIP会员