Since the superiority of Transformer in learning long-term dependency, the sign language Transformer model achieves remarkable progress in Sign Language Recognition (SLR) and Translation (SLT). However, there are several issues with the Transformer that prevent it from better sign language understanding. The first issue is that the self-attention mechanism learns sign video representation in a frame-wise manner, neglecting the temporal semantic structure of sign gestures. Secondly, the attention mechanism with absolute position encoding is direction and distance unaware, thus limiting its ability. To address these issues, we propose a new model architecture, namely PiSLTRc, with two distinctive characteristics: (i) content-aware and position-aware convolution layers. Specifically, we explicitly select relevant features using a novel content-aware neighborhood gathering method. Then we aggregate these features with position-informed temporal convolution layers, thus generating robust neighborhood-enhanced sign representation. (ii) injecting the relative position information to the attention mechanism in the encoder, decoder, and even encoder-decoder cross attention. Compared with the vanilla Transformer model, our model performs consistently better on three large-scale sign language benchmarks: PHOENIX-2014, PHOENIX-2014-T and CSL. Furthermore, extensive experiments demonstrate that the proposed method achieves state-of-the-art performance on translation quality with $+1.6$ BLEU improvements.


翻译:由于变异器在学习长期依赖方面的优势,手语变异器模式在手语识别和翻译方面取得了显著进步。然而,与变异器存在若干问题,这使得它无法更好地理解手语理解。第一个问题是,自留机制以框架方式学习签名视频代表,忽视了标志手势的暂时语义结构。第二,带有绝对位置编码的注意机制是方向和距离,因此限制了它的能力。为了解决这些问题,我们提议了一个新的模型结构,即PISLTRc,具有两个不同的特点:(一) 内容认知和位置认知变异层。具体地说,我们明确选择了使用新颖内容认知邻居收集方法的相关特征。然后,我们将这些特征与位置知情的时间变异层结合起来,从而产生强大的邻里增强信号代表结构。 (二) 将相对位置信息注入到编码器、解码器、甚至分解码器的注意机制中。与Vanilla变异器模型相比,我们用新的内容识别和感知变异相结构系统化模型在三个大尺度的B-2014年测试方法上持续进行更好的表现。

0
下载
关闭预览

相关内容

人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
最新《Transformers模型》教程,64页ppt
专知会员服务
274+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关论文
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
5+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员