Sign language is used by deaf or speech impaired people to communicate, and requires great efforts to master. Sign Language Recognition (SLR) aims to make a bridge between sign language users and the others by recognize the word from given videos. It is a important yet challenging task since sign language is performed with fast and complex movement of hand gestures, body posture and even facial expressions. Recently, skeleton based action recognition attracts increasing attention due to the independence on subjects and background variations. It is also a strong complement to RGB/D modalities to further boost the overall recognition rate. However, skeleton based on SLR is still under exploration due to the lack of annotations on hand keypoints. Some efforts have been made to use hand detectors with pose estimator to extract hand keypoints, and learn to recognize sign language via a Recurrent Neural Network, but none of them outperforms RGB based methods. To this end, we propose a novel skeleton based SLR approach using whole-body keypoints with a universal multi-modal SLR framework (Uni-SLR) to further improve the recognition rate. Specifically, we propose a Graph Convolution Network (GCN) to model the embedded spatial relations and dynamic motions, and propose a novel Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. Our skeleton based method achieves a higher recognition rate compared with all other single modalities. Moreover, our proposed Uni-SLR framework can further enhance the performance by assembling our skeleton based method with other RGB and depth modalities. As a result, our Uni-SLR framework achieves the highest performance in both RGB (98.42\%) and RGB-D (98.53\%) tracks in 2021 Looking at People Large Scale Signer Independent Isolated SLR Challenge. Our code will be provided in \url{https://github.com/jackyjsy/CVPR21Chal-SLR}.


翻译:聋哑人或语言受损人使用手势语言进行交流,这需要做出巨大的努力才能掌握。手语识别(SLR)旨在通过识别特定视频中的单词在手语使用者和其他人之间架起桥梁。这是一个重要而具有挑战性的任务,因为手势、身体姿势甚至面部表达方式的快速和复杂的移动是手势、身体姿势、甚至面部表达式的动作。最近,由于在主题和背景变异上的独立性,基于骨架的行动识别吸引了越来越多的关注。它也是对RGB/D模式的有力补充,以进一步提高总体认知率。然而,基于SLRRR(SLR)的骨架仍然在探索中。我们提议使用带有配置显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示显示的直径(GGRRRRRRRRRRRR)最高性能检测器手势的手动检测器,我们用SQOLS-S-SLRVS最高性能定位网络的SLRV(GRVS-RVS-S-S-Slalalalalal-SLVLS-S-S-S-ILVLVLM)模式,我们用S-S-ILVAL 和S-S-S-S-ILVLVLVLMS 以以以以显示显示我们S-RVFS-S-S-S-S-S-S-RVF-S-S-RVFS-S-RVLVDRVLVLVLVS-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-ILVLVLVAL-ILVAL-RVD-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-I-I

0
下载
关闭预览

相关内容

Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
179+阅读 · 2020年3月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Github项目推荐 | 知识图谱文献集合
AI研习社
26+阅读 · 2019年4月12日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
179+阅读 · 2020年3月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Github项目推荐 | 知识图谱文献集合
AI研习社
26+阅读 · 2019年4月12日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员