基于视觉的手语处理:识别、翻译与生成

手语(Sign Languages),也称为手势语言,是聋人和听障人士的主要交流方式。它通过手势(manual parameters)和非手势(non-manual parameters)参数来传递信息。这些视觉语言具有独特的语法规则和词汇,与其对应的口语通常存在显著差异,从而导致聋人与听人之间的双向沟通障碍。在本论文中,我们将详细介绍在手语处理(Sign Language Processing, SLP)各个领域的研究工作,包括手语识别(Recognition)、手语翻译(Translation)和手语生成(Generation),以期缩小这一沟通鸿沟。

手语编码器的设计

我们首先关注手语编码器(Sign Encoder)的设计。以往的手语编码器大多采用单模态(single-modality)方法,主要依赖于RGB视频,但这种方法容易受到视觉冗余(visual redundancy)的影响,如背景干扰和手语者的外观变化等。为提升手语建模的鲁棒性,我们在手语编码器中引入关键点(keypoints)作为额外的模态。关键点能够突出手语表达中的关键人体部位(如手部),并能有效减少视觉冗余。我们通过将关键点表示为一系列热图(heatmaps),不仅降低了关键点估计的噪声,同时也使关键点建模的网络架构能够与视频建模保持一致,无需额外的特殊设计。最终,我们提出了一种双流(two-stream)架构的手语编码器——视频-关键点网络(Video-Keypoint Network, VKNet),其中视频流和关键点流以跨流连接(inter-stream connections)的方式进行信息交互。

手语识别(Sign Language Recognition, SLR)

VKNet首先应用于连续手语识别(Continuous Sign Language Recognition, CSLR),这一任务是SLP的核心问题。然而,由于数据稀缺(data scarcity),训练这样一个大规模网络极具挑战性。除了采用连接时序分类(Connectionist Temporal Classification, CTC)作为主要目标函数外,我们还提出了一系列辅助训练策略,包括手语金字塔网络(Sign Pyramid Networks)与辅助监督(auxiliary supervision)、自蒸馏(self-distillation)等,以提升训练效果。最终形成的整体模型称为VKNet-CSLR。在此基础上,我们进一步扩展其功能,使其支持手语翻译(Sign Language Translation, SLT),通过附加一个翻译网络(Translation Network)完成端到端的手语视频到文本转换。我们还研究了SLP中的另一传统任务——孤立手语识别(Isolated Sign Language Recognition, ISLR)。针对手语时长变化较大的问题,我们对VKNet进行拓展,使其能够接受不同时间感受野(temporal receptive field)的视频-关键点对作为输入。此外,我们发现手语中存在视觉上不可区分的手势(visually indistinguishable signs),为此,我们基于自然语言先验(natural language priors)提出了两种训练策略:语言感知标签平滑(language-aware label smoothing)跨模态混合(inter-modality mixup),以增强模型的区分能力和训练稳定性。

在线手语识别与翻译(Online CSLR & SLT)

在实际应用场景中,能够实时识别和翻译手语视频的系统更具用户友好性,这促使我们开发一个适用于CSLR和SLT的在线(Online)框架。与以往的离线CSLR方法不同,传统方法通常在整个未经裁剪的视频序列上进行训练和推理,而我们的框架则基于**短手语片段(short sign clips)训练一个ISLR模型,并采用滑动窗口(sliding-window)**方式进行实时预测。此外,该框架还可扩展用于提升离线CSLR的性能,并结合轻量级网络(lightweight networks)进一步支持在线SLT任务。

手语生成(Sign Language Generation, SLG)

手语识别和翻译任务的目标是将手语视频转换为文本表示(手语词序列或文本)。作为逆过程,手语生成(Sign Language Generation, SLG)旨在将口语文本转换为手语,从而完成双向沟通闭环(two-way communication loop)。为此,我们提出了一种简单而有效的手语生成基线模型(SLG baseline),通过**3D虚拟人(3D avatars)**进行手语合成,以提升手语内容的可视化表达。

成为VIP会员查看完整内容
0

相关内容

【博士论文】视觉-语言模型时代的生成式视觉传播
专知会员服务
23+阅读 · 2024年12月10日
【NTU博士论文】图结构数据的深度学习
专知会员服务
33+阅读 · 2024年9月18日
【MIT博士论文】数据高效强化学习,176页pdf
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
CCCF专栏 | 面向领域定制的神经网络结构设计
中国计算机学会
10+阅读 · 2018年12月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
436+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关主题
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员