We present a multilingual, continuous backchannel prediction model for Japanese, English, and Chinese, and use it to investigate cross-linguistic timing behavior. The model is Transformer-based and operates at the frame level, jointly trained with auxiliary tasks on approximately 300 hours of dyadic conversations. Across all three languages, the multilingual model matches or surpasses monolingual baselines, indicating that it learns both language-universal cues and language-specific timing patterns. Zero-shot transfer with two-language training remains limited, underscoring substantive cross-lingual differences. Perturbation analyses reveal distinct cue usage: Japanese relies more on short-term linguistic information, whereas English and Chinese are more sensitive to silence duration and prosodic variation; multilingual training encourages shared yet adaptable representations and reduces overreliance on pitch in Chinese. A context-length study further shows that Japanese is relatively robust to shorter contexts, while Chinese benefits markedly from longer contexts. Finally, we integrate the trained model into a real-time processing software, demonstrating CPU-only inference. Together, these findings provide a unified model and empirical evidence for how backchannel timing differs across languages, informing the design of more natural, culturally-aware spoken dialogue systems.


翻译:我们提出了一种适用于日语、英语和汉语的多语言连续反馈预测模型,并利用该模型探究跨语言时序行为。该模型基于Transformer架构,在帧级别运行,通过约300小时的双人对话数据与辅助任务进行联合训练。在三种语言中,多语言模型均达到或超越了单语言基线,表明该模型同时学习了语言通用线索和语言特定的时序模式。使用两种语言训练的零样本迁移效果有限,凸显了实质性的跨语言差异。扰动分析揭示了不同的线索使用模式:日语更依赖短期语言信息,而英语和汉语对沉默时长和韵律变化更为敏感;多语言训练促进了共享且可适应的表征学习,并减少了汉语对音高的过度依赖。上下文长度研究进一步表明,日语对较短上下文相对稳健,而汉语则显著受益于较长上下文。最后,我们将训练好的模型集成到实时处理软件中,展示了仅使用CPU的推理能力。综合来看,这些研究结果为反馈时序的跨语言差异提供了统一的模型和实证证据,为设计更自然、具有文化感知能力的口语对话系统提供了参考。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员