With the rapid advancement of conversational and diffusion-based AI, there is a growing adoption of AI in educational services, ranging from grading and assessment tools to personalized learning systems that provide targeted support for students. However, this adaptability has yet to fully extend to the domain of children's speech, where existing models often fail due to their reliance on datasets designed for clear, articulate adult speech. Children, particularly those in early developmental stages or with speech and language pathologies, present unique challenges that current AI models and datasets are ill-equipped to handle. To address this, we introduce KidSpeak, a multi-task speech-enhanced Foundation Model capable of both generative and discriminative tasks specifically tailored to children's speech patterns. Our framework employs a two-stage training process that incorporates phonetic knowledge into the speech encoder, achieving an average accuracy of 87% across four separate tasks. Furthermore, recognizing the limitations of scalable human annotation and existing speech alignment tools, we propose the Flexible and Automatic Speech Aligner (FASA) and leverage the method to construct high quality datasets for training and evaluation. This novel alignment tool significantly improves the quality of aligned children's speech from noisy data, enhancing data quality by 13.6x compared to human annotations, as demonstrated on the CHILDES dataset. To the best of our knowledge, KidSpeak and FASA represent the first comprehensive solution designed for speech and language therapy in children, offering both a multi-purpose speech LLM and a robust alignment tool.


翻译:随着对话式与基于扩散的人工智能技术的快速发展,人工智能在教育服务中的应用日益广泛,涵盖从评分评估工具到为学生提供针对性支持的个性化学习系统。然而,这种适应性尚未充分扩展到儿童语音领域,现有模型常因依赖为清晰、发音标准的成人语音设计的数据集而失效。儿童,特别是处于早期发展阶段或存在言语语言障碍的儿童,带来了独特的挑战,当前的人工智能模型与数据集尚难以有效应对。为解决这一问题,我们提出了KidSpeak,一个专为儿童语音模式定制的、能够同时执行生成性与判别性任务的多任务语音增强基础模型。我们的框架采用两阶段训练过程,将语音学知识融入语音编码器,在四项独立任务中平均准确率达到87%。此外,认识到可扩展人工标注与现有语音对齐工具的局限性,我们提出了灵活自动语音对齐器(FASA),并利用该方法构建了用于训练与评估的高质量数据集。这一新颖的对齐工具显著提升了从噪声数据中对齐儿童语音的质量,在CHILDES数据集上的实验表明,其数据质量相较于人工标注提升了13.6倍。据我们所知,KidSpeak与FASA代表了首个专为儿童言语语言治疗设计的综合性解决方案,同时提供了一个多用途语音大语言模型与一个鲁棒的对齐工具。

0
下载
关闭预览

相关内容

专知会员服务
65+阅读 · 2021年4月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员