Modern text-to-speech (TTS) systems, particularly those built on Large Audio-Language Models (LALMs), generate high-fidelity speech that faithfully reproduces input text and mimics specified speaker identities. While prior misuse studies have focused on speaker impersonation, this work explores a distinct content-centric threat: exploiting TTS systems to produce speech containing harmful content. Realizing such threats poses two core challenges: (1) LALM safety alignment frequently rejects harmful prompts, yet existing jailbreak attacks are ill-suited for TTS because these systems are designed to faithfully vocalize any input text, and (2) real-world deployment pipelines often employ input/output filters that block harmful text and audio. We present HARMGEN, a suite of five attacks organized into two families that address these challenges. The first family employs semantic obfuscation techniques (Concat, Shuffle) that conceal harmful content within text. The second leverages audio-modality exploits (Read, Spell, Phoneme) that inject harmful content through auxiliary audio channels while maintaining benign textual prompts. Through evaluation across five commercial LALMs-based TTS systems and three datasets spanning two languages, we demonstrate that our attacks substantially reduce refusal rates and increase the toxicity of generated speech. We further assess both reactive countermeasures deployed by audio-streaming platforms and proactive defenses implemented by TTS providers. Our analysis reveals critical vulnerabilities: deepfake detectors underperform on high-fidelity audio; reactive moderation can be circumvented by adversarial perturbations; while proactive moderation detects 57-93% of attacks. Our work highlights a previously underexplored content-centric misuse vector for TTS and underscore the need for robust cross-modal safeguards throughout training and deployment.


翻译:现代文本转语音(TTS)系统,特别是基于大型音频-语言模型(LALMs)构建的系统,能够生成高保真度的语音,忠实地复现输入文本并模仿指定的说话人身份。虽然以往关于滥用的研究主要集中在说话人身份伪造方面,但本研究探讨了一种以内容为中心的独特威胁:利用TTS系统生成包含有害内容的语音。实现此类威胁面临两个核心挑战:(1)LALMs的安全对齐机制通常会拒绝有害提示,但现有的越狱攻击并不适用于TTS,因为这些系统被设计为忠实地将任何输入文本转化为语音;(2)实际部署流程通常采用输入/输出过滤器来拦截有害文本和音频。我们提出了HARMGEN,这是一套包含五种攻击方法的工具集,分为两个系列以应对这些挑战。第一个系列采用语义混淆技术(拼接、重排),将有害内容隐藏在文本中。第二个系列利用音频模态的漏洞(朗读、拼写、音素),通过辅助音频通道注入有害内容,同时保持文本提示的良性。通过对五个基于LALMs的商业TTS系统以及涵盖两种语言的三个数据集进行评估,我们证明我们的攻击方法显著降低了拒绝率并提高了生成语音的毒性。我们进一步评估了音频流媒体平台部署的被动防御措施以及TTS提供商实施的主动防御机制。我们的分析揭示了关键漏洞:深度伪造检测器在高保真音频上表现不佳;被动审核可能被对抗性扰动规避;而主动审核能检测到57-93%的攻击。我们的工作突显了TTS系统中一个先前未充分探索的、以内容为中心的滥用向量,并强调了在训练和部署过程中需要建立强大的跨模态安全保障机制。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
1+阅读 · 12月20日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员