当你的童年男神学会了多种语言无缝切换

会员服务 ·

当你的童年男神学会了多种语言无缝切换

2022 年 5 月 5 日 量子位

字节跳动 AI Lab 语音与音频团队已能提供超过「17种语言」、「13种方言」、「100+不同风格」媲美真人的音色，其音频生成能力也通过火山引擎逐步面向市场开放。>

经常在抖音上看视频或者使用过剪映创作短视频的朋友，一定对下方视频里的声音非常熟悉：

△u1s1,剪映、CapCut（剪映国际版）配音bgm大集合，场面还蛮热闹的~

听完了不同音色、不同语言的配音，再来见识一下中、英、日三种语言无缝切换的海绵：

△仔细听一下，三种不同语言都出自同一个音色哦。

无论是丰富的多语言配音，还是跨语言合成，这些令人惊艳的声音效果都来自于语音合成技术。近期，为上述能力提供技术支持的字节跳动 AI Lab Speech & Audio Team 智能语音与音频团队（后文简称 SA团队 ）已经将最新升级的多语言、跨语言合成技术落地，用户可以在视频创作工具剪映、CapCut平台使用这些功能。企业用户也可以通过火山引擎使用到同款音频技术。

「听得懂」、「说得好」、「会的多」的音色是这样生成的

在跟随CapCut深入不同国家地区本地化的过程中，字节跳动SA团队为其提供当地使用语言的合成能力。想要提供符合当地文化、满足当地创作内容偏好且丰富多样的音色，对语种数量、音色丰富度、语言地道性、风格表现力、生产速度等都提出了极大的挑战。

传统TTS（语音合成）的制作过程是，选择一位能说地道语言的发音人录制大量高质量语音数据，通过有该语言专业背景的团队进行标注处理，最后通过合成技术训练出对应音色，实现上线运用。然而在目标为多语种合成的前提下，传统的语音合成方式面临以下问题：

数据获取难：不同国家的文化法律对深度合成技术限制不同，且除中美日等配音行业较为发达的国家地区外，经过专业培养的优质发音人较为稀缺，可选发音人资源受限。
专业要求高：录制的音频数据需要懂该语言的专业人士进行数据标注处理，部分小语种专业人才获取难度极高。
训练难度大：传统技术框架下，很难细粒度建模不同语言、不同风格的韵律效果，使得合成声音的表现力难以达到创作者的更高预期。
消耗成本高：相比中文，多语言生产无论是从发音人，专业人士配置、过程生产都会产生更高的成本。

为了解决这四大难题，字节跳动SA团队提出了多语言、跨语言合成方案，低成本高效批量地生产出「听的懂」、「说的好」、「会的多」的音色。

「听的懂」指发音准确、清晰，可懂度高。
「说的好」指口音地道，符合Native speaker习惯。
「会的多」指单语发音人可以具备多种语言、口音能力。

这一方案主要在细粒度韵律建模和跨语言迁移两个方向进行突破：

细粒度韵律建模，打造不同语言、口音、风格的音色矩阵

不同的语言、方言、风格都具备自身的韵律特点，有不同的语速、语调、重音模式等语音变化信息，这种细粒度的韵律特征显著地影响着发音准确性和地道性，尤其是对于像英语这样的重音语言（pitch-accent language），而传统的端到端神经网络框架很难隐式建模和控制这种细粒度的韵律特征变化。

为了解决细粒度韵律建模的问题，字节跳动SA团队研发了音素级别细粒度韵律建模的AM架构（Fine-grained prosody modeling in neural speech synthesis using ToBIrepresentation，Yuxiang Zou，etc，Interspeech 2021），通过引入了音素级别ToBI韵律特征（包括pitch accent、phrase accent和boundary tone），结合音素级的pitch、energy构成的variance adaptor，可以分别实现音节、短语、和句子级别语调、重音模式变化。相比于传统的隐式韵律特征学习，该方案可以实现更加准确、地道的语音，达成单语言「听的懂」、「说的好」的目标。

传统方案：Was there a lot of music?

细粒度韵律建模：Was there a lot of music?

跨语言迁移，突破资源瓶颈，实现同一声音演绎多国语言

虽然基于细粒度的韵律建模可以实现更加准确、地道的语音合成效果，但这依旧要求发音人本身要具备相应的语言能力，还要满足一定数据量，极大的限制了TTS扩量能力，难以满足业务拓展的速度，以及对视频创作热点、爆款音色的快速跟进。

那么如何让发音人突破这个限制？实现「会的多」的目标是提升语音合成产能的关键。

字节跳动SA团队将迁移学习技术应用到了语音合成当中，结合无监督表征学习技术，研发了跨语言迁移的声学模型框架，主要解决特征空间解耦和分布映射的问题，通过SCLN和无监督表征，达到说话人、韵律、风格等特征解耦，将不同语种映射到同一个发音空间。通过跨语言迁移技术，可以实现让一个非母语发音人，具备达到native speaker程度的说话能力，实现跨语言「说的好」、「会的多」的目标。

英语原声：Would you like to pay in cash or credit cards?

印尼语迁移：Telah terdaftar di pom sehingga terjamin kualitasnya.

巴西葡萄牙语迁移：Compre sua máquina de cartão crédito e débito.

同时为了提高标注效率，研究人员还研发了相应的自动切分工具和标注工具，自动标注流程的建立，使数据标注不再成为瓶颈。

通过技术的不断探索与迭代、主动适应不同国家地区的用户需求，SA团队已能提供超过「17种语言」、「13种方言」、「100+不同风格」媲美真人的音色，并且在「跨语言迁移」效果上取得突破，成功应用到视频配音场景，为剪映、CapCut国内外各地区的创作者们提供了更优质的本地化配音能力，在多个国家和地区获得用户的广泛好评。

来看看真实用户们的声音：

翻译：CapCut的文本朗读功能好厉害，「坊ちゃん」 (萌娃)真的是可爱娃娃的声音，好自然… 帅大叔的声音也有了吗？twitter@mikisandayo_

翻译：CapCut新出的文本朗读音色通用性很强，而且超级卡哇伊！大家喜欢哪个声音呢～

随着技术能力在业务上得到不断的验证，用户真实的声音越来越大。SA 团队的音频生成能力也通过火山引擎逐步面向市场开放，为多个行业伙伴提供领先的音频技术。包括为互娱用户提供丰富的配音玩法，激发创造力；为小说用户提供沉浸式听书体验，打造精品AI主播；为智能交互企业、硬件厂商打造助手音色实现降本增效等等；并在视频剪辑、有声书、汽车、电商等行业均达成了行业头部客户合作，成功实现了能力在各行各业中的应用与拓展。

关于字节跳动AILab智能语音与音频团队

字节跳动 AI Lab Speech & Audio 智能语音与音频团队，致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来，团队专注于研发行业领先的 AI 智能语音技术，不断探索 AI 与业务场景的结合，以实现更大的用户价值。为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前，已服务了上百个业务合作伙伴。伴随字节跳动业务的快速发展，SA团队的语音识别和语音合成覆盖了多种语言和方言。未来，SA团队希望发展 70+ 语言和 20+ 方言，用于满足内容创作与交流平台的需求。团队已有 17 篇论文入选 AI 顶级会议，其中音频生成方向接受了 8 篇论文。

*本文系量子位获授权刊载，观点仅为作者所有。

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~