字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

2022 年 1 月 6 日 量子位

字节跳动智能创作语音团队SAMI（Speech, Audio and Music Intelligence）近日上线一项高保真、低延迟、高并发歌唱合成技术。该技术在兼顾保真度和速度上实现了一定的突破：一方面，AI模型可以模拟人类独特的音色、技巧和情感，使得演唱效果媲美真人；同时，该模型可以提供超低延迟、高并发的歌唱合成服务，可以轻松适配C端业务场景。

从语音合成到歌唱合成：听见更多AI的声音

语音合成作为人工智能的一个重要分支，已经被应用到大家日常生活的各个方面。它通过输入文字，经由人工智能的算法，合成像人类语音一样自然的音频。而相比于语音，歌唱需要额外的音高，时长信息，且音色也会更为多变。
同基于深度学习的语音合成一样，歌唱合成的模型也由声学模型（acoustic model）和声码器（vocoder）两部分组成，这两部分都采用了完全并行的神经网络架构，从而可以在生成高保真歌唱音频的同时达到25倍实时的生成速度。
通过上述两个模块的配合，对于给定的任意乐谱，都可由神经网络合成对应的歌唱音频；这些音频发音清晰，旋律和节奏准确，音高的衔接流畅，还会出现自然的真假声转换，做到媲美真人的效果：

声学模型：将歌词与旋律转换为Mel频谱

声学模型首先从乐谱里得到三要素：歌词、音高、时长；然后通过文本处理前端将歌词转成拼音序列，使用编码器进行编码，得到歌词信息；另一方面，接着根据音符时长，预测每个拼音的时长，并据此将拼音与对应音符音高展开到帧级别，送入解码器生成Mel频谱。

声码器：显式预测音高，生成歌唱音频

得到频谱后，使用基于神经网络的声码器将其转换为音频波形。
目前常见的商用歌声声码器解决方案主要有两种，一种是基于神经网络的串行架构，一种是基于传统数字信号处理的算法；前者可以生成相对自然的音频，但是速度较慢，而后者则相反。为了满足C端场景速度和保真度的双重需求，SAMI团队使用了基于神经网络的并行声码器，既能保证生成高保真的音频，又有极高的推理速度（GPU 200倍实时率），并且表现稳定，不会出现断音爆音等异常。声码器采用了生成对抗网络（generative adversarial network）的架构。其中，对于歌唱而言，旋律的准确性体现为基频（f0）的高低。为了让并行的生成器有稳定的基频，声码器额外增加了独立的“基频预测”模块，其预测的基频作为生成器的强化输入来实现稳定的基频生成。

“你填我唱”：C端互动娱乐场景下的歌唱合成落地方案

音乐创作不仅要求创作者进行文字创作，还要谱写旋律，无形中提高了C端用户的创作门槛。对此，SAMI团队提出了“你填我唱”玩法，让歌曲创作的输入尽可能简化，从而让更多人体会音乐创作的乐趣。

用户只需要输入文字内容并选择音色，接着这些文字会和预置的旋律进行智能匹配，再使用歌唱合成技术，即可实现与旋律的完美融合，并通过合成音色演唱出来。

2021年夏天，一首“红伞伞白杆杆，吃完一起躺板板”让无数人的DNA动了起来。这首歌的旋律取自美国乡村民谣《哦，苏珊娜》，由斯蒂芬·福斯特于1847年创作；而为了提醒广大群众远离毒菌，“云南消防”将歌词改编融入原曲旋律重新演唱，让这首经典歌曲在174年后又火了一把。这种不改旋律，只改编歌词的玩法，大家在儿时起就已经非常熟悉。比如对“太阳当空照，花儿对我笑”这首歌的改编，就是结合了身边发生的一些现象，套用一首耳熟能详旋律，贴近生活又十分有趣。

比如上述的《红伞伞白杆杆》：

当然，也可以脑洞大开，将其他歌曲的歌词交由AI演唱：

歌唱合成技术的新突破表明人工智能正不断在语音、音乐领域发掘自己的应用场景。有了AI的助力，人人都可以自由自在地表达，让音乐在不同的时代被赋予新的意义，让用户以丰富的声音记录美好生活。

*本文系量子位获授权刊载，观点仅为作者所有。

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~