字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

2022 年 1 月 6 日 量子位

字节跳动智能创作语音团队SAMI(Speech, Audio and Music Intelligence)近日上线一项高保真、低延迟、高并发歌唱合成技术。该技术在兼顾保真度和速度上实现了一定的突破:一方面,AI模型可以模拟人类独特的音色、技巧和情感,使得演唱效果媲美真人;同时,该模型可以提供超低延迟、高并发的歌唱合成服务,可以轻松适配C端业务场景。

从语音合成到歌唱合成:听见更多AI的声音

语音合成作为人工智能的一个重要分支,已经被应用到大家日常生活的各个方面。它通过输入文字,经由人工智能的算法,合成像人类语音一样自然的音频。而相比于语音,歌唱需要额外的音高,时长信息,且音色也会更为多变。
同基于深度学习的语音合成一样,歌唱合成的模型也由声学模型(acoustic model)声码器(vocoder)两部分组成,这两部分都采用了完全并行的神经网络架构,从而可以在生成高保真歌唱音频的同时达到25倍实时的生成速度。
通过上述两个模块的配合,对于给定的任意乐谱,都可由神经网络合成对应的歌唱音频;这些音频发音清晰,旋律和节奏准确,音高的衔接流畅,还会出现自然的真假声转换,做到媲美真人的效果:

声学模型:将歌词与旋律转换为Mel频谱

声学模型首先从乐谱里得到三要素:歌词、音高、时长;然后通过文本处理前端将歌词转成拼音序列,使用编码器进行编码,得到歌词信息;另一方面,接着根据音符时长,预测每个拼音的时长,并据此将拼音与对应音符音高展开到帧级别,送入解码器生成Mel频谱。

声码器:显式预测音高,生成歌唱音频

得到频谱后,使用基于神经网络的声码器将其转换为音频波形。
目前常见的商用歌声声码器解决方案主要有两种,一种是基于神经网络的串行架构,一种是基于传统数字信号处理的算法;前者可以生成相对自然的音频,但是速度较慢,而后者则相反。为了满足C端场景速度和保真度的双重需求,SAMI团队使用了基于神经网络的并行声码器,既能保证生成高保真的音频,又有极高的推理速度(GPU 200倍实时率),并且表现稳定,不会出现断音爆音等异常。声码器采用了生成对抗网络(generative adversarial network)的架构。其中,对于歌唱而言,旋律的准确性体现为基频(f0)的高低。为了让并行的生成器有稳定的基频,声码器额外增加了独立的“基频预测”模块,其预测的基频作为生成器的强化输入来实现稳定的基频生成。

“你填我唱”:C端互动娱乐场景下的歌唱合成落地方案

音乐创作不仅要求创作者进行文字创作,还要谱写旋律,无形中提高了C端用户的创作门槛。对此,SAMI团队提出了“你填我唱”玩法,让歌曲创作的输入尽可能简化,从而让更多人体会音乐创作的乐趣。

用户只需要输入文字内容并选择音色,接着这些文字会和预置的旋律进行智能匹配,再使用歌唱合成技术,即可实现与旋律的完美融合,并通过合成音色演唱出来。

2021年夏天,一首“红伞伞白杆杆,吃完一起躺板板”让无数人的DNA动了起来。这首歌的旋律取自美国乡村民谣《哦,苏珊娜》,由斯蒂芬·福斯特于1847年创作;而为了提醒广大群众远离毒菌,“云南消防”将歌词改编融入原曲旋律重新演唱,让这首经典歌曲在174年后又火了一把。这种不改旋律,只改编歌词的玩法,大家在儿时起就已经非常熟悉。比如对“太阳当空照,花儿对我笑”这首歌的改编,就是结合了身边发生的一些现象,套用一首耳熟能详旋律,贴近生活又十分有趣。

比如上述的《红伞伞白杆杆》:

当然,也可以脑洞大开,将其他歌曲的歌词交由AI演唱:

歌唱合成技术的新突破表明人工智能正不断在语音、音乐领域发掘自己的应用场景。有了AI的助力,人人都可以自由自在地表达,让音乐在不同的时代被赋予新的意义,让用户以丰富的声音记录美好生活。

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

「智能汽车」交流群招募中!

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群,与行业大咖交流、切磋,不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~



登录查看更多
0

相关内容

AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
29+阅读 · 2021年8月16日
专知会员服务
64+阅读 · 2021年8月9日
专知会员服务
71+阅读 · 2021年5月21日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2021 | 腾讯AI Lab解读9篇入选论文
腾讯AI实验室
0+阅读 · 2021年8月31日
微信AI的语音合成技术,让“读”书更尽兴
微信AI
0+阅读 · 2020年10月22日
开放下载!《阿里语音与信号处理技术》精选集
阿里技术
10+阅读 · 2019年6月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Synthesizing Informative Training Samples with GAN
Arxiv
0+阅读 · 2022年4月15日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
13+阅读 · 2021年5月25日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Arxiv
14+阅读 · 2020年1月27日
VIP会员
相关VIP内容
AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
29+阅读 · 2021年8月16日
专知会员服务
64+阅读 · 2021年8月9日
专知会员服务
71+阅读 · 2021年5月21日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员