会员服务 ·

现实版“柯南变声领结”！搜狗输入法“变声”功能发布，千人千声一键转换

2019 年 5 月 21 日 量子位

允中发自凹非寺
量子位报道 | 公众号 QbitAI

不再是动画，也不再是科幻想象，AI再次带来梦想成真一刻。

在动画片《名侦探柯南》中，阿笠博士送给柯南的变声领结是柯南破案的重要道具，得益于它，柯南可以将声音伪装成其他人，在不暴露身份的情况下巧妙破案。

但或许你未曾想过，有一天，这个变声领结会真的出现在现实世界中，并且只需要在手机上轻轻一点就可以实现完美变声。

没错，现在通过搜狗输入法就OK。

现实版“柯南变声领结”

今天（5月21日），搜狗输入法就化身为了现实版的“阿笠博士”，正式推出“变声”功能。

该功能由搜狗知音团队支持，可以将任意说话人的声音实时变换到指定说话人的音色。

简而言之，只要用户在语音输入中输入想说的话，再选择一个喜爱的角色，就会瞬间把声音转化成该角色的声音，效果直逼柯南的“变声领结”。

虽然效果实现起来一步到位，但背后技术实现并不简单。

搜狗知音的语音技术团队，克服了诸多难以想象的现实困难。

其中最核心的问题是，每一个人的音调、音色和语言节奏都不尽相同，正如同世上没有两片相同的树叶一样，世上也没有两个完全相同的说话人。

如何将“千人千声”通过技术处理，变为同一种指定声音，同时还不丢失原说话人的语言习惯？

这不仅搜狗面临的挑战，也是国际上承认的技术难题。

技术剖析

搜狗知音主要从语音表征学习、语音合成等领域的展开突破。

首先，搜狗知音团队使用表征学习技术，先学习到源端说话人语音的音色、内容和韵律三大特征。

其次，将学习到的源端说话人音色特征替换成目标说话人。

最后，基于搜狗知音的端到端语音合成技术，使用内容(源端)、韵律(源端)、音色(目标端)三类特征合成最终变声音频，达到各个方位的相似和自然。

在表征学习上，对目标音色语料进行声纹特征编码，提取说话人的音色embedding，再分别从输入音频中学习内容和韵律embedding。

把“说话人归一化”模块对内容embedding进行统一规整，去除音色信息。

通过对音频特征的压缩编码及特征抽取，学习表征韵律的风格特征。

然后基于表征学习得到的特征，通过Attention和Decoder模块进行加权特征编码，并利用WaveRNN神经网络声码器恢复成波形，最终得到带有目标音色的音频。

这样一来，由源端音色到指定音色的转化就变得轻易而精密了。

在以上技术原理的支持下，搜狗知音的“变声”功能拥有三大功能亮点：

首先，还原度极高，变声到指定角色的音色与该角色的原始音色十分相似，几乎可以做到以假乱真。

其次，自由空间大，搜狗这一“变声”功能对用户本身的音色没有任何限制，每个人均可变声到预先指定的音色，真正具有“任意人变声到同一人”的能力。

最后，搜狗知音打破了音色转换的局限，将用户输入的语音内容、语速、停顿、情感等均转化为超高逼真度的指定角色声音，因此可以达到更自然的变声沟通。

目前，在搜狗知音“变声”功能中可供选择的角色横跨互联网、明星类、动漫类等多个类别，有近20种声音，包含周星驰、蜡笔小新、小猪佩奇等多个经典的角色，甚至还收录了搜狗CEO王小川的声音。

在聊天过程中，用户可以使用他们的声音完成“变装”，增添聊天过程中的趣味程度。

当然，用户一键使用最新技术的背后，也离不开工程师们的付出。

而且在类似的国际前沿的技术突破领域，中国AI公司正在用研究和论文打响名气。

在搜狗知音团队此次最新技术发布前，搜狗还联合清华天工研究院在5月17日的语音顶级峰会ICASSP 2019上，发布了关于“基于模态注意力的端到端音视觉语音识别”的学术论文。

全球AI华山论剑，中国创新正在 making different~

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

小程序|get更多AI学习干货

加入社群

量子位AI社群开始招募啦，社群矩阵：AI讨论群、AI+行业群、AI技术群；

目前已有4万AI行业从业者、爱好者加入，AI技术群更有来自海内外各大高校实验室大牛、各明星AI公司工程师等。互相ta

欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“微信群”，获取入群方式。（技术群与AI+行业群需经过审核，审核较严，敬请谅解）

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

搜狗知音

关注 0

搜狗于 2016 年推出的「知音」语音交互引擎

【KDD2020-腾讯】基于移动应用程序使用的通用用户嵌入表示

专知会员服务

23+阅读 · 2020年6月9日

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

50+阅读 · 2019年10月22日

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Nature重磅：华裔科学家成功解码脑电波，AI直接从大脑中合成语音

全球创新论坛

4+阅读 · 2019年4月25日

想要出专辑、开个唱？试一下 Facebook「歌手变声器」

机器之心

3+阅读 · 2019年4月17日

搜狗AI合成主播再次进化，发布站立式合成主播

量子位

3+阅读 · 2019年2月20日

最强读心术！脑波直接转语音，你的秘密已无处藏身 | Nature子刊

量子位

4+阅读 · 2019年2月2日

语音合成的里程碑：百度推出首个完全端到端的TTS模型

论智

7+阅读 · 2018年7月25日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

业界 | 百度人机交互新研究：仅用少量样本生成高质量多说话者语音

机器之心

6+阅读 · 2018年2月21日

搜狗推出唇语识别技术提升远场语音交互

智东西

3+阅读 · 2017年12月14日

【推荐系统】现实版“读心术”，读懂你性格的个性化推

产业智能官

6+阅读 · 2017年10月20日

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

Arxiv

3+阅读 · 2020年2月2日

The Consciousness Prior

Arxiv

4+阅读 · 2019年12月2日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Text Generation with Exemplar-based Adaptive Decoding

Arxiv

4+阅读 · 2019年4月9日

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

Speech waveform synthesis from MFCC sequences with generative adversarial networks

Arxiv

5+阅读 · 2018年4月3日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

Improving Visually Grounded Sentence Representations with Self-Attention

Arxiv

8+阅读 · 2017年12月2日

VIP会员