猎户星空用AI技术克隆了一个“傅盛”

2018 年 11 月 5 日 盛盛GO
和我一起成长进化

Think big  Think different


每个人都想拥有一台属于自己的专属机器人。如果只需要录制几段话,你就可以定制一款和自己声音一样的机器人,想不想要?

 

这项技术来自我两年前创立的公司——猎户星空。只需10段话,猎户星空的TTS技术就可复制一个人的声音。

 

我的同事用猎户TTS技术复制了一个我的声音。你们感受一下?

 

视频来自傅盛抖音号@陪你搬砖的傅盛

欢迎搜索抖音号:fstalk关注喔~


或许,大家对这项技术还不是很了解,也不了解行业其他人做的如何?以及猎户有什么不一样?下面我分享几点看法:

 

1.首先,何谓TTS技术?

 

我曾经有一个观点,语音交互将会是继键盘输入,触摸屏之后的又一革命性的交互方式。语音交互将成为未来人机交互的主要方式,而TTS就是语音交互时代的产品界面。用户记住一款产品,除了功能,就是界面,所以猎户在创立之初,就高度重视TTS技术的自研和产品创新。

 

简单概括,人与机器的语音交互方式分为两种:一种是机器能听懂人说什么,即“语音识别”;另一种是机器能开口说话,即“语音合成”(TTS,Text-To-Speech),也就是将文字转为声音,类似于人类的嘴巴。比如语音助手、智能音箱、服务机器人等,也就是你生活中会用到的Siri和导航中的志玲姐姐等等。

 

现在,猎户星空的TTS采用了业界最新的深度神经网络端到端的语音合成技术,在此基础上,训练了大语料库的语音库作为基础模型,只需录制10段话,提取出真人发音的特征后,通过Adapt自适应模型,建模发音人的发音特征,最后通过world声码器合成出与真人的发音、音色相同的语音。

 

目前,该技术只有微软,科大讯飞官方推出应用。不久,我们的官方应用也会上线,用户只需录制10段话,就可快速复刻属于自己的AI声音。

 

2.与同行相比,猎户星空家的TTS技术有什么不一样吗?

 

其实,当下行业各家公司的TTS产品效果差不多,均可达到在特定场景商用的效果。,与真人发音有一定差距,用户在听感上还是会有机械感。

 

如果用户留心会发现,这些机器人虽然能自然对话,但听起来,你仍然会觉得它就是一个有点机械的、冰冷的机器人。

 

也因此,如何给用户更自然、更舒服、更像人声的对话体验?怎样更好地将TTS技术产品化?这是我跟猎户星空的产品技术同学一直思考的问题。我不希望——他们因为盲目迷恋技术,而忽略了“用户体验才是产品的核心”。我给他们定了一个目标——要让猎户的TTS成为这个星球最温暖的AI声音。

 

为此,当猎户TTS第一次以小雅智能音箱里的“小雅”面向用户时,我们就付出了很多努力,并在猎户TTS的打磨上花了很多心血。

 

首先,严格把关声音训练样本。我们不仅会考虑声音本身好听,录音中的语气、语调、发音标准上都要严格把控,保证极致的完成,达到还原最好的声音效果。

 

其次,在技术的实现上,为了让小雅的声音更有情感,我们没有用最先进省力的技术,而是真正从用户角度出发,从声音效果和体验出发,选择了拼接法(TTS主流技术实现主要有两种:拼接法和参数法,前者相比后者,需要的数据量更大,且消耗的人力物力和周期更长,成本也更高)。

 

其中,最难的是中英文混合TTS。因为,一般的合成中,中文录音是一批人,英文录音又是另一批人。两种语言结合起来,再用机器学习去学,出来的声音就会很奇怪。

 

后来,费尽千辛万苦,我们终于找到了一个能够和中文发音很像的女孩子,录了很多英语声音样本。所有这一切努力,只为了让用户在体验上感受不到差别,始终能给用户一致的、温暖的对话体验。

 

欣慰的是,猎户TTS一经推出,就在业界广受好评。也基于此,我们继续打磨了最萌童声。现在,除了成人女声外,猎户TTS也能提供最温暖最萌的童声体验。

 

有时,别人老问,你们猎户星空的TTS声音为啥能有这样的效果?技术本身的积累和突破是非常重要的部分;当大家技术水平都在差不多的量级时,更多的功夫还体现在对用户和产品的理解,以及对细节的严苛打磨。我们的优势就在于此——团队多年积累的互联网产品基因,以及对用户体验的极度重视和极致打磨。

 

3.最后,秀秀肌肉吧,其实也是我们过去取得的一点点成绩:)

 

两年时间,猎户星空的语音技术已经遍地开花,分别接入小米小爱同学、喜马拉雅小雅音箱、美的小美AI音箱、猎豹AI音箱等智能AI产品中,累计激活设备超过3000万,每天线上语音指令超过2000万次,拥有上百万小时远场语音数据积累。

 

还是可以当之无愧地说,猎户星空的语音交互技术(包括TTS),支撑起了中国智能音箱市场的大半壁江山:)事实上,猎户语音OS技术在中国智能音箱市场上占有的市场份额已经超过30%。

 

不久前,中国人工智能产业发展联盟(AIIA)公布了国内智能音箱智能化评级结果,猎豹的小豹AI音箱与小米、喜马拉雅、百度和京东的四款智能音箱成为“五强”。五强中,我们占了三强。其中三款音箱分别为——小豹AI音箱、小雅音箱和小米智能音箱,都使用了猎户星空的TTS技术。

 

就在一周前,华为发布首款智能音箱,这款音箱也采用了猎户星空的语音合成技术。

 

PS:明天举行的锤子新品发布会上,罗永浩也将发布使用猎户星空TTS技术的新产品。猜猜会是什么?

 

欢迎留言

我们会抽取幸运用户

    赠送超酷神秘大礼:)


有任何创业、职业、个人成长等问题,欢迎添加微信(ID:fsgogo)。

登录查看更多
0

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
【干货书】高级应用深度学习,294页pdf
专知会员服务
153+阅读 · 2020年6月20日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
235+阅读 · 2020年5月21日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
142+阅读 · 2020年5月19日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
只需单击三次,让中文GPT-2为你生成定制故事
机器之心
8+阅读 · 2019年11月12日
“马踏飞”AI机器人实现方案介绍
PaperWeekly
5+阅读 · 2019年8月31日
阿里技术专家:优秀工程师是怎样炼成的?
51CTO博客
8+阅读 · 2019年6月15日
中美日全球美女机器人大PK,哪一款是你想要的味道?
机器人大讲堂
4+阅读 · 2017年9月16日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
5+阅读 · 2018年5月5日
Arxiv
5+阅读 · 2018年2月26日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关VIP内容
【干货书】高级应用深度学习,294页pdf
专知会员服务
153+阅读 · 2020年6月20日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
235+阅读 · 2020年5月21日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
142+阅读 · 2020年5月19日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
相关论文
Top
微信扫码咨询专知VIP会员