MUTA:AI写歌不稀奇,但把情绪带进歌里是怎么回事?| 初创公司

2019 年 5 月 15 日 动点科技

动点科技 | ID:technode


明星偶像的产生不止源于三次元。从初音未来到赫兹,虚拟偶像的出现立刻将广大的二次元群体吸引,并聚合了强大的粉丝效应。不过,外行看热闹,内行看门道。究竟什么样的技术在支撑着这风风火火的虚拟偶像热?


其中,如优他动漫科技这样的语音合成技术公司就是核心的参与者。该公司致力于开发可高度还原人类声音的语音/歌声合成引擎。据悉,其是国内首家以独立自主研发的中文语音合成引擎(MUTA)为核心,同时开发并设计具备感情模式的云端音库包括动漫视音频制作等在内的数字虚拟鼓舞平台提供商。


“行业中大部分企业都把主要的精力放在语音理解中。而把语音合成,做到跟人一样是我们的最终目标。” 优他动漫科技的 CEO 邱志豪说。


其服务的产品包括虚拟歌姬形象嫣汐、琉璃、友绘等,为 2 娘(B 站)、蒂菲尔(西山居)、琥珀虚颜 未央 希声(中国电信)等提供歌姬声库制作。


据邱志豪回忆到,2014 年公司成立的第二年时,很少有国内公司愿意做虚拟偶像。后来,市场出现的也是真人配虚拟的形象,用一个虚拟的角色配上真人歌手。“但这样的形式很难抓住用户的。因为是官方运营的话,用户就没有产出。虚拟 IP 很难持续化,除非官方得不停投入资源。“他说。“实际上明星的流量主要靠绯闻,热点,或者各种吃瓜过程积累。官方还是要给用户提供赋能,用户才会基于这些梗再去产生更多的内容,将 IP 做大。” 他补充道。


邱志豪认为在语音合成的虚拟偶像应用上,需要有持续的解决方案,才可以增加用户的活跃度以及粉丝的黏度。所以,优他动漫科技提供了中文语音合成引擎 MUTA。首先,可以基于这套引擎做的虚拟偶像,后面其还提供做粉丝运营的 APP。据悉,粉丝可以在 APP 里面用各明星的声音,进行一个二次的创作或者二次运营也好。“假如周杰伦封麦了,我们还可以通过电脑去用他的声音创作歌曲。” 邱志豪说。


据介绍,该 APP 操作简单,没有专业乐理基础的用户也可以轻易上手。仅需户输入任意语句,系统即可合成高品质的语音或者歌曲。就像我们拍照片后修图直接在软件内选择需要的滤镜一样,用户可以创作一段歌词,然后选取喜欢的乐曲风格,人声进行组合。“以前的软件不是专业音乐人根本用不了,我们希望能做一套,让每个人动手打字就可以创作的软件。” 邱志豪介绍道,优他动漫科技的技术有三方面明显的优势:


一:音质优秀,可适应复杂的语言。音库体积小,市面上唯一可适用于 APP 上的歌声合成技术。


二:制作周期短,还原度高,可保留 90% 以上原声音色与自然度 。


三:人声自动适应歌曲减少 80% 的调教量 。


此外,邱志豪透露,MUTA 已经到了 3.0 引擎时代。MUTA 3.0 最大的特点即是加上了人工智能,可以将普通、悲伤、快乐三个情感模式混合,基于语音合成可以做出有情感化的内容。


而且和许多传统的语音合成不同的是,MUTA 3.0 可以基于 DNN 网络来学习人的声线,发音方式,还有语气。来学习人的习惯和音色,并推测其发音、声线。“所以不需要唱每个音,只需要一段素材,电脑就可以推测一些没唱过的音,然后按照这个人的风格和发音方式进行模拟。” 邱志豪说。


而传统的语音合成方式需要人在录音棚里说中文所有的字,记录发音。这个过程基本上得录很久。“我们的方式是你在录音棚里读 2000 句话。500 句开心,500 句悲伤,让机器学习你的情感。对一个明星来说的话,他不可能在录音棚里录六个月。” 邱志豪解释道,MUTA 只需要拿到这个人大概 30 分钟的歌唱素材就可以训练出来跟这个人差不多一样的声库。“MUTA 3.0 想要解决的问题就是在有限的素材下,能够继续学习。” 他说。


其 APP 是在去年上线,目前大概有 150 万首用户填词的歌曲。此外,目前,APP 对 C 端用户免费。邱志豪透露,接下来会考虑推出一些付费的服务。此外,邱志豪还表示,为了能做到赫人声一样的效果,接下来会推出更大的技术突破。“人声音的采样越高越好,真正达到高保真的声线是 4800 赫兹的采样,我们在 3.0 已经做到了 1200 赫兹,4.0 可以做到 4800 赫兹,就是说它可以真正意义上实现和真人一样的声音。” 他说。


据悉,优他动漫科技已经完成了天使轮和 A 轮融资,其中融资方包括 B 站。


- - - - - - - -   END   - - - - - - - -


推荐阅读


点击图片即可阅读往期文章


熊猫遛娃:单车溃败之后,新场景和“轻”模式能否打破共享僵局?


登录查看更多
2

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
99+阅读 · 2019年12月13日
听完了1000+首古风歌曲,我发现自己也能火
PingWest品玩
4+阅读 · 2019年6月2日
那些竞相将DeepFakes商业化的AI初创公司
AI前线
10+阅读 · 2019年5月4日
美国顶尖 AI+教育公司,都在研究些什么?
硅谷第一线
4+阅读 · 2019年1月18日
我,一个女生,深入了解了一下2018年的Pornhub
虎嗅网
6+阅读 · 2018年12月15日
抖音和头条背后,字节跳动的AI实力有多强?
Arxiv
9+阅读 · 2020年2月15日
Arxiv
6+阅读 · 2019年7月11日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关论文
Arxiv
9+阅读 · 2020年2月15日
Arxiv
6+阅读 · 2019年7月11日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员