We describe our approach to create and deliver a custom voice for a conversational AI use-case. More specifically, we provide a voice for a Digital Einstein character, to enable human-computer interaction within the digital conversation experience. To create the voice which fits the context well, we first design a voice character and we produce the recordings which correspond to the desired speech attributes. We then model the voice. Our solution utilizes Fastspeech 2 for log-scaled mel-spectrogram prediction from phonemes and Parallel WaveGAN to generate the waveforms. The system supports a character input and gives a speech waveform at the output. We use a custom dictionary for selected words to ensure their proper pronunciation. Our proposed cloud architecture enables for fast voice delivery, making it possible to talk to the digital version of Albert Einstein in real-time.


翻译:我们描述我们为对话的 AI 使用大小写创建和提供自定义声音的方法。 更具体地说, 我们为数字爱因斯坦字符提供一个声音, 以便在数字对话经历中实现人- 计算机互动。 为了创建符合上下文的声音, 我们首先设计一个声音字符, 并制作符合想要的语音属性的录音。 然后我们模拟这个声音。 我们的解决方案使用快速语音 2 来从电话和平行WaveGAN 生成波形。 系统支持一个字符输入, 并在输出时提供语音波形。 我们使用一个选定词的自定义字典来确保其适当的发音。 我们提议的云结构可以快速发送语音, 使得能够实时与阿尔伯特 爱因斯坦 的数字版本交谈 。

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
已删除
将门创投
12+阅读 · 2019年7月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Towards Topic-Guided Conversational Recommender System
Arxiv
6+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年9月27日
Arxiv
26+阅读 · 2018年9月21日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
相关资讯
Top
微信扫码咨询专知VIP会员