文章来源:IBM Blog,作者:Walter D. Rouzer
IBM Watson Text to Speech API,它能够将文本合成为多种语言、声音和方言的音频。这里面“Allison”的声音音色很甜、很有吸引力,特别契合我的书中主人公 Hailee Tupper 的年龄和性格特点。
有这样一种说法,一张图片胜过千言万语。但事实上,清晰、措辞得当、音调和发音准确的口头语言能够更好地营造最难忘、最美好的画面。而人工智能已经取得了显著的进展,能够完成上述表达要求。
我想知道能否用一个女性人工智能声音来演绎我所著的“Miraculous”一书中的主角,以让人信服的方式让听众相信她就是书中的真实角色。
我如何借助 Watson API 赋予主角生命
在对多家公司的多个不同的 AI 角色进行试音后,我最终选择了 IBM Watson Text to Speech API,它能够将文本合成为多种语言、声音和方言的音频。我选择了“Allison”的声音,因为她的音色很甜、很有吸引力,同时也契合书中主人公 Hailee Tupper 的年龄。
为了帮助她演绎书中场景,我使用了文本转语音 API 的表达功能“Expressiveness”,该功能可以使用情感元素扩展 SSML,而该情感元素能够表达好消息 (GoodNews)、道歉 (Apology) 或不确定 (Uncertainty) 的说话语气(仅适用于美音 Allison 声音)。可以进一步了解 IBM Watson 情感语音服务 Expressive SSML。
我的书中有数万个单词组合,Watson Allison 的声音能够以不同的方式处理这些单词组合。通过单独使用或组合使用三个情感语音情绪中的一个或多个情绪,并在说话时加上不同的停顿时间,她就能表达更多的情绪。
小说角色说话时会长短不一,因此会影响到一句话停顿的次数和频率,而这种停顿也需要计算。书中特定场景的总体情绪也会影响停顿的频率,如说话中止、语气平静和欢呼等。
下面,我将通过一个例子来展示上述技术有哪些作用。
若要完成此类项目,你是否必须成为一名 IT 人员或程序员?我不这么觉得。不论怎么想,我都不可能成为计算机人员或程序员。但是,我想说的是,耐心、实践和创意都是非常重要的因素。这就像是一个故事的导演。整个过程会涉及大量的复制粘贴工作。关键要知道如何将代码粘贴至文本中的正确位置,最终达到预期效果。
假如您对此类项目感兴趣,我非常愿意与你分享我的知识和专业技能,比如,通过一个免费的视频,帮助您取得最佳成果。
最后,我想说的是,与 IBM Watson 合作是一段美妙、精彩的经历。如果有可能,我很希望能够跟他握手致谢。
本文作者
Walter D. Rouzer
“Miraculous –A Whale of a Tale”的作者
请点击下方 “阅读原文”,了解更多相关资讯。