选自googleblog
作者:Tom Kenter
机器之心编译
参与:高璇
随着未来 5G 移动互联网网络的飞速发展,语音交互将有可能取代键盘和触摸成为语音输入的主导方式。但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语音的效果进行全面系统的评价。近日,谷歌研究人员对评价多行文本生成语音的几种方法做了对比,并给出了不同语音呈现方法下的平均意见得分(MOS)结果。
第一种方法是单独呈现句子,这是该领域通常采用的默认方法;
另一种方法是为句子提供完整的上下文,即包括句子所属的整个段落,并对整体进行评级;
最后一种方法是提供一个上下文激励对。此时不提供完整的上下文,仅提供部分上下文,例如来自最初段落的前一句话。