会员服务 ·

基础｜浅谈语音测试方案（一）

2017 年 10 月 2 日 全球人工智能

“全球人工智能”拥有十多万AI产业用户，10000多名AI技术专家。主要来自：北大，清华，中科院，麻省理工，卡内基梅隆，斯坦福，哈佛，牛津，剑桥...以及谷歌，腾讯，百度，脸谱，微软，阿里，海康威视，英伟达......等全球名校和名企。

——免费加入AI高管投资者群>>

——免费加入AI技术专家社群>>

作者：萧萧木鱼

摘要：现状人与之间通过声音来直接沟通交流，人与机器之间的交流也渐渐脱离了传统的沟通模式，进入了语音交流时代。语音交流更是拉近了人和机器之间情感，现在的语音技术就是为了使机器更好的识别人声、并合成接近人类的声音以达到更好的交流。

1、现状

人与之间通过声音来直接沟通交流，人与机器之间的交流也渐渐脱离了传统的沟通模式，进入了语音交流时代。语音交流更是拉近了人和机器之间情感，现在的语音技术就是为了使机器更好的识别人声、并合成接近人类的声音以达到更好的交流。

目前国内研究语音相关的团队主要包括科研院所、语音技术公司以及互联网公司三部分：

科研院所主要包括高校和科学院，比如科学院里有声学所、自动化所，高校里面研究比较多的清华、北大、西工大、科大、上海交大等，这些都是在语音圈里占有较高位置的老牌队伍。
语音技术公司包括我们比较熟悉的科大讯飞、云知声、思必驰、极限元等。
互联网公司包括BAT、搜狗等拥有强大的语音技术团队来支撑着其本身的很多业务。

2、测试方案

接触语音识别、语音合成项目的测试将近一年，认识还非常浅薄，大家有更好的想法或者技术方案可以多多沟通交流。下面分别从语音识别、语音合成谈谈一些我在项目中用的测试方案。

3、语音识别

语音识别的整体流程如上，站在测试角度思考，测试最简单的切入点就是最终生成文本内容的校验上。

目前的测试方案是事先标注一批语音的文本内容，与识别出的文本内容做对比，获取识别的准确率。但是这种准确率统计脱离了实际使用场景，比如车载模式下的噪音、与麦克风的距离都会影响识别准确率。

另外，从上图流程可以看出，识别准确率还会受声学模型、解码器的影响。语音信号经过特征提取得到声学特征，再通过声学特征训练得到声学模型，声学模型结合语言模型以及发音辞典构建声码器以后进行解码来输出文本，所以声学模型的训练结果一定是正确的吗？这也是测试的一个切入点。

4、语音合成

测试考虑从以下两方面入手：

服务端的文本分析
合成效果的评测

5、文本分析

语音合成的测试前期工作主要放在前端文本分析上，用python中的Snownlp及pypinyin将文本进行分分词及注音后输出注音及音调，服务端的前端模块输出注音及音调，将脚本输出的结果和服务端输出的结果做对比。这种方式可以对比出音调、多音字的差异。

from pypinyin import pinyin        #pinyin将汉字转为拼音。可以用于汉字注音、排序、检索from snownlp import normal      #snownlp 转换成拼音，繁体转简体，提取文本关键词from snownlp import seg#分词text_normal = normal.zh2hans(text_path)
sent_normal = normal.get_sentences(text_normal)words = seg.seg(sent_normal.decode('utf-8'))#匹配多音字word = SnowNLP(words_list)word =  word.sim(sim_word.decode('utf-8'))  #注音txt_zhuyin = pinyin(word, style=pypinyin.TONE3)