Recognition of overlapped speech has been a highly challenging task to date. State-of-the-art multi-channel speech separation system are becoming increasingly complex and expensive for practical applications. To this end, low-bit neural network quantization provides a powerful solution to dramatically reduce their model size. However, current quantization methods are based on uniform precision and fail to account for the varying performance sensitivity at different model components to quantization errors. In this paper, novel mixed precision DNN quantization methods are proposed by applying locally variable bit-widths to individual TCN components of a TF masking based multi-channel speech separation system. The optimal local precision settings are automatically learned using three techniques. The first two approaches utilize quantization sensitivity metrics based on either the mean square error (MSE) loss function curvature, or the KL-divergence measured between full precision and quantized separation models. The third approach is based on mixed precision neural architecture search. Experiments conducted on the LRS3-TED corpus simulated overlapped speech data suggest that the proposed mixed precision quantization techniques consistently outperform the uniform precision baseline speech separation systems of comparable bit-widths in terms of SI-SNR and PESQ scores as well as word error rate (WER) reductions up to 2.88% absolute (8% relative).


翻译:迄今为止,承认重叠言论是一项极具挑战性的任务。对于实际应用来说,最先进的多通道语音分离系统正在变得日益复杂和昂贵。为此,低位神经网络量化为大幅缩小模型大小提供了强有力的解决方案。然而,目前的量化方法基于统一精确度,没有考虑到不同模型组件不同性能敏感度对于量化错误的不同程度。在本文中,通过对基于多通道语音分离系统的TF掩码系统的各个TCN部件应用本地可变比特宽度,提出了新颖的精度精度达NNNN量化方法。最佳本地精确度设置是用三种技术自动学习的。前两种方法使用基于平均平方差(MSE)损失函数曲线的量化灵敏度指标,或者没有考虑到在完全精确度和四分解分离模型之间测量到的不同性能敏感度。在混合精度神经结构搜索的基础上,对基于基于多位性微分辨度的语音结构进行实验,显示拟议的混合精确度缩略度技术在SIRS-88的绝对精确度缩度缩度上,是SIER-RIS的精确度缩度缩度的精确度缩度缩度为2。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年7月15日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
用 Intel MKL-DNN 加速 CPU 上的深度学习
ApacheMXNet
4+阅读 · 2018年4月11日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年7月15日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
用 Intel MKL-DNN 加速 CPU 上的深度学习
ApacheMXNet
4+阅读 · 2018年4月11日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员