录音降噪哪家强?搜狗西工大联合团队DNS挑战赛夺冠

2020 年 8 月 29 日 THU数据派


来源:量子位

本文 2310字 ,建议阅读 5分钟
本文介绍搜狗-西工大联合团队在2020“深度降噪挑战赛”中提出了新的复数增强网络结构,以其在实时降噪赛道以显著优势击败多路强手最终脱颖而出。

近日,全球语音顶级会议Interspeech 2020公布了“深度降噪挑战赛”(Deep Noise Suppression Challenge)的比赛成绩,搜狗联合西北工业大学音频语音与语言处理研究组(以下称搜狗-西工大联合团队)击败了亚马逊、微软、Facebook、中科院声学所、CMU等国内外顶尖高校和机构摘得桂冠。

在这场面向语音增强任务的竞赛中,搜狗-西工大联合团队提出的新的复数增强网络结构DCCRN(Deep Complex Convolution Recurrent Network)在实时降噪赛道以显著优势击败多路强手最终脱颖而出。

夺冠技术降噪效果究竟如何,让我们先来听一段语音:

经过搜狗-西工大联合团队的技术处理后,背景嘈杂的声音已经完全去除,仿佛置身于安静的录音室。

但降噪效果好不是DNS挑战赛唯一的要求,背后还有许多我们“听不见”的艰难。

大赛难点与团队创新

为了考验各家技术的实用性,DNS挑战赛对语音降噪的硬件和延时提出了非常苛刻的要求。

在实时赛道上几乎等于是要求降噪处理的声音与原音同步,具体规则如下:

对于一帧长度为T毫秒的语音来说,在2.4Ghz的Core i5 四核CPU上处理时长不能超过T/2毫秒。使用的未来帧信息不超过40毫秒。

也就是说,参赛者要在(T/2+40)毫秒延时内消灭掉音频里的背景噪声。

而搜狗工程师表示,他们和西工大联合开发的模型可以将延时控制在60毫秒以内。如果视频聊天里用上这项技术,那么用户基本不会感受到音画不同步。

为了防止作弊,微软的DNS挑战赛对参赛者还有一项要求,那就是不能用盲测数据集继续训练调试模型,而且必须使用被Interspeech 2020收录的论文里的技术。

搜狗-西工大联合团队使用的技术来自于他们被大会收录的论文:DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement。

这篇论文的创新点在于:使用复数的卷积循环网络(CRN)来处理频域信号。

传统的语音处理方法主要通过基本的卷积神经网络(CNN)或循环神经网络(RNN)来预测频谱。

但是在频域处理信号会面临一个问题:时域信号经过短时傅立叶变换到时频域后成为复数,这个复数包含了信号的幅度和相位。

过去虽然也有人使用复数频谱作为训练目标,但却是在实值网络中进行训练,将实部和虚部视为两个输入通道,用一个共享权值卷积核分别对实部虚部进行处理。

这种方法不受复数乘法规则限制,等于把两个相关量割裂开来。

为了解决这个问题,搜狗-西工大联合团队设计了一种用于复数运算的新网络结构,称为深度复数卷积循环网络(DCCRN),其中CNN和RNN结构都可以处理复数值运算。

CRN集成了卷积编码器-解码器(CED)结构和长短期记忆(LSTM),而且还用复数LSTM代替了传统的LSTM。

简而言之,DCCRN由一个卷积核处理实部、一个卷积核处理虚部,再使用复数乘法规则将其相连。复数模块通过复数乘法建立幅度和相位之间的相关性,从而有效地提升了实部和虚部估计精确度。

仅凭借370万个参数,搜狗-西工大联合团队最终提交模型的MOS初赛得分与亚马逊并列第一,复赛时还高出亚马逊0.03分(overall)。

搜狗为何能刷榜

有亚马逊、Facebook等科技巨头参与,搜狗为什么能够击败众多强大对手,获得语音降噪技术的第一?

这与搜狗过往长期的技术积累有关。

除了这次发表的DCCRN外,搜狗过去多次有技术成果被国际顶级学术会议收录。

比如去年搜狗被ICASSP收录的论文《基于模态注意力的端到端音视觉语音识别》,就是搜狗多模态思路在降噪技术上的一种应用。

这项技术利用语音+唇语的方式,将信噪比为0dB(语音信号与噪声大小相当)时的识别将准确率提高了30%。

搜狗大力投入语音技术,也有在公司业务上的考量。

搜狗的语音输入法,搜索、翻译等业务,都在越来越广泛地使用语音识别。搜狗近年来大力投入的硬件业务,也在AI底层技术的加持下收获了不错的口碑。

在这次比赛前,其自研另一个PureVoice深度降噪算法已经应用到自家产品,比如AI录音笔中。

前不久,罗永浩在第一次直播中,与搜狗CEO王小川联合推荐的搜狗高端AI录音笔S1,向观众展示了搜狗强大的降噪能力。即使现场有吹风机这样的强噪声,搜狗录音笔S1也能清晰还原人声。

虽然其售价2000多,高于市场上大多数竞品,但因为有AI降噪技术加持,这款旗舰产品很快一售而空,获得了用户认可,也证明了AI技术才是录音笔的核心竞争力。

另一边,搜狗积极探索将AI基础技术作为服务提供给产业使用,不局限于自家使用。

去年,搜狗向索尼、爱国者、纽曼等录音笔品牌开放了“搜狗听写”服务,作为基础AI服务占领录音笔市场。

作为一家技术驱动的公司,搜狗将不断让新技术注入到产品里,大赛中夺冠的DCCRN技术已经“在路上”,未来也会尝试将其部署在录音笔中。

语音降噪前景几何

除了搜狗现有业务外,语音降噪的应用场景远不止于此。

今年在疫情驱使下,在线办公软件成为大公司“必争之地”。国外微软谷歌、国内BAT今年都在快速迭代升级在线会议功能。

而复杂的家庭办公环境给在线会议带来很大挑战。如何用AI技术消除背景噪音,是各大科技公司在努力解决的问题。

最近,英伟达发布了视频会议的降噪工具,可以去除像敲击键盘、喝水这样的噪声,提高视频会议质量。但是这项技术需要用到英伟达的RTX中高端显卡,大大限制它的使用人群。

如果能在算力更低、价格更便宜的设备上实现降噪,无疑会让更多用户受益。这也是搜狗技术团队努力的方向。

搜狗工程师表示,DCCRN降噪技术能适配不同规格的硬件,上到手机电脑,下到小小的录音笔芯片,有着更广阔的应用空间。

前面提到,搜狗-西工大联合团队开发的技术延时不超过60毫秒。超低的延时意味着什么?

一般蓝牙耳机的音频延时大多在200毫秒以上,联机游戏画面的延时也在100毫秒以上。

也许我们今后用到的无线降噪耳机、游戏语音对讲都会因为这项技术而受益。

搜狗语音技术频繁刷榜背后,应该是搜狗对于AI降噪在语音行业的“基石”地位的思考。至于今后搜狗会在产业里扮演怎样的角色,让我们拭目以待。

——END——

登录查看更多
1

相关内容

搜狗凭借对前瞻性技术趋势的把握和敏锐的市场嗅觉,已经成为中国互联网的创新典范,也是最具发展潜力的公司之一。搜狗的产品围绕互联网的最基础应用,其中输入法、浏览器、搜索三大产品均名列前茅。2010年8月9日,在引入阿里巴巴集团和云峰基金等战略投资者之后,搜狗从搜狐分拆,成为独立运营的公司,王小川出任搜狗首席执行官。
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
97+阅读 · 2020年8月24日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
ICCV 2019轻量级人脸识别挑战赛三冠军技术方案
极市平台
5+阅读 · 2019年12月1日
【紫冬快讯】自动化所VOT2018实时跟踪竞赛夺冠
中国科学院自动化研究所
3+阅读 · 2018年9月26日
搜狐图文匹配算法大赛_方案分享
数据挖掘入门与实战
7+阅读 · 2018年2月23日
好文 | 基于深度学习的目标检测技术演进
七月在线实验室
12+阅读 · 2018年1月31日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关资讯
ICCV 2019轻量级人脸识别挑战赛三冠军技术方案
极市平台
5+阅读 · 2019年12月1日
【紫冬快讯】自动化所VOT2018实时跟踪竞赛夺冠
中国科学院自动化研究所
3+阅读 · 2018年9月26日
搜狐图文匹配算法大赛_方案分享
数据挖掘入门与实战
7+阅读 · 2018年2月23日
好文 | 基于深度学习的目标检测技术演进
七月在线实验室
12+阅读 · 2018年1月31日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
Top
微信扫码咨询专知VIP会员