成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
三连冠!科大讯飞夺国际多通道语音分离和识别大赛CHiME-6冠军
2020 年 5 月 7 日
AI科技评论
作者 | 京枚
编辑 | 贾伟
连续第三次夺冠!
5月4日,国际多通道语音分离和识别大赛(CHiME)组委会在线揭晓最新一届CHiME-6成绩:科大讯飞联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在给定说话人边界的多通道语音识别两个参赛任务上夺冠。
自2016年以来,科大讯飞第三次参加这项国际竞赛,并连续夺冠,这次的
语音识别错误率从CHiME-5的46.1%降至30.5%。
科大讯飞夺得CHiME-6冠军 (Track1:Ranking A)
科大讯飞夺得CHiME-6冠军 (Track1:Ranking B)
1、“史上最难”语音识别任务
CHiME(Computational Hearing in Multisource Environments)由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起,今年是第六届,比赛的目的是希望学术界和工业界针对高噪声、高混响、自由讨论场景提出全新的语音识别解决方案,从而进一步提升语音识别的实用性和普适性。
CHiME-6被称为“史上最难的语音识别任务”,TA有四大难点:
大量的语音交叠(Speech Overlap)
远场混响和噪声干扰对录音的影响
对话风格非常自由、近乎随意
训练数据有限
比赛极具挑战,参赛团队也大牛如云。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。而在CHiME-6中,美国的约翰霍普金斯大学、俄罗斯STC公司、德国帕德博恩大学、捷克布尔诺理工大学等知名学术机构及企业均有参赛。
2、一年半,错误率从46.1%降至30.5%
本次CHiME-6和CHiME-5比赛使用的语音素材相同,即在多个不同的生活场景——包括多人在厨房边做饭边聊天、在起居室边用餐边聊天、在客厅聊天,聊天的声音中包括远场、混响、噪音、语音叠加等各种复杂因素,因而技术难度极大。
本次比赛的Track1任务与CHiME-5相同,即在给定说话人边界的情况下重点考察参赛团队的多通道信号处理能力及复杂场景语音识别能力。另外,本次比赛新设了Track2任务,该任务要求参赛机构在自动说话人分离的基础上再进行语音识别。
(CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话)
2018年的CHiME-5比赛,科大讯飞联合中科大语音及语言信息处理国家工程实验室杜俊教授团队(USTC-NELSLIP)斩获了四个比赛项目的全部冠军。
然而,当年最优的参赛系统语音识别错误率仍高达46.1%,距离实用仍有较大差距,所以,今年USTC-NELSLIP联合团队重点聚焦于Track1,希望进一步探索复杂场景语音识别实用化的可能性。
通过团队的技术攻关,
将该任务上的语音识别错误率从原来的46.1%降至30.5%,
大幅刷新该项赛事历史最好成绩,进一步拉大领先优势,最终在Track1的两个子任务(Track1-Ranking A,需使用官方语言模型;Track1-Ranking B,不限制语言模型)上均斩获冠军。
3、语音识别技术稳踞世界领先水平
面对同样的“考题”,CHiME-6成绩大幅跃升,靠什么?
这得益于多年来在真实场景中的技术积累,USTC-NELSLIP联合团队针对比赛任务进行了一系列技术创新。
在前端信号处理方面
,联合团队提出了基于空间-说话人同步感知的迭代掩码估计算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME),
该算法结合传统信号处理和深度学习的优点,利用空时多维信息进行建模,迭代的从多个说话人场景中精确捕捉目标说话人的信息。
该算法不仅有效降低环境干扰噪声,而且可以有效消除干扰说话人的语音,从而大幅降低语音识别的处理难度。
在后端声学模型上
,联合团队提出了基于空间-说话人同步感知的声学模型(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM),
通过在声学模型输入端拼接多维度空间信息和不同说话人信息,使其能自适应区分目标说话人和干扰说话人
。因此,声学模型不仅依赖前端算法的处理结果,也能够自适应完成对目标说话人语音特征的提取,大幅提升多人对话场景下语音识别声学模型的容错率和鲁棒性。
回顾2018年组委会发布CHiME-5数据集,官方的基线系统错误率高达73.3%,USTC-NELSLIP联合团队通过不断进行技术创新,逐步刷新最好成绩。这充分说明,在远场、混响、噪音、声音叠加、语言风格随意等诸多不确定性的复杂场景下,USTC-NELSLIP联合团队的技术积累一直处于世界领先水平。
4、会议场景的得力助手
科大讯飞长期致力于智能语音技术的源头创新及产业化应用,并不断挑战语音识别实际应用中的技术难题。
2010年发布语音云,持续改善语音输入、语音交互场景的准确率,2015年发布讯飞听见,逐步提升人人对话场景的准确率。
本次CHiME-6的研究成果无疑将进一步拓展语音识别的应用空间。例如,在远距离会议场景,相比于CHiME-6的比赛任务,其说话风格随意性减少、语音叠加现象减少、训练数据大幅增加,错误率势必大幅下降,因而,本次比赛的技术成果无疑将进一步增促进会议场景语音识别的实用化。
2019年联合国教科文组织(UNESCO)在法国举办的“人工智能促进可持续发展”会议、在瑞士举办的2019信息社会世界高峰会议(WSIS)论坛、2019年全国两会等重大国际及国内会议现场均使用了讯飞听见智能会议系统提供的英文及中文转写服务,而这背后,就是科大讯飞积累多年的语音识别核心源头人工智能技术。
基于核心源头技术优势,去年9月份,
科大讯飞正式成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商
,为奥运会提供自动语音转换与翻译技术和服务。如今,讯飞听见智能会议系统已成为国内外大型会议的得力助手,仅2019年就服务了国内外2000多场高规格大会。
除了讯飞听见智能会议系统,在实际的应用场景中,科大讯飞的语音识别和多麦克风阵列信号处理技术还广泛应用在不同的C端产品和服务中,比如搭载八麦克风阵列的讯飞智能录音笔、能完整记录会议内容的讯飞智能办公本、月活1.4亿且能免切换识别中英文及23种方言的讯飞输入法等,这些办公和生活应用已触手可达,为广大用户解决不同场景下的语音识别需求。
5、为全球提供多语种智能语音解决方案
获得国际多通道语音分离和识别大赛(CHiME)三连冠,表明科大讯飞不仅在中文语音识别领域长期保持领先地位,在英文语音识别领域同样有着深厚的功底。
目前,科大讯飞正在大力拓展多语种语音识别方面的技术研究,有望为全球更多企业及消费者提供优质的多语种智能语音解决方案。
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
科大讯飞
关注
254
1999年成立,主要技术包括:语音合成和语音识别。
【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督,Cross-modal Supervision
专知会员服务
23+阅读 · 2020年3月31日
【北邮-腾讯AI】自监督学习音视觉说话人认证,Self-supervised learning for audio-visual speaker diarization
专知会员服务
25+阅读 · 2020年2月16日
【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别
专知会员服务
50+阅读 · 2020年2月16日
【中科院自动化所】序列到序列语音识别的无监督预训练(Unsupervised pre-training for sequence to sequence speech recognition)
专知会员服务
32+阅读 · 2020年1月5日
《人工智能安全标准化白皮书(2019版)》发布, 95页PDF,全国信息安全标准化技术委员会
专知会员服务
94+阅读 · 2019年11月4日
问答与对话-技术与系统之任务型对话系统【车万翔 张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期
专知会员服务
62+阅读 · 2019年10月23日
问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期
专知会员服务
45+阅读 · 2019年10月23日
问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期
专知会员服务
41+阅读 · 2019年10月23日
图神经网络在自然语言处理领域的前沿应用,北京邮电大学杨成博士,第八届全国社会媒体处理大会SMP2019
专知会员服务
86+阅读 · 2019年10月21日
【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士
专知会员服务
32+阅读 · 2019年9月15日
「中国法研杯」相似案例匹配竞赛结果出炉,冠军方案关键技术解读
AI科技评论
17+阅读 · 2019年10月28日
微信AI拿下NLP竞赛全球冠军,“二孩”智言团队的实习生立功了
量子位
9+阅读 · 2019年3月1日
【紫冬分享】自动化所团队获PRCV2018 美图短视频实时分类挑战赛冠军
中国科学院自动化研究所
10+阅读 · 2018年11月30日
中国团队“霸屏”全球权威人脸识别竞赛,依图夺冠!
新智元
5+阅读 · 2018年11月20日
深思考大脑4.0发布 中文语义理解权威赛事连获冠军大奖
雷锋网
7+阅读 · 2018年8月3日
业界 | DAC 2018目标检测系统挑战赛落幕:中科院、清华分获GPU与FPGA组冠军
机器之心
5+阅读 · 2018年7月14日
【CVPR智慧城市挑战赛】无监督交通异常检测,冠军团队技术分享
新智元
5+阅读 · 2018年7月5日
多喝点水,语音的“货”超级干
七月在线实验室
7+阅读 · 2018年1月25日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化
AI科技评论
7+阅读 · 2017年8月24日
Speech2Action: Cross-modal Supervision for Action Recognition
Arxiv
7+阅读 · 2020年3月30日
A Baseline for Few-Shot Image Classification
Arxiv
7+阅读 · 2020年3月1日
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
Arxiv
4+阅读 · 2018年11月26日
Vision Meets Drones: A Challenge
Arxiv
6+阅读 · 2018年4月23日
Neural Baby Talk
Arxiv
6+阅读 · 2018年3月27日
iVQA: Inverse Visual Question Answering
Arxiv
5+阅读 · 2018年3月16日
Rotation-Sensitive Regression for Oriented Scene Text Detection
Arxiv
12+阅读 · 2018年3月14日
Image Captioning using Deep Neural Architectures
Arxiv
20+阅读 · 2018年1月17日
Interpretable Counting for Visual Question Answering
Arxiv
3+阅读 · 2017年12月23日
VQA: Visual Question Answering
Arxiv
9+阅读 · 2016年10月27日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
科大讯飞
语音识别
错误率
通道
约翰霍普金斯大学
声学模型
相关VIP内容
【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督,Cross-modal Supervision
专知会员服务
23+阅读 · 2020年3月31日
【北邮-腾讯AI】自监督学习音视觉说话人认证,Self-supervised learning for audio-visual speaker diarization
专知会员服务
25+阅读 · 2020年2月16日
【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别
专知会员服务
50+阅读 · 2020年2月16日
【中科院自动化所】序列到序列语音识别的无监督预训练(Unsupervised pre-training for sequence to sequence speech recognition)
专知会员服务
32+阅读 · 2020年1月5日
《人工智能安全标准化白皮书(2019版)》发布, 95页PDF,全国信息安全标准化技术委员会
专知会员服务
94+阅读 · 2019年11月4日
问答与对话-技术与系统之任务型对话系统【车万翔 张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期
专知会员服务
62+阅读 · 2019年10月23日
问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期
专知会员服务
45+阅读 · 2019年10月23日
问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期
专知会员服务
41+阅读 · 2019年10月23日
图神经网络在自然语言处理领域的前沿应用,北京邮电大学杨成博士,第八届全国社会媒体处理大会SMP2019
专知会员服务
86+阅读 · 2019年10月21日
【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士
专知会员服务
32+阅读 · 2019年9月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
《支持 ML/AI 的下一代智能自主网络系统:性能提升与管理》177页
《飞行训练指导:夜间熟悉》152页
数据:联合作战的新弹药
《混合现实飞行模拟器中的夜视镜仿真:无缝集成真实世界》最新54页
相关资讯
「中国法研杯」相似案例匹配竞赛结果出炉,冠军方案关键技术解读
AI科技评论
17+阅读 · 2019年10月28日
微信AI拿下NLP竞赛全球冠军,“二孩”智言团队的实习生立功了
量子位
9+阅读 · 2019年3月1日
【紫冬分享】自动化所团队获PRCV2018 美图短视频实时分类挑战赛冠军
中国科学院自动化研究所
10+阅读 · 2018年11月30日
中国团队“霸屏”全球权威人脸识别竞赛,依图夺冠!
新智元
5+阅读 · 2018年11月20日
深思考大脑4.0发布 中文语义理解权威赛事连获冠军大奖
雷锋网
7+阅读 · 2018年8月3日
业界 | DAC 2018目标检测系统挑战赛落幕:中科院、清华分获GPU与FPGA组冠军
机器之心
5+阅读 · 2018年7月14日
【CVPR智慧城市挑战赛】无监督交通异常检测,冠军团队技术分享
新智元
5+阅读 · 2018年7月5日
多喝点水,语音的“货”超级干
七月在线实验室
7+阅读 · 2018年1月25日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化
AI科技评论
7+阅读 · 2017年8月24日
相关论文
Speech2Action: Cross-modal Supervision for Action Recognition
Arxiv
7+阅读 · 2020年3月30日
A Baseline for Few-Shot Image Classification
Arxiv
7+阅读 · 2020年3月1日
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
Arxiv
4+阅读 · 2018年11月26日
Vision Meets Drones: A Challenge
Arxiv
6+阅读 · 2018年4月23日
Neural Baby Talk
Arxiv
6+阅读 · 2018年3月27日
iVQA: Inverse Visual Question Answering
Arxiv
5+阅读 · 2018年3月16日
Rotation-Sensitive Regression for Oriented Scene Text Detection
Arxiv
12+阅读 · 2018年3月14日
Image Captioning using Deep Neural Architectures
Arxiv
20+阅读 · 2018年1月17日
Interpretable Counting for Visual Question Answering
Arxiv
3+阅读 · 2017年12月23日
VQA: Visual Question Answering
Arxiv
9+阅读 · 2016年10月27日
大家都在搜
壁画
汽车智能化
大型语言模型
无人机蜂群
ETHZ博士论文
大模型
无人艇
智能推荐
笛卡尔
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top