论文题目

将机器语言模型扩展到人类级别的语言理解,Extending Machine Language Models toward Human-Level Language Understanding

论文简介

本文介绍了一种利用麦克风阵列和360度摄像机生成带说话人注释的会议事务脚本的系统。该系统的特点是能够处理重叠语音,这是十多年来现实环境中尚未解决的问题。研究表明,采用连续语音分离方法可以解决这一问题。此外,我们还描述了一种在线视听说话人二值化方法,该方法利用面追踪和识别、声源定位、说话人识别以及(如果有的话)先前的说话人信息,以增强对各种现实世界挑战的鲁棒性。所有的成分都整合在一个叫做SRD的转录框架中,SRD代表“分离、识别和二化”。实验结果使用记录的自然会议涉及多达11人的报告。与高调谐波束形成器相比,连续语音分离提高了16.1%的字错误率。当有完整的与会者列表时,WER和发言人属性WER之间的差异仅为1.0%,表明准确的词对说话人关联。当系统不知道50%的与会者时,这一比例略微增加到1.6%。

论文作者

Takuya Yoshioka,Igor Abramovski,Cem Aksoylar,Zhuo Chen,Moshe David,DimitriadisYifan Gong,Ilya Gurvich,Xuedong Huang,Yan Hunhutz,Li Jiang,Sharon KoubiEyal Krupka,Ido Leichter,Changliang Liu,Parthasarathy,Alon Vinnikov,Lingfeng Wuxiang Xiao,Wayne Xiang,Huaming Wang,Zhenghao Zhang,Yong Zhao ,作者们来自美国微软团队

成为VIP会员查看完整内容
16
0

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
31+阅读 · 2020年3月3日
已删除
将门创投
4+阅读 · 2019年10月11日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
14+阅读 · 2019年5月1日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
学界 | 一文概览语音识别中尚未解决的问题
机器之心
3+阅读 · 2017年10月21日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
5+阅读 · 2019年7月11日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
4+阅读 · 2018年5月14日
小贴士
相关VIP内容
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
31+阅读 · 2020年3月3日
微信扫码咨询专知VIP会员