论文题目
将机器语言模型扩展到人类级别的语言理解,Extending Machine Language Models toward Human-Level Language Understanding
论文简介
本文介绍了一种利用麦克风阵列和360度摄像机生成带说话人注释的会议事务脚本的系统。该系统的特点是能够处理重叠语音,这是十多年来现实环境中尚未解决的问题。研究表明,采用连续语音分离方法可以解决这一问题。此外,我们还描述了一种在线视听说话人二值化方法,该方法利用面追踪和识别、声源定位、说话人识别以及(如果有的话)先前的说话人信息,以增强对各种现实世界挑战的鲁棒性。所有的成分都整合在一个叫做SRD的转录框架中,SRD代表“分离、识别和二化”。实验结果使用记录的自然会议涉及多达11人的报告。与高调谐波束形成器相比,连续语音分离提高了16.1%的字错误率。当有完整的与会者列表时,WER和发言人属性WER之间的差异仅为1.0%,表明准确的词对说话人关联。当系统不知道50%的与会者时,这一比例略微增加到1.6%。
论文作者
Takuya Yoshioka,Igor Abramovski,Cem Aksoylar,Zhuo Chen,Moshe David,DimitriadisYifan Gong,Ilya Gurvich,Xuedong Huang,Yan Hunhutz,Li Jiang,Sharon KoubiEyal Krupka,Ido Leichter,Changliang Liu,Parthasarathy,Alon Vinnikov,Lingfeng Wuxiang Xiao,Wayne Xiang,Huaming Wang,Zhenghao Zhang,Yong Zhao ,作者们来自美国微软团队