This paper presents Transcribe-to-Diarize, a new approach for neural speaker diarization that uses an end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR). The E2E SA-ASR is a joint model that was recently proposed for speaker counting, multi-talker speech recognition, and speaker identification from monaural audio that contains overlapping speech. Although the E2E SA-ASR model originally does not estimate any time-related information, we show that the start and end times of each word can be estimated with sufficient accuracy from the internal state of the E2E SA-ASR by adding a small number of learnable parameters. Similar to the target-speaker voice activity detection (TS-VAD)-based diarization method, the E2E SA-ASR model is applied to estimate speech activity of each speaker while it has the advantages of (i) handling unlimited number of speakers, (ii) leveraging linguistic information for speaker diarization, and (iii) simultaneously generating speaker-attributed transcriptions. Experimental results on the LibriCSS and AMI corpora show that the proposed method achieves significantly better diarization error rate than various existing speaker diarization methods when the number of speakers is unknown, and achieves a comparable performance to TS-VAD when the number of speakers is given in advance. The proposed method simultaneously generates speaker-attributed transcription with state-of-the-art accuracy.


翻译:虽然E2E SA-ASR模式最初没有估计任何与时间有关的信息,但我们显示,每个词的开始和结束时间都可以通过从E2E SA-ASR内部状态中足够精确地估计,方法是增加少量可学习参数。 类似于基于目标发言人语音活动探测(TS-VAD)的分化方法,E2E SA-ASR模式用于估计每个发言者的演讲活动,而E2E SA-ASR模式的优点是(一) 处理不受限制的发言者人数,(二) 利用发言者的语言信息进行分解,以及(三) 同时生成发言者所属的笔录。在LibCS-ASR和AMI 分化方法的实验结果中,在使用现有不为人数的分解方法时,在使用各种发言者的分解方法的分解率上,可以实现现有不为人知的发言者数字。

0
下载
关闭预览

相关内容

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
13+阅读 · 2021年2月25日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
47+阅读 · 2019年10月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年11月28日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
13+阅读 · 2021年2月25日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
47+阅读 · 2019年10月2日
相关资讯
Top
微信扫码咨询专知VIP会员