Speaker segmentation consists in partitioning a conversation between one or more speakers into speaker turns. Usually addressed as the late combination of three sub-tasks (voice activity detection, speaker change detection, and overlapped speech detection), we propose to train an end-to-end segmentation model that does it directly. Inspired by the original end-to-end neural speaker diarization approach (EEND), the task is modeled as a multi-label classification problem using permutation-invariant training. The main difference is that our model operates on short audio chunks (5 seconds) but at a much higher temporal resolution (every 16ms). Experiments on multiple speaker diarization datasets conclude that our model can be used with great success on both voice activity detection and overlapped speech detection. Our proposed model can also be used as a post-processing step, to detect and correctly assign overlapped speech regions. Relative diarization error rate improvement over the best considered baseline (VBx) reaches 18% on AMI, 17% on DIHARD 3, and 16% on VoxConverse.


翻译:音量断裂包括将一个或一个以上发言者之间的对话分成一个或几个发言者之间的音频旋转。 通常以三个子任务( 语音活动检测、 语音变化检测和重叠语音检测) 的延迟组合处理, 我们提议对一个端到端截断模式进行直接操作。 在最初的端到端神经扩音器分解法( EEND) 的启发下, 任务以多标签分类问题为模型, 使用超时变换培训。 主要的区别是, 我们的模型运行在短音块上( 5 秒), 但时间分辨率要高得多( 每16米 ) 。 对多个发言者的diarization 数据集的实验结论是, 我们的模型可以在语音活动检测和重叠语音检测两方面都非常成功地使用。 我们提议的模型也可以用作后处理步骤, 检测和正确分配重叠的语音区域。 相对于最佳考虑基线( VBx) 的相对diar化率改进在 AMI 上达到 18%, DIHARD 3 17% 和 Vox Converst 16% 上达到 。

1
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
53+阅读 · 2019年12月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
53+阅读 · 2019年12月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员