This paper proposes a novel online speaker diarization algorithm based on a fully supervised self-attention mechanism (SA-EEND). Online diarization inherently presents a speaker's permutation problem due to the possibility to assign speaker regions incorrectly across the recording. To circumvent this inconsistency, we proposed a speaker-tracing buffer mechanism that selects several input frames representing the speaker permutation information from previous chunks and stores them in a buffer. These buffered frames are stacked with the input frames in the current chunk and fed into a self-attention network. Our method ensures consistent diarization outputs across the buffer and the current chunk by checking the correlation between their corresponding outputs. Additionally, we trained SA-EEND with variable chunk-sizes to mitigate the mismatch between training and inference introduced by the speaker-tracing buffer mechanism. Experimental results, including online SA-EEND and variable chunk-size, achieved DERs of 12.54% for CALLHOME and 20.77% for CSJ with 1.4s actual latency.


翻译:本文基于一个完全监督的自我注意机制(SA-END),提出了一个新的在线演讲者分解算法。 在线对称必然呈现出一个演讲者的分解问题, 原因是在记录中可能错误地分配发言区域。 为避免这种不一致, 我们提议了一个语音追踪缓冲机制, 选择代表发言者先前各块的变换信息的若干输入框, 并将其储存在缓冲中。 这些缓冲框与当前块中的输入框堆叠在一起, 并输入到一个自控网络中。 我们的方法通过检查缓冲和当前块之间的关联性, 来确保整个缓冲和当前块的分解输出一致。 此外, 我们用不同的块大小对 SA- EEND 进行了培训, 以缓解发言者缓冲机制引入的培训和推论之间的不匹配。 实验结果, 包括在线SA- EEND 和可变块大小, ACHOME实现了12.54%的D, CSJ为20.77%的D, 实际拉特。

0
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Nature 一周论文导读 | 2019 年 2 月 21 日
科研圈
14+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Teacher-Student Training for Robust Tacotron-based TTS
Phase-aware Speech Enhancement with Deep Complex U-Net
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Nature 一周论文导读 | 2019 年 2 月 21 日
科研圈
14+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员