Speakers may move around while diarisation is being performed. When a microphone array is used, the instantaneous locations of where the sounds originated from can be estimated, and previous investigations have shown that such information can be complementary to speaker embeddings in the diarisation task. However, these approaches often assume that speakers are fairly stationary throughout a meeting. This paper relaxes this assumption, by proposing to explicitly track the movements of speakers while jointly performing diarisation within a unified model. A state-space model is proposed, where the hidden state expresses the identity of the current active speaker and the predicted locations of all speakers. The model is implemented as a particle filter. Experiments on a Microsoft rich meeting transcription task show that the proposed joint location tracking and diarisation approach is able to perform comparably with other methods that use location information.


翻译:使用麦克风阵列时,声源的瞬时位置可以估计,而以往的调查显示,这种信息可以补充将发言者嵌入二分法的任务,但是,这些方法往往假定发言者在整个会议期间相当固定。本文放宽了这一假设,提议明确跟踪发言者的移动情况,同时在一个统一的模型内联合进行二分法。提出了州空间模型,其中隐藏状态表示当前活跃发言者的身份和所有发言者的预测位置。该模型作为粒子过滤器实施。对微软富集的会议记录处理任务进行的实验显示,拟议的联合地点跟踪和分解方法能够与使用定位信息的其他方法进行比较。

0
下载
关闭预览

相关内容

中国金融科技生态白皮书,73页pdf
专知会员服务
44+阅读 · 2021年10月30日
专知会员服务
109+阅读 · 2021年1月1日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
Arxiv
110+阅读 · 2020年2月5日
Learning Discriminative Model Prediction for Tracking
Arxiv
8+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年9月27日
VIP会员
相关VIP内容
中国金融科技生态白皮书,73页pdf
专知会员服务
44+阅读 · 2021年10月30日
专知会员服务
109+阅读 · 2021年1月1日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
Top
微信扫码咨询专知VIP会员