With the evolution of the concept of Speaker diarization using LSTM, it is relatively easier to understand the speaker identities for specific segments of input audio stream data than manually tagging the data. With such a concept, it is highly desirable to consider the possibility of using the identified speaker identities to aid in recognizing the Speaker States in a conversation. In this study, the Markov Chains are used to identify and update the Speaker States for the next conversations between the same set of speakers, to enable identification of their states in the most natural and long conversations. The model is based on several audio samples from natural conversations of three or greater than three speakers in two datasets with overall total error percentages for recognized states being lesser than or equal to 12%. The findings imply that the proposed extension to the Speaker diarization is effective to predict the states for a conversation.


翻译:随着使用LSTM的议长分化概念的演进,理解输入的音频流数据特定部分的发言者身份比人工标记数据要容易得多。有了这样一个概念,非常可取的是考虑使用已确认的发言者身份的可能性,以帮助在谈话中承认各发言国。在这项研究中,利用Markov 链子确定并更新同一组发言者之间下一次对话的议长国,以便能够在最自然和最长时间的谈话中确定各自国家的状态。该模型基于两个数据集中三个或三个以上发言者的自然谈话的若干音频样本,这两个数据集的总误差百分比低于或等于12%。研究结果表明,提议扩大议长分化的范围,可以有效地预测各州的对话情况。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
9+阅读 · 2017年10月17日
Arxiv
0+阅读 · 2021年9月5日
VIP会员
Top
微信扫码咨询专知VIP会员