基于因子分析的会话语音说话人识别研究 - 专知基金

会员服务 ·

1

说话人识别 · 因子分析 ·

2015 年 12 月 31 日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于因子分析的会话语音说话人识别研究

项目编号： No.11504406

项目类型： 青年科学基金项目

立项/批准年度： 2016

项目学科： 数理科学和化学

项目作者： 杨琳

作者单位： 中国科学院声学研究所

项目金额： 24万元

中文摘要： 无论在国家安全还是民用领域，实际应用中获取的语音数据大多是包含多人会话的录音，如电话对话、会议录音、网络聊天等，针对这种实际语音进行说话人身份确认或追踪的问题尤为重要。对这类问题的解决包括说话人分段聚类和说话人识别两个方面，本项目重点研究基于因子分析的说话人建模技术在说话人分段聚类和说话人识别中的应用，通过对少量因子的估计建立更准确的模型；基于说话人因子研究未知类别数目情况下的说话人聚类算法；通过研究对说话人因子的补偿和打分技术，解决聚类后短时语音说话人识别问题和对聚类结果的容错性。在此研究基础上，构建基于因子分析的会话语音说话人识别系统，推动说话人识别技术在实际应用中不断完善和发展。本研究的相关建模方法和聚类方法对图像分析、语音识别的其他领域也有借鉴意义。

中文关键词： 说话人识别；说话人聚类；因子分析；分段聚类；说话人日志

英文摘要： Whatever in the field of national security or for civil use, the recorded speech are mainly saved as the conversational format, for example television and meeting recordings, and the voice chats in internet. It is important to study on speaker identification and diarization for the conversational speech. This problem can be solved by speaker segmentation and speaker clustering. To address these issues, this project focus on the research of speaker modeling based on factor analysis, which estimates a small quantity of parameters. Also based on the speaker factor, we make a study of the speaker clustering with automatically estimating the number of clusters. Moreover in this work we try to solve the short-time speaker recognition and enhance the fault-tolerant ability by factor compensation and scoring. Based on the research achievement we are devoted to establish the framework of speaker recognition for conversational speech, in order to motivate the practical application of speaker recognition. This modeling method can be further extended to other areas such as speech recognition and image analysis.

英文关键词： speaker recognition;speaker cluster;factor analysis;segment and cluster;speaker diarization

成为VIP会员查看完整内容

1

相关内容

说话人识别

说话人识别

对话推荐算法研究综述

对话推荐算法研究综述

专知会员服务

37+阅读 · 2022年4月4日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

基于强化学习的推荐研究综述

基于强化学习的推荐研究综述

专知会员服务

84+阅读 · 2021年10月21日

基于深度学习的多方对话研究综述

专知会员服务

37+阅读 · 2021年8月25日

基于深度学习的语音合成与转换技术综述

专知会员服务

30+阅读 · 2021年8月16日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

文本情感分析方法研究综述

专知会员服务

56+阅读 · 2021年4月20日

虚假评论识别研究综述

专知会员服务

52+阅读 · 2021年1月19日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

194+阅读 · 2020年12月3日

[综述]基于深度学习的开放领域对话系统研究综述

[综述]基于深度学习的开放领域对话系统研究综述

专知会员服务

80+阅读 · 2019年10月12日

「对话推荐算法」最新2022研究综述

「对话推荐算法」最新2022研究综述

专知

6+阅读 · 2022年4月5日

语音合成：模拟最像人类声音的系统

语音合成：模拟最像人类声音的系统

PaperWeekly

2+阅读 · 2021年11月30日

对话推荐算法研究综述

对话推荐算法研究综述

机器学习与推荐算法

0+阅读 · 2021年11月26日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

赛尔笔记|基于深度学习方法的对话状态跟踪综述

赛尔笔记|基于深度学习方法的对话状态跟踪综述

哈工大SCIR

2+阅读 · 2021年6月29日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

LibRec智能推荐

41+阅读 · 2019年5月9日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

基于压缩感知的单通道混合语音分离理论及算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多示例学习和半监督学习的手势语识别的研究

国家自然科学基金

0+阅读 · 2013年12月31日

多语言语音识别声学建模理论和容错识别新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于压缩感知的鲁棒性语音情感识别研究

国家自然科学基金

3+阅读 · 2012年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于情感上下文的视觉语音多模态协同情感分析方法研究

国家自然科学基金

4+阅读 · 2012年12月31日

傣语文本分析与语音合成研究

国家自然科学基金

0+阅读 · 2012年12月31日

多重集典型相关分析的特征抽取理论及扩展研究

国家自然科学基金

0+阅读 · 2012年12月31日

说话人识别中时变鲁棒的声纹特征研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于Lp优化的语音压缩感知理论和编码技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

GIMO: Gaze-Informed Human Motion Prediction in Context

Arxiv

1+阅读 · 2022年4月20日

Binary Multi Channel Morphological Neural Network

Arxiv

0+阅读 · 2022年4月19日

Supervised Contrastive Learning for Recommendation

Arxiv

0+阅读 · 2022年4月19日

MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages

Arxiv

0+阅读 · 2022年4月18日

Imagination-Augmented Natural Language Understanding

Arxiv

0+阅读 · 2022年4月18日

Research on Domain Information Mining and Theme Evolution of Scientific Papers

Arxiv

0+阅读 · 2022年4月18日

Transfer Learning for Electricity Price Forecasting

Arxiv

3+阅读 · 2022年4月18日

Impact of Phase-Noise and Spatial Correlation on Double-RIS-Assisted Multiuser MISO Networks

Arxiv

0+阅读 · 2022年4月17日

Pre-training Methods in Information Retrieval

Arxiv

1+阅读 · 2022年4月15日

A Survey on Neural Speech Synthesis

Arxiv

14+阅读 · 2021年6月30日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

说话人识别

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关VIP内容

对话推荐算法研究综述

对话推荐算法研究综述

专知会员服务

37+阅读 · 2022年4月4日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

基于强化学习的推荐研究综述

基于强化学习的推荐研究综述

专知会员服务

84+阅读 · 2021年10月21日

基于深度学习的多方对话研究综述

专知会员服务

37+阅读 · 2021年8月25日

基于深度学习的语音合成与转换技术综述

专知会员服务

30+阅读 · 2021年8月16日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

文本情感分析方法研究综述

专知会员服务

56+阅读 · 2021年4月20日

虚假评论识别研究综述

专知会员服务

52+阅读 · 2021年1月19日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

194+阅读 · 2020年12月3日

[综述]基于深度学习的开放领域对话系统研究综述

[综述]基于深度学习的开放领域对话系统研究综述

专知会员服务

80+阅读 · 2019年10月12日

相关资讯

「对话推荐算法」最新2022研究综述

「对话推荐算法」最新2022研究综述

专知

6+阅读 · 2022年4月5日

语音合成：模拟最像人类声音的系统

语音合成：模拟最像人类声音的系统

PaperWeekly

2+阅读 · 2021年11月30日

对话推荐算法研究综述

对话推荐算法研究综述

机器学习与推荐算法

0+阅读 · 2021年11月26日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

赛尔笔记|基于深度学习方法的对话状态跟踪综述

赛尔笔记|基于深度学习方法的对话状态跟踪综述

哈工大SCIR

2+阅读 · 2021年6月29日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

LibRec智能推荐

41+阅读 · 2019年5月9日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关基金

基于压缩感知的单通道混合语音分离理论及算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多示例学习和半监督学习的手势语识别的研究

国家自然科学基金

0+阅读 · 2013年12月31日

多语言语音识别声学建模理论和容错识别新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于压缩感知的鲁棒性语音情感识别研究

国家自然科学基金

3+阅读 · 2012年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于情感上下文的视觉语音多模态协同情感分析方法研究

国家自然科学基金

4+阅读 · 2012年12月31日

傣语文本分析与语音合成研究

国家自然科学基金

0+阅读 · 2012年12月31日

多重集典型相关分析的特征抽取理论及扩展研究

国家自然科学基金

0+阅读 · 2012年12月31日

说话人识别中时变鲁棒的声纹特征研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于Lp优化的语音压缩感知理论和编码技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

GIMO: Gaze-Informed Human Motion Prediction in Context

Arxiv

1+阅读 · 2022年4月20日

Binary Multi Channel Morphological Neural Network

Arxiv

0+阅读 · 2022年4月19日

Supervised Contrastive Learning for Recommendation

Arxiv

0+阅读 · 2022年4月19日

MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages

Arxiv

0+阅读 · 2022年4月18日

Imagination-Augmented Natural Language Understanding

Arxiv

0+阅读 · 2022年4月18日

Research on Domain Information Mining and Theme Evolution of Scientific Papers

Arxiv

0+阅读 · 2022年4月18日

Transfer Learning for Electricity Price Forecasting

Arxiv

3+阅读 · 2022年4月18日

Impact of Phase-Noise and Spatial Correlation on Double-RIS-Assisted Multiuser MISO Networks

Arxiv

0+阅读 · 2022年4月17日

Pre-training Methods in Information Retrieval

Arxiv

1+阅读 · 2022年4月15日

A Survey on Neural Speech Synthesis

Arxiv

14+阅读 · 2021年6月30日

微信扫码咨询专知VIP会员