会员服务 ·

0

端到端音视频说话人日志网络，一作解读INTERSPEECH 2022论文

2022 年 11 月 3 日 PaperWeekly

SH Symposium Series on Speech (SH SSS 2022)

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。

来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题

Tittle

端到端音视频说话人日志网络

时间

Time

2022年11月8日 19:00 - 19:45

嘉宾

Author

何茂奎：中国科学技术大学语音及语言信息处理国家工程研究中心博士生，主要研究方向为纯音频及音视频说话人日志。合作文章曾发表于INTERSPEECH、ICASSP等语音领域会议。

概述

Abstract

本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征（例如 FBANK）、多说话人唇型（ROI）和多说话人 i-vector向量作为多模态输入。同时输出多个说话人的帧级语音/非语音概率。通过精心设计的端到端结构，所提出的方法可以很好处理重叠语音问题，并通过多模态信息准确地区分语音和非语音。i-vector是解决由视觉模态错误（例如唇部遮挡或检测不可靠）引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估，所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER)，而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。

题目 Tittle

中文：端到端音视频说话人日志网络

英文：End-to-End Audio-Visual Neural Speaker Diarization

收录会议 source title

INTERSPEECH 2022

作者 Authors

何茂奎，杜俊，李锦辉

论文地址 Url

https://www.isca-speech.org/archive/pdfs/interspeech_2022/he22c_interspeech.pdf

论文代码 Code

https://mispchallenge.github.io/mispchallenge2022

议程

Program Overview

时间	主题	嘉宾
19:00-19:30	端到端音视频说话人日志网络	何茂奎
19:30-19:45	Q&A	何茂奎

参与方式

Joining

直播将通过语音之家微信视频号进行直播

手机端、PC端可同步观看

活动奖品

11月8日在直播间，为大家准备3件 SpeechHome 主题T恤，观看直播互动即可抽取。

扫码添加小管家进讨论群

👇👇👇

投稿

Call For Papers

在语音领域，您的文章内容具有技术创意性、重要性、论文解读清晰均可投稿！

投稿方式

Contact us

投稿邮箱

jack@speechhome.com

联系人微信

戳“阅读原文”了解《Kaldi语音识别理论与实践》详细内容及报名通道

永久福利直投简历

简历投递：join@speechhome.com

VjoinU 内推助力，leader直收简历

扫码关注我们

助力AI语音开发者的社区

·.jpg

登录查看更多

4

相关内容

INTERSPEECH

INTERSPEECH是关于口语处理科学和技术的全球最大、最全面的会议。INTERSPEECH会议强调跨学科的方法，涉及语音科学和技术的各个方面，从基础理论到高级应用。官网地址：http://dblp.uni-trier.de/db/conf/interspeech/index.html

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

近期必读的5篇顶会CVPR 2021【视频理解】相关论文和代码

专知会员服务

38+阅读 · 2021年3月31日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

腾讯AI实验室

1+阅读 · 2022年5月7日

直播预告 | AAAI 2022论文解读：基于生成模型的语音/歌声合成与歌声美化

直播预告 | AAAI 2022论文解读：基于生成模型的语音/歌声合成与歌声美化

PaperWeekly

0+阅读 · 2022年2月28日

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

阿里技术

2+阅读 · 2021年9月5日

Interspeech 2021 | 腾讯AI Lab解读9篇入选论文

Interspeech 2021 | 腾讯AI Lab解读9篇入选论文

腾讯AI实验室

0+阅读 · 2021年8月31日

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE

0+阅读 · 2021年8月10日

大数据错误检测与修复关键技术的研究

国家自然科学基金

2+阅读 · 2014年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

国家自然科学基金

0+阅读 · 2012年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

面向多媒体信息检索的语音处理关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for Video Prediction

Arxiv

0+阅读 · 2022年12月30日

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application

Arxiv

13+阅读 · 2022年11月23日

Interpretable CNNs for Object Classification

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

VIP会员

相关主题

高质量论文

相关VIP内容

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

近期必读的5篇顶会CVPR 2021【视频理解】相关论文和代码

专知会员服务

38+阅读 · 2021年3月31日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

腾讯AI实验室

1+阅读 · 2022年5月7日

直播预告 | AAAI 2022论文解读：基于生成模型的语音/歌声合成与歌声美化

直播预告 | AAAI 2022论文解读：基于生成模型的语音/歌声合成与歌声美化

PaperWeekly

0+阅读 · 2022年2月28日

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

阿里技术

2+阅读 · 2021年9月5日

Interspeech 2021 | 腾讯AI Lab解读9篇入选论文

Interspeech 2021 | 腾讯AI Lab解读9篇入选论文

腾讯AI实验室

0+阅读 · 2021年8月31日

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE

0+阅读 · 2021年8月10日

相关基金

大数据错误检测与修复关键技术的研究

国家自然科学基金

2+阅读 · 2014年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

国家自然科学基金

0+阅读 · 2012年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

面向多媒体信息检索的语音处理关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for Video Prediction

Arxiv

0+阅读 · 2022年12月30日

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application

Arxiv

13+阅读 · 2022年11月23日

Interpretable CNNs for Object Classification

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

隐秘的头发

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员