基于音节模型的音频点播关键技术研究 - 专知基金

会员服务 ·

0

音节模型 · 语音识别 · 环境补偿 · 混响语音处理 ·

2013 年 12 月 31 日

基于音节模型的音频点播关键技术研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于音节模型的音频点播关键技术研究

项目编号： No.61301218

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 无线电电子学、电信技术

项目作者： 吕勇

作者单位： 河海大学

项目金额： 23万元

中文摘要： 针对汉语同音字多，音节较少, 多个汉字对应一个音节的特点，为每个汉语音节建立音频索引库，将用户发出的口语识别为音节序列。在匹配解码阶段，首先根据输入语音的音节序列信息，从音频索引库的相应音节条目中选取候选音频，再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配，提高了解码精度，降低了系统复杂度。在前端语音识别中，用非线性环境补偿技术对加性噪声、信道失真和室内混响进行补偿，提高语音识别的鲁棒性；并采用N-best算法选取前N个最有可能的语音单元作为输出结果，得到待识别语音的多个可能的音节序列，从而减小前端语音识别错误对后端音节序列匹配解码的影响。

中文关键词： 音频点播；音节模型；语音识别；环境补偿；混响语音处理

英文摘要： In Chinese, there are a large number of homophones and a small number of syllables, and more than one Chinese character corresponds to the same syllable. Therefore, the audio indexing library is established for every Chinese syllable and the input speech is recognized as a syllable sequence in this project. In the syllable matching procedure, the potential audio tracks are selected from the audio indexing library according to the syllable information of the input speech and then the syllable sequence of the input speech is compared with the syllable sequence of every potential audio track. The traditional text matching is replaced by the syllable sequence matching, which improves the decoding accuracy and reduces the system complexity. For the front-end speech recognition procedure, the nonlinear compensation technology is employed to compensate the additive noise, channel distortion and room reverberation, which can improve the robustness of speech recognition systems. Furthermore, the N-best algorithm is used to produce more than one potential syllable sequence of the input speech, which reduces the impact of the wrong speech recognition results and improves the accuracy of the syllable sequence decoding.

英文关键词： Audio-on-demand；Syllable model；Speech recognition；Environment compensation；Reverberant speech processing

成为VIP会员查看完整内容

0

相关内容

音节模型

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

视频隐私保护技术综述

视频隐私保护技术综述

专知会员服务

35+阅读 · 2022年1月19日

首篇「多模态摘要」综述论文

首篇「多模态摘要」综述论文

专知会员服务

106+阅读 · 2021年9月14日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

视频处理与压缩技术

专知会员服务

36+阅读 · 2021年2月20日

【博士论文】搜索引擎中的实体推荐关键技术研究

【博士论文】搜索引擎中的实体推荐关键技术研究

专知会员服务

45+阅读 · 2020年12月9日

多模态摘要简述

专知会员服务

147+阅读 · 2020年9月6日

【论文推荐】文本摘要简述

【论文推荐】文本摘要简述

专知会员服务

69+阅读 · 2020年7月20日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

下一代对话系统中的关键技术（下篇）

下一代对话系统中的关键技术（下篇）

PaperWeekly

2+阅读 · 2022年4月1日

如何亿点点降低语音识别跨领域、跨语种迁移难度？

如何亿点点降低语音识别跨领域、跨语种迁移难度？

微软研究院AI头条

0+阅读 · 2022年3月31日

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

量子位

0+阅读 · 2022年1月6日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

开放下载！《阿里语音与信号处理技术》精选集

开放下载！《阿里语音与信号处理技术》精选集

阿里技术

10+阅读 · 2019年6月5日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

加密域视频可逆数据隐藏关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于超声图像的静音语音识别关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于非线性语音谱分析的单通道语音增强研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

新一代汽车中智能语音处理若干关键技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于感知Hash和脆弱水印的数字音频保护模型

国家自然科学基金

0+阅读 · 2009年12月31日

基于感知模型和软计算的视频事件检测及关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于Lp优化的语音压缩感知理论和编码技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning

Arxiv

1+阅读 · 2022年4月20日

Reinforced Structured State-Evolution for Vision-Language Navigation

Arxiv

0+阅读 · 2022年4月20日

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion

Arxiv

1+阅读 · 2022年4月20日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

Quaternion Optimized Model with Sparse Regularization for Color Image Recovery

Arxiv

0+阅读 · 2022年4月19日

An Iterative Decoupled Algorithm with Unconditional Stability for Biot Model

Arxiv

0+阅读 · 2022年4月18日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

Invisible-to-Visible: Privacy-Aware Human Instance Segmentation using Airborne Ultrasound via Collaborative Learning Variational Autoencoder

Arxiv

0+阅读 · 2022年4月15日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

混响语音处理

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关VIP内容

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

视频隐私保护技术综述

视频隐私保护技术综述

专知会员服务

35+阅读 · 2022年1月19日

首篇「多模态摘要」综述论文

首篇「多模态摘要」综述论文

专知会员服务

106+阅读 · 2021年9月14日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

视频处理与压缩技术

专知会员服务

36+阅读 · 2021年2月20日

【博士论文】搜索引擎中的实体推荐关键技术研究

【博士论文】搜索引擎中的实体推荐关键技术研究

专知会员服务

45+阅读 · 2020年12月9日

多模态摘要简述

专知会员服务

147+阅读 · 2020年9月6日

【论文推荐】文本摘要简述

【论文推荐】文本摘要简述

专知会员服务

69+阅读 · 2020年7月20日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

相关资讯

下一代对话系统中的关键技术（下篇）

下一代对话系统中的关键技术（下篇）

PaperWeekly

2+阅读 · 2022年4月1日

如何亿点点降低语音识别跨领域、跨语种迁移难度？

如何亿点点降低语音识别跨领域、跨语种迁移难度？

微软研究院AI头条

0+阅读 · 2022年3月31日

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

量子位

0+阅读 · 2022年1月6日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

开放下载！《阿里语音与信号处理技术》精选集

开放下载！《阿里语音与信号处理技术》精选集

阿里技术

10+阅读 · 2019年6月5日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关基金

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

加密域视频可逆数据隐藏关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于超声图像的静音语音识别关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于非线性语音谱分析的单通道语音增强研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

新一代汽车中智能语音处理若干关键技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于感知Hash和脆弱水印的数字音频保护模型

国家自然科学基金

0+阅读 · 2009年12月31日

基于感知模型和软计算的视频事件检测及关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于Lp优化的语音压缩感知理论和编码技术的研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning

Arxiv

1+阅读 · 2022年4月20日

Reinforced Structured State-Evolution for Vision-Language Navigation

Arxiv

0+阅读 · 2022年4月20日

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion

Arxiv

1+阅读 · 2022年4月20日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

Quaternion Optimized Model with Sparse Regularization for Color Image Recovery

Arxiv

0+阅读 · 2022年4月19日

An Iterative Decoupled Algorithm with Unconditional Stability for Biot Model

Arxiv

0+阅读 · 2022年4月18日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

Invisible-to-Visible: Privacy-Aware Human Instance Segmentation using Airborne Ultrasound via Collaborative Learning Variational Autoencoder

Arxiv

0+阅读 · 2022年4月15日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

微信扫码咨询专知VIP会员